Rilevamento di colpi di tosse e stress vocale

maggio, 2024

Sommario

Il rilevamento di colpi di tosse e stress vocale è un'applicazione analitica che rileva eventi ascoltando l'audio circostante 24 ore su 24 e 7 giorni su 7.

L'applicazione è preinstallata su alcune telecamere Axis con microfono integrato. È composta da due algoritmi separati che possono essere utilizzati singolarmente o insieme.

Il rilevatore di tosse rileva singoli colpi o attacchi di tosse, consentendo al personale di soccorrere rapidamente una persona. Il rilevatore di stress vocale identifica modelli sonori associati a coercizione, rabbia o paura ed è efficace per scoraggiare atti di criminalità, ridurre le aggressioni o indicare le persone che necessitano di aiuto.

La privacy è protetta perché il rilevamento colpi di tosse e stress vocale non deve memorizzare dati audio per funzionare correttamente. L'audio non viene registrato a meno che la registrazione audio non sia abilitata esplicitamente.

È possibile configurare diverse impostazioni per fare in modo che l'analitica funzioni in modo ottimale in base all'applicazione. Il rilevamento colpi di tosse e stress vocale esegue anche controlli diagnostici continui per verificare che funzioni correttamente.

Introduzione

Le analitiche di rilevamento audio di una telecamera sono un complemento efficace alla videosorveglianza. Consentono il rilevamento tempestivo e segnalano potenziali eventi, anche prima di riscontrarli a video.

Il rilevamento di colpi di tosse e stress vocale è un'applicazione analitica audio che ascolta l'ambiente circostante 24 ore su 24 e 7 giorni su 7 per classificare e filtrare i suoni. Quando rileva un colpo di tosse o una voce stressata, l'applicazione genera un avviso.

Questo documento tecnico descrive il rilevamento di colpi di tosse e stress vocale e spiega come configurarlo per un rilevamento ottimale.

Rilevatore di colpi di tosse e stress vocale

Il rilevamento di colpi di tosse e stress vocale è preinstallato su alcune telecamere Axis con microfono integrato. I rilevatori captano gli indicatori sonori di eventi in tempo reale, direttamente sulla telecamera. È possibile scegliere di utilizzare un solo rilevatore o entrambi.

Il rilevatore di colpi di tosse funziona rilevando i colpi di tosse e conteggiandoli in un intervallo di tempo. Consente al personale di intervenire rapidamente se qualcuno tossisce o ha un attacco di tosse prolungato. È in grado di rilevare attacchi prolungati o un singolo colpo di tosse, a seconda delle impostazioni.

Per ridurre le notifiche multiple di eventi in un intervallo di tempo molto breve, appena viene conteggiato il primo colpo di tosse inizia un blocco di 5 secondi. Se l'analitica è impostata su 3 colpi di tosse in 30 secondi, conteggia il colpo di tosse successivo solo se sono trascorsi almeno 5 secondi dal precedente. I colpi di tosse intermedi, prodotti durante il tempo di blocco di 5 secondi, non vengono conteggiati. Con queste impostazioni, dunque, un avviso viene inviato solo dopo aver conteggiato 3 colpi di tosse con almeno 5 secondi di pausa tra ognuno.

Il rilevatore di stress vocale identifica modelli sonori associati a coercizione, rabbia o paura dalla voce di una persona. Al riconoscimento, il sistema invia una notifica automatica al personale mediante un avviso visivo o un allarme. L'allarme tempestivo consente al personale di intervenire rapidamente. Può essere utile a una persona che necessita di assistenza o per impedire che la situazione degeneri e sfoci in un'aggressione fisica.

Rilevamento di colpi di tosse e stress vocale in ambiente sanitario.

Rilevamento audio ottimale

Posizionamento delle telecamere. La telecamera con le analitiche deve essere posizionata ad almeno 1,5 metri da fonti di interferenze acustiche, come sistemi di climatizzazione, sistemi di avviso al pubblico, altoparlanti e porte che sbattono. Inoltre, la telecamera deve essere posizionata preferibilmente in linea visiva rispetto all'area in cui si desidera rilevare l'audio: pur non essendo strettamente necessario, questo accorgimento può consentire un rilevamento più accurato perché i suoni possono alterarsi in presenza di angoli od ostacoli. Alcune frequenze, ad esempio, non riescono ad aggirarli.
Sensibilità. Il sistema di rilevamento può essere messo a punto regolando le impostazioni di sensibilità. Una sensibilità più elevata aumenta i rilevamenti, anche indesiderati (falsi allarmi), ma può essere necessaria se è importante non perdere alcun rilevamento. Con una sensibilità inferiore, i rilevamenti vengono segnalati solo quando si ha la certezza assoluta che il suono è classificato in modo corretto. Il rischio di perdere potenziali eventi è maggiore, ma una bassa sensibilità può essere necessaria se si prevedono molti falsi allarmi.
Modalità di raccolta dati. Dopo l'installazione, è possibile utilizzare la modalità di raccolta dati per un certo periodo, in modo da ottenere informazioni dettagliate sui tipi di audio rilevati. I risultati e l'analisi possono fornire informazioni sul livello di sensibilità ottimale per quel particolare sistema.
Soglia di rilevamento tosse. È possibile impostare la soglia di rilevamento su un numero minimo di colpi di tosse. L'allarme viene attivato solo se il numero di colpi di tosse raggiunge la soglia nel periodo di tempo prestabilito.
Impostazioni avanzate. Le impostazioni avanzate sono riservate agli utenti esperti. Eventuali modifiche possono causare errori di rilevamento o la sua totale assenza. In scenari specifici, però, potrebbe essere necessario modificare queste impostazioni, ma solo se è stato consigliato o dopo aver consultato un esperto del sistema.

Distinzione multisensore

Se le telecamere si trovano l'una vicina all'altra, ad esempio in stanze adiacenti, lo stesso evento audio potrebbe essere rilevato da più telecamere: dunque, può essere più difficile capire dove si è verificato con esattezza.

In questi casi, la funzione di distinzione multisensore può essere utile per il rilevamento dello stress vocale. Quando la funzione è attiva e più telecamere rilevano la stessa voce, solo la telecamera che l'ha rilevata per prima attiva una notifica. In questo modo, le telecamere vicine lavorano insieme per ridurre i falsi e i doppi allarmi per lo stesso evento.

Senza distinzione multisensore: le telecamere nelle stanze adiacenti rilevano lo stesso evento vocale e creano più allarmi.
Con la distinzione multisensore, solo la telecamera più vicina segnala un rilevamento.

Con la distinzione multisensore si creano gruppi di “peer“ per raggruppare le telecamere vicine, che si trovano nel raggio di ricezione audio reciproco. Vi sono però alcune limitazioni:

Tutti i peer devono essere utilizzare la sincronizzazione dell'ora tramite NTP.
Tutti i peer devono eseguire la stessa versione dell'applicazione di rilevamento colpi di tosse e stress vocale.
Tutti i peer devono essere in grado di raggiungersi attraverso la rete.

Se una delle suddette condizioni non è soddisfatta, il peer torna alla modalità standalone e si imposta come degradato.

Sovrimpressioni

Al segnale video è possibile sovrapporre uno spettrogramma in tempo reale e le notifiche dell'applicazione. È possibile personalizzare le dimensioni delle sovrimpressioni e trascinarle nella posizione desiderata. È anche possibile regolarne l'opacità con un cursore.

Le notifiche dell'applicazione mostrano gli eventi rilevati dalla telecamera e lo stato dell'applicazione.

Lo spettrogramma è una rappresentazione visiva dell'audio. Ascoltare l'audio e vederlo rappresentato visivamente può essere utile per determinare la gravità di un evento in modo tempestivo.

Tipi di eventi e condizioni diagnostiche del sistema

Gli eventi generati dal rilevatore di colpi di tosse e dal rilevatore di stress vocale sono senza stato. Si tratta di eventi momentanei che vengono attivati da un rilevamento. Una volta trascorso il tempo di blocco eventi (cinque secondi, configurabile), un rilevamento genera un nuovo evento.

Le condizioni diagnostiche del sistema di rilevamento colpi di tosse e stress vocale sono evidenziate dagli eventi con stato. In questo tipo di eventi, lo stato dell'evento rimane attivo finché si verifica la condizione e si attiva/disattiva solo quando la condizione si risolve.

Il sistema integra controlli diagnostici per verificare il corretto funzionamento e segnalare eventuali problemi. Per il rilevamento colpi di tosse e stress vocale è possibile distinguere tre stati diagnostici:

Condizioni ottimali: funzionamento normale. Il rilevamento è possibile.
Stato degradato: l'operazione viene eseguita in modalità degradata. In genere, questa condizione è causata da fattori temporanei, come la perdita di segnale di una telecamera peer, il clipping audio dovuto a suoni molto forti o il sovraccarico del buffer audio. Nello stato degradato, i rilevamenti sono possibili, ma possono verificarsi più falsi rilevamenti o mancati rilevamenti. Normalmente, lo stato degradato si risolve da solo.
Malfunzionamento: nessuna operazione. Il rilevamento non è possibile. In genere, questa condizione è causata da fattori che non si risolvono da soli, come la disabilitazione del supporto audio nelle impostazioni del dispositivo o la disattivazione del guadagno dell'ingresso audio.

Lo stato degradato e di malfunzionamento viene visualizzato nel pannello informativo e in sovrimpressione (se abilitata), per avvisare l'operatore.

Ogni 60 secondi viene attivato un evento di tipo heartbeat (se abilitato, con intervallo configurabile). Può essere utilizzato sul lato ricevente per verificare che l'analitica sia attiva e segnalare la mancata ricezione di un heartbeat. In condizioni di malfunzionamento, gli eventi heartbeat non vengono inviati.

Privacy

I dati audio vengono elaborati e analizzati sulla telecamera e non occorre memorizzare dati audio per far funzionare correttamente il rilevamento colpi di tosse e stress vocale. Le registrazioni audio vengono effettuate solo se abilitate esplicitamente. Possono essere utili agli esperti durante le indagini forensi, per risolvere problemi quando vengono segnalati falsi positivi o per riascoltare gli eventi qualora non siano supportati dal sistema di gestione video.