Detecção de tosse e gritos

setembro, 2025

Resumo

A detecção de tosse e gritos é um aplicativo de analíticos de áudio que detecta incidentes monitorando o áudio ao redor 24/7.

O aplicativo vem pré-instalado em câmeras Axis selecionadas com microfone integrado. Ele consiste em dois algoritmos de detecção separados e você pode optar por usar um deles ou ambos.

O detector de tosse detecta tosses únicas ou ataques de tosse, permitindo que o pessoal responda rapidamente às pessoas necessitadas. O detector de gritos é uma ferramenta eficaz para impedir crimes, reduzir assaltos ou sinalizar pessoas que precisem de ajuda.

A privacidade é protegida porque a detecção de tosse e gritos não precisa armazenar nenhum dado de áudio para funcionar corretamente. O áudio não é gravado, a menos que você tenha ativado explicitamente a gravação de áudio.

Você pode definir várias configurações para fazer com que os analíticos funcionem de maneira ideal para seu caso de uso. A detecção de tosse e gritos também realiza verificações contínuas da integridade para verificar o funcionamento adequado.

Introdução

Analíticos de detecção de áudio em uma câmera são um complemento poderoso para o videomonitoramento. Eles permitem a detecção precoce e alertas sobre possíveis incidentes, possivelmente antes de serem descobertos no vídeo.

A detecção de tosse e gritos é um aplicativo de analíticos de áudio que monitora o ambiente 24/7 para classificar e filtrar sons. Quando um ataque de tosse ou gritos são detectados, o aplicativo gera um alerta.

Este white paper apresenta a detecção de tosse e gritos e como ela é configurada para uma detecção otimizada.

Detector de tosse e detector de gritos

A detecção de tosse e gritos é fornecida pré-instalada em câmeras Axis selecionadas com microfone integrado. Os detectores captam indicadores sonoros de incidentes em tempo real, diretamente na câmera. Você pode optar por usar um dos detectores ou ambos.

O detector de tosse detecta e conta sons de tosse em um intervalo de tempo. Ele permite que o pessoal responda rapidamente quando alguém está tossindo ou tendo um ataque de tosse. O detector pode detectar ataques de tosse ou uma única tosse, dependendo de como você o configurou.

Para reduzir várias notificações de eventos em um intervalo de tempo muito curto, assim que a primeira tosse é contada, um período de bloqueio de 5 segundos é iniciado. Se o analítico for configurado para 3 tosses dentro de 30 segundos, ele só contará a próxima tosse se houver um intervalo de pelo menos 5 segundos da tosse anterior. Tosses intermediárias dentro do período de bloqueio de 5 segundos não serão contadas. Isso significa que, com essas configurações, um alerta só será enviado após a contagem de 3 tosses com pelo menos 5 segundos de intervalo entre cada uma delas.

O detector de gritos identifica padrões de som associados a vozes de pessoas gritando. Após o reconhecimento, o sistema envia uma notificação automática aos funcionários por meio de um alerta visual ou acionando um alarme. O aviso prévio permite que o pessoal responda rapidamente. Eles podem oferecer ajuda a uma pessoa necessitada ou prevenir uma escalada que poderia levar à agressão física.

Detecção de tosse e gritos utilizada em ambientes de serviços de saúde.

Ativar detecção de áudio ideal

Posicionamento da câmera. A câmera com analíticos deve ser colocada a pelo menos 1.5 metro (5 pés) de distância de fontes de ruído que possam causar interferência, como sistemas HVAC, sistemas de comunicados ao público ou de alto-falantes e portas batendo. Além disso, a câmera deve ser preferencialmente colocada na linha de visão da área onde você deseja detectar o áudio. Embora a linha de visão não seja um requisito estrito, ela pode permitir uma detecção mais precisa. Isso ocorre porque os sons podem ser afetados quando eles contornam cantos ou obstáculos. Por exemplo, nem todas as frequências se curvam no mesmo grau.
Sensibilidade. O sistema de detecção pode ser ajustado por meio das configurações de sensibilidade. Uma sensibilidade mais alta produzirá mais detecções. Ela aumenta o risco de detecções indesejadas (alarmes falsos), mas pode ser necessária quando é crucial nunca perder uma detecção. Com uma sensibilidade mais baixa, as detecções serão reportadas apenas quando houver certeza de que o som está classificado corretamente. Isso aumenta o risco de perder potenciais incidentes, mas pode ser necessária uma sensibilidade baixa quando, de outra forma, existiriam muitos alarmes falsos.
Modo de coleta de dados. Você pode usar o modo de coleta de dados por um período de tempo após a instalação para obter informações sobre quais tipos de áudio são detectados. Os resultados e a análise podem fornecer informações sobre qual nível de sensibilidade é ideal para uma instalação específica.
Limite de detecção de tosse. Você pode definir o limite de quantas tosses serão necessárias. Um alarme será acionado somente quando o número de tosses atingir o limite no período de tempo atribuído.
Configurações avançadas. As configurações avançadas são apenas para usuários experientes. As alterações podem levar a detecções incorretas ou a nenhuma detecção. No entanto, para cenários específicos, pode ser necessário alterar essas configurações. Isso deve ser feito somente quando aconselhado ou em consulta com um especialista em sistemas.

Reconhecimento multissensor

Quando as câmeras são colocadas próximas umas das outras, por exemplo, em salas adjacentes, o mesmo incidente de áudio pode ser detectado por múltiplas câmeras. Isso pode tornar mais difícil identificar onde o incidente está ocorrendo.

Para detecção de gritos, o recurso de reconhecimento multissensor pode ser útil. Se várias câmeras captarem os mesmos gritos quando o recurso estiver ativado, apenas a câmera que captou a ocorrência primeiro acionará uma notificação. Dessa forma, câmeras próximas trabalham juntas para reduzir eventos falsos e notificações duplicadas para o mesmo evento.

Sem reconhecimento multissensor: câmeras em salas adjacentes detectam o mesmo incidente envolvendo gritos e geram vários alarmes.
Com reconhecimento multissensor, apenas a câmera mais próxima relata uma detecção.

Com o reconhecimento multissensor, você cria grupos de peers para agrupar câmeras próximas que estejam dentro do alcance de captação de áudio umas das outras. Algumas restrições se aplicam:

Todos os peers devem ser configurados para usar a sincronização de horário NTP.
Todos os peers devem executar a mesma versão da detecção de tosse e gritos.
Todos os peers devem ser capazes de se comunicar por meio da rede.

Se alguma das opções acima falhar, o peer voltará ao modo autônomo e se marcará como degradado.

Sobreposições

Um espectrograma ao vivo e notificações de aplicativos podem ser sobrepostos ao feed de vídeo. Você pode personalizar o tamanho das sobreposições e arrastá-las para a posição desejada. Você pode ajustar a opacidade da sobreposição usando um controle deslizante.

As notificações do aplicativo mostrarão os eventos detectados pela câmera e qual é o status do aplicativo.

O espectrograma fornece uma representação visual do áudio. Ouvir o áudio e ver simultaneamente sua representação visual pode ajudar você a determinar rapidamente a gravidade de um incidente.

Tipos de eventos e status de integridade

Os eventos gerados pelo detector de tosse e gritos são do tipo sem estado. São ocorrências momentâneas que são desencadeadas por uma detecção. Depois que o tempo de bloqueio do evento (cinco segundos, configurável) expirar, uma detecção vai gerar um novo evento.

O status da integridade da detecção de tosse e gritos é refletido pelo uso de eventos com estado. Com eventos com estado, o estado do evento permanece ativo enquanto a condição ocorrer e alterna somente quando a condição for resolvida.

As verificações de integridade são integradas para verificar a operação adequada e alertar quando algo está errado. Três estados de integridade podem ser distinguidos para a detecção de tosse e gritos:

Estado saudável: operação normal. As detecções são possíveis.
Estado degradado: a operação está sendo executada em modo degradado. Isso normalmente é causado por fatores temporários, como perda de uma câmera peer, corte de áudio devido a sons muito altos ou saturação do buffer de áudio. No estado degradado, as detecções são possíveis, mas pode haver mais detecções falsas ou detecções perdidas. O estado degradado normalmente se resolve sozinho.
Estado de mau funcionamento: sem operação. Nenhuma detecção é possível. Isso geralmente é causado por fatores que não se resolvem sozinhos, como a desativação do suporte de áudio nas configurações do dispositivo ou o silenciamento do ganho de entrada de áudio.

O estado degradado e de mau funcionamento será exibido no painel de informações e também na sobreposição de texto (se ativado), para que o operador saiba que o aplicativo está sendo executado com integridade degradada ou mau funcionamento detectado.

Um evento de pulsação é acionado a cada 60 segundos (quando ativado, definição de tempo configurável). Ele pode ser usado no receptor para verificar se os analíticos estão funcionando e alertar se nenhuma pulsação for recebida. Os eventos de pulsação não são enviados enquanto o estado de mau funcionamento estiver ativo.

Privacidade

Os dados de áudio são processados e analisados na câmera, e nenhum armazenamento de dados de áudio é necessário para que a detecção de tosse e gritos funcione corretamente. Somente quando ativado explicitamente, serão feitas gravações de áudio durante os eventos. Isso pode ser útil para análise forense ao investigar incidentes, para solução de problemas quando falsos positivos são relatados ou para ouvir incidentes caso isso não seja compatível com o sistema de gerenciamento de vídeo.