지향성 오디오 감지
서론
기존 보안 카메라는 주로 비디오를 통해 이벤트를 감지합니다. 그러나 오디오 정보는, 특히 카메라 시야 밖에서 발생하는 사건에 대해 중요한 맥락을 제공할 수 있습니다.
지향성 오디오 감지 기능은 오디오의 실질적 기여도를 보여주는 한 예입니다. 총소리, 유리 깨지는 소리, 비명 등 갑작스럽고 큰 소리를 감지합니다. 소리가 감지되면, 이 기능은 소리가 어디에서 오는지 계산합니다. 이를 통해 녹화를 트리거링하고, 운영자에게 경보를 보내며, 호환되는 PTZ 카메라를 음원 방향으로 조준할 수 있습니다.
이 White Paper는 해당 기술과 그 작동 원리, 배포 시 고려 사항 및 제한 사항을 설명합니다.
오디오 사건 감지
지향성 오디오 감지 기능은 카메라의 다중 음향 센서를 활용하여 환경을 지속적으로 모니터링합니다. 시스템은 진폭이 급격히 상승하고 구성 가능한 트리거 임계값을 초과하는 소리를 식별합니다. 소리가 감지되면 시스템은 음원에 대한 팬 각도를 계산하며, 가능하다면 틸트 각도도 함께 계산합니다. 결과 정보는 PTZ 카메라에 VAPIX 이벤트로 전송되며, 해당 카메라는 이를 바탕으로 팬 동작하여 음원을 확인할 수 있습니다.
지향성 오디오 감지 기능이 AXIS Q6300-E 네트워크 카메라에 통합되어 있습니다. AXIS Q6300-E와 호환되는 모든 PTZ 카메라는 지향성 오디오 감지 기능과 호환됩니다.
초기 설정
설치 옵션
AXIS Q6300-E는 평평한 벽, 외부 모서리, 기둥 또는 마스트에 마운트할 수 있습니다. 최적의 지향성 오디오 감지 성능을 위해 일반적으로 기둥 또는 외부 모서리 설치가 가장 좋은 선택입니다.
설치 가이드에 명시된 바와 같이, AXIS Q6300-E는 전면이 정면을 향하도록 설치해야 합니다. 카메라 설치 가이드에 나와 있는 바와 같이, 카메라 상단의 홈과 외부 테두리의 화살표(팬-제로 표시)로 표시되어 있습니다.
일부 PTZ 카메라는 수동으로 구성해야 합니다. 그 경우 설정 도우미가 안내해 드립니다.
지향성 오디오 활성화
이 기능은 기본적으로 비활성화되어 있습니다. 사용하려면 카메라의 웹 인터페이스에서 활성화해야 합니다. PTZ 카메라를 리디렉션하는 기능을 추가로 사용하려면, 해당 옵션도 활성화해야 합니다. 카메라의 웹 인터페이스에서 해당 설정은 Analytics(분석) > AXIS Audio Analytics > Directional audio detection(지향성 오디오 감지) 메뉴에서 확인하실 수 있습니다.
팬 각도 보정
AXIS Q6300-E와 PTZ 카메라는 서로 다른 팬 각도 기준점을 가질 수 있습니다. 일부 PTZ 모델은 사전 보정되어 있지만, 일부 모델의 경우 지향성 오디오 감지 기능을 사용하기 전에 팬 각도를 보정해야 합니다. 그 경우 보정을 통해 설정 도우미가 안내해 드립니다.
틸트 각도 프리셋 값 조정
소리가 감지되면 지향성 오디오 감지 기능이 오디오 소스까지의 팬 및 틸트 각도를 계산합니다. 팬 각도는 항상 계산되지만, 틸트 각도는 항상 결정할 수 있는 것은 아닙니다. 이는 일반적으로 소리가 아래에서가 아니라 수평면에서 인지될 때 발생합니다. 틸트 각도가 계산되지 않으면 지향성 오디오 감지 기능은 프리셋 값을 사용합니다. 이 값은 카메라 웹 인터페이스의 PTZ 탭에서 조정할 수 있습니다.
운영
웹 인터페이스
카메라의 웹 인터페이스에서 지향성 오디오 감지 설정은 Analytics(분석) > AXIS Audio Analytics > Directional audio detection(지향성 오디오 감지) 메뉴에서 확인하실 수 있습니다. 예를 들어, 오버뷰 카메라에서 쿼드 뷰를 표시하도록 설정할 수 있습니다. 소리가 감지되면 해당 카메라 보기에 해당하는 노란색 사각형이 표시되어 소리가 발생한 위치를 확인할 수 있습니다.

웹 인터페이스에서 임계값 및 지속 시간 설정을 제어할 수도 있습니다.
Threshold(임계값). 소리가 배경음보다 몇 데시벨이 더 커야 하는지 지정합니다. 임계값이 높을수록 지향성 오디오 감지를 트리거하려면 소리가 더 크거나 더 빠르게 변화해야 합니다.
기간. 첫 번째 오디오 이벤트 이후 새로운 오디오 이벤트가 무시되는 시간을 정의합니다.
오디오 이벤트 로그
오디오 이벤트는 기록되며 CSV 파일로 내보낼 수 있습니다.
액션 룰 트리거링
지향성 오디오 감지 기능은 VMS에서 녹화 시작과 같은 자동 작업을 트리거링하는 데 사용할 수 있습니다. 여러 가지 트리거를 이용할 수 있습니다.
오디오 감지됨. 이 트리거는 모든 오디오 이벤트에 대해 활성화됩니다. 예를 들어, 녹화를 시작하거나, 북마크를 생성하거나, VMS에 감지 기록을 남기는 데 사용할 수 있어 운영자가 쉽게 찾아 검토할 수 있습니다.
카메라 “X“의 보기에서 오디오 감지됨. 이 트리거는 감지된 소리의 팬 및 틸트 각도가 고정형 카메라 중 하나의 각도와 일치할 경우 활성화됩니다. 트리거를 사용하면 소리가 감지될 때 해당 카메라 보기에 오버레이를 표시하여 오디오 소스를 쉽게 식별할 수 있습니다.
모든 카메라 보기 외부에서 오디오 감지됨. 이 트리거는 감지된 소리가 고정형 카메라의 어느 보기도 포함되지 않을 경우 활성화됩니다.
오토파일럿 기능에 대한 우선권
오토파일럿은 다방향 카메라로 관심 영역을 모니터링하며, PTZ 카메라를 활용해 사람, 차량 또는 기타 이동 객체를 추적하고 분류합니다.
지향성 오디오 감지가 오토파일럿보다 우선합니다. 이는 지향성 오디오 감지가 트리거되면, 오토파일럿이 객체를 추적 중이었다면, 해당 추적이 중단되고 PTZ 카메라가 음원 방향으로 전환됨을 의미합니다. 잠시 멈춘 후, 오토파일럿은 새 위치에서 추적을 다시 시작하고, 소리를 발생시킨 객체(가시 범위 내에 있는 경우)를 따라갑니다.
감지 범위
오디오 감지 성능은 당연히 오디오의 크기와 근접성뿐만 아니라 주변 소음 수준 및 기타 환경적 요인에 따라 달라집니다.
적응형 감도
감지 민감도는 임계값을 조정하여 환경 설정할 수 있습니다. 주변 노이즈 수준보다 얼마나 더 큰 소리가 지향성 오디오 감지를 트리거링해야 하는지를 정의합니다.
물리적 장애물
건물이나 대형 객체는 소리를 반사하거나 차단할 수 있습니다. 이로 인해 특정 방향에서 오는 소리의 감지 범위가 예상보다 짧아질 수 있습니다.
날씨 조건
바람과 비는 소리 전파와 인식에 영향을 미칠 수 있습니다.
비 노이즈 걸러내기
폭우는 시끄러울 수 있습니다. 그러나 지향성 오디오 감지를 트리거링하려면 소리의 진폭이 급격히 증가하여 배경 노이즈 수준과 설정된 임계값을 합한 값을 초과해야 합니다. 빗소리는 배경 노이즈에 기여하므로 필터링되어 제거되며, 일반적으로 지향성 오디오 감지를 트리거링하지 않습니다.
바람 노이즈 걸러내기
바람 노이즈는 바람이 건물, 기둥, 전선과 같은 고정된 객체에 부딪힐 때 발생합니다. 이로 인해 윙윙거리는 소리나 다른 지속적인 소음이 생성될 수 있습니다. 카메라 자체가 강한 바람이나 돌풍에 노출될 경우 바람 노이즈를 유발할 수도 있습니다. 돌풍은 일반적으로 짧아 몇 초만 지속되지만, 평균 풍속보다 2~3배 강할 수 있으며 일시적인 노이즈를 유발할 수 있습니다. 그러나 바람 노이즈는 카메라의 음향 센서에 의해 다르게 감지되므로 지향성 오디오 감지에서 제거됩니다.
바람이 음파 전파에 미치는 영향
강한 바람은 음파 전파에 영향을 미치므로 감지 범위에 영향을 줄 수 있습니다.
바람이 부는 지역에서 전달되는 소리는 바람의 영향을 받는 방식에 따라 더 크게 또는 더 작게 들릴 수 있다. 일반적으로 지면 근처의 바람은 상층부의 바람보다 속도가 느립니다. 속도 차이는 바람 경사를 생성하여 음파를 효과적으로 재방향시킬 수 있으므로, 바람을 타고 이동하는 소리는 아래쪽으로 휘어지는 경향이 있는 반면, 바람을 거슬러 이동하는 소리는 위쪽으로 휘어집니다. 이는 오디오 소스로부터 바람을 등지고 (지면에) 서 있는 사람이 바람을 맞으며 서 있는 사람보다 더 큰 소리를 듣게 된다는 것을 의미합니다. 효과가 더 먼 거리와 더 높은 풍속에서 증가합니다.
개인 정보 보호 및 무결성
지향성 오디오 감지 기술은 사생활 보호와 데이터 보호를 기초 원칙으로 설계되었습니다.
지향성 오디오 감지 기술은 음향 센서를 활용하여 음량 측정 및 기본적인 소리 삼각 측량을 수행합니다. 시스템은 사운드 레벨을 모니터링하지만, 기술적으로 대화나 음성을 녹음하거나 스트리밍할 수 없으며, 단어나 언어, 목소리를 인식하거나 오디오 콘텐츠를 외부 시스템으로 스트리밍할 수 없습니다.
모든 오디오 처리는 장치 자체 내에서 완전히 이루어지며, 오디오 데이터는 카메라를 절대 벗어나지 않습니다. 설정된 음량 임계값을 초과하면 시스템은 메타데이터 이벤트를 생성하여 VMS로 전송합니다. 이 이벤트에는 감지 시점의 타임스탬프, 음량 수준, PTZ 위치 조정을 위한 계산된 좌표가 포함됩니다. 오디오 콘텐츠, 녹화 파일 또는 식별 가능한 음향 패턴은 전송되지 않습니다.