Richtungsabhängige Audioerkennung
Einführung
Herkömmliche Sicherheitskameras erfassen Ereignisse in erster Linie ausschließlich über Videodaten. Audio kann jedoch wichtige Kontextinformationen liefern, insbesondere bei Ereignissen, die außerhalb des Sichtfelds der Kamera stattfinden.
Die richtungsabhängige Audioerkennung ist ein Beispiel dafür, welchen wertvollen Beitrag Audio leisten kann. Sie erkennt plötzliche, laute Geräusche wie Schüsse, Glasbruch oder Schreie. Wird ein Geräusch detektiert, ermittelt die Funktion dessen Herkunft. Dies kann dazu verwendet werden, um Aufzeichnungen auszulösen, Bediener zu alarmieren und eine kompatible PTZ-Kamera auf die Schallquelle zu richten.
In diesem Whitepaper werden die Technologie und ihre Funktionsweise erläutert, es werden Überlegungen zur Implementierung angestellt und Einschränkungen aufgezeigt.
Audio-Ereignisse erfassen
Mithilfe verschiedener akustischer Sensoren überwacht die richtungsabhängige Audioerkennung kontinuierlich die Umgebung. Das System erkennt Geräusche, deren Amplitude schnell ansteigt und einen konfigurierbaren Auslöseschwellenwert überschreitet. Wird ein Geräusch detektiert, berechnet das System den Schwenkwinkel sowie gegebenenfalls auch den Neigungswinkel zur Quelle. Die daraus resultierenden Informationen werden als VAPIX-Ereignis an die PTZ-Kamera gesendet. Diese schwenkt daraufhin entsprechend, um die Audioquelle zu erfassen.
Die AXIS Q6300-E Netzwerkkamera verfügt über eine integrierte richtungsabhängige Audioerkennung. Alle PTZ-Kameras, die mit AXIS Q6300-E kompatibel sind, unterstützen die direktionale Audioerkennung.
Erstes Setup
Installationsoptionen
Sie können AXIS Q6300-E an einer flachen Wand, einer Außenecke, einem Pfosten oder an einem Mast montieren. In der Regel ist die Installation an einem Mast oder an einer Außenecke für eine optimale Audioerkennung am besten geeignet.
Wie in der Installationsanleitung angegeben, muss AXIS Q6300-E mit der Vorderseite nach vorne installiert werden. Dies ist an der Kamera durch eine Rille an der Oberseite sowie einen Pfeil (Pan-Nullmarkierung) am Außenrand gekennzeichnet. Eine entsprechende Darstellung finden Sie in der Installationsanleitung der Kamera.
Einige PTZ-Kameras erfordern eine manuelle Konfiguration. In diesem Fall wird Sie der Setup-Assistent durch den Vorgang führen.
Direktionale Audioerkennung aktivieren
Diese Funktion ist standardmäßig deaktiviert. Um diese Funktion zu nutzen, müssen Sie sie in der Weboberfläche der Kamera aktivieren. Sollten Sie zusätzlich die Funktion zur Umlenkung der PTZ-Kamera wünschen, müssen Sie diese Option ebenfalls aktivieren. Die Einstellungen finden Sie in der Weboberfläche der Kamera unter Analytics (Analysefunktionen) > AXIS Audio Analytics > Directional audio detection (Direktionale Audioerkennung).
Den Schwenkwinkel kalibrieren
Die AXIS Q6300-E und die PTZ-Kamera können unterschiedliche Schwenkwinkelreferenzen aufweisen. Einige PTZ-Modelle sind vorkalibriert, aber bei einigen müssen Sie den Schwenkwinkel kalibrieren, bevor Sie die richtungsabhängige Audioerkennung verwenden können. In diesem Fall wird Sie der Setup-Assistent durch die Kalibrierung führen.
Passen Sie den Voreinstellung-Neigungswinkel-Wert an.
Wenn ein Geräusch erkannt wird, berechnet die richtungsabhängige Audioerkennung die Schwenk- und Neigungswinkel zur Audioquelle. Während der Schwenkwinkel stets berechnet wird, ist es nicht immer möglich, den Neigungswinkel zu bestimmen. Dies tritt in der Regel auf, wenn das Geräusch eher aus der horizontalen Ebene als von unten wahrgenommen wird. Wenn kein Neigungswinkel berechnet wird, verwendet die richtungsabhängige Audioerkennung einen voreingestellten Wert. Sie können diesen Wert auf der Registerkarte „PTZ“ in der Weboberfläche der Kamera anpassen.
Betrieb
Weboberfläche
In der Weboberfläche der Kamera finden Sie die Einstellungen für die direktionalen Audioerkennung unter Analytics (Analysefunktionen) > AXIS Audio Analytics (Analysefunktionen) > Directional audio detection (Direktionale Audioerkennung). Sie können beispielsweise auch eine Vierfachansicht der Übersichtskameras anzeigen lassen. Wenn ein Geräusch erkannt wird, sehen Sie in der entsprechenden Kameraansicht ein gelbes Rechteck, das Ihnen anzeigt, aus welchem Bereich das Geräusch kommt.

In der Weboberfläche können Sie auch die Einstellungen für Grenzwert und Dauer anpassen.
Grenzwert. Gibt an, um wie viele Dezibel lauter als der Hintergrund ein Geräusch sein muss. Je höher der Schwellenwert, desto lauter oder schneller muss das Geräusch sein, um die Audioerkennung auszulösen.
Dauer. Legt fest, wie lange neue Audio-Ereignisse nach dem ersten Audio-Ereignis ignoriert werden sollen.
Audioereignisprotokoll
Audio-Ereignisse werden protokolliert und können in eine CSV-Datei exportiert werden.
Aktionsregel-Auslöser
Die richtungsabhängige Audioerkennung kann verwendet werden, um in einem VMS (Video Management System) automatische Aktionen auszulösen, wie z. B. das Starten einer Aufnahme. Es stehen mehrere Trigger zur Verfügung.
Audio erkannt. Dieser Auslöser wird bei jedem Audio-Ereignis aktiviert. Er kann beispielsweise verwendet werden, um eine Aufzeichnung zu starten, ein Lesezeichen zu erstellen oder eine Erfassung in einem VMS zu protokollieren, damit ein Bediener sie leicht finden und überprüfen kann.
Audioerkennung in der Ansicht der Kamera „X“ detektiert. Dieser Auslöser wird aktiviert, wenn die Schwenk- und Neigungswinkel des detektierten Geräusches mit einer der unbeweglichen Kameras übereinstimmen. Der Auslöser kann verwendet werden, um bei Erkennung eines Geräusches eine Überlagerung auf der entsprechenden Kameraansicht anzuzeigen, wodurch die Audioquelle leichter identifiziert werden kann.
Audio außerhalb des Sichtfelds aller Kameras erkannt. Dieser Auslöser wird ausgelöst, wenn das detektierte Geräusch nicht innerhalb einer der Ansichten einer unbeweglichen Kamera liegt.
Vorrang vor der Autopilot-Funktion
Der Autopilot ist eine Funktion, die einen ausgewählten Bereich mithilfe einer multidirektionalen Kamera überwacht und Personen, Fahrzeuge oder andere sich bewegende Objekte mithilfe einer PTZ-Kamera verfolgt und kategorisiert.
Die direktionale Audioerkennung hat Vorrang vor dem Autopiloten. Das bedeutet, dass die Verfolgung eines Objekts durch den Autopiloten unterbrochen wird, wenn die direktionale Audioerkennung ausgelöst wird, während der Autopilot das Objekt aktiv verfolgt. In diesem Fall wird die PTZ-Kamera auf die Audioquelle ausgerichtet. Nach einer kurzen Pause setzt der Autopilot das Tracking von der neuen Position aus fort und folgt dem Objekt (sofern sichtbar), das das Geräusch verursacht hat.
Erfassungsreichweite
Die Erkennungsleistung hängt von verschiedenen Faktoren ab, darunter natürlich die Lautstärke und die Nähe der Audioquelle, aber auch der Umgebungsgeräuschpegel und andere Umweltfaktoren.
Anpassungsfähige Empfindlichkeit
Sie können die Erfassung anpassen, indem Sie den Grenzwert ändern. Legt fest, um wie viel ein Geräusch lauter als der Umgebungsgeräuschpegel sein muss, um die Audioerkennung auszulösen.
Physische Hindernisse
Gebäude oder große Objekte können Schall reflektieren oder blockieren. Dies kann dazu führen, dass der Erkennungsbereich für Geräusche aus bestimmten Richtungen kleiner ausfällt als erwartet.
Witterungsverhältnisse
Wind und Regen können die Schallausbreitung und -wahrnehmung beeinträchtigen.
Ausfiltern von Regengeräuschen
Starker Regen kann laut sein. Um jedoch die richtungsabhängige Audioerkennung auszulösen, muss die Amplitude des Geräusches schnell ansteigen und den Hintergrundgeräuschpegel plus den eingestellten Schwellenwert überschreiten. Da Regengeräusche zum Hintergrundrauschen beitragen, werden sie herausgefiltert und lösen in der Regel keinen Audioerkennung aus.
Ausfiltern von Windgeräuschen
Windgeräusche entstehen, wenn Wind auf feste Objekte wie Gebäude, Masten und Leitungen trifft. Dies kann ein Brummen oder andere konstante Geräusche erzeugen. Die Kamera selbst kann ebenfalls zu Windgeräuschen beitragen, wenn sie starken Winden oder Windböen ausgesetzt ist. Windböen sind in der Regel kurz, dauern nur wenige Sekunden, können jedoch zwei- bis dreimal stärker als der durchschnittliche Wind sein und vorübergehend Geräusche verursachen. Windgeräusche werden jedoch von den Akustiksensoren der Kamera anders wahrgenommen und daher von der direktionalen Audioerkennung verworfen.
Auswirkungen des Windes auf die Schallausbreitung
Starke Winde können sich auf die Reichweite der Erfassung auswirken, da sie die Schallausbreitung beeinflussen.
Geräusche, die sich in windigen Gebieten ausbreiten, werden je nach Windstärke als lauter oder leiser wahrgenommen. Im Allgemeinen bewegen sich Winde am Boden langsamer als Winde in höheren Luftschichten. Die Geschwindigkeitsdifferenz erzeugt einen Windgradienten, der Schallwellen effektiv umlenken kann. Dadurch werden Geräusche, die sich mit dem Wind ausbreiten, tendenziell nach unten abgelenkt, während sich Geräusche, die sich gegen den Wind ausbreiten, nach oben ablenkt. Das bedeutet, dass eine Person, die sich in Windrichtung (und auf dem Boden) einer Audioquelle befindet, den Ton lauter hört als eine Person, die sich dem Wind zugewandt befindet. Der Effekt verstärkt sich über größere Entfernungen und bei höheren Windgeschwindigkeiten.
Datenschutz und Integrität
Bei der richtungsabhängigen Audioerkennung stehen Datenschutz und Datensicherheit als grundlegende Prinzipien im Vordergrund.
Die direktionale Audioerkennung nutzt Akustiksensoren zur Lautstärkemessung und grundlegenden Schalltriangulation. Das System überwacht den Geräuschpegel. Es ist jedoch technisch nicht in der Lage, Aufzeichnungen zu erstellen oder Sprache zu streamen, Wörter, Sprache oder Stimmen zu erkennen oder Audioinhalte an externe Systeme zu streamen.
Die gesamte Audioverarbeitung findet ausschließlich innerhalb des Geräts statt. Es verlassen keine Audiodaten die Kamera. Bei Überschreitung des konfigurierten Schallgrenzwerts generiert das System Metadaten-Ereignisse und überträgt diese an das VMS. Diese Ereignisse enthalten den Zeitstempel der Erfassung, den Schallintensitätspegel sowie die berechneten Koordinaten für die PTZ-Positionierung. Es werden keine Audiodaten, Aufzeichnungen oder identifizierbare Geräuschmuster übertragen.