Sicherheit durch Audio-Analysefunktionen

Juli, 2025

Zusammenfassung

Audio-Analysefunktionen für Sicherheitsanwendungen können Klangmuster erkennen und unerwartete Geräusche in Live-Audio markieren. Die Analysefunktionen können beispielsweise Schreie und Rufe erkennen und Warnmeldungen an die Betreiber senden. Dadurch haben die Betreiber die Möglichkeit zu prüfen, ob zusätzliches Personal geschickt werden muss, um Eskalationen oder Übergriffe zu verhindern. Außerdem erlauben sie die Vereitelung von Einbrüchen durch Glasbrucherkennung.

Die Verwendung unterschiedlicher Sensortypen, wie z. B. Video- und Audiosensoren (Kamera und Mikrofon), erhöht die Zuverlässigkeit der Erfassung und liefert aussagekräftigere Erkenntnisse.

AXIS Audio Analytics ist in kompatible Axis Geräte integriert. Es erfasst und detektiert Geräusche, ohne den ursprünglichen Audio-Stream zu speichern. Das ist eine Möglichkeit, die Privatsphäre zu schützen. Das funktioniert, weil AXIS Audio Analytics dezentral in einem Gerät ausgeführt wird und lediglich Audio-Metadaten liefert.

Einführung

Audio-Analysefunktionen für Sicherheitsanwendungen können Klangmuster erkennen und unerwartete Geräusche in Live-Audio markieren. Die Analysefunktionen sind in der Lage, Schreie, Rufe, Sprache sowie Glasbruch zu erkennen und den Bediener durch Benachrichtigungen frühzeitig zu warnen.

Audioanalysefunktionen in Verbindung mit Videosicherheit können Sicherheitsmitarbeiter auf möglicherweise entstehende Vorfälle hinweisen und sie zu den relevanten Kameraansichten leiten. Dies kann eine frühe Erkennung und schnelles Eingreifen ermöglichen und in vielen Fällen eine weitere Eskalation verhindern.

Dieses Whitepaper zeigt, wie Audio-Analysefunktionen in Sicherheitsanwendungen eingesetzt werden können. Wir beschreiben die Technologie zur Erfassung und Verarbeitung von Audio, mit Schwerpunkt auf Echtzeit-Edge-Analysefunktionen wie KI-basierte Klangklassifizierung direkt in der Kamera bzw. im Mikrofon. Wir zeigen auch, wie die dezentrale Audioanalyse direkt im Endgerät verschiedene Optionen zur Wahrung der Privatsphäre durch die Verwendung von Audio-Metadaten ermöglicht.

Dieses Whitepaper stellt keine Rechtsberatung dar. Vor der Installation eines Sicherheitssystems müssen Sie selbst prüfen, welche Gesetze und Vorschriften in Ihrer Region und für Ihren Anwendungszweck gelten. Der Besitzer des Systems muss sicherstellen, dass es den geltenden Gesetzen, Vorschriften und Empfehlungen entspricht.

Technologie

Erfassung von Geräuschereignissen

Ein Geräuschereignis ist ein Audiosegment, das ein Mensch als eigenständiges Konzept identifizieren würde, wie etwa Schreien oder zersplitterndes Glas. Videoanalysefunktionen können diese Art von spezifischen Schallmustern auf ähnliche Weise erkennen wie Objektklassen.

Analysefunktionen, die auf die Erkennung von Schallmustern trainiert sind, suchen meist nach einer Kombination aus Merkmalen, wie der Lautstärke in Dezibel kombiniert mit der Energie unterschiedlicher Frequenzen im Laufe der Zeit. Wird ein spezifisches Schallmuster erkannt, kann das System eine automatische Benachrichtigung in Form einer optischen Warnung an die Mitarbeiter senden oder einen Alarm auslösen.

KI-basierte Algorithmen können an einer großen Menge von Daten trainiert werden. So kann ein Algorithmus beispielsweise menschliche Schreie zuverlässig erkennen, nachdem er mit Tausenden solcher Geräusche trainiert wurde.

Audio-Erfassung und -Bearbeitung

Bei der Audioanalyse werden erfasste Audiodaten verwendet und die relevanten Klangeigenschaften analysiert, um eine nicht-akustische Ausgabe zu erzeugen. Bei der Erfassung von Audiodaten geht es im Prinzip darum, diese zu digitalisieren und für eine Nutzung durch Software bereitzustellen. Dazu werden die Schallschwingungen in der Luft von einem Mikrofon aufgefangen. Diese analogen Signale werden in digitale Signale umgewandelt und an eine Verarbeitungseinheit weitergeleitet. Wenn der aufgenommene Ton nicht auf einem dauerhaften Medium wie einem Flash-Speicher oder einer Festplatte gespeichert wird, wird er nicht aufgezeichnet. Audio-Streaming und -Aufzeichnung sind in Axis Geräten standardmäßig deaktiviert.

Audiodaten werden zunächst erfasst und anschließend auf die folgenden Verarbeitungsstufen vorbereitet. Die unterschiedlichen Vorbereitungsschritte können gebündelt oder einzeln erfolgen.

Audiodaten vorbereiten

Umwandlung
Dezentrale Echtzeit-Analyse im Gerät
Verarbeitung und Codierung für Streaming oder Speicherung – bei einem Axis Gerät wird Audio weder gestreamt noch gespeichert, wenn Audio-Streaming nicht explizit aktiviert wird.

Umwandlung. Die akustische Information wird abstrahiert und z. B. als spektrales Klangdiagramm visualisiert. Dieser Schritt lässt sich nicht rückgängig machen: Sie können den Originalton aus einem spektralen Klangdiagramm nicht wiederherstellen.
Dezentrale Echtzeit-Analyse im Gerät.
Bei einer Analyse der Audiodaten „on the edge“ kann eine Geräuschklassifizierung zum Einsatz kommen. Das Ergebnis sind Metadaten, die Informationen zu bestimmten Klangeigenschaften liefern. Auch aus diesen Metadaten lässt sich der Originalton nicht wiederherstellen.
Mithilfe von Geräuscherfassung lassen sich Muster, Lautstärken oder Frequenzen erkennen und Informationen zum Status ermitteln. Auch hier gilt: Der Originalton lässt sich nicht wiederherstellen.
Verarbeitung und Kodierung. Wenn die Audiodaten im Original (also weder umgewandelt noch analysiert) verwendet werden, finden bestimmte Verarbeitungs- und Kodierschritte statt, um die Daten für das jeweilige Schutzziel nutzbar zu machen. In solchen Fällen können Audiodaten „on the edge“ gespeichert, zur weiteren Verarbeitung (auf einem Server oder in der Cloud) an externe Kunden gestreamt oder extern gespeichert werden. Bei einem Axis Gerät muss Audio-Streaming aktiv eingeschaltet werden. Standardmäßig ist es aus Datenschutzgründen (Audio-Datenschutz) ausgeschaltet.

Edge-oder Server-basierte Analysefunktionen

Es ist aus mehreren Gründen wichtig, wo im System sich das Analysemodul befindet. Insbesondere in Bezug auf Datenschutzbedenken und die Einhaltung des Datenschutzrechts spielt es eine große Rolle, wo der Softwarealgorithmus die Audiodaten analysiert. Manchmal können Audiodaten nicht über das Netzwerk versendet werden, und die Analyse der erfassten (aber nicht gespeicherten) Daten muss direkt vor Ort möglich sein. Bei sehr rechenintensiven Algorithmen, die nicht „on the edge“ erfolgen können, müssen digitale Audiodaten vielleicht an die Cloud oder einen Server gesendet werden.

Mögliche Standorte für die Durchführung der Analysen

Edge
Cloud
Server
Speicherung – nur wenn Audio-Streaming aktiviert ist, kann der Originalton gespeichert werden.

Edge-Analyse. Wenn die Analyse direkt im Gerät erfolgt, muss kein Audio-Stream das Gerät verlassen. Nur das Ergebnis der durchgeführten Analyse, also Metadaten oder Trigger, wird übermittelt. AXIS Audio Analytics wird direkt im Gerät dezentral ausgeführt.
Server-Analyse. Bei der Ausführung von Analysefunktionen in einem Server müssen Audiodaten vom Gerät an den Server übertragen werden. Wenn die Audiodaten auf dem Gerät vorverarbeitet werden, ist nur noch die Übermittlung abstrahierter oder anonymisierter Metadaten erforderlich. Ein Server ist normalerweise Teil eines geschlossenen Systems (ein Systembesitzer hat die Kontrolle), so dass die Geheimhaltung der übertragenen Audiodaten gewährleistet werden kann. Dennoch ist unbedingt sicherzustellen, dass die geltenden Gesetze und Vorschriften eingehalten werden.
Cloud-Analyse. Audiodaten können auch an einen Cloud-Server gesendet werden. Wie bei der Server-Analyse lassen sich die Audiodaten auch hier vorab in Metadaten umwandeln. Da Cloud-Lösungen häufig dezentral organisiert sind, ist in diesem Fall umso mehr darauf zu achten, dass alle geltenden Datenschutzvorschriften eingehalten werden.

Metadaten

Die Audioanalyse erzeugt einen konstanten Metadatenstrom von Audiopegeldaten. Die Funktionen erzeugen außerdem Metadaten auf der Grundlage von Ereignissen, die von Analysefunktionen erkannt werden, des Schalldruckpegels (SPL) und von adaptiver Audioerfassung. Funktionen zur dezentralen Analyse untersuchen die Audiodaten direkt in der Kamera. Sie brauchen den eigentlichen Audiostream nicht zu übertragen – sie können nur die Metadaten senden, die Informationen zum Geschehen in der Szene liefern.

Der Metadatenstrom ermöglicht eine visuelle Inspektion der Audio-Hüllkurve, die beispielsweise in einem Dashboard dargestellt wird, in dem Audio- und Video-Ereignisse abgeglichen und gemeinsam betrachtet werden können. So ermöglichen Metadaten eine effiziente und schnelle Suche nach bestimmten Ereignissen und unerwarteten Geräuschen. Das kann den Ermittlungsbeamten viele Stunden Zeit beim Durchforsten umfangreicher Videodaten ersparen.

AXIS Audio Analytics

AXIS Audio Analytics ist in die Gerätesoftware AXIS OS integriert und wird kostenlos mit Axis Kameras und anderen kompatiblen Geräten mitgeliefert.

AXIS Audio Analytics ist Edge-basiert, was heißt, dass die Algorithmen direkt auf dem Gerät und nicht zentral ausgeführt werden. Das sorgt für optimale Skalierbarkeit, minimalen Datenverkehr und zuverlässigen Schutz der Privatsphäre. Nur das Ergebnis der Analyse (Metadaten oder Trigger) wird gespeichert. Es wird kein Ton vom Gerät aufgezeichnet oder gestreamt, und die ursprünglichen Geräusche können aus den Metadaten nicht wiederhergestellt werden.

Audioklassifizierung. Hierbei handelt es sich um eine KI-basierte Klangklassifizierung, die bestimmte Geräusche wie Schreie, Rufe, Sprache und Glasbruch erkennt und analysiert. Klassifizierungs-Analysefunktionen erzeugen Metadaten, die die Merkmale des Geräuschs beschreiben.
SPL (Schalldruckpegel). Der Schalldruckpegel gibt die Lautstärke eines Geräuschs in Dezibel (dB) an. SPL-Messungen können bei der Beurteilung von Aspekten wie Audioqualität und Gehörschutz hilfreich sein.
Adaptive Audioerkennung. Dies ist ein Klangdetektor, der bei einer plötzlichen Veränderung der Lautstärke ein Ereignis erzeugt. Er erkennt Geräuschspitzen jeder Art und bietet den Vorteil, dass er sich auch bei veränderlicher Lautstärke an den Umgebungsgeräuschpegel anpasst.

AXIS Audio Analytics entwickelt sich mit neuen und verbesserten Funktionen und Merkmalen beständig weiter.

Datenschutz

Bei der Audioanalyse wird der eingehende Ton im Allgemeinen nicht aufgezeichnet und auch nicht vom Gerät übertragen. Sie verarbeiten lediglich Geräusche, um in einem Empfängersystem wie etwa einem Dashboard nach bestimmten Ereignissen, Mustern oder Schallpegeln suchen zu können, um diese weiter zu untersuchen, oder einer Video Management Software, die Sicherheitsmitarbeiter alarmiert. Weder können die Audiodaten wiederhergestellt noch vertrauliche Gespräche aufgezeichnet werden. Dies liegt daran, dass diese Analysefunktionen Edge-basiert sind und Audio-Metadaten liefern.

In der Standardeinstellung von AXIS Audio Analytics wird Audio weder aufgezeichnet noch gestreamt, sondern es werden nur Metadaten übertragen. Aus Gründen des Datenschutzes ist außerdem jegliches Audiostreaming in Axis Geräten standardmäßig ausgeschaltet (Audio-Datenschutz). Das Audio wird also weder gestreamt noch aufgezeichnet und kann nicht wiederhergestellt werden. Audiostreaming kann bei Bedarf eingeschaltet werden, aber auch bei ausgeschaltetem Audio erfolgt eine Benachrichtigung, sobald etwas Relevantes geschieht.

Die Abbildung zeigt eine Übersicht der Funktionsweise von AXIS Audio Analytics in Verbindung mit Audio-Datenschutz beim Erfassen von Geräuschen sowie die Verwendung von Metadaten für die Erzeugung einer Warnung.

Audio-Datenschutz und AXIS Audio Analytics in Axis Geräten, von einem Schrei (1) bis zu einer Warnung (5).

Axis bietet außerdem Geräte an, die über akustische Sensoren anstelle von Mikrofonen verfügen. Mit akustischen Sensoren kann das Gerät AXIS Audio Analytics nutzen, wobei die Möglichkeit des Audio-Streams komplett entfällt. Diese Geräte sind so konstruiert, dass sie Ton weder streamen noch aufzeichnen, sondern ausschließlich Audio-Metadaten ausgeben.

Anwendungsbeispiele

KI-basierte Analysefunktionen haben ein großes Potenzial, irrelevante Geräusche herauszufiltern, können aber bei vielen Hintergrundgeräuschen Fehlalarme auslösen. Regen, der gegen Fensterscheiben prallt, Donner, Sirenen, Musik oder belebte Szenen mit sich unterhaltenden Menschen können Fehlalarme auslösen. Typische Anwendungsbeispiele sind also beispielsweise ruhige Lokalitäten wie Banken und Empfangstresen, aber auch viele andere Arten von Innenräumen außerhalb der Geschäftszeiten, wie Geschäfte, Restaurants, Treppenhäuser oder Büros.

Geräuscherfassung mit Warnungen

Analysefunktionen zur Geräuschklassifizierung können den Bereich von Bankschaltern oder Empfangstresen überwachen und Geräusche wie Schreie, Rufe, Sprache oder Glasbruch erkennen. Werden diese erkannt, alarmieren die Ereignis- und Audio-Metadaten des Systems automatisch Mitarbeiter über eine optische Warnung oder lösen einen Alarm aus. Dies ermöglicht frühe Warnungen und damit schnelles Reagieren und Eingreifen.

Mithilfe adaptiver Audioerkennungsanalytik können unerwartete Geräusche außerhalb der Geschäftszeiten erfasst werden. Die Analysefunktionen analysieren die Umgebungsgeräusche und reagieren, sobald sie Stimmen, brechendes Fensterglas oder andere plötzliche, kurzzeitige Geräusche erkennen. Sobald ein Ereignis erkannt wird, leiten die Analysefunktionen die Metadaten weiter und informieren die Sicherheitsmitarbeiter.

Kombinieren von Sensoren für noch bessere Nutzung Ihres Sicherheitssystems

Überwachungssysteme enthalten häufig verschiedene Arten von Sensoren. Einer ist natürlich der Bildsensor der Kamera, der den visuellen Charakter einer Szene erfasst. Auch nicht-visuelle Sensoren kommen häufig zum Einsatz, z. B. in Bewegungsmeldern, die Radarwellen oder Infrarotstrahlung nutzen. Nicht-visuelle Sensoren ergänzen die Kamerainstallation, indem sie zusätzlich dazu weitere Arten von Informationen liefern.

Die allermeisten Nutzungsszenarien profitieren davon, wenn eine Sicherheitslösung um Geräuschsensoren (Mikrofone oder akustische Sensoren) erweitert wird. Eine Erweiterung eines Systems ohne Audio um Audiofunktionen und Audioanalyse ermöglicht eine Interaktion zwischen unterschiedlichen Sensoren. Zusätzliche Audioanalysefunktionen können bei der Videoanalyse die Erfassungsgenauigkeit verbessern. Das gilt besonders, wenn die Videoanalyse durch schlechte Lichtverhältnisse erschwert wird oder in Bereichen, in denen eine Videoaufzeichnung nicht erlaubt oder nicht möglich ist.

Das System kann beispielsweise in Video Management Software eingerichtet werden, so dass es nur dann Aktionen auslöst, wenn beide Analysefunktionen (für Video und Audio) reagieren. Die Audioanalyse erkennt zum Beispiel einen Schrei und die Videoanalyse eine Person im Sichtfeld der Kamera. In manchen Umgebungen liefert diese Kombination genau das richtige Maß an Sicherheit.

Lieferung von Input für Dashboards

Die Audio-Metadaten können in Analyse-Dashboards oder Geschäftsdatenplattformen eingegeben werden, die die Metadaten erfassen und visuell darstellen. Sie analysieren Echtzeit- und historische Trends und erzeugen daraus sofort eine gute Übersicht und hilfreiche Erkenntnisse. Statistische Analysen auf der Grundlage von Kundenbewegungen oder Kundenerfahrungsdaten ermöglichen datengestützte Entscheidungen zur Verbesserung der Betriebsabläufe.

Dashboards liefern Ergebnisse, ohne dass man sich das eigentliche Audiomaterial anhören muss. Das Original-Audiomaterial kann dabei nicht abgerufen werden. Stattdessen lassen sich zum Beispiel durch Zählen von Ereignissen praktisch nutzbare Erkenntnisse gewinnen, ohne dass es zu datenschutzbezogenen Bedenken kommen könnte. Man muss jedoch beachten, dass unterschiedliche rechtliche Regelungen gelten können, je nachdem, ob Audiodaten nur erfasst oder auch aufgezeichnet werden.

Gesetzliche Beschränkungen

Viele Menschen haben Bedenken hinsichtlich der Verwendung von Mikrofonen bei der Videosicherheit. Die entsprechenden Bedenken beziehen sich häufig darauf, dass neben dem Videomaterial auch gesprochener Klartext aufgezeichnet wird. Doch bei der Audioanalyse wird Audio in der Regel weder aufgezeichnet noch gestreamt. Je nach Land und Region unterliegen Überwachungslösungen unterschiedlichen Rechtsvorschriften – prüfen Sie also, was erlaubt ist, bevor Sie Audiofunktionen in Ihrem Sicherheitssystem nutzen.

Nationales Recht oder lokal geltende Regelungen und Vorschriften können die Erfassung und Aufzeichnung von Audiodaten aus unterschiedlichen Gründen verbieten oder an bestimmte Auflagen knüpfen. Auch könnte in einer Region oder Umgebung die Erfassung von Audiodaten erlaubt, ihre Aufzeichnung aber verboten sein. Weiterhin können Unternehmen Audioüberwachung auf ihrem Gelände untersagen.

Haftungsausschluss

Dieses Dokument wird mit freundlicher Genehmigung von Axis zur Verfügung gestellt, und alle Rechte am geistigen Eigentum oder sonstigen Rechte an diesem (wie z. B. Marken, Handelsnamen, Logos und andere darin verwendete Zeichen) sind gesetzlich geschützt und liegen bei Axis Communications AB.

Beachten Sie bitte, dass dieses Dokument im vorliegenden Zustand, nur zu Informationszwecken und ohne jegliche Gewährleistung zur Verfügung gestellt wird. Die in diesem Dokument bereitgestellten Informationen stellen keine Rechtsberatung dar und sind nicht als solche konzipiert. Dieses Dokument bewirkt keine rechtliche Verpflichtung für Axis Communications AB und/oder seine Partner und ist auch nicht dafür vorgesehen. Verpflichtungen von Axis Communications AB und/oder seiner Partner in Bezug auf Produkte von Axis unterliegen ausschließlich den Bedingungen der Vereinbarung zwischen Axis und der Einheit, die solche Produkte direkt von Axis erworben haben.

ZUR KLARSTELLUNG: DAS GESAMTE RISIKO IM HINBLICK AUF DIE NUTZUNG, ERGEBNISSE UND UMSETZUNG DIESES DOKUMENTS ÜBERNIMMT DER NUTZER. AXIS SCHLIESST IM GESETZLICH MAXIMAL ERLAUBTEN RAHMEN SÄMTLICHE GEWÄHRLEISTUNGEN AUS, OB GESETZLICH, AUSDRÜCKLICH ODER STILLSCHWEIGEND, UNTER ANDEREM SÄMTLICHE STILLSCHWEIGENDE GEWÄHRLEISTUNGEN DER VERMARKTBARKEIT, EIGNUNG FÜR EINEN BESTIMMTEN ZWECK, RECHTSANSPRUCH UND NICHTVERLETZUNG SOWIE PRODUKTHAFTUNG, ODER GEWÄHRLEISTUNGEN, DIE SICH IN BEZUG AUF DIESES DOKUMENT AUS EINEM VORSCHLAG, EINER SPEZIFIKATION ODER EINEM MUSTER ERGEBEN.