Analizy audio na rzecz optymalizacji ochrony i bezpieczeństwa

lipiec, 2025

Streszczenie

Narzędzia do analizy audio na potrzeby ochrony i bezpieczeństwa mogą wykrywać wzorce dźwiękowe i specjalnie oznaczać nieoczekiwane dźwięki w strumieniu dźwięku na żywo. Narzędzie analityczne jest na przykład w stanie zidentyfikować krzyki i wrzaski i wysłać powiadomienia do operatorów, którzy sprawdzą, czy zaistniała potrzeba wysłania dodatkowego personelu do zapobieżenia eskalacji sytuacji. Wykrywa również dźwięk rozbijanego szkła, pomagając przeciwdziałać próbom włamania.

Stosowanie różnych rodzajów czujników, na przykład wizyjnych i fonicznych (kamera i mikrofon), zwiększa wiarygodność wyników detekcji i pozwala uzyskać informacje o wyższej wartości.

Aplikacja AXIS Audio Analytics jest wbudowana w kompatybilnych urządzeniach Axis. Przechwytuje i wykrywa dźwięki bez zapisywania oryginalnego strumienia fonicznego. Tym sposobem chroniona jest prywatność, jako że aplikacja AXIS Audio Analytics działa w urządzeniu brzegowym i przesyła tylko metadane foniczne.

Wprowadzenie

Narzędzia do analizy audio na potrzeby ochrony i bezpieczeństwa mogą wykrywać wzorce dźwiękowe i specjalnie oznaczać nieoczekiwane dźwięki w strumieniu dźwięku na żywo. Narzędzie analityczne potrafi identyfikować wrzask, krzyk i mowę, wykryć dźwięk rozbijanego szkła i poprzez powiadomienie wcześnie ostrzec operatora.

Analizy audio w połączeniu z dozorem wizyjnym mogą na bieżąco zapewniać operatorom alerty o ewentualnych incydentach, wskazując widok z odpowiedniej kamery. Pozwala to na wczesną detekcję, szybką interwencję i w wielu przypadkach zapobieżenie eskalacji wydarzeń.

W tym dokumencie wyjaśniono, jak analityka audio może się przyczyniać do optymalizacji ochrony i bezpieczeństwa. Omawiamy technologie przechwytywania i przetwarzania dźwięku, ze szczególnym uwzględnieniem analityki wykonywanej w czasie rzeczywistym na brzegu sieci, na przykład klasyfikacji dźwięków opartej na sztucznej inteligencji bezpośrednio w kamerze lub mikrofonie. Pokazujemy również, jak narzędzia analizy dźwięku w urządzeniu brzegowym umożliwiają ochronę prywatności w kilku opcjach dzięki wykorzystaniu metadanych dźwięku.

Dokument nie zawiera porad prawnych. Przed zainstalowaniem jakiegokolwiek systemu dozoru należy zapoznać się z przepisami prawa i innymi regulacjami obowiązującymi w danym regionie i dotyczącymi danego zastosowania systemu. To właściciel systemu odpowiada za zapewnienie jego zgodności z lokalnymi przepisami, regulacjami i zaleceniami.

Technologia

Wykrywanie zdarzeń dźwiękowych

Zdarzenie dźwiękowe to segment dźwięku, który człowiek zwykle identyfikuje jako charakterystyczny odgłos, na przykład krzyk lub stłuczenie szkła. Tego rodzaju odgłosy mogą być wykrywane i oznaczane w podobny sposób jak klasy obiektów podczas analizy materiału wizyjnego.

Narzędzia analityczne przeszkolone do rozpoznawania wzorców dźwiękowych zazwyczaj wychwytują określone połączenia cech, od stopnia natężenia dźwięku po poziom energii na różnych częstotliwościach w funkcji czasu. Po wykryciu określonego wzorca dźwiękowego system może wysłać do pracowników automatyczne powiadomienie w postaci alertu wizualnego lub wyzwolić alarm.

Jeśli wykorzystywane są algorytmy oparte na sztucznej inteligencji, można je szkolić na podstawie dużych ilości danych. Algorytm będzie na przykład potrafił niezawodnie wykrywać ludzkie krzyki po przeszkoleniu z użyciem tysięcy dźwięków tego typu.

Przechwytywanie i przetwarzanie danych audio

Narzędzia do analiz audio wykorzystują przechwycone dane audio i po analizie ich charakterystyki dźwiękowej generują dane wyjściowe w postaci niedźwiękowej. Zasadniczo przechwytywanie dźwięku oznacza przekształcanie go do postaci cyfrowej i udostępnianie go do użycia w oprogramowaniu. W tym celu mikrofon wychwytuje drgania dźwięku występujące w powietrzu, a następnie taki sygnał analogowy jest konwertowany na postać cyfrową i przekazywany do modułu przetwarzającego. Jeśli przechwycony materiał dźwiękowy nie zostanie umieszczony na żadnym trwałym nośniku danych, na przykład w pamięci flash lub na dysku twardym, nie zostanie zarejestrowany. W przypadku urządzeń Axis strumieniowe przesyłanie dźwięku i jego zapis są domyślnie wyłączone.

Po pierwotnym przechwyceniu dźwięku pozyskane w ten sposób informacje są przygotowywane pod kątem kolejnych etapów przetwarzania. Poszczególne czynności przygotowawcze mogą być wykonywane równolegle lub pojedynczo.

Przygotowanie dźwięku

Przekształcenie
Narzędzia analityczne w urządzeniu brzegowym działające w czasie rzeczywistym
Przetworzenie i zakodowanie w celu przesyłania strumieniowego lub przechowywania - w przypadku urządzenia Axis dźwięk nie jest przesyłany strumieniowo ani przechowywany, chyba że specjalnie włączono strumieniowanie foniczne.

Przekształcenie. Dźwięk zyskuje postać abstrakcyjną i jest konwertowany na informacje wizualne, np. na wykres przedstawiający spektrum dźwięku. Jest to proces nieodwracalny: z wykresu spektrum nie można odtworzyć pierwotnego dźwięku.
Narzędzia analityczne w urządzeniu brzegowym działające w czasie rzeczywistym.
Jeśli dźwięk jest przetwarzany na brzegu sieci, można użyć klasyfikatora dźwięku. Wynikiem jego zastosowania są metadane opisujące cechy dźwięku. Z metadanych nie można odtworzyć pierwotnego dźwięku.
Można także użyć detektora dźwięku w celu rozpoznawania wzorców, poziomów lub częstotliwości i uzyskiwania informacji o stanie. Również w tym przypadku nie jest możliwe przywrócenie pierwotnego dźwięku.
Przetwarzanie i kodowanie. W przypadkach, gdy używane są pierwotne dane audio (bez przekształcenia czy analizy), zazwyczaj wykonywane są określone czynności z zakresu przetwarzania i kodowania, które mają na celu przygotowanie danych dźwiękowych do zamierzonych zastosowań. Zastosowania te mogą obejmować przechowywanie danych audio na brzegu sieci, ich strumieniowe przesyłanie do zewnętrznych urządzeń klienckich na potrzeby dodatkowego przetwarzania (na serwerze lub w chmurze) albo przechowywanie w lokalizacji zewnętrznej. W przypadku urządzenia Axis trzeba najpierw specjalnie włączyć strumieniowanie foniczne, które jest domyślnie wyłączone ze względu na ochronę prywatności (kontrola prywatności dźwięku).

Analizy na brzegu sieci lub na serwerze

Umiejscowienie mechanizmu analiz w systemie jest ważne z wielu powodów. Zwłaszcza z perspektywy obaw o ochronę prywatności i przestrzegania przepisów dotyczących danych osobowych duże znaczenie ma to, gdzie algorytm analizuje dane audio. Są sytuacje, gdy danych dźwiękowych nie można przesłać przez sieć i przechwycone (ale niezachowane) dane audio muszą być analizowane lokalnie. Jeśli stosowane algorytmy wymagają dużej mocy obliczeniowej i nie mogą być wykonywane na brzegu sieci, może być konieczne wysłanie cyfrowych danych audio do chmury lub na serwer.

Możliwe miejsca prowadzenia analizy

Brzeg sieci
Chmura
Serwer
Pamięć masowa — pierwotny dźwięk może być zapisywany tylko wtedy, gdy jest włączone strumieniowe przesyłanie dźwięku.

Analizy brzegowe. Gdy narzędzia analityczne działają w urządzeniu brzegowym, strumień foniczny nie wychodzi z urządzenia. Przesyłane są jedynie dane wyjściowe analizy, czyli metadane lub zdarzenia wyzwalające alarm. Aplikacja AXIS Audio Analytics działa w urządzeniu brzegowym.
Analizy serwerowe. Jeżeli analiza wykonywana jest na serwerze, urządzenie musi przesłać do niego dane foniczne (audio) w całości. Jeżeli dane foniczne są wstępnie przetwarzane w urządzeniu, przesłane muszą zostać jedynie metadane niedające możliwości identyfikacji osobowej. Serwer jest zwykle elementem systemu zamkniętego (tj. właściciel systemu ma nad nim kontrolę), co daje możliwość zarządzania aspektami ochrony prywatności związanymi z przesyłaniem danych fonicznych. Niemniej jednak należy zadbać o przestrzeganie obowiązujących przepisów i regulacji.
Analizy w chmurze. Dane audio mogą też być przesyłane do serwera w środowisku chmurowym. Tak jak w przypadku analiz serwerowych informacje audio mogą być wstępnie przetwarzane do postaci metadanych. Chmura ma często charakter zdecentralizowany, więc tym bardziej należy wyjaśnić kwestie dotyczące prywatności i zapewnić przestrzeganie przepisów.

Metadane

Narzędzia do analizy audio generują stały strumień metadanych na podstawie danych głośności audio. Generowane są również metadane na podstawie zdarzeń wykrytych przez klasyfikatory, poziom ciśnienia akustycznego (SPL) i adaptacyjną detekcję dźwięku. Narzędzia analityczne działające w urządzeniu brzegowym analizują otrzymywane informacje foniczne. Nie muszą one nigdzie przesyłać strumienia audio — mogą przesyłać tylko metadane, które dostarczają informacji o tym, co się dzieje na dozorowanym obszarze.

Strumień metadanych umożliwia kontrolę spektrum dźwięku i jego reprezentację wizualną, dzięki czemu zdarzenia audio i wideo mogą być zharmonizowane i łącznie obserwowane. Tak właśnie metadane umożliwiają skuteczne i szybkie wyszukiwanie określonych zdarzeń oraz nieoczekiwanych dźwięków. Dzięki temu śledczy mogą zaoszczędzić wiele godzin, zwłaszcza w przypadku przeszukiwania ogromnych ilości zarejestrowanego materiału.

AXIS Audio Analytics

Aplikacja AXIS Audio Analytics jest zintegrowana z oprogramowaniem układowym urządzenia AXIS OS i bezpłatnie dołączana do kompatybilnych kamer oraz innych urządzeń Axis.

AXIS Audio Analytics działa w urządzeniu brzegowym, współpracując z algorytmami bezpośrednio w nim działającymi. Zapewnia to optymalną skalowalność, niski poziom transmisji danych i prywatność. Zapisywane są tylko dane wyjściowe analizy (czyli metadane lub wyzwalacze). Nie jest zapisywany ani przesyłany strumieniowo z urządzenia żaden dźwięk, a pierwotnego dźwięku nie można zrekonstruować na podstawie metadanych.

Klasyfikacja dźwięku. Jest to klasyfikator dźwięku oparty na sztucznej inteligencji, który wykrywa i analizuje określone dźwięki, na przykład wrzask, krzyk, mowę, rozbijanie szkła. Wynikiem analizy z klasyfikacją są metadane opisujące charakterystykę dźwięku.
Poziom ciśnienia akustycznego (SPL). Jest to miara głośności dźwięku wyrażona w decybelach [dB]. Pomiary SPL mogą być pomocne w ocenie różnych czynników, od jakości dźwięku po bezpieczeństwo narządu słuchu.
Adaptacyjna audio detekcja. Jest to detektor dźwięku, który generuje zdarzenie w przypadku nagłej zmiany poziomu dźwięku. Wykrywa skoki natężenia dźwięku dowolnego rodzaju, a ma przy tym tę zaletę, że dostosowuje się do poziomu hałasu otoczenia, nawet jeśli ten poziom jest zmienny.

Aplikacja AXIS Audio Analytics będzie na bieżąco wprowadzać nowe i ulepszone funkcje oraz możliwości.

Prywatność

Narzędzia analizy dźwięku w ogólności nie zapisują odbieranego dźwięku ani nie wysyłają go z urządzenia. One po prostu przetwarzają dźwięki, aby umożliwić wyszukiwanie określonych zdarzeń, wzorców lub poziomów dźwięku w systemie odbiorczym, na przykład na pulpicie w ramach prac wyjaśniających lub w oprogramowaniu do zarządzania materiałem wizyjnym w celu generowania alertów dla operatorów. Nie można zrekonstruować żadnych pierwotnych danych audio ani zarejestrować żadnej prywatnej rozmowy. Jest tak ze względu na to, że analizy są wykonywane na brzegu sieci i przesyłane są tylko metadane audio.

Domyślnym ustawieniem aplikacji AXIS Audio Analytics jest brak zapisu strumienia fonicznego, a jedynie przesyłanie metadanych. Ze względu na ochronę prywatności strumieniowe przesyłanie dźwięku jest domyślnie wyłączone w urządzeniach Axis (kontrola prywatności dźwięku), co oznacza, że dźwięk nie jest przesyłany strumieniowo ani rejestrowany i nie można go zrekonstruować. W razie potrzeby można włączyć strumieniowe przesyłanie dźwięku, ale jeśli wydarzy się coś istotnego, powiadomienia będą generowane nawet wtedy, gdy strumieniowe przesyłanie dźwięku jest wyłączone.

Ilustracja przedstawia ogólnie, jak AXIS Audio Analytics współpracuje z kontrolą prywatności dźwięku w kontekście wychwytywania dźwięków i wykorzystywania metadanych do generowania alertów.

Kontrola prywatności dźwięku i aplikacja AXIS Audio Analytics w urządzeniach Axis - od krzyku (1) do alarmu (5).

Firma Axis oferuje również urządzenia, które zamiast mikrofonów posiadają czujniki akustyczne. Dzięki czujnikom akustycznym urządzenie może korzystać z aplikacji AXIS Audio Analytics, a możliwość strumieniowania fonicznego jest całkowicie wyeliminowana. Urządzenia te nie są przeznaczone ani do strumieniowania, ani do zapisu dźwięku, wytwarzają jedynie metadane foniczne.

Zastosowania

Analizy oparte na sztucznej inteligencji wprawdzie mają spory potencjał w zakresie odfiltrowywania nieistotnego szumu, jednak mogą generować fałszywe alerty w przypadku wysokiego poziomu hałasu tła. Deszcz uderzający o szyby, grzmoty, syreny, muzyka czy intensywny ruch rozmawiających osób mogą wyzwalać fałszywe alerty. Dlatego typowe zastosowania dotyczą raczej cichych obszarów, takich jak banki czy recepcje, ale też wiele innych przestrzeni zamkniętych po godzinach pracy, takich jak sklepy, restauracje czy biura, a nawet klatki schodowe.

Alarmowanie na podstawie detekcji dźwięku

W banku lub w obszarze recepcji narzędzie analityczne klasyfikacji dźwięku może wspomóc dozór i wykrywać dźwięki w rodzaju wrzasku, krzyku, mowy lub rozbijania szkła. W przypadku detekcji informacja na temat zdarzenia oraz metadane audio są wysyłane do obsługi w postaci alertu wizualnego lub mogą wyzwolić alarm. Jest to wczesne ostrzeżenie, które umożliwia szybką reakcję i interwencję.

Adaptacyjna detekcja audio może służyć do wykrywania nieoczekiwanych dźwięków poza godzinami pracy. Narzędzie analityczne analizuje dźwięki w otoczeniu i inicjuje reakcje w przypadku wykrycia głosów, stłuczenia szyby lub innego nagłego, krótko trwającego odgłosu. Po wykryciu zdarzenia narzędzie analityczne przekazuje metadane w celu odpowiedniego powiadomienia operatorów.

Stosowanie różnych czujników w celu lepszego wykorzystania systemu dozoru

Systemy dozoru często obejmują kilka rodzajów czujników. Jednym z nich jest przetwornik obrazu w kamerze, który rejestruje dane wizualne na temat obserwowanej sceny. Często stosowane są też czujniki niewizualne, na przykład detektory ruchu oparte na technologii radarowej lub emisji promieniowania podczerwonego. Czujniki niewizualne stanowią uzupełnienie instalacji kamery, zapewniające innego rodzaju dane wejściowe.

Przez poszerzenie systemu dozorowego o czujniki dźwiękowe (mikrofony lub czujniki akustyczne) zyskuje się nowe możliwości w ogromnej większości zastosowań. Dodanie rozwiązań audio i analityki audio do pozbawionego ich wcześniej systemu otwiera drogę do interakcji wieloczujnikowej. W przypadku korzystania z analityki wideo dodanie analityki audio przekłada się na większą wiarygodność detekcji. Dzieje się tak zwłaszcza wtedy, gdy analiza obrazu jest utrudniona przez złe oświetlenie lub w obszarach, w których ujmowanie obrazu jest niedozwolone lub niemożliwe.

System można skonfigurować — na przykład w oprogramowaniu do zarządzania materiałem wizyjnym — w taki sposób, aby wyzwalał działania dopiero wtedy, gdy reakcja wystąpi zarówno w obszarze analizy wideo, jak i analizy audio. Na przykład w ramach analizy dźwięku zostaje wykryty krzyk, a w ramach analizy obrazu - osoba w polu widzenia kamery. W niektórych środowiskach taka kombinacja stanowi właściwy poziom bezpieczeństwa.

Dane wejściowe dla wykresów

Metadane foniczne można wprowadzić do analitycznych pulpitów nawigacyjnych lub platform analiz biznesowych gromadzących i prezentujących wizualnie metadane. Prowadzą one analizy w czasie rzeczywistym i analizy historycznych trendów w celu błyskawicznego generowania ogólnego obrazu sytuacji i przydatnych w praktyce informacji. Analizy statystyczne oparte na przepływie klientów lub ich wrażeniach umożliwiają podejmowanie decyzji opartych na danych w celu usprawniania działalności operacyjnej.

Dzięki reprezentacji graficznej można poznać wyniki bez odsłuchiwania faktycznego dźwięku, a więc nie jest potrzebny dostęp do pierwotnego dźwięku. Zamiast tego uzyskuje się przydatne informacje, na przykład wynikające z policzenia zdarzeń. Nie powinno więc być żadnych wątpliwości co do prywatności danych. Należy pamiętać, że mogą obowiązywać różne ograniczenia prawne, w zależności od tego, czy materiał dźwiękowy jest rejestrowany czy tylko przechwytywany (monitorowany).

Ograniczenia prawne

Wiele osób ma zastrzeżenia dotyczące używania mikrofonów w kontekście dozoru wizyjnego. Zastrzeżenia te zwykle dotyczą rejestrowania głosu razem z materiałem wizyjnym. Jednak w przypadku narzędzi do analizy audio zwykle żaden dźwięk nie jest rejestrowany ani przesyłany strumieniowo. Przepisy regulujące kwestie związane z dozorem różnią się w zależności od kraju i regionu, więc przed zastosowaniem funkcji audio w systemie dozoru należy koniecznie się zapoznać z obowiązującymi przepisami.

Przechwytywanie i rejestrowanie materiału dźwiękowego może być zabronione lub objęte szczególnymi obostrzeniami wynikającymi z ustawodawstwa krajowego bądź różnego rodzaju przepisów i regulacji lokalnych. W pewnych regionach lub środowiskach może być dopuszczalne przechwytywanie dźwięku przy jednoczesnym zakazie jego rejestrowania. Firmy również mogą zabraniać prowadzenia dozoru dźwiękowego na swoim terenie.

Wyłączenie odpowiedzialności

Ten dokument i jego treść są udostępniane dzięki uprzejmości firmy Axis, a wszelkie prawa do dokumentu oraz związane z nim prawa własności intelektualnej (w tym, między innymi, znaki towarowe, nazwy handlowe, logotypy i podobne zawarte w nim znaki) są chronione na mocy prawa oraz wszelkie prawa, tytuł własności i/lub udziały w dokumencie i wszelkie związane z nim prawa własności intelektualnej należą i będą należeć do Axis Communications AB.

Niniejszy dokument jest udostępniany „tak jak jest” bez jakiejkolwiek gwarancji przydatności, wyłącznie w celach informacyjnych. Informacje zawarte w niniejszym dokumencie nie stanowią porady prawnej, ani nie mają na celu jej stanowienia. Niniejszy dokument nie ma na celu i nie powinien stanowić żadnego prawnego zobowiązania wobec Axis Communications AB lub którejkolwiek z jej jednostek powiązanych. Zobowiązania firmy Axis Communications AB i/lub jakichkolwiek podmiotów z nią powiązanych w odniesieniu do dowolnych produktów Axis są w całości uregulowane warunkami umowy zawartej między firmą Axis i podmiotem, który kupił takie produkty bezpośrednio od firmy Axis.

DLA UNIKNIĘCIA WĄTPLIWOŚCI WYJAŚNIA SIĘ, ŻE CAŁE RYZYKO ZWIĄZANE Z UŻYWANIEM TEGO DOKUMENTU I JEGO REZULTATAMI PONOSI UŻYTKOWNIK DOKUMENTU, A AXIS W MAKSYMALNYM ZAKRESIE DOZWOLONYM PRZEZ PRAWO WYKLUCZA I WYŁĄCZA WSZELKIE USTAWOWE, WYRAŹNE LUB DOROZUMIANE GWARANCJE, W TYM, MIĘDZY INNYMI, WSZELKIE DOROZUMIANE GWARANCJE WARTOŚCI HANDLOWEJ, PRZYDATNOŚCI DO OKREŚLONEGO CELU, TYTUŁU I NIENARUSZENIA PRAW ORAZ ODPOWIEDZIALNOŚCI ZA PRODUKT, A TAKŻE WSZELKIE GWARANCJE WYNIKAJĄCE Z JAKIEJKOLWIEK OFERTY, SPECYFIKACJI LUB PRÓBKI, KTÓRE MOŻNA BY ODNIEŚĆ DO TEGO DOKUMENTU.