AXIS Camera Station Pro 내의 자연어 검색
요약
AXIS Camera Station Pro에는 여러 비디오 포렌식 검색 도구가 사전 설치되어 있습니다. 여기에는 타임라인 스크러빙, 데이터 검색, 사전 분류된 개체를 사용한 스마트 검색 및 자연어 검색이 포함됩니다.
자연어 검색을 사용하면, 움직이는 객체를 사용자 고유의 표현을 사용해 설명하여 검색할 수 있습니다. 다양한 설명 속성을 활용하여 상세한 검색 필터를 자유롭게 생성할 수 있어 관련 영상을 더 빠르게 찾을 수 있습니다.
자연어 검색 기능은 Axis가 감시 사용 사례에 맞게 최적화한 사전 훈련된 오픈 소스 기반 모델이 제공하는 텍스트-이미지 매칭을 기반으로 합니다. 검색은 한 대의 카메라 또는 여러 대의 카메라에 동시에 적용할 수 있습니다.
자연어 검색의 수치적 표현은 감지된 움직이는 객체 이미지의 수치적 표현과 비교됩니다. 검색 결과는 카메라 이름, 시간 및 날짜를 포함한 썸네일로 표시되며, 검색어와의 관련성에 따라 정렬됩니다.
자연어 검색을 통해, Axis는 AI를 사용하여 포렌식 검색 솔루션의 정확성과 효율성을 높이고 궁극적으로 인간의 의사 결정을 향상시킵니다. 법적 및 윤리적 기준을 준수하기 위해, 검색 기능에는 검색어에 불쾌감을 주는 단어를 사용하는 것을 제한하는 Axis가 개발한 별도의 조정 기능이 포함되어 있습니다. 또한 모든 검색은 기록되어 관리자가 확인할 수 있어, 오용 사례 발생 시 후속 조치와 시정 조치를 취할 수 있습니다.
서론
AXIS Camera Station Pro의 자연어 검색 도구를 사용하면, 사전 정의된 필터 없이 원하는 단어를 입력하여 비디오 녹화 영상을 검색할 수 있습니다.
이 백서에서는 검색 방법의 작동 원리를 설명하고 검색 방법을 사용하는 방법에 대한 몇 가지 가이드라인을 제시합니다. 법적 및 윤리적 기준을 준수하기 위해 마련된 중재 기능과 검색어 로깅에 대해서도 설명합니다.
배경: AXIS Camera Station Pro의 포렌식 검색
AXIS Camera Station Pro에는 타임라인 스크러빙, 데이터 검색은 물론 사전 분류된 객체를 사용한 스마트 검색 및 자연어 검색을 포함한 여러 비디오 포렌식 검색 도구가 사전 설치되어 있습니다.
스마트 검색 기능은 Axis 장치에서 생성된 장면 메타데이터를 사용합니다. 메타데이터에는 움직이는 객체에 대한 객체 유형(사람, 차량 유형 또는 알 수 없는 객체)과 함께 의류 및 차량 색상, 번호판, 속도, 위치, 타임스탬프와 같은 속성이 포함됩니다.
분석 기능이 제한된 장치의 경우, 검색 기능은 장치의 모션 디텍션과 AXIS Camera Station Pro 서버에서 수행된 객체 분류를 기반으로 합니다. 따라서 AXIS Camera Station Pro의 포렌식 검색은 에지 장치의 기능을 최대한 활용하되 필요한 경우 서버의 데이터로 보완하는 하이브리드 솔루션입니다.
기존에는 장면 메타데이터를 사용한 검색은 미리 정의된 검색 필터를 사용하여 수행해야 했습니다. 이를 통해 객체 유형(예: “차량“), 차량 유형(해당되는 경우 “자동차“), 색상(예: “파란색“) 등을 포함하여 고정된 객체 설명자를 목록에서 선택할 수 있습니다. 대신 새로운 자연어 검색 방식을 사용하면 고유한 검색 필터를 만들 수 있습니다.
사전 분류된 검색은 높은 정확도의 결과를 제공하지만, 미리 정의되지 않은 새로운 객체 유형은 감지할 수 없습니다. 이러한 제한을 해결하기 위해 자연어 검색은 용자가 직접 원하는 단어를 입력하여 유연하게 검색할 수 있도록 지원합니다. 자연어와 연관어를 사용해 움직이는 객체를 더 자세하게 설명하여 검색을 세밀하게 조정하고 더 많은 결과를 얻을 수 있습니다.
자연어 검색은 어떻게 작동합니까?
자연어 검색의 수치적 표현은 감지된 움직이는 객체 이미지의 수치적 표현과 비교됩니다. 이 텍스트-이미지 매칭의 결과는 일치도 순으로 표시되고 정렬됩니다. 검색 결과는 카메라 이름, 시간 및 날짜를 포함한 썸네일로 표시되며, 검색어와의 관련성에 따라 정렬됩니다.
- 자연어 검색어를 입력합니다.
- 조정 모듈은 유해하고 비윤리적인 단어의 사용을 방지합니다.
- 파운데이션 모델은 검색어의 숫자 표현(특징 벡터)을 생성합니다.
- 카메라가 장면의 움직임을 감지합니다.
- 카메라가 움직이는 객체를 표현하기 위해 잘린 이미지 하나를 선택합니다.
- 파운데이션 모델은 객체의 모양, 패턴, 색상 등을 분석한 후 특징 벡터를 생성합니다.
- 두 기능 벡터를 비교합니다.
- 비교 결과는 일치도 순으로 정렬되어 썸네일로 표시됩니다.
자연어 검색은 한 대의 카메라 또는 여러 대의 카메라에 동시에 적용할 수 있습니다.
자연어 검색의 범위를 좁히기 위해서는 유사도 검색이나 시간 기반 검색과 같은 다른 스마트 검색 기능을 하나씩 차례로 적용하여 조합할 수 있습니다.
검색어 작성
움직이는 모든 객체와 모든 유형의 차량을 검색할 수 있습니다. 최상의 결과를 얻으려면 가이드라인을 따르십시오.
움직이는 객체만 검색해야 합니다. 정지된 객체를 검색하면, 대부분의 경우 검색이 이루어지지 않습니다.
비윤리적인 검색 행위를 방지하기 위해 검색 구문이 조정되고 기록됩니다.
프롬프트 지침
이미지를 설명할 때와 마찬가지로 상황을 설명합니다. 모델에는 정지 이미지가 제공되므로 액션(예: 넘어지기, 달리기, 도둑질)을 검색하려면 더 많은 컨텍스트가 필요하기 때문에 액션 검색이 어려울 수 있습니다.
“빨간 스웨터를 입은 사람“ 또는 “노란색 픽업 트럭“ 등 몇 가지 주요 설명자를 사용하여 객체를 설명합니다. 다른 멀티모달 모델과 마찬가지로 자연어 검색 모델은 물체 및 색상과 같은 설명자에 대해서는 잘 작동하지만, 숫자(“세 사람“), 속어 또는 감정 표현(“화난 표정의 남자“)에는 덜 적합합니다. 객체 설명은 주관적이거나 너무 모호하거나 너무 구체적인 디테일을 포함해서는 안 됩니다.
and를 사용하여 여러 객체 속성을 결합: “빨간 모자를 쓰고 배낭을 멘 사람“
텍스트, 텍스트 로고 또는 브랜드 이름을 설명합니다(예: “Axis라는 텍스트가 있는 밴“).
환경을 설명하는 데 초점을 맞추지 마십시오. 객체의 잘린 이미지를 처리하기 때문에 모델이 객체의 주변을 보지 못할 수도 있습니다. 따라서 광범위한 장면이나 환경 설명자(예: “도시“, “도심“, “공원“, “정원“, “호수“ 또는 “해변“)는 좋은 결과를 제공하지 않을 수 있습니다.
결과가 마음에 들지 않으면 다른 문구로 실험합니다.
자연어 프롬프트는 영어만 지원합니다.
검색어 조정
Axis는 효과적인 필터링을 위해 일반적인 관행에 기반한 검색어 조정을 구현했습니다. 조정 모델은 불쾌감을 주는 표현을 제한하기 위해 검색어를 검사하는 자연어 처리 모델입니다. 이 모델은 전체 텍스트 문자열에서 유해하거나 부적절하거나 유해한 콘텐츠를 검사합니다. 뿐만 아니라, Axis는 금지된 검색 카테고리와 단어의 사용자 정의 목록을 포함한 독자적인 조치를 통해 이러한 기능을 강화했습니다. 검색어에 이 목록의 단어나 문구가 포함되어 있을 경우, Axis는 안전한 검색 환경을 유지하고 윤리적인 결과를 보장하기 위해 해당 검색을 차단합니다. 특정 단어가 차단되는 것에 동의하지 않거나 차단이 필요한 단어를 제안하고 싶은 경우 Axis에 익명으로 사용자 피드백을 제공할 수 있습니다.
검색어 로깅
AXIS Camera Station Pro는 사용자 운영에 대한 감사 추적을 유지합니다. 감사 추적은 특정 운영과 사용자 신원을 추적할 뿐만 아니라 해당 운영에 사용된 모든 데이터도 보관합니다. 즉, 검색 프롬프트를 포함한 모든 사용자 검색이 기록됩니다. 관리자는 로그를 사용하여 사용자의 부적절한 검색 활동을 식별하고, 비윤리적인 검색 프롬프트에 플래그를 지정하고, 시정 조치를 취할 수 있습니다.
비디오 데이터는 Axis와 공유되지 않습니다. 데이터는 서버에 남아 있습니다.
텍스트-이미지 매칭
자연어 검색을 사용해 비디오 메타데이터를 검색할 수 있게 되면 미리 정의된 속성 목록에서 거의 무제한의 검색 기준으로 검색 능력이 크게 확장됩니다. AXIS Camera Station Pro에서 이 기능은 수십억 개의 이미지-텍스트 쌍으로 학습된 오픈 소스 파운데이션 모델을 토대로 하며, Axis가 감시 사용 사례에 맞춰 성능 향상을 위해 미세 조정을 수행했습니다.
감시에 최적화된 파운데이션 모델
파운데이션 모델은 텍스트-이미지 쌍의 대규모 데이터세트로 학습된 텍스트-이미지 모델입니다. 이 모델은 텍스트와 관련 이미지를 매칭하는 제로 샷 모델입니다. 제로 샷 모델은 사전 학습 데이터 없이도 객체나 개념을 인식하고 분류할 수 있는 인공 지능(AI) 모델의 일종입니다. 즉, 이 모델은 이전에 해당 작업의 예제를 본 적이 없어도 작업을 수행할 수 있습니다. 이러한 능력은 Axis가 자연어와 이미지를 매칭하기 위해 최적의 성능을 제공하는 데 매우 중요합니다.
이 모델은 대량의 텍스트-이미지 조합으로 학습되었으며, 25억 개 이상의 매개변수를 가진 신경망에서 작동합니다. Axis에서는 자체적인 고유한 학습 자료를 사용하여 이 모델을 더욱 조정했으며, 이를 통해 일반적인 감시 카메라 보기와 객체가 포함된 이미지를 해석하는 능력을 향상시켰습니다. 즉, Axis는 이 모델을 감시 사용 사례에 맞게 최적화했습니다.
특징 벡터
자연어 검색을 하면 파운데이션 모델이 검색어의 특징 벡터를 생성합니다.
파운데이션 모델은 장면에서 추적되는 모든 객체에 대한 설명을 지속적으로 생성하며, 해당 객체를 표현하는 특징 벡터를 만듭니다 각 객체는 단 하나의 특징 벡터로 표현되며, 이 벡터는 데이터베이스에 저장됩니다. 이에 따라 특징 벡터가 사전에 계산되어 데이터베이스에 준비되어 있으므로, 검색 속도가 빠릅니다.
검색어와 감지된 객체를 나타내는 모든 가용 특징 벡터 간의 유사도 거리를 계산하기 위해, 두 가지 유형의 특징 벡터가 벡터 비교 엔진에 입력됩니다.
특징 벡터는 텍스트나 이미지를 숫자로 표현한 것입니다. 따라서 사람이나 객체의 특징 벡터는 사람이나 객체의 외형을 추상적으로 표현한 것에 불과합니다. 특징 벡터에는 머리카락이나 의상 색상과 같이 특정 개인을 식별하거나 매핑하는 데 사용할 수 있고 사람이 해석 가능한 특징 정보가 포함되지 않습니다. 특징 벡터는 다른 특징 벡터와 비교하는 용도로만 사용할 수 있습니다.
프로세스 개요
프로세스 개요 다이어그램에는 각 단계가 수행되는 위치와 각 단계에서 생성되는 데이터 유형을 포함한 주요 프로세스 단계가 표시됩니다.
다이어그램에서 카메라(II), 녹화 영상 스토리지(6), 파운데이션 모델(5), 검색 데이터베이스(3)를 포함하는 상단 루프는 검색을 실행할 때만 수행되는 것이 아니라 감지된 모든 움직이는 객체의 특징 벡터를 생성하기 위해 지속적으로 수행되는 프로세스입니다.
- AXIS Camera Station Pro 클라이언트
- 카메라
- AXIS Camera Station Pro 서버
- 검색어 조정
- 파운데이션 모델(텍스트)
- 데이터베이스 검색
- 벡터 비교
- 파운데이션 모델(이미지)
- 녹화 영상 스토리지
- 텍스트 문자열
- 텍스트 문자열
- 특징 벡터(텍스트)
- 비디오
- 메타데이터
- 이미지
- 특징 벡터(이미지)
- 특징 벡터(이미지)
- 검색 결과
(I) AXIS Camera Station Pro 클라이언트: 여기에 검색어를 입력하면 정렬된 검색 결과를 받을 수 있습니다.
(II) 카메라: 자연어 검색은 AXIS OS 5.51 이상을 탑재한 Axis 카메라에서 작동하지만, 카메라가 좋을수록 더 좋은 결과를 얻을 수 있습니다. 구형 장치는 모션 디텍션만을 기반으로 덜 세분화된 메타데이터를 제공합니다. 최신 장치는 객체 분류를 포함하는 AXIS Scene Metadata의 메타데이터를 생성합니다. 카메라의 움직이는 객체 감지 기능은 감지된 각 객체의 대표 이미지를 하나씩 찾아 서버에서 분석할 이미지의 수를 줄이는 데 사용됩니다.
(III) AXIS Camera Station Pro 서버: 여기에서 카메라의 모든 메타데이터와 비디오 데이터가 처리되고 저장됩니다. 자연어 검색을 하기 전에 서버는 (감지된 각 움직이는 객체에 대해) 비디오를 디코딩하고 감지된 객체의 이미지를 추출해야 합니다. 그런 다음 파운데이션 모델이 이 이미지를 처리하여 특징 벡터를 생성합니다. 이러한 작업은 처리 용량 측면에서 비용이 많이 들기 때문에, 성능 향상을 위해 기능 벡터를 데이터베이스에 저장하여 향후 빠른 검색을 지원할 수 있도록 합니다. 서버에 여유 용량이 있으면 가장 중요한 카메라의 영상을 백그라운드에서 처리하도록 설정하는 것을 강력히 권장합니다. 이를 통해 검색 속도를 크게 향상시킬 것이기 때문입니다.
(1) 검색어 조정: 조정 모델은 검색어를 검사하여 불쾌감을 주는 콘텐츠를 제한합니다.
(2) 파운데이션 모델(텍스트): 파운데이션 모델은 조정된 검색어 텍스트 문자열의 수치 표현(특징 벡터)을 생성합니다.
(3) 데이터베이스 검색: 검색 데이터베이스에는 속성, 시간, 위치, 특징 벡터가 포함된 객체 분류 데이터를 포함하여 AXIS Scene Metadata의 전체 메타데이터 또는 서버에서 생성한 메타데이터가 저장됩니다.
(4) 벡터 비교: 검색어 텍스트 문자열의 특징 벡터 표현을 비디오에서 감지된 객체 이미지의 특징 벡터 표현과 비교합니다.
(5) 파운데이션 모델(이미지): 파운데이션 모델은 녹화된 비디오의 각 객체 트랙에 대한 수치적 표현(특징 벡터)을 생성합니다. 이는 검색을 하지 않을 때에도 계속 진행되는 프로세스입니다.
(6) 녹화 영상 스토리지: 카메라의 영상이 저장되는 곳이며 파운데이션 모델이 이미지를 가져오는 곳입니다.
책임감 있는 AI 사용
자연어 검색을 통해, Axis는 AI를 사용하여 포렌식 검색 솔루션의 정확성과 효율성을 높이고 궁극적으로 인간의 의사 결정을 향상시킵니다.
책임감과 신뢰성은 Axis의 AI 접근 방식에서 핵심 요소입니다. 여기에는 Axis가 만드는 AI 시스템이 윤리적 원칙을 준수하고, 법률을 준수하며, 위험을 효과적으로 관리하도록 보장하는 것이 포함됩니다. Axis는 고객이 운영의 신뢰성을 확신할 수 있도록 하는 다양한 도구를 제공합니다. AXIS Camera Station Pro의 자연어 검색 기능에는 텍스트 프롬프트 조절을 위해 미세 조정된 텍스트 분류 모델이 포함되어 있습니다. Axis는 비윤리적인 사용의 방지를 도울 수 있도록 검색어를 조정하기 위해 이 모델을 개발했습니다.
자연어 검색은 일주일에 한 번 Axis 클라우드 서비스에 연결하여 새로운 규정이나 요구 사항을 준수하기 위해 AI 모델에 업데이트가 필요한지 확인합니다. 연결에 실패하면 연결이 다시 설정될 때까지 자연어 검색 작업을 사용할 수 없습니다.
AI 적용 시 법적 및 윤리적 기준을 더욱 준수하기 위해, Axis 제품은 사용자 인증 자격 증명 및 접근 권한에 기반한 접근 제어를 제공합니다. 이를 통해 고객은 사용자가 운영 정책을 준수하도록 강제할 수 있습니다.