Pesquisa de texto livre

abril, 2026

Resumo

O AXIS Camera Station Pro vem com várias ferramentas de pesquisa de vídeo forense pré-instaladas. Entre elas, depuração de linha do tempo, pesquisa de dados e pesquisa inteligente com objetos pré-classificados e pesquisa de texto livre.

A pesquisa de texto livre permite pesquisar qualquer objeto em movimento, descrevendo-o com suas próprias palavras. A liberdade de criar filtros de pesquisa detalhados com uma ampla faixa de atributos descritivos possibilita encontrar gravações relevantes mais rapidamente.

A função de pesquisa de texto livre é baseada na correspondência entre texto e imagem fornecida por um modelo de base de código aberto pré-treinado que foi otimizado pela Axis para casos de uso de monitoramento. A pesquisa pode ser aplicada a uma câmera ou a várias câmeras ao mesmo tempo.

Uma representação numérica de sua consulta de texto livre é comparada com representações numéricas de imagens de objetos em movimento detectados. Os resultados são exibidos como miniaturas, incluindo nome da câmera, hora e data, classificados por relevância à sua consulta de pesquisa.

Com a pesquisa de texto livre, usamos a IA para aumentar a precisão e a eficiência de nossas soluções de pesquisa forense e, em última análise, aprimorar a tomada de decisões humana. Para cumprir os padrões legais e éticos, a função de pesquisa inclui uma função de moderação separada desenvolvida pela Axis que restringe o uso de palavras ofensivas nas consultas de pesquisa. Todas as pesquisas também são registradas e ficam visíveis para administradores, possibilitando o acompanhamento e a adoção de medidas corretivas em caso de uso indevido.

Introdução

A ferramenta de pesquisa de texto livre do AXIS Camera Station Pro permite pesquisar gravações de vídeo usando suas próprias palavras em vez de filtros predefinidos.

Este white paper descreve como funciona o método de pesquisa e apresenta algumas orientações sobre como usá-lo. Também descrevemos a função de moderação e o registro de consultas em vigor para garantir a conformidade com padrões legais e éticos.

Contexto: pesquisa forense no AXIS Camera Station Pro

O AXIS Camera Station Pro vem com várias ferramentas de pesquisa de vídeo forense pré-instaladas, incluindo varredura de linha do tempo e pesquisa de dados, bem como pesquisa inteligente com objetos pré-classificados, similaridade visual e pesquisa de texto livre.

A função de pesquisa inteligente usa metadados de cena gerados pelo dispositivo Axis. Os metadados incluem o tipo de objeto (pessoa, tipo de veículo ou objeto desconhecido) para objetos em movimento, juntamente com atributos como cor da roupa e do veículo, placas de licença, velocidade, local e registro de data e hora.

Para dispositivos com recursos analíticos limitados, a função de pesquisa é baseada na detecção de movimento no dispositivo combinada com a classificação de objetos realizada no servidor do AXIS Camera Station Pro. A pesquisa forense no AXIS Camera Station Pro é, portanto, uma solução híbrida em que os recursos dos dispositivos de borda são usados tanto quanto possível, mas complementados com dados do servidor quando necessário.

Tradicionalmente, pesquisas com metadados de cenas tinham que ser realizadas usando filtros de pesquisa predefinidos. Com eles, você escolhe descritores de objetos fixos em uma lista, incluindo o tipo de objeto (tais como “veículo“), o tipo de veículo (se aplicável, por exemplo, “carro“), a cor (por exemplo, “azul“) e mais. Em vez disso, o novo método de pesquisa de texto livre permite que você crie seu próprio filtro de pesquisa.

Embora a pesquisa pré-classificada ofereça resultados de alta precisão, ela não é capaz de detectar novos tipos de objetos que não estejam predefinidos. Para resolver essa limitação, a pesquisa de texto livre lhe dá a liberdade e a flexibilidade de pesquisar usando suas próprias palavras. Você pode descrever qualquer objeto em movimento em mais detalhes com linguagem natural e associações para adequar sua pesquisa e obter mais resultados.

Como funciona a pesquisa de texto livre?

Uma representação numérica de sua consulta de texto livre é comparada com representações numéricas de imagens de objetos em movimento detectados. O resultado dessa correspondência entre texto e imagem é apresentado e classificado de acordo com a melhor correspondência. Os resultados são exibidos como miniaturas, incluindo nome da câmera, hora e data, classificados por relevância à sua consulta de pesquisa.

Visão geral simplificada do processo de pesquisa de texto livre. Se o processamento em segundo plano estiver ativado, a etapa 6 ocorre continuamente, mesmo quando você não estiver realizando pesquisas.

Você digita sua consulta de pesquisa de texto livre.
Um módulo de moderação impede o uso de palavras tóxicas e antiéticas.
O modelo de base cria uma representação numérica (um vetor de características) da consulta de pesquisa.
Uma câmera detecta movimento em uma cena.
A câmera seleciona uma imagem cortada para representar o objeto em movimento.
O modelo de base cria um vetor de características do objeto após analisar sua forma, padrões, cor, entre outros.
Os dois vetores de características são comparados.
O resultado da comparação é classificado de acordo com a melhor correspondência e apresentado como miniaturas.

A pesquisa de texto livre pode ser aplicada a uma câmera ou a várias câmeras ao mesmo tempo.

Para restringir o escopo da pesquisa de texto livre, é possível combiná-la com outras funções de pesquisa inteligente, como a pesquisa por similaridade ou a pesquisa baseada no tempo, usando um tipo de pesquisa após o outro.

Construção de consultas de pesquisa

Você pode pesquisar qualquer objeto em movimento e qualquer tipo de veículo. A pesquisa de objetos fixos, na maioria dos casos, não funcionará. Siga as diretrizes para obter os melhores resultados.

As frases de pesquisa são moderadas e registradas para impedir comportamentos de pesquisa antiéticos.

Diretrizes do prompt

Descreva as situações como você descreveria uma imagem. O modelo é alimentado com imagens estáticas, portanto, a pesquisa de ações (como cair, correr ou roubar) pode ser difícil, pois exigiria mais contexto.
Descreva objetos usando alguns descritores-chave: “uma pessoa com um casaco vermelho“ ou “uma caminhonete amarela“. Como outros modelos multimodais, o modelo de pesquisa de texto livre tem bom desempenho com descritores como objetos e cores, mas é menos adequado com contagem de objetos (“três pessoas“), gírias ou pistas emocionais (“homem com aparência zangada“). A descrição do objeto não deve ser subjetiva, muito vaga nem incluir detalhes muito específicos.
Combine vários atributos de objeto usando e: “pessoa com chapéu vermelho e mochila“.
Descreva texto, logotipos de texto ou nomes de marcas: “van com texto Axis“.
Não foque na descrição de ambientes. O processamento é feito em imagens cortadas de objetos, o que significa que o modelo pode não ver os arredores dos objetos. Descritores de cenas ou ambientes amplos (como “cidade“, “urbano“, “parque“, “jardim“, “lago“ ou “praia“) podem, portanto, não fornecer bons resultados.
Experimente frases alternativas se não se satisfizer com um resultado.
O prompt de texto livre é compatível apenas com o inglês.

Moderação de consultas

Implementamos a moderação de consultas com base em práticas comuns para garantir uma filtragem eficaz. O modelo de moderação é um modelo de processamento de linguagem natural que verifica a consulta para restringir formulações ofensivas. Ele verifica sequências de texto inteiras em busca de conteúdo nocivo, inadequado ou tóxico.

Além disso, aprimoramos esses recursos com medidas proprietárias, incluindo uma lista personalizada de categorias e palavras de pesquisa proibidas. Esta lista está em conformidade com a Lei da União Europeia sobre Inteligência Artificial, mas tem um âmbito mais amplo. A lista geralmente contém palavras associadas a:

Insultos (incluindo insultos de caráter étnico ou religioso ou palavras ofensivas)
Etnia (nacionalidades, países)
Convicções políticas, religiosas e filosóficas (incluindo vestimentas religiosas)
Emoções (como “raiva”)
Descrições e classificações subjetivas negativas (como “criminoso”)
Orientação sexual, conteúdo ou insinuações de cunho sexual

A Lei da União Europeia sobre Inteligência Artificial estabelece que é proibido utilizar sistemas de classificação biométrica para categorizar indivíduos com o objetivo de deduzir ou inferir sua raça, opiniões políticas, filiação sindical, crenças religiosas ou filosóficas, vida sexual ou orientação sexual.

Quando uma consulta contém palavras ou frases na lista, rejeitamos a pesquisa para manter um ambiente de pesquisa seguro e garantir resultados éticos. Você pode fornecer feedback anônimo do usuário à Axis se não concordar com o bloqueio de uma palavra ou se quiser sugerir o bloqueio de uma palavra.

Registro de consultas de pesquisa

O AXIS Camera Station Pro mantém uma trilha de auditoria das operações dos usuários. As trilhas de auditoria não apenas monitoram as operações específicas e a identidade do usuário, mas também retêm todos os dados usados na operação. Isso significa que todas as pesquisas de usuários, incluindo prompts de pesquisa, são registradas. Os administradores podem usar os registros para identificar comportamentos de pesquisa inadequados entre usuários, sinalizar prompts de pesquisa antiéticos e adotar medidas corretivas.

Observe que dados de vídeo não são compartilhados com a Axis. Seus dados permanecem em seu servidor.

Correspondência entre texto-imagem

A possibilidade de pesquisar metadados de vídeo usando consultas de texto livre expande significativamente os recursos de pesquisa de uma lista predefinida de atributos para critérios de pesquisa quase ilimitados. No AXIS Camera Station Pro, essa função é baseada em um modelo de base de código aberto, treinado em bilhões de pares de imagem-texto e aperfeiçoado pela Axis para casos de uso de monitoramento com o fim de melhorar o desempenho.

A velocidade da correspondência entre texto e imagem e da criação de vetores de características depende diretamente da capacidade do servidor — um hardware mais potente proporciona resultados de pesquisa mais rápidos. O AXIS Camera Station S1228 AI-Optimized Server é acelerado por GPU e foi projetado especificamente para maximizar o desempenho da pesquisa de texto livre na pesquisa inteligente.

Modelo de base otimizado para monitoramento

O modelo de base é um modelo de texto para imagem treinado em grandes conjuntos de dados de pares de texto-imagem. É um modelo zero-shot que combina texto com imagens pertinentes. Um modelo zero-shot é um tipo de modelo de inteligência artificial (IA) que pode reconhecer e classificar objetos ou conceitos sem dados de treinamento prévio. Em outras palavras, o modelo pode executar tarefas sem ter visto nenhum exemplo da tarefa anteriormente. Essa capacidade é fundamental para garantir o desempenho ideal na correspondência de linguagem natural com imagens.

O modelo foi treinado em uma grande quantidade de combinações de texto-imagem e opera em uma rede neural com mais de 2,5 bilhões de parâmetros. Na Axis, usamos nosso próprio material de treinamento exclusivo para ajustar ainda mais esse modelo, melhorando sua capacidade de interpretar imagens com objetos e exibições típicas de câmeras de monitoramento. Isso significa que otimizamos o modelo para casos de uso de monitoramento.

Vetores de características

Quando você faz uma pesquisa de texto livre, o modelo de base cria um vetor de características da consulta de pesquisa.

O modelo de base também produz descrições de cada objeto rastreado nas cenas e cria vetores de características para representá-los. Cada objeto é representado por apenas um vetor de características, que é armazenado em nosso banco de dados. Se o processamento em segundo plano estiver ativado, os vetores de características são gerados continuamente. Isso agiliza a pesquisa, pois os vetores de características já foram pré-calculados e estão prontamente disponíveis no banco de dados.

Ambos os tipos de vetores de características são alimentados no mecanismo de comparação de vetores para determinar a distância de similaridade entre sua consulta de pesquisa e todos os vetores de características disponíveis que representam objetos detectados.

Um vetor de características é uma representação numérica de texto ou imagens. Os vetores de características de pessoas ou objetos são, portanto, apenas representações abstratas da aparência da pessoa ou do objeto. Vetores de características não contêm nenhuma informação interpretável por humanos sobre características, como a cor do cabelo ou da roupa, que possa ser explicitamente mapeada para uma pessoa específica ou usada para identificação. Os vetores de características só podem ser usados para comparações com outros vetores de características.

Visão geral do processo

O diagrama de visão geral mostra as principais etapas do processo e onde elas ocorrem.

Se você ativou o processamento em segundo plano, o ciclo (4) no diagrama é um processo que cria continuamente vetores de características de todos os objetos em movimento detectados, e não apenas quando você realiza uma busca.

Principais locais (I-III) e principais etapas (1-7) do processo de pesquisa por texto livre

(I) Cliente do AXIS Camera Station Pro: Aqui você digita sua consulta de pesquisa e recebe resultados de pesquisa ordenados

(II) Câmera(s): a pesquisa de texto livre funciona em câmeras Axis com o AXIS OS 5.51 ou posterior, mas quanto melhor for a câmera, melhores serão os resultados obtidos. Dispositivos mais antigos fornecem metadados menos granulares com base apenas na detecção de movimento. Dispositivos mais novos produzem os AXIS Scene Metadata, o que inclui a classificação de objetos. A detecção e o rastreamento de objetos em movimento da câmera são usados para encontrar uma imagem representativa de cada objeto detectado, reduzindo assim o número de imagens a serem analisadas no servidor.

(III) Servidor do AXIS Camera Station Pro: Aqui, todos os metadados e dados de vídeo das câmeras são processados e armazenados. Antes de fazer uma pesquisa de texto livre, o servidor deve (para cada objeto em movimento detectado) decodificar o vídeo e extrair uma imagem do objeto detectado. Em seguida, o modelo de base processa essa imagem para criar o vetor de características. Essas operações são bastante dispendiosas em termos de capacidade de processamento, portanto, para melhorar o desempenho, os vetores de características são salvos em um banco de dados, possibilitando a pesquisa rápida no futuro. Se o seu servidor tiver capacidade livre, recomendamos enfaticamente que você permita o processamento em segundo plano do vídeo de suas câmeras mais importantes, pois isso tornará a busca significativamente mais rápida.

(1) Banco de dados de pesquisa: O banco de dados de pesquisa contém metadados completos do AXIS Scene Metadata ou metadados criados pelo servidor, incluindo dados de classificação de objetos com atributos, hora, posição e vetores de características.

(2) Armazenamento de gravações: É nesse local que o vídeo da câmera é armazenado e onde o modelo de base obtém suas imagens.

(3) Modelo de base de imagens: O modelo de base cria representações numéricas (vetores de características) de cada trilha de objeto na gravação de vídeo.

(4) Processamento em segundo plano: As etapas 1 a 3 constituem um processo contínuo que ocorre mesmo quando você não está realizando uma pesquisa, caso o processamento em segundo plano esteja ativado.

(5) Moderação de consultas de pesquisa: O modelo de moderação verifica a consulta para restringir conteúdo ofensivo.

(6) Modelo de base de texto: O modelo de base cria uma representação numérica (vetor de características) da sequência de texto da consulta de pesquisa moderada.

(7) Comparação de vetores: A representação do vetor de características da sequência de texto da consulta de pesquisa é comparada com as representações do vetor de características das imagens de objetos detectadas no vídeo.

Uso responsável da IA

Com a pesquisa de texto livre, usamos a IA para aumentar a precisão e a eficiência de nossas soluções de pesquisa forense e, em última análise, aprimorar a tomada de decisões humana.

A responsabilidade e a transparência são fundamentais para a abordagem de IA da Axis. Isso envolve garantir que os sistemas de IA que criamos sigam os princípios éticos, cumpram as leis e administrem os riscos de forma eficaz. A Axis fornece ferramentas que permitem que nossos clientes tenham confiança na integridade de suas operações. O recurso de pesquisa de texto livre do AXIS Camera Station Pro inclui um modelo de classificação de texto aperfeiçoado para moderação de prompts de texto. Desenvolvemos esse modelo para moderar as consultas de pesquisa e, assim, ajudar você a impedir o uso antiético.

A pesquisa de texto livre se conecta aos serviços em nuvem da Axis uma vez por semana para verificar se os modelos de IA precisam de atualização para atender a novos regulamentos ou requisitos. Se a conexão falhar, as operações de pesquisa de texto livre ficarão indisponíveis até que a conexão seja restabelecida.

Para cumprir ainda mais os padrões legais e éticos na aplicação da IA, nossos produtos fornecem controles de acesso com base nas credenciais de autenticação do usuário e nas permissões de acesso. Isso permite que nossos clientes garantam a conformidade do usuário com políticas operacionais.