La latencia en la vigilancia de vídeo en red en directo

junio, 2024

Resumen

El proceso de transmisión en directo en la videovigilancia por IP consiste en capturar vídeo en la cámara, empaquetarlo y transportarlo a través de la red para, posteriormente, desempaquetarlo en el receptor y visualizarlo. Cada uno de estos pasos añade más o menos latencia.

Latencia introducida desde la cámara. A la captura de vídeo le sigue el tratamiento de imágenes, la compresión y el empaquetado. Cada paso introduce cierta latencia, pero en general, los procesos que se producen dentro de la cámara contribuyen solo a una pequeña fracción de la latencia total de extremo a extremo.
Latencia introducida por la red. Puede ser muy grande o muy pequeña, y es el factor más impredecible en la «ecuación» de la latencia de extremo a extremo. Se puede hacer más predecible invirtiendo en un buen software y hardware de red. La latencia de la red depende mucho de la relación entre datos y ancho de banda. Puede configurar la cámara para reducir la cantidad de datos que genera, lo que a su vez disminuye la cantidad de paquetes que deben enviarse por la red.
Latencia introducida desde el cliente. En el lado del cliente, los datos se reciben y se almacenan en el búfer para ser clasificados y enviados a la tarjeta gráfica y al monitor. El búfer de recepción en el cliente es lo que más afecta a la latencia se ve más afectada, incluso hasta varios segundos. Sin un búfer grande, se corre el riesgo de que el flujo de vídeo no se reproduzca de manera uniforme.

Reducir la latencia es siempre una cuestión de costes. Los mayores logros se pueden conseguir mejorando la red y el hardware y software del cliente.

Introducción

En el contexto de la videovigilancia, la latencia es el tiempo que transcurre entre el instante en que se captura un fotograma y el instante en que se representa el mismo fotograma. También se denomina «latencia de extremo a extremo» o «latencia de sensor a pantalla». El proceso de transportar un fotograma desde el sensor de la cámara hasta el monitor de visualización implica una larga cadena de pasos.

En este documento técnico se describen los distintos pasos que contribuyen a la latencia total. También se ofrecen recomendaciones sobre cómo reducir la latencia.

¿Qué es la latencia?

La definición de latencia depende del contexto. En tecnología de redes, la latencia se percibe habitualmente como el retardo entre el momento en que se envía una información desde la fuente y el momento en que se recibe esa misma información en su destino final.

En este artículo se analiza la latencia en los sistemas de vigilancia de vídeo en red. Aquí, definimos la latencia como el retardo entre el momento en que una imagen es captada por una cámara y el momento en que es visible en un monitor de vídeo. Durante ese periodo de tiempo, la imagen se captura, comprime, transmite, descomprime y representa visualmente. Cada uno de estos pasos añade su parte de retardo al retardo total. Para simplificar, se puede considerar que la latencia de extremo a extremo consta de tres etapas principales:

Latencia introducida por la cámara (latencia de procesamiento de imágenes, latencia de compresión)
Latencia introducida por la red (latencia de transmisión)
Latencia introducida por el lado del receptor (búfer del cliente, latencia de descompresión, latencia de visualización).

Para cumplir el objetivo de latencia de un sistema de videovigilancia, se ha de tener en cuenta cada una de estas latencias durante el diseño de la solución de vídeo.

¿Cómo se mide la latencia?

La latencia suele expresarse en unidades de tiempo, normalmente segundos o milisegundos (ms). Es muy difícil medir la latencia exacta, ya que para ello sería necesario que los relojes de la cámara y del dispositivo de visualización estuvieran sincronizados con exactitud. Una forma sencilla (previendo una desviación mínima de los valores exactos) es utilizar la función de texto superpuesto de fecha y hora. Este método mide la latencia de extremo a extremo de un sistema de videovigilancia, es decir, la diferencia de tiempo entre la captura de un fotograma de imagen en el objetivo y el momento en que ese mismo fotograma se renderiza en un dispositivo de supervisión.

Tenga en cuenta que este método generará un posible error de hasta un intervalo de fotogramas. Esto depende del hecho de que las marcas de tiempo que se utilizan para calcular la latencia solo se recogen al capturar los fotogramas. Por lo tanto, solo podremos calcular la latencia con el factor de la velocidad de fotogramas. Así pues, si tenemos una velocidad de fotogramas de 25 fps, podemos calcular la latencia como un múltiplo de 40 ms. Si tenemos una velocidad de fotogramas de 1 fps, podemos calcular la latencia como un múltiplo de segundos. Por lo tanto, este método no se recomienda para velocidades de fotogramas bajas.

Para medir la latencia por medio de la función de texto superpuesto con fecha y hora:

Active la marca de tiempo en la superposición mediante (%T:%f).
Coloque la cámara en un ángulo de modo que capture su propia salida de transmisión en directo.
Saque instantáneas de la salida de transmisión en directo para comparar la diferencia de hora entre el tiempo mostrado en la superposición de texto original y el tiempo que se muestra en el bucle de pantalla.

Ejemplo de medición de la latencia con la función de texto superpuesto con fecha y hora. Podemos detectar una diferencia de tiempo de 25,46-25,30 = 0,16 segundos o 160 ms. Esto significa que la latencia de extremo a extremo es de 160 ms.

¿Qué afecta a la latencia?

La latencia total es la suma de las latencias generadas por la cámara, la red y el cliente.

Latencia introducida por la cámara.

Cada fotograma tiene un intervalo de tiempo de exposición de aproximadamente 1/30 s, seguido de un breve tiempo para escalar y codificar la imagen. La imagen codificada se trocea y empaqueta, y se emite una imagen a la red cada 33 ms. El tiempo que tarda este proceso en la cámara puede ser inferior a 50 ms, pero lo más habitual es que sea de unos cientos de ms. Varía ligeramente en función de la cámara (PTZ excluida) y de si el fotograma es un fotograma I o un fotograma P.

Latencia de captura

Echemos un vistazo al interior de la cámara de vídeo. El sensor de imagen de la cámara está formado por millones de fotodetectores (puntos fotosensibles), denominados «píxeles». El sensor capta la luz en sus píxeles a lo largo de un intervalo de exposición, antes de convertir la energía luminosa registrada en señales electrónicas. A continuación, los píxeles se quedan vacíos y listos para otra exposición. El número de exposiciones que el sensor proporciona por unidad de tiempo, es decir, cuántos fotogramas puede capturar la cámara por segundo, define la velocidad de captura del sensor.

La latencia de captura depende de la velocidad de captura. Si ajusta la velocidad de captura a 30 fps, lo que significa que el sensor capturará una imagen cada 1/30 de segundo, la latencia de captura será de hasta 33,3 ms.

Latencia de procesamiento de imágenes

Cada fotograma capturado sigue una serie de pasos de procesamiento de imágenes, como el desentrelazado, el escalado y la rotación de imágenes, que añaden latencia. A más procesamiento, más latencia introducida por la cámara. Pero como el procesamiento en la cámara afecta a la cantidad de datos que se producen, la cantidad de procesamiento también repercute en la latencia de la red cuando los datos se transfieren a través de esta última.

Algunos parámetros que afectan a la latencia son:

Rotación de imagen. La rotación del flujo de vídeo de 90 o 270 grados añade una carga adicional al procesador de codificación. Los píxeles tienen que reorganizarse y almacenarse en el búfer, lo que provoca cierto retardo.
Resolución. Una mayor resolución significa que el procesador tiene que codificar más píxeles. El aumento del tiempo de procesamiento para una resolución más alta en comparación con una resolución más baja suele ser insignificante porque se compensa con una unidad de procesamiento más rápida en las cámaras de alta resolución. Pero a mayor resolución, más datos por fotograma y, por tanto, más paquetes que transmitir. En una red con un ancho de banda limitado, puede provocar retardos en la transmisión. Esto, a su vez, hará que se necesite un búfer de mayor tamaño en el lado del receptor, lo que provocará una latencia más larga.
Filtrado de ruido. El filtrado de ruido avanzado requiere almacenar en el búfer varios fotogramas, lo que genera más latencia.
Máscaras de privacidad. Las funciones avanzadas de aplicación de máscaras de privacidad, como AXIS Live Privacy Shield, pueden generar más latencia. Esto se debe al almacenamiento en búfer necesario para garantizar que se aplican las máscaras de privacidad correctas en el momento adecuado.

Latencia de compresión

El vídeo se codifica para comprimir los datos antes de transferirlos. La compresión implica uno o varios algoritmos matemáticos que eliminan datos de la imagen. Esta operación lleva más o menos tiempo en función de la cantidad de datos que haya que procesar. La latencia de compresión introducida en este paso se ve afectada por varios aspectos de la compresión:

Complejidad de los algoritmos de compresión
H.264 y H.265 son métodos de compresión más avanzados que MJPEG. Sin embargo, las cámaras Axis suelen tener una mayor capacidad de compresión H.264 y H.265, en comparación con la compresión MJPEG, lo que significa que la latencia de compresión con H.264 o H.265 no es necesariamente mayor. Por otro lado, puede ser mayor en el lugar donde tiene lugar la descodificación. Los flujos de datos H.264 y H.265 producidos por las cámaras Axis requieren que el descodificador almacene en búfer al menos un fotograma, mientras que la descodificación MJPEG no requiere búfer. Además, el perfil de almacenamiento Zipstream añade hasta dos fotogramas de latencia adicional, es decir, 66,7 ms para un vídeo de 30 fps.
Eficacia del método de compresión
Los esquemas de codificación más comunes utilizados en las cámaras Axis son MJPEG, H.264 y H.265. Todos ellos introducen latencia en la cámara. H.264 y H.265 minimizan el rendimiento de vídeo más que MJPEG, lo que significa que habrá menos paquetes de datos que enviar a través de la red, desempaquetar y renderizar en el extremo receptor. Esto reducirá la latencia total.
Elección de la velocidad de bits
La compresión de vídeos reduce el tamaño de los datos de vídeo. Sin embargo, no todos los fotogramas tendrán el mismo tamaño después de la compresión. El tamaño de los datos comprimidos puede variar en función de la escena. En otras palabras, los datos comprimidos originales están formados por flujos de velocidad de bits variable (VBR), lo que se traduce en una velocidad de bits variable en la salida a la red. Hay que tener en cuenta las restricciones de la red disponible, como las limitaciones de ancho de banda. Las limitaciones de ancho de banda de un sistema de flujo de vídeo suelen requerir que se regule la velocidad de bits de transmisión. En algunos codificadores, es posible elegir entre VBR y la velocidad de bits máxima (MBR). Al elegir MBR se garantiza que la red reciba una cantidad limitada de datos. Al evitar sobrecargar la red, se reduce el retardo de esta última y la necesidad de un búfer mayor en el extremo receptor del sistema.
En las cámaras Axis, los codificadores H.264 y H.265 ofrecen la posibilidad de seleccionar VBR y MBR. Sin embargo, por lo general recomendamos utilizar VBR con vídeo en red, donde la calidad se adapta al contenido de la escena en tiempo real. No se recomienda utilizar siempre MBR como herramienta general de reducción de almacenamiento o de corrección de conexiones a la red débiles, ya que las cámaras que producen vídeo MBR pueden verse obligadas a borrar detalles forenses importantes en situaciones críticas.
El uso de Zipstream en la cámara reduce la velocidad de bits. Esto reduce la cantidad de datos y, por tanto, la latencia en la red.
Número de flujos. Si se solicita más de un tipo de flujo a la cámara (diferentes velocidades de fotogramas o resoluciones), el procesamiento del tipo de flujo adicional añadirá latencia porque todos los flujos deben ser codificados por el mismo procesador.

A la hora de elegir un método de compresión, debe tener en cuenta todos estos aspectos. Por un lado, un algoritmo de codificación avanzado puede tardar más en codificar y descodificar, pero por otro, reducirá el volumen de datos que se envían por internet, lo que a su vez acortará los retardos de transición y reducirá el tamaño del búfer del receptor.

Latencia del búfer

El vídeo se trata fotograma a fotograma, por lo que solo se puede comprimir una cantidad limitada de datos a la vez. En ocasiones, se necesitan búferes de corta duración entre las etapas de procesamiento, lo que contribuye a la latencia de la cámara.

Latencia de audio

En algunos casos, el flujo de vídeo va acompañado de audio. El codificador de audio necesita esperar una cierta cantidad de muestras antes de que esté disponible un bloque para comenzar la codificación de audio, y esto añade retardo en la cámara. Las frecuencias de muestreo y los tamaños de bloque son diferentes en los distintos algoritmos de codificación de audio.

Latencia en la red

Una vez capturada, procesada y comprimida la imagen, los datos de vídeo viajan por la red antes de llegar al cliente, donde se renderizan. Para entender cómo afectará la red a la latencia, primero tenemos que comprender algunos conceptos básicos de las redes de vídeo: velocidad de bits, ancho de banda y rendimiento. La latencia de la red es proporcional a la velocidad de bits e inversamente proporcional al ancho de banda.

La velocidad de bits es la cantidad de datos, medida en bits, que se procesa por unidad de tiempo. En la videovigilancia, la velocidad de bits viene determinada por la cantidad de datos generados por la cámara que se envían a través de la red por unidad de tiempo. La velocidad de bits depende de muchos factores; depende mucho de la escena filmada, del procesamiento realizado en la cámara y de los ajustes del flujo de vídeo. Cuando la cámara produce más datos para transmitir, cabe esperar una mayor latencia de red si el ancho de banda es limitado.
El ancho de banda es la cantidad de datos que podría manejar la red entre la cámara y el monitor. Es la capacidad máxima de su enlace. El ancho de banda depende de la longitud y la infraestructura del enlace, es decir, switches, routers, cables, proxies, etc. Si aumentamos la capacidad de la red, podrán pasar más datos, lo que reducirá la latencia.
El rendimiento es la velocidad real que se alcanza (en bits/s) en la transferencia de datos. Depende de si compartes el enlace con otras personas y de las interferencias electromagnéticas de los cables del enlace. El rendimiento también puede verse limitado por los ajustes de calidad de servicio (QoS) configurados en los puertos.

Si comparamos el enlace (la red) entre la cámara y el monitor con una tubería, la velocidad de bits (1) sería la cantidad de datos que llegan a la tubería por unidad de tiempo, el ancho de banda (2) sería el grosor de la tubería y el rendimiento (3) sería una medida de la cantidad de datos que atraviesan la tubería por unidad de tiempo.

Velocidad de bits
Ancho de banda
Rendimiento

La latencia total en la red depende de tres factores principales: la infraestructura del enlace entre la cámara y el dispositivo de visualización de vídeo (que determina el ancho de banda), la cantidad de datos producidos por la cámara (que determina la velocidad de bits) y la elección del protocolo de transmisión.

La infraestructura

La red es la fuente más impredecible de latencia de extremo a extremo. Switches, routers, cables, proxies: todo lo que hay en la red entre el emisor y el receptor afecta a la latencia total. En una LAN, la latencia en la red podría ser de apenas unos ms, un valor que es insignificante y puede ignorarse. Sin embargo, si el flujo de vídeo se transmite por internet con rutas no especificadas, la latencia de la red será difícil de predecir y, en muchos casos, podría ser el principal factor que contribuya a la latencia de extremo a extremo.

Si la gestión de la red y la asignación del ancho de banda se hacen con cuidado, los factores imprevisibles de la latencia de la red pueden volverse más predecibles. El enlace entre la cámara y el dispositivo de visualización debe tener un rendimiento garantizado.

En una LAN, en el enlace debe haber la menor cantidad de saltos posible. El enlace no debe compartirse con otro tráfico, como voz sobre IP (VoIP), ni con protocolos que tengan prioridad sobre el vídeo de forma predeterminada, ni con servicios que consuman mucho ancho de banda y sobrecarguen el enlace.

Si el enlace se encuentra en una red de área extensa (WAN), la QoS debe garantizarse en cada salto, es decir, en los routers y switches. Para conseguirlo, se alquila una ruta de punto a punto de un proveedor de internet local.

Factores configurables que afectan al rendimiento:

Sobrecarga del paquete (ejemplo dependiente del protocolo: encabezado de VLAN)
Proxies y cortafuegos
QoS de cada enlace en toda la ruta
Modo ráfaga o no (habilitado:> mayor velocidad)
MTU: el tamaño de la carga de vídeo

Factores relacionados con los costes que afectan al rendimiento:

Velocidad del procesador y búfer de puertos de los switches y routers
Tipo de cable (o inalámbrico)

La cantidad de datos del flujo de vídeo

La elección del método de procesamiento y compresión de imágenes en la cámara afecta a la latencia de la red, ya que estas elecciones influyen en la cantidad de datos de vídeo que se producen. Como es lógico, enviar una cantidad de datos menor llevará menos tiempo.

Los protocolos de transmisión

Los fotogramas de vídeo de la cámara se pasan a una aplicación de protocolo de transporte, normalmente RTP o HTTP. La transmisión al cliente de renderizado se realiza a través de una red IP. La transmisión se realiza a través de TCP fiable, que es un protocolo orientado a la conexión con retransmisión para paquetes de datos perdidos, o a través de UDP, que es un protocolo más sencillo que no garantiza la entrega y no ofrece ningún recurso para la retransmisión de paquetes perdidos.

Con las cámaras Axis, dispone de las siguientes opciones a la hora de encapsular el flujo de datos codificados para su transmisión:

Opciones para encapsular el flujo de datos codificados.
Topología	Modos de encapsulación de paquetes de vídeo Axis recomendados
LAN / menos saltos y nodos gestionados directamente	MJPEG / HTTP / TCP
LAN / menos saltos y nodos gestionados directamente	H.264, H.265 o MJPEG / RTP / RTSP / HTTP / TCP
LAN / menos saltos y nodos gestionados directamente	H.264, H.265 o MJPEG / RTP / RTSP / TCP
WAN / varios saltos en los que no se tiene un control total sobre los nodos	H.264, H.265 o MJPEG / RTP / Unicast / UDP
WAN / varios saltos en los que no se tiene un control total sobre los nodos	H.264, H.265 o MJPEG / RTP / Multicast / UDP
Conexión remota / nube / WAN / varios saltos en los que no se tiene un control total sobre los nodos	H.264, H.265 o MJPEG / RTP / WebRTC / UDP o TCP

Normalmente se tarda más en transportar un paquete a través de TCP que a través de UDP debido a la configuración adicional de la conexión, los mensajes de acuse de recibo y la retransmisión de paquetes cuando se detecta una pérdida. Por otro lado, con UDP, el usuario experimentará artefactos o interrupciones en el flujo de vídeo cuando se pierdan paquetes por el camino. TCP producirá fluctuaciones al perder paquetes, mientras que UDP producirá artefactos o interrupciones en esta misma situación. Si la pérdida de datos y la degradación temporal de la calidad son aceptables, UDP podría ser una opción para redes con poco ancho de banda.

Si utiliza TCP, habrá más paquetes que enviar, y para poder atender este volumen se necesitará un mayor ancho de banda. Si sabe que hay mucha congestión en la red, debe seleccionar UDP como protocolo de transmisión. Dado que se acepta la pérdida de paquetes, al mismo tiempo también se producirá una pérdida de paquetes que dará lugar a una disminución de la calidad de imagen.

Con WebRTC y la velocidad de bits adaptativa, el vídeo se adaptará a la red para evitar picos de latencia incontrolables como los que pueden producirse con TCP.

Latencia en el cliente

Una vez se recibe el vídeo en cliente del sistema de vídeo, se desempaqueta, reordena y descodifica, y se utiliza un reproductor multimedia para renderizar el vídeo. Cada paso contribuye a la latencia total generada en el cliente, y el propio ordenador desempeña un papel importante. La capacidad de la CPU, el sistema operativo, la tarjeta de red y la tarjeta gráfica afectan a la latencia. Normalmente, MJPEG es el método con menor latencia de descodificación y visualización porque los datos se pueden dibujar en pantalla tal como llegan sin códigos de tiempo. H.264 y otros estándares de compresión de vídeo asignan códigos de tiempo a cada imagen y requieren que se rendericen en consecuencia.

Búfer de reproducción

Las redes reales suelen ser muy grandes y complicadas, con un comportamiento de tráfico en ráfagas y paquetes que llegan en distinto orden. Para compensar las variaciones introducidas por el transporte en red, se utiliza un búfer en el cliente. Conocido como «búfer de reproducción» o «búfer de fluctuación de fase», este búfer se asegura de que los paquetes estén en el orden correcto y almacena suficientes datos para que el descodificador no «pase hambre»; en el visor se muestra una velocidad de fotogramas uniforme.

Este búfer contribuye a una latencia relativamente alta. Las diferentes aplicaciones de visor tienen diferentes tamaños de búfer de reproducción, y en la mayoría de los visores se pueden cambiar. Pero es importante tener en cuenta que reducir el búfer aumentará las fluctuaciones, por lo que hay que encontrar un equilibrio aceptable entre fluctuaciones y latencia.

Búfer de audio

En la reproducción, el flujo de audio es más sensible a los contratiempos o retardos que el de vídeo. Un solo paquete de audio retrasado genera una molesta grieta en la banda sonora, y el audio tiene que estar sincronizado con el movimiento de los labios en el vídeo. Por estas razones, es necesario ajustar un búfer de reproducción grande cuando el vídeo va acompañado de audio, y esto, como es normal, aumenta la latencia.

Descompresión

El tiempo necesario para el proceso de descompresión depende del método de codificación utilizado. La latencia de descodificación depende en gran medida del nivel de compatibilidad con el decodificador disponible en la tarjeta gráfica. La descodificación en el hardware suele ser más rápida que en el software. Por lo general, la descodificación de H.264 requiere más tiempo que la de MJPEG. En el caso de la descodificación en H.264, la latencia también depende del perfil elegido en la fase de codificación. La base es la más fácil de descodificar, mientras que la principal y la alta tardarán más. El flujo de datos H.264 producido por los productos de vídeo Axis requiere que el descodificador almacene en el búfer al menos un fotograma.

Dispositivo de visualización

El dispositivo de visualización también afecta a la latencia, a través del tiempo de transferencia, la frecuencia de actualización y el tiempo de respuesta.

El tiempo de transferencia es el tiempo que tardan los datos de vídeo descodificados en enviarse desde el descodificador a través del cable (por ejemplo, HDMI) hasta el monitor. El tiempo de transferencia depende de la velocidad del cable y de la resolución del monitor. Para un monitor FHD conectado con un cable HDMI estándar, esto añade unos 10 ms de latencia.

La frecuencia de actualización del dispositivo de visualización también afecta a la latencia. En los monitores de ordenador, la frecuencia de actualización ronda los 17-20 ms, mientras que los monitores especiales para juegos poseen una frecuencia de 4-5 ms.

El tiempo de respuesta es el tiempo que tardan los píxeles del monitor en cambiar de valor. Esto depende de lo grande que sea el cambio, pero en el caso de cambios importantes puede añadir 5-20 ms de latencia.

Reducción de la latencia

Diseñar un sistema que cumpla con los objetivos de latencia baja exigirá otras contrapartidas. Hay que decidir cuál es la latencia aceptable y encontrar un equilibrio entre la calidad del vídeo y el coste del sistema de vigilancia. En este capítulo se ofrecen algunas recomendaciones sencillas relativas a la cámara, la red y el cliente para reducir la latencia de extremo a extremo.

Reducción de la latencia en la cámara

Resolución. Elija una resolución más baja si es posible. Una mayor resolución implica más datos que codificar, lo que podría provocar una mayor latencia.
Mejoras. Reduzca las mejoras de imagen, como la rotación, el desentrelazado y el escalado. El uso de mejoras de imagen puede aumentar la latencia.
Modo de baja latencia. Puede optimizar el tiempo de procesamiento de imagen de su transmisión en directo activando el modo de latencia baja en los ajustes de configuración sencillos. La latencia de la transmisión en directo se reduce al mínimo, pero la calidad de imagen es inferior a la habitual.
Máscaras de privacidad. Valore la posibilidad de no utilizar máscaras de privacidad, porque aumentan la latencia.
Codificación. Asegúrese de que el codificador ofrezca el nivel de control de la latencia que requiere su sistema. Tiene que haber un equilibrio entre la cantidad de datos y la capacidad de la infraestructura de red. Si el vídeo se envía a través de una red con ancho de banda limitado, elija H.264 o H.265 como método de codificación. De esta forma se reducirá la velocidad de bits debido a una compresión más estricta. Elija el perfil de referencia si la red puede gestionar la velocidad de bits, porque el punto de referencia será más fácil de codificar y descodificar.
Perfil de almacenamiento en Zipstream. Valore la posibilidad de no utilizar el perfil de almacenamiento, porque aumenta la latencia.
Número de flujos. Limite el número de flujos desde la cámara con diferentes ajustes. Cada combinación única de ajustes, como resolución, velocidad de fotogramas y compresión, requiere su propio proceso de codificación individual, lo que incrementa la carga para el procesador y provoca retardo.
Velocidad de bits. Intente utilizar una velocidad de bits más baja. Para reducir la latencia de la cámara, hay que reducir la cantidad de datos que se generan. La velocidad de bits se ve afectada por muchos factores, como las condiciones de luz, el tipo de escena, así como el nivel de compresión, la resolución, la velocidad de fotogramas, etc.
Velocidad de fotogramas. Utilice la velocidad de fotogramas más alta posible. Como los fotogramas se codifican y descodifican de uno en uno, los búferes se retrasarán al menos un fotograma. Con velocidades de fotogramas más altas, se reducirán los retardos causados en los búferes. Para un flujo con 30 fps, cada fotograma tarda 1/30 de segundo en capturarse. Cabe esperar entonces una latencia de hasta 33 ms en los búferes. Para 25 fps, el retardo será de hasta 40 ms.
Modo de captura. Valore la posibilidad de utilizar un modo de captura con una resolución lo más baja posible y una velocidad de fotogramas lo más alta posible. La resolución baja implica que hay menos píxeles que procesar y la velocidad de fotogramas alta implica un menor retardo del búfer.
Audio. Valore la posibilidad de no utilizar audio. El audio que debe sincronizarse con el vídeo requiere un búfer de reproducción mayor, lo que provoca una mayor latencia.

Reducción de la latencia en la red

Muchas de las recomendaciones relativas a la cámara tienen por objeto limitar el volumen total de datos que se envían a través de la red. En la mayoría de los casos, una red limitada es el factor que más contribuye a la latencia de extremo a extremo. Si la red tiene una gran capacidad, muchas de las recomendaciones anteriores no son necesarias. Asegúrese de que la red tenga una buena calidad de servicio y de que todos los saltos dentro de la red estén configurados para adaptarse a su demanda de vídeo. Asegúrese de que la velocidad de bits por la red garantice la salida de datos desde la cámara.

Reducción de la latencia en el cliente

Las mejoras en el cliente afectan considerablemente a la latencia de extremo a extremo, y normalmente se pueden hacer muchas cosas a este respecto.

Procesador y tarjeta gráfica. La CPU desempeña un papel fundamental en la latencia en el cliente. Utilice un buen procesador con capacidad suficiente para procesar el flujo de vídeo y gestionar otras solicitudes simultáneamente. Utiliza una buena tarjeta gráfica actualizada con el último software y compatible con la descodificación.

Visor/VMS: asegúrese de que el visor no tenga un búfer de reproducción innecesariamente largo, pero debe saber que se producirán fluctuaciones en contrapartida.

Pantalla. Utilice un monitor con una frecuencia de actualización lo más rápida posible. Para obtener una visualización en directo agradable (aunque no afecte a la latencia), ajuste la frecuencia de la pantalla a un múltiplo de la velocidad de fotogramas de captura de la cámara. Un ejemplo sería 60 Hz para el modo de 30 fps o 50 Hz para el modo de 25 fps.