Sistemas de vídeo

Transmisión de imágenes. Compresión de video. Mpeg4. Estandarización de codificación y representación de datos audiovisuales

  • Enviado por: Hector
  • Idioma: castellano
  • País: México México
  • 26 páginas
publicidad

SISTEMAS DE VIDEO

MPEG-4

INTRODUCCIÓN

 

La compresión de video surge de la necesidad de transmitir imágenes a través de un canal que contenga un ancho de banda aceptable. A continuación se examinarán cuales son los métodos más utilizados que permiten obtener este resultado, y las diferentes normas que se utilizan hoy día.

Estos métodos de compresión, recurren a los procedimientos generales de compresión de datos, aprovechando además la redundancia espacial de una imagen (áreas uniformes), la correlación entre puntos cercanos y la menor sensibilidad del ojo a los detalles finos de las imágenes fijas (JPEG) y, para imágenes animadas (MPEG), se saca provecho también de la redundancia temporal entre imágenes sucesivas.

La Figura 1 muestra que cuando las imágenes individuales son comprimidas sin referencia a las demás, el eje del tiempo no entra en el proceso de compresión, esto por lo tanto se denomina codificación intra (intra=dentro) o codificación espacial. A medida que la codificación espacial trata cada imagen independientemente, esta puede emplear ciertas técnicas de compresión desarrolladas para las imágenes fijas. El estándar de compresión ISO (International Standards Organization) JPEG (Joint Photographic Experts Group), está en esta categoría. Donde una sucesión de imágenes codificadas en JPEG también se usan para la televisión, esto es llamado "JPEG en movimiento".

Se pueden obtener grandes factores de compresión teniendo en cuenta la redundancia entre imágenes sucesivas. Esto involucra al eje del tiempo, la Figura 2 muestra esto. Este proceso se denomina codificación inter (inter=entre) o codificación temporal.

La codificación temporal permite altos factores de compresión, pero con la desventaja de que una imagen individual existe en términos de la diferencia entre imágenes previas. Si una imagen previa es quitada en la edición, entonces los datos de diferencia pueden ser insuficientes para recrear la siguiente imagen. El estándar ISO MPEG (Motion Pictures Experts Group) utiliza esta técnica.

 

En el año de 1990, la ISO, preocupada por la necesidad de almacenar y reproducir imágenes de video digitales y su sonido estereofónico correspondiente, creó un grupo de expertos que llamó MPEG (Moving Pictures Expert Group) procedentes de aquellas áreas implicadas en el problema (telecomunicaciones, informática, electrónica, radio difusión, etc).

El primer trabajo de este grupo se conoció como la norma ISO/IEC 11172, mucho más conocida como MPEG-1, en el año 1992. La idea inicial era la de permitir el almacenamiento y reproducción en soporte CD-ROM con un flujo de transmisión de datos del orden de 1,5 Mbits/s, transportando tanto imagen como sonido.

El estándar MPEG además de aprovechar la redundancia espacial intrínseca de una imagen fija utilizada en la codificación JPEG, aprovecha la redundancia temporal que aparece en la codificación de imágenes animadas, permitiendo encontrar similitudes entre las imágenes sucesivas de video.

Debido a que la calidad en la compresión de video en el estándar MPEG-1 era de baja calidad y no servía para otras aplicaciones, se creó la norma ISO/IEC 13818, mucho más conocida con el nombre de MPEG-2. Esta norma permite un flujo de transmisión hasta el orden de los 20 Mbits/s, transportando tanto imagen como sonido. Norma que se utilizaría en la televisión de alta definición.

En la actualidad, se está trabajando en una norma que será llamada MPEG-4 y está encaminada a la transmisión de datos del orden de los 8 a 32 Mbits/s, norma que será utilizada en las aplicaciones de video conferencia o video teléfono.

¿QUE ES MPEG?

MPEG se estableció en la Junta de Comité Técnico de la ISO/IEC (International Organization of Standarization / International Electrotechnical Commission) con el objetivo de crear estándares de codificación para la representación de imágenes en movimiento, audio asociado y la combinación de los dos, para ser guardados y recuperados en un medio de almacenamiento digital con una tasa de transmisión mayor a 1.5 Mbit/seg.; este estándar se llamó MPEG-1 y fue lanzado en 1992.

MPEG-2 fue lanzado en 1994, con el fin de proveer calidad no menor a los estándares NTSC/PAL y mayor al CCIR 601, con tasas de transmisión entre los 2 y 10 Mbit/seg. Aplicaciones como distribución digital de TV por cable, servicios de bases de datos en red por medio de ATM (Asynchronous Transfer Mode), reproductores digitales de video y distribución de radiodifusión digital vía satélite o terrestre se vieron beneficiadas del lanzamiento de este estándar.

MPEG-4 tiene como objetivo el estandarizar algoritmos y aplicaciones para una flexible codificación y representación de datos audiovisuales, para afrontar los cambios de las futuras aplicaciones de multimedia. Particularmente debe tener una alta interacción y funcionalidad, debe codificar datos naturales y artificiales; así como una gran eficiencia en la compresión. La velocidad de transmisión para MPEG-4 está entre lo 5-54 kbits/seg. para aplicaciones de video redes telefónicas móviles o públicas y arriba de 4 Mbit/seg. para aplicaciones de TV y películas.

Un modelo general, MPEG consta de:

Un algoritmo de compresión en donde se establece como se van a eliminar las redundancias de la señal de video. Existen básicamente dos tipos de algoritmo para realizar la compresión de imágenes los cuales son:

-Sin pérdidas: Consiste en reducir el tamaño de la imagen para no perder sus características y calidad originales. La imagen codificada y la original deben de ser iguales antes que se empiece el proceso de decodificación

-Con pérdidas: Es en este tipo de compresión en el que se basa MPEG y sus derivaciones (1, 2 y 4), el cual consiste en limitar o reducir la cantidad de bits, esto se debe a que la mayoría de las aplicaciones en transmisión de video tienen un ancho de banda limitado o restringido. Es obvio que mientras más pequeña sea la cantidad de bits, se vuelve más complicado el proceso de compresión de la señal.

Un modelo del Codificador del video, en el cual se deben de eliminar las redundancias de las señales, tanto espaciales como frecuenciales, con técnicas como interpolación y correlación, esto se realiza con técnicas de interpolación intertramas y de codificación entre estas manipulando los píxeles de las mismas, esto lo realiza a través de DPCM/DCT (Differencial Pulse Code Modulation / Discrete Cosine Transform)

Submuestreo e Interpolación: El principio del submuestreo es reducir el tamaño de la imagen, tanto verticalmente como horizontalmente; y por consiguiente el de los píxeles que se codificarán. En el receptor, las imágenes son interpoladas antes de que se decodifiquen

Predicción Compensada de Movimiento: Es un proceso muy útil usado en MPEG para eliminar redundancias; se basa en la estimación del movimiento entre dos tramas de video; estas predicciones y el posible error son transmitidos al receptor.

Codificación de Transformación del Dominio: El propósito de la codificación de transformación es de correlacionar el contenido de las inter o intra tramas de imagen de error y codificarlos coeficientes de transformación en vez de los píxeles originales de las imágenes.

Según los requerimientos de la aplicación hay dos filosofías para la codificación de vídeo : la codificación sin pérdidas (lossless) que reduce la cantidad de datos manteniendo tras la decodificación la misma calidad de imagen que la señal original, y la codificación lossy, cuyo objetivo está centrado en la disminución de la tasa binaria para el almacenamiento o transmisión de la información. Ésta última es la seguida por los estándares MPEG.

En muchas aplicaciones la información ha de ser comprimida para ser transmitida por una canal con un ancho de banda limitado. En estas aplicaciones, la alta compresión se consigue a cambio de una degradación objetiva de la calidad de la señal tras su decodificación. El objetivo último de las técnicas de codificación lossy es optimizar la calidad de la imagen para una tasa requerida fija, según criterios objetivos o subjetivos. Hay que mencionar que el grado de degradación de la imagen (tanto objetiva , como en lo concerniente a los artefactos apreciables en ella) depende de la complejidad de la escena en particular tanto como de la sofisticación de la técnica de compresión.

Las técnicas de codificación MPEG son de naturaleza estadística. Las secuencias de vídeo contienen normalmente redundancia estadística en las dimensiones espacial y temporal. La propiedad estadística en la que se basa la compresión MPEG es la correlación entre píxeles. Se asume que la magnitud de un píxel determinado puede ser predicho mediante píxeles cercanos del mismo cuadro (correlación espacial), o los píxeles de cuadros cercanos (correlación temporal). Intuitivamente se puede apreciar que en los cambios abruptos de escena, la correlación entre cuadros adyacentes es pequeña o casi nula, en ese caso es mejor usar técnicas de compresión basadas en la correlación espacial en el mismo cuadro.

Los algoritmos de compresión MPEG usan técnicas de codificación DCT (transformada discreta del coseno) sobre bloques de 8*8 píxeles para explotar la correlación espacial. Sin embargo, cuando la correlación temporal es alta, en imágenes sucesivas de similar contenido, es preferible usar técnicas de predicción temporal (DPCM : codificación por modulación diferencial de pulsos). En la codificación MPEG se usa una combinación de ambas técnicas para conseguir una alta compresión de los datos.

Casi todas las técnicas de codificación de vídeo que veremos realizan submuestreo y cuantificación de la señal. El concepto básico de submuestreo es reducir la dimensión (espacial) de la imagen y, por tanto, el número de píxeles que deben ser codificados. En algunos casos también se realiza un submuestreo en la dimensión temporal.

El proceso dual en recepción es interpolar la imagen tras la decodificación.

Esta técnica hace uso de las características subjetivas de la visión humana, de forma que elimina la redundancia subjetiva contenida en la imagen.

El ojo humano es mucho más sensible a los cambios en la iluminación que en la cromaticidad. Lo que se hace en la codificación MPEG es dividir la imagen en tres componentes (Y : luminancia, U ,V : crominancia), y aplicar diferente submuestreo a la crominancia. Por ejemplo, en MPEG-2 se usan unas relaciones Y :U :V típicas de 4 : 1 : 1, o 4 : 2 : 2 .

El estándar MPEG se divide en tres partes: audio, vídeo y sistemas, siendo este último el encargado de coordinar los dos anteriores cuando se reproducen conjuntamente. Utiliza mecanismos muy parecidos a la compresión gráfica, pero se necesita un equipo bastante potente para proceder a la compresión.

El algoritmo de compresión MPEG básicamente es el siguiente :

1.Se reduce la resolución al binomio 352x240. Posteriormente, se convierte la información del color del sistema RGB al sistema YUV, que divide el color en valores luminescentes y cromáticos.

2 Se descartan las 3/4 partes de los valores cromáticos, ya que el ojo humano no es capaz de distinguir estos cambios.

3 Se utiliza una función de transformación que traduce cada bloque de 8x8 pixels en un conjunto de números que describen el nivel de detalle de la imagen.

4 Los números obtenidos se dividen por una constante y se redondean. Esto reduce el número de valores semejantes.

5 Este es el paso más importante de todos los mencionados: las cadenas de valores repetidos se sustituyen por una única cadena, y el número de veces que se repite.

Los valores restantes se comprimen mediante el código Huffman.

6. Compresión entre cuadros: si un bloque de pixels es idéntico al de una imagen anterior, se sustituye por un puntero. Esta operación se realiza con cuadros futuros, mediante complejas técnicas de previsión de datos.

MPEG-4

El estándar MPEG-4 esta diseñado para admitir el transporte, la sincronización, la codificación y el procesamiento de contenidos multimedia audiovisuales para aplicaciones de Internet e inalámbricas.

MPEG-4 es un estándar ISO/IEC desarrollado en 1998 por MPEG (Moving Picture Experts Group, Grupo de expertos en imágenes en movimiento), el mismo comité que desarrolló los estándares MPEG-1 y MPEG-2 galardonados con el premio Emmy, los cuales han hecho posible el vídeo interactivo en la televisión digital y el CD-ROM. El estándar MPEG-4 es aceptado y ampliamente utilizado por los desarrolladores de aplicaciones, proveedores de servicios, creadores de contenido y usuarios finales de todo el mundo.

El estándar MPEG-4 ha sido diseñado para ser el próximo y principal estándar del mundo multimedia. A diferencia de MPEG-1 y MPEG-2, diseñados para una mejor eficiencia en la compresión, la característica principal de MPEG-4 son sus nuevas funciones. Tanto los terminales de usuarios inalámbricos como los estáticos, el acceso a bases de datos, las comunicaciones y los nuevos tipos de servicios interactivos serán las principales aplicaciones de MPEG-4.

El nuevo estándar MPEG-4 facilita la creciente interacción y coincidencia (convergencia) de los anteriormente separados de las telecomunicaciones, informática y medios de comunicación (TV y radio). MPEG-4 se ejecuta en el formato de archivo MP4. Se trata de la próxima generación, más allá de MP3. Al igual que MP3, MPEG-4 llegará a ser el estándar aceptado debido a que supera el éxito de MP3 en dos características

importantes:

1. MPEG-4 permite vídeo, incluso a velocidades en bits tan bajas como 9,6 kbps.

2. MPEG-4 permite la administración de los derechos digitales para proteger la valiosa propiedad intelectual de los proveedores de contenido.

MPEG-4 no es una simple norma de codificación digital de audio y vídeo. MPEG-4 trata de facilitar la manipulación digital interactiva de información audio visual desde el punto de vista de:

  • Creadores de Contenido

  • Proveedores de Servicios y Redes

  • Usuarios finales

Datos técnicos MPEG-4

  • Su ancho de banda desde 5 kbit/s a 10 Mbit/s

  • Resolución vídeo desde sub-QCIF a TV Alta Definición.

  • Pausa, rebobinado rápido hacia delante y hacia atrás con todos los objetos sincronizados.

  • Escalabilidad espacial y temporal de todos los objetos (imágenes, textos, gráficos animados,...)

  • Tratamiento similar de objetos naturales o sintéticos (voz sintética, imágenes creadas en ordenador,...)

  • Calidad de audio desde telefonía (4 kHz) a calidad CD estéreo (20 kHz)

El estándar de codificación de audio MPEG-4 integra diversos tipos de codificación de audio: sonidos sintéticos y reales, música y voz, un amplio margen de capacidad de transferencia de datos, entre otras características. Por tanto, permite acomodar un número de aplicaciones mucho mayor que sus predecesores y otros estándares existentes en el mercado. Por ejemplo, el estándar anterior MP3 está especializado en música de alta calidad, G.711 en codificación de voz para telefonía, etc.

La versión 2 de MPEG-4, aprobada en diciembre de 1999, incorpora nuevos perfiles, manteniendo las herramientas y perfiles existentes en la primera versión. Por tanto, es retro compatible con la versión 1. Entre las características incorporadas cabe destacar la interacción multiusuario y el soporte Java (MPEG-J), que especifica el API (Application Programmers Interface) para establecer la interoperabilidad entre reproductores MPEG-4 con código Java. Además, especifica un formato de fichero para almacenar la información. Las nuevas funcionalidades que incorpora la versión 2 respecto a la 1 son:

-Robustez frente a errores.

Mejora las prestaciones en entornos de canales de transmisión con errores.

Para conseguir la reducción del deterioro percibido en la señal decodificada, se usan nuevas herramientas, como el codebook virtual (VCB o Virtual Codebook Tool), la codificación de longitud variable reversible (RVLC o Reversible Variable Length Coding Tool, consistente en usar códigos simétricos que permiten la decodificación hacia delante “forward” y hacia atrás “backward”) y la reordenación de los códigos de Huffman (HCR o Huffman Codeword Reordering Tool, basada en encontrar los códigos prioritarios PCW o Priority Codewords). Un segundo grupo de herramientas para mejorar la robustez frente a errores se basa en proteger mejor aquellos bits más sensibles (UEP o Unequeal Error Protection), aplicando códigos de corrección de errores (FEC o Forward Error correction Codes) y/o códigos de redundancia cíclica (CRC o Cyclic Redundancy Codes).

-Codificación de audio de bajo retardo.

El retardo del esquema general de codificación es del orden de varios centenares de milisegundos, lo cual es inadecuado para transmisiones bidireccionales en tiempo real. Para reducir el retardo, la segunda versión de MPEG-4 especifica la posibilidad de trabajar con frecuencias de muestreo hasta 48 kHz con tamaños de trama de 512 ó 480 muestras, y un retardo inferior a 20 ms.

-Ajuste fino de la escalabilidad.

La versión 2 permite un ajuste de la transferencia a incrementos de 1 kbit/s por canal, a partir del esquema de codificación BSAC (Bit-Sliced Arithmetic Coding). En el esquema de la versión uno, a partir de una configuración típica a 24 kbit/s (monofónica), son posibles 2 capas de mejora de 16 kbit/s cada una.

*Codificación paramétrica de audio. La versión 2 establece herramientas de clasificación automáticas voz/música, así como la variación del pitch y la velocidad de reproducción.

*Compresión de silencios en la codificación CELP. La versión 2 incorpora un descriptor de inserción de silencios (SID o Silence Insertion Descriptor) que permite reducir la velocidad de transferencia usando un mecanismo de compresión de los instantes de silencio. Para ello, especifica el algoritmo de un detector voz/silencio (VAD o Voice Activity Detector). Durante los instantes de actividad normal de voz se utiliza el mismo esquema de la versión 1 y, durante los silencios, el SID activa un generador de ruido de confort (GNC), para evitar que la ausencia de señal cause la sensación de que se ha cortado la comunicación.

*Extensión HXVC. El modo de funcionamiento de transferencia variable extiende el máximo de 2 a 4 kbit/s. En dicho caso se obtiene una transferencia media de aproximadamente 3 kbit/s. Fuera del modo de transferencia variable a un máximo de 4 kbit/s, el funcionamiento es el mismo de la versión 1.

CODIFICACIÓN DE SONIDOS NATURALES

MPEG-4 resuelve la codificación de sonidos naturales (no creados sintéticamente, sino captados del mundo real), con velocidades de transferencia comprendidas entre 2 y 64 kbit/s, recurriendo a diversas estructuras de codificación.

Esto es debido a la imposibilidad tecnológica de disponer de un codificador adecuado para un margen tan amplio de velocidades de transferencia. La figura 1 resume los codificadores usados para cada margen de funcionamiento, así como las aplicaciones típicas y anchos de banda respectivos.

Sistemas de vídeo

Figura 1 Estructuras de Codificación usadas por Mpeg-4 en cada margen de frecuencias

Existen tres tipos de codificadores:

*Velocidades de transferencia bajas (2 a 6 kbit/s). Se utiliza un esquema de codificación paramétrico. Su aplicación principal es la codificación de voz muestreada a 8 kHz.

*Velocidades de transferencia medias (6 a 24 kbit/s). Utiliza un esquema de predicción lineal excitada por código (CELP). Se usan frecuencias de muestreo de 8 y 16 kHz, y soporta además de la codificación de voz, otras señales de audio.

*Velocidades de transferencia mayores de 16 kbit/s. Se usan técnicas de codificación tiempo/ frecuencia. Los anchos de banda típicos son a partir de 8 kHz.

Además, puede usarse escalabilidad de velocidad de transferencia, ancho de banda, complejidad, etc. El concepto de escalabilidad consiste en la transmisión de una capa base de bits suficiente para recuperar una primera aproximación a la señal, más una serie de capas de mejora que permiten un refinamiento de la señal decodificada. Estas mejoras pueden obtenerse usando un único codificador o combinando varios. El concepto de codificación escalable recibe en ocasiones en nombre de “embeddedecoding”, y es particularmente interesante en aquellas situaciones en las que puede ser necesario descartar algunos bits de información debido por ejemplo a congestiones en la red, que obligan a reducir la velocidad de transferencia.

En un codificador no escalable la eliminación, aunque sea de los bits menos significativos, conduce a degradaciones importantes en la calidad de la señal reconstruida. Pueden encontrarse ejemplos detallados de escalabilidad en otros estándares.

Codificación paramétrica MPEG-4

Consta de dos métodos básicos de codificación:

*HVXC (Harmonic Vector Excitation Coding): especializado en la codificación de voz a 2 y 4 kbit/s. Consiste en clasificar la señal de entrada en cuatro modos, según si es sorda (UV), sonora (V), o ruido. Además, existe la posibilidad de trabajar con una velocidad de transferencia fija o variable (véanse los modos descritos en la tabla 1). Usando transferencia variable se consigue una reducción del 56 al 85% respecto a la transferencia fija. La tabla 2 muestra los parámetros codificados, así como los bits necesarios en cada uno de los modos, para el codificador HVXC de transferencia variable, basado en el de transferencia fija de 4 kbps (versión 2 de MPEG-4). La figura 2 muestra el esquema del codificador HVXC. El esquema de funcionamiento es el siguiente:

Sistemas de vídeo
Figura2

La señal de entrada muestreada a 8 kHz se divide en tramas, y se realiza un análisis LPC sobre las muestras de cada trama. Se calcula la señal residual del análisis LPC a partir del filtrado inverso con los parámetros LSP cuantificados e interpolados. Se calcula la envolvente espectral de la señal residual LPC de forma análoga al codificador multibanda (MBE o Multiband Excitation), pero usando una única clasificación sonoro/sordo (V/UV) por trama. En las tramas sonoras se cuantifica vectorialmente la envolvente espectral, usando una medida de distorsión ponderada, mientras que en las tramas sordas se realiza una búsqueda en lazo cerrado para el vector de excitación que produce la señal sintetizada con un menor error respecto a la original.

El ajuste fino de “pitch” refina la estimación de “pitch” obtenida mediante la autocorrelación, con una precisión de 0,25. Además, se realiza un seguimiento del “pitch” entre tramas para obtener una estimación más fiable.

*HILN (Harmonic and Individual Lines plus Noise): especializado en la codificación de señales de audio distintas de voz, a velocidades de transferencia a partir de 4 kbit/s. Su funcionamiento básico consiste en extraer una serie de parámetros que permitan describir la señal. Para ello separa la señal en tres partes diferentes. El proceso es el siguiente: en primer lugar se detecta la frecuencia fundamental de la parte armónica de la señal, se estiman los parámetros relevantes de las líneas extraídas, y se clasifican como líneas armónicas o líneas individuales, dependiendo de su proximidad respecto a las frecuencias armónicas de la fundamental.

Una vez extraídas las líneas espectrales significativas, se considera que la señal residual restante presenta un comportamiento ruidoso, y se describe la forma de su espectro mediante un conjunto de parámetros. La tabla 3 resume los parámetros a codificar para cada uno de los tipos de informaciones. Las frecuencias y amplitudes se cuantifican de acuerdo con las diferencias justamente perceptibles (JND o Just Noticeable Differences) extraídas mediante análisis psicoacústico. Se aprovecha la correlación de parámetros entre tramas consecutivas, mediante un esquema de predicción de parámetros, y una vez cuantificados, se codifican mediante métodos entrópicos. La figura 3 muestra el esquema del codificador HILN.

Sistemas de vídeo
Figura3

El esquema general del codificador se muestra en la figura 4, y la figura 5 el esquema del decodificador paramétrico. Obsérvese que existen dos controles que permiten modificar las

características de la señal sintetizada. En el codificador HILN se consigue de la siguiente forma:

Cambio de velocidad: se consigue escalando la longitud de las tramas del sintetizador por un determinado factor.

Cambio de “pitch” (o tono fundamental): se consigue escalando las líneas frecuenciales y remuestreando la señal de ruido por un determinado factor.

Además, su estructura de codificador paramétrico facilita una codificación escalable, a partir de uno o más flujos de bits adicionales (por ejemplo refinamientos en la descripción de las amplitudes y frecuencias de las líneascodificadas). En estos casos se obtiene una mejora de la calidad de la señal sintetizada respecto a usar únicamente la información básica.

Sistemas de vídeo
Figura4

Sistemas de vídeo
Figura5

Codificación CELP MPEG-4

El esquema CELP de MPEG-4 es diferente del CELP convencional (véase por ejemplo [6]), puesto que ofrece una mayor flexibilidad. Los esquemas CELP clásicos suelen trabajar a una frecuencia fija (como es el caso de los estándares U.S. Federal Standard 1016, G.729, G.728, etc.). En cambio, el CELP MPEG-4 permite diversas velocidades de transferencia, escalabilidad de la velocidad de transferencia, ancho de banda y complejidad.

Básicamente el CELP es un esquema de codificación mediante análisis por síntesis, en el cual se genera la voz mediante un filtro LPC (que modela la función de transferencia del tracto vocal) excitado por una señal obtenida de una tabla de códigos de excitación o “codebook”.

En general, el margen comprendido entre 6 y 24 kbps presenta las siguientes ventajas respecto a la codificación paramétrica descrita en el apartado anterior:

*El retardo es menor (de 15 a 40 ms, frente a los 90 ms del codificador paramétrico).

*A velocidades de transferencia más elevadas, ofrece un mejor comportamiento para señales difíciles de modelar mediante el codificador paramétrico.

Existen ocho modos de funcionamiento del esquema CELP MPEG-4. La tabla 5 resume sus características principales.

Los coeficientes LPC se pueden representar de dos formas distintas. La primera está basada en una cuantificación escalar uniforme de los LAR (Log Area Ratios), y la segunda en la cuantificación vectorial de las LSP (Line

Spectral Pairs). Los “codebooks” fijos de excitaciones son del tipo Regular Pulse Excitation (RPE) en el caso de usar la frecuencia de muestreo de 16 kHz, y Multipulse Excitation (MPE) para frecuencias de muestreo de 8 kHz.

El control fino de la velocidad de transferencia permite trabajar a una velocidad variable. Se consigue variando la tasa de transmisión de los parámetros LPC. Mientras que el modo de trabajo a velocidad fija permite las transferencias mostradas en la tabla 6, el uso del control fino de la velocidad permite codificar una señal a cualquier régimen dentro de los márgenes de la tabla 6.

Sistemas de vídeo

En la fig6 puede encontrarse más información sobre los conceptos de cuantificación escalar, vectorial, y las excitaciones RPE y MPE.

La figura 6 muestra el esquema del decodificador CELP MPEG-4. Obsérvese que la fuente de excitación consta de una parte periódica (generada por un “codebook adaptativo”), y una parte aleatoria (generada por uno o más “codebooks” fijos). Además, se utiliza la variante de cuantificación vectorial que consiste en codificar de forma separada la forma del vector y su ganancia, por lo que es necesario restaurar las amplitudes adecuadas de los vectores implicados, mediante multiplicadores controlados por las ganancias respectivas de cada vector. Al pasar la señal de excitación por los filtros, se sintetiza la señal de salida. Los coeficientes LPC se obtienen a partir de la interpolación de los coeficientes LPC obtenidos en tramas sucesivas de análisis.

Sistemas de vídeo
Figura6

Codificación tiempo/frecuencia MPEG-4

Se utiliza principalmente para codificar señales de música desde 6 kbit/s por canal, hasta señales con calidad de audio de CD a 64 kbit/s por canal y velocidades de transferencias superiores. Este modo de codificación soporta

la sintaxis AAC (Advanced Audio Coding) de MPEG-2, añadiendo además nuevas prestaciones.

Soporta un amplio margen de velocidades de transferencia fijas, así como codificación de transferencia variable.

A diferencia de los esquemas de codificación anteriores, no supone ningún modelo de señal y está basado en la codificación del espectro de la señal de entrada. La figura 7 muestra el diagrama de bloques del codificador TF.

La codificación T/F se lleva a cabo mediante un proceso de conversión de las señales de entrada (definidas en el dominio temporal), en una representación tiempo frecuencia, mediante la transformada coseno discreto modificada (MDCT o Modified Discrete Cosine Transform).

Para ello se toman bloques de N muestras (N puede ser 2048 ó 256 muestras) solapados en un 50%, se les aplica una ventana cuya forma es dependiente de las condiciones de la señal de entrada, y se aplica la transformada MDCT.

El modelo psicoacústico obtiene la máxima energía de la distorsión introducida en el proceso de codificación, que será enmascarada por la energía de la señal.

La utilización de factores de escala permite ajustar el ruido de cuantificación en el dominio espectral. Se basa en dividir el espectro en varios grupos de coeficientes espectrales, llamados banda de factores de escala, que comparten

un mismo factor de escala. El factor de escala representa la ganancia utilizada para modificar la amplitud de las líneas de la banda.

Sobre los coeficientes transformados se realiza una codificación predictiva, con el fin de aumentar la eficiencia del codificador. Se utiliza un predictor para cada uno de los coeficientes transformados, de forma que cada predictor aprovecha la autocorrelación entre los valores de las componentes espectrales de tramas consecutivas. Los coeficientes de cada predictor se actualizan mediante el algoritmo LMS, en una configuración “backward” (por tanto, a partir de muestras de señal ya codificadas previamente).

Se usa una estructura en celosía “lattice” de orden 2, de manera que se predice una determinada componente espectral usando las dos tramas precedentes. La actualización de los coeficientes del predictor en base a muestras de señal ya codificadas previamente presenta la ventaja de eliminar la necesidad de transmitir al receptor los coeficientes del predictor. Dado que el receptor ya dispone de dichas muestras podrá repetir los mismos cálculos que el codificador del emisor, y obtener los valores de los coeficientes del predictor. Sin embargo, el uso de predicción no siempre produce un incremento de la ganancia de codificación y es necesario añadir al flujo de bits información de control para indicar si se ha hecho uso de predicción o no. Lógicamente, en aquellos casos en que no haya mejora, no se usará predicción.

La decisión de usar predicción se toma en primer lugar para todos los coeficientes de una misma banda de factores de escala, y en segundo lugar, se decide si la ganancia obtenida para la trama en cuestión compensa como mínimo la información de control adicional (bits que indican en qué bandas se ha usado predicción).

Sistemas de vídeo
Figura7

La figura 8 muestra el esquema de predicción. Obsérvese que cada banda de un mismo factor de escala usaría una estructura análoga.

En el esquema de la figura 8, Q es el cuantificador, P el predictor, y REC reconstruye el último valor cuantificado,

Sistemas de vídeo

(donde eq es el error de predicción cuantificado correspondiente a x). Además, es necesario inicializar periódicamente los predictores, para incrementar la estabilidad mediante la resincronización de los predictores del codificador y decodificador, así como permitir puntos de acceso en la secuencia de bits. Dado que los datos necesarios para decodificar una muestra en un instante de tiempo determinado dependen de los valores de las muestras anteriores, antes de decodificar la muestra en cuestión será necesario remontarse a un instante

anterior en el cual no se requiera información anterior. Obsérvese que si no se usara este mecanismo de reset, sería necesario retroceder al inicio de la señal.

De forma análoga a la predicción descrita previamente, es posible usar también un proceso de predicción a largo plazo, realizado en el dominio temporal. En [6] puede encontrarse más información sobre la predicción a largo plazo.

El bloque TNS (Temporal Noise Shaping) permite controlar la estructura temporal fina del ruido de codificación mediante un proceso de filtrado. Se observa que incorpora las mismas herramientas de MPEG-2 AAC, así como dos nuevas alternativas a la cuantificación AAC.

La primera se denominada twin-VQ. Este bloque permite velocidades de transferencia fijas entre 6 y 40 kbit/s, y está basado en una cuantificación vectorial entrelazada y estimación espectral LPC. La segunda permite la codificación (de parámetros) sin pérdidas o codificación sin ruido “noieseless coding”, de forma escalable entre 16 y 64 kbit/s. Recibe el nombre de BSAC (Bit Sliced Arithmetic Coding). En el caso de señales estéreo, se pueden codificar como L/R (Left y Right) o como M/S (Midy Side), donde, dependiendo de las características de la señal estéreo, será más eficiente codificar L/R o M/S.

El modo “intensity stereo” se usa para explotar la redundancia entre canales estéreo en la zona de altas frecuencias, y es mutuamente excluyente con el modo M/S. La figura 9 muestra el esquema del decodificador T/F de MPEG-4.

Sistemas de vídeo
Figura8

CODIFICACIÓN DE SONIDOS SINTÉTICOS

El segundo gran bloque de señales de audio que permite codificar MPEG-4 son las señales sintéticas. Básicamente existen dos tipos:

señales musicales o sonidos, y voz humana sintetizada.

Codificación escalable de Objetos de video.

Hay muchos esquemas de codificación escalable en el sistema visual de MPEG-4: escalabilidad espacial, temporal y espacial basada en objetos. La escalabilidad espacial soporta el cambio en la calidad de la textura. La escalabilidad espacial basada en objetos extiende los “convencionales” tipos de escalabilidad hacia objetos arbitrarios, de manera que pueden ser usados in combinación con las otras capacidades basadas en objetos. Así, se puede lograr un escalado muy flexible, basado en contenido de la información de video. Esto hace posible mejorar la SNR (relación señal a ruido), la resolución espacial, la precisión de la forma etc... solo para objetos de interés o para una región en particular, la cual puede hacerse dinámicamente mientras se realiza la reproducción de la misma.

Robustez en entornos propensos a error.

Una técnica nueva desarrollada en MPEG, llamada NEWPRED (de nueva predicción), provee una recuperación rápida de error en aplicaciones de codificación a tiempo real. Ésta usa un canal de subida del decodificador al codificador. El codificador conmuta o cambia los frames de referencia adaptándolos de acuerdo a las condiciones de error de la red. NEWPRED no usa intra-refresco y contribuye a una alta eficiencia en la decodificación. Esta técnica ha sido diseñada para trabajar bajo condiciones de error de importancia.

  • Error de ráfaga en las redes inalámbricas (ratio de error es de 10E -3,1ms de longitud de ráfaga)

    • perdida de paquete en internet (ratio de perdida de paquete es del 5%)

    • Audio estructurado

    • MPEG-4 no estandariza un conjunto de métodos particulares de síntesis, sino un método para describir maneras de sintetizar. Por tanto, cualquier método actual o futuro podrá ser descrito mediante MPEG-4. Existen cinco elementos fundamentales dentro del concepto denominado audio estructurado:

    • *SAOL (Structured Audio Orchestra Language):

    • Es un lenguaje de tratamiento digital de señal que permite la descripción de algoritmos de síntesis y control.

    • *SASL (Structured Audio Score Language):

    • Se utiliza en algunos perfiles para describir lamanera de usar los algoritmos de generación de sonidos descritos en SAOL.

    • *SASBF (Structured Audio Sample Bank Format):

    • Permite la transmisión de bancos de muestras de sonidos, para ser usados en síntesis de tablas de formas de onda “wavetable synthesis” y la descripción de algoritmos de procesado sencillos utilizables.

    • *Descripción de tareas normalizada: Permite el control en tiempo de ejecución.

    • *Referencia normativa a estándar MIDI. (MIDI o Musical Instrument Digital Interface) es un estándar más antiguo que SASL ampliamente utilizado en música electrónica, que puede usarse conjuntamente o en vez de SASL.

    • Aunque es menos potente y flexible que SASL, el hecho de que MPEG-4 incorpore soporte MIDI, supone compatibilidad con contenidos y herramientas de autor ya existentes en el mercado.

    • Las velocidades de transferencia de las aplicaciones de audio sintético van de unos pocos bit/s a 3 kbit/s, en el caso de usar múltiples instrumentos con efectos y variaciones sofisticadas.

    • Obsérvese que la calidad es muy alta, dado que no se codifica la señal de audio, sino una descripción suficiente para reproducir su señal asociada. Además, permite una gran flexibilidad y posibilidad de manipulación, como añadir efectos (coros, reverberación), cambiar el tempo, los instrumentos musicales (por ejemplo cambiar un piano por un órgano), etc.

    • Conversión texto voz

    • La velocidad de transferencia está comprendida entre 200 bit/s y 1,2 kbit/s. MPEG-4 no estandariza un método de conversión texto-voz, sino el interfaz necesario para trabajar con un sintetizador de voz. La conversión texto-voz resulta interesante en multitud de aplicaciones, dado que únicamente se requiere un fichero de texto con el contenido del mensaje, y en ocasiones información adicional como el “sexo” y “edad” de la voz sintetizada, la velocidad de lectura (especificada en 16 niveles posibles), etc. Para obtener una demostración de la conversión texto-voz, pueden usarse productos comerciales de reconocimiento del habla como IBM viavoice y Dragon Naturally Speaking, puesto que incorporan también funciones de conversión texto a voz. La tabla 7 muestra los tipos de edades posibles de las voces sintéticas en MPEG-4.

    • La conversión texto a voz (TTS o Text To Speech) de MPEG-4 incluye la posibilidad de usar información de la prosodia, extraída de voz natural, para generar voz sintética de mayor calidad. Además, puede usarse conjuntamente

    • con animación de caras para controlar las deformaciones de la cara, movimientos de los labios, etc.

    • También soporta el uso del alfabeto fonético internacional (IPA o International Phonetic Alphabet), junto con la duración de los fonemas.

    • Sistemas de vídeo
      Figura9

    • Aplicaciones del estándar de video MPEG-4.

    • MPEG-4 video ofrece una tecnología que cubra un largo rango de aplicaciones existentes tanto como de las que están apareciendo recientemente. El ratio bajo de bits y la codificación de error elástica permiten una comunicación robusta a través de canales inalámbricos con ratios limitados, esto es útil por ejemplo para videoteléfonos móviles y comunicaciones espaciales. También se puede obtener una vigilancia de la compresión de datos ya que es posible tener una variación en el ratio de frames muy baja.. En altos ratios de bit, existen herramientas que permiten la transmisión y almacenamiento de video de alta calidad adaptado para estudios y otras muchas aplicaciones de creación de contenidos. Lo más probable es que con el tiempo el estándar soporte ratios de datos más allá de los que se consiguen con MPEG-2.

    • Un área de aplicación mayor es el video interactivo basado en Web. Ya se ha presentado software que provee video MPEG-4 en vivo sobre una pagina web. Hay un gran campo para aquellas aplicaciones que hagan uso de las características basadas en objetos del MPEG-4. Las herramientas binarias y codificación en escala de grises permiten que los objetos de video se puedan componer junto a texto y gráficos. De esta manera se pueden realizar multitud de ricas experiencias interactivas para presentaciones y publicidad basados en Web. Esto mismo se aplica a las aplicaciones asociadas a los “set-top-box ”. De manera adicional también es posible hacer uso de estas herramientas escalables para permitir un control suave entre el usuario final, el terminal y las capacidades del enlace de datos (data link).

    • MPERG-4 video también ha sido utilizado para realizar capturas y codificar con cámaras domesticas. Este tipo de aplicación lo mas seguro es que gane en popularidad debido a su fácil y rápida transferencia a paginas web, y puede que también se aproveche su capacidad para capturar imágenes estáticas. El mundo de los juegos es otro campo donde MPEG-4 video, las texturas estáticas, la interactividad y el SNCH prometen mucho, con el mapeado 3D de las imágenes estáticas, video en vivo, o las extendidas secuencias de video pregrabadas que potencian las experiencias del jugador. Añadiendo video en vivo de los varios jugadores conseguimos una mayor sensación para los juegos multijugador en 3D, y haciendo uso del video arbitrario, podemos combinar artísticamente transparencias con el mapeado de texturas de video 3D.

    • La flexibilidad de la codificación MPEG-4 video fomenta muchas más aplicaciones como esta.

    • Escalabilidad de texturas imágenes y video.

      • La escalabilidad compleja en el codificador permite generar flujos de bit de complejidad variable para una textura video o imagen dada.

      • La escalabilidad espacial permite a los decodificadores decodificar un subgrupo del flujo de bit total generado por el codificador para reconstruir y mostrar texturas, imágenes y video con una resolución espacial reducida. Para imágenes y texturas soporta un máximo de 11 niveles mientras que para video soporta un máximo de 3.

      • La escalabilidad permite a los decodificadores decodificar un subgrupo del flujo de bit total generado por el codificador para reconstruir y mostrar video con una resolución temporal reducida. Soporta un máximo de 3 niveles.

      • La Escalabilidad de calidad permite que un flujo de bits se divida en un número de capas de diferente ratio de bits de manera que la combinación del conjunto pueda ser decodificada como una señal con significado, esto puede ocurrir tanto en la transmisión como en el decodificador. La calidad en general vendrá en función del número de capas utilizas en la decodificación y la reconstrucción.

      • Texturas, Imágenes y video naturales.

      • Las herramientas para la representación de video natural en el estándar visual de MPEG-4 proveen tecnologías estandarizadas permitiendo un almacenamiento, transmisión y manipulación de texturas, imágenes y datos de video eficientes, para entornos multimedia. Estas herramientas permiten la decodificación y representación de unidades”atómicas” de imagen y contenido de video, llamadas “video objets” (Vos). Un ejemplo de un VO puede ser una persona hablando sin un fondo, la cual puede ser compuesta con otro AVO (audio-video object) para crear de esta manera una escena.

      • De manera para que se pueda conseguir esta meta global y no una solución para unas pocas aplicaciones, todas las funciones comunes de muchas aplicaciones se han agrupado, por tanto, la parte visual del estándar MPEG-4 provee soluciones en forma de herramientas y algoritmos para:

        • Compresión eficiente de imágenes y video.

          • Compresión eficiente de texturas y mapeado de texturas para mallas 2D y 3D.

            • Compresión eficiente de flujos (de datos) de geometría variable en el tiempo que animan las mallas

              • Compresión eficiente de mallas implícitas 2D.

                • Acceso aleatorio eficiente para todos los tipos de objetos visuales (VO).

                  • Funciones de manipulación extendida para secuencias de imágenes y video.

                    • Escalabilidad de texturas, imágenes y video basadas en contenidos.

                      • Codificación basada en contenidos de imágenes y video.

                        • escalabilidad espacial, temporal y de calidad.

                          • Robustez frente a errores y vigilancia en entornos con posibilidad de errores..

                          • Objetos sintéticos.

                          • Los objetos sintéticos forman un subconjunto que incluye la mayor parte de los gráficos de los ordenadores. Como punto de partida se describirán los siguientes objetos visuales sintéticos.

                            • Descripción paramétrica de:

                            • Síntesis de la cara y cuerpo.

                            • Codificación de malla estática y dinámica con mapeado de texturas.

                            & Codificación de texturas para Aplicaciones “Wiev dependent”.

                            Estabilidad de resolución temporal mejorada con retraso de buffering bajo.

                            Otra nueva técnica es la DCR (Conversión de resolución dinámica), un camino para estabilizar el retraso del buffering (o almacenamiento) de la transmisión a través de minimizar el “jitter”(o variación) de la cantidad de bits de salida codificados por VOP. Se previenen así grandes saltos de frames y el codificador puede controlar la resolución espacial incluso en escenas de alta actividad.

                            Estructura de las herramientas para representar video natural.

                            Los algoritmos de codificación de imagen y video de MPEG-4, presentan una eficiente representación de objetos visuales de forma arbitraria, también soportando las llamadas funciones basadas en contenido. Soportan la mayoría de las funciones ya ofrecidas por MPEG-1 y MPEG-2, incluyendo la compresión eficiente de secuencias rectangulares estándar con varios niveles de formatos de entrada, ratios de frames, profundidad de píxel (píxel depth), ratios de bit, y varios niveles de escalabilidad de calidad , temporal y espacial.

                            Una clasificación básica de los ratios de bit y las funciones actualmente ofrecida por MPEG-4 visual estándar para imágenes naturales de video es descrita en la siguiente figura, donde se ilustran los grupos de ratios de bit en función de las funciones.

                            Clasificación de las herramientas y algoritmos para la codificación de imagen y video de MPEG-4.

                            “VLBV core” (video con muy bajo ratio de bit) ofrece herramientas y algoritmos para aplicaciones que trabajan con ratios de bit típicos de 5 - 64 Kbit/s, y que soportan secuencias de imágenes con resolución espacial baja y bajos ratios de frames (hasta 15 Hz). Las funciones especificas de las aplicaciones básicas soportadas por el VLBV incluyen:

                            • Codificación de secuencias de imágenes de tamaño rectangular convencionales con alta eficiencia de codificación y alta robustez / vigilancia, baja latencia y complejidad para aplicaciones de comunicación multimedia.

                            • “Acceso aleatorio” y “fast foward” y “fast reverse” para el almacenamiento de bases de datos multimedia VLB y aplicaciones de acceso.

                            Las mismas funciones básicas descritas sobre estas líneas son también soportadas con altos ratios de bit con altos parámetros de entrada en cuanto a rangos espaciales y temporales hasta las resoluciones ITU-R Rec.601 y mayores, aplicando idénticos o similares algoritmos y herramientas como la “ VLBV core”. Los ratios de bit previstos son desde 64Kbit/s hasta 10Mbit/s y las aplicaciones previstas incluyen difusión multimedia la recuperación interactiva de señales de calidad comparable a la de la TV digital. Para estas aplicaciones de altos ratios de bit también existen herramientas de codificación de MPEG-4 que pueden representar el video entrelazado.

                            Las funciones basadas en contenido soportan la codificación / decodificación separada de contenidos, esto se refiere a los objetos físicos de una escena (como veremos más adelante), los Vos. Esta característica de MPEG-4 ofrece el mecanismo más elemental para la interactividad, representación simple y manipulación de los contenidos de Vos de imagen o video en el dominio de la compresión , sin la necesidad de mayor separación o transcodificación en el receptor. Para la codificación híbrida de datos visuales naturales tanto como de los sintéticos (por ejemplo de un entorno virtual) la función de codificación basada en contenidos permite mezclar un número de Vos de diferentes fuentes con objetos sintéticos , como fondos virtuales.

                            Los extendidos algoritmos y herramientas MPEG-4 para funciones basadas en contenidos pueden verse como un súper-conjunto de la VLBV y las herramientas para altos ratios de bit, esto viene a significar que las herramientas ofrecidas por el VLBV y las de alto ratio de bit son complementadas por elementos adicionales.

                            Soporte para las funciones convencionales y basadas en contenidos.

                            Como hemos mencionado antes, MPEG-4 video soporta imágenes rectangulares convencionales así como imágenes y video de formas arbitrarias. Este ejemplo se muestra en la figura siguiente:

                            Sistemas de vídeo

                            El VLBV core y el codificador genérico MPEG-4

                            La codificación convencional de imágenes y video es similar a la convencional realizada por MPEG-1/2. Estas incluyen predicción / compensación de movimiento seguido por codificación de texturas. Para las funciones basadas en contenidos, donde la secuencia de imágenes de entrada puede ser de localización y forma arbitraria, esta aproximación es extendida codificando la información de forma y transparencia. La forma puede ser representada por un componente de transparencia de 8 bits, )el cual permite la descripción de dicha transparencia si uno de los VO esta compuesto por otros objetos), o por una máscara binaria.

                            La aproximación basada en contenidos MPEG-4 extendida puede ser vista como una extensión lógica del convencional MPEG-4 VLBV core o las herramientas de alto ratio de bits dirigidas a la entrada de formas arbitrarias.

                            LAS VENTAJAS DE MPEG-4

                            1. MPEG-4 es el primer estándar que combina vídeo de una y de dos vías en un único estándar.

                            2. MPEG-4 permite una fácil manipulación de los datos. Por ejemplo, se pueden combinar varias fuentes de MPEG-4 y editarlas al instante.

                            3. MPEG-4 permite a los proveedores de contenido codificar una sola vez y distribuir en cualquier lugar. Un único flujo puede admitir cable, satélite y tecnología inalámbrica, y se puede distribuir a distintas velocidades en bits. Esta solución rentable es posible debido a dos características de MPEG-4 que MPEG-2 no posee:

                            Gama de velocidades en bits más flexible: 9,6 Kb/s a 6 Mb/s para MPEG-4 en comparación con 1,5 Mb/s a 12 Mb/s para MPEG-2.

                            Flexibilidad ante los errores (por encima de la capacidad de MPEG-2), la cual ayuda a asegurar la calidad incluso a través de enlaces no fiables con un alto índice de errores de bits (BER).

                            4. Con MPEG-4, el portador puede modificar la frecuencia de la imagen del vídeo para adaptarse al número variable de clientes de una red, nivelando, de este modo, la carga del sistema.

                            REFERENCIAS

                            ISO/IEC JTC1/SC29/WG11 N3156, MPEG-4

                            Overview. Diciembre 1999. Maui.

                            S. Battista, F. Casalino y C. Lande, “MPEG-4: A

                            multimedia standard for the third millenium, part

                            2”. IEEE Multimedia, pp.74-83, Octubre-Diciembre

                            1999.

                            Marcos Faúndez, Tratamiento digital de voz e

                            imagen y aplicación a la multimedia. Ed. Marcombo

                            2000.


                            http://sound.media.mit.edu/mpeg4/audio/#mpeg4

                            http://www.cs.berkeley.edu/ ~lazzaro/sa/index.html

                            http://garuda.imag.fr/MPEG-4

                            http://seritel.teleco.ulpgc.es/trabajos/mpeg/MPEG_4.html

                            http://www.canal100.com.mx/telemundo/informes/?id_hoja=193

                            http://www.baquia.com/com/20011005/not00003.html

                            http://searchnetworking.techtarget.com/sDefinition/0,,sid7_gci212971,00.html