Professional Documents
Culture Documents
ÍNDICE
FORMATOS
Formato de archivo informático
Generalidades
Especificaciones
Formatos de sonido
Con pérdida
Sin pérdida
Formatos de imagen
Con pérdida
Sin pérdida
Formato de archivos de vídeo
ASCII
Vista general
Historia
Los caracteres de control ASCII
Caracteres imprimibles ASCII
Rasgos estructurales
Otros nombres para ASCII
Variantes de ASCII
Arte ASCII
Unicode
Origen y desarrollo
Escrituras cubiertas
Curiosidades
Mapeo y codificaciones
Estándar
Historia de las revisiones de Unicode
Almacenamiento, transferencia y procesamiento
Composición de caracteres contra caracteres prediseñados
Discusiones
Unicode en uso
Sistemas operativos
Correo Electrónico
Web
AAC
Características
Diagrama de bloques de un MPEG-2 AAC codificador
Ventajas de AAC con respecto a MP3
MP3
Historia
Detalles técnicos
Banco de filtros
El modelo psicoacústico
Codificación y cuantificación
Ciclo interno
Ciclo externo
Empaquetado o formateador de bitstream
Estructura de un fichero MP3
Transformada de Fourier discreta
Mp3PRO
Vorbis
Introducción
Historia
Detalles técnicos
RealAudio
Extensiones de Archivos
TwinVQ
Características
Funcionamiento
TwinVQ en MPEG-4
Software
SoundVQ
Otros
WMA
MIDI
Historia
Hardware
Aparatos
• Controladores:
• Unidades generadoras de sonido:
• Secuenciadores:
Cables y conectores
Conexiones
Software
Bytes MIDI
Canales MIDI
Instrumentos MIDI
Modos MIDI
Mensajes de canal
Controlador y unidad generadora de sonido
Secuenciador
JPEG
El estándar JPEG
Compresión del JPEG
Codificación
Transformación del espacio de color
Submuestreo
Transformación discreta de coseno o DCT
Cuantificación
Codificación entrópica
Ruido producido por la compresión
Decodificación
TIFF
Etiquetas
Compresión
Almacenamiento
Creadores y Dueños
Otras Aplicaciones
TARGA (TGA)
VIDEO
Partes de la señal de video analógica
Información de la imagen
Sincronismos
Descripción de videos
Características de los flujos de video
Número de imágenes por segundo
Entrelazado
Resolución de video
Relación de aspecto
Espacio de color y bits por píxel
Calidad de video
Método de compresión de video (sólo digital)
Tasa de bits (sólo digital)
Estereoscópico
Formatos de video
AVI
Breve reseña histórica
Cómo funciona
Cómo se reproduce un archivo AVI
QuickTime
Historia
Formatos soportados
3GP
Software
Reproducción
Codificación/Decodificación
Códec
Los codecs de vídeo más usados actualmente son:
Sin Compresión:
DV:
MPEG:
Xvid.
Divx.
RatDVD.
Vcd.
Svcd.
1. TIPOS DE CODIFICACIÓN Y FORMATOS DE VÍDEO
Una de las decisiones más importantes que debemos tomar, antes y después de la
edición, es elegir el formato de video que usaremos, y su codificación (CODEC).
Esto afectará notablemente al resultado final de nuestro trabajo.
2. FORMATOS
2.1 Formato de archivo informático
Un formato de archivo informático (o formato de fichero informático) es una
manera particular de codificar información para almacenarla en un archivo informático.
Dado que una unidad de disco, o de hecho cualquier memoria sólo puede
almacenar bits, la computadora debe tener alguna manera de convertir la información a
ceros y unos y viceversa. Hay diferentes tipos de formatos para diferentes tipos de
información. Sin embargo, dentro de cada tipo de formato, por ejemplo documentos de
un procesador de texto, habrá normalmente varios formatos diferentes, a veces en
competencia.
2.2 Generalidades
Algunos formatos de archivo están diseñados para almacenar tipos de datos muy
particulares: el formato JPEG, por ejemplo, está diseñado para almacenar solamente
imágenes estáticas. Otros formatos de archivo, sin embargo, están diseñados para
almacenar varios tipos diferentes de datos: el formato GIF admite almacenar imágenes
estáticas y animaciones simples, y el formato QuickTime puede actuar como un
contenedor para muchos tipos diferentes de multimedia. Un archivo de texto es
simplemente uno que almacena cualquier texto, en un formato como ASCII o Unicode,
con pocos o ninguno caracteres de control. Algunos formatos de archivo, como HTML,
o el código fuente de algún lenguaje de programación particular, también son de hecho
archivos de texto, pero se adhieren a reglas más específicas que les permiten ser usados
para propósitos específicos.
A veces es posible hacer que un programa lea un archivo codificado en un formato
como si hubiera sido codificado en otro formato. Por ejemplo, uno puede reproducir un
documento de Microsoft Word como si fuera una canción usando un programa de
reproducción de música que acepte archivos de audio «sin cabecera». El resultado no
suena muy melodioso, sin embargo. Esto es así porque una disposición sensata de bits
en un formato casi nunca tiene sentido en otro.
2.3 Especificaciones
Muchos formatos de archivos, incluyendo algunos de los formatos de archivo más
conocidos, tienen publicado un documento de especificación (a menudo con una
implementación de referencia) que describe exactamente como se deben codificar los
datos, y que se puede usar para determinar si un programa concreto trata un formato de
archivo particular correctamente o no. Hay, sin embargo, dos razones por las que éste
no es siempre el caso. Primero, algunos desarrolladores de formatos de archivo ven sus
documentos de especificación como secretos comerciales, y por lo tanto no los ponen a
disposición del público. Un ejemplo prominente de esto existe en varios formatos
usados por las aplicaciones de Microsoft Office. Segundo, algunos desarrolladores de
formatos de archivo nunca gastan tiempo en escribir un documento de especificación
independiente; en vez de ello, el formato se define sólo implícitamente, por medio del
programa que manipula datos en ese formato.
Observe que utilizar formatos de archivo que no tengan una especificación
disponible públicamente puede resultar caro. Aprender como funciona el formato
requerirá bien hacerle ingeniería inversa a partir de una implementación de referencia o
adquirir el documento de especificación por algún precio a los desarrolladores del
formato. Este segundo enfoque es posible solamente cuando hay un documento de
especificación, y requiere normalmente firma un acuerdo de no divulgación. Ambas
estrategias requieren mucho tiempo, dinero, o ambos. Por lo tanto, y como regla
general, los formatos de archivo con especificaciones disponibles públicamente son
usados por un número mayor de programas, mientras que los formatos no públicos son
reconocidos solamente por unos pocos programas.
Con pérdida:
AAC
MP3
MP3Pro
Vorbis
RealAudio
VQF
WMA
Sin pérdida
AIFF
FLAC
WAV
MIDI
MKA
Con pérdida:
JPEG
Sin pérdida:
GIF
ILBM
PNG
BMP
TIFF
TARGA (TGA)
HD Pho (Sólo en calidad 100%)
Vista general
Las computadoras solamente entienden números. El código ASCII es una
representación numérica de un carácter como ‘a’ o ‘@’.1
Como otros códigos de formato de representación de caracteres, el ASCII es un
método para una correspondencia entre cadenas de bits y una serie de símbolos
(alfanuméricos y otros), permitiendo de esta forma la comunicación entre dispositivos
digitales así como su procesado y almacenamiento. El código de caracteres ASCII2 —
o una extensión compatible (ver más abajo) — se usa casi en todos los ordenadores,
especialmente con ordenadores personales y estaciones de trabajo. El nombre más
apropiado para este código de caracteres es "US-ASCII".
! " # $ % & ' ( ) * +, -. / 0 1 2 3 4 5 6 7 8 9 :; < = > ?
@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_
`abcdefghijklmnopqrstuvwxyz{|}~
ASCII es, en sentido estricto, un código de siete bits, lo que significa que usa
cadenas de bits representables con siete dígitos binarios (que van de 0 a 127 en base
decimal) para representar información de caracteres. En el momento en el que se
introdujo el código ASCII muchos ordenadores trabajaban con grupos de ocho bits
(bytes u octetos), como la unidad mínima de información; donde el octavo bit se usaba
habitualmente como bit de paridad con funciones de control de errores en líneas de
comunicación u otras funciones específicas del dispositivo. Las máquinas que no
usaban la comprobación de paridad asignaban al octavo bit el valor cero en la mayoría
de los casos, aunque otros sistemas como las computadoras Prime, que ejecutaban
PRIMOS ponían el octavo bit del código ASCII a uno.
El código ASCII define una relación entre caracteres específicos y secuencias de
bits; además de reservar unos cuantos códigos de control para el procesador de textos, y
no define ningún mecanismo para describir la estructura o la apariencia del texto en un
documento; estos asuntos están especificados por otros lenguajes como los lenguajes de
etiquetas.
Historia
El código ASCII se desarrolló en el ámbito de la telegrafía, y se usó por primera
vez comercialmente como un código de teleimpresión impulsado por los servicios de
datos de Bell. Bell había planeado usar un código de seis bits, derivado de Fieldata, que
añadía puntuación y letras minúsculas al más antiguo código de teleimpresión Baudot,
pero se les convenció para que se unieran al subcomité de la Agencia de Estándares
Estadounidense (ASA), que habían empezado a desarrollar el código ASCII. Baudot
ayudó en la automatización del envío y recepción de mensajes telegráficos, y tomó
muchas características del código Morse; sin embargo, a diferencia del código Morse,
Baudot usó códigos de longitud constante. Comparado con los primeros códigos
telegráficos, el código propuesto por Bell y ASA resultó en una reorganización más
conveniente para ordenar listas (especialmente porque estaba ordenado alfabéticamente)
y añadió características como la 'secuencia de escape'.
La Agencia de Estándares Estadounidense (ASA), que se convertiría más tarde en
el Instituto Nacional Estadounidense de Estándares (ANSI), publicó por primera vez el
código ASCII en 1963. El ASCII publicado en 1963 tenía una flecha apuntando hacia
arriba (↑) en lugar del circunflejo (^) y una flecha apuntando hacia la izquierda en lugar
del guión bajo (_). La versión de 1967 añadió las letras minúsculas, cambió los nombres
de algunos códigos de control y cambió de lugar los dos códigos de control ACK y ESC
de la zona de letras minúsculas a la zona de códigos de control.
ASCII fue actualizado en consecuencia y publicado como ANSI X3.4-1968, ANSI
X3.4-1977, y finalmente ANSI X3.4-1986.
Otros órganos de estandarización han publicado códigos de caracteres que son
idénticos a ASCII. Estos códigos de caracteres reciben a menudo el nombre de ASCII, a
pesar de que ASCII se define estrictamente solamente por los estándares ASA/ANSI:
• La Asociación Europea de Fabricantes de Ordenadores (ECMA) publicó
ediciones de su clon de ASCII, ECMA-6 en 1965, 1967, 1970, 1973, 1983, y
1991. La edición de 1991 es idéntica a ANSI X3.4-1986.
• La Organización Internacional de Estandarización (ISO) publicó su
versión, ISO 646 (más tarde ISO/IEC 646) en 1967, 1972, 1983 y 1991. En
particular, ISO 646:1972 estableció un conjunto de versiones específicas para
cada país donde los caracteres de puntuación fueron reemplazados con
caracteres no ingleses. ISO/IEC 646:1991 La International Reference Version es
la misma que en el ANSI X3.4-1986.
• La Unión Internacional de Telecomunicaciones (ITU) publicó su versión
de ANSI X3.4-1986, Recomendación ITU T.50, en 1992. A principios de la
década de 1970 publicó una versión como Recomendación CCITT V.3.
• DIN publicó una versión de ASCII como el estándar DIN 66003 en 1974.
• El Grupo de Trabajo en Ingeniería de Internet (IETF) publicó una versión
en 1969 como RFC 20, y estableció la versión estándar para Internet, basada en
ANSI X3.4-1986, con la publicación de RFC 1345 en 1992.
• La versión de IBM de ANSI X3.4-1986 se publicó en la literatura técnica
de IBM como página de códigos 367.
El código ASCII también está incluido en su probable relevo, Unicode,
constituyendo los primeros 128 caracteres (o los 'más bajos'). Algunos observadores
consideran el código ASCII el estándar de software más exitoso que jamás se haya
promulgado.
Nombre/
Binario Decimal Hex Abreviatura Repr AT Significado
Inicio de
0000 0010 2 02 STX ֛ ^B
Texto
Fin de
0000 0100 4 04 EOT ֝ ^D
Transmisión
Data Link
0001 0000 16 10 DLE ֩ ^P
Escape
Device Control 1 —
0001 0001 17 11 DC1 ֪ ^Q
oft. XON
Device Control 3 —
0001 0011 19 13 DC3 ֬ ^S
oft. XOFF
Negative Acknow
0001 0101 21 15 NAK ֮ ^U
ledgement
^?, Delete, or
0111 1111 127 7F DEL ֺ Delete
Backspace
0010 0001 33 21 !
0010 0011 35 23 #
0010 0100 36 24 $
0010 0101 37 25 %
0010 1000 40 28 (
0010 1001 41 29 )
0010 1010 42 2A *
0010 1011 43 2B +
0010 1100 44 2C ,
0010 1101 45 2D -
0010 1110 46 2E .
0010 1111 47 2F /
0011 0000 48 30 0
0011 0001 49 31 1
0011 0010 50 32 2
0011 0011 51 33 3
0011 0100 52 34 4
0011 0101 53 35 5
0011 0111 55 37 7
0011 1000 56 38 8
0011 1001 57 39 9
0011 1010 58 3A :
0011 1011 59 3B ;
0011 1101 61 3D =
0011 1111 63 3F ?
0100 0000 64 40 @
0100 0001 65 41 A
0100 0010 66 42 B
0100 0011 67 43 C
0100 0100 68 44 D
0100 0101 69 45 E
0100 0110 70 46 F
0100 0111 71 47 G
0100 1000 72 48 H
0100 1001 73 49 I
0100 1010 74 4A J
0100 1011 75 4B K
0100 1100 76 4C L
0100 1101 77 4D M
0100 1110 78 4E N
0100 1111 79 4F O
0101 0000 80 50 P
0101 0001 81 51 Q
0101 0010 82 52 R
0101 0011 83 53 S
0101 0100 84 54 T
0101 0101 85 55 U
0101 0110 86 56 V
0101 0111 87 57 W
0101 1000 88 58 X
0101 1001 89 59 Y
0101 1010 90 5A Z
0101 1011 91 5B [
0101 1100 92 5C \
0101 1101 93 5D ]
0101 1110 94 5E ^
0101 1111 95 5F _
0110 0000 96 60 `
0110 0001 97 61 a
0110 0010 98 62 b
0110 0011 99 63 c
Variantes de ASCII
A medida que la tecnología informática se difundió a lo largo del mundo, se
desarrollaron diferentes estándares y las empresas desarrollaron muchas variaciones del
código ASCII para facilitar la escritura de lenguas diferentes al inglés que usaran
alfabetos latinos. Se pueden encontrar algunas de esas variaciones clasificadas como
"ASCII Extendido", aunque en ocasiones el término se aplica erróneamente para cubrir
todas las variantes, incluso las que no preservan el conjunto de códigos de caracteres
original ASCII de siete bits.
La ISO 646 (1972), el primer intento de remediar el sesgo pro-inglés de la
codificación de caracteres, creó problemas de compatibilidad, pues también era un
código de caracteres de 7 bits. No especificó códigos adicionales, así que reasignó
algunos específicamente para los nuevos lenguajes. De esta forma se volvió imposible
saber en qué variante se encontraba codificado el texto, y, consecuentemente, los
procesadores de texto podían tratar una sola variante.
La tecnología mejoró y aportó medios para representar la información codificada
en el octavo bit de cada byte, liberando este bit, lo que añadió otros 128 códigos de
carácter adicionales que quedaron disponibles para nuevas asignaciones. Por ejemplo,
IBM desarrolló páginas de código de 8 bits, como la página de códigos 437, que
reemplazaba los caracteres de control con símbolos gráficos como sonrisas, y asignó
otros caracteres gráficos adicionales a los 128 bytes superiores de la página de códigos.
Algunos sistemas operativos como DOS, podían trabajar con esas páginas de código, y
los fabricantes de ordenadores personales incluyeron soporte para dichas páginas en su
hardware.
Los estándares de ocho bits como ISO 8859 y Mac OS Roman fueron
desarrollados como verdaderas extensiones de ASCII, dejando los primeros 127
caracteres intactos y añadiendo únicamente valores adicionales por encima de los 7-bits.
Esto permitió la representación de un abanico mayor de lenguajes, pero estos estándares
continuaron sufriendo incompatibilidades y limitaciones. Todavía hoy, ISO-8859-1 y su
variante Windows-1252 (a veces llamada erróneamente ISO-8859-1) y el código ASCII
original de 7 bits son los códigos de carácter más comúnmente utilizados.
Unicode y Conjunto de Caracteres Universal (UCS) ISO/IEC 10646 definen un
conjunto de caracteres mucho mayor, y sus diferentes formas de codificación han
empezado a reemplazar ISO 8859 y ASCII rápidamente en muchos entornos. Mientras
que ASCII básicamente usa códigos de 7-bits, Unicode y UCS usan "code points" o
apuntadores relativamente abstractos: números positivos (incluyendo el cero) que
asignan secuencias de 8 o más bits a caracteres. Para permitir la compatibilidad,
Unicode y UCS asignan los primeros 128 apuntadores a los mismos caracteres que el
código ASCII. De esta forma se puede pensar en ASCII como un subconjunto muy
pequeño de Unicode y UCS. La popular codificación UTF-8 recomienda el uso de uno a
cuatro valores de 8 bits para cada apuntador, donde los primeros 128 valores apuntan a
los mismos caracteres que ASCII. Otras codificaciones de caracteres como UTF-16 se
parece a ASCII en cómo representan los primeros 128 caracteres de Unicode, pero
tienden a usar 16 a 32 bits por carácter, así que requieren de una conversión adecuada
para que haya compatibilidad entre ambos códigos de carácter.
La palabra ASCIIbético (o, más habitualmente, la palabra "inglesa" ASCIIbetical)
describe la ordenación según el orden de los códigos ASCII en lugar del orden
alfabético.5
La abreviatura ASCIIZ o ASCIZ se refiere a una cadena de caracteres terminada
en cero (del inglés "zero").
Arte ASCII
Origen y desarrollo
Unicode tiene el propósito explícito de trascender las limitaciones de los códigos
de caracteres tradicionales, como los definidos por el estándar ISO 8859, utilizado en
numerosos países del mundo, pero que sigue siendo incompatible entre ellos en gran
parte. Buena parte de los codificadores de caracteres tradicionales comparten un
problema: permiten procesamientos informáticos bilingües (generalmente usando
caracteres latinos y del idioma local), pero no multilingües (procesamiento informático
de idiomas arbitrarios mezclados entre ellos).
Unicode intenta codificar los caracteres esenciales —grafemas— más que las
representaciones variantes para dichos caracteres. En caso de los caracteres chinos, esto
lleva a veces a constantes controversias sobre la distinción entre caracteres esenciales y
sus representaciones variantes (véase en:Han unification y en:Radical (Chinese
character)).
Unicode representa un carácter de forma abstracta, y deja la representación visual
(tamaño, dimensión, fuente o estilo) a otro software, como un navegador web o un
procesador de texto. No obstante, esta simplicidad se complica con las concesiones
hechas por los diseñadores de Unicode, con la esperanza de animar una mayor
"adopción" de Unicode.
Los primeros 256 puntos de código son idénticos a los especificados en ISO 8859-
1, para facilitar la conversión del texto ya existente escrito en lenguajes europeos
occidentales. Muchos de los caracteres esenciales se codificaron varias veces en
distintos puntos de código para preservar distinciones utilizadas por codificaciones
heredadas y permitir conversiones de aquellas codificaciones a Unicode (y viceversa)
sin perder ningún tipo de información. Por ejemplo, la sección de formas anchas
(en:Fullwidth) de los puntos de código abarca un alfabeto latino completo, separado de
la sección de alfabeto latino principal. En fuentes CJK (fuentes para chino, japonés y
coreano), estos caracteres fueron representados tanto en su forma ancha como en la
estándar, más angosta.
Además de que Unicode permite combinaciones de caracteres, también dispone de
versiones precompuestas de la mayoría de combinaciones de letras diacríticas en uso.
Estas versiones facilitan las conversiones desde y hacia las más simples codificaciones
heredadas y permiten que las aplicaciones utilicen Unicode como un formato de texto
interno sin tener que implementar combinaciones de caracteres. Por ejemplo, é puede
representarse en Unicode como U+0065 (letra latina minúscula e) seguido de U+0301
(acento agudo), pero puede también representarse directamente por el precompuesto
U+00E9.
El estándar Unicode también incluye un número de elementos relacionados, como
las propiedades de caracteres, formas de normalización de textos y órdenes de
visualización bidireccional (para la correcta visualización de texto que contenga
escrituras de derecha a izquierda —Árabe o Hebreo— y de izquierda a derecha a la
vez).
Escrituras cubiertas
Unicode cubre la mayor parte de las escrituras usadas actualmente, incluyendo:
• Árabe
• Armenio
• Bengalí
• Birmano
• Braille
• Sílabas aborígenes canadienses
• Cheroqui
• Copto
• Cirílico
• Devanāgarī
• Esperanto
• Etíope
• Georgiano
• Griego
• Guyaratí
• Gurmukhi
• Hangul (Coreano)
• Han (Kanji, Hanja y Hanzi)
• Japonés (Kanji, Hiragana y Katakana)
• Hebreo
• Jemer (Camboyano)
• Kannada (Canarés)
• Laosiano
• Latino
• Malabar
• Mongol
• Oriya
• Siríaco
• Tailandés (Thai)
• Tamil
• Tibetano
• Yi
• Zhuyin (Bopomofo)
Curiosidades
En 1997, Michael Everson propuso codificar los caracteres del ficticio idioma
klingon en el Plano 1 del ISO/IEC 10646-2. [1] El Consorcio Unicode rechazó la
propuesta en 2001, declarándola "inapropiada para codificar": no porque fuera
inadecuada técnicamente, sino porque los usuarios de Klingon normalmente leían,
escribían e intercambiaban datos en transliteración latina. Actualmente, algunos de estos
entusiastas bloggean en tlhIngan pIqaD (alfabeto Klingon) utilizando nuevas fuentes
disponibles y distribuciones de teclado; la posibilidad de aplicarlo a ISO ha reaparecido.
Hubo también propuestas sobre la inclusión de alfabetos élficos como el Tengwar
o el Cirth, de la ficticia Tierra Media de J. R. R. Tolkien, en el Plano 1 en 1993. [2][3]
El Consorcio retiró el borrador para incorporar cambios, propuestos por los seguidores
de Tolkien, y no se consideró hasta 2005.
Tanto el Klingon como el Élfico son asignados en el Registro Unicode ConScript.
Mapeo y codificaciones
Estándar
El Consorcio Unicode, con sede en California (EE.UU.), desarrolla el estándar
Unicode. Cualquier individuo o compañía puede formar parte de la organización,
pagando una tasa de suscripción. Algunas de estas compañías están a la cabeza del
mercado de hardware y software informático, como Adobe Systems, Apple Computer,
IBM, Microsoft, Xerox y HP entre otras.
Primero se publicó El Estándar Unicode (ISBN 0-321-18578-1) en 1991, y sigue
desarrollando estándares basados en el original. Unicode fue desarrollado
conjuntamente con la Organización Internacional para la Estandarización (ISO) y
comparte su repertorio con ISO/IEC 10646. Unicode e ISO/IEC 10646 funcionan
equivalentemente como codificadores de caracteres, pero el Estándar Unicode contiene
mucha más información para implementar, cubriendo en profundidad, temas como la
codificación bitwise, collation y la renderización. Unicode enumera una vasta cantidad
de propiedades para los caracteres, incluyendo aquellas necesarias para soportar texto
bidireccional. Ambos estándares utilizan una terminología ligeramente diferente.
Cuando se escribe un carácter en Unicode, es normal escribirlo como una "U+" seguido
de un número hexadecimal indicando el punto del código del carácter. Para puntos de
código usando el formato gráfico BMP, se usan cuatro dígitos, para los puntos de
código fuera del formato gráfico BMP son usados cinco o seis dígitos, según sea
requerido. Las versiones antiguas del mismo estándar utilizaban notaciones similares,
pero con reglas ligeramente diferentes. Por ejemplo, Unicode 3.0 utlizaba "U-" seguido
de ocho dígitos, y permitía que se utilizara "U+" solamente con exactamente 4 dígitos
para poder indicar una unidad de código, no un punto de código.
Discusiones
Algunas personas, principalmente en Japón, se oponen al Unicode en general,
quejándose de las limitaciones técnicas y problemas políticos involucrados. Las
personas que trabajan en el proyecto ven esas críticas como malentendidos del estándar
Unicode y del proceso por el cual ha evolucionado. El error más común, desde este
punto de vista, tiene que ver con la confusión entre caracteres abstractos y sus formas
visuales altamente variables. Por otro lado mientras que la población china puede leer
fácilmente la mayoría de los símbolos utilizados por los japoneses o los coreanos, los
japoneses muy a menudo reconocen sólo una variante en particular (lo cual es un dato
curioso, pues el japonés y el coreano son considerados como lenguas aisladas).
Otras personas han denigrado el Unicode al afirmar que es un complot contra las
culturas asiáticas perpetrado por los occidentales sin ningún conocimiento de como son
usados los caracteres en chino, coreano o japonés, a pesar de que un buen número de
expertos de los tres continentes en el Grupo Ideográfico del Poniente (IRG por sus
siglas en inglés). El IRG avisa al consorcio del Unicode y al ISO y a la Unificación Han
de las nuevas adiciones al repertorio y de la identificación de símbolos en los tres
lenguajes sobre cuales de ellos se pueden tratar como variaciones de estilo del mismo
carácter histórico. La unificación Han se ha convertido en uno de los aspectos más
controvertidos de Unicode.
Unicode es duramente criticado por no permitir el uso de los símbolos alternos y
antiguos del kanji, lo cual, se dice, complica el procesamiento del japonés antiguo y de
nombres japoneses poco usuales. Estas críticas persisten aunque Unicode sigue
completamente las recomendaciones de maestros del lenguaje japonés y del gobierno
japonés. Incluso ha habido numerosos intentos de crear un Unicode alternativo.
Entre los muchos propuestos se encuentra el TRON (aunque no es ampliamente
adoptado en Japón, algunos, en especial aquellos que necesitan manejar texto escrito en
japonés antiguo, favorecen este estándar); y el UTF-2000]. Aunque es verdad que
muchos símbolos antiguos no fueron incluidos en las primeras versiones del Unicode
estándar, Unicode 4.0 contiene más de 90,000 caracteres Han, muchísimos más que
cualquier otro diccionario o estándar, y que el proceso de agregar caracteres de la
temprana escritura de China, Corea y Japón continúa.
El incluir el Lenguaje Thai también ha sido criticado por su orden ilógico de
caracteres. Esta complicación es debido a que el Unicode ha heredado el Estándar
Industrial Thai 620, el cual funcionaba de la misma manera. Este problema de orden
complica el proceso de comparación de Unicote.
Incluso algunos que se oponen al Unicode se quejan aún de que no puede manejar
más de 65.535 caracteres, una limitación que fue eliminada desde el Unicode 2.0.
Sin embargo, no todo son rechazos, pues algunos gobiernos, como el gobierno de
India, han mostrado enorme interés en el proyecto, siendo miembro con derecho a voto
en el consorcio de Unicode.
Unicode en uso
Sistemas operativos
Unicode se ha convertido en el esquema dominante para el procesamiento y en
ocasiones para el almacenamiento de texto (aunque mucho del texto aún es almacenado
en codificaciones heredadas). Los adaptadores iniciales utilizaban UCS-2 y después
cambiaron a UTF-16 (debido a que esta era la única manera de agregar compatibilidad
para caracteres que no eran bmp). El mejor ejemplo conocido de este sistema es
Windows NT (y obviamente sus descendientes Windows 2000 y Windows XP).
Aunque también los códigos de bytes de los ambientes Java y .NET lo utilizan.
Por otro lado UTF-8 (desarrollado para Plan 9) se ha convertido en la codificación
principal de la mayoría de los sistemas operativos similares o basados en Unix (aunque
otros también son usados por algunas bibliotecas) debido a que es relativamente fácil
hacer el reemplazo por caracteres de los juegos de caracteres extendidos ASCII.
Correo Electrónico
MIME define dos mecanismos diferentes para la codificación de caracteres que no
son ASCII en los correos electrónicos (e-mail), dependiendo de si el carácter está en los
encabezados del correo como el de "Subject:" (asunto), o si está en el cuerpo del
mensaje. En ambos casos, el juego original de caracteres está definido también como un
código de transferencia. Para la transmisión de correo en Unicode las planas de
caracteres de UTF-8 y Base64 son las más recomendadas. Los detalles de los dos
mecanismos diferentes están especificados en los estándares MIME y en general se
encuentran ocultos de los usuarios del software de correo electrónico.
La adopción de Unicode en el correo electrónico ha sido muy lenta. La mayoría
del texto del este de Asia está codificado todavía en codificaciones locales como Shift-
JIS y muchos programas de correo comúnmente utilizados, si es que son compatibles
con Unicode, aún no puede manejar los datos de Unicode correctamente. No se espera
que esta situación cambie en un futuro cercano.
Web
Algunos navegadores recientes pueden mostrar páginas web utilizando Unicode si
una fuente correcta esta instalada.
Aunque las reglas de sintaxis pueden modificar el orden en que a los caracteres se
les permite aparecer, los documentos de ambos lenguajes: HTML 4.0 y XML 1.0; por
definición abarcan caracteres de muchos de los puntos código de Unicode, con
excepción de:
• Muchos de los Controles de código C0 y C1.
• Los puntos código permanentemente no asignados: de D800-DFFF.
• Cualquier punto código que termine en FFFE o FFFF.
• Cualquier punto código por encima de 10FFFF.
Estos caracteres se manifiestan directamente como bytes de acuerdo a la
documentación de cada codificación, si ésta es compatible con Unicode, o bien el
usuario puede escribirlos directamente como referencias numéricas de caracteres basado
en el punto código de Unicode de cada carácter, siempre y cuando la codificación de
cada documento permita utilizar los dígitos necesarios para escribir las referencias
(todos los códigos aprobados para uso en el internet lo permiten). Por ejemplo, las
referencias: Δ, Й, ק, م, ๗, あ, 叶,
葉, y 냻 ( o el mismo valor numérico expresado en hexadecimal con
&#x como el prefijo) se muestran en el navegador como ∆, Й, ק, م, ๗, あ, 叶, 葉 y 냻,
siempre y cuando la fuente correcta exista, estos símbolos corresponden a: la letra
griega delta mayúscula, la letra cirílica "i corta", la letra hebrea "Qof", la letra arábiga
"Meem", el número Thai 7, la letra japonesa Hiragana "A", el símbolo del Chino
simplificado para "Hoja", el símbolo de la escritura tradicional china para "Hoja" y la
sílaba coreana "Nyelh", respectivamente.
AAC
El AAC(Advanced Audio Coding) es un formato de audio digital comprimido
con pérdida, con este proceso se eliminan algunos de los datos de audio para poder
obtener el mayor grado de compresión posible, aunque se produce un archivo de salida
que suena lo más parecido posible al original.
Desarrollado por el Instituto Fraunhofer juntamente con AT&T, Nokia, Sony y
Dolby y diseñado para reemplazar al MP3. Para un mismo número de impulsos por
segundo (bitrate) y un mismo tamaño de archivo MP3, el formato AAC es más estable y
tiene más calidad, produciendo un sonido más cristalino.
El formato AAC corresponde al estándar internacional “ISO/IEC 13818-7” como
una extensión de MPEG-2: un estándar creado por MPEG (Moving Pictures Expert
Group). Debido a su excepcional rendimiento y la calidad, la codificación de audio
avanzada (AAC) se encuentra en el núcleo del MPEG-4, 3GPP y 3GPP2 de
especificaciones y es el códec de audio de elección por Internet, inalámbricas y de radio
fusión digital Arenas.
Este formato AAC ha sido elegido por Apple como formato principal para los
iPods y para su software iTunes . También es utilizado en otras aplicaciones como
Ahead Nero, Winamp, Nintendo DSi etc.
Características
El AAC utiliza una variable de la frecuencia de bits (I/BR), un método de
codificación que adapta el número de bits utilizados por segundo para codificar datos de
audio, en función de la complejidad de la transmisión de audio en un momento
determinado.
AAC es un algoritmo de codificación de banda ancha de audio que tiene un
rendimiento superior al del MP3, que produce una mejor calidad en archivos pequeños
y requiere menos recursos del sistema para codificar y descodificar.
Este códec está orientado a usos de banda ancha y se basa en la eliminación de
redundancias de la señal acústica, así como en compresión mediante la transformada de
coseno discreta modificada (MDCT), muy parecido como en el MP3.
No compatible con MPEG-1.
Frecuencia de muestreo: 24 kHz, 22.05 kHz, 16 kHz.
Máxima calidad entre 320 y 384 kbps (5 canales)
Tres opciones:
• Máxima calidad (resolución a 23.43 Hz y 2.6 ms)
• No predicción
• Frecuencias de muestreo escalables
Diagrama de bloques de un MPEG-2 AAC codificador
MPEG-1 Audio Layer 3, más conocido como MP3, es un formato de audio digital
comprimido con pérdida desarrollado por el Moving Picture Experts Group (MPEG)
para formar parte de la versión 1 (y posteriormente ampliado en la versión 2) del
formato de vídeo MPEG. El mp3 estándar es de 44 KHz y un bitrate de 128 kbps por la
relación de calidad/tamaño. Su nombre es el acrónimo de MPEG-1 Audio Layer 3 y el
término no se debe confundir con el de reproductor MP3.
Historia
Este formato fue desarrollado principalmente por Karlheinz Brandenburg, director
de tecnologías de medios electrónicos del Instituto Fraunhofer IIS, perteneciente al
Fraunhofer-Gesellschaft - red de centros de investigación alemanes - que junto con
Thomson Multimedia controla el grueso de las patentes relacionadas con el MP3. La
primera de ellas fue registrada en 1986 y varias más en 1991. Pero no fue hasta julio de
1995 cuando Brandenburg usó por primera vez la extensión .mp3 para los archivos
relacionados con el MP3 que guardaba en su ordenador. Un año después su instituto
ingresaba en concepto de patentes 1,2 millones de euros. Diez años más tarde esta
cantidad ha alcanzado los 26,1 millones.
El formato MP3 se convirtió en el estándar utilizado para streaming de audio y
compresión de audio de alta calidad (con pérdida en equipos de alta fidelidad) gracias a
la posibilidad de ajustar la calidad de la compresión, proporcional al tamaño por
segundo (bitrate), y por tanto el tamaño final del archivo, que podía llegar a ocupar 12 e
incluso 15 veces menos que el archivo original sin comprimir.
Fue el primer formato de compresión de audio popularizado gracias a Internet, ya
que hizo posible el intercambio de ficheros musicales. Los procesos judiciales contra
empresas como Napster y AudioGalaxy son resultado de la facilidad con que se
comparten este tipo de ficheros.
Tras el desarrollo de reproductores autónomos, portátiles o integrados en cadenas
musicales (estéreos), el formato MP3 llega más allá del mundo de la informática.
A principios de 2002 otros formatos de audio comprimido como Windows Media
Audio y Ogg Vorbis empiezan a ser masivamente incluidos en programas, sistemas
operativos y reproductores autónomos, lo que hizo prever que el MP3 fuera
paulatinamente cayendo en desuso, en favor de otros formatos, como los mencionados,
de mucha mejor calidad. Uno de los factores que influye en el declive del MP3 es que
tiene patente. Técnicamente no significa que su calidad sea inferior ni superior, pero
impide que la comunidad pueda seguir mejorándolo y puede obligar a pagar por la
utilización de algún códec, esto es lo que ocurre con los reproductores de MP3. Aun así,
a inicios del 2008, el formato mp3 continua siendo el más usado y el que goza de más
éxito.
Banco de filtros
El banco de filtros utilizado en esta capa es el llamado banco de filtros híbrido
polifase/MDCT. Se encarga de realizar el mapeado del dominio del tiempo al de la
frecuencia tanto para el codificador como para los filtros de reconstrucción del
decodificador. Las muestras de salida del banco están cuantiadas y proporcionan una
resolución en frecuencia variable, 6x32 o 18x32 subbandas, ajustándose mucho mejor a
las bandas críticas de las diferentes frecuencias. Usando 18 puntos, el número máximo
de componentes frecuenciales es: 32 x 18 = 576. Dando lugar a una resolución
frecuencial de: 24000/576 = 41,67 Hz (si fs = 48 Khz.). Si se usan 6 líneas de frecuencia
la resolución frecuencial es menor, pero la temporal es mayor, y se aplica en aquellas
zonas en las que se espera efectos de preeco (transiciones bruscas de silencio a altos
niveles energéticos).
La Capa III tiene tres modos de bloque de funcionamiento: dos modos donde las
32 salidas del banco de filtros pueden pasar a través de las ventanas y las transformadas
MDCT y un modo de bloque mixto donde las dos bandas de frecuencia más baja usan
bloques largos y las 30 bandas superiores usan bloques cortos. Para el caso concreto del
MPEG-1 Audio Layer 3 (que concretamente significa la tercera capa de audio para el
estándar MPEG-1) especifica cuatro tipos de ventanas: (a) NORMAL, (b) transición de
ventana larga a corta (START), (c) 3 ventanas cortas (SHORT), y (d) transición de
ventana corta a larga (STOP).
El modelo psicoacústico
La compresión se basa en la reducción del margen dinámico irrelevante, es decir,
en la incapacidad del sistema auditivo para detectar los errores de cuantificación en
condiciones de enmascaramiento. Este estándar divide la señal en bandas de frecuencia
que se aproximan a las bandas críticas, y luego cuantifica cada subbanda en función del
umbral de detección del ruido dentro de esa banda. El modelo psicoacústico es una
modificación del empleado en el esquema II, y utiliza un método denominado
predicción polinómica. Analiza la señal de audio y calcula la cantidad de ruido que se
puede introducir en función de la frecuencia, es decir, calcula la “cantidad de
enmascaramiento” o umbral de enmascaramiento en función de la frecuencia.
El codificador usa esta información para decidir la mejor manera de gastar los bits
disponibles. Este estándar provee dos modelos psicoacústicos de diferente complejidad:
el modelo I es menos complejo que el modelo psicoacústico II y simplifica mucho los
cálculos. Estudios demuestran que la distorsión generada es imperceptible para el oído
experimentado en un ambiente óptimo desde los 256 kbps y en condiciones normales.
Para el oído no experimentado, o común, con 128 kbps o hasta 96 kbps basta para que
se oiga "bien" (a menos que se posea un equipo de audio de alta calidad donde se nota
excesivamente la falta de graves y se destaca el sonido de "fritura" en los agudos). En
personas que escuchan mucha música o que tienen experiencia en la parte auditiva,
desde 192 o 256 kbps basta para oír bien. La música que circula por Internet, en su
mayoría, está codificada entre 128 y 192 kbps.
Codificación y cuantificación
La solución que propone este estándar en cuanto a la repartición de bits o ruido, se
hace en un ciclo de iteración que consiste de un ciclo interno y uno externo. Examina
tanto las muestras de salida del banco de filtros como el SMR (signal-to-mask ratio)
proporcionado por el modelo psicoacústico, y ajusta la asignación de bits o ruido, según
el esquema utilizado, para satisfacer simultáneamente los requisitos de tasa de bits y de
enmascaramiento. Dichos ciclos consisten en:
Ciclo interno
El ciclo interno realiza la cuantitación no-uniforme de acuerdo con el sistema de
punto flotante (cada valor espectral MDCT se eleva a la potencia 3/4). El ciclo escoge
un determinado intervalo de cuantitación y, a los datos cuantizados, se les aplica
codificación de Huffman en el siguiente bloque. El ciclo termina cuando los valores
cuantizados que han sido codificados con Huffman usan menor o igual número de bits
que la máxima cantidad de bits permitida.
Ciclo externo
Ahora el ciclo externo se encarga de verificar si el factor de escala para cada
subbanda tiene más distorsión de la permitida (ruido en la señal codificada),
comparando cada banda del factor de escala con los datos previamente calculados en el
análisis psicoacústico. El ciclo externo termina cuando una de las siguientes
condiciones se cumple:
• Ninguna de las bandas del factor de escala tiene mucho ruido.
• Si la siguiente iteración amplifica una de las bandas más de lo permitido.
• Todas las bandas han sido amplificadas al menos una vez.
Vorbis
Vorbis es un códec de audio libre de compresión con pérdida. Forma parte del
proyecto Ogg y entonces es llamado Ogg Vorbis y también sólo ogg por ser el códec
más comúnmente encontrado en el contenedor Ogg.
Introducción
Vorbis es un códec de audio perceptivo de fines generales previsto para permitir
flexibilidad máxima del codificador, permitiéndole escalar competitivamente sobre una
gama excepcionalmente amplia de bitrates. En la escala de nivel de calidad/bitrate (CD
audio o DAT-rate estéreo, 16/24 bits) se encuentra en la misma liga que MPEG-2 y
Musepack (MPC) y comparable con AAC en la mayoría de bitrates. Similarmente, el
codificador 1.0 puede codificar niveles de calidad desde CD audio y DAT-rate estéreo
hasta 48kbps sin bajar la frecuencia de muestreo. Vorbis también está pensado para
frecuencias de muestreo bajas desde telefonía de 8kHz y hasta alta definición de
192kHz, y una gama de representaciones de canales (monoaural, polifónico, estéreo,
cuadrafónico, 5.1, ambisónico o hasta 255 canales discretos).
Ogg Vorbis es totalmente abierto, libre de patentes y de regalías; la biblioteca de
referencia (libVorbis) se distribuye bajo una licencia tipo BSD por lo que cualquiera
puede implementarlo ya sea tanto para aplicaciones propietarias como libres.
Historia
Vorbis es el primer códec desarrollado como parte de los proyectos multimedia de
la Fundación Xiph.org. Comenzó inmediatamente después que Fraunhofer IIS
(creadores del MP3) enviaran una "carta de infracción" a varios proyectos pequeños que
desarrollan MPEG Audio Layer 3, mencionando que debido a las patentes que poseen
sobre el MP3 tienen el derecho de cobrar regalías por cualquier reproductor comercial,
todos los codificadores (ya sea vendidos o gratuitos) y también trabajos de arte vendidos
en formato MP3. Por este motivo fue creado el Ogg Vorbis y la Fundación Xiph.org:
para proteger la multimedia en Internet del control de intereses privados.
El formato del bitstream para Vorbis I fue congelado el 8 de Mayo de 2000; todos
los archivos creados desde esa fecha seguirán siendo compatibles con futuros
lanzamientos de Vorbis.
La versión 1.0 fue anunciada en Julio 2002, con una «Carta de anuncio de Ogg-
Vorbis 1.0» agradeciendo el apoyo recibido y explicando el porqué es necesario el
desarrollo de códecs libres.
Vorbis recibe este nombre de un personaje del libro Dioses menores de Terry
Pratchett.
Detalles técnicos
Vorbis utiliza la Transformada de coseno discreta modificada (MDCT).
Extensiones de Archivos
Los archivos RealAudio se identificaban originalmente por la extensión .ra (de
Real Audio). En 1997 RealNetworks empezó a ofrecer un formato de video llamado
RealVideo. La combinación de los formatos de audio y video se llamó RealMedia y usa
la extensión .rm. Sin embargo, la última versión de RealProducer, el codificador oficial
de RealNetworks, volvió a usar .ra para los archivos solo de audio, empezó a usar .rv
para archivos de video (con o sin audio) y .rmvb para archivos de video VBR.
Los formatos .ram (Real Audio Metadata) y .smil (Synchronized Multimedia
Integration Language) son a veces encontrados como links de páginas web.
TwinVQ
TwinVQ (Transform-domain Weighted Interleaved Vector Quantization) o más
popularmente conocido como VQF (extensión de un fichero TwinVQ) es una técnica
desarrollada por Nippon Telegram and Telephone Corporation (NTT Human Interface
Laboratories) y comercializada por Yamaha bajo en nombre de SoundVQ para
comprimir información de audio a muy bajas tasas de bit. Fue el primer competidor
directo al formato MP3 y su tecnología ha sido incorporada en el estándar MPEG-4
Audio aunque principalmente es usado en codificadores propietarios.
Características
El algoritmo de codificación en el que se basa es diferente del utilizado por los
archivos MP3 o WMA. Con VQF se utiliza un tipo de chip estándar para describir los
sonidos con ayuda de libros de claves precalculados. Esto posibilita la consecución de
un sonido atractivo con los archivos VQF (ratio de compresión 1:20) en comparación
con los archivos MP3 convencionales (ratio de compresión 1:12) que tienen una
velocidad de bits inferior. No obstante, esta importante ventaja se consigue a expensas
de la alta potencia del ordenador necesaria para la compresión.
Los archivos VQF de calidad similar son más pequeños que los archivos MP3
pero mayores que los mp3PRO. La codificación de un archivo VQF es muy lenta, del
orden de 3 veces mayor que con MP3 de máxima calidad. En el proceso de
descodificación se utiliza poca más potencia que en MP3 ya que fue diseñado para usar
la mínima potencia posible en el decodificado.
La calidad de sonido de VQF no es mejor o peor que la calidad de sonido de MP3
sino que difieren en los artifacts producidos por el proceso de compresión. Al codificar
música con TwinVQ se pierden algunos detalles y se suaviza el sonido.
Comparativamente, un archivo VQF a 96kbps parece ser más límpido que un archivo
MP3 a 128kbps, pero también menos detallado.
Por otra parte, el mismo archivo a 96kbps en VQF tiene un tamaño hasta 4 veces
menor que el mismo archivo MP3 de 256kbps, con un sonido la mayoría de veces muy
similar.
Otros dos problemas de VQF son el espaciado (el sonido está lejos comparado con
el original) y el pre-eco.
Funcionamiento
TwinVQ es un método de codificación como MP3, AAC o Dolby AC-3. Usa
algunas herramientas clásicas usadas también en MP3 (reserva de bitstream) o en AAC
(predicción interframe hacia atrás) pero la codificación de música es totalmente distinta.
Este método utiliza cuantificación vectorial: los bits de datos individuales no son
codificados directamente sino que se combinan en segmentos patrón (vectores). Estos
patrones son comparados con patrones estándar preparados previamente. El patrón
estándar que mejor se aproxima es seleccionado y el número asociado a él se transmite
como código de compresión.
Los datos son empaquetados en modo de cuadro largo o modo de cuadro corto (8
sub-cuadros) usando una tasa de bit constante para mejorar la robustez frente a errores.
La distorsión en la codificación se minimiza incluso para tasas de bits bajas, por
tanto la música y otros sonidos son regenerados con éxito y son muy fieles a los
originales.
Las limitaciones de este formato son: no usa VBR, máximo 2 canales, su lentitud
y los pocos soportes que tiene.
TwinVQ en MPEG-4
El estándar de audio ISO/IEC MPEG-4 incluye la herramienta de codificación
TwinVQ, basada en el esquema general de codificación de audio que está integrado en
la estructura de codificación AAC, un módulo de alisado espectral y un módulo
ponderado de cuantificación vectorial. En MPEG-4 para bitrates por debajo de los
16kbits/s se aplican técnicas de codificación tiempo-a-frecuencia (T/F) como TwinVQ y
AAC. En esta región las señales de audio tienen frecuencias de muestreo que empiezan
en 8kHz. El esquema adoptado tiene una ganancia de codificación muy alta para tasas
de bit bajas y es potencialmente robusto contra errores en el canal y/o pérdidas de
paquetes ya que no usa VLC ni asignación adaptativa de bits. Soporta escalabilidad en
la tasa de bits mediante codificación TwinVQ en capas en combinación com AAC
escalable.
Software
NNT no desarrolló un buen software para apoyar a su nuevo formato con lo que la
popularidad del formato VQF se extinguió casi por completo hacia el 1999.
SoundVQ
SoundVQ ha sido creado por Yamaha como una aplicación de uso personal
basado en la tecnología de compresión TwinVQ y es compatible con los archivos de
datos creados por el primer desarrollo (NTT) pero de configuración distinta a MPEG-4
TwinVQ. Este software es de distribución libre y actualmente se encuentra en fase beta.
Esta es entonces una herramienta de compresión con un nivel de compresión ue
puede variar entre 1/10 hasta 1/20 respecto al original sin pérdidas apreciables en la
calidad del sonido y que hace las veces de reproductor (descompresión del sonido en
recepción).
SoundVQ consiste en el codificador que convierte los datos RAW o WAV al
formato comprimido VQF y el reproductor que descomprime los datos y permite que
sean escuchados. En la compresión, el archivo VQF se puede proteger con password,
como medida contra la piratería.
Otros
WinAmp (el primer reproductor de MP3) lanzó al mercado un plugin para poder
escuchar VQF’s.
Existe otro reproductor de MP3 llamado K-jofol con capacidad también para
reproducir archivos en formato VQF.
Y otros productos comercializados que se basan en la tecnología TwinVQ pero
tienen configuraciones distintas al MPEG-4 TwinVQ, como Metasound (Voxware) i
SolidAudio (Hagiwara)
WMA
Windows Media Audio o WMA es un formato de compresión de audio con
pérdida, aunque recientemente se ha desarrollado de compresión sin pérdida, es
propiedad de Microsoft.
Compite con el MP3, antiguo y bastante inferior técnicamente; y Ogg-Vorbis,
superior y libre, usando como estrategia comercial la inclusión de soporte en el
reproductor Windows Media Player, incluido en su popular sistema operativo Windows.
Aunque el soporte de este formato se ha ampliado desde Windows Media Player y
ahora se encuentra disponible en varias aplicaciones y reproductores portátiles, el MP3
continua siendo el formato más popular y por ello más extendido.
A diferencia del MP3, este formato posee una infraestructura para proteger el
Copyright y así hacer más difícil el "tráfico ilegal" de música.
Este formato está especialmente relacionado con Windows Media Video (WMV)
y Advanced Streaming Format (ASF).
Audio Interchange File Format
Audio Interchange File Format (AIFF ó Formato de Archivo de Intercambio de
Audio) es un estándar de formato de audio usado para vender datos de sonido para
computadoras personales. El formato fue co-desarrollado por Apple Inc. en 1988 basado
en el IFF1 (Interchange File Format) de Electronic Arts, usado internacionalmente en las
computadoras Amiga y actualmente es muy utilizado en las computadoras Apple
Macintosh. AIFF también es el utilizado por Silicon Graphics Incorporated.
Los datos de audio en el estándar AIFF no están comprimidos, almacenándose los
datos en big-endian y emplea una modulación por impulsos codificados (PCM).
También hay una variante del estándar donde sí que existe compresión, conocida como
AIFF-C o AIFC, con varios códecs definidos.
El estándar AIFF es uno de los formatos líderes, junto a SDII y WAV, usados a
nivel profesional para aplicaciones de audio ya que, a diferencia del conocido formato
con pérdidas MP3, éste formato está comprimido sin ninguna pérdida, lo que ayuda a un
rápido procesado de la señal pero con la desventaja del gran espacio en disco que
supone: alrededor de 10MB para un minuto de audio estéreo con una frecuencia de
muestreo de 44.1kHz y 16 bits. Además el estándar da soporte a bucles para notas
musicales para uso de aplicaciones musicales o samplers.
Las extensiones de archivo para el formato estándar AIFF es .aiff o .aif. Para las
variantes comprimidas se supone que es .aifc, pero las anteriores también son aceptadas
por las aplicaciones que soportan este tipo de formato.
Subtipos AIFF
AIFF-C
Con el desarrollo del sistema operativo Mac OS X, Apple en segundo plano creó
un nuevo formato AIFF, alternativo, con ordenación little-endian. Casi no hay nada
documentado sobre el propósito de la nueva creación de este formato y la verdad es que
es algo que jamás ha sido discutido de forma explícita por Apple, tratándose por tanto
de un tema bastante oscuro. Actualmente Apple utiliza este nuevo little-endian AIFF
como su estándar en Mac OS X.
Debido a que la arquitectura AIFF no tiene provisión para otro tipo de ordenación
de los bytes, Apple usó la arquitectura de compresión AIFF-C, creando un códec de
pseudo-compresión llamado sowt. La extensión que se suele emplear es la .afc. La
única diferencia entre el estándar AIFF y el AIFF-C/sowt es la ordenación y no la
compresión empleada.
Cuando un archivo se importa o exporta desde iTunes, realmente es un AIFF-C.
Se comprime. Cuando el audio de un CD de audio se importa mediante el arrastre de sus
pistas el escritorio, el archivo resultante también es un AIFF-C. En todos los casos
Apple se refiere simplemente como AIFF además de resultar una extensión ".aiff".
Sobre si sowt sea, o no, un acrónimo, no parece ser documentado, pero se plantea
la posible proveniencia de la palabra inglesa twos, la designación para el formato twos-
complement. Para la mayoría de usuarios esto es tan imperceptible como irrelevante.
La calidad de sonido para un AIFF como para un AIFF-C es exactamente idéntica,
pudiéndose convertir de uno en otro sin ninguna pérdida, además ambos se pueden
reproducir en los Mac OS X, incluyéndose los nuevos basados en tecnología Intel.
A partir de Mac OS X 10.4.9 muchos programas sólo pueden exportar AIFF-C,
como por ejemplo, QuickTime Pro, y Digital Performer 5.11. Cuando se selecciona
formato AIFF, realmente se escribe como el anterior mencionado. Este no era el caso de
versiones anteriores a la 10.4.8 (inclusive).
Sin embargo, esto no ocurre con todos los programas, ya que, por ejemplo, iTunes
y Logic Express, siguen de forma adecuada exportando sus archivos en AIFF.
Este cambio presenta posibles problemas de compatibilidad entre los sistemas que
sólo utilizan AIFF, y archivos escritos en OS 10.4.9 como AIFF-C. Por ejemplo, el
disco duro Alesis HD24 puede trabajar con archivos AIFF, sin embargo con AIFF-C,
como los creados en el la versión 10.4.9 del Mac Os X, no son compatibles.
AIFF LPCM
En un principio se usó como un estado de formato inicial o medio, es decir, para
archivos maestro de audio captados en directo, capturados digitalmente o reformateados
desde fuentes analógicas.
Realmente es un archivo AIFF, pero usando una modulación PCM Linear.
Formato de datos
Un fichero AIFF se divide ciertas partes (chunks). Cada uno de ellos se identifica
como chunk ID muchas veces referido a un FourCC (código con el que se identifica
cada códec, generalmente de 4 caracteres en ASCII).
Los chunks en los AIFF son los siguientes:
Application Specific
Información específica a ciertas aplicaciones
Chunk
Free Lossless Audio Codec (FLAC) (Códec libre de compresión de audio sin
pérdida, en español) es un formato del proyecto Ogg para codificar audio sin pérdida de
calidad, es decir, el archivo inicial puede ser recompuesto totalmente con la desventaja
de que el archivo ocupe mucho más espacio del que se obtendría al aplicar compresión
con pérdida o Lossy.
Otros formatos como MPEG-1 Layer 3 (MP3), Windows Media Audio (WMA)
(excepto WMA Lossless), Advanced Audio Coding (AAC), Ogg Vorbis (OGG),
Adaptive Transform Acoustic Coding ATRAC, ADPCM, etc., al comprimir el archivo
pierden, de forma irreversible, parte de la información del original, a cambio de un gran
ahorro de tamaño en el archivo. FLAC no ahorra tanto tamaño de archivo, rara vez baja
de dejar el archivo en un tercio del tamaño original, ya que no elimina nada de la
información contenida en el original. Como norma se reduce entre la mitad hasta tres
cuartos según el tipo de sonido procesado.
El proyecto
El proyecto FLAC incluye:
Comparaciones
FLAC está diseñado para comprimir audio. Debido a ello, los archivos resultantes
son reproducibles y útiles, además de ser más pequeños que si se hubiera aplicado
directamente al archivo PCM un algoritmo de compresión genérico (como ZIP). Los
algoritmos con pérdida pueden comprimir a más de 1/10 del tamaño inicial, a costa de
descartar información; FLAC, en su lugar, usa la predicción lineal para convertir las
muestras en series de pequeños números no correlativos (conocido como "residuos"),
que se almacenan eficientemente usando la codificación Golomb-Rice (ver: "Reglas
Golombinas", o "Golombianas"). Además de esto, para aprovechar los silencios (donde
los valores numéricos presentan mucha repetición) usa codificación por "longitud de
pista" (RLE"Run-Length Encoding") para muestras idénticas.
Nota: RLE y RAE son conceptos provenientes de la lectura mecánica de los
registros, y se corresponden a las lecturas con "Velocidad Lineal Constante" (típicas de
las cintas magnetofónicas), y con "Velocidad Angular Constante" (característica de los
discos y gramófonos. En los lectores de CD, se puede seleccionar un método u otro de
reproducción, según los parámetros de grabación. El más común es CAV, pero el CLV
permite una mayor linealidad en el registro; aunque requiere el concurso de servos para
controlar la velocidad angular del rotor, según se acorta el radio de la pista.
FLAC se ha convertido en uno de los formatos preferidos para la venta de música
por Internet, al igual que Monkey's Audio que funciona idénticamente bien. Además es
usado en el intercambio de canciones por la red, como alternativa al MP3, cuando se
desea obtener una mayor reducción del tamaño que en un archivo WAV-PCM, y no
perder calidad de sonido. También es el formato ideal para realizar copias de seguridad
de CDs, ya que permite reproducir exactamente la información del original, y
recuperarla en caso de problemas con este material.
FLAC no soporta muestras en "coma flotante", sólo en "punto fijo". Admite
cualquier resolución PCM de 4 a 32 bits, y cualquier frecuencia de muestreo (sample
rate) desde 1 a 65535KHz, en incrementos de 1Hz.
Para una mayor compresión consiguiendo un mayor tiempo de codificación se
puede usar el siguiente comando
flac --lax -mep -b 8192 -l 32 -r 0,16 imput.wav -o output.flac
El fichero resultante puede no funcionar en reproductores normales, pero
funcionara en los decodificadores software. Para evitar esto debe usar el siguiente
comando:
flac -mep -b 8192 -l 32 -r 0,8 imput.wav -o output.flac
• WavPack
• ALAC
• FLAC
• Monkey's
• OptimFROG
• Shorten
Robustez
Códec Cod Decod Comp. Flexible Exp Tagging HW SW SO
error
Muy
Monkey's Rápido Mediano 55.5% No Sí ID3/APE Limitado Bueno Todos
Bueno
Alta
Híbrido/ Codigo Multi-
Streaming resoluci
C.Pérdidas Abierto canal
ón
Sí Sí Sí Sí Sí
Sí(descodi
No Sí Sí Sí
f)
No Sí Sí Sí Sí
No No Sí No Sí
Sí Sí No No Sí
No No Sí No No
-% Compresión cuánto menor es más comprime.
-Codificación y decod: velocidad requerida.
-HW y SW: soporte y compatibilidad en ambos campos(Hardware y Software)
-Exp: el contenido de la trama es explorable a nivel de muestra
Soporte Software
Codificación
Windows
o Easy Media Creator
o dBPowerAmp Music Converter(necessari plug-in).
o Flac Frontend.
o Easy CD-DA Extractor.
o MediaMonkey.
o OmniEncoder
o Easy CD-DA Extractor
o Nero Burning ROM con plugin externo
o Winamp ahora incluye soporte nativo para FLAC
o JetAudio
o VLC
o foobar2000 con plugin
o Burrn
Mac OS X
o Toast Titanium
o xACT.
o [1].
Linux
o Ffmpeg
o VLC
o GnomeBaker
o Serpentine
o K3b
Decodificación
Linux
o Audacious
o Ffmpeg
o Audacity
o Mplayer
o VLC
o Songbird.
o Banshee.
o Xine.
o XMMS.
o GnomeBaker.
o Totem.
o MediaPlayerDaemon(mpd).
o Amarok
o Rhythmbox.
Mac OS X
o Flac-Importer
o Cog.
o Play.
o xACT
o MacFLAC.
Windows
o Windows Media Player
o foobar2000.
o Quintessential Player.
o Renoise.
o Traktor 3.
o Winamp.
o AIMP
o The KMPlayer
o ALTools-based ALSong
Ripeo
Windows
o BonkEnc usando la API de FLAC.dll
o CDex u
o DBpowerAMP con códec oficial
o Exact Audio Copy
o foobar2000
o MediaMonkey
o MP3 Stream Editor
o Winamp
o PlexTools
Mac OS X
o Max — 10.4
Linux
o ABCDE
o Cdda2wav
o Cdparanoia
o Mencoder
o GNOME
Grip
RipOff
Sound Juicer
o KDE
KAudioCreator
Konqueror
K3b
Soporte Hardware
• Ipod
• Hermstedt Hifidelio
• iAudio.
• Olive media servers (Symphony, Música, Opus)
• Rio Karma.
• Squeezebox.
• Sonos
• Meizu M6.
• Pixel Magic Systems' HD Mediabox (con un firmware superior a la versión
1.3.4)
• Embedded Waveplayer
• Teclast T29
• Trekstor Vibez.
• gemei x-750
Waveform Audio Format
WAV (o WAVE), apócope de WAVEform audio format, es un formato de audio
digital normalmente sin compresión de datos desarrollado y propiedad de Microsoft y
de IBM que se utiliza para almacenar sonidos en el PC, admite archivos mono y estéreo
a diversas resoluciones y velocidades de muestreo, su extensión es .wav.
Es una variante del formato RIFF (Resource Interchange File Format, formato de
fichero para intercambio de recursos), método para almacenamiento en "paquetes", y
relativamente parecido al IFF y al formato AIFF usado por Macintosh. El formato toma
en cuenta algunas peculiaridades de la CPU Intel, y es el formato principal usado por
Windows.
A pesar de que el formato WAV puede soportar casi cualquier códec de audio, se
utiliza principalmente con el formato PCM (no comprimido) y al no tener pérdida de
calidad puede ser usado por profesionales, para tener calidad disco compacto se necesita
que el sonido se grabe a 44100 Hz y a 16 bits, por cada minuto de grabación de sonido
se consumen unos 10 megabytes de disco duro. Una de sus grandes limitaciones es que
solo se puede grabar un archivo de hasta 4 gigabytes, que equivale aproximadamente a
6,6 horas en calidad disco compacto. Es una limitación propia del formato,
independientemente de que el sistema operativo donde se utilice sea MS Windows u
otro distinto, y se debe a que en la cabecera del fichero se indica la longitud del mismo
con un número entero de 32 bit, lo que limita el tamaño del fichero a 4 GB.
En Internet no es popular, fundamentalmente porque los archivos sin compresión
son muy grandes. Son más frecuentes los formatos comprimidos con pérdida, como el
MP3 o el Ogg Vorbis. Como éstos son más pequeños la transferencia a través de
Internet es mucho más rápida. Además existen códecs de compresión sin pérdida más
eficaces como Apple Lossless o FLAC.
MIDI
MIDI son las siglas de Musical Instrument Digital Interface (Interfaz Digital de
Instrumentos Musicales). Se trata de un protocolo industrial estándar que permite a las
computadoras, sintetizadores, secuenciadores, controladores y otros dispositivos
musicales electrónicos comunicarse y compartir información para la generación de
sonidos.
Esta información define diversos tipos de datos como números que pueden
corresponder a notas particulares, números de patches de sintetizadores o valores de
controladores. Gracias a esta simplicidad, los datos pueden ser interpretados de diversas
maneras y utilizados con fines diferentes a la música. El protocolo incluye
especificaciones complementarias de hardware y software.
Historia
El repentino inicio de los sintetizadores analógicos en la música popular de los
años 1970 llevó a los músicos a exigir más prestaciones de sus instrumentos.
Interconectar sintetizadores analógicos es relativamente fácil ya que éstos pueden
controlarse a través de osciladores de voltaje variable.
La aparición del sintetizador digital a finales de la misma década trajo consigo el
problema de la incompatibilidad de los sistemas que usaba cada compañía fabricante.
De este modo se hacía necesario crear un lenguaje común por encima de los parámetros
que cada marca iba generando a lo largo del desarrollo de los distintos instrumentos
electrónicos puestos a disposición de los profesionales del sector.
El estándar MIDI fue inicialmente propuesto en un documento dirigido a la Audio
Engineering Society por Dave Smith, presidente de la compañía Sequential Circuits en
1981. La primera especificación MIDI se publicó en agosto de 1983.
Cabe aclarar que MIDI no transmite señales de audio, sino datos de eventos y
mensajes controladores que se pueden interpretar de manera arbitraria, de acuerdo con
la programación del dispositivo que los recibe. Es decir, MIDI es una especie de
"partitura" que contiene las instrucciones en valores numéricos (0-127) sobre cuándo
generar cada nota de sonido y las características que debe tener; el aparato al que se
envíe dicha partitura la transformará en música completamente audible.
En la actualidad la gran mayoría de los creadores musicales utilizan el lenguaje
MIDI a fin de llevar a cabo la edición de partituras y la instrumentación previa a la
grabación con instrumentos reales. Sin embargo, la perfección adquirida por los
sintetizadores en la actualidad lleva a la utilización de forma directa en las grabaciones
de los sonidos resultantes del envío de la partitura electrónica a dichos sintetizadores de
última generación.
Hardware
Buena parte de los dispositivos MIDI son capaces de enviar y recibir información,
pero desempeñan un papel diferente dependiendo de si están recibiendo o enviando
información, también depende de la configuración del programa o programas que se
puede usar dicho dispositivo. El que envía los mensajes de activación se denomina
Maestro (del inglés master, o ‘amo’) y el que responde a esa información Esclavo
(slave).
Aparatos
Los aparatos MIDI se pueden clasificar en tres grandes categorías:
Éstos son los tres grandes tipos de aparatos MIDI. Aun así, podemos encontrar en
el mercado aparatos que reúnen dos o tres de las funciones descritas. Por ejemplo, los
órganos electrónicos disponen de un controlador (el propio teclado) y una unidad
generadora de sonido; algunos modelos también incluyen un secuenciador.
Cables y conectores
Un cable MIDI utiliza un conector del tipo DIN de 5 pines o contactos. La
transmisión de datos sólo usa uno de éstos, el número 5. Los números 1 y 3 se
reservaron para añadir funciones en un futuro. Los restantes (2 y 4) se utilizan -
respectivamente- como blindaje y para transmitir una tensión de +5 voltios, para
asegurarse que la electricidad fluya en la dirección deseada. La finalidad del cable MIDI
es la de permitir la transmisión de los datos entre dos dispositivos o instrumentos
electrónicos. En la actualidad, los fabricantes de equipos económicos y por ello, muy
populares, de empresas tales como Casio, Korg y Roland han previsto la sustitución de
los cables y conectores MIDI estándar, por los del tipo USB que son más fáciles de
hallar en el comercio y que permiten una fácil conexión a las computadoras personales.
Conexiones
El sistema de funcionamiento MIDI es de tipo simplex, es decir, sólo puede
transmitir señales en un sentido. La dirección que toman las señales es siempre desde un
dispositivo 'maestro' hacia un dispositivo 'esclavo'. El primero genera la información y
el segundo la recibe.
Para entender bien el sistema de conexión, debemos saber que en un aparato MIDI
puede haber hasta tres conectores:
• MIDI OUT: conector del cual salen los mensajes generados por el
dispositivo maestro.
• MIDI IN: sirve para introducir mensajes al dispositivo esclavo.
• MIDI THRU: también es un conector de salida, pero en este caso se envía
una copia exacta de los mensajes que entran por MIDI IN.
Software
La especificación MIDI incluye un aspecto de software que parte de la misma
organización de los bytes.
Bytes MIDI
El byte MIDI, a diferencia de los bytes estándar de ocho bits de las computadoras,
está compuesto por diez bits que se envían/reciben a una velocidad de 31250
bits/segundo con una tolerancia de +/- 1% según el estándar. El primero es el bit de
inicio (start bit, que siempre es 0) y el último el bit de terminación (stop bit que siempre
es 1). Esto con el fin de que los dispositivos MIDI puedan llevar la cuenta de cuantos
bytes se han enviado o recibido. Los ocho bits restantes contienen los mensajes MIDI.
Existen dos tipos de bytes: De estado -status byte- y de información -data byte-.
Se diferencian por el primer bit: si es un 1, tenemos un byte de estado, y si es un 0, es
un byte de datos. Al generar un mensaje MIDI, por norma general, siempre enviamos un
byte de estado, que puede estar seguido de cierta cantidad de bytes de datos. Por
ejemplo, podemos enviar un primer mensaje de estado "activar nota", seguido de un
byte de datos informado qué nota es la que se activa. En algunas ocasiones y según el
dispositivo midi que se trate, puede ocurrir que se omita el byte status si es idéntico al
anterior. Por ejemplo, si tocamos la tecla do de un piano mandaría:
1001xxxx (note on)
Pero al soltarla, puede omitir el byte status y apagarla por volumen (otra
posibilidad es que usase el 1000xxxx (note off) para apagarla).Es decir
transmitiría sólo los dos siguientes bytes:
00000000 (la velocidad cero, que indica que tiene que dejar de sonar esa
nota)
1110cccc Pitch
11110100 Indefinido
11110101 Indefinido
11111001 Indefinido
11111010 Inicio
11111011 Continuación
11111100 Parada
11111101 Indefinido
Los primeros bytes, cuyos últimos cuatro bits están marcados como "cccc", se refieren a
mensajes de canal; el resto de bytes son mensajes de sistema.
Antes de explicar más detalladamente las características de algunos de los mensajes,
conviene conocer dos importantes características de MIDI: los canales y los modos.
Canales MIDI
Como se comentó con anterioridad, MIDI está pensado para comunicar un único
controlador con varias unidades generadoras de sonido (cada una de las cuales puede
tener uno o varios instrumentos sintetizados que deseemos utilizar), todo por un mismo
medio de transmisión. Es decir, todos los aparatos conectados a la cadena MIDI reciben
todos los mensajes generados desde el controlador. Ello hace necesario un método para
diferenciar cada uno de los instrumentos. Este método es el denominado canal.
MIDI puede direccionar hasta 16 canales (también llamados voces, o
instrumentos); por ello, al instalar el sistema MIDI será necesario asignar un número de
canal para cada dispositivo.
Instrumentos MIDI
Estos son los 128 instrumentos de la especificación estándar de MIDI, también
conocidos como GM o "General Midi"
Modos MIDI
Dentro del sistema MIDI, se decidió crear una serie de diferentes modos de
funcionamiento, cada uno con ciertas características. Antes de verlo, debemos
diferenciar entre los siguientes conceptos:
Una vez aclarado este aspecto, podemos resumir los modos MIDI en la siguiente
tabla:
Tabla 2. Modos de funcionamiento MIDI
Los dos primeros modos se denominan "Omni on". Esto se debe a que en esos
modos la información de canal está desactivada. Esas configuraciones se reservan para
configuraciones donde sólo utilicemos un instrumento. Los otros dos modos, "Omni
off", sí admiten la información de canal.
Mensajes de canal
Channel o Canal; es el mensaje más común. Existen siete tipo de mensajes
channel: - Note on - Note off - Pitch-Bend - Program change - Aftertouch - Polyphonic
Aftertouch - Control change
Secuenciador
Un secuenciador es un dispositivo que permite realizar grabaciones de datos MIDI
paso a paso donde quedan almacenados la altura MIDI (0-127) duración la nota, la
velocidad (análoga a la intensidad con valores de 0 a 127)el tipo de instrumentos (patch)
y efectos. Todo esto se combina para formar el corpus de datos a emitir. Estos datos
pueden ser utilizados para piezas de música, así como para el control de consolas de
luces, consolas de audio o cualquier equipamiento que interprete el protocolo MIDI y
pueda usar éste para fines particulares.
JPEG
El estándar JPEG
"JPEG" significa "Joint Photographic Experts Group", nombre de la comisión que
creó la norma, la cual fue integrada desde sus inicios por la fusión de varias
agrupaciones en un intento de compartir y desarrollar su experiencia en la digitalización
de imágenes. La ISO, tres años antes (abril de 1983), había iniciado sus investigaciones
en el área. Además de ser un método de compresión, es a menudo considerado como un
formato de archivo. JPEG/Exif es el formato de imagen más común utilizado por las
cámaras fotográficas digitales y otros dispositivos de captura de imagen, junto con
JPEG/JFIF, que también es otro formato para el almacenamiento y la transmisión de
imágenes fotográficas en la World Wide Web. JPEG/JFIF es el formato más utilizado
para almacenar y transmitir archivos de fotos en Internet. Estas variaciones de formatos
a menudo no se distinguen, y se llaman JPEG.
Submuestreo
Cuantificación
Como ya habíamos comentado, el ojo humano es muy bueno detectando pequeños
cambios de brillo en áreas relativamente grandes, pero no cuando el brillo cambia
rápidamente en pequeñas áreas (variación de alta frecuencia), esto permite eliminar las
altas frecuencias, sin perder excesiva calidad visual. Esto se realiza dividiendo cada
componente en el dominio de la frecuencia por una constante para ese componente, y
redondeándolo a su número entero más cercano. Este es el proceso en el que se pierde la
mayor parte de la información (y calidad) cuando una imagen es procesada por este
algoritmo. El resultado de esto es que los componentes de las altas frecuencias, tienden
a igualarse a cero, mientras que muchos de los demás, se convierten en números
positivos y negativos pequeños.
Una matriz de cuantificación típica es la matriz de Losheller que se usa
opcionalmente en el estándar JPEG:
Codificación entrópica
La codificación entrópica es una forma especial de la compresión sin pérdida de
datos. Para ello se cogen los elementos de la matriz siguiendo una forma de zig-zag,
poniendo grupos con frecuencias similares juntos, e insertando ceros de codificación, y
usando la codificación Huffman para lo que queda. También se puede usar la
codificación aritmética, superior a la de Huffman, pero que rara vez se usa, ya que está
cubierta por patentes, esta compresión produce archivos un 5% menores, pero a costa de
un mayor tiempo de codificación y decodificación, esta pequeña ganancia, puede
emplearse también en aplicar un menor grado de compresión a la imagen, y obtener más
calidad para un tamaño parecido.
En la matriz anterior, la secuencia en zig-zag, es esta:
−26, −3, 0, −3, −2, −6, 2, −4, 1 −4, 1, 1, 5, 1, 2, −1, 1, −1, 2, 0, 0, 0, 0, 0, −1, −1,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0
JPEG tiene un código Huffman para cortar la cadena anterior en el punto en el que
el resto de coeficientes sean ceros, y así, ahorrar espacio:
−26, −3, 0, −3, −2, −6, 2, −4, 1 −4, 1, 1, 5, 1, 2, −1, 1, −1, 2, 0, 0, 0, 0, 0, −1, −1,
EOB
Decodificación
El proceso es similar al seguido hasta ahora, sólo que de forma inversa. En este
caso, al haber perdido información, los valores no coincidirán.
Se coge la información de la matriz, se decodifica, y se pone cada valor en su
casilla correspondiente. Después se multiplica cada uno de estos valores por el valor
correspondiente de la matriz de cuantización usada, como muchos valores son ceros,
sólo se recuperan (y de forma aproximada) los valores de la esquina superior izquierda.
Después se deshace la transformación DCT:
Tras la compresión, suelen quedar a veces bloques como estos, en este caso en un
trozo de una imagen ampliado.
Para comparar las diferencias entre el bloque original y el comprimido, se halla la
diferencia entre ambas matrices, la media de sus valores absolutos, da una ligera idea de
la calidad perdida:
Se puede observar que las mayores diferencias están cerca de la mancha, y por la
parte inferior, entre la esquina izquierda y el centro, notándose más esta última, ya que
corre una mancha clara que antes estaba más hacia la esquina. La media de los valores
absolutos de las restas es 4.8125, aunque en algunas zonas es mayor.
GIF (Compuserve GIF)
Es un formato gráfico utilizado ampliamente en la World Wide Web, tanto para
imágenes como para animaciones.
El formato fue creado por CompuServe en 1987 para dotar de un formato de
imagen a color para sus áreas de descarga de ficheros, sustituyendo su temprano
formato RLE en blanco y negro. GIF llegó a ser muy popular porque podía usar el
algoritmo de compresión LZW (Lempel Ziv Welch) para realizar la compresión de la
imagen, que era más eficiente que el algoritmo Run-Lenght Encoding (RLE) usado por
los formatos PCX y MacPaint. Por lo tanto, imágenes de gran tamaño podían ser
descargadas en un razonable periodo de tiempo, incluso con modems muy lentos.
GIF es un formato sin pérdida de calidad para imágenes con hasta 256 colores,
limitados por una paleta restringida a este número de colores. Por ese motivo, con
imágenes con más de 256 colores (profundidad de color superior a 8), la imagen debe
adaptarse reduciendo sus colores, produciendo la consecuente pérdida de calidad.
Características
Una imagen GIF puede contener entre 2 y 256 colores (2, 4, 8, 16, 32, 64, 128 ó
256) entre 16,8 millones de su paleta. Por lo tanto, dado que la paleta tiene un número
de colores limitado (no limitado en cuanto a colores diferentes), las imágenes que se
obtenían con este formato por lo general eran muy pequeñas.
Sin embargo, dado que el algoritmo de compresión LZW estaba patentado, todos
los editores de software que usaban imágenes GIF debían pagarle regalías a Unisys, la
compañía propietaria de los derechos. Esta es una de las razones por las que el formato
PNG se está volviendo cada vez más popular, en perjuicio del formato GIF.
Patentes
Unisys, propietario de la patente del algoritmo LZW que se utiliza en el formato
GIF reclamó durante años el pago de regalías por su uso. Compuserve, al desarrollar el
formato, no sabía que el algoritmo LZW estaba cubierto por una patente. Debido a esto,
cualquier programa capaz de abrir o guardar archivos GIF comprimidos con LZW debía
cumplir con sus exigencias. Esto hace que su uso sea desaconsejado por el W3C, y
perjudicial para el software libre y no libre (lo limitaba económicamente). Es necesario
recalcar que el formato GIF puede utilizar otros métodos de compresión no cubiertos
por patentes, como el método Run-length encoding.
El 20 de junio de 2003 expiró en Estados Unidos la patente por el algoritmo LZW.
Portable Network Graphics (PNG)
Una imagen PNG con un canal alfa de 8 bits (arriba). La misma imagen montada
Historia y desarrollo
Las motivaciones para crear el formato PNG se generaron en 1995, después de
que Unisys anunciara que haría cumplir la patente de software del algoritmo de
compresión de datos LZW utilizado por el GIF (patente de EE.UU. 4.558.302 y otras
alrededor del globo). Había otros problemas con el formato GIF que hacían deseable un
cambio, por ejemplo su limitación a paletas de 8 bits de 256 colores como máximo,
cuando los ordenadores ya soportaban miles o millones de colores.
Originalmente PNG era un acrónimo recursivo que significaba PNG no es GIF
(PNG's Not GIF).
Aunque el GIF soporta animación, el PNG se desarrolló como un formato de
imagen estático y se creó el formato MNG como su variante animada.
El PNG ganó mayor popularidad en agosto de 1999 cuando Unisys puso fin a su
política de licencias de patente libres de derechos para los desarrolladores de software
libre o no comercial.
• Especificación de la versión 1.0 de PNG fue lanzada el 1 de julio de 1996
y después apareció como RFC 2083. Rápidamente se convirtió en una
recomendación W3C el 1 de octubre de 1996
• Versión 1.1 con algunos pequeños cambios y con 3 nuevas extensiones o
"chunks" fue liberada el 31 de diciembre de 1998
• Versión 1.2. Nueva extensión. Liberada el 11 de agosto de 1999
• Nueva versión, ligeramente diferente de la anterior y con una nueva
extensión. Actualmente PNG es un estándar internacional (ISO/IEC
15948:2003), también recomendado por la W3C el 10 de noviembre de 2003.
• El estandard a partir de 2004 es (ISO/IEC 15948:2004)
Detalles técnicos
Cabecera del archivo
Un archivo PNG empieza con una firma de 8 bytes, los valores en hexadecimal
son: 89 50 4E 47 0D 0A 1A 0A; cada valor esta ahí por una razón específica.
Byte(s) Propósito
Tiene el bit más alto puesto a 1 para detectar sistemas de transmisión que no
89 soportan datos de 8 bits y para reducir el riesgo de que un fichero de texto sea
erróneamente interpretado como PNG.
En ASCII, las letras "PNG" permitiendo que una persona identifique el formato en
50 4E 47
caso de verlo en un editor de texto.
Una nueva línea con estilo DOS (CRLF) para detectar las conversiones de final de línea
0D 0A
entre DOS y UNIX.
Un byte que detiene el despliegue del fichero bajo DOS cuando se ha usado el
1A
comando TYPE.
Una nueva línea en UNIX (LF) para detectar la conversión de final de línea entre DOS
0A
y UNIX.
Secciones esenciales
Un decodificador debe ser capaz de entender estas secciones para leer y renderizar
un PNG:
Secciones de metadatos
Otros atributos que pueden ser guardados en una imagen PNG son: valores de
gamma, color del fondo e información textual. PNG también soporta corrección de
color con el uso de sistemas de manejo del color como sRGB.
Profundidad de color
Las imágenes en formato PNG pueden ser imágenes de paleta indexada o estar
formadas por uno o varios canales. Si existe más de un canal, todos los canales tienen el
mismo número de bits por pixel (también llamado profundidad de bits por canal).
Aunque en la especificación oficial del PNG se nombre la profundidad de bits por canal,
normalmente los programas de edición nombran sólo la cantidad total de bits por pixel,
es decir, la profundidad de color.
El número de canales depende de si la imagen es en escala de grises o en color y si
dispone de canal alfa (también llamado canal de transparencia). Las combinaciones
permitidas por PNG son:
Por otra parte, las imágenes indexadas disponen de un tope de 256 colores como
máximo. Esta paleta de colores está almacenada con una profundidad de canal de 8 bits.
La paleta no puede tener más colores que los marcados por la profundidad de bits, es
decir 28=256 colores, aunque sí puede tener menos (por ejemplo, una imagen de 50
colores sólo almacenará 50 entradas, evitando almacenar datos que no son utilizados).
Transparencia en la imagen
PNG ofrece una gran variedad de opciones de transparencia. Con color verdadero
o escala de grises, incluso un solo píxel puede ser declarado transparente o puede
añadirse un canal alfa. Para imágenes que usan paletas se puede añadir un canal alfa en
las entradas de la paleta. El número de dichos valores almacenados puede ser menor que
el total de entradas en la paleta, de modo que el resto de las entradas se considerarán
completamente opacas.
La búsqueda de pixels con transparencia binaria debe hacerse antes de cualquier
reducción de color para evitar que algunos pixels se conviertan en transparentes
accidentalmente.
Compresión
El método de compresión utilizado por el PNG es conocido como deflación (en
inglés "Deflate algorithm"). También existen métodos de filtrado. En la especificación
1.2 se define un único tipo de filtro, que incluye 5 modos de predicción del valor del
pixel, que resulta muy útil para mejorar la compresión, donde se elige para cada línea de
la imagen (scanline) un método de filtrado que predice el color de cada píxel basándose
en los colores de los píxeles previos y resta al color del píxel actual, el color
pronosticado. Los cinco métodos son: None, Sub, Up, Average y Paeth.
Estos filtros pueden reducir notablemente el tamaño final del archivo, aunque
depende en gran medida de la imagen de entrada. El algoritmo de compresión puede
encargarse de la adecuada elección del método que mayor reducción ofrezca.
El tipo de media MIME para PNG es "image/png" (aprobado el 14 de octubre de
1996)
Animación
PNG no ofrece animación. MNG es un formato de imagen que soporta animación
y está basado en las ideas y en algunas secciones de PNG, pero es un sistema complejo
y no permite el visionado de una sola imagen cosa que si hace GIF. APNG es otro
formato basado en PNG que soporta animación y es más sencillo que MNG. APNG
soporta el visionado de una sola imagen en caso de que el decodificador no entienda
este formato. En todo caso ninguno de estos formatos es ampliamente usado.
Problemas de color
Algunas versiones de algunos navegadores presentan los valores de corrección
gamma incluso cuando no están especificados en el PNG. Navegadores conocidos con
problemas de visualización de PNG:
• Internet Explorer 5.5 y 6.
• Netscape 7.0 a 7.2.
• Opera (versiones anteriores a la 7.50).
El efecto final es que el color mostrado en el PNG no coincide con el esquema de
color del resto de la página web. Una forma sencilla de evitar esto es volviendo a
codificar el PNG truncando ciertos atributos. Algunas utilidades para tal fin:
• PNGOUT es una utilidad gratuita de DOS que utiliza un algoritmo
exclusivo para recomprimir un PNG y reducir el tamaño del fichero al mínimo,
sin pérdidas.
• Superpng, es un plugin gratuito para Photoshop que permite la
optimización de ficheros PNG.
Windows bitmap (BMP)
Windows bitmap
Extensión de .bmp or .dib
archivo
Tipo de MIME image/x-ms-bmp (no
oficial)
Desarrollado por Microsoft
Tipo de formato Gráfico rasterizado
Windows bitmap (.BMP) es el formato propio del programa Microsoft Paint, que
viene con el sistema operativo Windows. Puede guardar imágenes de 24 bits (16,7
millones de colores), 8 bits (256 colores) y menos. Puede darse a estos archivos una
compresión sin pérdida de calidad: la compresión RLE (Run-length encoding).
Los archivos con extensión .BMP, en los sistemas operativos Windows,
representan la sigla BitMaP (o también Bit Mapped Picture), o sea mapa de bits. Los
archivos de mapas de bits se componen de direcciones asociadas a códigos de color, uno
para cada cuadro en una matriz de pixeles tal como se esquematizaría un dibujo de
"colorea los cuadros" para niños pequeños. Normalmente, se caracterizan por ser muy
poco eficientes en su uso de espacio en disco, pero pueden mostrar un buen nivel de
calidad. A diferencia de los gráficos vectoriales, al ser reescalados a un tamaño mayor,
pierden calidad. Otra desventaja de los archivos BMP es que no son utilizables en
páginas web debido a su gran tamaño en relación a su resolución.
Dependiendo de la profundidad de color que tenga la imagen cada pixel puede
ocupar 1 o varios bytes. Generalmente se suelen transformar en otros formatos, como
JPEG (fotografías), GIF o PNG (dibujos y esquemas), los cuales utilizan otros
algoritmos para conseguir una mayor compresión (menor tamaño del archivo).
Los archivos comienzan (cabecera o header) con las letras 'BM' (0x42 0x4D), que
lo identifica con el programa de visualización o edición. En la cabecera también se
indica el tamaño de la imagen y con cuántos bytes se representa el color de cada pixel.
A continuación se detalla la estructura de la cabecera de un fichero .BMP
Bytes Información
0, 1 Tipo de fichero "BM"
2, 3, 4, 5 Tamaño del archivo
6, 7 Reservado
8, 9 Reservado
10, 11, 12, 13 Inicio de los datos de la imagen
14, 15, 16, 17 Tamaño de la cabecera del bitmap
18, 19, 20, 21 Anchura (píxels)
22, 23, 24, 25 Altura (píxels)
26, 27 Número de planos
28, 29 Tamaño de cada punto
30, 31, 32, 33 Compresión (0=no comprimido)
34, 35, 36, 37 Tamaño de la imagen
38, 39, 40, 41 Resolución horizontal
42, 43, 44, 45 Resolución vertical
46, 47, 48, 49 Tamaño de la tabla de color
50, 51, 52, 53 Contador de colores importantes
El Bitmap de una imagen .BMP comienza a leerse desde abajo a arriba, es decir:
en una imagen en 24 bits los primeros 3 bytes corresponden al primer píxel inferior
izquierdo.
TIFF
TIFF (Tagged Image File Format) es un formato de fichero para imágenes.
La denominación en inglés "Tagged Image File Format" (formato de archivo de
imágenes con etiquetas) se debe a que los ficheros TIFF contienen, además de los datos
de la imagen propiamente dicha, "etiquetas" en las que se archiva información sobre las
características de la imagen, que sirve para su tratamiento posterior.
Etiquetas
Estas etiquetas describen el formato de las imágenes almacenadas, que pueden ser
de distinta naturaleza:
• Binarias (blanco y negro), adecuadas para textos, por ejemplo.
• Niveles de gris, adecuadas para imágenes de tonos continuos como fotos
en blanco y negro.
• Paleta de colores, adecuadas para almacenar diseños gráficos con un
número limitado de colores.
• Color real, adecuadas para almacenar imágenes de tono continuo, como
fotos en color.
Compresión
Las etiquetas también describen el tipo de compresión aplicado a cada imagen,
que puede ser:
• Sin compresión
• PackBits
• Huffman modificado, el mismo que las imágenes de fax (UIT grupo III y
IV anteriormente CCITT).
• LZW, el mismo que usa el formato GIF.
• JPEG
Almacenamiento
Hay también etiquetas que especifican el formato interno de almacenamiento de la
imagen: completas, por bandas o por secciones rectangulares, lo cual permite a muchas
aplicaciones optimizar los tiempos de carga o leer únicamente la zona de interés de una
imagen grande.
Un aspecto muy práctico del formato TIFF es que permite almacenar más de una
imagen en el mismo archivo.
Un mito que ha de desterrarse es la idea de que el formato TIFF no permite
comprimir las imágenes. No obstante, algunas cámaras fotográficas digitales ofrecen la
opción de grabar fotos en el formato TIFF, lo cual suele entenderse como sin
compresión.
El formato TIFF admite opcionalmente el sistema de compresión sin pérdida de
calidad, el conocido como LZW (Lempel-Ziv-Welch).
Creadores y Dueños
El formato TIFF fue desarrollado por la desaparecida Aldus y Microsoft, y es
actualmente propiedad de Adobe Systems. La última revisión del formato es la número
6, del año 1992. Hay algunas extensiones, como las anotaciones que utiliza el Imaging
de Microsoft, pero ninguna puede considerarse estándar.
Otras Aplicaciones
El uso de las etiquetas permite también crear extensiones para finalidades de
sectores concretos, como el GeoTIFF, utilizado con fines cartográficos.
TARGA (TGA)
El formato TGA (TrueVision Targa) es un formato gráfico de mapa de bits
desarrollado por la empresa Truevision para las tarjetas Targa y Vista, válido para PC y
MAC, que permite guardar imágenes monocromáticas (2 bits) y con diferentes niveles
de profundidad de color (8, 16, 24 y 32 bits), utilizando o no una paleta gráfica. Puede
trabajar en Escala Grises, Color Indexado, RGB (16 y 24 bits sin canales alfa) y RGB
de 32 bits (un solo canal alfa).
Información de la imagen
La imagen esta formada por luz y color; la luz define la imagen en blanco y negro
(es la información que se utiliza en sistemas de blanco y negro) y a esta parte de la señal
de video se le llama luminancia.
Existen estándares diferentes para la codificación del color, NTSC (utilizado en
casi toda América, dependencias estadounidenses, Corea, Japón y Myanmar), SECAM
(Francia, sus dependencias y ex colonias; mayoría de Rusia) y PAL (resto de Europa;
Argentina, Brasil, Groenlandia y Uruguay en América; mayoría de África, Asia y
Oceanía).
Sincronismos
En lo referente a los sincronismos se distinguen tres clases, de línea u
horizontales, de campo o verticales y los referentes al color.
Los sincronismos de línea indican donde comienza y acaba cada línea de las que
se compone la imagen de video; se dividen en, pórtico anterior, pórtico posterior y pulso
de sincronismo.
Los sincronismos verticales son los que nos indican el comiezo y el final de cada
campo. Están compuestos por los pulsos de igualación anterior, pulsos de sincronismo,
pulsos de igualación posterior y líneas de guarda (donde en la actualidad se inserta el
teletexto y otros servicios).
Descripción de videos
Entrelazado
El video puede ser entrelazado o progresivo. El entrelazado fue inventado como
un método de lograr una buena calidad visual dentro de las limitaciones de un estrecho
ancho de banda. Las líneas entrelazadas de cada imagen están numeradas
consecutivamente y divididas en dos campos: el campo impar (campo superior), que
consiste en las líneas de los números impares y el campo pares (casilla inferior), que
consiste en las líneas de los números pares. NTSC, PAL y SECAM son formatos
entrelazados. Las especificaciones abreviadas de la resolución de video a menudo
incluyen una "i" para indicar entrelazado. Por ejemplo, el formato de video PAL es a
menudo especificado como 576i50, donde 576 indica la línea vertical de resolución, "i"
indica entrelazado, y el 50 indica 50 campos (la mitad de imágenes) por segundo.
En los sistemas de barrido progresivo, en cada período de refresco se actualizan
todas las líneas de exploración. El resultado es una mayor percepción de la resolución y
la falta de varios artefactos que pueden formar parte de una imagen estacionaria
aparentemente en movimiento o que parpadea. Un procedimiento conocido como
desentrelazado puede ser utilizado para transformar el flujo entrelazado, como el
analógico, el de DVD, o satélite, para ser procesado por los dispositivos de barrido
progresivo, como el que se establece en los televisores TFT, los proyectores y los
paneles de plasma. El desentrelazado no puede, sin embargo, producir una calidad de
video equivalente al material de barrido progresivo real.
Resolución de video
Comparación de resoluciones de TV
El tamaño de una imagen de video se mide en píxeles para video digital, o en
líneas de barrido horizontal y vertical para video analógico. En el dominio digital, (por
ejemplo DVD) la televisión de definición estándar (SDTV) se especifica como
720/704/640 × 480i60 para NTSC y 768/720 × 576i50 para resolución PAL o SECAM.
Sin embargo, en el dominio analógico, el número de líneas activas de barrido sigue
siendo constante (486 NTSC/576 PAL), mientras que el número de líneas horizontal
varía de acuerdo con la medición de la calidad de la señal: aproximadamente 320
píxeles por línea para calidad VCR, 400 píxeles para las emisiones de televisión, y 720
píxeles para DVD. Se conserva la relación de aspecto por falta de píxeles "cuadrados".
Los nuevos televisores de alta definición (HDTV) son capaces de resoluciones de
hasta 1920 × 1080p60, es decir, 1920 píxeles por línea de barrido por 1080 líneas, a 60
fotogramas por segundo. La resolución de video en 3D para video se mide en voxels
(elementos de volumen de imagen, que representan un valor en el espacio
tridimensional). Por ejemplo, 512 × 512 × 512 voxels, de resolución, se utilizan ahora
para video 3D simple, que pueden ser mostrados incluso en algunas PDA.
Relación de aspecto
Calidad de video
La calidad de video se puede medir con métricas formales como PSNR o
subjetivas con calidad de video usando la observación de expertos. La calidad de video
subjetiva de un sistema de procesamiento de video puede ser evaluada como sigue:
• Elige las secuencias de video (el SRC) a usar para la realización del test.
• Elige los ajustes del sistema a evaluar (el HRC).
• Elige un método de prueba para presentar las secuencias de video a los
expertos y recopilar su valoración.
• Invita a un número suficiente de expertos, preferiblemente un número no
menor de 15.
• Realiza las pruebas.
• Calcula la media para cada HRC basándote en la valoración de los
expertos.
Hay muchos métodos de calidad de video subjetiva descritos en la recomendación
BT.500. de la ITU-T. Uno de los métodos estandarizados es el Double Stimulus
Impairment Scale (DSIS). En este método, cada experto ve una referencia intacta del
video seguida de una versión dañada del mismo video. El experto valora entonces el
video dañado utilizando una escala que va desde “los daños son imperceptibles” hasta
“los daños son muy molestos”.
Método de compresión de video (sólo digital)
Se usa una amplia variedad de métodos para comprimir secuencias de video. Los
datos de video contienen redundancia temporal y espacial, lo que hace que las
secuencias de video sin comprimir sean extremadamente ineficientes. En términos
generales, se reduce la redundancia espacial registrando diferencias entre las partes de
una misma imagen (frame); esta tarea es conocida como compresión intraframe y está
estrechamente relacionada con la compresión de imágenes. Así mismo, la redundancia
temporal puede ser reducida registrando diferencias entre imágenes (frames); esta tarea
es conocida como compresión interframe e incluye la compensación de movimiento y
otras técnicas. Los estándares modernos más comunes son MPEG-2, usado para el DVD
y la televisión por satélite, y MPEG-4 usado para los sistemas de video “caseros”.
Estereoscópico
El video estereoscópico requiere o bien dos canales (un canal derecho para el ojo
derecho y un canal izquierdo para el izquierdo) o dos capas recubiertas codificadas por
colores. Esta técnica de capa izquierda y derecha se usa ocasionalmente en redes de
difusión o en recientes lanzamientos “anaglyph” de películas 3D en DVD. Unos
cristales de plástico rojo/cyan proporcionan la forma de ver las imágenes discretamente
para formar una vista estereoscópica del contenido. Los nuevos discos HD DVD y blu-
ray mejorarán en gran medida el efecto 3D en los programas estéreo codificados por
colores. Los primeros reproductores HD disponibles comercialmente se esperaba que
debutaran en el NAB Show de abril del 2006 en Las Vegas.
Formatos de video
MPEG-1
MPEG-4
MPEG-4, introducido a finales de 1998, es el nombre de un grupo de estándares
de codificación de audio y video así como su tecnología relacionada normalizada por el
grupo MPEG (Moving Picture Experts Group) de ISO/IEC. Los usos principales del
estándar MPEG-4 son los flujos de medios audiovisuales, la distribución en CD, la
transmisión bidireccional por videófono y emisión de televisión.
MPEG-4 toma muchas de las características de MPEG-1 y MPEG-2 así como de
otros estándares relacionados, tales como soporte de VRML (Virtual Reality Modeling
Language) extendido para Visualización 3D, archivos compuestos en orientación a
objetos (incluyendo objetos audio, vídeo y VRML), soporte para la gestión de Derechos
Digitales externos y variados tipos de interactividad.
La mayoría de las características que conforman el estándar MPEG-4 no tienen
que estar disponibles en todas las implementaciones, al punto que es posible que no
existan implementaciones completas del estándar MPEG-4. Para manejar esta variedad,
el estándar incluye el concepto de perfil (profile) y nivel, lo que permite definir
conjuntos específicos de capacidades que pueden ser implementados para cumplir con
objetivos particulares.
Partes de MPEG-4
MPEG-4 está formado por varios estándares, llamados "partes", que incluyen:
• Parte 1 (ISO/IEC 14496-1): Sistemas: Describe la sincronización y la
transmisión simultánea de audio y vídeo.
• Parte 2 (ISO/IEC 14496-2): Visual: Un códec de compresión para
elementos visuales (video, texturas, imágenes sintéticas, etc.). Uno de los
muchos perfiles definidos en la Parte 2 es el Advanced Simple Profile (ASP).
• Parte 3 (ISO/IEC 14496-3): Audio: Un conjunto de códecs de
compresión para la codificación de flujos de audio; incluyen variantes de
Advanced Audio Coding (AAC) así como herramientas de codificación de audio
y habla.
• Parte 4 (ISO/IEC 14496-4): Conformidad: Describe procedimientos para
verificar la conformidad de otras partes del estándar.
• Parte 5 (ISO/IEC 14496-5): Software de referencia: Formado por
elementos de software que demuestran y clarifican las otras partes del estándar.
• Parte 6 (ISO/IEC 14496-6): Delivery Multimedia Integration Framework
(DMIF).
• Parte 7 (ISO/IEC 14496-7): Software optimizado de referencia: Contiene
ejemplos sobre como realizar implementaciones optimizadas (por ejemplo, en
relación con la Parte 5).
• Parte 8 (ISO/IEC 14496-8): Transporte sobre redes IP: Especifica un
método para transportar contenido MPEG-4 sobre redes IP.
• Parte 9 (ISO/IEC 14496-9): Hardware de referencia: Provee diseños de
hardware que demuestran implementaciones de otras partes del estándar.
• Parte 10 (ISO/IEC 14496-10): Advanced Video Coding (AVC): Un
códec de señales de vídeo técnicamente idéntico al estándar ITU-T H.264.
• Parte 12 (ISO/IEC 14496-12): Formato para medios audiovisuales
basado en ISO: Un formato de archivos para almacenar contenido multimedia.
• Parte 13 (ISO/IEC 14496-13): Extensiones para el manejo y protección
de Propiedad Intelectual (IPMP).
• Parte 14 (ISO/IEC 14496-14): Formato de archivo MPEG-4: El formato
de archivo de contenedor designado para contenidos MPEG-4; basado en la
Parte 12.
• Parte 15 (ISO/IEC 14496-15): Formato de archivo AVC: Para el
almacenamiento de vídeo Parte 10, basado en la Parte 12.
• Parte 16 (ISO/IEC 14496-16): Animation Framework eXtension (AFX).
• Parte 17 (ISO/IEC 14496-17): Formato de subtítulos (en elaboración - el
último avance en su revisión data de enero de 2005).
• Parte 18 (ISO/IEC 14496-18): Compresión y transmisión como flujo de
fuentes tipográficas (para fuentes OpenType).
• Parte 19 (ISO/IEC 14496-19): Flujos de texturas sintetizadas.
• Parte 20 (ISO/IEC 14496-20): Representación liviana de escenas
(LASeR).
• Parte 21 (ISO/IEC 14496-21): Extensión de MPEG-J para rendering (en
elaboración - el último avance en su revisión data de enero de 2005).
También es posible definir perfiles a nivel de las partes, dado que una
implementación de una parte no necesariamente contiene toda esa parte.
MPEG-2
No se debe confundir con MPEG-1 Audio Capa 2
Moving Pictures Experts Group 2 (MPEG-2), es la designación para un grupo
de estándares de codificación de audio y vídeo acordado por MPEG (grupo de expertos
en imágenes en movimiento), y publicados como estándar ISO 13818. MPEG-2 es por
lo general usado para codificar audio y vídeo para señales de transmisión, que incluyen
televisión digital terrestre, por satélite o cable. MPEG-2. Con algunas modificaciones,
es también el formato de codificación usado por los discos SVCD´s y DVD`s
comerciales de películas.
MPEG-2 es similar a MPEG-1, pero también proporciona soporte para vídeo
entrelazado (el formato utilizado por las televisiones.) MPEG-2 vídeo no está
optimizado para bajas tasas de bits (menores que 1 Mbit/s), pero supera en desempeño a
MPEG-1 a 3 Mbit/s y superiores.
MPEG-2 introduce y define Flujos de Transporte, los cuales son diseñados para
transportar vídeo y audio digital a través de medios impredecibles e inestables, y son
utilizados en transmisiones televisivas. Con algunas mejoras, MPEG-2 es también el
estándar actual de las transmisiones en HDTV. Un descodificador que cumple con el
estándar MPEG-2 deberá ser capaz de reproducir MPEG-1.
MPEG-2 audio, definido en la Parte 3 del estándar, mejora a MPEG-1 audio al
alojar la codificación de programas de audio con más de dos canales. La parte 3 del
estándar admite que sea hecho retro-compatible, permitiendo que descodificadores
MPEG-1 audio puedan descodificar la componente estéreo de los dos canales maestros,
o en una manera no retro-compatible, la cual permite a los codificadores hacer un mejor
uso del ancho de banda disponible. MPEG-2 soporta varios formatos de audio,
incluyendo MPEG-2 AAC.
El Estándar MPEG-2
Información general acerca de MPEG-2 Video y MPEG-2 Audio excluyendo las
modificaciones cuando es usado en DVD / DVB.
Un Flujo de Sistema MPEG-2 típico consta de dos elementos:
video data + time stamps audio data + time stamps
MPEG-2 En SVCD
Restricciones adicionales y modificaciones de MPEG-2 en SVCD:
• Resolución
o 480 x 480 píxeles NTSC (USA, Japón)
o 480 x 576 píxeles PAL (Europa)
• Relación de aspecto
o 4:3
• Tasa de fotogramas
o 59.94 campos/s, 29.97 fotogramas/s (NTSC)
o 50 campos/s, 25 fotogramas/s (PAL) )
• Tasa de bits de audio + vídeo
o Pico 2.52 Mbit/s
o Mínimo 300 Kbit/s
o YUV 4:2:0
• Audio
o MPEG-1 capa 2 (MP2): 44.1KHz, 224 Kbit/s, Estéreo
• Estructura GOP
o Debe salir secuencia de Encabezado para cada GOP
o No hay límite máximo de GOP
MPEG-2 En DVD
Restricciones adicionales y modificaciones de MPEG-2 en DVD:
Resolución de Video:
• NTSC (USA, Japón) Pixels
o 720 x 480
o 704 x 480
o 352 x 480
o 352 x 240
• PAL (Europa) Pixels
o 720 x 576
o 704 x 576
o 352 x 576
o 352 x 288
• Relación de aspecto
o 4:3
o 16:9
• Tasa de fotogramas
o 59.94 campos/s
o 50 campos/s
o 23.976 fotogramas/s (con banderas de 3:2)
o 29.97 fotogramas/s (NTSC)
o 25 fotogramas/s (PAL)
• Audio:
o Linear Pulse Code Modulation(Código de Pulsos Modulado
Lineal = LPCM): 48KHz o 96KHz, 16 bit, 2 canales(Estéreo)
o MPEG-1 Capa 2 (MP2): 48KHz, hasta 7.1 canales (requerido en
reproductores PAL)
o Dolby Digital (DD): 48KHz, 448 kbit/s, hasta 5.1 canales
o Digital Theater Systems (Sistema de Teatro Digital = DTS): 754
kbit/s o 1510 kbit/s (no requerido para cumplir con el reproductor)
o Debe haber al menos una pista de audio que no sea DTS (ni MP2
para NTSC)
• Tasa de bits de audio + vídeo:
o Buffer máximo promedio de 9.8 Mbit/s
o Pico 15 Mbit/s
o Mínimo 300 Kbit/s
o YUV 4:2:0
• Posibilidad de subtítulos opcionales
o Closed captioning (solo en NTSC)
• Estructura GOP
o Debe salir secuencia de Encabezado para cada GOP
o 18 marcos máximos por GOP
o Closed GOP requerido para DVDs multi ángulo
MPEG-2 en DVB
Restricciones y modificaciones adicionales para DVB-MPEG.
Restringido a una de las siguientes resoluciones:
• 720 × 480 píxel, 24/1.001, 24, 30/1.001 o 30 fotogramas/s
• 640 × 480 píxel, 24/1.001, 24, 30/1.001 o 30 fotogramas/s
• 544 × 480 píxel, 24/1.001, 24, 30/1.001 o 30 fotogramas/s
• 480 × 480 píxel, 24/1.001, 24, 30/1.001 o 30 fotogramas/s
• 352 × 480 píxel, 24/1.001, 24, 30/1.001 o 30 fotogramas/s
• 352 × 240 píxel, 24/1.001, 24, 30/1.001 o 30 fotograma/ss
• 720 × 576 píxel, 25 fotogramas/s
• 544 × 576 píxel, 25 fotogramas/s
• 480 × 576 píxel, 25 fotogramas/s
• 352 × 576 píxel, 25 fotogramas/s
• 352 × 288 píxel, 25 fotogramas/s
• 352 × 576 píxel, 25 fotogramas/s
• 352 × 288 píxel, 25 fotogramas/s
MPEG-2 en ATSC y ISDB-T
Restringido a una de las siguientes resoluciones
• 1920 × 1080 píxeles, hasta 60 campos/s (1080i)
• 1280 × 720 píxeles, hasta 60 cuadros/s (720p)
• 720 × 576 píxeles, hasta 50 campos/s, 25 fotogramas/s (576i, 576p)
• 720 × 480 píxeles, hasta 60 campos/s, 30 fotogramas/s (480i, 480p)
• 640 × 480 píxeles, hasta 60 fotogramas/s
Nota: 1080i está codificado con cuadros de 1920×1088 píxeles, sin embargo las
últimas 8 líneas se descartan antes de ser mostradas.
Standards MPEG-2
• ISO/IEC 13818-1 Sistema - describe sincronización y multiplexado de
vídeo y audio.
• ISO/IEC 13818-2 Video - Códec(codificador/decodificador) compresor
para señales de vídeo entrelazado y no entrelazado.
• ISO/IEC 13818-3 Audio - Códec(codificador/decodificador) compresor
de señales de audio. Una extension habilitada multicanal de MPEG-1 audio
(MP3).
• ISO/IEC 13818-4 Describe maniobras de prueba de cumplimiento(del
estándar).
• ISO/IEC 13818-5 Describe sistemas para simulación por Software.
• ISO/IEC 13818-6 Describe extensiones para DSM-CC (Comando Digital
de herramientas de almacenamiento y control)
• ISO/IEC 13818-7 codificación avanzada de audio. (AAC)
• ISO/IEC 13818-9 Extension para interfaces en tiempo real.
• ISO/IEC 13818-10 conformidad con extensiones para DSM-CC.
Retenedores de patente
Aproximadamente 640 patentes mundiales conforman la propiedad intelectual
completa que rodea a MPEG-2, éstas están retenidas por alrededor de 20 corporaciones
y una universidad:
• Alcatel
• Canon, Inc.
• Columbia University
• France Télécom (CNET)
• Fujitsu
• General Electric Capital Corporation
• General Instrument Corp.
• GE Technology Development, Inc.
• Hitachi, Ltd.
• KDDI Corporation (KDDI)
• Lucent Technologies
• LG Electronics Inc.
• Matsushita
• Mitsubishi
• Nippon Telegraph and Telephone Corporation (NTT)
• Philips
• Robert Bosch GmbH
• Samsung
• Sanyo Electric Co. Ltd.
• Scientific Atlanta (hoy parte de Cisco Systems)
• Sharp
• Sony
• Thomson Licensing S.A.
• Toshiba
• Victor Company of Japan, Limited (JVC)
Reproductor de Windows Media
Características
•Modo de máscara, que permite utilizar pieles o máscaras (del inglés
skins) para cambiar la apariencia del programa.
• Permite incrustarse en la barra de tareas de Windows, mostrando los
botones de reproducción más comunes. Las ventanas pueden exhibir
información, visualización o el vídeo.
• Compatibilidad con la versión más reciente de DirectX.
• Soporte para todo tipo de codecs usando filtros específicos de DirectX.
• Ecualizador gráfico de 10 bandas.
• Compatibilidad con Efectos SRS WOW
• Uso de plug-ins que procesan la salida audio o vídeo.
• URGE - Tienda musical propiedad Microsoft y MTV networks
integrados (disponible solo en algunos países).
Versiones
Sistemas
Versión Fecha Comentarios
operativos
25 de junio
6.1 Windows
de 1998
abril de
1.2 Palm-size PC
2000
julio de
1.0 Handheld PC
2000
17 de julio
6.3 Mac OS, Solaris
de 2000
17 de
Windows
7.0 julio de
98/2000
2000
12 de
7.0 diciembre Pocket PC
de 2000
24 de julio
7.0.1 Mac OS
de 2001
8 de enero
7.1 Mac OS
de 2002
Pocket PC 2002,
junio de
8.0 Smartphone
2002
2002
27 de enero Windows
9.0
de 2003 98/Me/2000
Windows
23 de junio Mobile 2003
9.0
de 2003 (Pocket PC,
Smartphone)
7 de
9.0 noviembre Mac OS X
de 2003
Windows
9 de mayo Mobile 5.0 Distribuida junto con el sistema
10.0
de 2005 (Pocket PC, operativo .
Smartphone)
8 de
Windows XP, Distribuida junto con el sistema
11.0 noviembre
Windows Vista operativo (Windows Vista).
de 2006
En desarrollo
12.0 para Windows Distribuido con el sistema
13 de marzo
(Beta 1, RC u XP, Windows operativo en desarrollo Windows
de 2008
otras) Vista, Windows 7.
7
Windows Media Player 9.x puede ser instalado en Windows 98 SE, Windows
2000, Windows ME, así como en cualquier versión de Windows XP. Sin embargo, para
instalar Windows Media Player 10 y superiores es necesario tener instalado Windows
XP.
La versión para Mac OS X ha perdido el soporte oficial recientemente al igual que
muchos otros productos de Microsoft.
Polémica
La Unión Europea ha luchado burocráticamente por medio de multas y
negociaciones para que se separe esta aplicación de la instalación básica de Microsoft
Windows, ya que al ir en conjunto perjudica el mercado de reproductores multimedia
para dicho sistema operativo.
Por ese motivo se han lanzado dos nuevas versiones de Windows Vista, Windows
Vista Home N y Windows Vista Business N tal y como sucedió con Windows XP.
Enlaces externos
• Reproductor de Windows Media, página oficial del Windows Media
Player, versión 10.
• Sitio web oficial de Windows Media Player 11.
AVI
Cómo funciona
El formato avi permite almacenar simultáneamente un flujo de datos de video y
varios flujos de audio. El formato concreto de estos flujos no es objeto del formato AVI
y es interpretado por un programa externo denominado códec. Es decir, el audio y el
video contenidos en el AVI pueden estar en cualquier formato (AC3/DivX, u
MP3/Xvid, entre otros). Por eso se le considera un formato contenedor.
Para que todos los flujos puedan ser reproducidos simultáneamente es necesario
que se almacenen de manera entrelazada. De esta manera, cada fragmento de archivo
tiene suficiente información como para reproducir unos pocos fotogramas junto con el
sonido correspondiente.
Obsérvese que el formato AVI admite varios flujos de datos de audio, lo que en la
práctica significa que puede contener varias bandas sonoras en varios idiomas. Es el
reproductor multimedia quien decide cuál de estos flujos debe ser reproducido, según
las preferencias del usuario.
Los archivos AVI se dividen en fragmentos bien diferenciados denominados
chunks. Cada chunk tiene asociado un identificador denominado etiqueta FourCC. El
primer fragmento se denomina cabecera y su papel es describir meta-información
respecto al archivo, por ejemplo, las dimensiones de la imagen y la velocidad en
fotogramas por segundo. El segundo chunk contiene los flujos entrelazados de audio y
video. Opcionalmente, puede existir un tercer chunk que actúa a modo de índice para el
resto de chunks.
Icono de QuickTime
QuickTime es la arquitectura multimedia estándar desarrollada por Apple que
consiste en un conjunto de bibliotecas y un reproductor multimedia (QuickTime player).
En su versión 7 es compatible con el estándar MPEG-4. Existe una versión Pro que
añade diversas funcionalidades como la edición de vídeo y codificación a variados
formatos como AVI, MOV, MP4. Con la versión Pro, también es posible grabar audio
con un micrófono conectado al ordenador. En los Mac, aparte de grabar audio, es
posible grabar vídeo. (esto puede ser posible con cámaras como la iSight)
QuickTime no es sólo un reproductor, sino un sistema multimedia completo capaz
de reproducir, y en casos transmitir, contenidos de alta calidad en Internet y otros
dispositivos, además de todo Quicktime es llamado "navaja suiza de edición de vídeo",
por ello Apple ha decidido incorporar las nuevas tecnologías MPEG-4 de vídeo de alta
definición, además de todo esto Apple anunció la salida de un nuevo códec llamado
H.264 o conocido también como AVC (Advanced Video Coding) o Codificación de
Vídeo Avanzada que permite contenidos muy nítidos superiores al estándar de DVD,
DivX y otros formatos de alta calidad.
A fecha de 2007 se encuentra disponible para los sistemas operativos Windows y
Mac OS X. Muchas distribuciones GNU/Linux pueden usar QuickTime mediante
programas escritos originalmente para ellas como Mplayer.
Historia
La primera versión de QuickTime fue lanzada el 2 de diciembre de 1991 com un
complemento multimedia para el System Software 6. El desarrollador jefe de
Quicktime, Bruce Leak, llevo a cabo la primera demostración pública en mayo de 1991
Worldwide Developers Conference. Microsoft reacciono con Video for Windows que
fue publicada en noviembre de 1992
Formatos soportados
• Audio
o Apple Lossless 1 y 2
o Audio Interchange (AIFF)
o Audio CD (CDA)
o Interfaz de instrumentos musicales MIDI
o MPEG-1 Layer 3 Audio (.mp3)
o MPEG-4 AAC Audio (.m4a,.m4b,.m4p)
o QDesign Music
o Qualcomm PureVoice (QCELP)
o Sun AU Audio
o ULAW/ALAW Audio
o (WAV)
o (Advanced Audio Coding) ^AAC
• Video
o 3GPP & 3GPP2
o Video AVI
o DV video (DV NTSC/PAL and DVC Pro NTSC/PAL codecs)
o Flash y FlashPix (animaciones web)
o GIF y GIF animados
o H.261, H.263, y H.264 codecs
o JPEG, Photo JPEG, y JPEG-2000 codecs
o MPEG-1, MPEG-2, y MPEG-4
o Quartz Composer Composition (solo Mac OS X )
o QuickTime Movie (.mov)
o video mac: Apple Video, Cinepak, Component Video, Graphics,
y Planar RGB
Windows
OS Ultima versión
Windows 3.1x/Windows NT 3.1-3.5 2.1.2
Windows NT 3.51 2.1.2
Windows 95 5.0.5
Windows NT 4.0 6.1
Windows 98/ME 6.5.2
Windows 2000 7.1.6
Windows XP/2003/Vista 7.4.1 (6 feb 2008)
3GP
3GP (3rd Generation Partnership, en español Asociación de Tercera
Generación), es un contenedor multimedia (o formato de archivos) usado por teléfonos
móviles para almacenar información de multimedios (audio y video). Este formato de
archivo es una versión simplificada del "ISO 14496-1 Media Format", que es similar al
formato de Quicktime. 3GP guarda video como MPEG-4 o H.263. El audio es
almacenado en los formatos AMR-NB o AAC-LC.
Este formato guarda los valores como big-endian.
Las especificaciones abarcan las redes GSM, incluyendo a las capacidades GPRS
y EDGE, y W-CDMA.
Software
Reproducción
• MPlayer
• VLC media player ( reproduce el sonido, según el codec de audio
utilizado, por ejemplo el mp4a si que lo reproduce pero SAMR en Linux no)
• Totem
• Media Player Classic
• The KMPlayer
• QuickTime
• Realplayer
• GOM Player
•
Codificación/Decodificación
• MEncoder
• FFmpeg
Códec
Códec es una abreviatura de Compresor-Decompresor. Describe una
especificación desarrollada en software, hardware o una combinación de ambos, capaz
de transformar un archivo con un flujo de datos (stream) o una señal. Los códecs pueden
codificar el flujo o la señal (a menudo para la transmisión, el almacenaje o el cifrado) y
recuperarlo o descifrarlo del mismo modo para la reproducción o la manipulación en un
formato más apropiado para estas operaciones. Los códecs son usados a menudo en
videoconferencias y emisiones de medios de comunicación.
La mayor parte de códecs provoca pérdidas de información para conseguir un
tamaño lo más pequeño posible del archivo destino. Hay también codecs sin pérdidas
(lossless), pero en la mayor parte de aplicaciones prácticas, para un aumento casi
imperceptible de la calidad no merece la pena un aumento considerable del tamaño de
los datos. La excepción es si los datos sufrirán otros tratamientos en el futuro. En este
caso, una codificación repetida con pérdidas a la larga dañaría demasiado la calidad.
Muchos archivos multimedia contienen tanto datos de audio como de vídeo, y a
menudo alguna referencia que permite la sincronización del audio y el vídeo. Cada uno
de estos tres flujos de datos puede ser manejado con programas, procesos, o hardware
diferentes; pero para que estos streams sean útiles para almacenarlos o transmitirlos,
deben ser encapsulados juntos. Esta función es realizada por un formato de archivo de
vídeo (contenedor), como.mpg,.avi,.mov,.mp4,.rm,.ogg,.mkv o.tta. Algunos de estos
formatos están limitados a contener streams que se reducen a un pequeño juego de
codecs, mientras otros son usados para objetivos más generales.
Un endec es un concepto similar (pero no idéntico) para el hardware.
Sin Compresión: aunque no es muy normal usar vídeo sin comprimir, es de los
que pueden ofrecernos la máxima calidad posible, ya que no sufre ninguna alteración.
Su gran problema: el peso excesivo de los archivos.
DV: si tienes una cámara MiniDV y capturas vídeo mediante el firewire, verás
que debes hacerlo con su propio codec que es el DV, una vez terminada la captura ya
puedes comprimirlo como quieras. Dos horas de video DV con calidad similar a la del
DVD, ronda cerca de los 15Gbytes de disco duro, destacar que este codec solo
comprime el vídeo, el audio lo trata sin comprimir.
MPEG: el formato MPEG (Moving Picture Experts Group) es un estándar para
compresión de vídeo y de audio. Al ser creado se establecieron cuatro tipos: MPEG-1,
MPEG-2, MPEG-3, y MPEG-4. Cada uno de ellos según su calidad y ancho de banda
usado. De aquí nace el popular formato MP3 para audio.
Principalmente, ofrece tres ventajas: compatibilidad mundial, gran compresión y poca
degradación de la imagen. El estándar no especifica cómo se debe hacer la compresión.
Los diferentes fabricantes luchan para determinar el mejor algoritmo, manteniendo
siempre la compatibilidad. Además, una cadena MPEG se compone de tres capas:
audio, video y una capa a nivel de sistema. Esta última incluye información sobre
sincronización, tiempo, calidad, etc.