Professional Documents
Culture Documents
documentos
Palabras clave:
SGED
Digitalizacin de imagen
CCD Imagen
CMOS
Resolucin de imagen
Velocidad de exploracin Profundidad de imagen
gen
Tamao de imagen
Imagen inversa Cdigos Huffman
CCITT
nfasis de bordes
Relleno de huecos
Supresin de ruido
Formato de imagen
PMT
Im
BMP Escner
TIFF Escner plano
GIF Escner de rodillo
JPEG Escner areo
JFIF Escner de film
PHOTO CD
Escner de tambor
Manual de digitalizacin
NDICE
1. Introduccin
2. Parmetros de la imagen digital
2.1. Resolucin
2.2. Dimensiones de la imagen
2.3. Profundidad de bits
2.4. Rango dinmico
2.5. Tamao de archivo
2.6. Compresin
2.7. Formatos del archivo
3. Sistemas de Gestin Electrnica de Documentos
4. Digitalizacin de documentos
4.1. Proceso de digitalizacin
4.2. Cmo funciona el escner?
4.3. Tipos de escner
4.4. Interfaz escner computador
4.5. Parmetros de escner
4.6. Funcionalidades adicionales del escner en SGED
5. Externalizacin de la digitalizacin de documentos
5.1. Externalizacin
5.2. Produccin propia
6. Bibliografa
Manual de digitalizacin
Introduccin
Un computador solo es capaz de manejar formatos digitales de informacin. La informacin puede estar codificada
originalmente (cdigos ASCII, EBCDIC, etc), o ser de tipo analgica (documento original), que deberemos convertir en una
representacin digital que permita ser procesada por un Sistema de Gestin Electrnica de Documentos (SGED).
Las imgenes digitales son fotos electrnicas tomadas de una escena o escaneadas de documentos - manuscritos, textos
impresos, ilustraciones, fotografas, etc. -. Se realiza una muestra de la imagen y se confecciona un mapa en forma de
cuadrcula de puntos elementales (pxeles). A cada pxel se le asigna un valor tonal (negro, blanco, gris, color) el cual
est representado por un cdigo binario (ceros y unos). Estos dgitos binarios (bits) para cada pxel, son almacen
dos en una secuencia y con frecuencia reducidos a una representacin matemtica (compresin). Luego el computador
interpreta esta secuencia de bits para reproducir una versin analgica para su visualizacin o impresin.
Este pequeo manual trata de describir los parmetros a considerar de una imagen digital, de las compresiones y
los formatos de archivo ms utilizados, y de los perifricos de captura (con detalle de tipos, interfaz, parmetros y
funcionalidades) que permiten conseguir la digitalizacin de imgenes en los SGED.
Resolucin
La resolucin es la frecuencia espacial a la cual se realiza la muestra de una imagen digital. La medida de la resolucin se
determina por el nmero de pxeles ledos en una distancia lineal de una pulgada (2,54 cm) en el documento digitalizado.
Las unidades mas utilizadas son puntos por pulgada - ppp - (dots per inch - dpi -), o pxeles por pulgada - ppp - (pixels
per inch - ppi -). Las resoluciones de digitalizacin de documentos estn normalmente en el rango de 50 a 600 ppp.
Las resoluciones de escaneado ms frecuentemente utilizadas en documentos blanco y negro en SGED son 200, 300 y 400
ppp. En la digitalizacin de imgenes color de alta calidad, son tpicas resoluciones de 1.200 a 2.400 ppp.
En la Figura 2 se muestra una ilustracin a resoluciones de 100, 200 y 300 ppp. Las mejoras en las imgenes de mayor
resolucin son apreciables.
Manual de digitalizacin
Dimensiones de la imagen
Las dimensiones de la imagen son las medidas horizontales y verticales de la misma, expresadas en pxeles. Pueden determinarse multiplicando tanto el ancho como la altura de la imagen (medido en pulgadas) por la resolucin en ppp.
Por ejemplo, una pgina A4 en blanco y negro, digitalizada a resolucin de 300 ppp, tendr una dimensin total de: A4
= 21,0 cm x 29,7 cm
Ancho: 21,0 cm =
8,27
Alto: 29,7 cm =
11,69
Profundidad de bits
La profundidad de bits de una imagen digitalizada se determina por la cantidad de bits utilizados para definir cada pxel. As
pues, la profundidad se mide en bits/pxel.
Cuanto mayor sea la profundidad de bits, tanto mayor ser la cantidad de tonos que puedan ser representados. Las
imgenes digitales se pueden digitalizar en blanco y negro (en forma bitonal), a escala de grises o a color.
Una imagen bitonal est representada por pxeles que constan de 1 bit cada uno, que pueden representar dos tonos,
utilizando los valores 0 para el negro y 1 para el blanco.
Una imagen a escala de grises est compuesta por pxeles representados por mltiples bits de informacin, que tpicamente
varan entre 2 a 8 bits. En el caso de imagen mdica radiolgica
de alta calidad, es normal utilizar profundidad de 12
bits/pxel; la cantidad de tonos representables es entonces de 212 = 4.096 niveles de grises.
Una imagen a color est tpicamente representada por una profundidad de bits entre 8 y 24. En una imagen de 24 bits, los
bits por lo general estn divididos en tres grupos (RGB): 8 para el rojo (Red), 8 para el verde (Green), y 8 para el azul
(Blue). Para representar otros colores se utilizan combinaciones de esos bits. Una imagen de 24 bits ofrece 16,7 millones (224)
de valores de color.
Manual de digitalizacin
Para impresin en color de alta calidad se utiliza una profundidad de bits suficiente para conseguir la reproduccin cuatricromtica. Los cuatro colores de proceso (CMYK) de 8 bits cada uno, totalizan 32 bits de profundidad: cian (Cian), magenta
(Magenta).
En Figura 3, distinguimos tres imgenes digitales: bitonal (1 bit), escala de grises (8 bits) y color (24 bits).
Rango dinmico
Rango dinmico es el rango de diferencia tonal entre la parte ms clara y la ms oscura de una imagen. Cuanto ms alto sea
el rango dinmico, se pueden potencialmente representar ms matices, a pesar de que el rango dinmico no se correlaciona
en forma automtica con la cantidad de tonos reproducidos.
El rango dinmico tambin describe la capacidad de un sistema digital de reproducir informacin tonal. Esta capacidad
es ms importante en los documentos de tono continuo que exhiben tonos que varan ligeramente, y en el caso de
las fotografas puede ser el aspecto ms importante de la calidad de imagen.
En Figura 4 se muestra una fotografa digitalizada con un rango dinmico limitado (izquierda), comparado con la misma fotografa con un rango dinmico amplio (derecha), en la que pueden observarse el mayor detalle de luz y sombras.
Manual de digitalizacin
Figura 4.- Fotografa con un rango dinmico limitado (izquierda) y rango dinmico amplio (derecha).
Tamao de archivo
El tamao del archivo se calcula multiplicando el rea de superficie (ancho x alto) del documento a ser digitalizado (en pulgadas), por la profundidad en bits (en bits/pxel) y por el cuadrado de la resolucin (en ppp2). Dado que el tamao
del archivo se representa en Bytes (8 bits), dividiremos el resultado para 8.
Publicaciones I&IMS
Digitalizacin de documentos
Por ejemplo, para nuestra pgina A4 en blanco y negro, digitalizada a resolucin de 300 ppp, el tamao de archivo ser:
A4 = 8.750.000 pixeles / 8 (bits / Byte) = 1,1 MegaBytes
Recurdese que, debido a que las imgenes digitales10tienen como resultado archivos muy grandes, la cantidad de
Bytes, con frecuencia se representa en incrementos de 2 (1.024) o ms:
1 KiloByte (KB) =
230 = 1.024 MB
1 TeraByte (TB) =
240 = 1.024 GB
1 PetaByte (PB) =
250 = 1.024 TB
Tamaos de archivo (sin compresin) de imgenes A4 frecuentemente utilizadas, digitalizadas con diferentes profundidades de bits y resoluciones, dan como resultado ocupaciones en MegaBytes de:
Manual de digitalizacin
Profundidad
Tipo de Imagen
Bits/pixel
Resolucin
Puntos/pulgada
Tamao Archivo
MegaBytes
Compresin
Inicialmente (cdigos Huffman en 1952), la compresin se desarrolla sobre cdigos de longitud fija (tipo ASCII de 8 bits),
asignando un nmero menor de bits a letras de mayor frecuencia (e = 3 bits) y mayor nmero a los de menor frecuencia (z =
12 bits).
En el caso de imgenes, reas extensas contienen el mismo color y la similitud entre reas adyacentes es importante.
El empleo de codificacin Huffman reduce drsticamente el espacio ocupado.
CCITT (Consultive Committe on International Telephone and Telegraph), definen en los aos 70 el estndar internacional para
la codificacin y transmisin del fascimil (fax). CCITT Grupo III primero, con reducciones entre el 6% y el 12% de la
capacidad original y CCITT Grupo IV mas tarde, con reducciones cifradas entre el 3% y el 10% de la ocupacin de la imagen
original, dan origen a la compresin de imagen.
La compresin se utiliza para reducir el tamao del archivo de imagen para su almacenamiento, procesamiento y transmisin. El tamao del archivo para las imgenes digitales puede ser muy grande, complicando las capacidades informticas
y de redes de muchos sistemas. Todas las tcnicas de compresin abrevian la cadena de cdigo binario en una imagen
sin comprimir, mediante complejos algoritmos matemticos. Existen tcnicas de compresin estndar y otras patentadas.
Los sistemas de compresin tambin pueden caracterizarse como: sin prdida o con prdida.
Los sistemas sin prdida (lossless), abrevian el cdigo binario sin desechar informacin, por lo que, cuando se descomprime la imagen, sta es idntica bit por bit al original.
Los sistemas con prdida, utilizan una manera de compensar o desechar la informacin menos importante, basada
en un entendimiento de la percepcin visual (lossy/visually lossless). Sin embargo, puede ser extremadamente difcil detectar los efectos de la compresin con prdida, y la imagen puede considerarse sin prdida visual.
La compresin sin prdida se utiliza con mayor frecuencia en el escaneado bitonal de material de texto. La compresin
con prdida tpicamente se utiliza con imgenes tonales, y en particular imgenes de tono continuo en donde la simple
Manual de digitalizacin
Nombre
Estndar/ Patentado
Sin prdida/ Con
prdida
CCITT
G-4
JBIG
JPEG
Estndar
Estndar
Estndar
Sin
prdida
Sin
prdida
Con
prdida
Profundidad bits/
pixel
LZW
(GIF)
Patentado
Sin
prdida
LZW
(TIFF, PDF,
PS)
Patentado
Sin
prdida
De 1 a 6
8 24
De 1 a 8
De 1 a 8
Conexin o
aplicacin
de ayuda
Desde
Explorer
2, Navigator 2
Desde
Explorer 3,
Navigator
2,
Conexin o
aplicacin
de ayuda
ImagePac
(PhotoCD)
Patentado
Con
prdida
Resolucin
mltiple
Soporte
Conexin o
aplicacin
de ayuda
Aplicacin
Java o
de ayuda
Manual de digitalizacin
Tecnologas de comunicaciones de alta velocidad: la evolucin de sistemas informticos centralizados, con un nmero
limitado de usuarios situados localmente, a la moderna concepcin de sistemas altamente distribuidos, con acceso simultneo de cientos o miles de usuarios concurrentes a un SGED, ha sido solo posible por la introduccin de computadores
con capacidades de proceso cada vez ms rpidas y a la disponibilidad de redes de telecomunicacin de alta velocidad (cable,
XDSL, etc.).
Tecnologas de visualizacin de imagen: en los SGED para la visualizacin eficiente de los documentos digitalizados, se requieren monitores de alta resolucin capaces de reproducir la imagen electrnica con total precisin. Pueden encontrarse hoy
en el mercado monitores que visualizan fotografas de millones de colores (24 bits) o radiografas de 2.000 x 2.500
pxeles y 4.096 (12 bits de profundidad) niveles de gris por pxel.
Tecnologas de compresin de imagen: la compresin de imagen, tanto de originales bitonales, grises, como color, se
basa en procesos matemticos que explotan la redundancia existente en las imgenes digitalizadas. Tradicionalmente los
SGED han tratado documentos en blanco y negro (desde original fax, a TIFF Grupo IV), pero la evolucin de las tcnicas de
compresin de imagen y las telecomunicaciones, estn permitiendo la transmisin/reproduccin a la carta en tiempo real
de imgenes con calidad TV digital (MPEG 2).
Un Sistema de Gestin Electrnica de Documentos incluye habitualmente los siguientes componentes:
Escneres, que digitalizan los documentos (normalmente papel) y lo convierten en una imagen digital en formato
tratable por el sistema informtico.
Almacenamiento, que incluye dispositivos magnticos u pticos capaces de contener y permitir el acceso a las
imgenes digitalizadas y sus metadatos.
Unidad de Proceso, encargada de la ejecucin y control del software y perifricos del SGED, que incluye: la aplicacin de Gestin Electrnica de Documentos (captura, clasificacin y visualizacin), el sistema de
workflow (s existe) y la base de datos (DBMS) de tipo documental o relacional.
Comunicaciones, para transferir las imgenes y metadatos entre los elementos locales y/o remotos del sistema.
Impresoras, Monitores u otros dispositivos capaces de poder reproducir las imgenes originalmente digitalizadas.
Dada la extensin y multiplicidad de tecnologas y componentes de un SGED, en este artculo centraremos la atencin, a
partir de ahora, al estudio de la Digitalizacin de Documentos Electrnicos correspondientes a imgenes estticas (bitonal,
grises y color) a partir del perifrico del escner en sus diferentes tipos e indicaciones.
La digitalizacin no electrnica de documentos (microfilmacin), utilizada histricamente en los primeros Sistemas Documentales, no se contempla en este artculo, por considerar su uso en franco decremento. No obstante debe reconocerse
un porcentaje en torno al 2% mundial en fondos documentales contenidos en formato microgrfico.
Tampoco se estudia en este artculo la digitalizacin de fondos documentales que impliquen imagen en movimiento
- dinmica - de cualquier calidad o formato (AVI, MOV, MJPEG, MPEG, etc.).
Digitalizacin de documentos
Proceso de Digitalizacin
Por Digitalizar se entiende el proceso de transformar algo analgico (algo fsico, real de precisin infinita), en algo digital
(un conjunto finito de precisin determinada de unidades binarias). Es decir, se trata de tomar una imagen (papel o
film) y convertirla en un formato tratable informticamente.
Una parte importante de los perifricos de digitalizacin (escneres), son los sensores de imagen utilizados. Los ms comunes
son:
CCD: Dispositivo Acoplado de Carga - elctrica - (Charge Coupled Device), utilizado en la mayora de escneres de
documentacin.
Manual de digitalizacin
10
Tipos de escner
Atendiendo a su diseo y funcionalidad, podemos clasificar los escneres en los siguientes tipos:
Escner plano: Su funcionamiento es parecido al de las fotocopiadoras: se introduce el original al revs en un cristal o soporte de documentos, se cierra la tapa y la fuente de luz recorre la totalidad de la longitud del papel. Tamaos normales
son A4 y A3. Desde el punto de vista de SGED este tipo de escner permite digitalizar cualquier tipo de original plano, por voluminoso que este sea (libro, revista, etc.). Por el contrario, la manipulacin manual de los originales hace su utilizacin lenta.
Manual de digitalizacin
11
Escner de rodillo: Los originales son introducidos por un elemento transportador de velocidad constante (alimentador
automtico de documentos -ADF-) a la fuente de luz/sensores pticos del escner. Las pginas pueden recorrer el mecanismo lector en forma horizontal o en forma de U, pero en cualquier caso sern recogidas en el mismo orden de
introduccin. Tamao normal: DIN A4; tambin DIN A3. Ventajas: Pueden escanearse directamente documentos con mltiples pginas, con tiempos de respuesta rpidos. Desventajas: los originales deben ser hojas sueltas y no admite grosores
de papel superiores a 150 g/m2.
12
Adems de estos escneres dedicados a documentacin tradicional (pginas de tamao Din A5 a Din A3), existe una serie
de digitalizadores de formatos y prestaciones especficas para usos profesionales en SGED, que a continuacin se estudian:
Escner de film y diapositivas: Permiten la digitalizacin tanto de diapositivas como de negativos de film fotogrfico de 35 mm.
Pueden tener altsimas resoluciones: 3000 x 3000 ppp o superiores. Existen tambin modelos especficos para la digitalizacin de micrografas en formatos microfilm o microfichas.
Escner de gran formato: Mismo procedimiento de lectura que para escneres de rodillo: el original se desplaza a travs
de una cabeza lectora (de longitud superior a la anchura del documento -normalmente hasta Din A0-) contenedora de
iluminacin, ptica y sensores CCD. Utilizado en aplicaciones de CAD, publicidad, cartografa, etc.
Manual de digitalizacin
13
Escner radiolgico: Su funcionamiento mecnico es similar al escner de rodillo, con la salvedad que para la digitalizacin
de radiografas es preciso contar con sensores CCD que permitan la lectura en escala de grises de al menos una profundidad de 12 bits, con densidades pticas altas (precisin en lecturas de negros) y de tamaos normalmente de hasta
4.000 x 5.000 pxeles para radiologa convencional o superiores, en el caso de mamografas.
Manual de digitalizacin
14
15
Resolucin de escaneado: Aquella que seleccionamos en el momento de la digitalizacin para capturar una imagen
concreta. Esta resolucin ser la adecuada al medio de reproduccin a la que est destinada. Por ejemplo, una fotografa
color que se vaya a publicar en web, tendr suficiente con una resolucin de 72 ppp, si debe imprimirse, una resolucin de
150 ppp ser la adecuada.
rea de exploracin: Determina las caras y el tamao de los documentos a digitalizar. Puede ser de una cara o
doble cara (adverso y reverso de una hoja) y de dimensiones variables: de 24 x 36 mm para diapositivas, de A4 o A3
para fondos documentales en papel, de 36 x 44 cm para radiografas y de hasta A0 para originales de gran formato.
Velocidad de exploracin: Tiempo requerido para digitalizar la imagen. Depende directamente del tipo de exploracin
(binaria, grises, color) y de la resolucin. Podemos encontrar escneres con una velocidad de exploracin entre 0,4
y 120 segundos/pgina (s/pag). En SGED son normales velocidades de 1 a 5 s/pag.
Formatos de archivo: Los formatos mas comunes, proporcionados directamente por el escner son: Bitmap, GIF, JPEG y
TIFF. Su seleccin depender del tipo de documento y destino de visualizacin/impresin del mismo.
Manual de digitalizacin
16
Externalizacin
La externalizacin slo ser viable si la institucin tiene una buena comprensin de los objetivos a corto y a largo plazo, y
puede especificar de forma completa sus requisitos.
Ventajas:
Contencin del coste y riesgo limitado: se paga por resultados, con frecuencia se pacta un precio fijo por documento.
Los costos son tpicamente ms bajos que los de produccin interna.
Los proveedores normalmente estn preparados para absorber grandes volmenes de documentos en los tiempos
que se requieran.
Los costes de capacitacin del personal y obsolescencia tecnolgica, son absorbidos por el proveedor.
Se dispone de una amplia gama de servicios contratables: digitalizacin de imgenes, indexacin manual o
automtica (OCR, ICR, marcas, cdigo de barras), desarrollo de base de datos, procesamiento de imagen,
impresin, almacenamiento y copias de seguridad. Desventajas:
La institucin se aleja de las funciones de digitalizacin (frecuentemente los servicios se llevan a cabo fuera
de las instalaciones) y temporalmente de sus documentos.
Vulnerabilidad, debido a la posible inestabilidad del proveedor.
Inexperiencia del proveedor respecto a la cultura de la institucin.
Falta de control en la contratacin, produccin y calidad de la digitalizacin y procesos derivados.
Casustica relacionada con el transporte, manipulacin y seguridad de los documentos.
Manual de digitalizacin
17
Produccin propia
La institucin deber disponer del personal, las instalaciones y equipamiento de hardware y software necesarios para
producir internamente la digitalizacin de documentos.
Ventajas:
Los requisitos se definen en forma progresiva, en lugar de hacerlos al inicio.
Se mantiene el control directo sobre la digitalizacin de documentos y toda la gama de funciones derivadas.
Se prev una seguridad consistente y de calidad.
Se asegura una manipulacin adecuada y la accesibilidad respecto al fondo documental.
Desventajas:
Gran inversin y tiempo prolongado en la etapa inicial del proyecto.
No hay precio fijo por documento digitalizado.
La institucin paga los gastos (incluyendo los costos de tiempo de inactividad,
capacitacin / experiencia del personal y obsolescencia tecnolgica) en vez de pagar por los productos.
Capacidad de produccin (personal y equipamiento) limitada.
Manual de digitalizacin
18
Bibliografa
Koulopoulos T.M., Frappaolo C.: Electronic Document Management Systems, Computing McGraw-Hill, 1995.
Glover G.: Image Scanning for Desktop Publishers, Windcrest, 1990.
Green W.B.: Introduction to Electronic Document Management Systems, Academic Press, 1993.
Otten K.: Integrated Document & Image Management. Association for Information & Image Management, 1987.
Lunt P.: New Directions in Data Capture. Imaging & Document Solutions, Vol. 9, Num. 3, p. 25-37, Marzo 2000.
DAlleyrand M.R.: Image Storage and Retrieval Systems: A new approach to records management. McGraw-Hill Book, 1989.
Liikanen E.: Capture, Indexing & Auto-Categorization. Intelligent methods for acquisition and retrieval of
information stored in digital archives. AIIM Industry White Paper. AIIM International Europe, 2002.
Averon D.M.: Electronic Imaging: What Its All Abaut. Avedon Asociates, 1991.
Wiggins B.: Document Imaging: A Management Guide, Meckler Publishing,
1994.
Jordahl G.: Color everywhere, but not a byte to spare, Imaging Magazine, Vol.
6, Num. 5, p. 47-54, Mayo 1997.
Vanston L.K., Kennedy W.J., Lux N.E.: Computer-Based Imaging and
Telecomunications. Technology Futures, 1991.
Lunt P.: High-Speed Scanners Put Documents in the Fast Lane. Imaging & Document Solutions. Vol. 7,
Num. 11, p. 59-68, Noviembre 1998.
Brown D.S.: Image Capture Beyond 24-Bit RGB. RLG DigiNews. Vol. 3, Num. 5,
15 Octubre 1999. http://www.rlg.org/preserv/diginews/diginews3-5.html
Greenstein D., George G.: Benchmark for digital reproductions of monographs and serials. Digital Library Federation. 15 Enero 2002
http://www.diglib.org/standards/bmarkfin.htm#what
Lawrence G.W., Kehone W.R, Rieger O.Y. Waltters W.H., Kenney A.R.: Risk Management of Digital Information: A File Format Investigation. Council on Library and Information Resources. Junio 2000.
http://www.clir.org/pubs/abstract/pub93abst.html
Howard B., Trant J,: Introduction to Imaging: Issues in Constructing an Image Database. Getty Art History Information Program, Santa Monica, CA, 1995. http://www.getty.edu/research/institute/standards/introimages/
Fulton W.: A few scanning tips. 2004. http://www.scantips.com/
Ogren J.: The Hardware Book. Umea University (Suecia). 2004. http://www.hardwarebook.
net/connector/index.html
Puglia S.: Handbook for Digital Projects: A Management Tool for Preservation and Access. Technical Primer.
National Archives and Records Administration. http://www.nedcc.org/digital/VI.htm
Manual de digitalizacin
19
Palabras clave:
SGED
Sistema de Gestin Electrnica de Documentos
Imagen
Imagen digital
Resolucin de imagen
Dimensin de imagen
Profundidad de imagen
Rango dinmico de imagen
Tamao de imagen
Compresin de imagen
Cdigos Huffman
CCITT
Compresin sin prdida
Compresin con prdida
Formato de imagen
BMP
TIFF
GIF
JPEG
JFIF
PHOTO CD
PNG
PDF
MPEG
Digitalizacin de imagen
CCD
PMT
CMOS
Resolucin ptica e interpolada
Velocidad de exploracin
Discriminacin texto - imagen
Umbral dinmico
Extracto de contorno
Imagen inversa
Imagen espejo
nfasis de bordes
Relleno de huecos
Supresin de ruido
Igualacin de zonas irregulares
Escner
Escner plano
Escner de rodillo
Escner areo
Escner de film
Escner de tambor
Escner de gran formato
Escner radiolgico
Externalizacin de digitalizacin
Manual de digitalizacin
20
Manual de digitalizacin
21