Professional Documents
Culture Documents
Documentos
que permite digitalizar y reconocer caracteres de algn tipo de
Resumen En este artculo se desarrolla una solucin a los fuente de texto, que tiene una mayor dificultad en textos
diferentes problemas que se presentan en el reconocimiento escritos a mano por los diferentes tipos de caligrafa de cada
ptico de caracteres (OCR), enfocado a la digitalizacin de persona. Para lograr este proceso se debe seguir cuatro etapas
documentos e imgenes. Se utiliz Tesseract como la librera por
que permitirn diferenciar el texto [1]:
ser robusta, potente y por la capacidad de poder ser entrenada,
adems utiliza leptnica como algoritmo OCR; se muestran los Binarizacin: Digitaliza los caracteres en una
principales problemas al momento de reconocer los documentos, imagen blanco y negro.
as como una serie de mtodos de correccin de caracteres y Fragmentacin: Segmentacin de la imagen
filtros de imagen que permitieron obtener un mejor resultado.
carcter por carcter para trabajar con cada uno de
ellos individualmente.
Palabras Claves: OCR, Algoritmos, Leptnica, Tcnicas
OCRs. Reduccin de los componentes: Eliminacin de
informacin irrelevante que puede alterar los
AbstractIn this article a solution is developed for different caracteres.
problems presented in the Optical Characters Recognition, Comparacin de caracteres: Se compara los
focused on the digitalization of documents and images. Tesseract caracteres obtenidos con patrones definidos y
was used as a wide-ranged library and because of capacity it has conocidos para su reconocimiento.
to be trained, also Leptonica was used as OCR algorithm; the
main problems at the time of recognizing the characters are B. Tesseract
showed as well as several methods to correct characters and
Este documento puede usarse como plantilla para preparar
image filters to get better results.
su escrito tcnico. Puede sobre escribir en las diferentes
secciones del documento, cortar y pegar en l y/o usar los
estilos de las diferentes secciones y sus ttulos.
I. INTRODUCCIN
E
Tesseract es un motor OCR libre. Fue desarrollado
L Reconocimiento ptico de caracteres o OCR por originalmente por Hewlett Packard como software propietario
sus siglas en ingls, Optical Characters Recognition- entre 1985 y 1995. Tras diez aos sin ningn desarrollo, fue
es un proceso que tiene como objetivo digitalizar y liberado como cdigo abierto en el ao 2005 por Hewlett
reconocer los caracteres de un determinado alfabeto o Packard y la Universidad de Nevada, Las Vegas. Tesseract es
simbologa contenidos en diferentes fuentes de texto, como desarrollado actualmente por Google y distribuido bajo la
puede ser una hoja impresa por un procesador de palabras o licencia Apache, versin 2.0.
texto escrito a mano por un humano, donde este tiene el mayor Tesseract est considerado como uno de los motores OCR
nivel de dificultad para su reconocimiento por la diversa libres con mayor precisin disponibles actualmente [2].
caligrfica de cada individuo; adems de otros factores como
el tamao y la similitud entre smbolos.
C. Caractersticas de Tesseract
II. BACKGROUND En 1995, Tesseract era uno de los tres mejores motores
Use el espaciado y la revisin ortogrfica automticos. OCR en cuanto a precisin, adems est disponible para
Asegrese adicionalmente que sus oraciones estn completas y Linux, Windows y Mac OS X, sin embargo, slo ha sido
que haya continuidad dentro de los prrafos. Revise la probado por los desarrolladores en Windows y Ubuntu. Hasta
numeracin de sus grficas (figuras y tablas) y asegrese que la versin 2, Tesseract slo poda aceptar como entrada
incluya todas las referencias apropiadas. imgenes de una sola columna en formato TIFF. En estas
primeras versiones no se inclua anlisis de patrones, y por
A. OCR tanto, las imgenes con mltiples columnas o anotaciones
OCR (reconocimiento ptico de caracteres), es un proceso producan resultados ilegibles. Desde la versin 3, Tesseract
Este trabajo fue realizado por el grupo de desarrollo y conto con la tutora soporta el formato en el texto y el anlisis del patrn de la
del docente de la Universidad Nacional de Loja Ing. Manuel Crdoba pgina. A travs de la biblioteca Leptonica, se consigue la
M. S. Armijos Estudiante Universidad Nacional de Loja, Carrera de compatibilidad con nuevos formatos de imagen, adems, se
Ingeniera en Sistemas, (e-mail: manuel.s.armijos@unl.edu.ec).
R. F. Jumbo Estudiante Universidad Nacional de Loja, Carrera de
puede detectar si el texto proporcional o monoespaciado.
Ingeniera en Sistemas, (e-mail: rfjumboh@unl.edu.ec). Tesseract puede procesar ingls, francs, italiano, alemn,
espaol, portugus brasileo y neerlands, y puede ser
2
A. Protocolo Experimental
Aplicacin de reconocimiento ptico de caracteres (OCR)
para el proceso de digitalizacin de documentos, se desarroll
como un proyecto de investigacin que permite introducir una Fig. 3 Imagen maestral de un texto plano con ruido para su pre procesamiento
imagen (jpg, PNG, TIFF, bmp, etc), en un programa con el programa realizado en NetBeans-Java por el grupo investigativo
utilizando la librera Tesseract 3.2.1
desarrollado en el lenguaje de programacin JAVA, mediante
la librera TESSERACT, desarrollada actualmente por Google
y considerado como uno de los motores con mayor precisin. B. Resultados y discusin
Segn Juan Pablo Ordoez [5], de la ciudad de Loja nos TESSERACT ORIGINAL Fig. 2
manifiesta que, para procesar informacin mediante un Luego de la implementacin y configuracin de la librera
computador de un documento impreso, existen dos formas: TESSERACT con su algoritmo original se obtuvo el siguiente
Una primera consistira en introducirla a travs texto editable de una imagen limpia donde no existir ningn
del teclado, labor larga y tediosa problema al momento de su reconocimiento:
Otra posibilidad es automatizar esta operacin
por medio de un sistema de OCR compuesto de Equilibrio del color
un software y hardware adecuado que reducira EI algoritmo de equilibrio de color aplica un factor
considerablemente el tiempo de entrada de datos multiplicador independiente sobre cada canal para
El Objetivo principal de este proyecto fue el de desarrollar de esta manera conseguir que tengamos una serie
un programa para escritorio funcional en donde se puede de puntos considerable en ambos extremos del
aplicar el proceso OCR que comprende las siguientes etapas: histograma. De esta manera se consigue un
Binarizacin contraste interesante haciendo que las fotos tomen
Segmentacin de la imagen ms viveza. Este ltro trata los canales por
separado consiguiendo que no haya ningn canal
Adelgazamiento de los componentes
que sea predominante sobre los otros.
Comparacin con patrones
Y as, mediante la utilizacin de la librera TESSERACT, el Para realizar este algoritmo almacenaremos tres
grupo obtuvo buenos resultados con imgenes limpias, ntidas histogramas, uno por cada canal y para obtenerlo
y claras como la Fig. 2 donde no se tiene problemas con el contaremos cuantos puntos hay en cada tono [0
reconocimiento, sin embargo en la Fig. 3, los resultados no 255] para cada canal [rgb]. Una vez tenemos el
son los esperados por lo que la imagen est constituida en un histograma de los tres canales, vamos a desechar el
70% de ruido y al momento de su reconocimiento este ruido 1% de puntos en cada extremo. De esta manera
toma valores lo que nos da un resultado negativo, en imgenes evitamos que algn punto que pueda ser ruido o un
que tengan problemas como ruido, demasiado contraste, baja pequeo objeto no apreciable no dele expandir los
nitidez, poco texto, colores opacos entre otros, por lo que se tonos por todo el espectro.
implement unas mejoras en el pre procesamiento de la
Fig. 4 Resultado de la Fig. 2 con el algoritmo original
imagen mediante la creacin de mtodos de como:
Escala de grises Discusin Fig 2 - Tesseract Original: TESERRACT no
Blanco y negro obtuvo problemas al momento de extraer el texto de esta
Recorte imagen, los factores que intervienen para obtener un buen
Eliminacin de ruido resultado son:
Para evidenciar los resultados obtenidos con la Imagen Clara
implementacin de las mejoras se utiliz las siguientes Imagen Ntida
imgenes mustrales. Imagen con un porcentaje (%) de ruido mnimo
Resolucin 756*432 pixeles
Fig. 2 Imagen maestral limpia de un texto plano para su pre procesamiento
Fondo Blanco
con el programa realizado en NetBeans-Java por el grupo investigativo
utilizando la librera Tesseract 3.2.1 TESSERACT ORIGINAL Fig. 3
Luego de la implementacin y configuracin de la librera
TESSERACT con su algoritmo original se obtuvo el siguiente
texto editable de una imagen con ruido donde habr algunos
pequeos errores en su reconocimiento:
4
TABLA II
RESULTADOS EXPERIMENTALES DE LA FIG. 6
5
40 50 40
VI. REFERENCIAS
Fig. 23 Resultado de una imagen digital