Professional Documents
Culture Documents
Resumo: O objetivo desse tutorial fornecer uma viso introdutria para a rea de
Processamento Digital de Imagens (PDI) de modo que possa servir como base de
estudo para iniciantes na rea ou como referncia para estudos mais avanados. O
tutorial est dividido em duas partes: uma parte principal contemplando os fundamentos
e uma parte complementar descrevendo aplicaes. A parte de fundamentos apresenta o
processo de formao de imagens, incluindo uma sucinta apresentao da estrutura do
olho humano e sua analogia com uma cmera digital, bem como comentrios sobre um
sistema tpico de PDI. O ncleo do tutorial aborda as principais operaes sobre
imagens, tais como, operaes sobre cores, filtragem espacial, segmentao,
transformaes em escala e resoluo, dentre outras. Na parte de aplicaes, so
apresentados exemplos de aplicaes envolvendo segmentao de imagens,
reconhecimento de palavras manuscritas e recuperao de imagens por contedo.
Abstract: The goal of this tutorial is to provide an introductory view of the Digital
Image Processing (IP) area that can be used as a study guide for beginners or as basic
reference for more advanced studies. The tutorial is divided into two parts: the main
part is about the IP fundamentals and a complementary part discusses some application
examples. The main part presents the image formation process, including a succinct
description of the human eye structure and its relation to a digital camera, as well as
comments about a typical IP system. The core of the tutorial is about image operations,
such as color operations, spatial filtering, segmentation, scale and resolution transforms,
among others. The applications part contains a number of examples, involving image
segmentation, handwritten word recognition and content-based image retrieval.
Consideraes Iniciais
1.1
Iluminao
Formao de
Imagem 2-D
Imagens
2D, 3D
Visualizao
Quantitativa
Formao de
Imagem 3-D
Integrao,
Filtragem de
Rudos
Imagens de
Caractersticas
Segmentao
de Regies
Imagens de
Regies
Deteco
de Bordas
Extrao de
Estruturas
Simples
Determinao
do Movimento
Calibrao
Radiomtrica e
Geomtrica
Imagem
Digital
Descrio de
Texturas
Regularizao,
Restaurao e
Modelagem
Anlise de
Formas
Descries de
Objetos
Digitalizao
Morfologia
Matemtica
Classificao
de Pixels ou
Objetos
Classes de
Objetos
Organizao do Tutorial
O tutorial est estruturado em duas partes: a primeira parte (principal) trata dos fundamentos
de PDI e a segunda (complementar) apresenta exemplos de aplicaes. As prximas duas
sees contemplam a parte de fundamentos, incluindo o processo de formao da imagem e
uma seleo de operaes tpicas sobre imagens. A Seo 4 apresenta alguns exemplos de
aplicaes. Finalmente, na Seo 5 esto as consideraes finais.
2.
Conceitos Fundamentais
2.1
Natureza da luz
10 3
10 2
10
10 -1
10 -2
10 -3
10 -4
10 -5
10 -6
10 -7
Ponto
Campo de Futebol
Bola de Baseball
Casa
Bactria
INFRAVERMELHO
Rdio AM
10 6
Cavidade
Forno de
de RF Rdio FM Microondas
10 7
10 8
10 9
10 11
Seres
Lmpadas
Humanos Incandescentes
10 12
10 13 10 14
Mais curtos
RAIOS X PESADOS
RAIOS
RAIOS X LEVES
RADAR
10 10
Molcula de gua
Vrus
ULTRAVIOLETA
MICROONDAS
Freqncia
(Hz)
Protena
Clula
ONDAS DE RDIO
10 -8
10 15 10 16
ALS
10 17
Elementos
Equipamentos Radioativos
de Raios X
10 18 10 19 10 20
Mais altas
Radia
Radia o Vis
Visvel
Comprimento de Onda (nm)
700 600
500
Radia
Radia o
Infravermelha (IR)
400
Radia
Radia o
Ultravioleta (UV)
2.2
Humor v
vtreo
Crnea
ris
Nervo ptico
Esclertica
Coride
Msculos
Ciliares
Tnicas da retina
Eixo Visual
ris
Fvea
Cmara
Anterior
Crnea
Ponto
Cego
Lente
Cmara Posterior
com Humor
Vtreo
Ligamentos
Vasos sang
neos Suspensrios
sangneos
do Cristalino
Esclera
Ner
vo
e F p ti c
V a s e ixe o
cul
ar
Cristalino
Pupila
Tnicas
Retina
C
Ci o r p
li a o
r
Fig. 3 - Olho humano: (A) viso geral; e (B) detalhamento dos componentes.
Plpebra
Eixo Visual
ris
Cmara Anterior
Crnea
Fvea
Cristalino
Sensor
ris
Cmara Posterior
com Humor Vtreo
Cmara escura
Obturador
Diafragma
Lente
2.3
Modelos Cromticos
Branco
Branco
Objetos que emitem luz visvel so percebidos em funo da soma das cores espectrais
emitidas. Tal processo de formao denominado aditivo. O processo aditivo pode ser
interpretado como uma combinao varivel em proporo de componentes monocromticas
nas faixas espectrais associadas s sensaes de cor verde, vermelho e azul, as quais so
responsveis pela formao de todas as demais sensaes de cores registradas pelo olho
humano. Assim, as cores verde, vermelho e azul so ditas cores primrias. Este processo de
gerao suscitou a concepo de um modelo cromtico denominado RGB (Red, Green, e
Blue) [2][3], para o qual a Comisso Internacional de Iluminao (CIE) estabeleceu as
faixas de comprimento de onda das cores primrias [7]. A combinao dessas cores, duas a
duas e em igual intensidade, produz as cores secundrias, Ciano, Magenta e Amarelo (ver
Fig. 5).
G
(0,1,0)
(0,1,1)
(1,1,1)
(0,0,0)
(1,1,0)
(1,0,0)
(0,0,1)
Preto
Preto
(1,0,1)
Primria
(nm)
Combinao de Primrias
Vermelho
700,0
Vermelho + Verde
Amarelo
Verde
546,1
Vermelho + Azul
Magenta
Azul
435,8
Verde + Azul
Secundria Resultante
Ciano
A cor oposta a uma determinada cor secundria a cor primria que no entra em sua
composio. Assim, o verde oposto ao magenta, o vermelho ao ciano e o azul ao amarelo.
A cor branca gerada pela combinao balanceada de vermelho, verde e azul, assim como
pela combinao de qualquer cor secundria com sua oposta. Objetos que no emitem
radiao eletromagntica visvel prpria so, em contraposio, percebidos em funo dos
pigmentos que os compem [3]. Assim sendo, objetos diferentemente pigmentados absorvem (ou
subtraem) da radiao eletromagntica incidente uma faixa do espectro visvel, refletindo o
restante [6]. O processo de composio cromtica pode ser interpretado como a absoro ou
reflexo, em propores variveis, das componentes verde, vermelho e azul da radiao
eletromagntica visvel incidente. Tome-se como exemplo um objeto amarelo. As componentes
vermelha e verde da luz branca incidente so refletidas, enquanto a componente azul subtrada
por absoro pelo objeto. Assim, a cor amarela pode ser encarada como o resultado da subtrao
do azul da cor branca. As cores primrias no modelo CMY so definidas em funo da
absoro de uma cor primria da luz branca incidente e da reflexo das demais
componentes, ou seja, as cores primrias so as secundrias do modelo RGB - Ciano,
Magenta e Amarelo (Fig. 6).
Preto
M
(0,1,0)
(1,1,0)
Branco
(0,1,1)
(1,1,1)
(0,0,0)
(0,0,1)
(1,0,0)
(1,0,1)
Combinao de Primrias
Ciano + Magenta
Magenta + Amarelo
Amarelo + Ciano
Secundria Resultante
Azul
Vermelho
Verde
Pixel
N-1
N-1
0
0
Linha
(m)
(m)
Preto
Tons
de
Cinza
M-1
M -1
255
Branco
A intensidade luminosa no ponto (x,y) pode ser decomposta em: (i) componente de
iluminao, i(x,y), associada quantidade de luz incidente sobre o ponto (x,y); e a
componente de reflectncia, r(x,y), associada quantidade de luz refletida pelo ponto (x,y)
[3]. O produto de i(x,y) e r(x,y) resulta em:
f(x,y) = i(x,y).r(x,y)
(1)
na qual 0 < i(x,y) < e 0 < r(x,y) < 1, sendo i(x,y) dependente das caractersticas da fonte
de iluminao, enquanto r(x,y) dependente das caractersticas das superfcies dos objetos.
Em uma imagem digital colorida no sistema RGB, um pixel pode ser visto como um
vetor cujas componentes representam as intensidades de vermelho, verde e azul de sua cor. A
imagem colorida pode ser vista como a composio de trs imagens monocromticas, i.e.:
f (x, y) = fR(x,y) + fG(x,y) + fB(x,y),
8
(2)
2.5
Amostragem e Quantizao
Como j foi anteriormente mencionado, para que uma imagem possa ser armazenada e/ ou
processada em um computador, torna-se necessria sua discretizao tanto em nvel de
coordenadas espaciais quanto de valores de brilho. O processo de discretizao das
coordenadas espaciais denomina-se amostragem, enquanto a discretizao dos valores de
brilho denomina-se quantizao [1][2][3][4][5][6]. Usualmente, ambos os processos so
uniformes, o que implica a amostragem da imagem f(x,y) em pontos igualmente espaados,
distribudos na forma de uma matriz M x N, na qual cada elemento uma aproximao do
nvel de cinza da imagem no ponto amostrado para um valor no conjunto {0, 1, ..., L - 1}.
f (0,0) f (0,1) L
f (0, N 1
f
(
1
,
0
)
f
(
1
,
1
)
L
f
(1, N 1)
F
M
M
M
M
f (0, M) f (1, M) L f (M 1, N 1)
(3)
informao de uma imagem analgica, seu equivalente digital uma aproximao, cuja
qualidade depende essencialmente dos valores de M, N e L. Usualmente, o nmero de valores
de brilho, L, associado a potncias de 2:
L = 2l
(4)
com l . Assim sendo, o nmero de bits necessrio para representar uma imagem digital
de dimenses M x N ser:
b=MxNxl
(5)
480
600
768
1200
640
800
1024
1600
L=2
L = 256
38400
60000
98304
240000
192000
300000
491520
1200000
307200
480000
786432
1920000
10
(6)
2.6
480
600
L = 32
L = 256
640
115200
576000
921600
800
180000
900000
1440000
768
1024
294912
1474560
2359296
1200
1600
720000
3600000
5760000
11
sensoriamento em um formato digital (usualmente referido como digitalizador) [1][2][3]. Tomese como exemplo uma cmara de vdeo digital. Os sensores CCD so expostos luz refletida
pelo alvo de interesse, o feixe de radiao eletromagntica capturada convertido em impulsos
eltricos proporcionais intensidade luminosa incidente nos diferentes pontos da superfcie do
sensor e, finalmente, o digitalizador converte os impulsos eltricos em dados digitais.
Rede
Sensores
de imagem
Hardware para
processamento
de imagens
Software para
processamento
de imagens
Computador
Hardware de
visualiza
visualizao
Hardware
de impresso
12
(7)
Operaes desta natureza so denominadas n-rias, uma vez que a imagem de sada
resulta de uma combinao de duas ou mais imagens de entrada. Quando n = 1, uma
operao unria, a partir da qual uma nica imagem de entrada produz uma imagem de sada
(vide Fig. 11(B)), sendo representada de forma simplificada como:
fs = O(fe)
(8)
13
imagem de entrada para a imagem de sada. A Fig. 12 ilustra genericamente uma operao
pontual unria.
fe1
fe2
fs
fen
fe
fs
fs = O(fe)
(x,y)
(x,y)
ie(x,y)
is(x,y)
Cada ponto da imagem de sada, fs(x,y), obtido por: (i) uma operao O entre os
pontos de coordenadas homlogas das imagens de entrada, fe1(x,y), fe2(x,y),..., fen(x,y); ou (ii)
uma transformao T do ponto de coordenadas homlogas da imagem de entrada, fe(x,y). No
tocante operao O, esta pode ser qualquer operao aritmtica, lgica, de comparao,
etc., admitida pela natureza dos valores dos pontos das imagens. A transformao T dever
ser uma funo unvoca com um domnio equivalente faixa de valores permitidos para a
imagem de entrada. Transformaes dessa natureza so comumente realizadas a partir de
tabelas de transformao (LUT - Look-Up Tables) e interpretadas a partir de diagramas como
aquele ilustrado na Fig. 13.
LUT
fe(x,y)
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
fs(x,y)
fs(x,y)
0
0
0
0
0
2
4
6
8
10
12
13
15
15
15
15
L-1
T2
T1
6
5
T3
1
0
L-1
fe(x,y)
14
Por outro lado, nas operaes locais, o valor de sada em uma coordenada
especfica depende de valores de entrada daquela coordenada e sua vizinhana
[1][2][3][4]. Os tipos de vizinhos de um pixel podem ser assim definidos: (i) os vizinhos
mais prximos de um pixel p, de coordenadas (i,j), os pixels de coordenadas (i+1,j), (i-1,j),
(i,j+1) e (i,j-1); (ii) os vizinhos mais distantes, os pixels de coordenadas (i-1,j-1), (i-1,
j+1), (i+1,j-1) e (i+1,j+1). As vizinhanas tipicamente utilizadas em operaes locais esto
na Fig. 14. A vizinhana 4-conectada envolve os vizinhos mais prximos do pixel
considerado, enquanto a vizinhana 8-conectada envolve tanto os vizinhos mais prximos
quanto os mais distantes do pixel considerado. conveniente mencionar possvel processar
grades de pixels hexagonais, , que neste caso, operaes locais envolvero apenas os 6
vizinhos mais prximos (vizinhana 6-conectada).
Tipos de Vizinhan
Vizinhana
(x,y)
4-conectada
6-conectada
ie(x,y)
is(x,y)
8-conectada
(9)
15
nveis de cinza
255
nveis de cinza
255
3
C
percentual de pixels
2
B
percentual de pixels
percentual de pixels
A
1
nveis de cinza
255
Fig. 15 Histogramas: (A) imagem com baixo contraste; (B) imagem usando toda a faixa de tons
de cinza, com dois tons de cinza dominantes; e (C) imagem usando toda a faixa de tons
de cinza, com componentes ocupando a faixa de modo mais eqidistante.
Muitas operaes pontuais usam o histograma como parmetro de deciso para fornecer
resultados para o pixel da imagem processada, como se pode ver nas subsees a seguir.
3.2.1 Inverso da Escala de Cinza
A inverso da escala de cinza de uma imagem pode ter diversas aplicaes. Uma delas que,
em se tratando do negativo da imagem, aps o registro fotogrfico a partir de uma cmera
convencional, a revelao do negativo do filme produzir uma imagem positiva, passvel de
uso como slide. Adicionalmente, o negativo de uma imagem pode possibilitar melhor
discriminao de alvos em determinados tipos de imagens (e.g. imagens mdicas). Na
Fig. 16(A), representa-se o efeito da inverso de contraste sobre o histograma, enquanto
que na Fig. 16(B), um exemplo de resultado do processo.
h(nce)
255
ncs
255
0
ncs
255
255
nce
Imagem original
255
h(ncs)
B
0
255
nce
16
ncs
LUT
6 8 10 12 14
ncs
)
h(n
s cs
8 10 12 14
nce
)
h(n
e ce
A
0
nce
ncs
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
0
0
0
0
0
2
4
6
8
10
12
13
15
15
15
15
8 10 12 14
nce
ncs
255
Assntotas
ncs
255
ncs =C2.log(Knce)+C1
C1
Imagem original
255
nce
0 1/
255
nce
17
(10)
3.3
Filtragem Espacial
Imagens apresentam reas com diferentes respostas espectrais, delimitadas por reas
geralmente estreitas denominadas bordas. Tais limites usualmente ocorrem entre objetos ou
feies distintas presentes na imagem (e.g. regies de um rosto, feies naturais ou artificiais
em imagens multiespectrais da superfcie terrestre, estruturas de um corpo em imagens
mdicas), podendo tambm representar o contato entre reas com diferentes condies de
iluminao, em funo dos ngulos formados entre a radiao incidente e os planos da cena
imageada. Assim sendo, as bordas representam, em imagens monocromticas, alteraes
bruscas entre intervalos de nveis de cinza [3]. Sua representao grfica caracterizada por
gradientes acentuados. Correspondem usualmente a feies de alta freqncia - limites entre
reas iluminadas e sombreadas, redes naturais (e.g. drenagem) e artificiais (e.g. de
transporte), dentre outras. Em contraponto, os alvos que variam mais uniformemente com a
18
p1
p2
p3
p4
p5
p6
p7
p8
p9
Ie (x i , y j ).m (i , j)
i =0 j = 0
Transforma
Transformao
Parmetros
Preto
Tons
de
cinza
255
Branco
19
Fig. 20 Filtro da mdia: (A) imagem original; (B) imagem ruidosa; (C) imagem filtrada
com mscara 3x3; e (D) imagem filtrada com mscara 5x5.
Fig. 21 Filtros da mdia e mediana: (A) imagem original; (B) imagem ruidosa;
(C) mdia 3x3; e (D) mediana 3x3.
O filtro da moda de ordem n produz como valor do pixel de sada a moda dos valores
dos pixels da imagem de entrada em uma vizinhana de (i, j) contendo n pixels (a moda de
uma srie de valores o valor mais freqente da srie). Se a seqncia contiver dois ou mais
valores com a mesma freqncia de ocorrncia, pode-se definir a mdia ou mediana dos
valores em questo como valor de g(i, j).
Enquanto os filtros da mdia, da moda e da mediana so empregados na suavizao
de imagens, outra categoria de filtros espaciais, tais como os operadores de gradiente [3],
produzem a acentuao ou aguamento de regies de uma imagem nas quais ocorrem
variaes significativas de nveis de cinza. Define-se como gradiente de uma funo f,
20
G[ f (i, j )] = i
f
j
(11)
O vetor G[f(i, j)] aponta no sentido da maior taxa de variao de f(i, j), sendo sua
amplitude, G[f(i, j)], dada pela expresso:
f
G[ f (i, j )] =
i
f
+
j
1
2 2
(12)
que uma representao da taxa de variao de f(i, j) por unidade de distncia no sentido de
G. A equao (11) embasa uma srie de abordagens de diferenciao de imagens digitais.
Uma propriedade importante da amplitude do gradiente a sua isotropia, i.e., a
independncia em relao direo do gradiente, o que possibilita a deteco de bordas
independentemente da sua orientao. As desvantagens apresentadas por este operador so
ser no-linear e perder a informao da direo das bordas (devido ao clculo dos
quadrados).
O clculo do gradiente pode ser obtido atravs de aproximaes numricas. Na
horizontal, a aproximao dada pela diferena dos nveis de cinza de dois pixels
consecutivos, i.e., Gx = f(i, j) f(i+1, j) e, similarmente, na vertical por Gy = f(i,j+1) f(i, j).
A estimao do gradiente a partir de aproximaes numricas apresenta como desvantagem o
clculo da derivada horizontal e a vertical em pontos diferentes:
G x = [1 1]
G y = 1
1 ,
(13)
G y = 1
1
1
1 ,
(14)
Pode-se obter a 2 derivada a partir do Laplaciano dos nveis de cinza da imagem f(x,y):
2 f =
Borda suavizada
2 f
i 2
2 f
(15)
j 2
1 derivada
2 derivada
Mximo
21
1
4
1
0
1
1
(16)
Embora haja uma grande variedade de operadores de gradiente, sero mencionados aqui
apenas os operadores de Roberts, Prewitt e Sobel. O operador de Roberts (2 x 2) executa o
gradiente cruzado, i.e.,o clculo das diferenas dos nveis de cinza executado em uma
direo rotacionada de 45, ao invs do clculo nas direes horizontal e vertical.
G x = 1
0
0
G y = 0
1 e
1
1
0
(17)
0
0
0
1
1
1
e Gy = 0
1
0
1
1
0
1
(18)
3.4
0
0
0
1
1
2 e Gy = 0
1
1
2
0
2
1
0
1
(19)
Morfologia Matemtica
partir da qual uma pequena rea relacionada a um pixel alterada para um dado padro.
Todavia, dependendo do tipo de imagem sendo processada (preto e banco, tons de cinza ou
colorida) a definio destas operaes muda, de forma que cada tipo deve ser considerado
separadamente. As demais operaes e transformaes baseiam-se nos operadores bsicos
dos conjuntos, algumas interativas, e nos dois operadores bsicos da morfologia matemtica.
Seja a imagem da Fig. 23, na qual h dois objetos ou conjuntos de pixels A e B.
Considere-se que os valores que os pixels podem assumir so binrios, i.e., 0 ou 1, o que
2
permite restringir a anlise ao espao discreto Z .
n
O objeto A consiste dos pontos com pelo menos uma propriedade em comum, a saber:
Objeto A: A = { propriedad e ( ) = Verdade }
(20)
AC = { A}
(21)
(22)
A B = x C : a A e b B , x = a + b
(23)
(24)
23
(25)
Eroso: E (A, B) = A B = {x E | Bx A}
(26)
A dilatao, em geral, faz com que o objeto cresa no tamanho. Buracos menores do
que o elemento estruturante so eliminados e o nmero de componentes pode diminuir. Por
sua vez, a eroso reduz as dimenses do objeto. Objetos menores do que o elemento
estruturante so eliminados e o nmero de componentes pode aumentar. O modo e a
magnitude da expanso ou reduo da imagem dependem necessariamente do elemento
estruturante B. A aplicao de uma transformao de dilatao ou eroso a uma imagem sem
a especificao de um elemento estruturante, no produzir nenhum efeito.
24
3.5
Segmentao
25
conjunto de propriedades que ser usado para atribuir os pixels s diferentes regies prdefinidas, durante o processo de crescimento. Caso o resultado de tal clculo implique
agrupamentos de valores das propriedades, os pixels cujas propriedades se localizarem mais
perto do centride desses agrupamentos podero ser usados como sementes.
3.5.3 Segmentao Baseada em Bordas
A deteco de bordas, anteriormente discutida, possibilita a anlise de descontinuidades
nos nveis de cinza de uma imagem. As bordas na imagem de interesse caracterizam os
contornos dos objetos nela presentes, sendo bastante teis para a segmentao e identificao
de objetos na cena. Pontos de borda podem ser entendidos como as posies dos pixels com
variaes abruptas de nveis de cinza. Os pontos de borda caracterizam as transies entre
objetos diferentes. Vrias tcnicas de segmentao baseiam-se na deteco de bordas, sendo as
mais simples aquelas nas quais as bordas so detectadas pelos operadores de gradiente (e.g.
Sobel, Roberts, Laplaciano), seguida de um processo de limiarizao.
3.6
Extrao de
Caractersticas
Classificador
Padro
da Amostra
Extrao de
Caractersticas
Aprendizagem
Sada
Classificada
26
Exemplos de Aplicaes
O objetivo desta seo fornecer exemplos que abordem alguns dos conceitos e operaes
apresentadas nas sees anteriores. Com o fim de promover a disseminao da rea no Brasil, os
exemplos de aplicaes apresentados a seguir foram selecionados dos anais do principal evento
nacional da rea, o Simpsio Brasileiro de Computao Grfica e Processamento de Imagens.
4.1
Segmentao de imagens
Conforme visto na Seo 3.5, a segmentao de imagens tem como principal objetivo a
separao de objetos de interesse do background da imagem. Na segmentao por limiarizao, a
escolha de um limiar normalmente depende de caractersticas intrnsecas da imagem, e.g. entropia
e outras estatsticas, no levando usualmente em conta a percepo humana do processo de
segmentao. Numa abordagem alternativa para realizar a limiarizao de imagens em tons de
cinza, foi proposto em [17] um mtodo de modelagem perceptiva que aprende a deciso
humana na limiarizao atravs de uma rede de funes de base radial (RBFN), uma mquina
de aprendizagem que permite aproximar a funo que mapeia caractersticas globais da
imagem (e.g. desvio padro dos tons de cinza) em limiares escolhidos por humanos. A partir de
imagens de treinamento, o usurio seleciona o limiar (nvel de cinza) que melhor separa os
pixels do background daqueles do objeto. As decises so armazenadas em uma tabela de 2
colunas, a primeira coluna armazena o limiar escolhido e a outra armazena uma caracterstica
global da imagem. Essa tabela ento utilizada para o treinamento da RBFN. Como resultado da
comparao da modelagem perceptiva com trs outros mtodos automticos de segmentao por
limiarizao, verificou-se que as respostas humanas possuam alta correlao com alguns dos
mtodos automticos avaliados, demonstrando a viabilidade da abordagem proposta.
27
Reconhecimento de Manuscritos
28
caractersticas perceptivas foram obtidas a partir da anlise direcional dos pixels e incluram as
posies e tamanho das linhas ascendentes, descendentes e loops fechados, alm dos ngulos das
concavidades e uma estimativa para o tamanho da palavra. A ausncia de uma essas
caractersticas numa sub-regio particular foi indicada pelo valor 1. Para o classificador de
Modelos de Markov Escondidos, a partir do histograma de projeo horizontal dos pixels da
imagem do manuscrito, trs zonas foram definidas: ascendente, corpo e descendente. Um
processo de segmentao varivel, dependente das transies escuro-claro presentes na linha
central da palavra, aplicado. Em seguida, para cada segmento, foram identificadas
caractersticas perceptivas e caractersticas baseadas em deficincias na concavidade/
convexidade dos traos encontrados nesses segmentos. Na avaliao experimental, 3600
imagens de manuscritos contendo os meses do ano foram utilizadas para treinamento, 1200
para teste e 1200 para validao dos classificadores. Como resultado, verificou-se que a
melhor taxa de reconhecimento ocorreu para o classificador neural utilizando caractersticas
perceptivas (81,8%), enquanto foi possvel obter uma taxa de reconhecimento muito superior
combinando 3 classificadores (um baseado em Modelos de Markov Escondidos e 2 baseados
em Redes Neurais), com um resultado de 90.4% de correta classificao.
4.3
29
vizinho mais distante baseada nas transies entre cores. Para dois pixels p1 e p2, de cores
(r1,g1,b1) e (r2,g2,b2), foi definida uma medida de distncia d como sendo: d = | r1- r2| + | g1g2| + |b1- b2|. Considerando que cada componente de cor varia de 0 a 255, ento d varia de 0 a
765. A partir de uma vizinhana de 4 pixels (acima, abaixo, esquerda e direita), um vizinho p2
de p1 considerado como sendo o vizinho mais distante se a medida d para p2 for a maior de
todas as distncias dentro da vizinhana. A mtrica de saturao de um pixel p = (r,g,b)
definida como |m - n|, em que m e n so os valores mnimo e mximo entre os valores de r,g e
b, respectivamente. A mtrica do histograma de cores definida a partir da correlao entre o
histograma de uma imagem t de teste e os histogramas mdios para um conjunto de referncia f
de fotografias e outro conjunto de referncia g para grficos. Supondo a = C(Ht, Hf) e b = C(Ht,
Hg), em que C a correlao (produto interno) entre dois histogramas, a mtrica do histograma
de cores foi definida como s = b / (a + b). Claramente, a medida que a aumenta, s tambm
aumenta, e, medida em que b aumenta, s diminui. Assim, espera-se que fotografias tenham
uma resposta maior em s quando comparadas a grficos. A mtrica do histograma do vizinho
mais distante baseou-se nas mesmas premissas da mtrica do vizinho mais distante, mas
fornece uma forma diferente de testar a imagem. A mtrica da proporo definida como m /
l, em que m o valor mximo entre a altura e a largura da imagem e l o valor mnimo.
Finalmente, a mtrica da menor dimenso simplesmente o valor de l.
Na fase experimental, foram definidos dois conjuntos de treinamento, contendo
grficos e fotografias nos formatos e imagem GIF (3058 grficos e 1350 fotografias) e JPEG
(1434 grficos e 4763 fotografias). Para cada conjunto de treinamento, foram extradas as
mtricas discutidas acima e cada vetor de caractersticas de uma dada imagem recebeu um
rtulo (grfico ou fotografia) atravs de inspeo visual da imagem. A aplicao do
algoritmo ID3 gerou uma rvore de deciso para a classificao de cada conjunto. As taxas
mdias de classificao correta em imagens de teste, no utilizadas durante o treinamento,
corresponderam a 97,3% para imagens GIF e 93,9% para imagens JPEG, com desvios
padro de 1,6 e 2,6, respectivamente.
Consideraes Finais
O presente tutorial forneceu uma viso geral da rea de PDI, tendo como um dos objetivos
despertar, por parte de alunos brasileiros de nvel tcnico e superior, o interesse pela rea. Outro
objetivo foi o de permitir uma reciclagem ou um primeiro contato de profissionais dos diferentes
setores da economia, cujas atividades envolvam alguma informao baseada em imagens. Por se
tratar de uma rea bastante ampla, no foi possvel incluir todos os possveis tpicos relevantes,
mas procurou-se fornecer um mnimo de detalhes associados a cada etapa de processamento em
um sistema tpico de PDI, da aquisio classificao. Para aqueles interessados em se
aprofundar nos tpicos pouco explorados, e.g. segmentao, extrao de caractersticas e
classificao, ou em outros tpicos igualmente importantes que no puderam ser includos neste
documento por restries de espao, e.g. transformaes geomtricas, representao no domnio
da freqncia (transformada de Fourier e Wavelets), tcnicas de compresso, dentre muitos
outros, podero faz-lo consultando as referncias apresentadas a seguir.
30
Referncias
[1] JHNE, B. Digital Image Processing. Springer-Verlag, 2002.
[2] ACHARYA, T., RAY, A. K. Image Processing- Principles and Applications. John
Wiley & Sons, Inc. 2005.
[3] GONZALEZ, R., WOODS, P. Digital Image Processing. Prentice Hall, 2002, 2nd ed.
[4] FORSYTH, D., PONCE, J. Computer Vision: A modern approach. Prentice Hall, 2001.
[5] JHNE, B., HAUSSECKER, H. (Eds.) Handbook of Computer Vision and
Applications. Academic Press, 2000.
[6] RENCZ, A. N., RYERSON. R. A. (Eds.) Manual of Remote Sensing, Remote Sensing
for the Earth Sciences. John Wiley & Sons, Inc. 1999, 3rd ed.
[7] HANSEN, C. D., JOHNSON, C. R. Visualization Handbook. Elsevier, 2005.
[8] RUSS, J. C. The image processing handbook. CRC Press LLC, 2000 3rd ed.
[9] BANKMAN, I. (Ed.) Handbook of Medical Imaging: Processing and Analysis.
Academic Press. 2000.
[10] MATHERON, G. Random sets and integrated geometry. Wiley, 1975.
[11] SERRA, J. Introduction to mathematical morphology, Computer Vision, Graphics and
Image Processing, 35(3):283305, September 1986.
[12] SERRA, J. Image analysis and mathematical morphology. Academic Press, London, 1988.
[13] DOUGHERTY, E. R., LOTUFO, R. A. Hands-on Morphological Image Processing,
SPIE Press, Bellingham, 2003, 1st ed.
[14] CESAR JR, R. M., COSTA, L. F. Shape Analysis and Classification Theory and
Practice. CRC Press, 2001.
[15] HAYKIN, S. Neural Networks: A Comprehensive Foundation. Prentice Hall. 1998. 2nd ed.
[16] DUDA, R. O. Pattern Classification, John Wiley & Sons, Inc., 2000, 2nd ed.
[17] LOPES, L. M., CONSULARO, L. A. A RBFN Perceptive Model for Image
Thresholding, Proc. of SIBGRAPI, pp 225-232, 2005.
[18] YONEKURA, E., FACON, A. J. 2-D Histogram-based Segmentation of Postal
Envelopes, Proc. of SIBGRAPI, pp 247-251, 2003.
[19] OLIVEIRA JR., J. J., CARVALHO, J. M., FREITAS, C. O. A., SABOURIN, R.
Evaluating NN and HMM Classifiers for Handwritten Work Recognition, Proc. of
SIBGRAPI, pp 210-217, 2002.
[20] OLIVEIRA, C. J. S., ARAJO, A. A., SEVERIANO JR, C. A.., GOMES, D. R.
Classifying Images Collected on the World Wide Web, Proc. of SIBGRAPI, pp 327334, 2002.
31