Professional Documents
Culture Documents
TESE DE DOUTORAMENTO
Tese submetida Escola de Engenharia da Universidade do Minho para obteno do grau de Doutor em
Tecnologias e Sistemas de Informao, na especialidade de Sociedade da Informao,
sob a orientao da Professora Doutora Ana Alice Baptista e
Professor Doutor Jos Carlos Ramalho.
ii
minha filha...
...que brinque para sempre nos confins do firmamento...
iii
iv
AGRADECIMENTOS
Finalmente, gostaria de agradecer aos meus orientadores, sem os quais este trabalho nunca
teria sido possvel. Professora Ana Alice Baptista, filsofa da computao, mulher de ideias
elevadas, que tantas vezes exigiu que o meu crebro se colocasse em bicos-de-ps; e ao
Professor Jos Carlos Ramalho, rico em experincias, tecnlogo por excelncia, com o mais
apurado sentido prtico da vida; a ambos, o meu mais sincero obrigado por me terem deixado
crescer intelectualmente a seu lado.
Miguel Ferreira
v
vi
RESUMO
vii
durante uma migrao (controlo de qualidade); produzir relatrios que possam ser utilizados
como metainformao de preservao e que documentam a interveno de preservao
(autenticidade); e fornecer sugestes de formatos de destino e/ou servios de converso que
maximizem a satisfao da entidade-cliente (seleco de alternativas de migrao).
O sistema desenvolvido foi avaliado no que diz respeito sua capacidade de produzir
recomendaes de alternativas de migrao capazes de satisfazer os requisitos de preservao
manifestados por uma entidade-cliente. A avaliao incidiu ainda sobre a capacidade
demonstrada pelo sistema em aferir o nvel de degradao incorrido num objecto digital
durante uma migrao de formato, especialmente no que toca a propriedades significativas de
carcter subjectivo.
O sistema foi avaliado recorrendo a coleces de teste constitudas por imagens matriciais em
diferentes formatos. Os resultados obtidos demonstram que o sistema capaz de determinar
eficazmente a similaridade grfica entre imagens, apresentando valores de correlao
superiores a 0.81 entre as opinies produzidas por avaliadores humanos e mtodos
automticos de clculo de similaridade. No que toca capacidade do sistema em determinar o
nvel de deteriorao da metainformao embebida nas imagens, este apresentou valores de
correlao acima dos 0.96 entre os valores produzidos pela mtrica de J a c c a r d e os valores
de referncia associados coleco de teste.
viii
ABSTRACT
During the second half of the 20th century, mankind has passively witnessed the worldwide
proliferation of digital technologies. These technologies are currently present in every aspect
of todays civilized life and natively support a great deal of human activities. Distinct actions
such as telling the time or planning a mission to Mars are now entirely supported by digital
technologies. This growth has been accompanied by an overwhelming expansion of digital
information.
Digital information has a lot of advantages over traditional analogue information. However, it
carries a structural problem that may hinder its accessibility in the long run. Digital
information requires the presence of a technological environment (hardware and/or software)
in order to be adequately rendered for human consumption. This technological dependency
makes it vulnerable to the rapid evolution of digital technologies as well as technological
ruptures caused by non-retrocompatible developments.
To insure the continuous access to digital information, several strategies have been proposed:
emulation, format migration, encapsulation, etc. However, there is still a great deal of work to
be done in what concerns making these processes more automatic and user-friendly.
Moreover, issues regarding the authenticity of digital materials have always been a concern for
information science professionals.
This thesis aims at solving the previously outlined issues, focusing especially on the
automation of migration-based preservation strategies. In order to accomplish this goal, we
have developed a Service Oriented Architecture (SOA) specially designed to assist cultural
heritage institutions in the implementation of preservation interventions. The proposed SOA
delivers a recommendation service and a method to carry out complex format migrations. The
recommendation service is supported by three evaluation components that assess the quality
of every migration intervention in terms of its performance, suitability of involved formats and
data loss. The proposed system is also able to produce preservation metadata that can be used
by any client institution to document preservation interventions and retain objects
authenticity.
ix
The system has been evaluated in what concerns its ability to produce suggestions of migration
services that maximize the preservation requirements of any given client institution. The
evaluation process also focused the systems ability to determine the level of degradation
imposed to a digital object during a migration process, especially in what concerns its
subjective significant properties, i.e., pixel correctness and embedded metadata.
The system was evaluated using datasets of raster images encoded in several formats. The
results of this research show that the proposed system is capable of effectively calculating the
similarity between digital images, revealing a correlation value superior to 0.81 between
automatic similarity algorithms and the mean opinions scores provided by human evaluators.
In what concerns the systems ability to determine the level of degradation occurred in the
image metadata, the system showed correction values above 0.96 while using a modified
version of the J a c c a r d s i m i l a r i t y m e t r i c .
The recommendation system showed a level of correlation of 0.68 to 0.85 (with a maximum
precision of 34.9%) when suggestions based on previously executed migrations were
compared with the ideal rankings of migration services calculated specifically for a given
object.
The main contributions of this research are: the ability to preserve digital information using a
format migration strategy without having to deploy complex migration systems; the ability to
obtain detailed migration reports that document the entire preservation intervention which can
be used as preservation metadata to ensure information authenticity; and the possibility of
comparing and assessing different migration options and objectively choose the one that
maximises the satisfaction of a client institution.
x
CONTEDO
INTRODUO ....................................................................................................................................1
1.1 Estratgias de preservao digital........................................................................................... 2
1.2 Motivao ................................................................................................................................... 4
1.3 Objectivos e contributos.......................................................................................................... 5
1.4 Organizao da tese.................................................................................................................. 8
xii
7.1 Sntese...................................................................................................................................... 181
7.2 Concluses e discusso ........................................................................................................ 183
7.3 Contributos ............................................................................................................................ 191
7.4 Trabalho futuro ..................................................................................................................... 193
APNDICES ....................................................................................................................................197
8.1 Ferramentas de extraco de propriedades...................................................................... 197
8.1.1 Image IO ...................................................................................................................... 198
8.1.2 ExifTool 7.15............................................................................................................... 198
8.1.3 Microsoft Office Word 2003.................................................................................... 199
8.1.4 OpenOffice.org Writer 2.2........................................................................................ 200
8.1.5 PDFBox........................................................................................................................ 200
8.2 Taxionomia geral de avaliao............................................................................................ 202
8.3 Funes de similaridade....................................................................................................... 203
8.3.1 Similaridade numrica................................................................................................205
8.3.2 Similaridade vectorial ................................................................................................. 206
8.3.3 Similaridade textual..................................................................................................... 207
8.3.4 Similaridade entre conjuntos..................................................................................... 210
8.3.5 Similaridade de XML ................................................................................................. 211
8.3.6 Similaridade grfica..................................................................................................... 212
8.4 Teste no-paramtrico de Wilcoxon.................................................................................. 218
8.5 Validao cruzada.................................................................................................................. 219
8.6 Licena de uso e distribuio do CRiB ............................................................................. 221
ANEXOS ..........................................................................................................................................223
9.1 Interpretao de valores-P................................................................................................... 223
xiii
xiv
LISTA DE FIGURAS
Figura Pgina
xv
Figura 29 Diagrama de classes associadas ao processo de converso......................................... 81
Figura 30 Outros mtodos disponibilizados pelo CRiB................................................................ 83
Figura 31 Relaes entre entidades que descrevem um servio de converso.......................... 84
Figura 32 Arquitectura detalhada do Service Registry.................................................................... 86
Figura 33 Mtodos disponibilizados pelo Service Registry........................................................... 87
Figura 34 Mtodos disponibilizados pelo Format Identifier. ....................................................... 88
Figura 35 Arquitectura detalhada do Migration Broker................................................................. 89
Figura 36 Mtodos disponibilizados pelo Migration Broker. ....................................................... 90
Figura 37 Mensagens trocadas pelo Migration Broker. ................................................................. 90
Figura 38 Interface comum a todos os servios de converso..................................................... 91
Figura 39 Caminho de migrao com baixa estabilidade............................................................... 93
Figura 40 Clculo do tempo de migrao......................................................................................... 94
Figura 41 Clculo do custo de utilizao de uma migrao composta. ...................................... 94
Figura 42 Arquitectura detalhada do Object Evaluator................................................................. 98
Figura 43 Arquitectura detalhada do comparador de objectos conceptuais.............................. 99
Figura 44 Mtodos disponibilizados pelo Object Evaluator. ....................................................101
Figura 45 Mensagens trocadas pelo Object Evaluator.................................................................102
Figura 46 Taxionomia de avaliao de imagens matriciais..........................................................106
Figura 47 Taxionomia de avaliao de documentos de texto.....................................................108
Figura 48 Arquitectura do Format Evaluator................................................................................111
Figura 49 Diagrama de classes associadas ao Format Evaluator. ..............................................112
Figura 50 Clculo do benefcio de migrao..................................................................................114
Figura 51 - Diagrama de sequncia do processo de recomendao. ............................................120
Figura 52 Arquitectura do Migration Advisor...............................................................................121
Figura 53 Diagrama de classes e mensagens trocadas pelo Migration Advisor.......................122
Figura 54 Arquitectura geral do motor de recomendao...........................................................122
Figura 55 Clculo de pontuao de um caminho de migrao. ................................................123
Figura 56 Exemplo de normalizao de taxionomia pesada segundo uma escala Likert
de 1 a 5..............................................................................................................................123
Figura 57 Agregao de resultados e clculo de pontuao........................................................126
Figura 58 Screenshot da aplicao utilizada para comparar imagens............................................144
Figura 59 Projeces de MOS com (a) RMSE, (b) UQI, (c) SSIM e (d) CBM.......................149
xvi
Figura 60 Conjunto de imagens com RMSE0.96 e valores de UQI, SSIM e CBM
distintos............................................................................................................................. 153
Figura 61 Teste do sistema de recomendao............................................................................... 165
Figura 62 Plato e os servios de migrao do CRiB..................................................................... 177
Figura 63 Interface grfica do Repositrio de Objectos Digitais Autnticos.......................... 178
Figura 64 Taxionomia geral de avaliao........................................................................................ 202
Figura 65 Algoritmo da distncia de Levenshtein......................................................................... 208
Figura 66 Definio formal de imagem matricial.......................................................................... 212
Figura 67 Classes de mtricas de similaridade grfica.................................................................. 213
Figura 68 Deteco de (1) contornos, (2) texturas e (3) regies planas usando uma
mscara de Sobel............................................................................................................. 217
Figura 69 Diagrama de processamento da mtrica CBM............................................................ 218
Figura 70 Exemplo do mtodo de validao cruzada com 4 dobras........................................ 221
xvii
xviii
LISTA DE TABELAS
Tabela Pgina
xix
Tabela 26 Resultados produzidos pelo mtodo de Jaccard modificado...................................161
Tabela 27 Desempenho dos dois mtodos de clculo de similaridade de metainformao
embebida. .........................................................................................................................162
Tabela 28 Descrio das coleces de imagens utilizadas na avaliao do componente
Migration Advisor...........................................................................................................166
Tabela 29 Caminhos de converso utilizados na avaliao do Migration Advisor.................167
Tabela 30 Dados relativos ao treino e teste do componente Migration Advisor. ..................168
Tabela 31 Resultados da validao cruzada efectuada ao Migration Advisor..........................170
Tabela 32 Caractersticas da nova coleco de teste de cardinalidade 10.................................171
Tabela 33 Resultados da validao cruzada efectuada ao Migration Advisor com a nova
coleco de teste de cardinalidade 10..........................................................................171
Tabela 34 Propriedades extradas e formatos suportados pela biblioteca Java Image I/O..198
Tabela 35 Propriedades extradas e formatos suportados pela ferramenta ExifTool...........199
Tabela 36 Propriedades extradas pela ferramenta Microsoft Office Word 2003 ..................199
Tabela 37 Propriedades extradas pela ferramenta OpenOffice.org Writer 2.2......................200
Tabela 38 Propriedades extradas pela ferramenta PDFBox......................................................201
Tabela 39 Mtricas utilizadas para comparar imagens matriciais..............................................204
Tabela 40 Mtricas utilizadas para comparar documentos de texto........................................205
Tabela 41 Resultados da aplicao do teste de Wilcoxon para comparao de mdias.........219
xx
LISTA DE EQUAES
Equao Pgina
xxi
xxii
LISTA DE FRMULAS
Frmula Pgina
xxiii
Frmula 28 Valor global de SSIM que combina os valores de SSIM das M janelas
amostradas........................................................................................................................217
Frmula 29 Diferena entre as avaliaes subjectivas e os valores objectivos........................219
Frmula 30 Formulao de hipteses.............................................................................................219
xxiv
GLOSSRIO
ASCII. American Standard Code for Information Interchange. Conjunto de cdigos capaz de
representar letras, dgitos e outros smbolos, amplamente utilizado por computadores na troca
e armazenamento de informao textual.
DVD. Digital Versatile Disk. Suporte fsico de armazenamento baseado em tecnologia ptica.
Fisionomicamente semelhante a um CD-ROM mas com uma capacidade de armazenamento
vrias vezes superior.
xxv
Encapsulamento. Preservar, juntamente com um objecto digital, toda a informao
necessria e suficiente para permitir o futuro desenvolvimento de conversores, visualizadores
ou emuladores que garantam o acesso informao veiculada. Esta informao poder
consistir, por exemplo, numa descrio formal e detalhada do formato do objecto preservado.
Flash-drive. Dispositivo que combina uma memria flash com uma interface USB,
vulgarmente utilizado para armazenar informao digital. Este dispositivo tambm
vulgarmente conhecido por pen-drive.
GIF. Graphics Interchange Format. Formato matricial para representao de imagens digitais.
JPEG. Joint Photographic Experts Group. Formato matricial para representao de imagens
digitais.
Objecto digital. Todo e qualquer objecto de informao que possa ser representado atravs
de uma sequncia de dgitos binrios (bitstream). Documentos de texto, fotografias digitais,
diagramas vectoriais, bases de dados, sequncias de vdeo e udio, modelos de realidade virtual,
xxvi
pginas Web e jogos ou aplicaes de software so apenas alguns exemplos do que pode ser
considerado um objecto digital.
PDF. Portable Document Format. Formato digital vulgarmente utilizado para representar
documentos de texto com formatao e estrutura.
Pixel. Abreviatura de picture element. O mais pequeno elemento de informao visual que faz
parte de uma imagem digital.
PNG. Portable Network Graphics. Formato matricial para representao de imagens digitais.
TARGA. Truevision TGA. Formato matricial utilizado para representar imagens digitais.
TIFF. Tagged Image File Format. Formato matricial vulgarmente utilizado para representar
imagens digitais.
xxvii
xxviii
SIGLAS E ACRNIMOS
xxix
OAIS. Open Archival Information System.
xxx
Captulo 1
Introduo
Ao longo da segunda metade do sculo XX, a humanidade assistiu massificao generalizada
das tecnologias digitais. Estas encontram-se presentes em todos os quadrantes do mundo
civilizado e suportam grande parte da actividade humana. Actividades to dispares como
consultar as horas ou planear uma misso espacial a Marte so, hoje em dia, inteiramente
suportadas por tecnologias desta natureza. Esta expanso foi desde logo acompanhada por um
aumento da produo de informao digital.
Um estudo realizado pela consultora IDC1 revela que a produo de informao digital tem
vindo a sofrer um aumento com caractersticas exponenciais. Em 2007, o universo digital foi
estimado em 281 Exabytes de informao (i.e., mil milhes de Gigabytes), ou seja, cerca de 45
Gigabytes por cada pessoa existente no planeta. Em 5 anos, prev-se que esse valor seja 10
vezes superior (Gantz et al., 2008).
1 http://www.idc.com
1
tipo de ferramentas e o aumento crescente de informao digital (Teixeira, Ferreira, &
Verhaegh, 2003).
Apesar das inmeras vantagens que decorrem da utilizao de informao digital, importante
realar que esta acompanhada de um problema estrutural que coloca em risco a sua
longevidade. Este tipo de material, embora possa ser copiado infinitas vezes sem perder
qualidade, requer a presena de um contexto tecnolgico, hardware e/ou software, para que
possa ser apresentado de forma inteligvel a um ser humano. Esta dependncia tecnolgica
torna-o particularmente vulnervel rpida obsolescncia a que a tecnologia est sujeita (Chen,
2001).
2 Esta definio suficientemente lata para acomodar tanto, informao que nasceu num contexto tecnolgico digital (objectos
nado-digitais), como informao digital obtida a partir de suportes analgicos (objectos digitalizados).
2
capacidade de reproduzir com elevado grau de fidelidade a funcionalidade e apresentao do
objecto original (Lee et al., 2002; Rothenberg et al., 1999). O recurso a emuladores est
geralmente associado preservao de objectos digitais complexos3 dotados de propriedades
dinmicas e/ou interactivas como caso das aplicaes de software.
3 Objectos digitais complexos so geralmente constitudos por vrios subcomponentes que podero, inclusivamente, estar
distribudos por vrios ns de processamento, i.e., servidores. Um exemplo deste tipo de objectos so pginas Web que so
constitudas por texto, imagens, vdeos, ligaes a outras pginas, etc.
3
de qualquer uma das alternativas expostas necessita geralmente que diversos factores sejam
tomados em considerao, como por exemplo: as caractersticas da coleco que se pretende
preservar, a satisfao dos potenciais utilizadores da informao ou os custos associados ao
processo de preservao (Rauch & Rauber, 2004).
1.2 Motivao
O problema geral da obsolescncia tecnolgica afecta todos aqueles que lidam com
informao digital. Afecta indivduos que acumulam toda uma vida de memrias
materializadas em fotografias, msicas e filmes codificados em formatos digitais (Teixeira et al.,
2003). Afecta organizaes que produzem no seu dia-a-dia grandes volumes de informao,
muita desta vital para o exerccio da sua actividade. Afecta as instituies de ndole cultural,
como arquivos, bibliotecas e museus, onde se comeam a dar os primeiros passos na
incorporao de artefactos digitais com elevado valor patrimonial ou com imposies legais
que determinam a sua reteno e preservao a longo-prazo.
Mesmo aqueles que no manipulam directamente informao digital dependem desta no seu
dia-a-dia. A televiso que chega a suas casas suportada por formatos digitais, assim como a
msica que consomem, os seus registos fiscais e financeiros, as fotografias e outdoors que vem
na rua, as conversas ao telemvel, os raios-X e registos clnicos mantidos pelo seu mdico de
famlia, at mesmo os livros que lem confortavelmente na praia ou no sof j existiram, de
uma forma ou outra, em formato digital.
4
concertada sendo necessrio a elaborao de mecanismos que facilitem, sistematizem e
validem os processos que lhe so inerentes (C. A. Lynch, 2003).
Apesar dos progressos sentidos no domnio da preservao digital, continua a existir um vazio
assinalvel no que diz respeito automatizao de estratgias de preservao (Ross &
Hedstrom, 2005). Em paralelo, questes relacionadas com a autenticidade dos objectos
digitais, a validao das actuais estratgias de preservao e a necessidade, sempre crescente, de
reduzir os custos da sua implementao assumem particular destaque na lista de preocupaes
dos profissionais envolvidos em processos de preservao de materiais digitais (Ross &
Hedstrom, 2005). Este trabalho de investigao visa contribuir para a soluo destes
problemas, dando especial nfase automatizao dos processos de preservao baseados em
migrao.
5
importante referir que a implementao de uma estratgia de migrao pressupe a
realizao de um conjunto mnimo de actividades, nomeadamente, a seleco de uma
estratgia de migrao de entre um conjunto alargado de opes disponveis, a converso dos
materiais e a avaliao dos resultados obtidos numa perspectiva de controlo de qualidade.
Qual o conjunto de servios que permite implementar, de forma transversal e automtica, todos os
processos inerentes migrao de objectos digitais num contexto de preservao digital, sem que
haja prejuzo da sua autenticidade?
7
O acesso a um modelo de arquitectura e respectiva implementao capaz de avaliar o
desempenho de uma migrao segundo mltiplos critrios, nomeadamente:
performance operacional, aptido dos formatos envolvidos e quantificao da
informao perdida durante uma interveno de preservao.
O primeiro captulo, Introduo, apresenta uma viso geral sobre a investigao desenvolvida.
efectuada uma introduo temtica da preservao digital onde so descritas,
sucintamente, as principais estratgias de preservao propostas pela comunidade cientfica.
Neste captulo so ainda apresentadas as motivaes que conduziram ao desenvolvimento
desta tese, a questo de investigao que a norteou e os contributos que dela resultaram.
O segundo captulo descreve todo o trabalho que serviu de base investigao realizada, i.e., o
estado da arte. Nele so abordados temas como: o conceito de objecto digital, de preservao
digital, o modelo de referncia OAIS, estratgias de preservao digital, directrios de
formatos, critrios para a autenticidade, metainformao de preservao e modelos de
avaliao de estratgias de preservao.
O captulo seguinte consiste num enquadramento terico que facilita a compreenso das
diferentes fases inerentes a um processo de migrao. Este captulo apresenta um cenrio de
preservao que permite identificar algumas das principais dificuldades com que um
profissional da rea se debate, servindo de ponto de partida para a identificao de um
conjunto de servios considerados indispensveis para que seja possvel automatizar processos
de preservao baseados em migrao. ainda descrito em detalhe um conjunto de
ferramentas que permitem implementar os servios de preservao previamente identificados.
8
O quinto captulo dedicado metodologia de validao dos componentes desenvolvidos.
Nele so apresentadas todas as experincias realizadas em torno da plataforma e que
demonstram a sua adequabilidade aos fins a que se prope.
O sexto captulo apresenta e descreve dois projectos com relevncia nacional e internacional
que adoptaram a plataforma de servios que ir ser apresentada ao longo desta tese.
9
10
Captulo 2
Preservao digital
Desde a inveno da escrita que existe uma manifesta preocupao em torno da preservao
de artefactos que resultam de processos intelectuais e criativos do ser humano (Proena &
Lopes, 2004). A preservao desses artefactos permite que geraes futuras sejam capazes de
compreender e contextualizar a histria e a cultura dos seus povos (Lee et al., 2002). Os
museus, as bibliotecas e os arquivos tm assumido, neste contexto, um papel determinante
responsabilizando-se pela sua preservao e conservao.
Nos dias que correm, uma parte significativa da produo intelectual realizada com o auxlio
de ferramentas digitais. A simplicidade com que o material digital pode ser criado e
disseminado atravs das modernas redes de comunicao e a qualidade dos resultados obtidos
so factores determinantes na adopo deste tipo de ferramentas.
Apesar das inmeras vantagens inerentes sua utilizao, o material digital acarreta um
problema estrutural que coloca em risco a sua longevidade. Embora um documento digital
possa ser copiado infinitas vezes sem qualquer perda de qualidade, este exige a presena de um
contexto tecnolgico para que possa ser interpretado por um ser humano. Esta dependncia
tecnolgica torna-o particularmente vulnervel rpida obsolescncia a que geralmente a
tecnologia est sujeita (Ferreira, Baptista, & Ramalho, 2005).
11
O curso da histria tem revelado inmeros exemplos fatdicos de obsolescncia tecnolgica.
Na dcada de 70, a multinacional japonesa Sony introduziu um formato de vdeo designado
Betamax (Figura 1). Comparativamente ao comum VHS5 (Figura 2), a cassete Betamax era de
menores dimenses e oferecia uma qualidade de imagem superior. O pico da sua popularidade
foi atingido em 1983 quando cerca de um tero do mercado de vdeo domstico era dominado
por este formato (IEEE History Center; Nayak & Ketteringham, 1994; Shiraishi, 1985).
Um exemplo mais recente de obsolescncia tecnolgica, desta vez no domnio digital, reporta-
se ao uso das populares disquetes de 3.5 polegadas (Figura 3). Em Maro de 2003, o fabricante
Dell Computer Corporation anunciou que os seus computadores deixariam de integrar
12
dispositivos de leitura para este tipo de suporte (Figura 4). Vrios fabricantes seguiram de
imediato o seu exemplo (Kenney, McGovern, Entlich, Kehoe, & Olsen, 2003).
Actualmente, ainda possvel adquirir dispositivos capazes de ler disquetes de 3.5 polegadas.
No entanto, o mercado inclina-se rapidamente para o uso de DVD e flash-drives.
No mundo actual, onde cada vez mais organizaes dependem da informao digital que
produzem, torna-se premente a implementao de tcnicas e de polticas concertadas que vo
no sentido de garantir a perenidade e a acessibilidade a este tipo de informao.
13
autntica na presena de uma plataforma tecnolgica diferente daquela que fora inicialmente
utilizada no momento da sua criao.
Foram muitas as iniciativas que ajudaram a construir a base de conhecimento que hoje suporta
o domnio cientfico da preservao digital. Dessas iniciativas resultaram ideias, conceitos e
estratgias que levaram discusso e ao reconhecimento universal deste problema. Neste
captulo pretende-se descrever as mais relevantes iniciativas no domnio da preservao digital,
bem como contextualizar os principais conceitos que orientam a linha de pensamento que
alicera esta tese.
Este captulo est organizado da seguinte forma: a seco 2.1 introduz o conceito de objecto
digital; na seco 2.2 introduzida alguma da terminologia que ser utilizada ao longo da tese
socorrendo-se para tal do modelo de referncia OAIS; na seco 2.3 so descritas as principais
estratgias de preservao apontadas pela comunidade cientfica; na seco 2.4 so descritas as
iniciativas mais relevantes no domnio dos directrios de formatos; a seco 2.5 aborda
questes relacionadas com autenticidade e introduz o conceito de propriedade significativa
realando a sua importncia na elaborao de polticas de preservao; a seco 2.6 explora a
importncia da utilizao de normas de metainformao como forma de dar suporte s
actividades de preservao digital, dando especial nfase ao dicionrio de dados PREMIS; o
captulo termina, na seco 2.7, com um sumrio e uma reflexo final que tm como objectivo
relacionar os diferentes conceitos e iniciativas apresentadas ao longo do captulo.
14
De modo a promover a compreenso e o enquadramento das diferentes estratgias de
preservao que sero descritas ao longo deste captulo, torna-se fundamental considerar e
analisar os diferentes nveis a que os objectos digitais podem ser interpretados.
Para que um ser humano seja capaz de decifrar um objecto digital, h um conjunto de
transformaes que devero ocorrer. Um objecto digital comea por ser um objecto fsico, i.e.,
um conjunto de smbolos ou sinais inscritos num suporte fsico (e.g. disco rgido, CD, DVD,
disquete, memria-flash, etc.).
O suporte fsico define o domnio dos smbolos a utilizar. Considere-se o seguinte exemplo:
uma fotografia digital pode ser inscrita numa vasta gama de suportes fsicos, no entanto, os
smbolos ou sinais fsicos utilizados para a representar num CD-ROM diferem
substancialmente dos utilizados para a representar num disco rgido (Thibodeau, 2002). No
primeiro exemplo, os smbolos utilizados so essencialmente pequenos orifcios reflectores
dispostos em espiral sobre uma base de policarbonato. No segundo, so utilizados padres
magnticos sobre um prato metlico. Independentemente do suporte utilizado, a fotografia
exactamente a mesma.
O objecto fsico constitui aquilo que, geralmente, o hardware capaz de interpretar (Figura 6).
O hardware assume aqui a responsabilidade de transformar os smbolos inscritos no suporte
fsico num conjunto de dados que o software capaz de manipular. Esse conjunto de dados
encontra-se organizado segundo as regras decretadas pelo software utilizado na criao do
objecto digital. Essas regras ou estruturas de dados constituem aquilo que vulgarmente se
designa por f o r m a t o de um objecto digital (Thibodeau, 2002). Essas estruturas constituem o
nvel de abstraco l g i c o ou s i n t c t i c o do objecto digital.
Os objectos semnticos assumem formas ou concepes familiares aos seres humanos, i.e.,
formas que existem no mundo real e que lhes so conhecidas, como livros, filmes ou
fotografias. Do ponto de vista do ser humano, o objecto conceptual constitui aquilo que deve
ser preservado.
15
Figura 5 Cadeia de interpretao desde o nvel fsico at ao nvel
conceptual.
No obstante, cada ser humano acaba por fazer uma interpretao individual do objecto
recebido. Essa interpretao ser aqui designada por o b j e c t o e x p e r i m e n t a d o ( Figura 6).
Apesar de teoricamente ser possvel captar e preservar o objecto experimentado, nenhuma das
estratgias de preservao apresentadas ao longo deste captulo iro abordar seriamente esta
questo.
16
De modo anlogo, quando um ser humano assume o papel de emissor (ou produtor de
informao), este mesmo conjunto de transformaes realizado, mas em sentido reverso.
Nesta situao, o objecto conceptual que ganhou forma no crebro do emissor codificado
numa linguagem passvel de ser comunicada (e.g. linguagem verbal, linguagem grfica, msica,
etc.). Essa linguagem poder ento ser transmitida a um receptor ou armazenada num suporte
fsico adequado sua reteno, passando inevitavelmente por um processo intermdio de
codificao que permite transformar a linguagem humana em cdigos passveis de serem
processados por um computador ou outro qualquer dispositivo digital.
Numa situao ideal, o objecto conceptual formado na mente do emissor ser igual ao objecto
conceptual concebido pelo receptor. Somente nessa situao a comunicao poder ser
considerada perfeita.
Para que a preservao de um objecto digital seja possvel, necessrio assegurar que todos os
nveis de abstraco anteriormente descritos (i.e., fsico e lgico) se mantenham acessveis e
interpretveis. Se a cadeia de interpretao que permite elevar um objecto desde o nvel fsico
at ao nvel conceptual for interrompida, a comunicao deixa de ser possvel e o objecto
perder-se- para sempre (Oltmans, Diessen, & Wijngaarden, 2004; Werf, 2002).
Segundo uma outra perspectiva, um dado objecto conceptual pode ser representado de
diversas formas, ou seja, este pode ser codificado em diferentes formatos lgicos, e cada um
destes ser inscrito em vrios suportes fsicos sem qualquer prejuzo da mensagem veiculada
(Hofman, 2002a). Voltando ao exemplo anterior, possvel conceber que uma fotografia
digital possa ser codificada em diversos formatos distintos, como TIFF, JPEG ou PNG, e
cada um destes possa ser armazenado em diferentes suportes fsicos distintos, e.g. DVD, disco
rgido, memria-flash, cartes perfurados, entre outros. (Figura 7).
17
Figura 7 Objecto digital observado a diferentes nveis de
abstraco.
O enquadramento do conceito objecto digital sob uma perspectiva semitica, i.e., recorrendo a
diferentes nveis de abstraco, facilita a compreenso das diversas estratgias de preservao
que sero apresentadas ao longo deste captulo.
Deste esforo nasceu o modelo de referncia OAIS (Open Archival Information System), um
modelo conceptual que visa identificar os componentes funcionais que devero fazer parte de
um sistema de informao dedicado preservao digital, bem como as suas interfaces
internas e externas e os objectos de informao trocados no seu interior (Consultative
Committee for Space Data Systems, 2002; B. F. Lavoie, 2004). O modelo foi aprovado como
uma norma internacional ISO em 2003 ISO Standard 14721:2003 (Consultative Committee
for Space Data Systems, 2002).
18
Um dos contributos mais notveis desta iniciativa foi a definio de uma terminologia prpria
que viria a facilitar a comunicao entre os diversos intervenientes envolvidos na preservao
de objectos digitais (Saramago, 2004). importante referir que ao longo desta tese a
terminologia utilizada segue o modelo de referncia OAIS.
?
Planeamento de preservao
Consumidor
Pacote de
Informao de
Produtor
Informao de
Submisso
Disseminao
Ingesto Acesso
Pacote de
Informao Pacote de
de Arquivo Repositrio Informao
de Arquivo
de dados
Administrao
Administrador
19
modo a tornar o SIP apto para preservao a longo-prazo. Deste processo resulta um P a c o t e
d e I n f o r m a o d e A r q u i v o 8 (AIP), ou seja, uma estrutura de dados que ser em ltima
instncia mantida e efectivamente preservada pelo repositrio.
20
componente, por exemplo, a elaborao de estratgias de preservao e a definio dos
formatos mais adequados para disseminar o material arquivado (Consultative Committee for
Space Data Systems, 2002; B. F. Lavoie, 2004). importante referir que as funes associadas
a este componente so vulgarmente desempenhadas por pessoas especializadas em tecnologia
e preservao digital.
Thibodeau, por sua vez, organiza as diferentes estratgias num mapa bidimensional
posicionando no seu extremo esquerdo as estratgias centradas na preservao do objecto
fsico e/ou lgico13 e no extremo oposto as estratgias centradas na preservao do objecto
conceptual (Figura 9). No eixo vertical as vrias estratgias so dispostas mediante o seu grau
21
de especificidade, i.e., se so estratgias apenas aplicveis a uma dada classe de objectos digitais
ou se se tratam de estratgias genricas, passveis de ser administradas a qualquer classe de
objectos digitais (Thibodeau, 2002).
Aplicao
Refrescamento
genrica
Encapsulamento
Maquina Virtual
Universal
Pedra de Rosetta
Normalizao/
Emulao Canonizao
Preservao de Migrao
Aplicao tecnologia
especfica
Preservao do Preservao do
objecto fsico/lgico objecto conceptual
2.3.2 Refrescamento
Um objecto digital torna-se persistente no momento em que inscrito num suporte fsico de
armazenamento (e.g. disquete, disco rgido, CD-ROM). Garantir a integridade do suporte
fundamental para que a informao nele armazenada possa ser correctamente interpretada. Se
o suporte fsico se deteriorar ou se se tornar obsoleto a ponto de deixarem de existir
perifricos capazes de o ler, ento a informao nele armazenada perder-se- de forma
irremedivel (Hendley, 1998).
2.3.3 Emulao
As estratgias de emulao baseiam-se na utilizao de um software especial, designado
E m u l a d o r , capaz de reproduzir o comportamento de uma plataforma de hardware e/ou
software, numa outra que de outra forma seria incompatvel (Rothenberg et al., 1999). A
grande vantagem desta abordagem est na capacidade de preservar, com um elevado grau de
fidelidade, as caractersticas e as funcionalidades do objecto digital original (Lee et al., 2002).
23
Existem, fundamentalmente, dois tipos de emuladores: emuladores de sistemas operativos e
emuladores de hardware. Os primeiros focam-se na reproduo de um sistema operativo
permitindo a execuo de diversas aplicaes no contexto de um nico emulador. Um
exemplo deste tipo de emuladores o Wine14, um emulador que permite executar aplicaes
desenvolvidas na plataforma Windows em ambientes Unix. O segundo tipo de emuladores
visa mimar o comportamento de uma plataforma de hardware, possibilitando que vrios
sistemas operativos e correspondentes aplicaes possam ser executados no contexto de um
nico emulador (Granger, 2000; Thibodeau, 2002). Apesar de mais versteis, este tipo de
emuladores obriga instalao de um sistema operativo completo, assim como todas as
aplicaes necessrias ao correcto funcionamento ou interpretao do objecto digital.
Exemplos deste tipo de emuladores so: VMware Workstation (VMWare, 1998) e o Parallels
Desktop (Parallels, 1995), muito utilizados actualmente para virtualizar mquinas, i.e., permitir
que vrias mquinas virtuais (i.e., baseadas em software e no hardware) possam ser executas
concorrentemente sobre um mesmo sistema operativo de base. Existem tambm vrios
emuladores de plataformas consideradas obsoletas, e.g. ZX Spectrum (Davidson & Pollard,
2005), Nintendo NES (Krijgsman, 2005), entre outras.
Hendley considera que a emulao apenas deveria ser utilizada em contextos onde a
comunidade de interesse valoriza a preservao do ambiente tecnolgico original ou ainda em
situaes em que os objectos digitais no so passveis de ser convertidos para formatos mais
actuais (Hendley, 1998). Outros autores consideram potencialmente arriscado confiar no
software original como forma de preservar objectos digitais, uma vez que este pode ser alvo de
vrus ou portador de bugs que podero, no futuro, resultar em perdas substanciais de
informao (Thibodeau, 2002; Waugh, Wilkinson, Hills, & Dell'oro, 2000).
14 http://www.winehq.org/
24
importante realar que a criao de especificaes capazes de descrever transversalmente
plataformas de hardware no uma tarefa simples de concretizar. Geralmente, implica recorrer
a mo-de-obra altamente especializada, o que por si s poder constituir um obstculo
considervel para a maioria das organizaes (Granger, 2000; Heslop, Davis, & Wilson, 2002;
Thibodeau, 2002). Para alm do disposto, a criao de especificaes imprecisas ou
incompletas poder impossibilitar a construo futura dos respectivos emuladores
(Holdsworth & Wheatley, 2001). tambm importante salientar que, com o tempo, o prprio
emulador ir sofrer de obsolescncia, havendo ento necessidade de o converter para uma
nova plataforma ou desenvolver um novo emulador capaz de emular o primeiro (Thibodeau,
2002).
25
A Figura 10 apresenta um cenrio de emulao onde um jogo de computador est a ser
executado por um emulador de ZX Spectrum, que por sua vez est a ser executado por um
emulador de Windows sobre Mac OS X.
2.3.4 Migrao/converso
A M i g r a o ou C o n v e r s o consiste na () transferncia peridica de material digital de
uma dada configurao de hardware/software para uma outra, ou de uma gerao de
tecnologia para outra subsequente (Task Force on Archiving of Digital Information et al.,
1996).
A migrao tem como principal objectivo garantir que os objectos digitais permanecem
compatveis com tecnologias actuais. Deste modo, um consumidor comum capaz de
interpretar esses objectos sem ter de recorrer a artefactos menos convencionais, como por
exemplo, emuladores. No entanto, os processos de migrao acarretam algumas desvantagens
que devero ser consideradas. Neste tipo de estratgias existe uma grande probabilidade de
algumas das propriedades que constituem os objectos digitais no serem correctamente
26
transferidas para o formato de destino adoptado (Hedstrom, 2001; Heslop et al., 2002). Isto
deve-se, sobretudo, a incompatibilidades estruturais entre os formatos de origem e destino ou
utilizao de conversores com pouca capacidade de realizar adequadamente as tarefas a que
se propem (Ferreira, Baptista, & Ramalho, 2006a; Lawrence et al., 2000; Rauber &
Aschenbrenner, 2001).
Existem diversas variantes de migrao que podero ser consideradas: migrao para suportes
analgicos, actualizao de verses, converso para formatos concorrentes, normalizao,
migrao a-pedido e migrao distribuda.
Esta estratgia, no entanto, apenas pode ser aplicada a objectos digitais que possuam uma
representao aproximada em suportes analgicos, como por exemplo, documentos de texto
ou imagens. Objectos interactivos e/ou dinmicos ficam automaticamente excludos deste tipo
de estratgias.
Actualizao de verses
bastante comum encontrar aplicaes de software capazes de abrir ou importar objectos
digitais produzidos por verses anteriores da mesma aplicao. Essas aplicaes permitem
geralmente gravar os objectos importados no formato produzido pela nova aplicao. Esta
operao designa-se por a c t u a l i z a o d a v e r s o do formato.
Idealmente, um fabricante asseguraria que todos os atributos presentes numa dada verso de
um formato estariam disponveis na verso que o substitui. No entanto, independentemente
do sucesso econmico de um fabricante ou produto de software, os formatos encontram-se
constantemente sujeitos a descontinuidade (Thibodeau, 2002). Uma forma de garantir que os
objectos digitais sobrevivem a este tipo de rupturas tecnolgicas consiste em convert-los para
formatos associados a uma linha de produtos concorrente.
Normalizao
A n o r m a l i z a o t em como objectivo simplificar o processo de preservao atravs da
reduo do nmero de formatos distintos que se encontram num repositrio de objectos
digitais (Lee et al., 2002; Thibodeau, 2002). Um nmero controlado de formatos permite que
uma estratgia de preservao seja aplicada de forma transversal a um grande nmero de
objectos digitais. A aplicao deste tipo de polticas de ingesto introduz uma reduo
generalizada dos custos de preservao, facilitando a gesto e a aplicao de eventos de
preservao (Hofman, 2001).
Considere-se um exemplo. Existe um leque alargado de opes no que diz respeito a formatos
para representao de imagens bidimensionais (e.g. BMP, GIF, JPEG, PNG, TARGA). Se
durante o processo de ingesto todas as imagens digitais forem convertidas para um nico
formato, futuras intervenes ao nvel da sua preservao podero ser realizadas de forma
mais simples e, consequentemente, mais econmica.
28
A escolha do formato de normalizao um factor determinante para o sucesso desta
estratgia. Sempre que possvel, devero ser escolhidos formatos reconhecidos pela
comunidade de interesse e baseados em normas internacionais abertas (Heslop et al., 2002).
Isto poder evitar futuras complicaes ao nvel dos direitos de autor e a necessidade de
pagamento de royalties (Ayre & Muir, 2004). Paralelamente, o formato de normalizao dever
ser suficientemente rico para que as caractersticas fundamentais dos vrios formatos possam
ser devidamente incorporadas.
Migrao a-pedido
O sucesso de uma migrao depende, fundamentalmente, da qualidade dos conversores
utilizados e da capacidade apresentada pelo formato de destino em acomodar o conjunto de
propriedades do formato de partida. Poder-se- assumir que sempre que efectuada uma
migrao, os objectos digitais resultantes so de alguma forma diferentes dos objectos de
partida. Ao fim de algumas converses sucessivas, os objectos preservados podero ser
substancialmente diferentes dos objectos originais (Figura 11). Para combater este fenmeno
surgiu uma estratgia designada por m i g r a o a - p e d i d o (Mellor, Wheatley, & Sergeant,
2002).
Neste tipo de migrao, ao invs das converses serem aplicadas ao objecto mais actual, estas
so sempre aplicadas ao objecto original (Figura 12). Deste modo, se de uma dada converso
resultar um objecto substancialmente diferente do original, numa futura converso o problema
poder ser resolvido recorrendo a um conversor de melhor qualidade ou a um formato de
destino mais adequado.
29
Figura 11 Degradao do objecto digital ao longo de sucessivas
migraes.
Esta abordagem possui como principal vantagem o facto de, uma vez construdo o mdulo de
descodificao do conversor (i.e., o mdulo capaz de ler as propriedades do formato de
origem), apenas ser necessrio desenvolver o codificador especfico para cada formato de
sada. No obstante, ser necessrio suportar ao longo do tempo um conjunto alargado de
conversores de modo a garantir a capacidade de transformar os objectos armazenados nos
seus formatos originais para formatos que sirvam adequadamente as necessidades dos seus
consumidores.
Migrao distribuda
Os mais recentes desenvolvimentos no contexto da migrao introduzem arquitecturas
distribudas de conversores (Figura 13). Neste tipo de migrao, existe um conjunto de
servios de converso que se encontram acessveis atravs da rede ou da Internet e que
podero ser invocados remotamente recorrendo a um pequeno mdulo de software ou
aplicao-cliente.
Existem actualmente vrias iniciativas que visam o desenvolvimento deste tipo de conversores.
O Typed Objects Model (TOM) implementa um sistema distribudo de conversores suportado
por uma taxionomia de tipos e formatos de objectos que recorre a agentes mediadores para
descobrir e executar converses entre formatos (Ockerbloom, 1998).
30
No Lister Hill National Center for Biomedical Communications (LHNCBC) foi desenvolvido
um Web service que converte cinquenta formatos distintos para PDF. Para alm do servio
disponibilizado, o LHNCBC oferece uma aplicao designada MyMorph que permite a
qualquer utilizador tirar partido do servio publicado (Walker & Thoma, 2003, 2004, 2005).
Hunter e Choudhury do um passo em frente no seu projecto PANIC propondo uma rede de
servios de converso suportada por uma descrio semntica que possibilita a sua descoberta
e invocao automtica por agentes de software (Hunter & Choudhury, 2004, 2005, 2006).
Este tipo de migrao apresenta algumas vantagens face s estratgias de migrao mais
convencionais, nomeadamente:
31
Apesar das vantagens apresentadas, a migrao distribuda poder no ser uma soluo
adequada a todos os contextos de utilizao. Um repositrio de informao digital pode
facilmente conter milhares de itens, atingindo nveis de armazenamento na ordem dos
Terabytes. Transferir atravs da Internet um volume de informao desta natureza acarreta
custos que podero ser impeditivos para muitas organizaes. Para alm disso, requisitos em
termos de largura de banda, segurana dos dados e tempo de transferncia podero ser
factores determinantes para o insucesso de estratgias desta natureza.
2.3.5 Encapsulamento
Por vezes no fcil determinar o valor intrnseco de determinados objectos digitais. Podero
passar-se muitos anos at que a comunidade de consumidores revele um particular interesse
por uma determinada coleco de objectos (Heminger & Robertson, 2004). Durante esse
tempo, o material custodiado poder nunca ser consultado. Neste tipo de cenrios, estratgias
de preservao que carecem de uma diligncia contnua (e.g. migrao) podero revelar-se
demasiado onerosas. As solues baseadas em e n c a p s u l a m e n t o procuram resolver este
problema, mantendo os objectos digitais inalterados at ao momento em que se tornam
efectivamente necessrios.
O Formato Universal de Preservao15 (UPF) trata-se de uma iniciativa que visa criar um
Raymond Lorie prope uma alternativa a esta estratgia substituindo a especificao formal
por uma aplicao de software compilada para uma m q u i n a v i r t u a l u n i v e r s a l , por
exemplo, para a Java Virtual Machine (Raymond A. Lorie, 2001; Raimond A. Lorie, 2002).
Esta aplicao na realidade um descodificador16 e tem como finalidade apresentar uma viso
lgica do objecto digital permitindo, deste modo, uma navegao simples atravs das suas
32
propriedades. Lorie argumenta que a mquina virtual universal suficientemente simples para
que possa ser implementada em qualquer arquitectura de hardware futura.
33
formato que se pretende recuperar. Estas amostras devero existir num formato que possa ser
directamente interpretado pelo ser humano. Trata-se do conjunto de referncia, i.e., a verso
grega do decreto inscrito na Pedra de Roseta. Com esta informao seria possvel inferir as
regras necessrias para traduzir/converter o objecto original para um qualquer formato
contemporneo (Heminger & Robertson, 1998; Thibodeau, 2002).
Para alm de disponibilizar este tipo informao, os directrios de formatos podero prestar
servios avanados de apoio preservao digital. Por exemplo, um directrio de formatos
poder disponibilizar servios ou ferramentas para deteco e identificao de formatos e
promover o uso de vocabulrios controlados para os seus descritores. Poder ainda fornecer
especificaes tcnicas sobre formatos que permitam a qualquer instituio desenvolver
descodificadores, bem como disponibilizar um conjunto de informaes relevantes de apoio s
actividades de preservao digital, como por exemplo, informao sobre a cota de mercado de
um dado formato, tendncias de utilizao ou produzir recomendaes quanto aos formatos
mais apropriados para preservao a longo-prazo.
Existem actualmente diversas iniciativas que visam a implementao de directrios deste tipo.
Alguns exemplos so: os Mime Media Types (Freed & Borenstein, 1996), o PRONOM (UK
34
National Archives, 2002), o Global Digital Format Registry (Abrams & Seaman, 2003) e o
projecto Typed Object Model (Ockerbloom, 1998).
O PRONOM Technical Registry18 uma iniciativa dos Arquivos Nacionais do Reino Unido
que visa a concentrao de informao tcnica sobre software e formatos associados
(Darlington, 2003; UK National Archives, 2002). O modelo de dados que suporta o
PRONOM incorpora vrios elementos de informao, tais como: descritores de formatos,
identificadores nicos de formato, esquemas de codificao de caracteres19, algoritmos de
compresso, sistemas operativos de suporte, hardware especfico e ligaes para outras fontes
de informao. O PRONOM disponibiliza ainda uma ferramenta de identificao de formatos
de nvel local o Droid (UK National Archives, 2005). O Droid uma pequena aplicao
multiplataforma que permite identificar o formato de um objecto digital recorrendo base de
dados de informao disponibilizada pelo PRONOM.
O Global Digital Format Registry20 (GDFR) apresenta-se como uma alternativa aos actuais
MIME Media Types, introduzindo um mecanismo de identificao de formatos mais preciso e
rigoroso. O GDFR possui, ainda, como objectivo a reunio de informao sobre a sintaxe e
semntica dos diversos formatos digitais por ele reconhecidos. A sua criao est a cargo de
um grupo de trabalho internacional, constitudo por membros de diversas bibliotecas e
arquivos nacionais, assim como bibliotecas acadmicas, num total de 18 instituies (Abrams
& Seaman, 2003).
O projecto Typed Object Model21 (TOM) assenta no pressuposto de que todos os formatos
digitais podem ser vistos como objectos (i.e., possuidores de propriedades e mtodos) e, como
18 http://www.nationalarchives.gov.uk/PRONOM/
19 Do ingls encoding.
20 http://hul.harvard.edu/gdfr/
21 http://tom.library.upenn.edu/
35
tal, ser possvel construir uma arquitectura baseada em herana, capaz de descrever a
estrutura de cada formato, as suas instncias e as relaes existentes entre os mesmos
(Ockerbloom, 1998). Este projecto introduz uma taxionomia classificativa de formatos e um
sistema distribudo de conversores baseado em agentes mediadores. Apesar da sua
complexidade e riqueza, no se antev que o TOM possa vir a tornar-se uma norma de facto no
contexto dos directrios de formatos, uma vez que a sua utilizao meramente residual.
Para alm das iniciativas anteriormente descritas existem outras que tambm merecem ser
mencionadas. A Biblioteca do Congresso disponibiliza um conjunto de pginas Web com
informao sobre formatos e seus variantes22 (Brown, 2008). Apesar de apenas reunir
informao sobre um conjunto reduzido de formatos, a informao disponibilizada
extremamente rica, incluindo informao descritiva sobre o formato, caractersticas tcnicas,
relaes com outros formatos, documentao produzida pelo fabricante e informao
especifica sobre a sua preservao.
O Digital Curation Centre (DCC) tambm tem vindo a desenvolver o seu prprio directrio
de formatos o Representation Information Registry Repository24 (RIRR). Este directrio tem
como principal objectivo implementar e estender o modelo de dados de informao de
representao definido pela norma OAIS (Brown, 2008). Futuros desenvolvimentos em torno
desta iniciativa so esperados no mbito do projecto CASPAR25.
22 http://www.digitalpreservation.gov/formats/
23 http://www.umiacs.umd.edu/research/adapt/focus/
24 http://registry.dcc.ac.uk/omar/
25 http://www.casparpreserves.eu/
36
2.5 Autenticidade
O conceito de a u t e n t i c i d a d e est longe de ser consensual entre os profissionais da
preservao. Este poder assumir significados consideravelmente diferentes consoante a
comunidade que o manipula. Para um historiador um objecto autntico se a sua identidade e
integridade no forem comprometidas (i.e., se o objecto for original) e, no menos importante,
se o objecto for verdadeiro (Cullen, 2000). Na perspectiva de um arquivista, a autenticidade de
um objecto no pressupe que este seja verdadeiro. Um arquivista preocupa-se, sobretudo,
com a prova que um documento poder constituir. Este poder conter incorreces, erros ou
at falsidades, mas isso no invalida a sua importncia como testemunho de que algo
aconteceu (Hirtle, 2000). Um documento falsificado, por exemplo, pode ser considerado
autntico uma vez que constitui prova de que algum falsificou um documento (Hofman,
2002b).
38
de tudo, os requisitos e exigncias da sua comunidade de interesse (Beagrie et al., 2002;
Hofman, 2002b). A definio das propriedades significativas de um objecto digital influencia
directamente a forma como este dever ser preservado. Quanto maior for o nmero de
propriedades significativas, maiores sero os requisitos relativamente infra-estrutura
tecnolgica necessria para suportar a sua preservao (Rusbridge, 2003; The Cedars Project
Team, 2001).
A ttulo de exemplo, considere-se uma biblioteca responsvel por preservar artigos cientficos
(o repositrio institucional da Universidade do Minho, por exemplo). Se a sua poltica de
preservao apenas especificar a propriedade significativa: preservao do c o n t e d o
t e x t u a l dos artigos cientficos depositados; ento, estes estaro a ser adequadamente
preservados, se se mantiverem apenas os caracteres ASCII27 que os constituem. Se por outro
lado a poltica de preservao especificar propriedades significativas adicionais como a
d i s p o s i o d o t e x t o n a p g i n a ou a sua f o r m a t a o em termos de pargrafos e
tipos de letra, ento a preservao dos caracteres ASCII deixa de ser suficiente, passando a ser
necessrio recorrer a formatos mais complexos, como por exemplo o PDF.
27 American Standard Code for Information Interchange. Trata-se de um conjunto de cdigos capaz de representar letras,
dgitos e outros smbolos, amplamente utilizado por computadores para troca de informao textual.
39
Figura 15 Verificao da qualidade de uma migrao atravs de
canonizao.
2.6.1 PREMIS
O modelo de referncia OAIS constituiu um ponto de partida para a discusso em torno da
necessidade de criar um conjunto de elementos de metainformao capazes de dar suporte s
actividades relacionadas com a preservao digital (Consultative Committee for Space Data
Systems, 2002; B. Lavoie & Gartner, 2005). Desde o seu aparecimento que diversas
instituies tm vindo a propor dicionrios de metainformao que reflectem as necessidades
individuais dos projectos em que esto ou estiveram envolvidas (Lupovici & Masans, 2000;
40
National Library of Australia, 1999; The Cedars Project Team, 2002). Em 2002, o consrcio
Online Computer Library Center e Research Libraries Group (OCLC/RLG) compilou o
conhecimento resultante desses projectos num nico documento onde se destacam as diversas
classes de informao que devero estar presentes num esquema de metainformao de
preservao (OCLC/RLG Preservation Metadata Working Group, 2002).
41
Uma e n t i d a d e i n t e l e c t u a l pode conter outras entidades intelectuais no seu interior. Um
stio Web, por exemplo, pode ser constitudo por vrias pginas Web e cada uma destas ser
composta por um conjunto de imagens. Cada uma dessas pginas pode ser vista como uma
entidade intelectual. De modo anlogo, cada uma das suas imagens pode ser considerada uma
entidade intelectual por si s. Tudo depende da granularidade a que se pretende estabelecer o
conceito.
Entidade intelectual
(Livro electrnico)
representada por
TIFF 1
...
TIFF 2
importante realar que uma entidade intelectual pode estar associada a mais do que uma
representao. Um livro electrnico, por exemplo, pode ser representado de vrias formas,
como por exemplo: atravs de conjunto de imagens em formato TIFF e um ficheiro XML que
descreve a sequncia correcta de apresentao das mesmas, atravs de um documento Word
ou em formato PDF. A entidade intelectual30 que descreve cada uma das representaes
sempre a mesma, apesar da sua manifestao fsica variar significativamente (Figura 17).
42
rastreio de vrus, etc.). O registo das aces de preservao, especialmente aquelas que tm
como finalidade modificar o objecto digital, considerado uma actividade fundamental para a
manuteno e conservao da autenticidade dos materiais arquivados.
43
Para alm das alteraes anteriormente descritas foram ainda efectuadas pequenas revises do
documento no que toca qualidade da documentao e exemplos fornecidos, estrutura do
documento e especificao dos formatos a utilizar, nomeadamente, para designar datas (B. F.
Lavoie, 2008).
Em estratgias derivadas da migrao, assume-se que os objectos digitais iro ser alvo de
modificaes sucessivas ao longo do tempo. Determinadas migraes podero mesmo originar
44
perdas substanciais de informao. Para os defensores da emulao, assumir de antemo que a
informao que se procura preservar ser sistematicamente adulterada ao longo do tempo
viola os pressupostos mais elementares da preservao (Rothenberg et al., 1999).
No obstante, a preocupao obstinada pela originalidade tem vindo a diminuir medida que
aumenta a compreenso generalizada sobre os processos de preservao. Comea-se a difundir
a ideia de que o foco da preservao no dever estar na reteno do objecto fsico original,
mas na conservao da experincia sensorial que produzida por esse objecto (Heslop et al.,
2002).
Reforando esta ideia, Thibodeau argumenta que no futuro, tal como hoje, os consumidores
desejaro servir-se das tecnologias mais modernas ou daquelas que melhor conhecem para
manipular mais eficientemente a informao que necessitam. A opo por uma estratgia de
emulao poder conduzir ao incumprimento desta necessidade bsica (B. F. Lavoie &
Dempsey, 2004; Thibodeau, 2002).
32 http://www.oclc.org/digitalarchive/
33 http://www.dspace.org
34 http://www.lockss.org
35 http://www.fedora.info
36 http://www.eprints.org/software/
37 http://pandora.nla.gov.au/pandas.html
38 http://www-5.ibm.com/nl/dias/
39 http://hul.harvard.edu/jhove/
40 http://www.nationalarchives.gov.uk/aboutapps/pronom/droid.htm
41 http://sourceforge.net/projects/xena
46
Uma poltica de preservao dever descrever claramente as estratgias adoptadas para
assegurar a preservao dos materiais em cada um dos nveis de abstraco a que estes podem
ser considerados, i.e., fsico, lgico e conceptual, mas tambm a nveis superiores, como o
social, o econmico e o organizacional (Ambacher et al., 2007; Beagrie et al., 2002; Digital
Curation Centre & DigitalPreservationEurope, 2007).
A Tabela 1 enumera algumas das possveis estratgias que podero ser utilizadas para preservar
cada um dos nveis de abstraco anteriormente descritos.
At data, nenhum dos principais repositrios digitais (e.g. DSpace, Fedora, Eprints) oferece
funcionalidades que permitam a implementao de polticas de preservao de forma
transversal, nem to pouco suportam esquemas de metainformao de preservao, essenciais
para garantir a autenticidade dos materiais custodiados. No entanto, oferecem j a capacidade
de armazenar, organizar, descrever e disseminar esses materiais. Ser portanto espectvel que a
curto prazo estas plataformas comecem a incorporar funcionalidades de preservao que
permitam garantir o acesso a longo-prazo aos materiais digitais custodiados.
47
48
Captulo 3
Automatizao de processos de
migrao
Apesar dos progressos ocorridos ao longo dos ltimos anos no domnio da preservao digital,
continua a existir um vazio assinalvel no que diz respeito automatizao dos processos que
lhe so inerentes (Ross & Hedstrom, 2005). Mais ainda, vrios problemas permanecem por
resolver, como por exemplo: como garantir que os materiais digitais permanecem autnticos
aps sucessivas intervenes de preservao; como validar formalmente o sucesso de uma
interveno; ou, como melhorar os processos de preservao no sentido de se conseguir uma
reduo generalizada dos custos de preservao?
49
Neste contexto, as estratgias de preservao baseadas em migrao no so diferentes das
restantes. Uma anlise detalhada dos objectivos, meios para os alcanar e resultados obtidos
fundamental para que uma estratgia de migrao possa ser considerada bem sucedida.
Neste captulo pretende-se descrever o conjunto de actividades que geralmente est associado
implementao de uma estratgia de migrao, nomeadamente: a seleco de uma alternativa
de migrao, a sua execuo e controlo de qualidade dos resultados obtidos.
A seco 3.1 comea por descrever detalhadamente cada uma dessas actividades. A seco 3.2
apresenta um conjunto de argumentos que realam as vantagens inerentes utilizao de
sistemas distribudos na implementao deste tipo de estratgias. A seco 3.3 apresenta um
cenrio onde se evidenciam o tipo de problemas de preservao que geralmente emergem num
contexto organizacional. O mesmo cenrio utilizado na seco 3.4 para ilustrar de que forma
uma arquitectura de servios de preservao poder facilitar a implementao automtica de
uma estratgia de migrao. Ainda nesta seco, para cada um dos servios identificados
apresentada uma lista de ferramentas, produtos e/ou servios desenvolvidos por terceiros que
podero ser utilizados para suportar o seu funcionamento. A seco 3.5 reproduz o cenrio
apresentado na seco 3.3, salientando a forma como os servios de preservao previamente
identificados facilitariam o desenvolvimento e implementao de estratgias de preservao. O
captulo termina, na seco 3.6, com um sumrio e uma reflexo sobre os conceitos e
temticas abordadas ao longo do captulo.
Qual o formato de destino que dever ser utilizado para acomodar as propriedades
essenciais do objecto original?
50
Que conversor, ou cadeia de conversores, apresenta maior aptido para realizar essa
transformao?
O custo dever ser entendido sob uma perspectiva multidimensional, i.e., factores como a
velocidade de converso, preo do software, complexidade da implementao, abertura dos
formatos envolvidos, o seu nvel de adopo e todos os restantes custos de operao devero
ser considerados de forma concertada durante esta fase de preparao.
A actividade de s e l e c o d e u m a a l t e r n a t i v a d e m i g r a o particularmente
complexa em contextos onde poder existir um elevado nmero de opes no que toca a
formatos e aplicaes de converso. Este , alis, o caso num ambiente de migrao distribuda
como aquele que descrito na seco 2.3.4 na pgina 30 (Ferreira, Baptista, & Ramalho, 2007).
51
longo de aproximadamente 7 anos, tempo suficiente para que os suportes fsicos de
armazenamento se tornassem obsoletos.
Aps a converso, uma avaliao abaixo das expectativas poder implicar a seleco de uma
nova alternativa de migrao e a repetio de todo o processo de converso (Ferreira et al.,
2006a). Esta actividade de c o n t r o l o d e q u a l i d a d e , devido s suas caractersticas e ao
facto de ser frequentemente realizada por profissionais qualificados, considerada morosa e
extremamente dispendiosa (Rauch, Pavuza et al., 2005). Ao longo desta tese procurar-se-
mitigar estes dois problemas implementando mecanismos automticos de controlo de
qualidade em processos de migrao.
Qualquer agente de software capaz de invocar servios remotos, como por exemplo Web
services, estar automaticamente habilitado a realizar converses entre formatos sem que haja
necessidade de adquirir ou implementar localmente solues especficas de converso.
Paralelamente, a utilizao de servios remotos dotados de redundncia assegura a fiabilidade
do sistema perante situaes de ruptura parcial da rede e a existncia de mltiplos caminhos de
converso confere a este tipo de solues uma longevidade superior comparativamente a
estratgias de migrao mais convencionais.
52
(Hitchcock, Brody, Hey, & Carr, 2007). Este tipo de arquitecturas designam-se genericamente
por arquitecturas orientadas ao servio.
53
Web Consortium)43. No entanto, outras tecnologias concorrentes podero ser utilizadas para
implementar o mesmo conceito, tais como: Jini44, CORBA45 ou REST46 (Fielding, 2000).
Num dado momento, uma empresa de dimenso mdia decide que todos os relatrios
tcnicos produzidos no decurso da sua actividade devero estar acessveis a todos os
seus colaboradores distncia de um clique. Para tal, foi contratado um gestor de
informao cuja funo seria implementar e administrar um repositrio digital com o
objectivo de preservar e dar acesso aos mesmos atravs da Intranet da empresa.
Para agravar ainda mais a situao, o responsvel pelo repositrio verificou que
existiam vrios relatrios cuja extenso no lhe era familiar, dificultando assim a
identificao da aplicao adequada sua visualizao. Paralelamente, a Microsoft
anuncia que a nova verso do seu pacote de aplicaes Office no ir suportar o
formato Word 95.
43 http://www.w3.org
44 http://www.jini.org
45 http://www.corba.org/
46 http://www.ics.uci.edu/~fielding/pubs/dissertation/rest_arch_style.htm
54
O responsvel pela administrao do repositrio digital conclui de que algo teria de ser
feito no sentido de homogeneizar os contedos do repositrio. Primeiro, decide
realizar um levantamento de todos os formatos existentes no repositrio. Olhando
para a extenso dos ficheiros foi possvel determinar qual a aplicao que fora utilizada
na sua criao. No entanto, para determinar a verso da mesma teria que ser
encontrada uma estratgia mais eficaz.
47 Tratam-se de pequenas sequncias de bytes geralmente encontradas no incio de um ficheiro que permitem determinar o seu
formato.
55
includos nos documentos ficassem desactualizados. Noutros casos, certas imagens
haviam perdido detalhe, o que dificultava consideravelmente a sua compreenso.
A Figura 18 apresenta uma viso geral de uma arquitectura que disponibiliza o conjunto de
servios previamente identificados. A figura encontra-se dividida em duas partes fundamentais:
o cliente (em cima) e o provedor de servios (em baixo).
56
Figura 18 Arquitectura de um sistema de preservao.
A parte da figura referente ao cliente fornece exemplos de aplicaes que podero tirar partido
dos servios disponibilizados por esta plataforma. Entre estes encontram-se repositrios
digitais (e.g. DSpace48, Eprints49, Fedora50), aplicaes-cliente baseadas na consola ou
aplicaes desenvolvidas para a Web. Os exemplos apresentados pretendem ser ilustrativos e
no prescritivos, i.e., qualquer aplicao capaz de invocar um servio remoto poder tirar
partido das funcionalidades disponibilizadas por uma plataforma com estas caractersticas.
48 http://www.dspace.org
49 http://www.eprints.org
50 http://www.fedora-commons.org/
57
As seces que se seguem descrevem detalhadamente cada um dos servios identificados na
Figura 18 e apresentam algumas ferramentas capazes de implementar os conceitos que lhes so
subjacentes.
Organizaes que tenham como misso preservar objectos digitais tero de ser capazes de
verificar e monitorizar a integridade lgica dos seus objectos sem necessidade de interveno
humana, i.e., devero ser capazes de reconhecer o formato de um objecto e verificar se este
est de acordo com o formato identificado. Um servio de identificao de formatos
fundamental no cumprimento deste requisito.
Uma vantagem que advm da utilizao de um servio com estas caractersticas tem que ver
com o facto de os objectos digitais serem identificados de acordo com um nico vocabulrio.
O uso transversal de um vocabulrio controlado para designar formatos garante a
interoperabilidade lexical entre todos os componentes da plataforma e torna a orquestrao de
tarefas um processo simples e harmonioso.
51 http://hul.harvard.edu/jhove/
52 http://www.jstor.org/
53 http://hul.harvard.edu/
54 http://droid.sourceforge.net
58
Directrios de formatos na pgina 34), foi desenhado especificamente para identificar
formatos digitais. Esta ferramenta permite processar sequencialmente vrios objectos e
produz designaes de formato que congregam o nome e a verso do mesmo. As
principais vantagens desta ferramenta advm do facto de esta suportar centenas de
formatos distintos e da sua base de dados de formatos estar em constante crescimento.
As actualizaes desta aplicao so realizadas automaticamente durante o arranque da
mesma.
FILExt57 (The File Extension Source) trata-se de um stio Web que rene
informao sobre formatos tendo por base a extenso que geralmente associada ao
formato em causa. O portal disponibiliza um servio de pesquisa por extenso e
fornece informaes como: nome da aplicao de leitura/produo do formato
identificado e o seu fabricante, M i m e T y p e s associados ao formato, magic numbers e
hiperligaes para descarregar aplicaes de leitura.
3.4.2 Conversores
O componente designado por C o n v e r s o r e s representa os servios que permitem efectuar
transformaes entre formatos (Figura 18). Os c o n v e r s o r e s podero ser utilizados para
construir conversores mais complexos, recorrendo composio de servios.
55 http://www.nationalarchives.gov.uk/
56 http://darwinsys.com/file/
57 http://www.filext.com
59
Media-convert58 trata-se de um stio Web que oferece aos seus utilizadores a
capacidade de efectuar converses entre dezenas de formatos: vdeo, documentos de
texto, folhas de clculo, udio, imagem matricial, imagem vectorial e apresentaes
multimdia. Os objectos a converter so enviados para o stio Web atravs de um
HTTP-POST e os resultados da converso so descarregados pelo browser acedendo
a um URL. O stio Web suportado financeiramente por publicidade.
58 http://media-convert.com/
59 http://www.zamzar.com/
60
comporta, numa linguagem abstracta e uniformizada, as propriedades extradas do
objecto digital. Os documentos XCDL produzidos a partir de dois objectos em
formatos distintos podem ser comparados e as suas diferenas facilmente detectadas
(Becker, Rauber, Heydegger, Schnasse, & Thalle, 2008). O principal obstculo
encontrado nesta abordagem encontra-se no processo de criao de documentos
XCEL. Para determinados formatos, estes documentos so extremamente complexos
e a elaborao dos mesmos requer geralmente a colaborao do produtor do formato.
At ao momento este projecto apenas produziu especificaes XCEL para os
formatos TIFF e PNG.
61
relatrios no terem como principal objectivo alertar a comunidade para os formatos
que se esto a tornar obsoletos, estes podero, em boa medida, servir de base para
precaver este tipo de ocorrncias.
63 http://www.versiontracker.com
64 http://www.kcsoftwares.com/?sumo
65 http://www.apsr.edu.au
66 http://www.apsr.edu.au/aons2 e http://sourceforge.net/projects/aons/
62
Os conversores disponveis na rede podero ser mais ou menos aptos dependendo dos
requisitos da entidade-cliente. Para identificar o servio de converso mais adequado,
necessrio confrontar os requisitos enumerados pelo cliente com as caractersticas do
conversor e encontrar a melhor combinao possvel.
63
2) Numa segunda fase so associadas unidades de medida a cada um desses critrios, e.g.
milmetro, segundo, Mb/s, Euro, etc.;
3) Num terceiro passo reunido um conjunto representativo de objectos digitais que ser
utilizado para testar cada uma das alternativas de preservao;
5) No quinto passo cada uma das alternativas executada face ao conjunto de objectos
de teste. O resultado de cada interveno ento avaliado luz dos vrios critrios que
constituem a rvore-objectivo (Figura 20 1);
8) O passo oito consiste na agregao de valores parciais e totais obtidos a partir das
experincias realizadas (Figura 20 4);
64
dado conjunto de objectos digitais. Estes critrios so ento organizados em classes e
subclasses de forma constituir uma rvore-objectivo semelhante apresentada na Figura 19.
Este ltimo conjunto de critrios pode ser entendido como o conjunto das propriedades
significativas associadas a uma respectiva classe de objectos digitais, neste caso documentos de
texto (Ferreira et al., 2006a).
65
Num dado momento, uma empresa de dimenso mdia decide que todos os relatrios
tcnicos produzidos no decurso da sua actividade devero estar acessveis a todos os
seus colaboradores distncia de um clique. Para tal, foi contratado um gestor de
informao cuja funo seria implementar e administrar um repositrio digital de
informao com o objectivo de preservar e dar acesso aos mesmos atravs da Intranet
da empresa.
Para agravar ainda mais a situao, o responsvel pelo repositrio verificou que
existiam vrios relatrios cuja extenso no lhe era familiar, dificultando assim a
identificao da aplicao adequada sua visualizao. Paralelamente, a Microsoft
anuncia que a nova verso do seu pacote de aplicaes Office no ir suportar o
formato Word 95.
O responsvel pela gesto do repositrio digital conclui que algo teria de ser feito no
sentido de homogeneizar os contedos do repositrio. Assim, desenvolve uma
pequena aplicao capaz de interagir com os servios fornecidos pela plataforma de
preservao que se encontra acessvel atravs da Internet. A aplicao comea por
enviar os objectos cuja extenso desconhecida para o servio designado
I d e n t i f i c a d o r d e f o r m a t o s . De seguida, a aplicao-cliente consulta o servio
de N o t i f i c a o d e o b s o l e s c n c i a com a finalidade de determinar quais os
formatos que se encontram em risco de se tornar obsoletos. O servio invocado
determina que existe um formato no repositrio que se encontra em vias de se tornar
obsoleto e que devero ser desencadeadas medidas preventivas ao nvel da sua
preservao.
A fim de determinar qual a estratgia de migrao mais adequada para preservar esses
documentos, a aplicao desenvolvida pelo gestor invoca um servio disponibilizado
66
pela plataforma que devolve uma lista de critrios relevantes para efeitos de avaliao e
controlo de qualidade (i.e., o S e l e c c i o n a d o r d e e s t r a t g i a s d e m i g r a o ).
O colaborador passa a atribuir pesos a cada um desses critrios tendo em considerao
os requisitos de preservao definidos pela sua organizao. Entre estes encontram-se
itens como: preservao do contedo textual, preservao da apresentao grfica do
documento, custo de migrao (/converso), velocidade de converso (Kb/s), etc.
O gestor decide adoptar a sugesto fornecida pelo sistema e requisita uma lista de
possveis servios de converso capazes de realizar a respectiva converso. Baseado
nos pesos previamente atribudos pelo gestor, o sistema remoto sugere um servio de
converso, que embora no seja gratuito, garante resultados de elevada qualidade. O
gestor passa ento a enviar os seus documentos para o sistema remoto, invocando o
servio de C o n v e r s o disponvel, e d incio ao processo de migrao dos seus
objectos digitais.
O captulo continua com uma definio de arquitectura orientada ao servio (SOA) e com a
apresentao deste tipo de plataformas como sendo adequadas a contextos de preservao,
evidenciando as vantagens que advm da sua utilizao.
Ainda neste captulo, apresentado um problema de preservao que foi solucionado de duas
formas distintas. No primeiro caso, a inexistncia de uma plataforma de servios de auxilio
preservao obrigou a que a generalidade das actividades de preservao fossem realizadas
manualmente pelo gestor de um repositrio digital; no segundo, a presena de uma plataforma
de servios de preservao viabiliza a automatizao de processos e simplifica todo o processo
administrativo.
68
Para cada um dos servios apresentados procurou-se seleccionar um conjunto de ferramentas
e/ou tecnologias capazes de dar suporte sua implementao. Estas ferramentas serviram de
base para o desenvolvimento do CRiB, uma arquitectura orientada ao servio que disponibiliza
um conjunto de funcionalidades que permitem implementar de forma transversal e automtica
estratgias de preservao baseadas em migrao. Esta plataforma descrita, em detalhe, no
captulo que se segue.
69
70
Captulo 4
CRiB Plataforma de servios de
preservao
O captulo anterior procurou evidenciar de que forma uma arquitectura baseada em servios
poderia facilitar a implementao de estratgias de preservao, especialmente aquelas
baseadas na migrao de formatos. Na presena de uma arquitectura deste tipo, qualquer
indivduo ou instituio com capacidade para invocar servios remotos passa a poder
implementar os seus prprios processos de preservao, construdos a partir dos servios
disponibilizados.
No captulo anterior foram identificados vrios servios de preservao, bem como possveis
formas de os implementar. Entre estes, encontram-se um notificador de obsolescncia, um
identificador de formatos, um conjunto de conversores de formatos, um mdulo de controlo
de qualidade e um componente capaz de auxiliar o cliente na escolha da alternativa de
migrao mais adequada resoluo do seu problema de preservao.
Este captulo introduz a plataforma CRiB67, uma arquitectura orientada ao servio que procura
implementar os conceitos e servios anteriormente descritos. As seces que se seguem
67 CRiB um acrnimo que deriva da expresso Conversion and Recommendation of Digital Object Formats.
71
descrevem de forma detalhada como cada um destes servios foi desenvolvido e quais as suas
dependncias funcionais.
O captulo encontra-se organizado da seguinte forma: a seco 4.1 apresenta uma viso geral
da arquitectura desenvolvida, descrevendo sucintamente os componentes e servios por ela
implementados; a seco 4.2 descreve em detalhe o componente C R i B C o r e
P r e s e r v a t i o n S e r v i c e s que tem como misso servir de interface entre a plataforma de
servios e os seus utilizadores. Esta seco apresenta, ainda, as mensagens trocadas entre
ambos os intervenientes e um conjunto de diagramas de sequncia que facilita a compreenso
de todo o processo de interaco. As seces 4.3, 4.4, 4.5, 4.6, 4.7 e 4.8 descrevem em detalhe
os restantes componentes do sistema, nomeadamente o S e r v i c e R e g i s t r y , o F o r m a t
Identifier, o Migration Broker, o Object Evaluator, o Format Evaluator e
o M i g r a t i o n A d v i s o r ; o captulo termina, na seco 4.9, com um sumrio e algumas
consideraes finais relativamente ao trabalho realizado.
72
componentes do sistema. Para alm disso, tambm responsvel por orquestrar todas as
mensagens trocadas no interior do sistema garantindo, deste modo, o correcto funcionamento
da arquitectura (Ferreira et al., 2006b).
73
O componente O b j e c t E v a l u a t o r responsvel pelo controlo de qualidade, ou seja, cabe
a este componente a tarefa de detectar possveis perdas de informao incorridas durante o
processo de migrao (Becker, Ferreira et al., 2008; Ferreira, 2006a; Ferreira et al., 2005, 2006b,
2007).
Para dar suporte aos componentes anteriormente descritos, o CRiB recorre a alguns servios
de informao. Estes encontram-se representados na camada inferior da Figura 21 designada
por data layer. O D r o i d 68, utilizado pelo F o r m a t I d e n t i f i e r , fornece o motor de
identificao de formatos; o j U D D I 69 implementa funcionalidades de registo e descoberta de
servios e utilizado pelo componente S e r v i c e R e g i s t r y ; o F o r m a t K n o w l e d g e
B a s e materializa uma base de dados com informao relevante sobre os formatos suportados
e alimenta o componente F o r m a t E v a l u a t o r ; e o E v a l u a t i o n s R e p o s i t o r y
armazena todos os relatrios produzidos pelos componentes responsveis pelo de controlo de
qualidade, nomeadamente o F o r m a t E v a l u a t o r , O b j e c t E v a l u a t o r e M i g r a t i o n
B r o k e r , e d suporte ao motor de recomendao implementado pelo M i g r a t i o n
A d v i s o r (Becker, Ferreira et al., 2008; Ferreira, 2006a; Ferreira et al., 2005, 2006b, 2007).
74
importante referir que a tecnologia que suporta os servios descritos neste captulo
baseada em Web services, ou seja, toda a comunicao realizada entre as aplicaes-cliente e a
plataforma CRiB, assim como todas as mensagens trocadas no seu interior so asseguradas por
protocolos abertos baseados em XML/SOAP (S. Graham et al., 2002; Newcomer & Lomow,
2005; W3C, 2002).
importante referir que cada um dos subcomponentes que constituem o sistema pode ser
acedido directamente de forma independente dos restantes. No entanto, o componente C R i B
C o r e P r e s e r v a t i o n S e r v i c e s ( i.e., a interface aplicacional do sistema70) simplifica o
workflow no interior do CRiB, desdobrando cada pedido do cliente num conjunto de
mensagens que sero resolvidas ordenadamente pelos restantes subcomponentes do sistema.
A interface aplicacional disponibilizada pelo CRiB encontra-se ilustrada na Figura 22. Aqui
encontram-se representadas as vrias funes que permitem ao utilizador realizar tarefas
como: identificao de formatos (i.e., i d e n t i f y F o r m a t ), seleco de estratgias de migrao
(i.e., g e t E v a l u a t i o n C r i t e r i a e g e t R e c o m m e n d a t i o n ), migrao de formatos com
controlo de qualidade associado (i.e., c o n v e r t ) e alguns servios adicionais que facilitam a
explorao do sistema e a obteno de informaes relevantes para o cliente (i.e., g e t
SupportedSourceFormats, getSupportedTargetFormats, getMigration
Paths e getConverterMetadata).
75
Figura 22 Interface do componente Core Preservation Services.
Cada um dos servios anteriormente apresentados descrito com maior detalhe nas seces
subsequentes.
76
Figura 24 Diagrama de sequncia da identificao de formatos.
77
Para que o servio seja capaz de ordenar as alternativas de migrao de acordo com a sua
aptido, este necessita de conhecer os requisitos especficos do cliente. Assim, numa primeira
iterao, o cliente invoca o mtodo g e t E v a l u a t i o n C r i t e r i a de modo a obter a lista de
critrios de avaliao que so suportados para uma dada classe de objectos. Este processo
encontra-se ilustrado na Figura 26. A Figura 27 apresenta os objectos trocados entre o sistema
e o cliente.
Os critrios de avaliao suportados pelo CRiB no dependem do formato, mas sim da classe
de objectos a que o formato pertence. Por exemplo, um objecto pertencente classe
d o c u m e n t o s d e t e x t o avaliado luz de um conjunto especfico de critrios, enquanto
que um objecto pertencente classe i m a g e n s m a t r i c i a i s avaliado por um conjunto de
critrios completamente distinto. O CRiB trata de identificar automaticamente a classe de
objectos a partir do formato indicado.
78
velocidade de converso um critrio da mxima importncia, enquanto que o custo da mesma
no dever ser considerado decisivo.
Os pesos atribudos a cada um dos critrios de avaliao devero pertencer ao conjunto [0, 1],
com 0 a representar um critrio considerado pouco relevante e 1 a representar um critrio com
elevada influncia na deciso final. O sistema capaz de analisar trs categorias distintas de
critrios71:
Uma vez atribudos os pesos por parte do cliente, este dever invocar o mtodo
g e t R e c o m m e n d a t i o n , enviando a lista de critrios previamente pesados e indicando o
formato dos objectos que pretende preservar (Figura 26).
O servio passa ento a ser capaz de identificar as alternativas de migrao mais aptas para
satisfazer as suas necessidades de preservao e devolve ao cliente uma lista de caminhos de
migrao qual este poder recorrer, bem como a pontuao atribuda a cada um destes. A
lista devolvida , efectivamente, a recomendao produzida pelo sistema. O cliente livre de
seleccionar qualquer uma das opes sugeridas.
71 O conjunto global de critrios de avaliao suportados pelo CRiB encontra-se descrito em detalhe na seco 4.6.2,
Taxionomias de avaliao, na pgina 105.
79
4.2.3 Migrao de formatos e controlo de qualidade
Aps obter uma recomendao, o cliente poder invocar qualquer um dos caminhos de
migrao sugeridos pelo sistema de forma a migrar os seus objectos para o formato de destino
recomendado. O CRiB disponibiliza um mtodo, convenientemente designado c o n v e r t ,
que permite realizar esta operao.
Para que possa ser utilizado, este mtodo necessita de saber qual o caminho de migrao a
executar, i.e., M i g r a t i o n P a t h , e a representao que se pretende converter, i.e.,
R e p r e s e n t a t i o n O b j e c t (Figura 28). O mtodo remoto trata de compor todos os servios
de converso e executar a respectiva migrao, avaliando, em simultneo, a performance da
mesma.
importante referir que a lista de pontos de acesso includos numa mensagem do tipo
M i g r a t i o n P a t h funciona como um identificador nico para um dado conversor composto.
O CRiB ir procurar na sua lista de servios se existe alguma converso composta pelos
pontos de acesso fornecidos. Se no existir, este ir devolver ao cliente uma excepo,
identificando claramente o problema detectado. Caso contrrio, o CRiB trata de invocar todos
os servios de migrao necessrios para satisfazer o pedido do cliente.
80
dos formatos envolvidos na converso e capacidade apresentada pelos conversores em
preservar as propriedades significativas dos objectos submetidos a converso. Estas aces so
realizadas pelos componentes M i g r a t i o n B r o k e r 72, F o r m a t E v a l u a t o r 73 e O b j e c t
E v a l u a t o r 74, respectivamente.
81
processo de migrao e permitindo mesma determinar se a interveno realizada satisfaz os
seus requisitos mnimos de qualidade.
Aps a converso, tambm devolvida ao cliente uma estrutura de dados contendo a nova
representao digital (i.e., o objecto convertido). Ambas as estruturas descritas, i.e., o relatrio
de qualidade e a nova representao, so encapsuladas numa mensagem designada
M i g r a t i o n R e s u l t (Figura 29).
Ainda neste contexto, possvel conhecer, para um dado formato, quais os formatos de
destino disponveis na plataforma g e t S u p p o r t e d T a r g e t F o r m a t s .
Para conhecer os conversores disponveis entre dois formatos, o cliente poder invocar o
mtodo g e t M i g r a t i o n P a t h s . O sistema, ir devolver todos os caminhos de migrao
disponveis entre os dois formatos desejados. Este pedido poder resultar numa lista
relativamente extensa de caminhos de migrao. Para determinar qual o caminho de migrao
mais adequado, o cliente dever invocar o mtodo g e t R e c o m m e n d a t i o n descrito
anteriormente na seco 4.2.2.
82
Figura 30 Outros mtodos disponibilizados pelo CRiB.
83
O S e r v i c e R e g i s t r y tem como base a norma U n i v e r s a l D e s c r i p t i o n , D i s c o v e r y
a n d I n t e g r a t i o n , vulgarmente designada por UDDI (OASIS, 2005). A norma UDDI
resulta de uma iniciativa aberta conduzida por um grupo de representantes da indstria (e.g.
Ariba, IBM e Microsoft) e actualmente suportada pela O r g a n i z a t i o n f o r t h e
A d v a n c e m e n t o f S t r u c t u r e d I n f o r m a t i o n S t a n d a r d s (OASIS)75. Nascida em
2000, esta norma assegura o registo, publicao e pesquisa de informao sobre servios
disponibilizados na Web, seus produtores e a forma como podem ser invocados por uma
qualquer aplicao-cliente. Estas informaes encontram-se organizadas em trs unidades
semnticas designadas B u s i n e s s E n t i t y , S e r v i c e E n t i t y e B i n d i n g E n t i t y ,
respectivamente (S. Graham et al., 2002). As relaes existentes entre cada uma destas
entidades encontram-se ilustradas na Figura 31.
75 http://www.oasis-open.org
76 http://ws.apache.org/juddi/
77 http://www.apache.org/
84
incluso dos dois primeiros elementos permite a identificao e localizao imediata de
servios de converso tomando por base os formatos que suportam. Para alm disso,
possibilita a deteco de migraes compostas atravs da combinao de formatos de destino
e formatos de partida. O ltimo elemento permite associar um custo de utilizao, em
unidades monetrias, a cada servio de converso.
Neste contexto, importante referir que, para que seja possvel identificar e executar
converses compostas, fundamental que aos atributos s o u r c e F o r m a t e t a r g e t F o r m a t
sejam associados valores obtidos a partir de um vocabulrio controlado. No caso do CRiB, os
valores utilizados so baseados nos descritores de formato produzidos pelo Droid (ver Format
Identifier na pgina 88).
Business Entity
Elemento descritivo Obrigatoriedade Descrio
Nome da organizao que desenvolveu o servio de
name Obrigatrio
converso.
description Opcional Descrio da organizao.
Contacto dos responsveis pela criao e
contacts Opcional
manuteno do servio (ver Tabela 5).
Service Entity
Elemento descritivo Obrigatoriedade Descrio
name Obrigatrio Nome do servio de converso.
description Opcional Descrio do servio de converso.
sourceFormat Obrigatrio Formato de origem da converso (baseado num
vocabulrio controlado).
targetFormat Obrigatrio Formato de destino da converso (baseado num
vocabulrio controlado).
cost Obrigatrio O custo de execuo do conversor em unidades
monetrias.
bindingTemplates Obrigatrio Informao sobre a localizao do servio (ver
Binding Templates).
businessEntity Obrigatrio Informao sobre a organizao que desenvolveu o
servio (ver Business Entity).
85
Binding Templates
Elemento descritivo Obrigatoriedade Descrio
description Opcional Descrio do localizador de servio.
accessPoint Obrigatrio Endereo onde reside o servio.
Protocolo de acesso ao servio (e.g. mailto, http,
URLType Obrigatrio
https, ftp, fax, phone, other).
Contacts
Elemento descritivo Obrigatoriedade Descrio
description Opcional Descrio do contacto.
personName Obrigatrio Nome da pessoa responsvel.
phone Opcional Telefone do responsvel.
email Opcional Endereo de correio-electrnico do responsvel.
address Opcional Morada do responsvel.
Service
Registry
XML/SOAP
MySQL
78 http://uddi4j.sourceforge.net/
86
Figura 33 Mtodos disponibilizados pelo Service Registry.
87
4.4 Format Identifier
O CRiB incorpora tambm um servio de identificao de formatos. Este servio assegurado
pelo componente F o r m a t I d e n t i f i e r e baseado no D r o i d 79, um software
desenvolvido pelos Arquivos Nacionais do Reino Unido, os responsveis pelo directrio de
formatos PRONOM80.
A parte referente verso do formato opcional, sendo apenas includa quando a verso do
mesmo positivamente identificada. Seguem-se alguns exemplos de designaes de formato
produzidas por este componente:
88
JPEG File Interchange Format, version 1.02
Microsoft Word for Windows Document, version 97-2003
Graphics Interchange Format, version 1989a
JPEG 2000
81 Para mais informao sobre o componente Service Registry, consulte seco 4.3 na pgina 83.
89
de migrao (i.e., M i g r a t i o n P a t h ); e, tratando-se este de um componente capaz de realizar
avaliaes quanto ao desempenho de um caminho de migrao, um mtodo designado
g e t E v a l u a t i o n C r i t e r i a que permite ao cliente conhecer os critrios de avaliao
implementados por este componente.
90
Para que um servio de migrao possa ser utilizado pelo M i g r a t i o n B r o k e r e,
consequentemente, pelos clientes do CRiB, este dever respeitar uma interface predefinida.
Esta interface define um mtodo que todos os servios de migrao devero implementar o
mtodo c o n v e r t . Este mtodo recebe como parmetro a representao que se pretende
converter e tem como objectivo devolver uma representao desse objecto num novo
formato. A interface genrica de um servio de converso e alguns exemplos de conversores
encontram-se ilustrados na Figura 38.
91
prprio para realizar as suas converses compostas, no entanto, disponibiliza um conjunto de
bibliotecas que permitem a qualquer programador tirar partido dos servios que disponibiliza.
4.5.1 Disponibilidade
A d i s p o n i b i l i d a d e 83 definida como a probabilidade de um servio se encontrar acessvel
e operacional no momento em que requisitado (Jiang & Schulzrinne, 2003).
# successful invocations
availability =
# invocations
Frmula 1 Disponibilidade.
Um servio de converso com baixa d i s p o n i b i l i d a d e um servio que nem sempre est
acessvel no momento em que necessrio. Em processos de migrao que envolvam vrias
centenas de representaes, a indisponibilidade momentnea de um servio de converso
poder atrasar ou at mesmo inviabilizar todo o processo de migrao.
4.5.2 Estabilidade
A e s t a b i l i d a d e 84 definida como a probabilidade de um servio de converso ser capaz de
concluir com sucesso as tarefas a que se prope. Por outras palavras, a estabilidade representa
a capacidade de um servio no falhar durante a sua execuo (i.e., o seu nvel de tolerncia a
83 Do ingls availability.
84 Do Ingls stability. Zeng et al. designam este conceito por Confiabilidade (do ingls Reliability).
92
falhas). Esta, calculada dividindo o nmero de converses bem sucedidas pelo nmero total
de converses requisitadas (Zeng et al., 2003).
# successful conversions
stability =
# conversion requests
Frmula 2 Estabilidade.
4.5.3 Dbito
O d b i t o 85 mede a quantidade de trabalho que um servio de converso capaz de realizar
por unidade de tempo (Menasc, 2002) Frmula 3. A carga imposta a um conversor, i.e., o
trabalho a realizar, determinado pelo tamanho em bytes do objecto digital submetido a
converso. Trata-se obviamente de uma simplificao, uma vez que o tempo de converso de
um objecto digital no depende exclusivamente do seu comprimento em bytes. A
complexidade do prprio objecto influencia significativamente o tempo necessrio para a sua
converso. No obstante, a simplificao introduzida constitui um ponto de partida
considerado razovel.
object length
throughput =
migration time
85 Do Ingls throughput.
93
Foi tambm efectuada uma simplificao no que diz respeito medio do tempo de
migrao. A arquitectura proposta pelo CRiB impossibilita a medio individual do tempo de
transmisso e do tempo efectivamente gasto em converso. Esta limitao deve-se ao facto de
este critrio ser avaliado por um agente externo aos conversores utilizados, i.e., o M i g r a t i o n
B r o k e r (Zeng et al., 2003). Devido a esse facto, estes dois elementos temporais so
considerados conjuntamente, ou seja, o tempo de migrao medido a partir do momento em
que a representao enviada para o primeiro conversor, at ao momento em que a nova
representao recebida por este componente (Figura 40).
!
!
t transmisso + t converso + t transmisso + t converso + t transmisso = t migrao
!
!
Servio de Servio de
converso converso
A-B B-C
Representao Representao
(Formato A) (Formato C)
C1 C2 Ctotal = C1 + C2
Servio de Servio de
converso converso
A-B B-C
Representao Representao
(Formato A) (Formato C)
94
A introduo deste critrio de avaliao tem como objectivo estimular o desenvolvimento de
conversores, uma vez que estes podero ser publicados e vendidos atravs da plataforma de
servios de preservao. Apesar do modelo econmico apresentado ser demasiado simplista
para que possa ser posto em prtica de forma efectiva, este poder constituir uma ferramenta
importante no sentido de determinar em que medida o custo pode influenciar decises
tomadas a favor ou contra determinadas alternativas de migrao.
95
4.5.6 Taxa de crescimento em nmero de ficheiros
Do mesmo modo que a dimenso das representaes influencia o custo de armazenamento e
preservao, o nmero de ficheiros que as constituem influencia directamente a capacidade da
sua gesto. A decomposio de objectos digitais complexos nas suas partes constituintes uma
abordagem de preservao amplamente utilizada (Hunter & Choudhury, 2006), no entanto,
quanto maior for o nmero de ficheiros associados a uma representao, maior ser a
dificuldade ao nvel da gesto do armazenamento, descrio tcnica dos seus constituintes e
gesto dos relacionamentos existentes entre os diversos ficheiros.
Tal como acontece com a frmula de clculo da taxa de crescimento em bytes, este critrio
valoriza a reduo dos seus valores. O critrio foi invertido de modo a que taxas de
crescimento inferiores a 1 pudessem ser consideradas mais benficas para efeitos de
preservao.
96
O processo de avaliao levado a cabo pelo O b j e c t E v a l u a t o r tem, sobretudo, dois
objectivos:
97
constituem uma representao numa estrutura lgica onde os valores das suas propriedades
podem ser facilmente inspeccionados de forma automtica.
98
Aps a extraco dos valores das propriedades significativas, estes so guardados numa
estrutura de dados neutra que facilita a sua manipulao. Essa estrutura trata-se, efectivamente,
do objecto conceptual, i.e., aquele que carrega a semntica da representao digital mas que
desprovido de caractersticas tcnicas especficas de um dado formato (ver seco A anatomia
de um objecto digital na pgina 14).
Uma vez obtidos os objectos conceptuais, possvel calcular as diferenas entre duas
instncias e assim determinar o nvel de degradao incorrido durante a migrao. A
comparao de objectos conceptuais assegurada por subcomponentes comparadores
especficos para cada classe de objectos digitais, i.e., C o m p a r a t o r (Figura 43).
Os resultados obtidos aps a aplicao das funes de similaridade pertencem ao domnio [0,
1], com o valor 1 a representar o valor mximo de similaridade (i.e., igualdade), e 0 a mxima
distncia entre dois valores possveis (i.e., a desigualdade mxima). O conjunto de valores
produzidos pelas vrias funes de similaridade iro fazer parte do relatrio de controlo de
qualidade (i.e., E v a l u a t i o n R e p o r t ). Este relatrio determina o nvel de similaridade
existente entre duas representaes digitais e identifica objectivamente os critrios analisados e
os nveis de similaridade obtidos para cada um deles.
99
As propriedades significativas avaliadas durante o processo de controlo de qualidade
dependem da classe de objectos digitais em anlise. Por exemplo, objectos pertencentes
classe d o c u m e n t o s d e t e x t o so avaliados luz de propriedades como: nmero de
pginas, apresentao grfica do documento, dimenses de pgina, etc. (Tabela 6).
Critrio Descrio
appearance::static_page::pages::size Dimenses da pgina
appearance::static_page::pages::layout Organizao vrios elementos grficos na pgina
appearance::static_page::pages::numbering Nmero de pginas do documento
appearance::static_page::pages::headline Cabealho das pginas
appearance::static_page::pages::footline Rodap das pginas
appearance::static_page::pages::break A pgina quebra junto do mesmo texto
appearance::static_page::pages::margins Tamanho das margens da pgina em milmetros
appearance::static_page::letters::size Tamanho de letra
appearance::static_page::letters::special_characters Apresentao e validade dos caracteres
Critrio Descrio
appearance::audio::quality::resolution Largura de banda em bits/amostra
appearance::audio::quality::drop_out Pequenos momentos de silncio no som
appearance::audio::quality::level Volume do som
appearance::audio::quality::sample_rate Frequncia de amostragem
appearance::audio::quality::compression_rate Grau de compresso do ficheiro de som
appearance::audio::funcionality::stereo Se o som mono ou estreo
appearance::audio::funcionality::dolby_surround Se o ficheiro suporta a tecnologia dolby surround
appearance::audio::funcionality::speed_variance Descreve se h variaes na velocidade reproduo do som
100
similaridade entre ambas as representaes, e o mtodo g e t E v a l u a t i o n C r i t e r i a 86, que
devolve os critrios que o componente capaz de analisar para uma dada classe de objectos.
O conjunto de mensagens suportadas por este componente encontra-se ilustrado na Figura 45.
de notar que o relatrio de avaliao (i.e., M i g r a t i o n R e p o r t ) produzido pelo O b j e c t
E v a l u a t o r inclui a propriedade M i g r a t i o n P a t h . No entanto, esta no preenchida pelo
mesmo, uma vez que o nico componente que tem conhecimento do caminho de migrao
previamente executado o M i g r a t i o n B r o k e r . A propriedade existe porque todos os
componentes avaliadores produzem relatrios com a mesma estrutura.
As seces que se seguem descrevem as classes de objectos suportadas pelo CRiB, os critrios
de avaliao que lhes so subjacentes, os extractores de valores de propriedades e as funes
de similaridade associadas.
86 Tratando-se de um servio que realiza avaliaes no contexto da plataforma CRiB, este implementa a interface Evaluator.
101
Figura 45 Mensagens trocadas pelo Object Evaluator.
102
formatos. As razes que levaram escolha das classes i m a g e n s m a t r i c i a i s e
d o c u m e n t o s d e t e x t o encontram-se resumidas de seguida.
Imagens matriciais
Vrias instituies, especialmente as de cariz cultural, como os arquivos e as bibliotecas,
recorrem frequentemente transferncia de suporte como forma de preservar os seus
materiais analgicos. A preservao destes materiais assegurada, limitando o seu
manuseamento pelo pblico em geral, fornecendo como alternativa uma representao do
mesmo num outro formato ou suporte.
Um dos suportes mais utilizados neste tipo de contextos o microfilme. Porm, a digitalizao
tem vindo a afirmar-se como uma tecnologia com vantagens acrescidas ao nvel da facilidade
de reproduo e disseminao. Neste contexto, os esforos de preservao deixam de estar
centrados unicamente no material analgico, passando tambm a estar focados na preservao
dos seus equivalentes digitais.
O Arquivo Distrital do Porto87, por exemplo, disponibiliza aos seus utentes um servio de
digitalizao a-pedido de todos os itens includos no seu acervo (Ferreira, 2006b; Ferreira &
Ramalho, 2004a, 2004b, 2004c; Ramalho, Ferreira, Ferros, Lima, & Sousa, 2006). As
reprodues digitais requisitadas so descritas e arquivadas, recorrendo a um sistema de
Gesto de Objectos Digitais desenvolvido especificamente com essa finalidade (Ramalho et al.,
2006). Este sistema tambm responsvel por colocar em linha verses de baixa resoluo
dessas reprodues, permitindo ao utente pr-visualizar e, posteriormente, adquirir as mesmas
atravs de um balco electrnico tambm disponvel atravs do portal do Arquivo (Sousa,
Ferros, Ramalho, & Lima, 2007). A preservao dessas reprodues , para o Arquivo Distrital
do Porto, uma actividade crtica no suporte ao seu negcio.
87 http://www.adporto.pt
103
formatos digitais88. Exemplo disso so os vrios acervos de imagens existentes na Web, como
por exemplo, o Flickr89, o Picasa Web Albums90 ou o Kodak Gallery91, dedicados
fundamentalmente publicao de fotografias por parte de um pblico amador. No obstante,
existe tambm um grande nmero de stios Web dedicados publicao e venda de imagens
de cariz profissional. Exemplos disso so os servios de venda de imagens Shutterstock92,
Dreamstime93, Stockxpert94, 123RF95 e iStockPhoto96.
Para reforar um pouco mais a importncia deste tipo de objectos digitais, uma consulta aos
perfis de preservao publicados pelo R e g i s t r y o f O p e n A c c e s s R e p o s i t o r i e s 97
(ROAR) permite concluir que, logo aps aos documentos de texto, as imagens (em formato
JPEG e TIFF) so as classes de objectos mais prevalecentes nos repositrios institucionais98
actualmente implementados (University of Southampton, 2007).
Houve, portanto, duas razes fundamentais que conduziram escolha desta classe de objectos
para integrao na plataforma CRiB. A primeira, teve que ver com a elevada ubiquidade deste
tipo de material. Uma estratgia de preservao deve preocupar-se em primeiro lugar com os
materiais mais prevalecentes (isto, falta de mtrica mais eficaz na identificao de prioridades
relativamente a que objectos preservar). A segunda razo, teve que ver com a simplicidade do
ponto de vista tcnico inerente ao processamento deste tipo de objectos. Optou-se por encetar
o desenvolvimento da plataforma de servios com uma classe de objectos sobre a qual
houvesse documentao suficiente e ferramentas disponveis capazes de os processar
eficazmente.
Documentos de texto
Uma anlise aos perfis de preservao publicados pelo projecto ROAR permitiu concluir que
os d o c u m e n t o s d e t e x t o so claramente a classe de objectos digitais mais prevalecente
88 Apesar de, na sua grande maioria, as cmaras digitais guardarem fotografias em formato JPEG, muito comum,
especialmente em contextos profissionais, a gravao de imagens em formatos RAW que so diferentes consoante o
fabricante.
89 http://www.flickr.com
90 http://picasaweb.google.com
91 http://www.kodakgallery.com
92 http://www.shutterstock.com
93 http://www.dreamstime.com
94 http://www.stockxpert.com
95 http://www.123rf.com
96 http://www.istockphoto.com
97 http://roar.eprints.org/
98 Em Janeiro de 2008 haviam sido includos nesta estatstica 968 repositrios.
104
nos repositrios digitais actualmente existentes (University of Southampton, 2007). Este tipo
de repositrios responsvel por arquivar e preservar todo o tipo de material que seja produto
intelectual de uma dada organizao (Sarmento, Baptista, & Ramos, 2005). A grande maioria
destes repositrios mantida por organizaes de carcter acadmico, como universidades ou
centros de investigao e neles podemos encontrar documentos diversos como artigos,
monografias, relatrios tcnicos, teses, dissertaes, entre outros (Ferreira et al., 2008).
105
Outras fontes de informao relevantes para a construo destas taxionomias de avaliao
foram: o documento Assessing the Durability of Formats in a Digital Preservation
Environment (Stanescu, 2004) e a Wikipedia99 onde se pode encontrar uma quantidade
assinalvel de informao tcnica sobre formatos e as vrias aplicaes de software que os
suportam.
Imagens matriciais
A taxionomia de avaliao utilizada pelo O b j e c t E v a l u a t o r para determinar o nvel de
degradao incorrido durante a migrao de um objecto pertencente classe i m a g e n s
m a t r i c i a i s encontra-se ilustrada na Figura 46.
1. page count
content completeness
2. pixel correctness
3. width
resolution
4. height
Object appearance
(raster images)
5. model
color
6. depth
context 7. metadata
99 http://www.wikipedia.org
106
As propriedades presentes na taxionomia previamente apresentada encontram-se descritas em
detalhe na Tabela 9.
Documentos de texto
A Figura 47 apresenta a taxionomia de avaliao utilizada pelo O b j e c t E v a l u a t o r para
determinar o nvel de degradao incorrido durante a converso de d o c u m e n t o s d e
texto.
107
1. page count
2. image count
3. character count
content completeness
4. Word count
5. line count
6. character correctness
9. bottom
margins
10. top
11. right
12. width
14. layout
108
Determina se as dimenses da margem superior do documento
foram preservadas. Este critrio calculado pgina-a-pgina e um
10 Margem superior
valor de similaridade global obtido atravs da mdia dos valores
parciais.
Determina se as dimenses da margem direita do documento foram
11 Margem direita preservadas. Este critrio calculado pgina-a-pgina e um valor de
similaridade global obtido atravs da mdia dos valores parciais.
Determina se a largura do documento em milmetros foi preservada.
12 Largura de pgina Este critrio calculado pgina-a-pgina e um valor de similaridade
global obtido calculando a mdia dos valores parciais.
Determina se a altura do documento em milmetros foi preservada.
13 Altura de pgina Este critrio calculado pgina-a-pgina e um valor de similaridade
global obtido calculando a mdia dos valores parciais.
Determina se a disposio grfica dos elementos em cada pgina foi
14 Conformidade grfica
devidamente preservada durante a converso.
15 Cor de fundo Determina se a cor de fundo do documento foi preservada.
Verifica se a coleco de tipos de letra utilizada no documento
16 Tipos de letra
convertido igual coleco usada no documento original.
Cada propriedade significativa deve ser comparada atravs de uma funo de similaridade
especfica. Por exemplo, para determinar se o comprimento em bytes de uma representao se
109
manteve inalterado durante um processo de migrao no suficiente verificar se o seu
comprimento igual ao comprimento da representao convertida. fundamental utilizar
uma mtrica que respeite as relaes de proporcionalidade entre ambos os valores e que, ao
mesmo tempo, tenha em considerao a dimenso das suas grandezas. Uma representao que
tenha passado de 100 Kilobytes para 150 Kilobytes foi alvo de um aumento de 50%. No
entanto, uma representao que tenha crescido de 100 Megabytes para 120 Megabytes sofreu
apenas um aumento de 20%. No obstante, no primeiro caso a diferena absoluta foi de 50
Kilobytes, enquanto que no segundo foi de 20 Megabytes, um valor cerca de 410 vezes
superior ao do primeiro exemplo.
Por exemplo, considere-se uma representao codificada num formato que requer o
pagamento royalties aquando da sua produo e/ou utilizao. Agora, imagine-se um formato
para o qual esta representao poderia ser convertida, livre deste tipo de encargos. A realizao
dessa migrao traria benefcios significativos no que diz respeito aos custos de preservao
desta representao. Formatos que requerem o pagamento de royalties so geralmente maus
candidatos a formatos de preservao devido aos custos inerentes sua utilizao. Estes custos
podero tornar-se incomportveis a longo-prazo.
100 http://crib.dsi.uminho.pt
111
Figura 49 Diagrama de classes associadas ao Format Evaluator.
112
contextos de preservao.
Se o formato suporta qualquer tipo de compresso. Formatos no comprimidos
Suporta compresso
so geralmente preferidos pela comunidade dedicada preservao digital.
Se o formato suporta exclusivamente um tipo de compresso que provoca
Apenas suporta compresso
perda de informao ou deteriorao do objecto original. Os esquemas de
com perdas de informao
compresso com perda so grandemente desaconselhados.
Se o formato oferece funcionalidades de transparncia. Este critrio especfico
de determinado tipo de formatos (p. ex. imagens de mapa de bits). Se o formato
Suporta transparncia
de origem contm funcionalidades de transparncia, o formato de destino deve
ter tambm suporte para essa propriedade.
Se o formato contem metainformao embebida. O formato de destino deve
Metainformao embebida ter capacidade de incluir/acomodar a metainformao embebida do formato de
partida.
Se a utilizao ou produo do formato requer o pagamento de royalties ou taxas
Royalties (taxas de utilizao)
de utilizao. Existe preferncia por formatos livres de royalties.
Se existem aplicaes cujo cdigo pode ser inspeccionado/verificado de forma
Cdigo-aberto independente. A existncia de aplicaes de cdigo aberto amplamente
recomendada.
Se as revises aos formatos incluem suporte para as verses anteriores. A
Retro-compatvel
retrocompatibilidade uma caracterstica desejvel.
Se as especificaes do formato esto bem documentadas. O sistema favorece a
Nvel de documentao
existncia de formatos bem documentados.
Se existem formatos concorrentes ou similares. A existncia de formatos
Existem formatos
concorrentes torna um formato mais atractivo para preservao, uma vez que a
concorrentes
informao poder ser mais facilmente convertida.
Se possvel a utilizao de Gesto de Direitos Digitais (DRM), encriptao ou
Implementa DRM assinaturas digitais. Desaconselha-se a existncia de qualquer tipo de
funcionalidade que possa constituir obstculo no acesso informao.
Qual a frequncia de reviso de um formato desde a sua publicao inicial. Este
critrio definido de acordo com a seguinte frmula: nmero de revises /
Frequncia de actualizao (ano actual ano de disponibilizao). Os formatos estveis so preferenciais.
Se a frequncia de revises muito grande, o arquivo poder ter dificuldade em
acompanhar o ritmo das mesmas.
Se o formato permite a incluso de extenses, tais como seces executveis ou
Permite extenses marginais caractersticas marginalmente suportadas. Desaconselha-se a utilizao de
formatos que suportam tais funcionalidades.
Quantos anos passaram desde que o formato foi disponibilizado oficialmente.
Idade Os formatos de longa durao tm geralmente preferncia sobre formatos
novos e pouco estabelecidos.
Complexidade inerente codificao: legibilidade por parte de um ser humano
Interpretao/descodificao
recorrendo a um editor do texto simples. Tm preferncia os formatos que
transparente
podem ser facilmente inspeccionados e/ou interpretados.
Se existem vrias entidades que produzem leitores/visualizadores. Para
Vrios produtores de
finalidades de preservao no se deve apostar em leitores produzidos somente
aplicaes de leitura
por uma nica entidade.
Se o formato pode ser lido/interpretado por diversas aplicaes informticas.
Vrias aplicaes de leitura Para finalidades da preservao no se deve apostar em formatos que apenas
podem ser lidos/visualizados por uma aplicao especfica.
Se o cdigo fonte da aplicao de leitura pode ser inspeccionada/verificada de
Aplicaes de leitura em
forma independente. A existncia de leitores/visualizadores em cdigo aberto
cdigo-aberto
uma caracterstica altamente desejvel.
Se a aplicao de leitura/visualizao pode ser executada ou tem verses para
Existem
vrias outras plataformas (por exemplo, sistemas operativos ou hardware). A
leitores/visualizadores para
existncia de aplicaes executveis em plataformas concorrentes uma
vrias plataformas
caracterstica altamente desejvel num contexto de preservao.
113
Considere-se, ainda, o seguinte exemplo. Uma instituio pretende preservar uma coleco de
imagens codificadas em formato JPEG 1.02 que resultaram de um recente projecto de
digitalizao. A instituio deseja saber qual o formato mais adequado para garantir o acesso
continuado a esses objectos. Ao mesmo tempo, pretende que o formato escolhido minimize o
nmero de intervenes de preservao necessrias no futuro. Por outras palavras, a
instituio pretende conhecer o formato de preservao mais adequado para suster as
representaes que perfazem a sua coleco. O componente F o r m a t E v a l u a t o r pode ser
consultado para obter esta informao.
Comparison results
Unexisting 0.00
Low 0.25
Medium 0.50
High 0.75
Very High 1.00
114
anlise do benefcio que se obteria ao converter as digitalizaes do formato JPEG 1.02 para
TIFF 6 e JPEG 2000, respectivamente. A figura apresenta, ainda, as caractersticas
apresentadas por cada um destes formatos, obtidas a partir da F o r m a t K n o w l e d g e
B a s e , as funes de clculo de benefcio utilizadas e o resultado final dessa avaliao.
importante referir que no exemplo apresentado foi atribudo o mesmo nvel de importncia a
todas as caractersticas avaliadas.
Observando a figura possvel concluir que o formato TIFF 6 foi considerado mais benfico
do que o JPEG 2000 para preservar a coleco de objectos originalmente em formato JPEG
1.02. Isto deve-se, sobretudo, ao facto de o formato TIFF se apresentar como um formato
mais prevalecente e maduro que o JPEG 2000, ou seja, apresentou maiores nveis de q u o t a
d e m e r c a d o 101 e uma i d a d e 102 substancialmente superior.
115
entanto, o formato de destino no possuir esta caracterstica (i.e., O p e n
S p e c i f i c a t i o n target= 0), ento o resultado produzido por esta funo ser um valor
pejorativo de 0. Se, por outro lado, ambos os formatos possurem essa caracterstica, uma
potencial converso entre estes no iria piorar a sua aptido para preservar objectos digitais, ou
seja, o ganho de preservao seria de 1. Todavia, por contraposio com o exemplo anterior,
se um formato no possuir uma dada caracterstica favorvel preservao e o formato de
destino tambm no a possuir, ento o valor de g a n h o d e p r e s e r v a o ser de 0.5,
reforando a ideia de que apesar de no se estar a perder uma caracterstica tcnica favorvel,
se esta tivesse sido introduzida pelo novo formato estar-se-ia a beneficiar mais em termos de
preservao do objecto digital.
4.7.2 Implicao
A funo i m p l i c a o , ou i m p l i c a t i o n , bastante semelhante anterior. No entanto,
apenas desvaloriza converses onde uma dada caracterstica existente no formato de partida
no suportada no formato de destino. A tabela de verdade associada a esta funo encontra-
se definida na Tabela 13.
4.7.3 Negao
A n e g a o , ou n o t , uma funo que apenas tem em considerao as caractersticas do
formato de destino, i.e., indiferente s propriedades apresentadas pelo formato de partida. O
facto de um formato de destino possuir ou no determinada propriedade suficiente para tirar
116
ilaes quanto ao benefcio introduzido pela sua utilizao. A tabela de verdade associada a
esta funo encontra-se definida na Tabela 14.
4.7.4 Razo
A funo r a z o , ou r a t i o , distingue-se das anteriores na medida em que no baseada
numa tabela de verdade. Na realidade, esta funo calcula a razo existente entre o valor de
uma caracterstica existente no formato de partida e o mesmo valor no formato de destino
correspondente.
Criterion target
Ratio(Criterion source ,Criterion target ) =
Criterion source
Frmula 6 Ratio.
A ttulo de exemplo, partindo do pressuposto que um formato com um elevado nvel de
prevalncia preferido face a um formato de nicho pouco utilizado, a funo r a t i o permite
determinar o benefcio obtido ao converter uma representao de um destes formatos para o
outro.
117
MarketShareJPEG 2000 = low = 0.25
MarketShareTIFF 6 = high = 0.75
0.75
Ratio(MarketShareJPEG 2000 , MarketShareTIFF 6 ) = 3.0
0.25
0.25
Ratio(MarketShareTIFF 6 , MarketShareJPEG 2000 ) = 0.33
0.75
Sempre que, no contexto do CRiB, efectuada uma converso, so realizadas trs avaliaes
distintas por parte dos componentes M i g r a t i o n B r o k e r , O b j e c t E v a l u a t o r e
F o r m a t E v a l u a t o r . Cada um destes componentes responsvel por aferir o desempenho,
susceptibilidade a perdas de informao e aptido tcnica para a preservao dos servios de
migrao utilizados. O M i g r a t i o n B r o k e r , por exemplo, foca-se na avaliao do processo
de migrao. Durante a sua avaliao, considera critrios como o dbito do servio de
migrao, a sua disponibilidade, estabilidade, taxa de crescimento em bytes das representaes
submetidas a converso, entre outros (ver seco 4.5).
O F o r m a t E v a l u a t o r , tal como o nome indica, faz uma anlise dos formatos envolvidos
na converso, comparando as suas caractersticas tcnicas e calculando o benefcio que se
118
obteria em termos de capacidade de preservao se se realizasse uma dada converso entre
dois formatos. Exemplos de caractersticas tcnicas consideradas por este componente so a
quota de mercado de um dado formato, o seu nvel de suporte e abertura, existncia de
software multiplataforma, etc. (ver seco 4.7).
119
CRiB Core
Preservation Evaluations
Migration Advisor Repository
Client Services
getEvaluationCriteria
(String formatName) getEvaluationCriteria
(String formatName)
criteria
criteria (WeightedCriterion[])
(WeightedCriterion[])
weightCriteria()
getRecommendation
(String formatName, getRecommendation
WeightedCriterion[] (String formatName,
criteria) WeightedCriterion[] getMigrationPaths
criteria) (String formatName)
migrationPaths
(MigrationPath[])
average
(MigrationPath migrationPath,
String criterionName)
value
(double)
rankAlternatives()
recommendation
(RankingItem[])
recommendation
(RankingItem[])
Aps processar as preferncias manifestadas pelo cliente, o sistema capaz de determinar qual
a alternativa de migrao mais adequada ao seu contexto especfico de preservao. Para tal, o
M i g r a t i o n A d v i s o r determina, para cada critrio, o comportamento esperado que cada
um dos vrios caminhos de migrao poder oferecer. Este clculo efectuado consultando a
informao armazenada no E v a l u a t i o n s R e p o s i t o r y , uma base de dados que acumula
todos os relatrios de avaliao produzidos pelos vrios componentes avaliadores ao longo do
tempo. Para um dado critrio, o comportamento esperado de um caminho de migrao
determinado, analisando a conduta e desempenho de um subconjunto de todas as migraes
passadas.
120
Client
Weighted Recommendation
Criteria
Migration
Advisor
Migration
Reports
Migration
Report
Object
Evaluator
121
Figura 53 Diagrama de classes e mensagens trocadas pelo
Migration Advisor.
122
Figura 55 Clculo de pontuao de um caminho de migrao.
Normalizao de pesos
O algoritmo de recomendao exige que o somatrio dos pesos atribudos a cada nvel da
taxionomia de avaliao seja igual a 1. No entanto, nada na estrutura de dados fornecida ao
cliente impe esse invariante. O estabelecimento dessa restrio na estrutura de dados
colocaria dificuldades ao nvel da atribuio dos pesos, sendo necessrio a construo de uma
interface grfica de auxlio ao utilizador que verificasse esse invariante e o ajudasse na definio
dos mesmos.
Na abordagem seguida, o utilizador livre de atribuir os pesos que achar mais convenientes,
no estando limitado a uma escala predefinida. Por exemplo, para cada critrio o utilizador
poder atribuir pesos de acordo com uma escala Likert de 1 a 5 (Figura 56).
3 3/3
Normalizao de pesos
2 5 2/7 5/7
123
atribudo pelo utilizador pelo somatrio de todos os pesos existentes num dado nvel da
taxionomia.
wi
w i = n
i=1
wi
importante realar que em taxionomias cujos pesos j respeitem o invariante, o processo de
normalizao no produz alteraes nos pesos atribudos pelo utilizador.
Avaliaes Mdia
! n
Tipo Critrio V1 V2 V3 V4 V5 M=
i=1
Vi
n
Dbito 6.86818 2.33179 7.18863 9.56329 12.21235 7.632848
Processo Estabilidade 1 1 1 1 1 1
Taxa de crescimento em bytes
1.40623
1.40623
1.42928
1.40623
1.42928
1.41545
Conformidade grfica 0.99192 0.99192 0.99118 0.9919 0.99118 0.99162
Objecto Largura 1 1 1 1 1 1
Altura 1 1 1 1 1 1
Idade 0.57142 0.57142 0.57142 0.57142 0.57142 0.57142
Formato Quota de mercado 0.00196 0.00196 0.00196 0.00196 0.00196 0.00196
Especificao aberta 1 1 1 1 1 1
124
Normalizao do desempenho mdio
Uma vez obtidos os vectores de desempenho mdio para os vrios caminhos de migrao
registados no sistema, procede-se normalizao dos valores associados a cada critrio. A
normalizao tem como objectivo tornar os diversos valores mdios comparveis, fazendo-os
pertencer a uma escala comum. Este processo de normalizao fundamental, pois h
critrios que no so balizados superiormente, e.g. dbito de converso, taxa de crescimento
em bytes, idade de um formato, etc. Este processo faz com que todos os valores recolhidos
pelos componentes avaliadores se situem numa escala compreendida entre 0 e 1.
M ij min(M j )
N ij =
max(M j ) min(M j )
Taxionomia de avaliao pesada Desempenho mdio de um caminho de migrao Agregao de clculo de pontuao final
3/3
2/8 1/8 5/8 2/6 4/6 2/3 2/4 1/2 1 0 1/6 1/16 5/24 2/6 0
Aps obter uma pontuao para cada um dos caminhos de migrao, possvel construir um
ranking com as alternativas mais adequadas para preservar uma dada coleco de objectos. O
ranking constitui a recomendao produzida pelo M i g r a t i o n A d v i s o r e que
efectivamente enviada ao cliente. Este poder optar pelo caminho de migrao com a
pontuao mais elevada ou qualquer um dos outros caminhos apresentados, conhecendo de
antemo as vantagens e desvantagens inerentes a essa tomada de deciso.
126
O captulo comea por fornecer uma viso geral sobre a arquitectura desenvolvida, expondo
exemplos de aplicaes-cliente que podero tomar partido dos servios disponibilizados e
identificando objectivamente os componentes que a constituem. Nesta fase, so ainda
identificadas todas as fontes de informao que suportam esses mesmos componentes.
4.9.1 Limitaes
Apesar dos desenvolvimentos realizados, existe um sem-nmero de melhorias que poderiam
ser introduzidos na plataforma e que fariam com que esta se tornasse mais segura, verstil,
eficiente e precisa. Os pargrafos que se seguem procuram descrever e apontar o caminho para
alguns desses desenvolvimentos.
129
No modelo apresentado, os provedores de servios de migrao so responsveis pela
implementao distribuda dos mesmos. Isto incorpora uma falha fundamental que poder
inviabilizar a utilizao de uma arquitectura com estas caractersticas em determinados
contextos de aplicao. Esta falha tem que ver com a confidencialidade dos dados. Os servios
de migrao podem operar sobre protocolos seguros como o H y p e r t e x t T r a n s f e r
P r o t o c o l sobre S e c u r e S o c k e t L a y e r (H T T P S ), assegurando deste modo que os
dados trocados entre o cliente e a plataforma intermdia, e entre esta e os provedores de
servio no so susceptveis de inspeco por terceiros. No entanto, difcil garantir a
idoneidade dos provedores de servio que obtero, necessariamente, acesso aos dados a
converter. Uma forma de combater este problema seria estabelecer contratos de prestao de
servio que garantissem a confidencialidade e segurana dos dados por parte dos provedores
de servios de migrao. Esses contratos seriam estabelecidos no momento do registo de um
servio de migrao na plataforma. No obstante, estes contratos seriam apenas baseados na
confiana mtua, pois complexo implementar mecanismos de monitorizao e certificao
dos processos desenvolvidos do lado do provedor de servio. Formas mais criativas na rea do
direito e da segurana de dados tero que ser investigadas no sentido de mitigar este problema.
Outro aspecto que poderia ser melhorado a forma como o dbito de uma migrao
calculado. Neste momento este parmetro determinado, dividindo o comprimento em bytes
da representao a converter pelo tempo de migrao. No entanto, o tempo de converso no
est directamente relacionado com o comprimento da representao. Representaes com
contedos marcadamente complexos (e.g. um documento com muitas tabelas e imagens)
podero demorar mais tempo a converter do que representaes bastante maiores em termos
de tamanho, mas de complexidade inferior. Trabalho futuro poder centrar-se na identificao
dos factores que influenciam directamente o tempo de converso atravs da anlise detalhada
das propriedades geralmente associadas a uma dada classe de objectos ou formatos.
130
No que toca ao F o r m a t I d e n t i f i e r , necessrio referir que se poderia enriquecer os
resultados que produz se se utilizasse uma combinao de vrias ferramentas de identificao
de formatos como o Unix file ou o JHove. No entanto, seria necessrio criar mapeamentos
entre os descritores de formatos utilizados por cada uma destas ferramentas de modo a
assegurar a sua coerncia e o controlo das designaes utilizadas.
Ainda neste contexto, importante referir que os critrios de avaliao suportados pelos vrios
componentes avaliadores (i.e., M i g r a t i o n B r o k e r , O b j e c t E v a l u a t o r e F o r m a t
E v a l u a t o r ) foram desenvolvidos como add-ons plataforma, o que significa que o
desenvolvimento e a instalao de novos critrios de avaliao podem ser realizados de forma
simples, sem que haja necessidade de reprogramao da plataforma.
109 http://roar.eprints.org/
131
acumulados ao invs de os calcular sempre que so requeridos (Caldeira, 2008; Kimball &
Ross, 2002). Neste momento, o desempenho mdio calculado realizando um conjunto de
questes M i g r a t i o n K n o w l e d g e B a s e , o que, dependendo do nmero de avaliaes
armazenadas e do nmero de caminhos de migrao registados, poder ser uma tarefa bastante
complexa e demorada.
Para concluir, a plataforma proposta beneficiaria com um aumento dos critrios de avaliao
suportados, bem como de formatos reconhecidos. Para alm do disposto, a adio de novas
classes de objectos digitais tornaria a plataforma mais apta para recomendar estratgias de
migrao. Adicionalmente, esta deveria ser melhorada para implementar mecanismos de
controlo de qualidade que suportassem migraes de formato entre classes de objectos
distintas.
132
Captulo 5
Metodologia e avaliao
Ao longo do captulo anterior foram apresentados, em detalhe, todos os componentes que
compem a plataforma CRiB, um sistema capaz de assistir organizaes e indivduos na
seleco e execuo de intervenes de preservao baseadas em migrao .
Este trabalho teve como principal objectivo aferir se seria possvel automatizar os processos
inerentes preservao de objectos digitais recorrendo a estratgias de migrao.
Este captulo tem como misso descrever a metodologia utilizada durante a validao destes
componentes, bem como as concluses que da resultaram. importante referir que o
componente M i g r a t i o n B r o k e r no foi validado. Este componente apresenta apenas dois
133
estados possveis de execuo: sucesso ou insucesso. Os casos de insucesso ocorrem quando
os servios de migrao foram incapazes de completar uma dada tarefa de converso. Os
restantes dois componentes, dada a sua complexidade, exigiram um maior rigor e esforo de
validao.
Este captulo est organizado da seguinte forma: a seco 5.1 descreve detalhadamente as
experincias realizadas em torno do componente O b j e c t E v a l u a t o r e a seco 5.2
apresenta a metodologia e os processos de avaliao desenvolvidos em torno do M i g r a t i o n
A d v i s o r . Em ambas as seces so ainda apresentados os protocolos experimentais
adoptados, a caracterizao das coleces de objectos de teste utilizados ao longo da
experincia, os detalhes dos estudos comparativos realizados e uma seco de resultados e
concluses.
Ainda neste contexto, importante referir que existem dois tipos de propriedades
significativas: propriedades de carcter objectivo e propriedades de carcter subjectivo.
Considere-se o seguinte exemplo. A largura e altura (em pixel) de uma imagem so
propriedades marcadamente objectivas, i.e., tratam-se de propriedades que podero facilmente
ser extradas e comparadas por um qualquer processo automtico baseado em software. O
mais rudimentar dos visualizadores de imagens, por exemplo, capaz de ler e apresentar a
largura e altura de uma imagem desde que o seu formato seja reconhecido pela aplicao.
Calcular a similaridade entre duas propriedades com estas caractersticas um processo,
geralmente, simples, no levantando grandes dvidas relativamente aos resultados obtidos.
110 Para uma listagem completa das propriedades significativas suportadas pelo O b j e c t E v a l u a t o r , consulte a seco
4.6.2 na pgina 105.
135
formas eficazes de lidar com informao incompleta. Ou seja, de estratgias capazes de
determinar que valores de similaridade devero ser considerados quando uma determinada
propriedade apenas est associada a um dos objectos em comparao. No limite, os conjuntos
de propriedades significativas associados a cada classe de objectos podero ser disjuntos,
impossibilitando o clculo adequado de similaridade.
Para ilustrar este ponto, considere-se o seguinte exemplo. possvel admitir que a verso
sonorizada de um livro111 possa ser interpretada como uma representao, ou manifestao,
alternativa da sua verso textual, mais convencional. possvel tambm imaginar um processo
capaz de converter uma instncia textual dessa obra na sua verso sonorizada, destinada por
exemplo ao consumo por invisuais112. Este cenrio representativo de uma converso entre
formatos pertencentes a classes de objectos distintas: d o c u m e n t o s d e t e x t o e
d o c u m e n t o s u d i o . Como j havia sido referido anteriormente, o conjunto de
propriedades significativas associadas a cada uma destas classes difere consideravelmente, o
que torna o clculo automtico de similaridade bastante complexo ou at mesmo impraticvel.
111 Hoje em dia bastante comum encontrar no mercado livros sonorizados em udio, algo que vulgarmente se designa por
audio book.
112 As verses mais actuais do software Acrobat Reader j so capazes de sonorizar um documento de texto ao activar uma
136
pretendiam avaliar e de forma a conter objectos em diversos formatos, mas
pertencentes mesma classe de objectos digitais.
137
As seces que se seguem procuram determinar experimentalmente a capacidade do
componente O b j e c t E v a l u a t o r em aferir o nvel de c o n f o r m i d a d e g r f i c a
existente entre duas imagens matriciais.
138
A cada avaliador foi pedido que comparasse cada uma das 10 imagens originais com as 3
derivadas previamente produzidas e atribuir uma classificao de 0 a 10 de acordo com o grau
de similaridade percepcionado (variando qualitativamente entre o Totalmente diferentes e o
Iguais). No total, cada interveniente humano seria responsvel por avaliar 30 pares de
imagens.
As dez imagens utilizadas nesta experincia podem ser agrupadas em seis categorias distintas:
1) manuscrito digitalizado, 2) pgina de jornal digitalizada, 3) cartaz colorido digitalizado, 4)
fotografia digital, 5) cartoon digital, e 6) desenho digitalizado.
139
Imagem Cdigo Descrio Dimenses
Original 03-00 Poster digitalizado em formato TIFF com 24 bits de cor. 685x1404
140
Imagem Cdigo Descrio Dimenses
Fotografia digital tirada com uma FinePixA101 em
Original 05-00 1280x960
formato JPEG.
Derivada 1 05-01 Imagem convertida para formato GIF 256 cores.
141
Imagem Cdigo Descrio Dimenses
Fotografia digital tirada com uma Olympus C150 em
Original 07-00 1600x1200
formato JPEG.
Imagem convertida para formato JPEG com um nvel
Derivada 1 07-01 de compresso de 10 (0 qualidade mnima, 12
qualidade mxima).
142
Imagem Cdigo Descrio Dimenses
Avaliao manual
O I n t e r n a t i o n a l T e l e c o m m u n i c a t i o n U n i o n ( I T U ) com a ajuda do V i d e o
Q u a l i t y E x p e r t s G r o u p tem vindo a emitir a normas e recomendaes sobre como se
devero processar experincias na rea da medio da qualidade de sequncias de vdeo
(Telecommunication Standardization Sector of ITU, 2004). Estas recomendaes so tambm
utilizadas na definio de guies de procedimentos para a avaliao e comparao de
algoritmos de compresso de imagem com perdas (e.g. JPEG, JPEG 2000). Estas mesmas
recomendaes serviram de base para a construo do guio de procedimentos utilizado ao
longo desta experincia.
De acordo com o ITU este tipo de experincias dever ser realizado com o maior nmero
possvel de intervenientes humanos de modo a minimizar a variabilidade das avaliaes
subjectivas produzidas. Estudos semelhantes foram realizados com grupos de avaliadores na
ordem das 25 pessoas (Telecommunication Standardization Sector of ITU, 2004; Z. Wang et
al., 2004). No entanto, devido a restries de tempo e disponibilidade de participantes, esta
experincia foi conduzida com apenas 15 pessoas, i.e., o nmero mnimo de pessoas
recomendado pelo ITU (Telecommunication Standardization Sector of ITU, 2004).
Cada participante foi ento convidado a observar os vrios pares de imagens que compunham
a coleco de teste, sem quaisquer restries de tempo, podendo ainda ampliar e reduzir as
respectivas imagens, bem como posicionar a janela de visualizao na rea da imagem
144
desejada. Aps cada observao, foi-lhes pedido que quantificassem o nvel de similaridade
percepcionado entre ambas as imagens numa escala linear de 0 a 10 (i.e., de Totalmente
diferentes a Iguais).
Aps reunir as classificaes dos 15 intervenientes aos 30 pares de imagens, estas foram
agrupadas num nico valor designado por M e a n O p i n i o n S c o r e ou, simplesmente, MOS
(Tabela 17). O valor de MOS representa a mdia das classificaes atribudas por todos os
avaliadores a cada par de imagens (Petrov, Vatolin, Parshin, & Titarenko, 2006;
Telecommunication Standardization Sector of ITU, 2004; Z. Wang et al., 2004). A tabela inclui
tambm o desvio-padro verificado.
Avaliaes subjectivas
Valor-P
Par
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 MOS Kolmogorov-
k
Smirnov
1 10 10 10 9 10 10 10 10 10 10 10 10 10 9 10 9.87 0.35 0.001
2 9 6 8 9 10 8 9 8 9 8 9 10 8 8 10 8.60 1.06 0.473
3 6 7 6 5 8 7 7 8 7 6 6 9 7 7 8 6.93 1.03 0.538
4 7 6 6 8 8 7 8 8 5 6 7 8 7 6 8 7.00 1.00 0.347
5 8 9 10 10 10 8 9 9 8 9 10 9 9 8 10 9.07 0.80 0.510
6 9 9 10 10 10 10 9 10 9 10 9 10 10 9 10 9.60 0.51 0.023
7 6 8 10 6 10 7 7 7 7 5 8 10 8 5 10 7.60 1.76 0.718
8 8 9 10 5 9 9 9 8 8 7 9 10 9 6 10 8.40 1.45 0.262
9 8 10 10 9 10 10 10 9 10 8 9 10 10 5 10 9.20 1.37 0.093
10 10 10 10 10 10 10 9 9 10 10 10 10 10 9 10 9.80 0.41 0.002
11 5 6 8 7 7 7 6 8 6 8 7 8 7 6 8 6.93 0.96 0.587
12 6 7 10 4 6 8 7 7 7 7 5 9 6 7 8 6.93 1.49 0.489
13 6 7 10 8 7 7 8 7 9 8 7 10 9 6 7 7.73 1.28 0.306
14 7 4 7 3 5 5 6 4 7 5 4 7 7 5 6 5.47 1.36 0.558
15 8 9 10 9 9 10 10 6 9 10 9 10 10 8 10 9.13 1.13 0.293
16 8 9 9 8 10 10 8 5 9 8 7 10 9 7 9 8.40 1.35 0.556
17 7 8 8 5 8 8 9 4 8 8 8 9 8 8 6 7.47 1.41 0.026
18 6 5 7 3 5 6 6 3 6 5 4 7 6 9 5 5.53 1.55 0.704
19 7 8 8 8 9 9 8 5 7 8 8 9 9 10 9 8.13 1.19 0.282
20 8 9 9 7 9 9 10 5 10 10 10 10 10 10 10 9.07 1.44 0.185
21 6 4 6 4 5 4 6 4 5 5 4 7 6 7 6 5.27 1.10 0.497
22 10 9 10 10 9 10 10 7 9 10 9 10 10 9 10 9.47 0.83 0.064
23 7 7 7 3 5 6 7 5 7 9 6 8 6 7 6 6.40 1.40 0.578
24 7 5 6 5 5 7 6 5 8 5 5 7 8 5 6 6.00 1.13 0.197
25 8 7 6 4 6 6 6 5 8 7 7 8 8 8 7 6.73 1.22 0.675
26 10 10 10 10 10 10 10 7 10 10 10 10 10 9 10 9.73 0.80 0.001
27 10 10 10 9 9 10 10 8 9 10 10 10 10 10 10 9.67 0.62 0.006
28 10 10 10 10 10 10 10 7 9 10 10 10 10 10 10 9.73 0.80 0.001
29 10 10 9 9 10 10 10 7 9 10 10 10 10 10 10 9.60 0.83 0.100
30 9 9 8 8 7 8 8 6 9 8 7 8 9 10 8 8.13 0.99 0.322
importante referir que a generalidade das classificaes produzidas pelos vrios avaliadores a
cada par de imagens segue uma distribuio normal como se pode ver pelos valores-P > 0.01
obtidos a partir do teste de normalidade K o l m o g o r o v - S m i r n o v 114. As avaliaes que no
seguem a distribuio normal so aquelas cujo valor mdio se situa demasiado perto da
pontuao mxima, impedindo, deste modo, a formao da curva em forma de sino
caracterstica desta distribuio. Esses valores encontram-se assinalados a negrito na Tabela 17.
Aps calcular o valor de MOS para cada par de imagens, foram eliminadas as classificaes
discrepantes, tambm conhecidas por outliers. Ouliers so observaes que no obedecem ao
padro do conjunto de dados ao qual pertencem (Silva, 2004). Por outras palavras, quando
uma observao, ou neste caso, avaliao, se afasta significativamente das restantes
considerada discrepante ou saliente115. A ocorrncia de tal observao poder dever-se a
mltiplos factores, no entanto, no contexto desta experincia deduziu-se que o aparecimento
destas classificaes se deveu a desconcentraes momentneas por parte dos avaliadores.
114 Em estatstica, o teste de normalidade de Kolmogorov-Smirnov utilizado para determinar se uma varivel aleatria,
representada por uma amostra de valores, segue uma distribuio normal.
115 Outras tradues possveis para o termo outlier so anormal, suspeito ou discordante.
116 O clculo do intervalo de valores considerados no discrepantes assume que a amostra segue uma distribuio normal, algo
146
Par Discrepantes
MOS
k removidos
1 2 10.00 0.00
2 1 8.79 0.80
3 0 6.93 1.03
4 0 7.00 1.00
5 0 9.07 0.80
6 0 9.60 0.51
7 0 7.60 1.76
8 1 8.64 1.15
9 1 9.50 0.76
10 0 9.80 0.41
11 0 6.93 0.96
12 1 6.71 1.27
13 0 7.73 1.28
14 0 5.47 1.36
15 1 9.36 0.74
16 1 8.64 1.01
17 1 7.71 1.07
18 1 5.29 1.27
19 1 8.36 0.84
20 1 9.36 0.93
21 0 5.27 1.10
22 1 9.64 0.50
23 1 6.64 1.08
24 0 6.00 1.13
25 1 6.93 1.00
26 1 9.93 0.27
27 1 9.79 0.43
28 1 9.93 0.27
29 1 9.79 0.43
30 1 8.29 0.83
Avaliao automtica
Aps recolher os valores de similaridade atribudos pelos avaliadores humanos, o mesmo
procedimento foi repetido, mas desta vez recorrendo s capacidades de avaliao do
componente O b j e c t E v a l u a t o r . Este foi preparado para suportar quatro algoritmos
distintos de clculo de similaridade entre imagens, nomeadamente:
147
Os quatro algoritmos implementados encontram-se descritos em detalhe no Apndice 8.3.6 na
pgina 212.
As avaliaes produzidas por estes quatro algoritmos pertencem ao conjunto [0, 1] , onde 1
significa que duas imagens so iguais e 0 que estas so totalmente diferentes. Uma classificao
de 0 apenas acontece quando as imagens comparadas so inversas, i.e., uma o negativo da
outra, situao em que se verifica a distncia mxima entre duas componentes
de cor.
Uma vez que os valores de MOS previamente recolhidos se encontravam numa escala
diferente desta, i.e., [0, 10] , estes foram divididos por 10 de modo a torn-los compatveis
com as avaliaes produzidas pelos algoritmos.
As avaliaes
produzidas pelos quatro algoritmos, bem como os valores de MOS
normalizados encontram-se resumidos na Tabela 19.
148
A Figura 59 apresenta o conjunto de projeces que permitem analisar graficamente a
correlao existente entre os valores de MOS e os valores produzidos pelos vrios algoritmos
analisados.
(a) (b)
(c) (d)
Figura 59 Projeces de MOS com (a) RMSE, (b) UQI, (c) SSIM e
(d) CBM.
Para efeitos de avaliao, o ITU recomenda que os valores produzidos pelos algoritmos de
clculo de similaridade sejam ajustados aos valores de MOS antes de se realizar uma anlise
comparativa. Este processo permite calibrar o algoritmo de similaridade mediante o tipo de
imagem que se est a avaliar, fazendo com que este passe a produzir valores de similaridade
mais prximos dos valores de MOS. Aps o ajuste, os valores produzidos pelos algoritmos de
similaridade tornam-se mais previsveis e menos errticos (Telecommunication Standardization
Sector of ITU, 2004; Z. Wang & Bovik, 2002).
149
RMSE UQI SSIM CBM
# Par (k) MOS/10 m=13.426 m=0.946 m=12.541 m=3.187
b=-12.454 b=0.011 b=-11.606 b=-2.252
1 1.000 0.972 0.958 0.935 0.935
2 0.879 0.741 0.831 0.728 0.730
3 0.693 0.639 0.715 0.544 0.544
4 0.700 0.535 0.884 0.840 0.838
5 0.907 0.914 0.884 0.929 0.929
6 0.960 0.949 0.826 0.933 0.933
7 0.760 0.702 0.738 0.601 0.602
8 0.864 0.866 0.890 0.881 0.880
9 0.950 0.910 0.913 0.913 0.914
10 0.980 0.879 0.753 0.888 0.887
11 0.693 0.804 0.609 0.771 0.766
12 0.671 0.797 0.561 0.844 0.852
13 0.773 0.812 0.815 0.765 0.763
14 0.547 0.738 0.646 0.662 0.668
15 0.936 0.938 0.950 0.928 0.928
16 0.864 0.810 0.736 0.774 0.772
17 0.771 0.814 0.832 0.793 0.791
18 0.529 0.702 0.620 0.648 0.644
19 0.836 0.902 0.882 0.901 0.900
20 0.936 0.937 0.945 0.929 0.929
21 0.527 0.706 0.677 0.642 0.638
22 0.964 0.894 0.941 0.917 0.918
23 0.664 0.677 0.831 0.709 0.703
24 0.600 0.528 0.783 0.581 0.589
25 0.693 0.703 0.687 0.848 0.850
26 0.993 0.972 0.958 0.935 0.935
27 0.979 0.972 0.958 0.935 0.935
28 0.993 0.906 0.934 0.924 0.924
29 0.979 0.916 0.942 0.929 0.929
30 0.829 0.825 0.770 0.843 0.840
Estudo comparativo
Na sequncia do anteriormente exposto, procedeu-se a uma anlise comparativa das avaliaes
produzidas pelos intervenientes humanos (i.e., MOS) e as avaliaes produzidas por cada um
dos algoritmos propostos: RMSE, UQI, SSIM e CBM. O objectivo deste estudo foi identificar
qual dos quatro algoritmos seria capaz de produzir valores de similaridade mais prximos da
opinio mdia de um conjunto de intervenientes humanos (MOS).
O ITU combinou quatro documentos produzidos pelo Video Quality Experts Group
(VQEG) e produziu um guia com recomendaes para a elaborao de estudos de qualidade
na rea da compresso de vdeo. O documento produzido pelo ITU estabelece procedimentos
e mtricas a utilizar na avaliao de diferentes algoritmos de compresso recorrendo a mtodos
objectivos (algoritmos) e subjectivos (pessoas).
150
Seguindo as recomendaes do ITU, o desempenho de cada um dos algoritmos foi
determinado recorrendo a trs critrios distintos (Telecommunication Standardization Sector
of ITU, 2004):
Resultados
A Tabela 21 apresenta os resultados obtidos aps a aplicao de cada uma das mtricas
anteriormente descritas ao conjunto de avaliaes produzidas pelos algoritmos considerados.
151
A pontuao final foi determinada multiplicando os resultados produzidos por cada uma das
mtricas utilizadas. importante referir que os resultados produzidos pelas trs mtricas
utilizadas pertenciam ao conjunto [0, 1] .
A pontuao final obtida para cada um dos algoritmos foi muito semelhante, no entanto, o
algoritmo que apresentou os melhores resultados, em todas as mtricas utilizadas, foi o RMSE.
Este resultado contradiz um conjunto de publicaes que, recorrendo a estudos semelhantes,
concluem que os algoritmos UQI, SSIM e CBM (por ordem crescente) produzem melhores
resultados que o simples RMSE (Gao et al., 2005; Y. Wang, 2006; Z. Wang & Bovik, 2002; Z.
Wang et al., 2004).
Os algoritmos UQI, SSIM e CBM pertencem classe de algoritmos baseados no sistema visual
humano117. Este tipo de algoritmos pondera diferentes componentes da imagem geralmente
associados viso humana durante a sua anlise de similaridade. Entre estes encontram-se a
luminosidade, o contraste e a estrutura da imagem. Os algoritmos mais simples como o RMSE
so agnsticos em relao generalidade desses parmetros e limitam-se a calcular
matematicamente a distncia cromatogrfica entre os diferentes pixel das imagens.
Os resultados contraditrios que foram obtidos podero ser justificados pelo tipo de coleco
de teste utilizada. Os estudos realizados em torno dos algoritmos UQI, SSIM e CBM foram
efectuados sobre coleces de teste que continham deformaes profundas provocadas pela
aplicao de filtros como rudo, blur ou mudanas radicais de cor e no pela introduo de
tnues artefactos de compresso. Este tipo de algoritmos muito eficaz na deteco de erros
estruturais acentuados como os que se podem ver na Figura 60. Acontece que as deformaes
comummente introduzidas por aplicaes de converso no so desta natureza, mas sim
caracterizadas pelo aparecimento de subtis artefactos de compresso ou alterao muito ligeira
de cores devido a limitaes do formato de destino.
152
Figura 60 Conjunto de imagens com RMSE0.96 e valores de
UQI, SSIM e CBM distintos.
Sugama et al. salientam ainda a influncia do tamanho da imagem nas avaliaes subjectivas
por seres humanos. Sugama et al. argumentam que quanto menores forem as imagens sob
avaliao, maiores sero os valores de similaridade atribudos pelos humanos, resultando em
valores de MOS mais elevados.
A coleco de teste utilizada nesta experincia era composta por imagens cuja resoluo
variava entre o 1 Megapixel e os 8,5 Megapixel. Em todas as restantes experincias (Gao et al.,
2005; Z. Wang & Bovik, 2002; Z. Wang et al., 2004), as coleces de teste eram compostas por
imagens na ordem dos 0.3 Megapixel. Esse facto, por si s, poder ter influenciado
significativamente os resultados, lanando um novo olhar sobre a eficcia deste tipo de
algoritmos perante imagens de grandes dimenses.
Para concluir, o RMSE revelou ser o algoritmo mais preciso na deteco da conformidade
grfica entre duas imagens. As vantagens da utilizao deste algoritmo transcendem a sua
153
preciso. O RMSE tambm o algoritmo mais simples de implementar e o que apresenta
melhor performance computacional.
Apesar de no existir propriamente uma norma universal que defina o conjunto de elementos
de metainformao passveis de serem utilizados na descrio de uma imagem, existem
algumas especificaes, criadas sobretudo por gigantes da indstria do processamento de
imagem, que procuram introduzir alguma padronizao no sentido de garantir a
interoperabilidade entre aplicaes de edio de imagem.
A especificao Exif (Exchangeable image file format), apesar de no ser governada por
nenhuma organizao de normalizao, introduziu alguma regulamentao no que diz respeito
a metainformao descritiva associada a imagens matriciais, sobretudo nos formatos de
imagem JPEG e TIFF (Technical Standardization Committee on AV & IT Storage Systems
and Equipment, 2002). A especificao Exif define um conjunto de atributos descritivos que
procuram cobrir um largo espectro de casos de utilizao. Entre estes encontram-se:
154
A Adobe Systems Incorporated introduziu em 2001 um dialecto XML, designado Extensible
Metadata Platform ou simplesmente XMP, que permite armazenar vrios tipos de
metainformao no interior de determinados formatos digitais, apenas especificando a sintaxe
que dever ser utilizada e no os elementos descritivos que podero ser utilizados (Adobe
Systems Incorporated, 2004). O XMP segue a sintaxe do dialecto RDF (RDF Core Working
Group, 2004) e poder ser embebido em diversos formatos, tais como: TIFF, JPEG, JPEG
2000, GIF, PNG, HTML, PDF, AI (Adobe Illustrator), SVG/XML, PSD (Adobe
Photoshop), PostScript e EPS. O XMP ainda compatvel com o conjunto de atributos
descritivos criado pelo I n t e r n a t i o n a l P r e s s T e l e c o m m u n i c a t i o n s C o u n c i l
designado por I P T C I n f o r m a t i o n I n t e r c h a n g e M o d e l (IIM), mais conhecido por
I P T C h e a d e r s (International Press Telecommunications Council, 2004), e tambm com a
norma Exif. A norma IPTC IIM define um conjunto de atributos que tm como objectivo
descrever objectos produzidos e trocados entre agncias noticiosas. Este inclui tambm
imagens, especialmente fotografias (Newspaper Association of America & International Press
Telecommunications Council, 1999).
Para alm dos elementos descritivos que podero ser embebidos em imagens digitais, h ainda
uma srie de atributos de carcter tcnico que so exclusivos de determinados formatos. Estes
elementos so geralmente armazenados junto dos restantes atributos descritivos.
155
contexto, possvel identificar trs tipos de falhas possveis: eliminao, modificao e
insero. Estas encontram-se descritas em detalhe na Tabela 22.
156
A percentagem de atributos no modificados apresentada na Tabela 23 representa o nvel de
similaridade percepcionado entre duas imagens da coleco de teste.
Avaliao automtica
Aps a preparao da coleco de teste e do clculo da percentagem de elementos de
metainformao que no sofreram alteraes, i.e., o nvel de similaridade detectado
manualmente para a propriedade significativa m e t a i n f o r m a o e m b e b i d a , procedeu-se
avaliao automtica da coleco de teste.
A B
J(A,B) =
A B
119 Para mais informaes sobre este algoritmo de similaridade, consulte o Apndice 8.3.5 na pgina 211.
120 Para mais informaes sobre esta ferramenta, consulte o Apndice 8.1.2 na pgina 198.
121 Para mais informaes sobre este algoritmo de similaridade, consulte o Apndice 8.3.4 na pgina 210.
157
Os resultados produzidos por ambas as abordagens encontram-se resumidos na Tabela 24.
Um valor de 1 significa que dois conjuntos so iguais, enquanto que um valor de 0 significa
que os dois conjuntos no possuem qualquer elemento em comum.
% atributos
# Par (k) XML Diff Jaccard
no alterados
1 0.722 0.789 0.591
2 0.722 0.750 0.522
3 0.000 0.017 0.000
4 0.786 1.000 0.786
5 0.000 0.027 0.000
6 0.714 0.936 0.714
7 0.789 0.818 0.738
8 0.579 0.631 0.585
9 0.000 0.008 0.000
10 0.655 0.905 0.545
11 0.621 0.968 0.625
12 0.857 0.873 0.680
13 0.800 0.807 0.606
14 0.875 0.800 0.724
15 0.800 0.807 0.625
16 0.857 0.858 0.795
17 0.784 0.818 0.636
18 0.857 0.858 0.795
19 0.926 0.848 0.767
20 0.963 0.952 0.867
21 0.963 0.952 0.867
22 0.619 0.767 0.538
23 0.634 0.717 0.532
24 0.453 0.783 0.406
25 0.583 0.844 0.538
26 0.333 0.367 0.300
27 0.136 0.533 0.125
28 0.400 0.613 0.364
29 0.455 0.738 0.385
30 0.700 0.912 0.636
Estudo comparativo
Aps reunidos os valores de similaridade produzidos pelos dois mtodos analisados, X M L
D i f f e C o e f i c i e n t e d e S i m i l a r i d a d e d e J a c c a r d , procedeu-se a um estudo
comparativo com o objectivo de determinar qual dos dois algoritmos apresentava o melhor
desempenho na deteco de falhas na metainformao embebida.
158
1. Preciso capacidade demonstrada pelo algoritmo de similaridade para quantificar o
nvel de falhas introduzidas na coleco de teste. Este critrio foi determinado
calculando o coeficiente de c o r r e l a o d e P e a r s o n entre os valores produzidos
por cada um dos algoritmos considerados e a percentagem de atributos no
modificados, i.e., valores de referncia (Mtrica m1);
2. Monotonia grau de concordncia entre os valores produzidos pelos algoritmos de
similaridade e as magnitudes relativas dos valores de referncia. Esta mtrica foi obtida
calculando a c o r r e l a o d e S p e a r m a n (Mtrica m2);
3. Erro mdio um modelo de previso tanto mais eficiente quanto menor for o erro
por este apresentado em relao ao valor real utilizado como referncia (Fernandes,
1999). Esta mtrica obtida recorrendo M d i a d o Q u a d r a d o d o E r r o
(Mtrica m4).
Resultados
A Tabela 25 apresenta os resultados da aplicao das mtricas anteriormente descritas aos
valores produzidos pelos dois algoritmos analisados.
Apesar do elevado desempenho demonstrado por ambos os mtodos, foi importante explorar
as razes que levaram a que estes no apresentassem um comportamento irrepreensvel, i.e.,
que os resultados da sua avaliao no tenham sido mais prximos do valor mximo admitido.
primeira vista nada impedia que ambos os mtodos fossem capazes de quantificar
exactamente a percentagem de falhas introduzidas na metainformao embebida das imagens
analisadas.
No caso do mtodo X M L D i f f , esta anlise foi difcil de realizar. O algoritmo pondera trs
critrios distintos na sua anlise de similaridade: contedo, estrutura e posicionamento dos
elementos de informao no interior das rvores XML comparadas. Apesar do XML sob
159
avaliao ser morfologicamente simples, quando foi comparado com o documento XML de
referncia, apresentou uma correlao inferior a 0.90. Para compreender as razes que levaram
este algoritmo a apresentar uma correlao inferior a 1, seria necessrio inspeccionar os seus
processos internos. No entanto, uma vez que o mtodo de Jaccard apresentava de antemo
nveis de desempenho superiores, optou-se por investir mais tempo no aprofundamento de
conhecimento sobre este mtodo em detrimento do primeiro.
No caso do mtodo Jaccard, o motivo que levou a que fossem obtidos nveis de correlao
inferiores a 1, teve que ver com os dados em si. A similaridade de Jaccard, est preparada para
operar sobre conjuntos de elementos. Acontece que os elementos pertencentes aos conjuntos
avaliados eram compostos por pares do tipo atributo/valor. A reunio de conjuntos
compostos por elementos deste tipo produzia um resultado errneo na presena de elementos
que possuam o mesmo nome de atributo mas valores distintos.
Considere-se o seguinte exemplo onde se calcula o coeficiente de Jaccard entre dois conjuntos,
A e B , constitudos por pares de elementos do tipo (atributo, valor), com ai a representar o
nome do atributo e v i a representar o seu valor associado (Equao 4).
A = {(a1,v1 ),(a2 ,v 2 ),(a3 ,v 3 )}
B = {(a1,v1 ),(a2 ,v 2 ),(a3 ,v 4 )}
A B {(a1,v1),(a2,v 2 )} 2
J(A,B) = = =
A B {(a1,v1 ),(a2 ,v 2 ),(a3 ,v 3 ),(a3 ,v 4 )} 4
Como se pode constatar, apesar do atributo a3 existir em ambos os conjuntos, este
contabilizado duas vezes aps a reunio de conjuntos. Esta abordagem est matematicamente
correcta uma vez que (a3 ,v 3 ) (a3 ,v 4 ) , no entanto, no ajustada ao domnio de aplicao.
Assim, props-se a seguinte alterao ao C o e f i c i e n t e d e J a c c a r d e a introduo de uma
nova funo designada first que opera sobre conjuntos de pares, transformando-os em
conjuntos de elementos singulares constitudos apenas pelo primeiro elemento de cada par. A
funo first e a verso modificada do C o e f i c i e n t e d e J a c c a r d encontram-se definidas
na Equao 5.
160
first(S) = { x} : (x, y) S
A B
J (A,B) =
first(A) first(B)
% atributos Jaccard
# Par (k) XML Diff Jaccard
no alterados modificado
1 0.722 0.789 0.591 0.722
2 0.722 0.750 0.522 0.667
3 0.000 0.017 0.000 0.000
4 0.786 1.000 0.786 0.786
5 0.000 0.027 0.000 0.000
6 0.714 0.936 0.714 0.714
7 0.789 0.818 0.738 0.795
8 0.579 0.631 0.585 0.615
9 0.000 0.008 0.000 0.000
10 0.655 0.905 0.545 0.600
11 0.621 0.968 0.625 0.645
12 0.857 0.873 0.680 0.773
13 0.800 0.807 0.606 0.714
14 0.875 0.800 0.724 0.778
15 0.800 0.807 0.625 0.714
16 0.857 0.858 0.795 0.838
17 0.784 0.818 0.636 0.718
18 0.857 0.858 0.795 0.838
19 0.926 0.848 0.767 0.821
20 0.963 0.952 0.867 0.929
21 0.963 0.952 0.867 0.929
22 0.619 0.767 0.538 0.651
23 0.634 0.717 0.532 0.595
24 0.453 0.783 0.406 0.481
25 0.583 0.844 0.538 0.583
26 0.333 0.367 0.300 0.333
27 0.136 0.533 0.125 0.136
28 0.400 0.613 0.364 0.400
29 0.455 0.738 0.385 0.455
30 0.700 0.912 0.636 0.700
Houve, ainda, outros exemplos de assumpo automtica de valores por parte da aplicao
Adobe Bridge. Por exemplo, quando o valor do atributo Sharpness omisso, esta assume o
valor Normal. O mesmo acontece com o atributo White Balance que, quando omisso,
definido como Auto. A aplicao ExifTool no assume quaisquer valores por omisso.
Limita-se a extrair a metainformao encontrada no interior das imagens. Se um dado atributo
no existe numa imagem, retornado o valor nulo e no um outro valor por omisso.
162
informao sobre a performance do processo de migrao, o grau de degradao incorrido ao
nvel das propriedades significativas dos objectos digitais e a adequabilidade dos formatos
envolvidos para efeitos de preservao digital.
Cada utilizador pode manifestar as suas preferncias atribuindo pesos aos critrios de avaliao
suportados pelo CRiB (ver seco 4.6.2 na pgina 105). Com base nessa informao e no
conjunto de relatrios de avaliao produzidos automaticamente pelo sistema, possvel
determinar, de entre dezenas de alternativas, qual o formato de destino e o caminho de
converso mais favorveis para preservar uma dada coleco de objectos digitais.
Para validar a eficcia deste sistema de recomendao foi utilizada uma tcnica de validao
designada k - f o l d c r o s s - v a l i d a t i o n . Esta tcnica consiste em particionar um conjunto de
dados de teste em k partes de igual dimenso. Das k partes, k-1 so utilizadas para treinar o
sistema, enquanto que a partio remanescente utilizada para o testar. O processo de
validao consiste em verificar se o sistema capaz de recomendar correctamente o conjunto
de dados de teste, baseando-se apenas nos dados utilizados para treino. O processo repetido
k vezes, alternando a partio de teste. No final, calculada a mdia dos resultados obtidos em
cada uma das k avaliaes realizadas (Witten & Frank, 2005). Mais informao sobre esta
tcnica de validao encontra-se disponvel no Apndice 8.5 na pgina 219.
163
2. Seleco de conversores antes de se dar incio ao processo de avaliao do sistema
de recomendao foi identificado um subconjunto relevante de caminhos de
converso a considerar durante a experincia. Este subconjunto de caminhos de
converso teve como invariante o formato de partida, uma vez que este teria
necessariamente que coincidir com o formato dos objectos que compunham a
coleco de teste.
164
Figura 61 Teste do sistema de recomendao.
165
Acontece que o formato JPEG possui uma caracterstica que o debilita como formato de
preservao. Apesar de ser um formato amplamente disseminado, o que deve ser visto com
uma vantagem, o mtodo de compresso que implementa introduz deformaes na
informao grfica que constitui a imagem. Neste contexto, procurou-se determinar qual o
formato alternativo mais adequado para preservar imagens originalmente produzidas em
formato JPEG. Esta experincia serviu tambm o propsito de avaliar o componente
M i g r a t i o n A d v i s o r e a sua capacidade de recomendar opes de migrao.
Para dar inicio experincia, foi reunido um conjunto de imagens em formato JPEG 1.02.
Estas imagens foram recolhidas junto de repositrios digitais (sobretudo repositrios
institucionais) efectuando pesquisas atravs das suas interfaces OAI-PMH. O projecto
P r e s e r v da University of Southampton foi de extrema importncia neste processo, pois
permitiu obter ligaes directas para todos os objectos digitais de um dado formato
partilhados atravs deste tipo de repositrios (University of Southampton, 2007).
Junto destes repositrios foram recolhidas 8071 imagens em formato JPEG num total de 7.3
GB. A partir destas imagens foram criados subconjuntos de cardinalidade 10, 20, 50 e 100.
Cada um destes subconjuntos foi utilizado para treinar e testar o sistema de recomendao
recorrendo ao mtodo de validao cruzada descrito anteriormente. As imagens pertencentes a
cada um destes conjuntos foram seleccionadas aleatoriamente a partir do conjunto inicial de
8071 imagens. Este plano de treino teve como objectivo verificar se um aumento da
cardinalidade da coleco de treino resultaria num aumento da preciso e/ou exactido do
sistema de recomendao.
166
5.2.2 Seleco de caminhos de converso
Para dar incio avaliao do sistema de recomendao foi necessrio seleccionar um
subconjunto dos vrios caminhos de migrao passveis de ser utilizados na respectiva
experincia. Uma vez que os objectos includos na coleco de teste se tratavam de imagens
em formato JPEG File Interchange Format 1.02, os conversores seleccionados teriam
obrigatoriamente de suportar este formato.
167
Aps cada converso, todos servios de migrao, assim como formatos e objectos envolvidos
foram avaliados pelos componentes do CRiB responsveis pelo controlo de qualidade e os
resultados dessas avaliaes foram armazenados no E v a l u a t i o n s R e p o s i t o r y .
importante referir que estas avaliaes foram realizadas por caminho de migrao e no por
converso individual, i.e., no caso de migraes compostas por mais do que um conversor (e.g.
JPG-BMP seguido de BMP-TIF) as avaliaes foram efectuadas entre os objectos/formatos
de partida e os objectos/formatos de chegada (i.e., entre JPEG e TIF). Os objectos/formatos
intermdios (i.e., BMP) no foram avaliados. Em suma, uma migrao composta por vrios
conversores vista pelo sistema como uma converso atmica.
O nmero de converses efectuadas para uma dada coleco de teste descrito pela Equao
6, onde n representa a cardinalidade da coleco de teste, M o nmero de conversores
utilizados e K o nmero de parties utilizadas na validao cruzada. Neste caso concreto,
M = 6 (o conversor identidade no foi contabilizado uma vez que no possui tempo de
converso) e K = 10 .
c(n) = n M K
Equao 6 Nmero de converses mediante o tamanho da
coleco de teste.
168
Quando o M i g r a t i o n A d v i s o r questionado, este devolve uma lista ordenada (i.e.,
ranking) com as alternativas de migrao mais favorveis para preservar a longo-prazo um dado
formato digital tendo em considerao todas as avaliaes realizadas no passado pelo sistema.
A ordenao das alternativas depende dos pesos atribudos pelo utilizador aos critrios
suportados pelo sistema. Nas experincias realizadas neste contexto foi atribudo o mesmo
peso a cada critrio que constitui a t a x i o n o m i a g e r a l d e a v a l i a o .
Em termos gerais, um sistema de recomendao pode ser avaliado em termos da sua exactido
e da sua preciso.
A MSE e a RMSE diferem da MAE por elevarem o erro ao quadrado antes de o agrupar, o
que significa que erros superiores iro penalizar mais a avaliao final. A NMSE normaliza os
resultados tendo em considerao o domnio dos valores de entrada, permitindo desta forma
que os resultados obtidos possam ser comparados com os resultados de outras experincias
(Goldberg, Roeder, Gupta, & Perkins, 2001).
5.2.4 Resultados
Os resultados obtidos aps o treino do sistema com as coleces de teste anteriormente
descritas encontram-se resumidos na Tabela 31.
Exactido Preciso
# Pearson Spearman Kendall Tau NMSE
10 0.869 0.918 0.829 0.197
20 0.828 0.832 0.729 0.223
50 0.682 0.817 0.731 0.276
100 0.757 0.852 0.754 0.254
A coleco de teste que apresentou melhores resultados foi, curiosamente, a mais pequena, i.e.,
a coleco de cardinalidade 10. Este facto adveio de um enviesamento imprevisto pelos
prprios objectos digitais que constituram a coleco. importante relembrar que as
coleces de treino/teste foram construdas aleatoriamente a partir de objectos recolhidos
junto de repositrios internacionais. Por coincidncia, a coleco de teste de cardinalidade 10
era constituda por um conjunto de objectos cujas dimenses possuam pouca variabilidade,
170
i.e., o desvio-padro em relao mdia das dimenses era cerca de metade do desvio
apresentado pelas restantes coleces de teste. Para determinar a validade desta hiptese,
preparou-se manualmente uma coleco de teste constituda por objectos manifestamente
diferentes. A nova coleco de teste de cardinalidade 10 encontra-se descrita na Tabela 32.
Os resultados obtidos aps nova experincia encontram-se resumidos na Tabela 33. Como se
pode observar, o novo conjunto de resultados corrobora a hiptese levantada. Ao aumentar a
variabilidade da coleco de teste, a qualidade das recomendaes diminuiu. Na primeira
experincia realizada, os objectos utilizados no treino do sistema eram demasiado semelhantes,
fazendo com que o sistema de recomendao fosse incapaz de generalizar, ou seja, sofresse de
um fenmeno vulgarmente conhecido por overfitting (Tetko, Livingstone, & Luik, 1995).
Exactido Preciso
# Pearson Spearman Kendall Tau NMSE
102 0.553 0.639 0.600 0.349
Este captulo teve como principal objectivo descrever os processos de avaliao desenvolvidos
em torno do CRiB e dos seus componentes. Estes processos de avaliao incidiram
especialmente sobre os componentes O b j e c t E v a l u a t o r e M i g r a t i o n A d v i s o r , uma
vez que so estes que apresentam o maior nmero de contributos cientficos e tecnolgicos.
171
No que diz respeito avaliao do O b j e c t E v a l u a t o r , esta teve como principal objectivo
aferir em que medida este componente capaz de determinar o nvel de degradao sofrido
por um objecto digital durante a sua migrao. Uma vez que os resultados produzidos por este
componente influenciam directamente as recomendaes efectuadas pelo M i g r a t i o n
A d v i s o r , tornou-se fundamental garantir que o primeiro produz resultados vlidos, de modo
a permitir a avaliao eficaz do segundo.
Entre os vrios critrios suportados por este componente, especialmente no que diz respeito a
migraes entre formatos de imagem matricial, foram seleccionados dois critrios
manifestamente subjectivos: c o n f o r m i d a d e grfica e metainformao
e m b e b i d a . As funes de similaridade associadas a estes dois critrios foram avaliadas
segundo um protocolo experimental bem definido e um conjunto de mtricas de avaliao.
Para avaliar a qualidade dos rankings produzidos por este componente recorreu-se a um
mtodo de validao designado 10-fold cross-validation. Este mtodo consiste em particionar uma
coleco de teste em 10 partes iguais, utilizar 9 dessas partes para treinar o sistema e a parte
remanescente para testar o mesmo. Este procedimento foi repetido ao longo de 10 iteraes,
fazendo-se variar a partio de teste ao longo da coleco. Os vrios rankings foram ento
comparados segundo um conjunto de mtricas distintas, nomeadamente: as correlaes de
Pearson, Spearman e Kendall Tau e Normalized Mean Squared Error.
172
As avaliaes efectuadas a ambos os componentes revelaram valores elevados de desempenho.
No caso do O b j e c t E v a l u a t o r , este mostrou ser capaz de determinar eficazmente a
similaridade grfica entre duas imagens, apresentando valores de correlao acima dos 0.81
entre as opinies produzidas por avaliadores humanos e os mtodos automticos de clculo de
similaridade. No que toca capacidade para quantificar a deteriorao ao nvel da
metainformao embebida, este componente apresentou valores de correlao acima dos 0.96
quando comparada a mtrica de J a c c a r d com os valores de referncia associados
respectiva coleco de teste.
173
174
Captulo 6
Implementaes do CRiB
Ao longo do seu desenvolvimento, o projecto CRiB suscitou o interesse de algumas equipas
tcnicas que lideram projectos na rea da preservao digital. O interesse manifestado por
estas equipas levou a que, em Novembro de 2007, a plataforma fosse disponibilizada de forma
gratuita e em cdigo-aberto para utilizao com fins educacionais e/ou de investigao122.
Desde ento, alguns projectos de I&D tm vindo a adoptar a plataforma CRiB, integrando-a
com os seus prprios sistemas e aperfeioando-a de modo a produzir servios mais eficientes e
adequados aos seus contextos de utilizao.
Este captulo descreve alguns dos projectos que usam actualmente os servios disponibilizados
pelo CRiB ou que construram servios inspirados nas funcionalidades oferecidas por esta
plataforma.
6.1 Planets
O Planets123 (Preservation and Long-term Access through Networked Services) trata-se de um
projecto de quatro anos co-financiado pela Unio Europeia no mbito do 6 Programa
175
Quadro que tem como objectivo o desenvolvimento de servios e ferramentas que facilitem o
acesso continuado a informao de mbito cultural e cientfico (Farquhar & Hockx-Yu, 2007).
O projecto Planets teve incio em Junho de 2006 e composto pelos seguintes parceiros
institucionais: Biblioteca Nacional da Gr-Bretanha, Biblioteca Nacional dos Pases Baixos,
Biblioteca Nacional Austraca, Biblioteca Real da Dinamarca, Biblioteca Estatal da Dinamarca,
Arquivos Nacionais dos Pases Baixos, Arquivo Nacional da Inglaterra, Gales e Reino Unido,
Arquivos Federais da Sua, Universidade de Colnia, Universidade de Freiburg, Universidade
de Glasgow, Universidade Tcnica de Viena, Centros de Investigao Austracos, IBM,
Microsoft Research Limited e a Tessella Support Services.
124 http://www.ifs.tuwien.ac.at/dp/plato/
176
podero eventualmente vir a ser construdos a partir de funcionalidades incorporadas no
CRiB.
6.2 RODA
A Direco-Geral de Arquivos125 (DGARQ) assume na sua misso institucional a
responsabilidade pela identificao e preservao de documentao de valor histrico como
meio de garantir e fomentar a memria individual e colectiva nacional. Em paralelo, as
iniciativas do Governo Electrnico determinam que a Administrao Pblica dever, cada vez
mais, basear a sua actividade em processos de negcio electrnicos com o intuito de agilizar e
assegurar um servio mais rpido, completo e transparente para o cidado. Este cenrio
evidencia um aumento da produo de informao digital, informao esta que, de acordo
com a misso da DGARQ, dever ver assegurado o seu valor evidencial atravs da garantia da
sua autenticidade (Barbedo et al., 2007).
125 http://www.dgarq.gov.pt
177
No sentido de suportar a incorporao e gesto de informao de arquivo produzida em
formatos electrnicos a DGARQ empenhou-se ao longo dos ltimos anos em desenvolver
processos, ferramentas e recursos capazes de dar resposta s necessidades de preservao da
informao digital produzida pela Administrao Pblica, cuja conservao continuada seja
considerada importante do ponto de vista patrimonial (Barbedo et al., 2007).
126 http://roda.dgarq.gov.pt
178
processo de ingesto, de modo a determinar qual a aco de preservao a aplicar no sentido
de normalizar os formatos recepcionados. Os servios de migrao so utilizados tanto para
normalizar os objectos para formatos de preservao como na transformao destes para
formatos mais leves e adequados ao consumo atravs da Web. Os servios de avaliao de
migrao (i.e., O b j e c t E v a l u a t o r ) so tambm utilizados para descrever o sucesso ou
insucesso de uma migrao e produzir metainformao de preservao em formato PREMIS
(Ramalho et al., 2008).
Ao contrrio do que acontece com a ferramenta Plato, cujo acesso aos servios do CRiB
efectuado de forma remota atravs da Internet, o RODA implementa o CRiB na sua rede
local. Isto garante a segurana e a privacidade dos dados e acelera todo processo de
transferncia de informao entre os componentes distintos do sistema.
179
180
Captulo 7
Concluses e trabalho futuro
Este captulo tem como objectivo apresentar um conjunto de concluses que resultaram deste
trabalho de investigao.
O captulo comea com uma sntese do trabalho realizado, qual se segue uma enumerao
das principais concluses que dele foram retiradas. Segue-se uma apresentao dos contributos
mais relevantes e um conjunto de linhas de trabalho a realizar no futuro.
7.1 Sntese
A obsolescncia tecnolgica um problema que afecta organizaes e indivduos num mundo
cada vez mais digitalizado. Com o aumento da desmaterializao e o crescimento acentuado
da pegada tecnolgica associada a cada individuo, a preservao digital passa a ser relevante,
no apenas para quem se preocupa com a salvaguarda de informao de conservao
permanente, mas tambm para todos aqueles que consomem e produzem informao digital
no seu dia-a-dia e da qual dependem grande parte dos seus processos de negcio, lazer,
comunicao, memria, etc.
Ao longo desta tese abordaram-se vrias temticas relacionadas com a preservao digital.
Foram tambm tocadas diversas reas cientficas na demanda por uma soluo tecnolgica que
permitisse atenuar a ansiedade dos profissionais responsveis por gerir informao digital.
181
Deste processo resultou um conjunto de ferramentas que facilita a implementao de
estratgias de preservao de informao digital baseadas em migrao de formatos.
Este conjunto de objectivos pode ser resumido numa nica questo de investigao:
Qual o conjunto de servios que permite implementar, de forma transversal e automtica, todos os
processos inerentes migrao de objectos digitais num contexto de preservao digital, sem que
haja prejuzo da sua autenticidade?
De forma a dar resposta a esta questo de investigao foi construdo um sistema, baseado
numa arquitectura orientada ao servio, composto por um conjunto de servios independentes
que quando invocados de forma orquestrada permitem dar resposta aos objectivos
previamente delineados.
Assim, em jeito de resenha, poder-se- descrever os contedos desta tese da seguinte forma: a
tese comea com uma introduo problemtica da preservao digital, onde so abordados
temas como o conceito de objecto digital, o modelo de referncia OAIS, estratgias de
preservao digital, directrios de formatos, critrios para a autenticidade, metainformao de
preservao e modelos de avaliao de estratgias de preservao.
A tese continua, em espiral, com um enquadramento terico que facilita a compreenso das
diferentes etapas de um processo de migrao, estratgia de preservao adoptada ao longo
desta tese para efeitos de prova de conceito. ainda apresentado um cenrio de preservao
que facilita a identificao das principais dificuldades com as quais um profissional da rea da
gesto de informao se debate, servindo assim de ponto de partida para a identificao do
conjunto mnimo de servios que garante a automatizao de processos de preservao
baseados em migrao. ainda descrito, em detalhe, um conjunto de ferramentas que permite
implementar servios de preservao e que serviu de base para a construo do sistema
apresentado nesta tese.
182
Num captulo subsequente apresentado o CRiB, um sistema baseado em servios que
procura dar resposta questo de investigao previamente enunciada. Ainda nesse captulo,
so apresentadas as taxionomias de avaliao utilizadas pelos processos de controlo de
qualidade e recomendao implementados pelo CRiB.
Seguiu-se, ainda, uma breve descrio dos projectos RODA e Planets, de relevncia nacional e
internacional, respectivamente, que adoptaram partes da plataforma CRiB ao longo dos seus
desenvolvimentos.
Tomando como base a questo de investigao previamente enunciada, pode-se concluir que o
seguinte conjunto de servios suficiente para implementar procedimentos automticos de
preservao (nesta fase, baseados exclusivamente em migrao de formatos) que operem
transversalmente sobre coleces de objectos digitais:
183
encontrava em desenvolvimento pela Biblioteca Nacional da Austrlia
AONS (Curtis et al., 2007; Pearson, 2008);
184
Para alm da identificao dos servios necessrios implementao transversal e automtica
de estratgias de preservao, foi tambm fundamental assegurar que estes eram capazes de
garantir a autenticidade dos materiais. A verificao desta premissa foi alcanada de duas
formas distintas. O recurso ao M i g r a t i o n A d v i s o r garante que, num dado instante, uma
interveno de preservao ser implementada recorrendo melhor alternativa de migrao
conhecida pelo sistema. O M i g r a t i o n A d v i s o r analisa todas as migraes realizadas no
passado e determina qual o caminho de migrao que maximiza a conservao das
propriedades significativas do objecto que se pretende preservar. O caminho recomendado
pelo M i g r a t i o n A d v i s o r procura ainda suprir os requisitos da entidade preservadora ao
nvel do custo, performance e adequabilidade dos formatos envolvidos para preservao a
longo-prazo.
O CRiB tem ainda outra medida de salvaguarda no que toca autenticidade dos materiais.
Aps uma migrao, o objecto digital resultante comparado com o objecto submetido a
migrao. Dessa comparao resulta um relatrio onde se incluem todas as propriedades
significativas do objecto original que foram testadas e informao sobre o nvel de degradao
detectado. Este relatrio constitui, efectivamente, o que geralmente se designa por
metainformao de preservao, i.e., metainformao que documenta todas as intervenes de
preservao a que um dado objecto foi sujeito e qual o efectivo resultado de cada uma dessas
intervenes. A conservao deste relatrio junto da metainformao que acompanha o
objecto digital , por si s, condio suficiente para garantir a autenticidade dos materiais
preservados. importante referir que a conservao deste relatrio garante a autenticidade dos
materiais e no a preservao dos mesmos da forma mais adequada.
No sentido de atestar a viabilidade do CRiB como uma possvel materializao dos objectivos
delineados para este trabalho, foram implementados processos de validao para os principais
componentes que constituem o sistema.
185
destes componentes, exceptuando o M i g r a t i o n B r o k e r . Este componente no foi
validado uma vez que apenas apresentava dois estados possveis de execuo: sucesso (a
converso resultou num novo objecto digital) ou insucesso (a converso falhou e no
devolveu qualquer objecto). Os casos de insucesso decorrem da submisso de objectos
corrompidos ou no compatveis com os conversores utilizados, ou a falhas na rede que
impeam a comunicao entre os vrios componentes do sistema. Os restantes dois
componentes, dada a sua complexidade, exigiram um nvel superior de rigor ao longo da sua
avaliao.
Para cada propriedade seleccionada foi construda uma coleco de teste constituda por
objectos digitais em diversos formatos pertencentes classe escolhida (i.e., i m a g e n s
m a t r i c i a i s ). A coleco de teste foi avaliada manualmente por um conjunto de
intervenientes humanos e, posteriormente, pelos algoritmos automticos de clculo de
similaridade. Os resultados produzidos por ambos foram ento comparados recorrendo a um
conjunto de mtricas comummente utilizadas neste tipo de avaliaes (para mais detalhes,
consultar a Seco 5.1 na pgina 134).
Este componente revelou ser capaz de determinar eficazmente a similaridade grfica entre
duas imagens, apresentando valores de correlao superiores a 0.81 entre as opinies
produzidas pelos avaliadores humanos e os mtodos automticos de clculo de similaridade
analisados. No que toca capacidade para quantificar a deteriorao ao nvel da
metainformao embebida, este componente apresentou valores de correlao acima dos 0.96
186
quando comparada a mtrica de J a c c a r d com os valores de referncia associados
respectiva coleco de teste.
Para avaliar a qualidade dos rankings produzidos por este componente recorreu-se a um
mtodo de validao designado 10-fold cross-validation. O sistema de recomendao foi treinado
efectuando centenas de converses entre formatos distintos e acumulando os relatrios de
avaliao numa base de conhecimento. Cada converso realizada permitia ao sistema
reconhecer os servios de migrao que exibiam melhor qualidade de servio em termos de
preservao. Os rankings produzidos com base em migraes passadas foram ento
comparados com os rankings ideais, i.e., aqueles que efectivamente maximizavam a qualidade da
converso para um dado objecto digital. Para determinar o ranking ideal, todos os objectos
pertencentes coleco de teste foram convertidos recorrendo a todos os servios de
migrao conhecidos pelo sistema.
Com base nos resultados obtidos, conclui-se que o CRiB responde de forma aceitvel
questo de investigao definida no incio desta investigao. A prova de conceito aqui
apresentada permite concluir que possvel materializar um conjunto de servios capazes de
implementar de forma automtica processos de migrao de objectos digitais sem haja
prejuzo da sua autenticidade.
187
importante referir que, para que o CRiB possa ser implementado de forma eficaz e prtica,
necessrio que os objectos digitais se encontrem acessveis plataforma de servios. Isso
implica a existncia de um agente ou componente de software responsvel por desencadear os
processos de preservao a partir do ambiente onde os objectos se encontram residentes. Esse
agente dever consultar periodicamente o servio de notificao de obsolescncia e mediante a
resposta obtida desencadear medidas reactivas junto dos restantes servios do CRiB.
No domnio domstico, estes requisitos so mais difceis de reunir uma vez que os sistemas
operativos no os satisfazem de forma natural. Uma soluo vivel no domnio domstico
consiste no desenvolvimento de uma aplicao que corre em segundo plano (tal como um
antivrus) e que tem como objectivo monitorizar o estado de obsolescncia dos objectos
digitais presentes no sistema. Quando um objecto digital marcado como estando num
formato em vias de se tornar obsoleto so desencadeados mecanismos automticos de
migrao e produo de metainformao de preservao que so geridos automaticamente por
este agente de software. Esta aplicao poder tambm responsabilizar-se por efectuar cpias
de segurana de objectos modificados para suportes fsicos externos127.
H ainda dois aspectos relacionados com o CRiB que no foram devidamente trabalhados e
que merecem alguma discusso. Estes so: desempenho e segurana. A comunicao entre os
vrios componentes do CRiB efectuada atravs de Web services. Esta tecnologia apresenta
algumas vantagens quando comparada com outras tecnologias de comunicao entre
processos. Entre as principais vantagens encontra-se o facto de se basearem em normas
suportadas por organismos internacionais, terem um elevado nvel de adopo por parte da
indstria de software e sobretudo por permitirem a interoperabilidade entre linguagens de
programao, sistemas operativos e arquitecturas de hardware128.
127 A verso 10.5 do sistema operativo Mac OS X acompanhada de um aplicao chamada Time Machine que efectua
automaticamente cpias de segurana dos ficheiros modificados durante a utilizao do sistema.
128 H relatos de incompatibilidade entre algumas plataformas, mas que podero ser evitados recorrendo a boas prticas de
188
Apesar das suas considerveis vantagens, os Web services carecem de muita largura de banda,
o que geralmente resulta em tempos de transmisso excessivamente longos. Isto deve-se ao
facto de as mensagens trocadas serem codificadas em XML/SOAP que, por ser auto-
descritivo, tambm demasiado verboso. Uma implementao prtica do CRiB necessitaria,
portanto, de alguma optimizao ao nvel da comunicao, como alis j comeou a ser
realizada durante a adaptao do mesmo ao projecto RODA (ver Seco 6.2 na pgina 177).
Contudo, de realar a vulgarizao de redes Gigabit e fibra ptica, assim como o exponencial
aumento da largura de banda no acesso Internet. Com o tempo, o evoluir destas tecnologias
ir gradualmente mitigar este problema.
No que diz respeito segurana, o CRiB abre caminho para um vasto leque de
desenvolvimentos adicionais. Num contexto de preservao a segurana dos dados
absolutamente fundamental. O modelo descentralizado defendido nesta tese, em que vrios
intervenientes competem numa arena comum pela prestao de servios de migrao, propicia
ainda mais o problema da segurana dos dados. O modelo apresentado permite que terceiros
manipulem os dados que se pretendem preservar, o que poder constituir um risco
integridade conceptual do objecto preservado. O CRiB incorpora mecanismos de controlo de
qualidade que minimizam esse risco. Contudo, no sentido de se construir um ambiente de
mtua confiana em torno da plataforma, seria fundamental definirem-se contratos entre os
diversos intervenientes, i.e., prestadores de servio, intermedirios e entidades-cliente. Esses
contratos devero incorporar variados aspectos relacionados com servio prestado, detalhando
procedimentos e parmetros ao nvel da segurana e manipulao de dados, confidencialidade,
responsabilidades assumidas, garantias e mecanismos de monitorizao e/ou fiscalizao.
No que toca segurana dos dados durante a transmisso, deve acrescentar-se que os Web
services podem operar sobre protocolos HTTP/SSL (Hypertext Transfer Protocol/Secure
Socket Layer) minimizando, assim, o risco de inspeco por terceiros.
Outro ponto que merece ser alvo de discusso o da obsolescncia da prpria plataforma de
preservao. Como natural, chegar um momento em que o sistema apresentado deixar de
possuir as condies necessrias para poder operar eficazmente. O CRiB, como qualquer
outro sistema informtico, depende do bom funcionamento de vrios elementos,
inclusivamente daqueles que constituem a sua infra-estrutura tecnolgica (e.g. hardware,
sistemas operativos, linguagens de programao, tecnologias de comunicao, etc.). Esses
elementos so suportados por diversos fabricantes e fornecedores de servio que podero a
qualquer momento ser alvo de ruptura institucional (e.g. falncia, aquisio por terceiros,
cessao de suporte dos seus produtos, entre outros). Esta situao colocaria em risco a
189
viabilidade da plataforma de servios aqui apresentada. O CRiB procura mitigar este problema
recorrendo a tecnologias abertas amplamente utilizadas pela comunidade de desenvolvimento
de tecnologias de informao:
129 http://java.sun.com/docs/books/jvms/
130 http://java.sun.com/docs/books/jls/
131 http://www.sun.com/
190
Tecnologias de comunicao A comunicao entre os diversos componentes do
sistema foi implementada recorrendo a Web services. Esta tecnologia define um
conjunto de protocolos que permite a transferncia de informao entre diferentes
componentes ou aplicaes, independentemente da linguagem de programao ou da
infra-estrutura tecnolgica que os suporta. Os Web services funcionam sobre o
protocolo HTTP (Hypertext Transfer Protocol com ou sem SSL), um protocolo
amplamente utilizado e que serve de base World Wide Web.
O CRiB dever ser visto como um componente externo ao ambiente de preservao onde
residem os objectos digitais cujo acesso se deseja continuado. Este sistema tem apenas como
objectivo a prestao de servios de preservao e poder ser encarado sob uma perspectiva de
outsourcing aplicacional. O desaparecimento do CRiB no coloca em risco os objectos digitais,
apenas os servios que facilitam a implementao de estratgias de preservao.
Para alm do disposto, o sistema apresentado ao longo desta tese deve ser visto como um
modelo e no como um produto. Todos os seus componentes poderiam ter sido
desenvolvidos recorrendo a tecnologias inteiramente distintas das que foram adoptadas.
As tecnologias adoptadas no mbito deste projecto foram aquelas que apresentavam um nvel
de maturidade superior e que facilitavam a rpida prototipagem. Simultaneamente, estas
tecnologias permitiram o desenvolvimento de sistemas interoperveis e multiplataforma. Neste
contexto, importante referir que o problema que a preservao digital se prope resolver
pode ser visto como um problema de interoperabilidade. Um problema de interoperabilidade,
no entre sistemas contemporneos (interoperabilidade no espao), mas entre sistemas que
ainda no foram desenvolvidos (interoperabilidade no tempo). Para que um sistema de
preservao possa ser considerado eficaz, este deve ser interopervel pelo menos com os
sistemas que lhe so contemporneos.
7.3 Contributos
Esta tese rene em si um conjunto de contributos que so considerados relevantes para
diferentes contextos de aplicao. Estes foram agrupados de acordo com o pblico a que se
destinam:
191
A implementao de mecanismos de controlo de qualidade que permitem aferir de
forma automtica a quantidade de informao e/ou funcionalidades perdidas durante
um processo de migrao;
192
A publicao de uma reviso de literatura em lngua portuguesa que inclui uma
introduo aos principais conceitos e estratgias relevantes no domnio da preservao
digital. Esta reviso de literatura foi publicada em livro e disponibilizada na Internet
em acesso livre132 - Ferreira, Miguel - "Introduo preservao digital : conceitos,
estratgias e actuais consensos". Guimares : Escola de Engenharia da Universidade
do Minho, 2006. ISBN 978-972-8692-30-8.
O sistema actual pode ser profundamente melhorado se for adicionado suporte para:
mais formatos de objectos digitais, mais propriedades significativas e a possibilidade de
efectuar migraes entre formatos pertencentes a classes distintas (e.g. migrao de
documentos de texto para imagens matriciais);
Ao longo deste trabalho foi possvel constatar que, regra geral, os conversores no
possuem um comportamento constante, ou seja, conforme as caractersticas do
132 O livro Introduo preservao digital Conceitos, estratgias e actuais consensos foi at data descarregado mais de
8000 vezes, maioritariamente por pessoas oriundas do Brasil, Portugal, Argentina, Estados Unidos, Espanha, Peru, Angola e
Uruguai.
193
objecto a processar estes apresentam diferentes nveis de performance computacional.
Seria importante realizar um estudo no sentido de se apurar que factores influenciam
de forma directa o tempo de converso de objectos digitais em diferente formatos;
Estudar formas de garantir a segurana dos dados num ambiente distribudo onde os
vrios intervenientes tm a capacidade de ler e manipular a informao que se
pretende preservar, havendo assim um potencial risco sua integridade;
Implementar um mecanismo que permitisse ao CRiB obter feedback por parte dos seus
utilizadores de modo aferir o seu nvel de satisfao face s recomendaes e
migraes realizadas. Este mecanismo poderia ser utilizado para melhorar as
recomendaes produzidas pelo M i g r a t i o n A d v i s o r ;
195
196
Captulo 8
Apndices
Este captulo inclui todos os apndices considerados necessrios para garantir a completude
desta tese. O captulo est organizado da seguinte forma: a seco 8.1 descreve as ferramentas
e bibliotecas utilizadas pelo componente O b j e c t E v a l u a t o r na extraco de propriedades
significativas de objectos digitais; a seco 8.2 apresenta um exemplo de uma T a x i o n o m i a
g e r a l d e a v a l i a o ; a seco 8.3 descreve formalmente e em detalhe as funes de
similaridade utilizadas para comparar propriedades extradas a partir de objectos digitais; a
seco 8.4 descreve o teste no-paramtrico de Wilcoxon; a seco 8.5 descreve genericamente
o mtodo de validao cruzada; e finalmente, a seco 8.6 apresenta a licena de uso e
distribuio da plataforma CRiB.
197
8.1.1 Image IO
A biblioteca I m a g e I / O 133 que acompanha a linguagem de programao Java desde a sua
verso 1.4 constitui uma plataforma extensvel que facilita a interpretao e manipulao de
imagens matriciais. Esta biblioteca foi utilizada pelo componente extractor de propriedades
que acompanha o O b j e c t E v a l u a t o r para obter o valor de certas propriedades contidas
em imagens de diversos formatos.
133 http://java.sun.com/javase/6/docs/technotes/guides/imageio
134 http://www.sno.phy.queensu.ca/~phil/exiftool/
198
Classe Propriedade Formatos suportados
Tagged Image File Format, version 3
Portable Network Graphics, version 1.0
Portable Network Graphics, version 1.1
Windows Bitmap, version 3.0
Imagens Metainformao JPEG File Interchange Format 1.00
matriciais embebida JPEG File Interchange Format 1.01
JPEG File Interchange Format 1.02
Graphics Interchange Format, version 1987a
Graphics Interchange Format, version 1989a
JPEG 2000
Esta ferramenta utiliza internamente um modelo de dados abstracto que permite manipular
programaticamente documentos de texto em formato Word. Este modelo abstracto designa-se
por W o r d O b j e c t M o d e l 137. O Microsoft Office Word, atravs do W o r d O b j e c t
M o d e l , foi utilizado pelo CRiB para extrair as propriedades que acompanham documentos
de texto nos formatos Word e RTF. A Tabela 36 enumera as propriedades e os formatos
suportados por esta ferramenta.
135 http://office.microsoft.com/en-us/word/
136 http://office.microsoft.com
137 http://msdn.microsoft.com/en-us/library/kw65a0we(VS.80).aspx
199
8.1.4 OpenOffice.org Writer 2.2
O Writer um processador de texto multiplataforma, originalmente desenvolvido pela Sun
Microsystems138, que se encontra disponvel em cdigo-aberto. Esta aplicao compatvel
com um grande nmero de processadores de texto concorrentes como por exemplo o
Microsoft Word e o Corel WordPerfect. Actualmente, a aplicao acompanha o pacote de
software OpenOffice.org139.
8.1.5 PDFBox
A PDFBox141 trata-se de uma biblioteca Java que permite criar e manipular documentos PDF.
Esta biblioteca foi utilizada para extrair as propriedades includas na Tabela 38 a partir de
documentos PDF.
138 http://www.sun.com
139 http://www.openoffice.org/
140 http://api.openoffice.org/docs/java/ref/overview-summary.html
141 http://www.pdfbox.org/
200
Classe Propriedade Formatos suportados
Nmero de pginas
Nmero de imagens
Conformidade de caracteres
Margem esquerda
Margem inferior
Margem superior
Documentos
Margem direita Portable Document Format, version 1.4
de texto
Largura de pgina
Altura de pgina
Cor de fundo
Tipos de letra
Metainformao embebida
Disposio grfica
201
8.2 Taxionomia geral de avaliao
Availability
Stability
Throughput
Process
Cost
Outcome size
page count
image count
character count
content completeness
Word count
line count
character correctness
left
General
Evaluation Object context metadata
(text documents) bottom
Taxonomy margins
top
width
right
appearance page height
Is standard
Open specification
Compression support
Transparency support
Embedded metadata
Royalty free
Open source
Backwards compatible
Documentation level
Competing formats
DRM support
Update frequency
Technical Format
Custom extensions
Life time
Transparent decoding
Multiple readers
Multiplatform reader
202
8.3 Funes de similaridade
O conceito de similaridade diz respeito proximidade, real ou percepcionada, existente entre
dois conceitos ou representaes mentais. Estes conceitos so, geralmente, representados por
pontos no espao e a sua similaridade est directamente relacionada com a distncia a que
estes pontos se encontram nesse espao (R. N. Shepard, 1962).
Existem diversas mtricas que permitem determinar a distncia entre dois conceitos. A
definio formal de uma funo de clculo de distncia descrita pela Frmula 10, onde M
representa o tipo de dados dos conceitos a analisar.
dM : M M +
Uma mtrica deste tipo deve obedecer ao seguinte conjunto de condies:
A distncia muitas vezes utilizada para determinar a similaridade entre dois conceitos. A
Equao 7 estabelece a relao entre distncia e similaridade.
1
similaridade =
1+ distncia
203
Uma funo de similaridade pode ser definida formalmente pela Frmula 11, onde M
representa o tipo de dados do conceito que se pretende comparar.
sM : M M [0,1]
Tal como acontecia com a d i s t n c i a , a s i m i l a r i d a d e tambm deve obedecer a um
conjunto bem definido de condies, nomeadamente:
204
Critrio de avaliao Tipo de dados Mtrica de comparao
Nmero de pginas Numrico Proportional Similarity
Nmero de imagens Numrico Proportional Similarity
Conformidade de caracteres Textual Jaro Winkler String Similarity
Margem esquerda Numrico Proportional Similarity
Margem inferior Numrico Proportional Similarity
Margem superior Numrico Proportional Similarity
Margem direita Numrico Proportional Similarity
Largura de pgina Numrico Proportional Similarity
Altura de pgina Numrico Proportional Similarity
NRMSE Similarity
UQI Similarity
Disposio grfica Matriz de cor
SSIM Similarity
CBM Similarity
Cor de fundo Vectorial Euclidean distance
Tipos de letra Textual Relaxed String Equality
Property Set Similarity
Metainformao embebida XML
XML Diff
Tabela 40 Mtricas utilizadas para comparar documentos de
texto.
Proportional Similarity
A mtrica P r o p o r t i o n a l S i m i l a r i t y , ou similaridade proporcional, definida custa da
distncia proporcional. Esta distncia, tal como o nome indica, procura determinar a diferena
entre dois valores numricos, porm, tem em considerao o nvel de grandeza dos mesmos.
Por exemplo, a distncia entre 3 e 5 igual a 2; o mesmo acontece com os valores 1003 e
1005. No obstante, no primeiro exemplo, o valor 5 66.6% superior ao valor 3, enquanto
que no segundo, o valor 1005 apenas 0.0019% superior que 1003.
0 , a=b
ProportionalDistance(a, b) = a b
, ab
max(a,b)
205
A similaridade proporcional determinada aplicando a Equao 7 frmula de clculo da
distncia proporcional.
1
ProportionalSimilarity(a,b) =
1+ ProportionalDistance(a, b)
Esta mtrica utilizada para determinar o nvel de degradao sofrido por um objecto digital
durante uma converso em propriedades significativas como: nmero de pginas, largura e
altura, profundidade de cor, dimenses de margens, etc. (ver Tabela 39 e Tabela 40 para uma
lista completa das propriedades significativas analisadas por esta mtrica).
Similaridade Euclidiana
A similaridade euclidiana permite determinar a semelhana entre dois vectores numricos.
Formalmente, sejam P = ( p1 , p2 ,..., pn ) e Q = (q1 ,q2 ,...,qn ) dois vectores de comprimento n, a
n
distncia euclidiana entre ambos definida pela frmula i=1
( pi qi ) 2 .
206
do ponto de cor (i.e., Alfa), e.g. C = (r, g, b, a) . Os valores de cada um dos elementos do
vector um nmero natural pertencente ao conjunto [0, 254].
8.3.3 Similaridade textual
A similaridade textual142 tem como misso determinar a proximidade existente entre duas
cadeias de caracteres (Navarro, 2001). Por exemplo, as palavras toca e foca podem ser
consideradas sintacticamente semelhantes na medida em que diferem entre si apenas numa
letra.
Distncia de Levenshtein
A distncia de Levenshtein um algoritmo que permite quantificar as diferenas existentes
entre duas cadeias de caracteres. Esta medida de distncia contabiliza o nmero de operaes
de insero, eliminao e/ou substituio que so necessrias para transformar uma cadeia de
caracteres numa segunda (Levenshtein, 1965). Por exemplo, a distncia de Levenshtein entre
os termos automovel e automveis 4, devido a:
1. Substituio de o por
2. Eliminao de l
3. Insero de i
4. Insero de s
142 Tambm conhecido por string matching that allows errors ou approximate string matching.
207
O CRiB faz uso de uma biblioteca open-source designada SimMetrics143 que implementa um
conjunto alargado de algoritmos de similaridade, incluindo a distncia de Levenshtein.
143 http://sourceforge.net/projects/simmetrics/
208
0, LevenshteinSimilarity(s,v) < T
RelaxedStringEquality(s, v, T) =
1, LevenshteinSimilarity(s,v) T
144 Para determinar se dois caracteres esto sensivelmente na mesma posio utilizada uma janela de tamanho 3.
145 Uma transposio uma troca de lugar entre dois membros da mesma sequncia de caracteres.
209
Por exemplo, a similaridade de Jaro entre os termos toca e foca determinada da seguinte
forma:
P
JaroWinkler(s1 , s2 ) = Jaro(s1 , s2 ) + (1Jaro(s1 , s2 ))
10
146 Esta mtrica tambm conhecida por Jaccard Index e Jaccard Similarity.
210
interseco dos dois conjuntos pelo nmero de elementos de constituem a sua reunio
(Frmula 18). O contradomnio da funo definido pelo intervalo [0, 1].
AB
JaccardSimilarity(A, B) =
AB
O C o e f i c i e n t e d e S i m i l a r i d a d e d e J a c c a r d foi ento enriquecido com a nova
funo resultando na Frmula 20. A nova mtrica foi designada P r o p e r t y S e t
Similarity.
A B
PropertySetSimilarity(A, B) =
first(A) first(B)
211
XML Diff
A mtrica de similaridade X M L D i f f desenvolvida pela Universidade de Sannio147 tem
como objectivo determinar a proximidade sintctica entre dois documentos XML (Canfora et
al., 2004). Esta mtrica combina trs caractersticas fundamentais durante o processo de
comparao de documentos XML, nomeadamente:
O algoritmo original foi ligeiramente modificado pelo autor de modo a suportar contedos
armazenados em atributos e no apenas em elementos.
Esta mtrica foi utilizada para determinar o nvel de similaridade existente entre
metainformao extrada a partir de objectos digitais.
C11 CM1
C1N CMN
Existe um vasto conjunto de mtricas que podero ser utilizadas no clculo de similaridade
entre duas imagens. Estas tm aplicao em variados domnios como: remoo de imagens
147 http://www.unisannio.it/
212
duplicadas, recuperao de informao, optimizao de algoritmos de compresso, controlo de
qualidade, clustering, etc.
Mtricas de
similaridade grfica
Objectivas Subjectivas
Sistema Visual
Clssicas
Humano (HVS)
As mtricas objectivas podem ainda ser divididas em duas classes distintas: mtricas objectivas
clssicas ou mtricas baseadas no sistema visual humano148. A primeira classe de mtricas
considera apenas as caractersticas matemticas que so intrnsecas imagem. A segunda,
procura incorporar no seu modelo de avaliao itens que so prprios da percepo humana.
Esta abordagem tem como objectivo tornar estes algoritmos mais parecidos com as avaliaes
subjectivas (Z. Wang & Bovik, 2002).
213
Normalized Root Mean Squared Error
Uma das tcnicas de comparao de imagens mais utilizadas designa-se por Root Mean
Squared Error (RMSE). Este mtodo consiste no clculo da mdia das distncias euclidianas
verificadas entre cada ponto de cor que constitui cada uma das imagens comparadas (Shrestha
et al., 2005; L. W. Wang, Zhang, & Feng, 2005; Z. Wang et al., 2004).
1 4 RMSE(u,v,i)
NRMSE(u,v) =
4 i=1 max(u,v,i) min(u,v,i)
Esta mtrica utilizada no contexto do CRiB para determinar o nvel de degradao grfica
sofrido por um objecto digital durante a sua migrao, ou seja, corresponde propriedade
c o n f o r m i d a d e g r f i c a tanto em i m a g e n s m a t r i c i a i s como em d o c u m e n t o s d e
texto.
214
v = (v i i = 1,2,...,N ) , com ui e v i a representar os pontos de cor que constituem ambas as
imagens sob a forma ui = ( r,g,b,a) e v i = ( r, g, b, a) .
2u v 2
UQIi (u,v) = 2 2
2 u v 2 uv
(u ) + (v ) u + v u v
1 N 1 N
u2 = (ui u )2
N 1 i=1
v2 = (v i v )2
N 1 i=1
(Varincia)
1 N
uv = (ui u )(v i v )
N 1 i=1
(Covarincia)
Por uma questo de clareza, a formulao de UQI apresentada na Frmula 22 apenas se aplica
a uma das quatro componentes de cor que constitui cada uma das imagens comparadas. A
mesma frmula dever ser aplicada separadamente a cada uma das componentes de cor, sendo
o valor global de UQI obtido a partir do valor mdio dos UQIi parciais (Frmula 24).
1 4
UQI = UQIi (u,v)
4 i=1
Esta mtrica utilizada no contexto do CRiB para determinar o nvel de degradao grfica
sofrido por um objecto digital durante a sua migrao, ou seja, corresponde propriedade
c o n f o r m i d a d e g r f i c a tanto em i m a g e n s m a t r i c i a i s como em d o c u m e n t o s d e
texto.
Structural Similarity
A mtrica designada por Structured Similarity (SSIM) procura generalizar os conceitos
incorporados na mtrica UQI tornando esta mtrica mais flexvel e, ao mesmo tempo,
configurvel. A nova mtrica continua a combinar os conceitos de luminncia, contraste e
estrutura, mas incorpora constantes na sua formulao, nomeadamente C1 , C2 e C3 , que
215
evitam que o algoritmo se comporte de forma instvel na presena de imagens com
determinadas caractersticas, como por exemplo, imagens com grandes superfcies da mesma
cor (Z. Wang et al., 2004) Frmula 25.
2u v + C1
l(u,v) = (Luminncia)
(u ) 2 + (v ) 2 + C1
2 u v + C2
c(u,v) = (Contraste)
u2 + v2 + C2
uv + C3
s(u,v) = (Estrutura)
u v + C3
O novo algoritmo recebe ainda como parmetros o peso que cada um dos conceitos
anteriormente mencionados (i.e., luminncia, contraste e estrutura) ter na apreciao global de
similaridade, i.e., , e (Frmula 26).
SSIM i (u,v) = [ l(u,v)] [c(u,v)] [ s(u,v)]
Frmula 26 Structural Similarity (SSIM) de uma componente de
cor.
Tal como acontecia no clculo de UQI, a frmula de SSIMi apenas considera uma das quatro
componentes de cor que constituem as imagens. Para obter uma apreciao global de SSIM
necessrio, em primeiro lugar, calcular a mdia dos valores de SSIM obtidos para cada uma das
quatro componentes de cor (Frmula 27).
1 4
SSIM(u,v) = SSIM i (u,v,i)
4 i=1
216
de similaridade obtido calculando a mdia dos valores de SSIM resultantes da aplicao do
algoritmo a cada uma das M janelas previamente recolhidas (Frmula 28).
1 M
MSSIM(u,v) = SSIM(u,v)
M j=1
Aps o particionamento das imagens, o algoritmo CBM recorre mtrica SSIM para
determinar a similaridade em cada uma destas componentes extradas. Finalmente o valor final
de CBM obtido calculando a mdia dos valores de SSIM obtidos (Figura 69).
217
Figura 69 Diagrama de processamento da mtrica CBM.
Esta mtrica utilizada no contexto do CRiB para determinar o nvel de degradao grfica
sofrido por um objecto digital durante a sua migrao, ou seja, corresponde propriedade
c o n f o r m i d a d e g r f i c a tanto em i m a g e n s m a t r i c i a i s como em d o c u m e n t o s d e
texto.
218
dk = X k Yk , para k = 1,2,...,30
Antes de aplicar o teste de Wilcoxon, procedeu-se ao ajuste dos valores objectivos produzidos
pelos algoritmos recorrendo regresso linear. Os valores ajustados utilizados no teste
paramtrico apresentam-se na Tabela 20 na pgina 150.
Amostras Wilcoxon
Valor-P > 0.05 Concluso
comparadas Valor-P
MOS-RMSE 0.629 Sim No h evidncia suficiente para rejeitar H0
MOS-UQI 0.781 Sim No h evidncia suficiente para rejeitar H0
MOS-SSIM 0.845 Sim No h evidncia suficiente para rejeitar H0
MOS-CBM 0.861 Sim No h evidncia suficiente para rejeitar H0
219
de dados subdividida em vrias parties: umas so usadas para treinar o sistema e as restantes
para o testar. Dentro deste mtodo podemos encontrar vrias variantes:
Camilo Oliveira na sua tese de mestrado descreve o holdout validation como um dos
mtodos mais utilizados, sendo tambm designado por teste de clculo simples, em
que se divide o conjunto de dados em dois subconjuntos, designados por conjunto de
treino e de teste. Este autor considera que um mtodo de clculo pessimista
porque s uma parte dos dados utilizada para treino (Oliveira, 2001);
220
Figura 70 Exemplo do mtodo de validao cruzada com 4
dobras.
221
- Ferreira, M., Baptista, A. A. & Ramalho, J. C. (2006). A Foundation
for Automatic Digital Preservation. Ariadne(48).
222
Captulo 9
Anexos
223
224
REFERNCIAS
Abrams, S. L., & Seaman, D. (2003). Towards a global digital format registry. Paper presented at the
World Library and Information Congress: 69th IFLA General Conference and
Council.
Adobe Developers Association. (1992). TIFF revision 6.0. Mountain View, USA: Adobe
Systems Incorporated.
Adobe Systems Incorporated. (2004). XMP Specification. San Jose, USA: Adobe Systems
Incorporated.
Ambacher, B., Ashley, K., Berry, J., Brooks, C., Dale, R. L., Flecker, D., et al. (2007).
Trustworthy Repositories Audit & Certification: Criteria and Checklist: OCLC & CRL.
Arasu, A., Ganti, V., & Kaushik, R. (2006). Efficient Exact Set-Similarity Joins. Paper presented at
the International Conference on Very Large Data Bases, Seul, Korea.
Arts and Humanities Data Service. (2006). AHDS Repository Policies and Procedures.
Retrieved 2006-11-12, from http://ahds.ac.uk/preservation/ahds-preservation-
documents.htm
Authenticity Task Force. (2002). Requirements for Assessing and Maintaining the Authenticity of
Electronic Records. Vancouver, Canada: InterPARES Project.
Ayre, C., & Muir, A. (2004). The Right to Preserve - The Rights Issues of Digital Preservation.
D-Lib Magazine, 10(3).
Balzer, Y. (2004). Improve your SOA project plans - Strong governance principles ensure a
successful outcome. Retrieved 2004-12-12, from http://www-
128.ibm.com/developerworks/webservices/library/ws-improvesoa/
Barbedo, F., Corujo, L., Faria, L., Castro, R., Ferreira, M., & Ramalho, J. C. (2007). RODA:
Repositrio de Objectos Digitais Autnticos. Paper presented at the 9 Congresso Nacional
de Bibliotecrios, Arquivistas e Documentalistas, Ponta Delgada, Portugal.
Beagrie, N., Bellinger, M., Dale, R., Doerr, M., Hedstrom, M., Jones, M., et al. (2002). Trusted
Digital Repositories: Attributes and Responsibilities (Report): Research Libraries Group &
Online Computer Library Center.
Bearman, D. (1987). Collecting Software: A New challenge for Archives & Museums (No. 1): Archival
Informatics.
225
Bearman, D. (1989). Archival Methods (Techical Report No. 1). Pittsburgh: Archives and
Museum Informatics.
Becker, C., Ferreira, M., Kraxner, M., Rauber, A., Baptista, A. A., & Ramalho, J. C. (2008).
Distributed Preservation Services: Integrating Planning and Actions. Paper presented at the
European Conference on Research and Advanced Technology for Digital Libraries
(ECDL'08), Aarhus, Denmark.
Becker, C., Kulovits, H., Rauber, A., & Hofman, H. (2008). Plato: A Service Oriented Decision
Support System for Preservation Planning. Paper presented at the Joint Conference on
Digital Libraries (JCDL), Pittsburgh, Pennsylvania, USA.
Becker, C., Rauber, A., Heydegger, V., Schnasse, J., & Thalle, M. (2008). A Generic XML
Language for Characterising Objects to Support Digital Preservation. Paper presented at the
Symposium on Applied Computing (SAC), Cear, Brazil.
Bennett, J. C. (1997). A Framework of Data Types and Formats, And Issues Affecting the Long Term
Preservation of Digital Material (Report No. 50). West Yorkshire, UK: British Library
Research and Innovation Centre.
Besser, H. (2001). Digital Preservation of Moving Image Material? The Journal of the Association
of Moving Image Archivists, 1(2), 39-55.
Bistrm, J. (2005). Comparing Video Codec Evaluation Methods for Handheld Digital TV (No.
21548C). Helsinki: Helsinki University of Technology.
Brody, T. (2005). Growth of Institutional Archives over Time. Retrieved 2005-12-12, from
http://archives.eprints.org/index.php?action=analysis
Bryan, D., Draluk, V., Ehnebuske, D., Glover, T., Hately, A., Husband, Y. L., et al. (2002).
UDDI Version 2.04 API Specification: OASIS.
Caldeira, C. P. (2008). Data Warehousing: Conceitos e Modelos com Exemplos Prticos: Edies Slabo.
Canfora, G., Cerulo, L., & Scognamiglio, R. (2004). Measuring XML document similarity: a case
study for evaluating information extraction systems. Paper presented at the 10th International
Symposium on Software Metrics, Chicago, Illinois, USA.
Caplan, P., Guenther, R., Dale, R., Lavoie, B., Barnum, G., Blair, C., et al. (2005). Data
Dictionary for Preservation Metadata (Final report): PREMIS Working Group
(OCLC/RLG).
226
Chen, S.-S. (2001). The Paradox of Digital Preservation. IEEE Computer, 34(3), 24-28.
Cohen, W. W., Ravikumar, P., & Fienberg, S. E. (2003). A Comparison of String Distance Metrics
for Name-Matching Tasks. Paper presented at the Information Integration on the Web
(IIWeb), Acapulco, Mexico.
Consultative Committee for Space Data Systems. (2002). Reference Model for an Open Archival
Information System (OAIS) - Blue Book. Washington: National Aeronautics and Space
Administration.
Curtis, J., Koerbin, P., Raftos, P., Berriman, D., & Hunter, J. (2007). AONS - An obsolescence
detection and notification service for Web archives and digital repositories New Review
of Hypermedia and Multimedia, 13(1), 39-53.
Davidson, A., & Pollard, A. (2005). Jasper - ZX Spectrum Emulator. Retrieved 2005-12-02,
from http://www.spectrum.lovely.net/
Digital Curation Centre, & DigitalPreservationEurope. (2007). Digital Repository Audit Method
Based on Risk Assessment (DRAMBORA). Glasgow.
Digital Preservation Testbed. (2001). Migration: Context and Current Status (White Paper). The
Hague.
Duda, R. O., & Hart, P. E. (1973). Pattern Classification and Scene Analysis: John Wiley & Sons
Inc.
Erl, T. (2005). Service-oriented Architecture: Concepts, Technology and Design: Upper Saddle River:
Prentice Hall PTR.
Faria, L., Castro, R., Ferreira, M., Ramalho, J. C., Barbedo, F., & Corujo, L. (2007). RODA -
Repository of Authentic Digital Objects. Paper presented at the International Workshop on
Database Preservation, National e-Science Centre, Edinburgh, Scotland.
227
Farquhar, A., & Hockx-Yu, H. (2007). Planets: Integrated Services for Digital Preservation.
International Journal of Digital Curation, 2(2).
Ferreira, M. (2006b). Trs anos depoisuma reflexo sobre o projecto DigitArq. In Disciplina
de Seminrio da Licenciatura em Cincia da Informao da Faculdade de Letras da
Universidade do Porto (Ed.). Porto, Portugal.
Ferreira, M., & Baptista, A. A. (2005). The use of Taxonomies as a way to achieve Interoperability and
improved Resource Discovery in DSpace-based Repositories. Paper presented at the XATA -
XML: Aplicaes e Tecnologias Associadas, Vila Verde, Braga, Portugal.
Ferreira, M., Baptista, A. A., & Ramalho, J. C. (2005). Avaliao Automtica de Migrao em Redes
Distribudas de Conversores. Paper presented at the Conferncia da Associao Portuguesa
de Sistemas de Informao (CAPSI), Bragana, Portugal.
Ferreira, M., Baptista, A. A., & Ramalho, J. C. (2006a). A Foundation for Automatic Digital
Preservation. Ariadne(48).
Ferreira, M., Baptista, A. A., & Ramalho, J. C. (2006b). CRiB: A service oriented architecture for
digital preservation outsourcing. Paper presented at the XATA - XML: Aplicaes e
Tecnologias Associadas, Portalegre, Portugal.
Ferreira, M., Baptista, A. A., & Ramalho, J. C. (2007). An intelligent decision support system
for digital preservation. International Journal on Digital Libraries, 6(4), 295-304.
Ferreira, M., & Ramalho, J. C. (2004b). DigitArq - Creating and Managing a Digital Archive. Paper
presented at the ICCC/IFIP International Conference on Electronic Publishing,
Braslia, Brazil.
Ferreira, M., & Ramalho, J. C. (2004c). DigitArq: Creating a Historical Digital Archive. Paper
presented at the 5 Conferncia da Associao Portuguesa de Sistemas de Informao,
Lisboa.
228
Ferreira, M., Saraiva, R., Rodrigues, E., & Baptista, A. A. (2008). Carrots and Sticks - Some
ideas on how to create a successful institutional repository. D-Lib Magazine, 14(1/2).
Fielding, R. T. (2000). Architectural Styles and the Design of Network-based Software Architectures.
University of California, Irvine.
Freed, N., & Borenstein, N. (1996). Multipurpose Internet Mail Extensions (MIME) Part Two: Media
Types (RFC No. 2046).
Gantz, J. F., Chute, C., Manfrediz, A., Minton, S., Reinsel, D., Schlichting, W., et al. (2008). The
Diverse and Exploding Digital Universe: IDC.
Gao, X., Wang, T., & Li, J. (2005). A Content-Based Image Quality Metric. Springer-Verlag
Lecture notes in Computer Science, 3642(2005), 231-240.
Geremew, M., Song, S., & J. JaJa. (2006). Using Scalable and Secure Web Technologies to Design a
Global Digital Format Registry Prototype: Architecture, Implementation, and Testing. Paper
presented at the IS&T Archiving, Ottawa, Canada.
Goldberg, K., Roeder, T., Gupta, D., & Perkins, C. (2001). Eigentaste: Constant Time
Collaborative Filtering Algorithm. Information Retrieval, 4(2), 133-151.
Graham, P. (2000). Issues in Digital Archiving. In R. Pilette & P. Banks (Eds.), Preservation:
Issues and Planning. Chicago: IL: American Library Association.
Graham, S., Simeonov, S., Boubez, T., Davis, D., Daniels, G., Nakamura, Y., et al. (2002).
Building Web Services with Java: Making Sense of XML, SOAP, WSDL and UDDI: Sams
Publishing.
Guenther, R., Caplan, P., Lavoie, B., Bordwell, S., Brandt, O., Clifton, G., et al. (2008).
PREMIS Data Dictionary for Preservation Metadata version 2.0. Washington DC, USA:
Library of Congress.
Hadjieleftheriou, M., Chandel, A., Koudas, N., & Srivastava, D. (2008). Fast Indexes and
Algorithms for Set Similarity Selection Queries. Paper presented at the International
Conference on Data Engineering, Cancun, Mexico.
Halem, M., F., S., Palm, N., Salmon, E., Raghavan, S., & Kempster, L. (1999). Technology
Assessment of High Capacity Data Storage Systems: Can We Avoid A Data Survivability Crisis?
Greenbelt, MD: Earth and Space Data Computing Division, NASA Goddard Space
Flight Center.
229
Harvey, P. (2003). ExifTool by Phil Harvey. Retrieved 2008-01-25, from
http://www.sno.phy.queensu.ca/~phil/exiftool/
Hedstrom, M. (1998). Digital Preservation: A time bomb for digital libraries. Computers and the
Humanities, 31, 189-202.
Hedstrom, M. (2001). Digital Preservation: Problems and Prospects. Digital Library Network
(DLnet)(20).
Heminger, A. R., & Robertson, S. B. (2004). A Delphi Assessment of the Digital Rosetta Stone Model.
Paper presented at the 37th Annual Hawaii International Conference on System
Sciences (HICSS'04), Big Island, Hawaii.
Hendley, T. (1998). Comparison of Methods & Costs of Digital Preservation (No. 106). West
Yorkshire: British Library Research and Innovation Center.
Herlocker, J. L., Konstan, J. A., Terveen, L. G., & Riedl, J. T. (2004). Evaluating Collaborative
Filtering Recommender Systems. ACM Transactions on Information Systems, 22(1), 5--53.
Heslop, H., Davis, S., & Wilson, A. (2002). An Approach to the Preservation of Digital
Records. Camberra, Australia: National Archives of Australia.
Hitchcock, S., Brody, T., Hey, J. M. N., & Carr, L. (2007). Digital Preservation Service
Provider Models for Institutional Repositories - Towards Distributed Services. D-Lib
Magazine, 13(5/6).
Hodge, G., & Frangakis, E. (2004). Digital Preservation and Permanent Access to Scientific Information:
The State of the Practice (Report No. 2004-3: Rev. 05/04): International Council for
Scientific and Technical Information & CENDI.
Hofman, H. (2001). How to keep digital records understandable and usable through time? Paper
presented at the Long-Term Preservation of Electronic Records, Paris, France.
Hofman, H. (2002a). A global issue: preservation of digital objects. Paper presented at the Korean
Association of Archives Management, Seoul, Korea.
Hofman, H. (2002b). Can Bits and Bytes be Authentic? Preserving the Authenticity of Digital Objects.
Paper presented at the International Federation of Library Associations Conference,
Glasgow.
Holdsworth, D., & Wheatley, P. (2001). Emulation, Preservation and Abstraction. DigiNews,
Research Library Group, 5(4).
230
Howel, A. G. (2004). Preserving Digital Information: Challenges and Solutions: Victorian Academic
Libraries, Victorian university libraries and State Library of Victoria.
Hunter, J., & Choudhury, S. (2003). Implementing Preservation Strategies for Complex Multimedia
Objects. Paper presented at the Seventh European Conference on Research and
Advanced Technology for Digital Libraries (ECDL'03), Trondheim, Sr-Trndelag,
Norway.
Hunter, J., & Choudhury, S. (2004). A Semi-Automated Digital Preservation System based on Semantic
Web Services. Paper presented at the Joint ACM/IEEE Conference on Digital Libraries
(JCDL'04).
Hunter, J., & Choudhury, S. (2005). Preservation webservices Architecture for Newmedia and
Interactive Collections (PANIC). Retrieved 2005-12-12, from
http://metadata.net/newmedia/
Hunter, J., & Choudhury, S. (2006). PANIC: an integrated approach to the preservation of
composite digital objects using Semantic Web services. International Journal on Digital
Libraries, 6(2), 174-183.
IEEE History Center. Development of VHS, a World Standard for Home Video Recording,
1976. Retrieved 2008-05-25, from
http://www.ieee.org/web/aboutus/history_center/vhs.html
International Press Telecommunications Council. (2004). IPTC Metadata for XMP. Retrieved
2008-01-24, from http://www.iptc.org/IPTC4XMP/
Jaccard, P. (1901). tude comparative de la distribution florale dans une portion des Alpes et
des Jura. Bulletin del la Socit Vaudoise des Sciences Naturelles, 37, 547-579.
Jaro, M. A. (1995). Probabilistic linkage of large public health data files. Statistics in Medicine, 14,
491-498.
Jiang, W., & Schulzrinne, H. (2003). Assessment of VoIP service availability in the current Internet.
Paper presented at the Passive & Active Measurement Workshop, San Diego, CA.
Josefsson, S. (2006). The Base16, Base32, and Base64 Data Encodings. RFC 4648 Retrieved
2008-08-17, from http://tools.ietf.org/html/rfc4648
Kenney, A. R., McGovern, N. Y., Entlich, R., Kehoe, W. R., & Olsen, E. (2003). Digital
Preservation Management. Implementing Short-term Strategies for Long-term Problems, 2009-
03-12, from http://www.library.cornell.edu/iris/tutorial/dpm/
231
Kimball, R., & Ross, M. (2002). The data warehouse toolkit : the complete guide to dimensional modeling
(2nd ed.). New York: Wiley.
Kohavi, R. (1995). A study of Cross-Validation and Bootstrap for accuracy estimation and
model selection. International Joint Conferences on Artificial Intelligence, 2, 1137-1145.
Lavoie, B., & Gartner, R. (2005). Technology Watch Report - Preservation Metadata (No. 05-01):
Online Computer Library Center Inc., Oxford University Library Services and Digital
Preservation Coalition.
Lavoie, B. F. (2004). The Open Archival Information System Reference Model: Introductory Guide
(Technology Watch Report No. Watch Series Report 04-01). Dublin, USA: Digital
Preservation Coalition.
Lavoie, B. F. (2008). PREMIS With a Fresh Coat of Paint - Highlights from the Revision of
the PREMIS Data Dictionary for Preservation Metadata. D-Lib Magazine, 14(5/6).
Lavoie, B. F., & Dempsey, L. (2004). Thirteen Ways of Looking at... Digital Preservation. D-
Lib Magazine, 10(7/8).
Lawrence, G. W., Kehoe, W. R., Rieger, O. Y., Walters, W. H., & Kenney, A. R. (2000). Risk
Management of Digital Information: A file format investigation. Washington, DC: Council on
Library and Information Resources.
Lee, K.-H., Slattery, O., Lu, R., Tang, X., & McCrary, V. (2002). The State of the Art and
Practice in Digital Preservation. Journal of Research of the National Institute of Standards and
Technology, 107(1), 93-106.
Li, J., Chen, G., Chi, Z., & Lu, C. (2004). Image coding quality assessment using fuzzy integrals
with a three-component image model. IEEE Transactions on Fuzzy Systems, 1(12), 99-
106.
232
Lorie, R. A. (2001). Long Term Preservation of Digital Information. Paper presented at the First
ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL'01), Roanoke, Virginia,
USA.
Lorie, R. A. (2002, July 13-17 2002). A Methodology and System for Preserving Digital Data. Paper
presented at the Second ACM/IEEE-CS Joint Conference on Digital Libraries
(JCDL'02), Portland, Oregon.
Lupovici, C., & Masans, J. (2000). Metadata for the Long Term Preservation of Electronic Publications
(No. 2). The Hague, The Netherlands: NEDLIB Consortium.
MacNeil, H., Wei, C., Duranti, L., Gilliland-Swetland, A., Guercio, M., Hackett, Y., et al.
(2001). Authenticity Task Force Report. Vancouver, Canada: InterPARES Project.
Mellor, P., Wheatley, P., & Sergeant, D. M. (2002). Migration on Request, a Practical Technique for
Preservation. Paper presented at the ECDL '02: 6th European Conference on Research
and Advanced Technology for Digital Libraries, London, UK.
Menasc, D. A. (2002). QoS Issues in Web Services. IEEE Internet Computing, 6(6), 72-75.
Millar, L. (2004). Authenticity of electronic records: a report prepared for UNESCO and the International
Council on Archives. London, UK: International Council on Archives.
Musgrove, M. (2006, January 12). Nikon Says It's Leaving Film-Camera Business. The
Washington Post, p. D01. Retrieved 2007-12-12, from
http://www.washingtonpost.com/wp-
dyn/content/article/2006/01/11/AR2006011102323.html
National Library of Australia. (1999). Preservation Metadata for Digital Collections. Retrieved
2005-12-12, from http://www.nla.gov.au/preserve/pmeta.html
Navarro, G. (2001). A guided tour to approximate string matching. ACM Computing Surveys,
33(1), 31-88.
233
Nayak, P. R., & Ketteringham, J. M. (1994). The VCR: A Miracle at JVC Be Very Polite and
Gentle, Breakthroughs! : Pfeiffer & Company.
Newcomer, E., & Lomow, G. (2005). Understanding SOA with Web Services: Addison Wesley.
OASIS. (2005). Universal Description, Discovery and Integration (UDDI). Retrieved 2008-
04-21, from http://www.uddi.org/
Ockerbloom, J. M. (1998). Mediating Among Diverse Data Formats. Unpublished PhD Thesis,
Carnegie Mellon University, Pittsburg.
Oltmans, E., Diessen, R. J. v., & Wijngaarden, H. v. (2004). Preservation Functionality in a Digital
Archive. Paper presented at the Joint ACM/IEEE Conference on Digital Libraries
(JCDL'04).
Pearson, D. (2008). AONS II: continuing the trend towards preservation software 'Nirvana'.
New Technology of Library and Information Service(1), 42-49.
Petrov, O., Vatolin, D., Parshin, A., & Titarenko, A. (2006). MSU Subjective Comparison of
Modern Video Codecs. Moscow, Russia: CS MSU GRAPHICS & MEDIA LAB VIDEO
GROUP.
Portuguese National Archives, & University of Minho. (2006). RODA Web site. Retrieved
2006-04-21, from http://portal.roda.dgarq.gov.pt
PREMIS Working Group. (2005). Data dictionary for preservation metadata: final report of the
PREMIS Working Group (Final report). Dublin, Ohio, USA: OCLC Online Computer
Library Center & Research Libraries Group.
Proena, A., & Lopes, S. (2004). Digital Preservation (Monography). Covilh: Departamento de
Informtica da Universidade da Beira Interior.
234
Ramalho, J. C., Ferreira, M., Castro, R., Faria, L., Barbedo, F., & Corujo, L. (2007). XML e
Preservao Digital. Paper presented at the XATA - XML: Aplicaes e Tecnologias
Associadas, FCUL, Lisboa, Portugal.
Ramalho, J. C., Ferreira, M., Faria, L., & Castro, R. (2007). Relational Database Preservation through
XML modelling. Paper presented at the Extreme Markup Languages, Montral, Qubec,
Canada.
Ramalho, J. C., Ferreira, M., Faria, L., Castro, R., Barbedo, F., & Corujo, L. (2008). RODA and
CRiB - A Service-Oriented Digital Repository. Paper presented at the International
Conference on Preservation of Digital Objects (iPRES), London, UK.
Ramalho, J. C., Ferreira, M., Ferros, L., Lima, M. J. P., & Sousa, A. (2006). Digitarq 2 - Nova
arquitectura aplicacional para gesto de Arquivos Definitivos. Paper presented at the 2nd
International Conference on Enterprise Archives, Seixal, Portugal.
Rauber, A., & Aschenbrenner, A. (2001). Part of Our Culture is Born Digital - On Efforts to
Preserve it for Future Generations. TRANS - On-line Journal for Cultural Studies., 10.
Rauch, C. (2004). Preserving Digital Entities - A Framework for Choosing and Testing Preservation
Strategies. Unpublished Master Thesis, Vienna University of Technology, Vienna.
Rauch, C., Krottmaier, H., & Tochtermann, K. (2007). File-Formats for Preservation: Evaluating the
Long-Term Stability of File-Formats. Paper presented at the International Conference on
Electronic Publishing, Vienna, Austria.
Rauch, C., Pavuza, F., Strodl, S., & Rauber, A. (2005). Evaluating preservation strategies for audio and
video files. Paper presented at the DELOS Digital Repositories Workshop, Heraklion,
Crete.
Rauch, C., & Rauber, A. (2004). Preserving Digital Media: Towards a Preservation Solution Evaluation
Metric. Paper presented at the International Conference on Asian Digital Libraries,
Shanghai, China.
Rauch, C., Rauber, A., Hofman, H., Bogaarts, J., Vedegem, R., Pavuza, F., et al. (2005). A
Framework for Documenting the Behaviour and Funcionality of Digital Objects and Preservation
Strategies. Glasgow: DELOS Network of Excellence.
RDF Core Working Group. (2004). Resource Description Framework (RDF): W3C.
Ross, S., & Hedstrom, M. (2005). Preservation research and sustainable digital libraries.
Internation Journal on digital Libraries, 5(4), 317-324.
235
Rothenberg, J., Commission on Preservation and Access, & Council on Library and
Information Resources. (1999). Avoiding technological quicksand: finding a viable technical
foundation for digital preservation: a report to the Council on Library and Information Resources.
Washington, DC: Council on Library and Information Resources.
Rusbridge, A. (2003). Migration on Request (4th Year Project Report): University of Edinburgh -
Division of Informatics.
Russell, K. (2000). Digital Preservation and the CEDARS Project Experience. Paper presented at the
International Conference on Preservation and Long Term Accessibility of Digital
Materials, York, England.
Saltelli, A. (2004). Sensitivity analysis in practice : a guide to assessing scientific models. Hoboken, NJ:
Wiley.
Saramago, M. d. L. (2004). Metadados para preservao digital e aplicao do modelo OAIS. Paper
presented at the VIII Congresso da BAD, Estoril, Portugal.
Sarmento, F., Baptista, A. A., & Ramos, I. (2005). Estudo de comportamento de investigadores face
utilizao de um Repositrio Institucional. Paper presented at the Conferncia da Associao
Portuguesa de Sistemas de Informao (CAPSI), Bragana, Portugal.
Shepard, T., & MacCarn, D. (1998). The Universal Preservation Format: Background and
Fundamentals. Paper presented at the Sixth DELOS Workshop, Tomar, Portugal.
Shepard, T., & MacCarn, D. (1999). The Universal Preservation Format: A Recommended Practice for
Archiving Media and Electronic Records. Boston.
Shrestha, B., O'Hara, C. G., & Younan, N. H. (2005). JPEG2000: Image Quality Metrics. Paper
presented at the American Society for Photogrammetry and Remote Sensing
Baltimore, USA.
Silva, F. R. (2004). Uma abordagem para deteco de outliers em dados categricos. Universidade
Estadual de Campinas Campinas, Brasil.
SOA Reference Model TC. (2008). Reference Architecture for Service Oriented Architecture Version 1.0:
OASIS.
Sobel, I., & Feldman, G. (1968). A 3x3 Isotropic Gradient Operator for Image Processing. In
Stanford Artificial Project (Ed.). Stanford.
236
Soukoreff, R. W., & MacKenzie, I. S. (2001). Measuring errors in text entry tasks: an application of the
Levenshtein String Distance Statistic. Paper presented at the ACM Conference on Human
Factors in Computing Systems, New York.
Sousa, A. n., Ferros, L. M., Ramalho, J. C., & Lima, M. J. P. d. (2007). Consulta Real em Ambiente
Virtual: implementao de uma sala de referncia e leitura virtual num arquivo. Paper presented
at the Congresso Nacional de Bibliotecrios, Arquivistas e Documentalistas, Aores,
Portugal.
Stanley, L. G. D., & Stewart, D. L. (2002). Design sensitivity analysis : computational issues of sensitivity
equation methods. Philadelphia: Society for Industrial and Applied Mathematics.
Tan, P.-N., Steinbach, M., & Kumar, V. (2005). Introduction to Data Mining: Addison Wesley.
Task Force on Archiving of Digital Information, Commission on Preservation and Access, &
Research Libraries Group. (1996). Preserving digital information: report of the Task Force on
Archiving of Digital Information. Washington, D.C.: Commission on Preservation and
Access.
Technical Standardization Committee on AV, & IT Storage Systems and Equipment. (2002).
Exchangeable image file format for digital still cameras: Exif Version 2.2 (No. JEITA CP-
3451): Japan Electronics and Information Technology Industries Association.
Teixeira, D., Ferreira, M., & Verhaegh, V. (2003). An Integrated Framework for Supporting Photo
Viewing Activities in Home Environments. Paper presented at the European Symposium on
Ambient Intelligence, Eindhoven, The Netherlands.
Tekli, J., Chbeir, R., & Yetongnon, K. (2006). Semantic and Structure Based XML Similarity: The
XS3 Prototype. Paper presented at the International Conference on Management of
Data, Delhi, India.
Tetko, I. V., Livingstone, D. J., & Luik, A. I. (1995). Neural network studies, 1. Comparison of
overfitting and overtraining. Journal of Chemical Information and Computer Sciences, 35(5),
826-833.
The Cedars Project Team. (2001). The Cedars Project Report. UK: Consortium of University
Research Libraries.
237
The Cedars Project Team. (2002). Cedars Guide to Preservation Metadata: The Cedars Project.
UK National Archives. (2002). PRONOM - The file format registry. Retrieved 2008-04-21,
2008, from http://www.nationalarchives.gov.uk/pronom/
UK National Archives. (2005). Droid: Digital Record Object Identification (Version 1.0)
[Format detector]. Surrey: UK National Archives.
Walker, F. L., & Thoma, G. R. (2003). A SOAP-Based Tool for User Feedback and Analysis. Paper
presented at the InfoToday, Medford N.J., USA.
Walker, F. L., & Thoma, G. R. (2004). A Web-Based Paradigm for File Migration. Paper presented
at the IS&T's 2004 Archiving Conference, San Antonio, Texas, USA.
Walker, F. L., & Thoma, G. R. (2005). Image Preservation Through PDF/A. Paper presented at
the IS&T's 2005 Archiving Conference, Washington, D.C., USA.
Wang, L. W., Zhang, Y., & Feng, J. F. (2005). On the Euclidean distance of images. Ieee
Transactions on Pattern Analysis and Machine Intelligence, 27(8), 1334-1339.
Wang, Z., & Bovik, A. C. (2002). A universal image quality index. Ieee Signal Processing Letters,
9(3), 81-84.
Wang, Z., Bovik, A. C., Sheikh, H. R., & Simoncelli, E. P. (2004). Image Quality Assessment:
From Error Visibility to Structural Similarity. IEEE TRANSACTIONS ON IMAGE
PROCESSING, 13(4), 600-612.
Waters, D. (2002). Good Archives Make Good Scholars: Reflections on Recent Steps Toward the Archiving
of Digital Information. Paper presented at the The State of Digital Preservation: An
International Perspective, Washington D.C.
238
Waugh, A., Wilkinson, R., Hills, B., & Dell'oro, J. (2000). Preserving Digital Information Forever.
Paper presented at the Fifth ACM Conference on Digital Libraries, San Antonio,
Texas.
Webb, C. (2003). Guidelines for the Preservation of Digital Heritage: United Nations Educational
Scientific and Cultural Organization - Information Society Division.
Weirich, P., Skyrms, B., Adams, E. W., Binmore, K., Butterfield, J., Diaconis, P., et al. (2001).
Decision Space: Multidimensional Utility Analysis. Cambridge.
Werf, T. v. d. (2002). Our digital heritage: how authentic should it be? Paper presented at the
Victorian Association for Library Automation Inc., Melbourne.
Wikipedia contributors. (2007). Digital camera. Retrieved 13 December 2007 12:24 UTC,
from http://en.wikipedia.org/w/index.php?title=Digital_camera&oldid=177619169
Winkler, W. E. (1999). The state of record linkage and current research problems. Wachington, DC,
USA: U.S. Bureau of the Census.
Witten, I. H., & Frank, E. (2005). Data Mining: Practical Machine Learning Tools and Techniques
(Second ed.): Morgan Kaufmann.
Woodyard, D. (2000). Digital Preservation: The Australian Experience. Paper presented at the Third
Conference Digital Library: Positioning the Fountain of Kowledge, Malaysia.
Xiao, C., Wang, W., Lin, X., & Yu, J. X. (2008). Efficient Similarity Joins for Near Duplicate
Detection. Paper presented at the WWW 2008, Beijing, China.
Zeng, L., Benatallah, B., Dumas, M., Kalagnanam, J., & Sheng, Q. Z. (2003). Quality Driven
Web Services Composition. Paper presented at the 12th International Conference on the
World Wide Web (WWW), Budapest, Hungary.
239
240
NDICE REMISSIVO
A D
Acesso, 21 Data warehousing, 131
actualizao de verses, 27 diagramas vectoriais, xxvi, 14
Agente, 42 Digital Curation Centre, 36
agentes, 30, 31, 36, 41, 83 direitos, 41, 43
Anlise de Utilidade, 63 disco rgido, 15, 17, 23
aplicaes, xxvii, 13, 14, 24, 25, 27, 34 disponibilidade, 65, 79, 92, 143
arqueologia digital, 34 disquete, 15, 23
rvore-objectivo, 63, 64, 65 Documentos de texto, xxvi, 14
ASCII, 39 DVD, xxv, xxix, 13, 15, 17
udio, xxvi, 14, 100
autenticidade, 37, 38, 40, 43, 44 E
emulao, 23
B emulador, 23, 24, 25
bases de dados, xxvi, 14 encapsulamento, 21, 32
Biblioteca do Congresso, 36, 62, 105 Entidade Intelectual, 41
entidades intelectuais, 41
C estabilidade, 65, 92, 93
canonizao, 39 Evento, 42
caractersticas essenciais, 39 eventos, 41
CCSDS, 18 exactido, 169
CD, xxv, xxix, 15, 23 extractor de propriedades, 97
Coeficiente de Similaridade de Jaccard,
F
157, 158, 210, 211
comunidade de interesse, 21 Ficheiro, 43
controlo de qualidade, viii, 5, 6, 8, 50, 51, formato, 15
52, 67, 68, 71, 74, 75, 80, 81, 97, 99, 100, formato cannico, 39
127, 129, 132, 133, 134, 168, 183, 184, formato de preservao, 29
185, 189, 194, 213 Formato Universal de Preservao, 32
conversores, viii, xxvi, 3, 6, 27, 29, 30, 31, fotografias digitais, xxvi, 14
32, 36, 51, 52, 59, 60, 63, 71, 73, 80, 81, funes de similaridade, 7, 99, 128, 172,
82, 87, 91, 94, 95, 124, 127, 155, 164, 186, 193, 197
167, 168, 184, 186, 193
correlao de Pearson, 151, 159, 169, 170, G
187 Global Digital Format Registry, 35
correlao de Spearman, 151, 159, 169
custo, 23, 46, 51, 65, 67, 79, 83, 85, 87, 92,
94, 95, 96
custo de utilizao, 83, 85, 92, 94
241
H N
hardware, xxv, xxvi, 15, 22, 23, 24, 25, 26, normalizao, 27, 28, 29, 31, 46
29, 33, 38, 40
HTTPS, xxix, 130 O
Hypertext Transfer Protocol sobre Secure OAIS, 18, 19, 20, 40, 44
Socket Layer. See HTTPS Object Evaluator, 96, 134
Objecto, 43
I objecto conceptual, 15, 17, 21, 22, 26
incorporao, 19, 40 objecto digital, xxvi, xxvii, 2, 3, 8, 14, 15,
informao, xxv, xxvi, xxvii, 13, 14, 18, 19, 17, 18, 23, 24, 26, 27, 32, 33, 37, 38, 39,
20, 21, 23, 24, 26, 29, 32, 33, 34, 35, 38, 43, 44, 79, 93, 94, 182
40, 41, 42, 43, 44, 45, 46 objecto experimentado, 16
Ingesto, xxvi, 19 objecto fsico, 15, 21, 38, 45
Internet, xxvi, 30, 32, 35, 66, 91, 130, 165, objecto lgico, 15
179, 189, 192 objecto semntico, 15
ISO, 18 objectos, 41
objectos conceptuais, 99
J objectos digitais, xxvi, 15, 21, 22, 24, 26,
Java Virtual Machine, 32 27, 28, 29, 32, 33, 34, 39, 44, 46, 64
JPEG, xxvi, xxix, 17, 28 OCLC/RLG, 41
L P
LDAP, 36 Pacotes de Informao de Disseminao,
21
M PDF, xxvii, xxx, 31, 35, 39, 42, 58, 67, 155,
200, 208, See Portable Document
mquina virtual universal, 32 Format
Mdia do Quadrado do Erro, 159, 162 Pedra de Rosetta, 33, 34
metainformao de preservao, 40 Planeamento de Preservao, 20
migrao, 21, 26, 27, 28, 29, 30, 31, 32, 39, PNG, xxvii, xxx, 28
44, 45, 46 polticas, 20, 29, 39, 44, 46
migrao a-pedido, 27, 29, 31, 46 populao potencialmente utilizadora, 20
migrao para suportes analgicos, 27 Portable Document Format, xxvii, xxx, 102,
Migration Advisor, 72, 74, 97, 110, 118, 131, 201
119, 120, 121, 122, 124, 126, 128, 131, preciso, 169
132, 133, 134, 162, 163, 164, 165, 166, PREMIS, xxx, 14, 40, 41, 43, 44, 77, 97,
167, 168, 169, 170, 171, 172, 173, 184, 179
185, 186, 187, 194, 195 preservao digital, vii, xxvi, 2, 5, 8, 13, 14,
Migration Broker, 89 17, 18, 21, 23, 26, 34, 40, 41, 49, 182
Migration Knowledge Base, 132, 194 propriedades significativas, 38, 39, 65, 97,
MIME, 35 99, 100, 134, 135, 136, 163
Mime Media Types, 34, 35 provenincia, 40
242
R submisso, 19
suporte fsico, xxvii, 15, 17, 23, 32
realidade virtual, xxvi, 14
refrescamento, 23 T
repositrio, 19, 21, 28, 32, 39, 40
Repositrio de Dados, 20 taxionomia de avaliao, 100, 119
Representao, 43 Thibodeau, 21, 45
Representation Information Registry TIFF, xxvii, xxx, 17, 28
Repository, 36 TOM, 30, 35, 91, See Types Object Model
royalties, 29, 110, 113 Typed Objects Model, 30
S V
Sequncia de bits, 43 vdeo, xxvi, 12, 45
Service Registry, 83, 84
Servios, 31 W
similaridade, 99, 101, 107, 108, 109, 110, Web, xxv, xxvii, 14
134, 135, 136, 139, 145, 147, 149, 150, Web service, 31
151, 152, 157, 158, 159, 160, 162, 203, Web services, xxx, 36, 52, 53, 75, 129, 188,
204, 205, 207, 208, 211, 218 189, 190, 195
software, xxv, xxvi, xxvii, 13, 15, 22, 23, 24, Word Object Model, 199
26, 27, 28, 29, 31, 32, 35, 38, 40, 42, 46 WS-BPEL, xxx, 129, 195
243