You are on page 1of 14

2008

Escola Secundria de Emdio


Navarro

[CONJUNTO DE
CARACTERES]

Jorge Andr Almeida Barreto


11 CT1 n.16

Formatao de Texto Tema A

Conjunto de Caracteres 200


8

ndice
Introduo...........................................................................3
ASCII.................................................................................... 4
Definio........................................................................... 4
Histria.............................................................................5
Unicode...............................................................................6
Definio........................................................................... 6
Histria.............................................................................7
Sistemas de escrita suportados.........................................8
Funcionamento.................................................................9
Aplicaes.......................................................................10
Sistemas operativos....................................................10
Correio Electrnico......................................................10
World Wide Web..........................................................11
EBCDIC..............................................................................13
Concluso.......................................................................... 13
Bibliografia........................................................................14

Conjunto de Caracteres 200


8

Introduo
Este trabalho foi realizado por Jorge Barreto da turma de
Cincias e Tecnologias n.1 do 11 Ano no mbito da
disciplina de Aplicaes Informtica B.
Neste trabalho falarei sobre os conjuntos de caracteres na
rea de formatao de texto.
Falarei mais precisamente sobre o ASCII, Unicode e EBCDIC
que foram os principais padres que existiram. Sobre cada
padro ter informao como funciona, em, que utilizado
e em que ano foi criado
Com isto espero redigir um trabalho claro e que tenha todas
as informaes necessrias para tal.

Conjunto de Caracteres 200


8

ASCII
Definio

American
Standard Code
for Information
Interchange
(ASCII) uma
codificao de
caracteres
para
tornar
mais simples a
comunicao
entre
os
computadores
e
troca
de
dados.
Foi
especialmente
baseado
na
lngua inglesa,
pois foi criado
nos E.U.A. E
que por sua
vez os caracteres so representados em nmeros.
Para tal usada uma tabela ASCII onde guardado a
correspondncia de cada letra. Ento esta tabela usa
conjuntos de 7 bits para a representao de 128 caracteres
que mais tarde foi alargada para 8 bits, pela ISO 646
4

Conjunto de Caracteres 200


8
(Internacional Standards Organization) suportando desta
vez 256 caracteres (mais 128 do que o anterior) no entanto
no era suficiente para suportar todos os tipos de
caracteres que existem pelo mundo fora, portanto foi criado
para cada regio uma codificao prpria. Que soluo foi a
norma ISO 8859 que constitudo por vrios sectores
destinados a cada idioma diferente, como o ISO 8859-1
para o Latim o ISO 8859-8 para hebraico

Histria
O American National Standards Institute desenvolveu ASCII
baseado no sistema de codificao anterior, telex. Em
1956, Ivan Idelson, no Reino Unido, tinha proposto a CluffFoster-Idelson codificao de caracteres em 7 faixas papel
fita para um British Standards comisso. Esta foi umas
principais e pioneira influncia da criao do ASCII.
ASCII teve o primeiro uso comercial em 1963 com uma
capacidade de sete bits

Conjunto de Caracteres 200


8

Unicode
Definio
Unicode tambm um padro que permite aos
computadores representar e manipular texto com um
sistema de escrita existente como o Word, Open Office
Publicado no livro The Unicode Standard, o padro suporta
cerca de 100 000 caracteres, um conjunto de diagramas de
cdigos para referncia visual, uma metodologia para
codificao, um conjunto de codificaes padres de
caracteres, um conjunto de arquivos de computador com
dados de referncia, alm de regras para normalizao,
decomposio, ordenao alfabtica.
Actualmente esta tecnologia de codificao est a cargo e
desenvolvido pela Unicode Consortium, uma organizao
sem fins lucrativos que coordena o sistema Unicode, e que
tem como objectivo de substituir esquemas de codificao.
No entanto, o seu desenvolvimento feito em conjunto com
a Organizao Internacional para Padronizao. Ambos
funcionam como codificadores de caracteres, mas o padro
Unicode fornece muito mais informao, como a
organizao alfabtica.
Nos dias de hoje este padro usado por tecnologias
recentes, como o XML, Java e Sistemas Operativos
(Windows, Linux)

Conjunto de Caracteres 200


8

Histria
O Unicode nasceu entre 1986 e 1987, teve origem na
Xerox com objectivo de construir um banco de dados para
relacionar o relacionamento entre caracteres idnticos do
alfabeto
japons,
chins tradicional e
chins simplificado,
a fim de construir
uma
fonte
tipogrfica para caracteres chineses estendidos, que outros
sistemas de codificao no suportavam.
Os tcnicos envolvidos nisto incluam Huan-mei Liao,
Nelson Ng, Dave Opstad e Lee Collins.
At esta poca os utilizadores da Xerox usavam o sistema
JIS para estender o conjunto original de caracteres
chineses.
Ao mesmo tempo, a empresa Apple deu a proposta da
existncia de um conjunto universal de caracteres.
O grupo da Xerox comea uma discusso sobre questes
multilingues com Mark Davis, da Apple. E J em Dezembro
de 1987 declarado a existncia e uso do Unicode.
A partir de 1988 comeam as discusses sobre uma largura
fixa de bytes para os cdigos, e uma das primeiras
propostas o sistema de Mark Davis com uma largura fixa
de 16 bits com o nome "High Text", em oposio a "Low
Text" para o padro ASCII.
Em Abril, os primeiros prottipos comearam a ser
construdos na Apple, decidindo-se incorporar suporte ao
7

Conjunto de Caracteres 200


8
padro no TrueType, o padro de fontes tipogrficas da
empresa.

Janeiro de
1989

Metaphor implementa uma codificao de 16


bits para suportar a internacionalizao.
Inmeras reunies com a presena da
Metaphor, Sun, Adobe, HP e NeXT que
formam mais tarde a uma comisso digna.

Setembro de
1989

O grupo acima decidiu usar padres ISO j


existentes para ordenaes de sistemas de escrita

Outubro de
1989

Este padro apresentado Microsoft e IBM, em


cooperao com o TrueType da Apple

Janeiro 1990

Microsoft junta-se s reunies do grupo Unicode. E


fundada a Unicode Consortium nos E.U.A,
Califrnia.

Sistemas de escrita suportados


Actualmente o sistema Unicode cobre quase todas as
lnguas em uso.
Alfabeto rabe

Alfabeto birmans

Alfabeto
armnio

Alfabeto fontico
internacional (AFI)

Alfabeto bengali

Alfabeto hebraico

Alfabeto cirlico

Alfabeto latino

Alfabeto
georgiano
8

Caracteres

Alfabeto
siraco
Alfabeto
tailands
Alfabeto
tibetano
Braille

Conjunto de Caracteres 200


8
Alfabeto grego

chineses

O padro adicionou outros sistemas de escrita e cobrir


mais, incluindo sistemas histricos ou extintos.

Funcionamento
O armazenamento dos cdigos Unicode baseado no
processamento de texto. Infelizmente apresenta um
problema que a maioria dos programas de computador
escritos no mundo ocidental utilizar somente codificaes
de 8 bits (como o padro ASCII), j que o suporte ao
Unicode comeou somente nos ltimos anos.
A lgica interna de muitos programas permite somente 8
bits para cada carcter, tornando impossvel o uso de mais
de 256 cdigo] sem um processamento especial.
Programas de 16-bit suportam somente dezenas de
milhares de caracteres. Por outro lado, o Unicode j definiu
mais de cem mil caracteres codificados.
Investigadores deste sistema j sugeriram diversos
mecanismos para implementar o Unicode, a escolha de
cada um depende do espao de armazenamento disponvel,
compatibilidade de cdigo fonte e compatibilidade com
outros S.O
O Unicode define dois mtodos de organizao, UTF
(Formato de Transformao Unicode, do ingls Unicode
Transformation Format) e UCS (Conjunto Universal de
Caracteres, do ingls Universal Character Set).
9

Conjunto de Caracteres 200


8
Os nmeros associados aos nomes indicam o nmero de
bits por cdigo (no caso de UTF) ou o nmero de bytes por
cdigo (no caso de UCS). UTF-8 e UTF-16 so possivelmente
as mais usadas.

Aplicaes
Sistemas operativos

O Unicode tornou-se o esquema mais usado para o


processamento interno de texto, e por vezes tambm para
armazenamento. As primeiras implementaes desse
sistema foram o Windows NT (e seus descendentes
Windows 2000,
Windows XP e
Windows Vista). O
Unicode tambm foi
implementado nas
seguintes
plataformas: Java e
NET e assim como o
MAC OS X.

Correio Electrnico

Windows XP com o chins tradicional


instalado

Vrias aplicaes de correio electrnico tm suporte a


Unicode no corpo das mensagens. Entretanto, na maioria
nunca enviada a mensagem em Unicode por padro, e
poucos sistemas so configurados para exibir todo o
padro.
10

Conjunto de Caracteres 200


8
O suporte Unicode para o cabealho de e-mails mais
problemtico, pois diversos padres devem ser usados para
lidar com dados no ASCII.
O RFC 2047 fornece suporte para a codificao no ASCII
dos campos "assunto" e "e-mail". O RFC 3490 fornece
suporte para a codificao do domnio do endereo de email (a parte posterior ao "@"). O nome da caixa de e-mail
(a parte anterior ao "@") limitado a um subconjunto de
caracteres ASCII visveis, assim como definido pelo RFC
2822.
No suporte Unicode para o corpo de e-mails, mensagens
HTML podem usar entidades HTML para usar qualquer
carcter
Unicode
mesmo que a
codificao do
e-mail
no
esteja
em
Unicode.
Para
mensagens em
texto
puro,
deve-se
usar
MIME (sistema
de codificao
usado nos emails).

Um email em chins

World Wide Web

Os browsers actuais j suportam diversas sub-codificaes


UTF, especialmente UTF-8. Os problemas de visualizao
derivam principalmente de questes relacionadas com
fontes tipogrficas. O Internet Explorer, em particular, no
11

Conjunto de Caracteres 200


8
representa diversos cdigos Unicode excepto quando
indicado explicitamente qual a fonte que contm os
smbolos.
Todas as recomendaes W3C (a organizao que padroniza
a WWW) usam o Unicode como o conjunto de caracteres de
documentos, sem uma codificao especfica, desde o
HTML 4.0; anteriormente utilizava-se o conjunto ASCII 6-bit
ISO-8859-1.
Apesar de regras sintcticas poderem afectar a ordem em
que os caracteres podem aparecer, tanto documentos HTML

Firefox com o chins simplificado.

quanto XML (incluindo o XHTML), por definio, suportam


caracteres da maioria dos cdigos Unicode.
Os caracteres so armazenados em XML e HTML na forma
binria do cdigo Unicode (desde que a codificao em uso
suporte o cdigo). No outro lado, pode-se armazen-los
como referncias numricas baseadas no seu respectivo
cdigo, seguindo o formato &#valor; (no qual "valor" o
cdigo em notao decimal) ou &#xvalor; (cdigo em
notao hexadecimal; note o "x" antes do valor);
12

Conjunto de Caracteres 200


8
Por exemplo, as referncias Δ, Й, ק, م,
๗, あ, 叶, 葉 e 냻 so visualizadas
nos navegadores respectivamente como: , , ,, , , ,
e .

EBCDIC
Extended Binary Coded Decimal Interchange Code foi
desenvolvido pela iBM, tambm de 8 bits utilizado
obviamente no processamento de texto, mas este padro
surgiu com o propsito de controlar impressoras e
comunicaes. Este cdigo surgiu com a IBM 360 em 1963
e ainda usado por esta empresa, mas para computadores
de mdio porte.

Concluso
Com este trabalho fiquei a perceber como funcionavam
estes conjuntos de caracteres e a sua histria. No qual
gostei mais do Unicode.
As principais dificuldades que me surgiram foram
particularmente na pesquisa de informao principalmente
no EBCDIC, pois a informao existente muito pouca.

13

Conjunto de Caracteres 200


8

Bibliografia
Fonseca, D., Pacheco, D., Marques, F., & Soares, R. (2006).
Aplicaes Informtcas B. Porto: Porto Editora.

http://en.wikipedia.org/wiki/ASCII#History
http://www.webopedia.com/TERM/A/ASCII.html
http://pt.wikipedia.org/wiki/Unicode
http://en.wikipedia.org/wiki/EBCDIC
http://unicode.org/standard/WhatIsUnicode.html
http://en.wikipedia.org/wiki/EBCDIC
http://en.wikipedia.org/wiki/Ascii

14

You might also like