You are on page 1of 86

ANLISE MULTIDIMENSIONAL DA PRODUO CIENTFICA EM CINCIA DA COMPUTAO

MARCO AURLIO MODESTO BARRETO

ANLISE MULTIDIMENSIONAL DA PRODUO CIENTFICA EM CINCIA DA COMPUTAO


Dissertao apresentada ao Programa de Ps-Graduao em Cincia da Computao do Instituto de Cincias Exatas da Universidade Federal de Minas Gerais como requisito parcial para a obteno do grau de Mestre em Cincia da Computao.

Orientador: Nivio Ziviani

Belo Horizonte Julho de 2009

2009, Marco Aurlio Modesto Barreto. Todos os direitos reservados.

Barreto, Marco Aurlio Modesto M1234a Anlise Multidimensional da Produo Cientca em Cincia da Computao / Marco Aurlio Modesto Barreto.  Belo Horizonte, 2009 xviii, 68 f. : il. ; 29cm Dissertao (mestrado)  Universidade Federal de Minas Gerais Orientador: Nivio Ziviani 1. Armazns de Dados. 2. Bancos de Dados. 3. Bibliometria. I. Ttulo.

CDU 519.6*82.10

minha me (in memorian).

vii

Resumo
O nmero de programas de ps-graduao em Cincia da Computao no Brasil cresceu mais de 200% nos ltimos doze anos, tendo aumentado de 17 para 50 programas. Em face desse crescimento importante avaliar como a qualidade da produo cientca desses programas se compara de programas congneres em outros pases. O

objetivo desta dissertao realizar uma anlise da produo cientca em Cincia da Computao, a partir de dados coletados sobre os oito principais programas no pas de acordo com dados ociais da CAPES para o trinio 2004-2006 e 22 dos mais importantes programas norte-americanos e europeus. Para isso, o primeiro passo foi projetar e implementar um armazm de dados de publicaes cientcas dos 30 programas para permitir anlises multidimensionais de dados bibliogrcos. O armazm de dados proporciona uma anlise dos dados sob diversas dimenses, o que permite obter estatsticas sobre os programas de ps-graduao abordados pelo estudo, tais como: mdia de publicaes por docente por programa, distribuio das publicaes entre as subreas da Cincia da Computao, subreas mais populares por programa, mdia de citaes por artigo por programa, indicadores de produtividade por docente, por programa ou por pas, entre outras. Dessa forma, o arcabouo proposto permitiu a anlise do perl de publicao dos programas brasileiros em relao ao perl dos principais programas da Amrica do Norte e da Europa. Os resultados mostram que a produo cientca dos programas nacionais, representada por artigos publicados em peridicos e conferncias internacionais, comparvel em volume, qualidade e impacto a de alguns dos principais programas da Amrica do Norte e da Europa.

ix

Abstract
The amount of Computer Science graduate programs in Brazil has increased over 200% in the past twelve years, from 17 to 50 programs. In light of this growth, it is important to assess how the quality of the scientic production of these programs compares to their equivalent in other countries. The objective of this dissertation is to perform an analysis of the Computer Science scientic production, using data collected from the eight major programs in the country according to ocial data from CAPES for the triennium 2004-2006, and 22 of the most important programs in North America and Europe. Therefore, the rst step was to design and implement a data warehouse of scientic publications from the 30 programs to allow multidimensional analysis of bibliographic data. The data warehouse provides an opportunity for analysis using

several dimensions, which allows the acquisition of statistical data regarding the graduate programs related in this study, such as: average of publications per professor per program, publications distribution among subareas of Computer Science, most popular subareas per program, average of citations per article per program, productivity measurements per professor, per program or per country, among others. Thus, the

data warehouse proposed allowed the analysis of the Brazilian programs publication prole, compared to major programs in North America and Europe. Results demonstrate that national scientic production, represented by articles published in journals and international conferences, is comparable in volume, quantity and impact to some of the major programs in North America and Europe.

xi

Lista de Figuras
1.1 2.1 2.2 2.3 2.4 3.1 3.2 3.3 4.1 4.2 4.3 4.4 4.5 Nmero de programas em Cincia da Computao no Brasil. . . . . . . . . Exemplo de um esquema dimensional de uma base bibliogrca. . . . . . . Extrao, transformao e carga dos dados. Esquema estrela. . . . . . . . . . . . . . . . . . 1 13 15 17 18 24 25 27 30 31 32 33

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Exemplo de hierarquia para a dimenso tempo.

Processo de construo da base de dados de publicaes.

Pgina com listagem dos docentes do programa. . . . . . . . . . . . . . . . Interface de consulta do Google Scholar. . . . . . . . . . . . . . . . . . . . . . . . . . . .

Esquema relacional simplicado para representar o problema.

Esquema dimensional simplicado criado a partir do esquema relacional. Esquema relacional completo que representa o problema.

. . . . . . . . . .

Esquema dimensional completo do problema. . . . . . . . . . . . . . . . . . Criao do fato.

script no Pentaho Data Integration para gerar os dados da tabela


36 37 37 38 38 39

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.6 4.7 4.8 4.9

Cdigo utilizado para gerar os dados da tabela fato. . . . . . . . . . . . . . Tela do programa utilizado para modelar os cubos (Cube Designer). . . . . Tela do programa utilizado para editar os cubos e consultas (Eclipse). . . . Consultas disponibilizadas no ambiente Web gerado. . . . . . . . . . . . . . . . . . .

4.10 Consulta criada na ferramenta OLAP com dados bibliogrcos.

4.11 Grco gerado a partir da consulta Nmero de Artigos por Programa (2006). 40 4.12 Exemplo de 5.1

Drill Through.

. . . . . . . . . . . . . . . . . . . . . . . . . . .

41

Mdia de Publicaes por Docente no Trinio 2004-2006 dos Programas Analisados (Qualis AI). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 47 49

5.2 5.3

Citaes por artigo no perodo 2004-2006.

ndice h mdio por docente do programa - perodo 2004-2006. xiii

5.4 5.5 5.6 5.7 5.8 5.9

ndice h por programa - perodo 2004-2006.

. . . . . . . . . . . . . . . . .

49 51 54 55 56

Consulta criada no ambiente para anlise das subreas. . . . . . . . . . . . Subreas - Programas Brasileiros. Filtros: Qualis AI, Anos 2004-2006. . . . Subreas - Todos os programas. Filtros: Qualis AI, Anos 2004-2006. . . . . Subreas - Programas Europeus. Filtros: Qualis AI, Anos 2004-2006. . . .

Subreas - Programas norte-americanos. Filtros: Qualis AI, Anos 2004-2006. 57

xiv

Lista de Tabelas
2.1 2.2 3.1 3.2 5.1 Exemplo da composio do fato publicao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 20 26 28 Fato publicao sumarizado em nveis mais altos.

Corpus de publicaes gerado. . . . . . . . . . . . . . . . . . . . . . . . . . Taxa de artigos encontrados no Google Scholar. . . . . . . . . . . . . . . .

Mdia de Publicaes por Docente no Trinio 2004-2006 dos Programas Analisados (Qualis AI). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 46 48 50 53 66

5.2 5.3 5.4 5.5 A.1 A.2

Citaes por artigo no perodo 2004-2006 . . . . . . . . . . . . . . . . . . . ndice h mdio por docente do programa - perodo 2004-2006 . . . . . . . . ndice h por programa - perodo 2004-2006 . . . . . . . . . . . . . . . . . . Principais subreas por programa de ps-graduao. . . . . . . . . . . . . . Programas brasileiros mais produtivos por subrea (perodo 2004-2006). . . Programas da Amrica de Norte mais produtivos por subrea (perodo 20042006). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

67 68

A.3

Programas da Europa mais produtivos por subrea (perodo 2004-2006).

xv

Sumrio
Resumo Abstract Lista de Figuras Lista de Tabelas 1 Introduo
1.1 1.2 1.3 1.4 1.5 1.6 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

ix xi xiii xv 1
1 3 4 6 7 9

Contribuies

Indicadores Bibliomtricos . . . . . . . . . . . . . . . . . . . . . . . . . Estrutura da Dissertao . . . . . . . . . . . . . . . . . . . . . . . . . .

2 Uma Viso Geral Sobre Armazns de Dados


2.1 Anlise Multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 2.1.2 2.2 Esquema Dimensional . . . . . . . . . . . . . . . . . . . . . . .

11
12 12 14 16 17 19 20 21

ETL - Extrao, Transformao e Carga dos Dados . . . . . . .

Esquema de Dados para o Armazm de Dados . . . . . . . . . . . . . . 2.2.1 2.2.2 2.2.3 Propriedades das Dimenses . . . . . . . . . . . . . . . . . . . . Propriedades dos Fatos . . . . . . . . . . . . . . . . . . . . . . . Cubos de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3

Consultas OLAP

3 Dados Utilizados
3.1 3.2 Dados do Projeto Perl-CC . . . . . . . . . . . . . . . . . . . . . . . . Docentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xvii

23
23 24

3.3 3.4 3.5

Publicaes

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25 26 28

Citaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 Construo do Armazm de Dados


4.1 Modelagem do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 4.1.2 4.2 4.3 Esquema Simplicado . . . . . . . . . . . . . . . . . . . . . . .

29
29 29 31 32 35 35 35 36 40

Esquema Completo . . . . . . . . . . . . . . . . . . . . . . . . .

Estudo de Ferramentas . . . . . . . . . . . . . . . . . . . . . . . . . . . Implementao do Armazm de Dados 4.3.1 4.3.2 4.3.3 . . . . . . . . . . . . . . . . . .

Construo da Tabela Fato . . . . . . . . . . . . . . . . . . . . . Construo dos Cubos . . . . . . . . . . . . . . . . . . . . . . .

Gerao das Consultas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.4

Consideraes Finais

5 Anlise dos Dados


5.1 5.2 5.3 5.4 Anlise do Nmero de Publicaes Citaes Recebidas pelos Artigos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43
43 45 51 55

Anlise das Subreas em Cincia da Computao Consideraes Finais

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

6 Concluses e Trabalhos Futuros Referncias Bibliogrcas Apndice A Tabelas

59 61 65

xviii

Captulo 1 Introduo
1.1 Motivao
Segundo dados da CAPES (Coordenao de Aperfeioamento de Pessoal de Nvel Superior), o nmero de programas de ps-graduao em Cincia da Computao no Brasil cresceu mais de 200% nos ltimos doze anos, conforme ilustrado na Figura 1.1. Em face desse crescimento torna-se interessante fazer uma avaliao qualitativa da produo e da insero internacional dos principais programas da rea no Brasil, de modo que se possa estabelecer o papel que a rea vem desempenhando no desenvolvimento cientco e tecnolgico do pas. Em vista disso, foi criado na Universidade Federal de Minas Gerais (UFMG) um grupo para estudar o perl da produo cientca dos principais programas brasileiros de modo a compar-los com seus congneres da Amrica do Norte e da Europa.

Figura 1.1.

Nmero de programas em Cincia da Computao no Brasil.


1

Captulo 1. Introduo

Como consequncia nasceu o Projeto Perl-CC , cujo objetivo principal comparar a produo cientca dos oito principais programas da rea do pas de acordo com a avaliao da Capes para o trinio 2004-2006 com a produo de vinte e dois dos mais importantes programas da Amrica do Norte e da Europa. Para realizar o estudo, o Projeto Perl-CC utiliza a

DBLP Computer Science Bibliography 2 ,

biblioteca digital

que contempla o maior volume de publicaes da rea de Cincia da Computao em todo o mundo [Petricek et al., 2005; Ley, 2002]. Um armazm de dados (do ingls

data warehouse ) um repositrio utilizado para

armazenar dados relativos s atividades de uma organizao, de forma consolidada. O desenho desse repositrio favorece os relatrios, a anlise de grandes volumes de dados e a obteno de informaes estratgicas que podem facilitar a tomada de deciso. O armazm de dados permite uma anlise dos dados sob diversas perspectivas ou dimenses, de forma exvel e bastante gil. A facilidade de analisar os dados sob

diversas dimenses leva ao conceito de anlise multidimensional. A ferramenta mais popular para explorao de um armazm de dados a

Online Analytical Processing

(OLAP) ou Processo Analtico em Tempo Real [Kimball et al., 2008]. O objetivo desta dissertao realizar uma anlise multidimensional da produo cientca em Cincia da Computao. O primeiro passo foi projetar e implementar

um armazm de dados de publicaes cientcas em Cincia da Computao para permitir anlises multidimensionais dos dados gerados pelo Projeto Perl-CC. A partir do armazm de dados podem ser obtidas diversas estatsticas sobre os 30 programas abordados pelo estudo, tais como: mdia de publicaes por docente por programa, distribuio das publicaes entre as subreas da Cincia Computao, subreas mais populares por programa, mdia de citaes por artigo por programa, indicadores de produtividade por docente, por programa ou por pas, entre outras. Neste contexto, foram coletados dados bibliogrcos da DBLP para cada docente relacionado aos 30 programas considerados no Projeto Perl-CC. A seguir foi utilizado o repositrio de publicaes Google Scholar

para obter o nmero de citaes recebidas

pelos artigos, o qual foi adicionado a um banco de dados relacional. Finalmente, os dados consolidados do banco de dados relacional foram transformados em um armazm de dados para permitir uma anlise multidimensional dos dados, de forma tempo real.

online

e em

1 http://latin.dcc.ufmg.br/perlcc 2 http://dblp.uni-trier.de 3 http://scholar.google.com.

Biblioteca digital que contempla publicaes de todas as reas.

1.2.

Trabalhos Relacionados

1.2 Trabalhos Relacionados


O estudo do perl de publicao em Cincia da Computao tem recebido uma certa ateno nos ltimos dois anos. Em Laender et al. [2008], a produo cientca de programas brasileiros de ps-graduao em Cincia da Computao comparada com programas congneres na Amrica do Norte e na Europa. Para cada um dos programas, foram coletados da DBLP os dados referentes produo cientca de seus corpos docentes. A pesquisa conclui que a produo cientca da rea fortemente focada em artigos, publicados em anais de conferncias em uma relao superior a dois artigos em conferncia para um em peridico, tanto aos programas nacionais quanto aos internacionais. Alm disso, o trabalho conclui que os programas brasileiros tm desempenho semelhante aos programas norte-americanos e europeus em termos de publicaes cientcas e nmero de doutores formados. Menezes et al. [2008] analisam o perl de publicao cientca da rea utilizando a rede de colaborao formada entre os seus pesquisadores. O artigo mostra, por exemplo, que a colaborao mtua entre os pesquisadores europeus menor que a dos brasileiros e a dos norte-americanos. A medio do coeciente de aglomerao

mostrou diferen-

as na diversidade dos relacionamentos da rede formada pelas subreas. Numa linha prxima, Menezes et al. [2009] analisam e mesma rede e faz uma anlise temporal das publicaes das trs regies estudadas (Brasil, Amrica do Norte e Europa). O estudo mostra a evoluo do nmero de pesquisadores por artigo, o crescimento do tamanho da rede e as divergncias das redes formadas pelos novos campos e pelos campos tradicionais da rea. Um estudo semelhante foi feito para as reas de Biologia, Fsica e Matemtica [Newman, 2004]. Nascimento et al. [2003] analisa o grafo de colaborao obtido por todos os artigos publicados entre 1975 e 2002 na conferncia ACM SIGMOD (

International Conference on Management of Data ).

Entre os resultados, so

identicados os autores mais prximos a todos os demais. Alm disto, mostrado que a rede formada pelos autores da conferncia SIGMOD mais um exemplo de grafo que segue o fenmeno

small world 5 .

Martins et al. [2009] apresentam um mtodo para classicao automtica da qualidade de conferncias utilizando tcnicas de aprendizado de mquina. Tal estudo utilizou tcnicas de aprendizado de mquina que testaram o uso de vrias variveis para a soluo como o nmero de citaes, o nmero de submisses das conferncias,

que mede a conectividade da rede. Determinado pela razo entre o nmero de conexes entre vizinhos comuns a um n de referncia, dividido pelo nmero de possveis conexes entre os vizinhos comuns ao n. 5 Caractersticas de redes com alto grau de agrupamento (conectividade) e baixa distncia mdia entre os vrtices, independente do tamanho e da densidade da rede.

4 Mtrica

Captulo 1. Introduo

as taxas de aceitao, a tradio da conferncia e a reputao dos membros do comit de programa. conferncia. Arruda et al. [2009] fazem um estudo sobre o perl dos pesquisadores brasileiros em Cincia da Computao. Basicamente analisam a produo dos pesquisadores em termos da localizao geogrca dos seus programas e do sexo. Foram identicadas Concluiu-se que as mais importantes so as citaes e a tradio da

subreas com uma presena feminina expressiva, como por exemplo, Interao HumanoComputador e Inteligncia Articial e subreas predominantemente masculinas como Hardware e Redes de Computadores. Nas subreas com presena feminina, concluiu-se que as pesquisadoras tm mais publicaes que os pesquisadores. Nas outras reas, a diferena no foi estatisticamente signicativa. Em relao regio, concluiu-se que os pesquisadores esto concentrados no Sudeste e Sul do Brasil, regies que tambm obtm as maiores taxas de publicao por pesquisador. Wainer et al. [2009], em um trabalho complementar do mesmo grupo de pesquisa, fazem um estudo comparativo sobre publicaes em Cincia da Computao no Brasil e em outros pases, medido pelo nmero de artigos em peridicos e conferncias indexados pelo ISI (

Institute for

Scientic Information ).
2006].

Entretanto, como veremos mais adiante, esta base no se

mostra adequada para estudar as publicaes em Cincia da Computao [Mattern,

1.3 Objetivos
O objetivo deste trabalho analisar o perl de publicao cientca da rea de Cincia da Computao, comparando-o com o perl de programas de grande prestgio internacional da Amrica do Norte e da Europa. So analisados o nmero de publicaes por docente, a qualidade das publicaes e diversas mtricas de citaes. Tambm so analisadas a distribuio das subreas da Cincia da Computao entre os programas analisados. O objetivo deste estudo analisar o comportamento dos programas brasileiros em relao ao comportamento dos principais programas da Amrica do Norte e da Europa, ressaltando as principais diferenas entre as subreas. Para realizar o estudo dos dados so utilizadas tcnicas de anlise multidimensional por meio da implementao de um armazm de dados de publicaes cientcas. Um armazm de dados fornece um mtodo para se acessar, visualizar e analisar uma grande quantidade de dados com alta exibilidade e desempenho, alm de disponibilizar recursos de criao automtica de grcos e exportao dos dados para uma planilha eletrnica. A principal vantagem do ambiente proposto permitir a obten-

1.3.

Objetivos

o de respostas rpidas a consultas de natureza tipicamente dimensional, permitindo uma anlise exvel, gil e mais rica dos dados gerados. utilizao do ambiente proposto so: Algumas das vantagens da

Maior exibilidade para analisar os dados, permitindo diferentes vises; Obteno de informao mais rica; Facilidade para criao de consultas sem depender de um especialista que conhea a linguagem SQL ;

Gerao automtica de grcos a partir dos ltros aplicados e das vises selecionadas;

Flexibilidade na granularidade dos dados, permitindo tanto a anlise macro (alto nvel) dos dados, como por exemplo o nmero de publicaes por professor, quanto a anlise micro (baixo nvel), como por exemplo, a listagem de todas as X publicaes do professor Y;

Exportao dos dados por meio de planilhas eletrnicas, permitindo que os usurios possam manipul-los para novas anlises.

Em relao s dimenses disponibilizadas para anlise, podemos citar:

Programa de ps-graduao (Ex.: UFMG, Princeton, Paris VI). Localizao geogrca do programa (Ex.: Brasil, Amrica do Norte ou Europa). Docente do programa (Ex.: Virglio Almeida). Autor de um artigo (pode ou no ser um docente dos programas analisados)(Ex.: Cristiano Cazita).

Artigo publicado (Ex.: Characterizing a spam trac). Veculo onde um artigo foi publicado (Ex.: ACM SIGCOMM). Classicao Qualis do veculo de publicao (Ex.: AI ). Ano da publicao (Ex.: 2004).

Query Language ) - Linguagem de consulta declarativa para bancos de dados relacional. da qualidade do veculo de publicao fornecida pela CAPES. AI corresponde a um veculo de alta (A) qualidade e de circulao internacional (I)
7 Avaliao

6 Structured

Captulo 1. Introduo

O ambiente gerado foi disponibilizado na Web , sendo facilmente adaptvel para anlise de outras bases de dados. Este trabalho utilizou ferramentas gratuitas e de

cdigo aberto, por se adequarem melhor aos recursos existentes no laboratrio onde o ambiente foi disponibilizado e por possurem, em geral, custos mais baixos.

1.4 Contribuies
Conforme j mencionado, a principal contribuio deste trabalho uma anlise multidimensional do perl de publicao dos programas brasileiros em relao ao perl dos principais programas da Amrica do Norte e da Europa, ressaltando as principais diferenas entre as subreas destes programas. Podemos citar as seguintes contribuies especcas: 1. Construo de um armazm de dados de publicaes cientcas disponibilizado na Web (vide Captulo 4). A construo gerou um ambiente com uma base com grande qualidade dos dados, alm de permitir a obteno de diversas estatsticas sobre os 30 programas abordados com exibilidade de anlise. 2. Anlise do perl de publicao sob a tica do nmero de publicaes por programa, comparando os programas brasileiros, os norte-americanos e os europeus. Discutimos esta anlise na Seo 5.1. Conclumos que a produo cientca dos programas nacionais, representada por artigos publicados em peridicos e conferncias internacionais, comparvel em volume e qualidade a de alguns dos principais programas da Amrica do Norte e da Europa. 3. Anlise das mtricas de citaes das publicaes dos programas. Esta discusso apresentada na Seo 5.2. O nmero de citaes por artigo para os dois programas brasileiros mais bem colocados comparvel ao impacto de alguns dos principais programas da Amrica do Norte e da Europa. Considerando o ndice h, os oito programas brasileiros possuem um ndice h compvel a de vrios programas da Amrica do Norte e Europa. 4. Anlise da distribuio das subreas dos programas analisados. detalhado na Seo 5.3. Este tpico

Foi possvel notar que cada programa especializa-se

numa determinada subrea e que a distribuio das subreas heterognea. Alm disto, as reas mais tradicionais da Cincia da Computao so as que possuem mais artigos: Arquitetura de Computadores, Redes de Computadores, Bancos de Dados, Algoritmos e Inteligncia Articial.

8 http://www.latin.dcc.ufmg.br:8080/perlccDW/

1.5.

Indicadores Bibliomtricos

1.5 Indicadores Bibliomtricos


Indicadores bibliomtricos vm sendo empregados para medir a atividade cientca com base na anlise estatstica dos dados quantitativos obtidos da literatura cientca e tcnica. Esses indicadores tm sido usados para quanticar caractersticas como a qualidade, a importncia e o impacto de artigos, peridicos, autores e instituies na pesquisa. Por meio de indicadores bibliomtricos possvel determinar, entre outros aspectos:

O crescimento de qualquer campo da cincia, segundo a variao cronolgica do nmero de trabalhos publicados nesse campo;

O envelhecimento dos campos cientcos [Alvarado, 2009], segundo a vida mdia das referncias de suas publicaes;

A evoluo cronolgica da produo cientca, segundo o ano de publicao dos documentos;

A produtividade dos autores ou instituies, medida pelo nmero de seus trabalhos publicados;

A colaborao entre os pesquisadores ou instituies, medida pelo nmero de autores por trabalho ou centros de investigao que colaboram;

O impacto ou visibilidade das publicaes dentro da comunidade cientca internacional, medido pelo nmero de citaes que recebem em trabalhos posteriores;

A anlise e avaliao das fontes difusoras dos trabalhos, por meio de indicadores de impacto das fontes;

A disperso das publicaes cientcas entre as diversas fontes e outros.

Um dos indicadores bibliomtricos mais utilizados o fator de impacto [Gareld & Merton, 1979], tambm chamado de SCI ( (

Science Citation Index ),

criado pelo ISI

Institute for Scientic Information ).

Esse indicador tem sido utilizado durante dca-

das pela comunidade acadmica para avaliar peridicos em diversos campos cientcos, incluindo a rea de Cincia da Computao. O fator de impacto oferece uma forma de avaliar ou comparar a importncia relativa dos artigos de um peridico em relao a artigos de outros peridicos do mesmo campo, sendo aplicado sobre o conjunto de artigos de um peridico para avaliar indiretamente esse peridico. O clculo do fator

Captulo 1. Introduo

de impacto feito dividindo-se o nmero de citaes de artigos publicados em um determinado ano em artigos dos dois anos anteriores, pelo nmero de artigos publicados nesses dois anos. Por exemplo, o fator de impacto de um peridico X em 2004 determinado pela soma das citaes recebidas em 2004 dos artigos publicados em 2002 e 2003. Assim, se esse peridico publicou 542 artigos em 2002 e 543 em 2003, e em 2004 esses artigos receberam 4.122 citaes, o fator de impacto deste peridico 3,799 (4.122 / (542 + 543)). Uma das desvantagens do fator de impacto sua cobertura limitada para determinadas reas como a Cincia da Computao. De acordo com Mattern [Mattern, 2006], os dados do ISI no se mostram adequados para estudos bibliomtricos na rea de Cincia da Computao j que focam principalmente as reas de Cincias Naturais e Cincias da Vida, e abrangem um nmero reduzido de conferncias. Ainda segundo Mattern [Mattern, 2006], um levantamento feito com base na produo cientca de 2003 do ETH de Zurique mostrou que o banco de dados do ISI cobria apenas 14% das publicaes em Cincia da Computao daquela instituio enquanto a cobertura nas reas de Fsica, Qumica e Biologia era bem maior, alcanando patamares em torno de 60%. O ndice h (do ingls h-index) outro indicador proposto para quanticar a produtividade e o impacto de cientistas baseando-se nos seus artigos mais citados. Foi proposto em 2005 por Jorge E. Hirsch como uma ferramenta para determinar a qualidade relativa dos trabalhos de fsicos tericos [Hirsch, 2005]. A vantagem do

ndice h em relao a outras mtricas de citaes que ele no inuenciado por poucos artigos de grande visibilidade. O ndice determinado pelo nmero de artigos com citaes maiores ou iguais a esse nmero. Por exemplo: um pesquisador com h = 5 tem 5 artigos que receberam 5 ou mais citaes; um programa de ps-graduao com h = 20 tem 20 artigos com 20 ou mais citaes; e assim por diante. O ndice h tambm pode ser aplicado para estimar a produtividade e o impacto de um grupo de cientistas, um programa de ps-graduao, um pas, e assim por diante. Apesar de ainda ter que provar seu valor e suplantar outras mtricas tradicionais, como a enumerao do nmero de artigos, enumerao do nmero de citaes e fator de impacto dos peridicos nos quais se publica, o ndice h est ganhando cada vez mais adeptos. Hirsch comparou o ndice h com outros ndices comumente usados para analisar a produo cientica de um pesquisador e fez as seguintes observaes:

1. Nmero total de artigos. Vantagem: mede a produtividade. Desvantagem: no mede a importncia e o impacto de cada artigo.

1.6.

Estrutura da Dissertao

2. Nmero total de citaes.

Vantagem:

mede o impacto total do pesquisador.

Desvantagem: pode ser insuado por um pequeno nmero de artigos de grande visibilidade, os quais podem no ser representativos do indivduo se ele um co-autor com vrios outros autores nos artigos. 3. Citaes por artigo. Vantagem: permite a comparao de cientistas de diferentes idades. Desvantagem: privilegia a baixa produtividade e penaliza a alta produtividade. Alguns autores ressaltam que o ndice h, quando tomado de modo absoluto, no pode ser usado para comparar pesquisadores de diferentes reas. Um ndice h

considerado bom em determinada rea, em outras pode no ser to bom assim ou mesmo ser considerado ruim. Os maiores valores de ndice h so encontrados entres pesquisadores ligados s cincias da vida. Alm do fator de impacto e do ndice h, vrios outros indicadores aparecem propostos na literatura, como por exemplo, o

Weighted PageRank

eo

G-index.

Entretanto,

uma descrio e discusso desses indicadores foge ao escopo desta dissertao e podem ser encontradas em Martins [2009].

1.6 Estrutura da Dissertao


Esta dissertao est estruturada da seguinte forma. O Captulo 2 apresenta uma viso geral sobre armazns de dados. O Captulo 3 detalha os dados sobre publicaes utilizados neste trabalho. O Captulo 4 descreve a construo do armazm de dados de publicaes cientcas. O Captulo 5 analisa os dados por meio do ambiente construdo. Finalmente, as concluses e os trabalhos futuros so apresentados no Captulo 6.

Captulo 2 Uma Viso Geral Sobre Armazns de Dados


Uma importante questo estratgica para o sucesso de uma organizao est relacionada com a sua capacidade de analisar e reagir rapidamente a mudanas nas condies de seus empreendimentos. Para que isso ocorra, torna-se necessrio que a organizao disponha de uma quantidade maior de informao qualicada. Os avanos na rea de tecnologia da informao esto possibilitando que essas organizaes possam manipular um grande volume de dados. As informaes encontram-se geralmente espalhadas por diferentes sistemas e exigem um esforo considervel para serem integradas e poderem dar apoio efetivo tomada de deciso. Embora tenham ocorrido avanos tecnolgicos nas reas de

armazenamento e manipulao de dados, ainda se observa uma enorme decincia na obteno de informaes estratgicas que possam auxiliar o processo decisrio [Kimball et al., 2008]. Em vista disso, tecnologias que suportam a anlise de informaes vm ganhando destaque na atualidade. Uma delas o processo de armazenagem de dados (do ingls

data warehousing ), que oferece s organizaes uma maneira exvel e eciente de obter
informaes a partir dos dados que apoiem seus processos de tomada de deciso. Com o objetivo de apresentar uma viso geral desses conceitos, este captulo est estruturado como se segue. A Seo 2.1 enfatiza os principais conceitos relacionados a armazm de dados. A Seo 2.2 mostra os esquemas de dados utilizados em armazm de dados. Real. 11 A Seo 2.3 detalha as consultas OLAP - Processo Analtico em Tempo

12

Captulo 2. Uma Viso Geral Sobre Armazns de Dados

2.1 Anlise Multidimensional


Os sistemas de gerenciamento de bancos de dados evoluram bastante nas ltimas dcadas, agregando funes ao seu objetivo principal de manter e disponibilizar dados para as aplicaes computacionais. Ao mesmo tempo, ocorreu a especializao dos

sistemas de gerenciamento de bancos de dados para o tratamento diferenciado do armazenamento e acesso s informaes, levando em conta no somente a natureza e relacionamento dos dados, mas tambm as necessidades das aplicaes. Neste con-

texto, surgiram os sistemas de apoio deciso com seus sistemas de gerenciamento de bancos de dados e ferramentas especcas para a manipulao de informaes analticas. Entre estas ferramentas destaca-se a tecnologia de armazenagem de dados que considerada a evoluo natural dos ambientes de apoio deciso [Kimball et al., 2008]. Um armazm de dados um sistema de computao utilizado para armazenar informaes relativas s atividades de uma organizao em bancos de dados. O desenho do banco de dados favorece os relatrios, a anlise de grandes volumes de dados e a obteno de informaes estratgicas que podem facilitar a tomada de deciso. Esse banco de dados preparado em vrios nveis de granularidade e obtido a partir de outros sistemas computacionais da organizao (sistemas legados). A ideia extrair dados analticos dos sistemas de produo, transform-los e armazen-los em vrios graus de relacionamento e sumarizao, de forma a facilitar e agilizar os processos de tomada de deciso. Os dados armazenados em um armazm de dados so analisados por meio de ferramenta especca para 2001].

Online Analytical Processing

(OLAP) [Barbieri,

2.1.1 Esquema Dimensional


Nesta seo apresentamos uma estrutura de dados que eciente para anlise de dados. Ela permite o cruzamento de dados de forma intuitiva e garante exibilidade nas consultas dos usurios. Nos bancos de dados relacionais convencionais, a redundncia dos dados evitada, sendo aceita somente de forma controlada nos casos em que realmente necessria. Esta redundncia eliminada por meio de processos de normalizao, onde cada tabela do banco de dados que possua dados redundantes dividida em tabelas distintas, originando, deste modo, apenas tabelas contendo dados no redundantes. A normalizao das tabelas traz benefcios nos casos em que muitas transaes so efetuadas, pois estas se tornam mais simples e rpidas. J no caso das aplicaes que utilizam a anlise OLAP ocorre o contrrio: as transaes operam sobre um grande

2.1.

Anlise Multidimensional

13

volume de dados e no so simples nem frequentes, no sendo conveniente a normalizao das tabelas, pois no ambiente de anlise OLAP ocorrem poucas transaes concorrentes e cada transao acessa um grande nmero de registros. Outro ponto que distingue os bancos de dados relacionais das aplicaes OLAP est relacionado com a modelagem dos dados. As aplicaes OLAP no utilizam o

esquema relacional tradicional, como ocorre com os bancos de dados, pois este esquema utilizado no projeto de bancos de dados com dados no redundantes. Elas utilizam o esquema dimensional. Diferente do esquema relacional, o esquema dimensional muito assimtrico. Nele existe uma grande tabela dominante no centro do esquema, a qual se conecta com as demais por meio de mltiplas junes, enquanto o restante das tabelas se liga tabela central por meio de uma nica juno. A tabela central chamada de tabela fato e as demais tabelas so chamadas de tabelas de dimenses. As junes s ocorrem entre as tabelas Fato e Dimenses, melhorando o desempenho para a leitura. O esquema

dimensional possui uma estrutura mais intuitiva, permitindo uma consulta mais fcil para usurios no especializados [Kimball & Ross, 2002]. Um exemplo de esquema dimensional apresentado na Figura 2.1. Trata-se de uma modelagem que representa um banco de dados com dados bibliogrcos de pesquisadores da rea de Cincia da Computao. As informaes extradas so simplesmente contagens das ocorrncias das dimenses, como por exemplo, o nmero de artigos, nmero de autores e o nmero de veculos de publicaes. Na tabela fato, cada linha

representa um artigo escrito por um professor (autor) de um dos programas avaliados. Uma possvel medida para o fato seria o nmero de citaes contabilizadas para cada artigo.

Figura 2.1.

Exemplo de um esquema dimensional de uma base bibliogrca.

Normalmente, a tabela de dimenses contm uma nica chave primria e vrios atributos que descrevem essa dimenso com detalhes. Na tabela fato, a chave primria

14

Captulo 2. Uma Viso Geral Sobre Armazns de Dados

a combinao das demais chaves primrias das tabelas de dimenso, constituindose, assim, de vrias chaves estrangeiras, de acordo com o nmero de dimenses. Os

dados pertencentes tabela fato so normalmente numricos. O esquema dimensional tambm chamado de esquema estrela (do ingls

star schema ), devido ao formato com

que so dispostas as tabelas do diagrama com a tabela fato no centro e um conjunto de tabelas de dimenso nas extremidades (o que pode ser percebido na Figura 2.1). Segundo Pedersen [Pedersen et al., 2000], o esquema multidimensional permite a realizao de consultas visuais e suporta a semntica do esquema, podendo automaticamente escolher as funes mais adequadas para agregar em um nvel mais alto os dados que manipula. Para tanto, os dados so organizados em cubos de diversas dimenses. Cada dimenso consiste em um conjunto de descritores categricos organizados em estruturas hierrquicas [Messaoud et al., 2004]. O usurio pode realizar operaes no cubo, agregando dados em dimenses superiores ( cendo nas inferiores (

roll-up ),

desagregando-os, des-

drill-down ), ou selecionando e projetando dados (slice-and-dice ).

A abordagem dimensional permite o uso automtico de funes de agregao e de consulta visual, alm de bom desempenho e do fato de ser mais natural para a anlise de dados [Pedersen et al., 2002]. As duas tecnologias principais para a construo de cubos multidimensionais so a ROLAP (OLAP Relacional) e a MOLAP (OLAP Multidimensional) [Shoshani, 1997]. A primeira usa bancos de dados relacionais tradicionais, nos quais os dados

so armazenados em tabelas esquematizadas na forma de uma estrela (do ingls

star

schema )

ou de ocos de neve (do ingls

snow ake schema ).

A segunda normalmente

utiliza estruturas de dados proprietrias para armazenar o cubo de dados, tornando o processamento mais rpido. Esta ltima, no entanto, no se integra naturalmente tecnologia existente, exigindo uma importao dos dados para o sistema multidimensional proprietrio.

2.1.2 ETL - Extrao, Transformao e Carga dos Dados


No ambiente de um armazm de dados os dados so inicialmente extrados de sistemas operacionais e de fontes externas. A seguir so integrados e transformados (limpos,

eliminados, combinados, validados, consolidados, agregados e sumariados) antes de serem carregados no armazm de dados. Esta uma etapa crtica da construo de um armazm de dados, pois envolve toda a movimentao dos dados. A mesma se d basicamente em trs passos, conhecidos como ETL: Extrao ( (

Extraction ), Transformao

Transformation ) e Carga (Loading ).

A Figura 2.2 exemplica esse processo.

2.1.

Anlise Multidimensional

15

Figura 2.2.

Extrao, transformao e carga dos dados.

Extrao
A extrao o primeiro passo na obteno de dados para o ambiente de um armazm de dados. Signica basicamente ler e entender as fontes de dados e copiar as partes necessrias para a rea de transformao de dados, a m de serem trabalhadas posteriormente [Kimball & Ross, 2002]. Os programas de extrao devem dar suporte

captura incremental dos dados que equivale a uma replicao baseada em dados modicados para posterior distribuio ao armazm de dados.

Transformao
Uma vez que os dados tenham sido extrados dos sistemas-fonte, um conjunto de transformaes deve ser processado sobre esses dados, convertendo-os em formato vlido para o negcio e adequado para carga. A transformao dos dados pode envolver um ou vrios processos, dependendo da necessidade e situao. Alguns dos processos mais comumente utilizados so:

Limpeza - constitui no conjunto de atividades realizadas sobre os dados extrados,


de modo a corrigir o uso incorreto ou inconsistente de cdigos e caracteres especiais, resolver problemas de conito de domnios, tratar dados perdidos, corrigir os valores duplicados ou errados. A nalidade deixar os elementos de dados de acordo com

formatos padres (uniformizados), no duplicados, corretos, consistentes e que reitam a realidade.

Combinao - realizada quando fontes de dados possuem exatamente os mesmos


valores de chaves representando registros iguais ou complementares.

Desnormalizao

- o padro no processo de transformao reunir as hierarquias

de dados separadas em vrias tabelas devido normalizao, dentro de uma nica dimenso, de forma desnormalizada.

16

Captulo 2. Uma Viso Geral Sobre Armazns de Dados

Clculos, derivao e alocao - so transformaes a serem aplicadas s regras de


negcio identicadas durante o processo de levantamento de requisitos. conveniente que as ferramentas a serem empregadas possuam um conjunto de funes, tais como manipulao de textos, aritmtica de data e hora, entre outras.

Carga
Aps os dados serem transformados, eles so carregados no armazm de dados. A carga dos dados tambm possui uma enorme complexidade, sendo que os seguintes fatores devem ser levados em conta:

Integridade dos dados

- no momento da carga, necessrio vericar os campos

que so chaves estrangeiras com suas respectivas tabelas para certicar-se de que os dados existentes na tabela da chave estrangeira esto de acordo com a tabela da chave primria;

Tipo de carga a ser realizada, incremental ou total

- a carga incremental normal-

mente feita para tabelas de fatos e a carga total feita em tabelas de dimenso onde o analista tem que excluir os dados existentes e inclu-los novamente. Mas isso depende da necessidade do negcio em questo.

Otimizao do processo de carga

- todo banco de dados possui um conjunto de

tcnicas para otimizar o processo de carga, tais como evitar a gerao de log durante o processo, criar ndices e agregar dados. Muitas dessas caractersticas podem ser

executadas nos bancos de dados ou registradas em ferramentas sobre a rea de organizao de dados.

scripts

por meio da utilizao de

Suporte completo ao processo de carga


particionamento fsico de tabelas e ndices.

- o servio de carga tambm precisa su-

portar as exigncias antes e depois da carga atual, como eliminar e recriar ndices e

2.2 Esquema de Dados para o Armazm de Dados


Um armazm de dados lida com basicamente dois tipos de dados: numricos e descritivos. Os dados numricos so chamados de fatos e os descritivos de dimenses. Os fatos guardam um histrico de valores relacionando-os com as dimenses participantes do fato. Eles so considerados dinmicos, pois crescem ao longo do tempo, uma vez que novas medidas so adicionadas a cada nova carga do armazm de dados. As dimenses no costumam ter modicaes signicativas na constituio de seus membros e nos seus dados descritivos, tal como ocorre com os fatos.

2.2.

Esquema de Dados para o Armazm de Dados

17

O esquema dimensional tambm chamado de esquema estrela (do ingls

star

schema ), pois sua representao grca lembra o formato de uma estrela, com a tabela
fato no centro e as dimenses nas pontas (Figura 2.3). O esquema estrela deu origem a diversas variantes, principalmente nos esquemas lgicos e fsicos, adaptando-se s diferentes necessidades e aos produtos comerciais. Entre estes, os mais utilizados em bancos de dados relacionais so o esquema estrela tradicional, que possui os nveis de dimenses desnormalizados e o esquema oco de neve (do ingls

Snow Flake ),

que

possui os nveis de dimenses normalizados, formando uma hierarquia de nveis explcita e no redundante [Kimball et al., 2008].

Figura 2.3.

Esquema estrela.

2.2.1 Propriedades das Dimenses


As dimenses so ortogonais (independentes entre si) e so compostas por membros organizados em nveis hierrquicos para que seja possvel executar as funes OLAP de

Drill-Down e Roll-Up, as quais aumentam ou diminuem o nvel de detalhamento dos dados de uma consulta [Barbieri, 2001]. Para a dimenso Tempo, por exemplo, podemos ter os seguintes membros: Datas (01/12/2007, 05/01/2008, 10/02/2008, 20/02/2008), Meses (11/2007, 01/2008, 02/2008) e Anos (2007, 2008), como ilustrado da Figura 2.4. Estes membros so organizados em trs nveis hierrquicos: data, ms e ano, sendo que os valores (mtricas) associados a 10/02/2008 e 20/02/2008 iro compor a mtrica

18

Captulo 2. Uma Viso Geral Sobre Armazns de Dados

do ms 02/2008, que por sua vez ir compor a mtrica do ano de 2008 juntamente com os valores dos meses 12/2007 e 01/2008. Na Figura 2.4, o membro de nome 12/2008, pertence ao nvel Ms e possui como membro superior o membro denominado 2008. A diviso hierrquica de uma dimenso chamada de hierarquia de classicao e pode possuir diferentes caminhos hierrquicos [Abell et al., 2001]. A maioria dos autores costuma representar a hierarquia de classicao por meio de um grafo acclico dirigido, onde os ns representam os nveis e os arcos apontam os caminhos possveis de sumarizao [Trujillo et al., 2000].

Figura 2.4.

Exemplo de hierarquia para a dimenso tempo.

Cada membro de dimenso possui quatro informaes indispensveis:

um identicador nico utilizado nos relacionamentos internos do armazm de dados (geralmente um nmero binrio ou hexadecimal);

um nome para identicao pelo usurio; a indicao do nvel hierrquico ao qual pertencem; uma lista de identicadores de seus membros superiores (ou ancestrais), isto , os membros pais que utilizam ele (lho ou descendente) para sumarizar dados.

Os membros de dimenso podem possuir atributos descritivos para caracterizlos melhor [Hsemann et al., 2000]. Esses atributos podem servir de parmetros em operaes de seleo de membros ou como informao adicional nos resultados das consultas. Os atributos descritivos so denidos nos nveis de dimenso. Para o nvel

2.2.

Esquema de Dados para o Armazm de Dados

19

Data, por exemplo, poderamos ter os atributos: Semana, Dia da Semana, etc.

Flag

de Feriado,

Flag

de Fim de

2.2.2 Propriedades dos Fatos


Os fatos so constitudos por um conjunto de elementos formados por todas as combinaes possveis de membros de dimenses distintas. Cada um desses elementos possui uma lista de mtricas associadas. Em outras palavras, um fato relaciona um conjunto de dimenses e fornece um conjunto de medidas (mtricas) vlidas para o ponto de encontro (interseo) dessas dimenses [Abell et al., 2001]. Um fato no precisa ter um identicador nico, pois ele pode ser representado pela lista de identicadores dos membros das dimenses com os quais se relaciona. A Tabela 2.1 apresenta um exemplo da composio do fato publicao. Um artigo publicado numa data num veculo por um docente que pertence a um programa de ps-graduao de uma determinada localizao geogrca. Cada linha da tabela indica um elemento do fato publicao, que composto por cinco membros de dimenses

Tempo, Localizao geogrca, Programa, Docente, Veculo ) e duas mtricas (Artigos e Citaes ).
distintas ( Uma informao muito importante referente aos fatos a maneira como eles devem ser agrupados e calculados (sumarizados) nos diversos nveis das dimenses. As mtricas dos fatos podem utilizar funes diferentes para as totalizaes nos nveis hierrquicos superiores das dimenses ou at no permitir totalizaes. Na Tabela

2.1, por exemplo, podemos utilizar uma funo de soma para compor os totais das mtricas

Artigos

Citaes.

Mas qual o valor da informao nmero total de citaes

dos programas do Brasil? Talvez seja mais interessante utilizar uma funo de mdia geral ou mdia ponderada (em relao a nmero de artigos), para se ter uma ideia melhor do impacto mdio por artigo (nmero de citaes recebidas pelo artigo).

Tabela 2.1.

Exemplo da composio do fato publicao. Mtricas


Docente Programa Veculo Artigos Citaes

Dimenses
Tempo

12/2008 12/2008 12/2008 12/2008 12/2008 12/2008 12/2008

Brasil Brasil Brasil Am. Norte Am. Norte Am. Norte Am. Norte

Loc. Geog.

Puc-Rio Puc-Rio UFPE Caltech Caltech Caltech MIT

Lucena Lucena Joo Jorge Jorge Antnio Lus

SIGMOD SIGIR WWW SIGGraph WSDM SPIRE TOIS

3 2 1 5 4 4 3

30 25 442 34 13 14 41

20

Captulo 2. Uma Viso Geral Sobre Armazns de Dados

A Tabela 2.2 apresenta os mesmos fatos da Tabela 2.1 sumarizados em alguns nveis mais altos, com a mtrica

Artigos

utilizando a funo soma e a mtrica

utilizando a funo mdia geral.

Todas as dimenses possuem o nvel

Citaes Todos, que

caracteriza o nvel mais alto de qualquer dimenso e que geralmente suprimido das representaes das rvores hierrquicas. O nvel

Todos

signica desconsiderao da

dimenso em questo para a consulta realizada, pois no existem classicaes distintas neste nvel que formado somente por um membro.
Tabela 2.2.

Fato publicao sumarizado em nveis mais altos. Mtricas


Docente Veculo Artigos (soma) Citaes Programa

Dimenses
Tempo Loc. Geog.

12/2008 12/2008 12/2008 12/2008 12/2008 12/2008 12/2008

Brasil Brasil Brasil Am. Norte Am. Norte Am. Norte Am. Norte

TODOS Puc-Rio UFPE TODOS Caltech Waterloo MIT

TODOS TODOS TODOS TODOS TODOS TODOS TODOS

TODOS TODOS TODOS TODOS TODOS TODOS TODOS

3534 645 465 15455 564 1203 609

4,59 7,97 5,60 10,04 8,09 11,53 6,12

(mdia)

2.2.3 Cubos de Dados


O cubo de dados representa um conjunto de mtricas que compartilham o mesmo conjunto de dimenses [Kimball et al., 2008]. O cubo formado por um conjunto ordenado de clulas, onde cada clula localizada pela interseco de suas trs dimenses (altura, largura e profundidade). A clula armazena os valores das mtricas para a respectiva localizao da clula. Obviamente, a maioria dos fatos de um armazm de dados possui mais de trs dimenses, no podendo ser corretamente representados na imagem de um cubo (elemento 3D), de forma que alguns autores utilizam a expresso hipercubo. Neste trabalho utilizada a expresso cubo. As ferramentas utilizadas para as consultas OLAP utilizam-se desta representao tridimensional dos dados para denir suas principais operaes de consulta. Estas

operaes so baseadas na manipulao e visualizao de um cubo fsico (real) por uma pessoa, por exemplo:

rotaes de 90 do objeto (mudana da posio dos eixos x, y, z);


visualizao plana de um dos lados (esconder uma das dimenses); corte de pedaos (seleo de partes do cubo);

2.3.

Consultas OLAP

21

focalizao de detalhes por meio da aproximao do objeto (ver dados com mais detalhes) .

A maioria dos operadores das consultas OLAP tem como base estas operaes simples e intuitivas, s que adaptadas para a manipulao de dados multidimensionais (n dimenses) de forma que o usurio no precise de muito conhecimento para formalizar suas consultas.

2.3 Consultas OLAP


As consultas analticas feitas em um armazm de dados tm como objetivo vericar o comportamento de mtricas do negcio (dados numricos, medidas) ao longo do tempo. Essas consultas so normalmente chamadas de consultas OLAP (

Online Analytical

Processing ),

tendo como principais caractersticas o clculo de valores contidos em

uma enorme quantidade de registros e a apresentao dos resultados em formatos de nvel mais alto, como tabelas ou grcos. A caracterstica principal dos sistemas OLAP permitir uma viso conceitual multidimensional dos dados armazenados. A viso multidimensional mais til para os analistas do que a viso tabular tradicional utilizada nos sistemas de processamento de transao. Ela mais natural, fcil e intuitiva, permitindo uma viso dos negcios da organizao em diferentes perspectivas e, dessa maneira, torna o analista um explorador de informaes [Chaudhuri & Dayal, 1997; Shoshani, 1997; Campos & Rocha Filho, 1997]. As ferramentas OLAP so projetadas para apoiar anlises e consultas

ad hoc

em

um armazm de dados, alm de ajudar analistas e executivos a sintetizar informaes sobre a organizao, por meio de comparaes, vises personalizadas, anlise histrica e projeo de dados em vrios cenrios. Ferramentas OLAP so implementadas para ambientes multiusurio, arquitetura cliente-servidor, e oferecem respostas rpidas e consistentes s consultas interativas executadas pelos analistas, independentemente do tamanho e complexidade de um armazm de dados [Codd et al., 1993; Chaudhuri & Dayal, 1997; Inmon, 1996]. A m de permitir uma visualizao e manipulao multidimensional dos dados, as ferramentas OLAP oferecem diferentes funes, a saber:

Pivot :

muda a orientao dimensional de uma pesquisa. Por exemplo,

pivot

pode

consistir na troca de linhas e colunas, ou mover uma das dimenses da linha, para a dimenso da coluna;

22

Captulo 2. Uma Viso Geral Sobre Armazns de Dados

Roll-up :
do

os bancos de dados multidimensionais geralmente tm hierarquias ou re-

laes de dados baseadas em frmula dentro de cada dimenso. Ento, a execuo

roll-up
um

computa todas essas relaes para uma ou mais dimenses;

Slice :

slice

um subconjunto da estrutura multidimensional que corresponde

a um valor simples em lugar de um ou mais atributos das dimenses. como xar um valor de uma das dimenses de um cubo e considerar para pesquisa o subcubo formado por esse valor e pelas outras dimenses do cubo inicial;

Drill-down/up :

consiste em fazer uma explorao em diferentes nveis de detalhe

das informaes, como por exemplo, analisar uma informao por continente, pas ou estado, partindo da mesma base de dados;

Drill-across :
sionais;

o processo de unir duas ou mais tabelas-fato de mesmo nvel de

detalhes, ou seja, tabelas com o mesmo conjunto de colunas e restries dimen-

Essas funes podem ser utilizadas vontade pelos usurios de um ambiente de armazm de dados, conforme as suas necessidades de informaes.

Captulo 3 Dados Utilizados


Neste captulo apresentada a construo da base de dados de publicaes cientcas. A construo da base de dados foi realizada em trs etapas apoiadas em entidades bsicas da base: docentes dos programas, publicaes e citaes. Este captulo est estruturado da seguinte forma: primeiro, na Seo 3.1 apresentamos o Projeto Perl-CC; na Seo 3.2, como foram coletados os docentes dos programas analisados; na Seo 3.3 descrita a recuperao das publicaes; na Seo 3.4 abordado o processo de obteno das citaes das publicaes e, por m, na Seo 3.5 so apresentadas as consideraes nais para este captulo.

3.1 Dados do Projeto Perl-CC


O Projeto Perl-CC nasceu com o objetivo de realizar uma avaliao qualitativa da produo gerada pelos principais programas da rea no Brasil, bem como de sua insero internacional, de modo que se possa estabelecer o papel que a rea vem desempenhando no desenvolvimento cientco e tecnolgico do pas. O projeto foi criado na UFMG em 2006 para estudar o perl da produo cientca dos principais programas brasileiros de modo a compar-los com seus congneres da Amrica do Norte e da Europa. Neste contexto, diversos trabalhos foram feitos, como um estudo sobre a produo em Cincia da Computao no Brasil [Laender et al., 2008], uma pesquisa sobre redes sociais em computao [Menezes et al., 2008, 2009] e um trabalho sobre construo de

rankings

para conferncias [Martins et al., 2009]. Os resultados obtidos nesta

dissertao complementam o estudo realizado no contexto do projeto Perl-CC com uma anlise do impacto das citaes dos artigos publicados pelos programas e o estudo da distribuio das publicaes por subreas da Cincia da Computao. Alm disto, 23

24

Captulo 3. Dados Utilizados

este trabalho disponibiliza um ambiente de anlise multidimensional para uma melhor anlise dos dados do Projeto Perl-CC. A Figura 3.1 apresenta o processo completo da construo da base de dados. Inicialmente so coletados os docentes dos programas analisados. Em seguida so

recuperadas as publicaes de cada docente e as citaes recebidas por cada publicao. Por m, os dados so inseridos na base de dados. Cada uma das etapas detalhada nas sees a seguir.

3.2 Docentes
Esta a primeira etapa da construo do banco de dados utilizado em nossos experimentos. Inicialmente selecionamos os oito principais programas, segundo a classicao CAPES vigente no perodo de coleta de dados (junho de 2007). Os vinte e dois programas estrangeiros foram selecionados entre os mais importantes da Amrica do Norte e da Europa. Os programas selecionados so:

Brasil :

PUC-Rio, UFRJ/COPPE, UFMG, UFPE, UFRGS, UNICAMP, USP /

So Paulo e USP / So Carlos;

Amrica do Norte :

Brown University, Caltech - California Technology Institute,

CMU - Carnegie Mellow University, Cornell University, Harvard University, MIT Massachusetts Institute of Technology, Princeton University, Stanford University, University of British Columbia, University of California at Berkeley, University of Illinois, University of Texas at Austin, University of Toronto, University of Washington, University of Waterloo e University of Wisconsin;

Europa :

Cambridge University, cole Polytechnique de Paris, ETH Zrich, Im-

perial College, Oxford University e Universit Pierre et Marie Curie - Paris VI.

Figura 3.1.

Processo de construo da base de dados de publicaes.

A lista dos docentes foi obtida a partir da pgina Web dos respectivos programas. Esta coleta foi feita de forma manual, pois no havia padro nas estruturas das pginas, impossibilitando a criao de coletores automticos por expresso regular. A Figura

3.3.

Publicaes

25

3.2 mostra um exemplo de pgina com a listagem dos docentes dos programas de ps-graduao. Alm do nome dos docentes, coletou-se a titulao (professor titular, adjunto,

full professor,

etc) e a URL de sua pgina Web, quando existente.

A coleta dos 30

programas resultou numa lista com 2.027 docentes. Esta lista foi utilizada como entrada para a obteno das publicaes, processo detalhado na prxima seo.

Figura 3.2.

Pgina com listagem dos docentes do programa.

3.3 Publicaes
As publicaes de cada docente foram obtidas a partir da

DBLP Computer Science

Bibliography

[Ley, 2002; Ley & Reuther, 2006].

A DBLP a principal biblioteca

digital da rea de Cincia da Computao, mantida por um grupo da Universidade de Trier, Alemanha, coordenado por Michael Ley. Em junho de 2007, perodo em

que foi feita a coleta de dados, a DBLP registrava mais de 910.000 artigos publicados nos anais de 3.636 diferentes conferncias e em 613 diferentes peridicos, cobrindo os principais campos da rea, com maior nfase naqueles de cunho tecnolgico, tais como

1 http://dblp.uni-trier.de

26

Captulo 3. Dados Utilizados

Bancos de Dados, Engenharia de Software, Linguagens de Programao, Sistemas de Computao e Redes de Computadores. A DBLP tem uma representao maior do

que repositrios bibliogrcos de uso geral, como o mantido pelo ISI -

Institute for

Scientic Information 2 .
Outros repositrios de publicaes estudados foram o Citeseer

e o Google Scho-

lar . Tais repositrios possuem mais artigos catalogados do que a DBLP. Porm a coleta de dados feita de forma automtica, cando suscetvel a diversos erros como artigos duplicados, erros nos nomes dos autores e dos veculos de publicaes. J a DBLP

possui informaes bem estruturadas, organizadas de forma parcialmente manual por seus administradores Ley & Reuther [2006]. Seus dados possuem alta qualidade: baixa taxa de homnimos entre os autores, identicao e classicao exata dos diversos veculos de publicao. Na DBLP foram encontrados as publicaes de 1.760, ou 87%, dos 2.027 docentes da lista inicial. Conforme apresentado na Tabela 3.1, foram registrados no banco de dados 52.596 artigos de autoria de 1.760 docentes dos 30 programas analisados. Esses artigos foram publicados entre 1954 e 2007 em 456 peridicos e nos anais de 1.622 conferncias distintas. Desses veculos, 241 peridicos e 605 conferncias aparecem

classicados no Qualis de Cincia da Computao .

Tabela 3.1.

Corpus de publicaes gerado.


52.596 1.760 30 456 1.622

# Artigos # Docentes na DBLP # Programas # Peridicos # Conferncias

3.4 Citaes
A partir das publicaes levantadas foi coletado o nmero de citaes de cada artigo por meio do repositrio de publicaes Google Scholar. Para isso, submetemos consultas com o ttulo completo do artigo e usamos uma opo avanada que retorna apenas os artigos que tenham em seu ttulo todas as palavras consultadas. A Figura 3.3 mostra a consulta para recuperar o nmero de citaes do artigo Characterizing a spam trac

2 http://scientic.thomson.com 3 http://citeseer.ist.psu.edu 4 http://scholar.google.com 5 avaliao

da qualidade do veculo fornecida pela CAPES.

3.4.

Citaes

27

no Google Scholar. Esse artigo possui 62 citaes. As consultas foram automatizadas atravs de

scripts

escritos na linguagem Perl.

Entretanto, o Google Scholar possui

limitao quanto ao nmero de consultas submetidas, sob pena de bloquear o acesso ao repositrio atravs do nmero IP da mquina que originou a consulta. Para evitar tal problema, foi inserido um intervalo aleatrio de 45

10 segundos entre as consultas,


Para aumentar esta taxa, foram

valor obtido empiricamente com sucesso no trabalho Silva et al. [2006]. Este intervalo possibilita consultar apenas 1.920 pginas por dia.

utilizadas oito mquinas com endereos IPs distintos do laboratrio onde este trabalho foi desenvolvido. Eventualmente o Google Scholar retorna artigos distintos com ttulos parecidos com os consultados distorcendo o resultado. Por exemplo, ao buscar o artigo Conceptbased interactive query expansion, o Google Scholar retorna os artigos A study of user interaction with a concept-based interactive query expansion support tool e o prprio Concept-based interactive query expansion. Para evitar esse tipo de problema, re-

alizamos um casamento aproximado de caracteres usando a mtrica de distncia de edio , descartando os artigos com ttulo diferente do ttulo original.

Foram consi-

derados os artigos cuja proximidade entre os ttulos fosse maior que 75%, valor que tambm foi obtido no trabalho Silva et al. [2006]. Adicionalmente, para obter uma

melhor qualidade dos dados, tambm zemos uma inspeo manual nos artigos com mais de 40 citaes, retirando os artigos associados incorretamente.

Figura 3.3.

Interface de consulta do Google Scholar.

mnimo de operaes necessrias para transformar uma cadeia de caractere na outra. Por exemplo, a distncia de edio entre spam e slam de uma substituio de p por l, ou seja, 3/4 ou 75% de proximidade entre as cadeias.

6 Nmero

28

Captulo 3. Dados Utilizados

Foram coletadas as citaes de todos os artigos publicados entre 1998 e 2006 dos 30 programas analisados. Foram considerados apenas os artigos cuja classicao Qualis seja A Internacional, ou seja, publicados em veculos de circulao internacional e que tm maior impacto cientco. No total foram coletados 15.795 artigos por oito mquinas em aproximadamente 24 horas. Os resultados da coleta foram salvos em

arquivos-texto e posteriormente os dados foram inseridos no banco de dados bibliomtrico. A Tabela 3.2 mostra taxa de artigos encontrados por esse mtodo. Esse mtodo apresentou uma boa cobertura com taxa de retorno de 97,46% dos artigos pesquisados, possibilitando a anlise numa base representativa.
Tabela 3.2.

Taxa de artigos encontrados no Google Scholar.

Artigos
Encontrados No encontrados Total 15.398 397 15.795

%
97,46% 2,54% 100,00%

3.5 Consideraes Finais


Com os passos apresentados neste captulo podemos construir o banco de dados utilizado no armazm de dados e consequentemente em nossas anlises. A partir do banco de dados gerado, podem ser obtidas diversas estatsticas sobre os 30 programas abordados, tais como: mdia de publicaes por docente por programa, distribuio das publicaes entre as subreas da Cincia da Computao, subreas mais populares por programa, mdia de citaes por artigo por programa, indicadores de produtividade por docente, por programa ou por pas, entre outras. Para melhor exibilidade, agilidade e ecincia na anlise faz-se necessria a utilizao de ferramentas adequadas, as quais sero abordadas no captulo seguinte.

Captulo 4 Construo do Armazm de Dados


Este captulo trata da construo do armazm de dados de publicaes cientcas. A construo desse armazm de dados consistiu de trs etapas: a modelagem do problema, a escolha da ferramenta a ser utilizada e a construo propriamente dita do armazm de dados. A Seo 4.1 apresenta o problema e a modelagem da sua soluo. A Seo 4.2 apresenta as ferramentas utilizadas como apoio. A Seo 4.3 descreve a construo do armazm de dados. A Seo 4.4 apresenta as consideraes nais para este captulo.

4.1 Modelagem do Problema


Esta seo discute a modelagem do banco de dados de publicaes cientcas. O primeiro passo inserir os dados num banco de dados relacional. Para ns didticos,

apresentaremos o esquema de forma simplicada e, em seguida, apresentaremos o esquema completo com todas as entidades do problema.

4.1.1 Esquema Simplicado


A Figura 4.1 mostra o esquema relacional com as tabelas e os relacionamentos. esquema possui quatro tabelas: O

author, para designar os autores dos artigos; program, que representa o programa de ps-graduao ao qual o autor esteja liado; article, que representa o artigo que o autor publicou; e venue, para representar o veculo de publicao ao qual o artigo pertence. A relacionamento de author para article do tipo muitos para muitos (representada pela tabela author _has_article): um autor possui
um ou mais artigos, e um artigo possui um ou mais autores. Os demais relacionamentos so do tipo um para muitos. 29

30

Captulo 4. Construo do Armazm de Dados

Figura 4.1.

Esquema relacional simplicado para representar o problema.

Conforme vimos no Captulo 2, o esquema dimensional possui uma estrutura mais intuitiva quando comparado ao relacional, permitindo uma consulta mais fcil para usurios no especializados [Kimball & Ross, 2002]. Nesse esquema, as tabelas representam Fatos e Dimenses. Os dados so desnormalizados para um melhor desempenho na leitura, visto que as junes entre as entidades s ocorrem entre as tabelas Fato e Dimenses. A converso entre o esquema relacional e o dimensional consiste, basicamente, em ligar todas as tabelas do primeiro esquema a uma tabela central: a tabela fato. O custo para o ganho no desempenho da leitura o espao adicional utilizado por essa tabela, j que a desnormalizao leva a uma redundncia dos dados. ilustra a conexo entre a tabela fato ( A Figura 4.2

fact table ) e as tabelas dimenso.


a publicao de um artigo

A tabela fato composta por quatro chaves: programa, autor, artigo e veculo. Cada registro representa uma publicao de um artigo: possui uma dimenso dimenso

article,

uma dimenso

author,

uma dimenso

program

e uma

venue.

Assim, cada linha da tabela fato representa o fato de um autor, que

vinculado a um programa, publicar um determinado artigo num determinado veculo. Podemos dizer que o gro mnimo do nosso problema o artigo, ou seja, no h uma diviso ou quebra a partir de artigo. Dessa forma, o tamanho do banco de dados

(nmero de linhas da tabela fato) dado pelo nmero de artigos.

4.1.

Modelagem do Problema

31

Figura 4.2.

cional.

Esquema dimensional simplicado criado a partir do esquema rela-

4.1.2 Esquema Completo


Na seo anterior, apresentamos o esquema proposto de forma simplicada. O esquema completo possui mais alguns dados, que so listados a seguir:

professor

(docentes) - precisamos separar as entidades autor e docente, pois um

docente pode ou no ser um autor de um artigo, e um autor de um artigo pode ou no ser um docente;

name
tintos;

(nome do docente) - um docente pode assinar um artigo com nomes dis-

venue_instance

(instncia do veculo) - um veculo pode ter vrias edies ocor-

rendo por exemplo, anualmente;

Qualis

(Qualis do veculo) - avaliao da qualidade do veculo fornecida pela

CAPES.

citation

(citaes) - informaes relativas s citaes dos artigos.

A Figura 4.3 apresenta o esquema relacional completo do problema.

Esse es-

quema permite realizar uma srie de anlises interessantes em seus dados. Porm, para uma anlise mais eciente necessrio converter esse esquema para o formato dimensional. Novamente, para construir um esquema dimensional, ligamos todas as tabelas tabela fato, conforme ilustrado na Figura 4.4. Alm disto foi adicionada uma dimenso exclusiva para tempo (

time ) que representa o ano da publicao do artigo.

Obtivemos

assim um esquema com dez dimenses e uma tabela fato. Finalizada a modelagem do problema, partimos para o estudo das ferramentas disponveis, a seguir.

32

Captulo 4. Construo do Armazm de Dados

Figura 4.3.

Esquema relacional completo que representa o problema.

4.2 Estudo de Ferramentas


Nesta seo apresentamos o processo de escolha da ferramenta utilizada para suportar o armazm de dados. Aps consultas com especialistas no assunto, pr-selecionamos trs ferramentas: FreeOLAP , Oracle Discoverer

e Pentaho .

A primeira ferramenta analisada foi o FreeOLAP, uma ferramenta OLAP com interface Web escrita em Java. O FreeOLAP executa em qualquer servidor de aplicao Web como, por exemplo, o Tomcat, e conecta a qualquer sistema gerenciador de bancos de dados relacional como o MySQL por meio do conector JDBC. Na poca da anlise,

1 http://freeolap.com

2 http://www.oracle.com/technology/products/discoverer/ 3 http://www.pentaho.com

4.2.

Estudo de Ferramentas

33

Figura 4.4.

Esquema dimensional completo do problema.

esta ferramenta no estava com toda sua funcionalidade completa e seu projeto tinha sido descontinuado. Por falta de documentao tcnica no foi possvel fazer uma

anlise mais profunda da viabilidade da implementao do ambiente proposto usando esta ferramenta. A segunda ferramenta avaliada foi o Oracle Business Intelligence Discoverer ou simplesmente Discoverer, que compreende na verdade um conjunto de ferramentas para consulta, gerao de relatrios, anlise de dados e publicao Web

ad hoc.

Diferente-

mente da primeira, esta ferramenta possui uma documentao tcnica completa, o que facilitou a sua avaliao. Fizemos sua instalao, implementamos uma verso simplicada do armazm de dados de publicaes e zemos os testes iniciais. Esta ferramenta teve um bom desempenho em nossa anlise.

34

Captulo 4. Construo do Armazm de Dados

Por ltimo analisamos o pacote de Business Intelligence Pentaho. O projeto Pentaho uma aplicao de cdigo aberto de Business Intelligence composta de ferramentas de relatrios gerenciais, anlise de dados, minerao de dados,

workow

e tratamento

de dados (ETL). A comunidade responsvel pelo desenvolvimento da aplicao composta por mais de 8.000 membros. Seu modelo de negcio consiste em gerar receita por meio de servios de suporte tcnico e gerenciamento para consumidores corporativos. Instalamos o produto, implementamos uma primeira verso do armazm de dados e testamos seu desempenho. Consideramos uma boa opo de ferramenta. Por ser uma ferramenta de cdigo aberto e consequentemente se adequar melhor aos recursos do laboratrio onde o trabalho foi desenvolvido e pelos bons resultados nos testes de executados, decidimos implementar o armazm de dados de publicaes cientcas com a ferramenta Pentaho. Para contruir o armazm de dados, utilizamos uma srie de outras ferramentas, listadas a seguir:

Pentaho Data Integration

- O Pentaho Data Integration (anteriormente denomi-

nado Kettle) uma ferramenta ETL (Extrao, Transformao e Carga dos dados). Ele permite a extrao dos dados do sistema-fonte, a execuo de transformaes nos dados como limpeza, unicao, clculos e a carga dos dados para o banco de dados do armazm de dados.

Pentaho Cube designer Pentaho Mondrian

- O Cube Designer uma ferramenta de auxlio para a

construo da denio dos cubos. - O Mondrian o servidor OLAP. Ele recebe solicitaes de

um cliente e as submete a um banco de dados tradicional, mapeando as consultas multidimensionais para um banco de dados relacional.

Pentaho Reporting
a interface do sistema.

- O Reporting (anteriormente conhecido como JPivot) prov usado na visualizao das consultas retornadas, contendo

operaes bsicas de manipulaes de cubos multidimensionais e de apresentao dos resultados em tabelas e grcos.

Tomcat 4

- O Apache Tomcat uma servidor Web para aplicaes Java e de

cdigo aberto. O Tomcat necessrio para executar as aplicaes Mondrian e Reporting. Utiliza a linguagem SQL (Structured Query Language - Linguagem de Consulta Estruturada) como interface.

MySQL5 - O MySQL um sistema de gerenciamento de bancos de dados (SGBD)


de cdigo aberto. utilizado para armazenar os dados do armazm de dados e prover os dados requisitados pelo Mondrian nas consultas executadas no Reporting.

4 http://tomcat.apache.org 5 http://www.mysql.com

4.3.

Implementao do Armazm de Dados

35

DBDesigner 6

- O DBDesigner um editor visual para criao, modelagem e

manuteno de bancos de dados. Tambm do tipo cdigo aberto.

Eclipse 7 - O Eclipse uma IDE (ambiente integrado para desenvolvimento de software ) de cdigo aberto para a construo de cdigos. Foi utilizada para construir
as consultas em JSP e ajustar os cubos em XML.

4.3 Implementao do Armazm de Dados


Dividimos a implementao do armazm de dados em trs etapas: construo da tabela fato, construo dos cubos e construo das consultas. Estes passos sero detalhados a seguir.

4.3.1 Construo da Tabela Fato


A primeira parte da nossa implementao foi a construo da tabela fato a partir do banco de dados de publicaes j existente. as tabelas As dimenses do novo esquema so e

program, prof essor, author, article, publication_instance, publication

qualis,

conforme ilustrado anteriormente na Figura 4.4. A tabela fato composta das

chaves estrangeiras para as dimenses e um indicador

publication que tem sempre valor

1 para cada publicao do banco de dados. Este indicador utilizado para calcular o nmero de publicaes por professor, por programa, por veculo, entre outras vises. A Figura 4.5 mostra a tela da ferramenta Pentaho Data Integration que gera os dados da tabela fato. A primeira parte do

com o

script

script

cria a tabela fato no

banco de dados por meio de comandos SQL. Em seguida extramos os dados do banco de dados de publicaes por meio de vrias junes entre as tabelas conforme ilustrado na Figura 4.6. Finalmente, no passo seguinte, carregamos os dados na tabela fato.

Com a tabela fato nalizada, foi possvel trabalhar na construo dos cubos, o que ser detalhado na prxima seo.

4.3.2 Construo dos Cubos


Os cubos foram construdos na linguagem MDX (M ultidimensional

Expressions)9

utilizando as ferramentas Cube Designer e Eclipse, ilustradas nas Figuras 4.7 e 4.8,

6 http://fabforce.net/dbdesigner4/

ETL (Extrao, Transformao e Carga) da plataforma Pentaho. assim como SQL uma linguagem de consulta para bancos relacionais.
9 linguagem de consulta para bancos de dados multidimensionais,

7 http://www.eclipse.org 8 ferramenta

36

Captulo 4. Construo do Armazm de Dados

Criao do script no Pentaho Data Integration para gerar os dados da tabela fato.
Figura 4.5.

repectivamente. Para uma maior exibilidade das anlises decidimos inserir no cubo todas as dimenses disponveis no esquema dimensional como, por exemplo, e

docente

publicao.

O Cube Designer gera como formato de sada um arquivo MDX com

as denies do cubo. Este arquivo ligado s conguraes das consultas que sero descritas na prxima seo.

4.3.3 Gerao das Consultas


Geramos as consultas com auxlio do editor Eclipse (Figura 4.9). Embora a ferramenta oferea exibilidade quanto gerao de consultas, oferecemos aos usurios do ambiente consultas pr-denidas que podem ser utilizadas como ponto de partida. A Figura 4.9 mostra as consultas disponveis no ambiente gerado, acessado pelo endereo http://www.latin.dcc.ufmg.br:8080/perlccDW/. Por exemplo, a consulta 4 - Artigos por Programa lista as publicaes dos programas sem restrio de datas. Ela facilmente convertida para a consulta 5 - Artigos por Programa (Filtro: 2006) atravs do uso de ltros, que considera apenas as publicaes do ano de 2006. A Figura 4.10 mostra a consulta 5 - Artigos por Programa (Filtro: 2006). Po-

4.3.

Implementao do Armazm de Dados

37

SELECT pr.faculty_idFaculty AS idFaculty, pr.idProfessor, au.idAuthor, ar.idArticle, pu.idPublication, pi.idPublication_instance, pu.qualis_idQualis AS idQualis, c.idCitation, pu.area AS idSubarea, YEAR(pi.date) AS yearP, 1 AS publication, 1 AS citation FROM professor AS pr, author AS au, author_has_article AS aha, article AS ar, publication_instance AS pi, publication AS pu, citation AS c WHERE au.professor_idProfessor AND au.idAuthor AND aha.article_idArticle AND ar.publication_instance_idPublication_instance AND pi.publication_idPublication AND c.article_idArticle
Figura 4.6.

= = = = = =

pr.idProfessor aha.author_idAuthor ar.idArticle pi.idPublication_instance pu.idPublication ar.idArticle;

Cdigo utilizado para gerar os dados da tabela fato.

Figura 4.7.

Tela do programa utilizado para modelar os cubos (Cube Designer).

38

Captulo 4. Construo do Armazm de Dados

(Eclipse).

Figura

4.8.

Tela do programa utilizado para editar os cubos e consultas

Figura 4.9.

Consultas disponibilizadas no ambiente Web gerado.

4.3.

Implementao do Armazm de Dados

39

demos observar que h uma barra com vrios recursos, como, por exemplo, a edio visual da consulta e a exibio do respectivo cdigo, a ordenao dos dados, a exibio do grco, verso para impresso e exportao para a planilha.

Figura 4.10.

Consulta criada na ferramenta OLAP com dados bibliogrcos.

A gerao automtica de grcos a partir dos dados exibidos nas tabelas ilustrada na Figura 4.11. A gura mostra de uma forma mais clara a distribuio do

nmero de artigos por programa para o ano de 2006. Podemos congurar vrios parmetros do grco, como a fonte, o tipo do grco (exemplo: de barras ou de linhas), o tamanho e as cores. Outro recurso disponvel no ambiente desenvolvido a exibio de detalhes de um dado macro ou agregado (

Drill Through ).

A Figura 4.12 mostra o nmero de Se quisermos saber por

publicaes por ano do professor Marcos Andr Gonalves.

que o nmero de publicaes em 2004 11, clicamos na coluna correspondente ao ano e uma nova tela exibida com detalhes das publicaes, como o ttulo, o veculo, a classicao Qualis e o ano.

40

Captulo 4. Construo do Armazm de Dados

Figura 4.11.

grama (2006).

Grco gerado a partir da consulta Nmero de Artigos por Pro-

4.4 Consideraes Finais


Vimos que para realizar uma implementao bem-sucedida fundamental uma anlise criteriosa do problema a ser estudado. Para isso importante conhecer bem o domnio a ser analisado (publicaes cientcas) e a necessidade de informao dos utilizadores do ambiente. natural que surjam novas demandas de alteraes das consultas. Podemos realizar estas alteraes com rapidez e baixo custo por meio do conjunto de ferramentas apresentado neste captulo. Aps apresentar o processo de desenvolvi-

mento do armazm de dados de publicaes, a prxima seo abordar o estudo do perl de publicao em Cincia da Computao.

4.4.

Consideraes Finais

41

Figura 4.12.

Exemplo de Drill

Through.

Captulo 5 Anlise dos Dados


O objetivo deste captulo apresentar uma anlise dos dados utilizando o armazm de dados de publicaes cientcas. A Seo 5.1 apresenta uma anlise do nmero de publicaes. A Seo 5.2 apresenta uma anlise de citaes recebidas pelos artigos

publicados no trinio 2004-2006. A Seo 5.3 apresenta uma anlise das subreas do conhecimento em Cincia da Computao. A Seo 5.4 apresenta consideraes nais sobre este captulo.

5.1 Anlise do Nmero de Publicaes


O objetivo desta seo apresentar uma anlise do nmero de publicaes para o trinio 2004-2006. A anlise apresenta uma comparao do nmero de publicaes dos programas em conferncias e peridicos de qualidade. Para determinar a qualidade

do veculo de publicao utilizamos a classicao Qualis criada pela CAPES . Por exemplo, a classe AI corresponde aos veculos internacionais que tm maior impacto cientco. O Qualis utilizado foi tambm referente ao perodo 2004-2006. Usamos como mtrica de produtividade o nmero de publicaes por docente, j que o tamanho do corpo docente dos 30 programas heterogneo. A Tabela 5.1 mostra o resultado do nmero de publicaes Qualis A Internacional por docente no trinio 2004-2006. docente est indicado na coluna O desvio padro do nmero de publicaes por Os dados foram dispostos gracamente na

DesvPad.

Figura 5.1 com um intervalo de conana de 95%. Considerou-se apenas os docentes dos 30 programas analisados com pelo menos uma publicao listada na DBLP totalizando 1.760 docentes (87% do total). Os programas nacionais (PUC-Rio, UFRJ/COPPE,

vinculado ao governo brasileiro responsvel pela regulamentao dos cursos de psgraduao no pas
43

1 rgo

44

Captulo 5. Anlise dos Dados

Tabela 5.1.

Mdia de Publicaes por Docente no Trinio 2004-2006 dos Programas Analisados (Qualis AI). 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Programa

Illinois UC Berkeley Stanford CMU Harvard Princeton MIT Wisconsin Brown UTexas Austin Cornell Washington Toronto ETH Zurich Imperial College Waterloo Caltech PUC-Rio Oxford British Columbia UFMG UFRGS UFPE UFRJ/COPPE Unicamp USP/SC Ecole Polytechnique Paris VI Cambridge USP/SP Total

Artigos

1.005 421 593 470 122 248 418 239 221 344 285 267 496 262 226 474 49 81 125 178 103 183 110 92 90 77 91 148 274 57 7.749

Docentes

114 54 77 67 19 40 68 40 37 59 49 50 95 53 48 123 14 24 40 57 35 65 43 36 42 40 53 98 182 38 1760

Art/Doc

8,82 7,80 7,70 7,01 6,42 6,20 6,15 5,98 5,97 5,83 5,82 5,34 5,22 4,94 4,71 3,85 3,50 3,38 3,13 3,12 2,94 2,82 2,56 2,56 2,14 1,93 1,72 1,51 1,51 1,50 4,40

DesvPad

8,60 5,71 5,54 7,26 3,95 4,59 6,21 4,28 5,09 4,67 4,14 3,30 5,01 3,70 5,81 5,00 2,46 3,59 2,57 2,24 3,00 2,39 2,54 2,09 1,48 2,50 1,83 1,20 1,67 1,42 -

5.2.

Citaes Recebidas pelos Artigos

45

Mdia de Publicaes por Docente no Trinio 2004-2006 dos Programas Analisados (Qualis AI).
Figura 5.1.

UFMG, UFPE, UFRGS, UNICAMP, USP/SP e USP/SC) possuem uma mdia entre 1,50 e 3,38 publicaes por docente. Esse volume de publicaes comparvel ao de pelo menos seis dos programas internacionais analisados (Waterloo, Caltech, British Columbia, cole Polytechnique, Cambridge e Paris VI), os quais possuem uma mdia entre 1,51 e 3,85 publicaes por docente. Tais resultados mostram que a produo cientca dos programas nacionais, representada por artigos publicados em peridicos e conferncias internacionais, comparvel em volume e qualidade a de alguns dos principais programas da Amrica do Norte e da Europa.

5.2 Citaes Recebidas pelos Artigos


O objetivo desta seo realizar uma anlise do impacto da produo de artigos publicados pelos 30 programas, considerando o nmero de citaes recebidas por cada artigo. A Seo 3.4 apresenta a metodologia utilizada para recuperar as citaes dos artigos no Google Scholar. A Tabela 5.2 mostra a mdia de citaes por artigo dos programas analisados. O desvio padro do nmero de citaes por artigo est indicado na coluna

DesvPad.

Os

dados foram dispostos gracamente na Figura 5.2 com um intervalo de conana de 95%. O programa de British Columbia possui a maior mdia de citaes por artigo, com 47,48 citaes por artigo. Entretanto, cabe ressaltar que esse resultado est suportado

46

Captulo 5. Anlise dos Dados

principalmente por um nico artigo com 3.959 citaes, o que corresponde a quase metade de todas as 8.166 citaes do programa. Se retirarmos esse artigo, a mdia cai para 23,25 e o programa vai para a 14

posio. Esse um caso isolado, alm dele,

h apenas mais um artigo com mais de 1.000 citaes dentre todos os 7.749 artigos da amostra considerada.
Tabela 5.2.

Citaes por artigo no perodo 2004-2006


Artigos

# 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Programa

British Columbia UC Berkeley MIT Washington Cornell Stanford ETH Zurich Wisconsin Princeton Harvard Illinois UTexas Austin CMU Brown Oxford Caltech Toronto Cambridge Waterloo Ecole Polytechnique UFMG PUC-Rio Imperial College Paris VI USP/SP UFRGS Unicamp UFRJ/COPPE USP/SC UFPE Total

172 356 418 219 274 541 179 206 236 112 1.000 332 455 206 116 47 453 268 400 90 95 80 222 143 53 181 85 88 71 100 7.198

Citaes

8.166 15.840 18.428 9.318 11.146 20.040 5.671 6.464 7.036 3.174 26.675 8.763 11.840 5.103 2.675 1.062 9.562 5.290 7.572 1.507 1.396 1.155 2.867 1.631 486 1.555 691 528 407 543 196.591

Cit/Art

47,48 44,49 44,09 42,55 40,68 37,04 31,68 31,38 29,81 28,34 26,68 26,39 26,02 24,77 23,06 22,6 21,11 19,74 18,93 16,74 14,69 14,44 12,91 11,41 9,17 8,59 8,13 6 5,73 5,43 27,31

DesvPad

301,97 90,44 80,11 66,68 77,29 57,78 34,28 52,35 42,65 49,89 92,95 47,57 40,57 44,65 49,27 34,69 38,30 33,57 28,25 25,40 23,94 26,23 15,94 25,67 16,90 17,64 13,09 8,72 15,88 10,19 -

Ainda considerando a Tabela 5.2, os seis programas mais bem colocados so norteamericanos (British Columbia, UC Berkeley, MIT, Washington, Cornell e Stanford). O programa do ETH Zrich vem logo em seguida e o primeiro programa europeu. UFMG e PUC-Rio possuem valores muito prximos e ocupam as posies 21 e 22, respectivamente, seguidos pelos programas do Imperial College e de Paris VI. Logo

5.2.

Citaes Recebidas pelos Artigos

47

Figura 5.2.

Citaes por artigo no perodo 2004-2006.

a seguir esto os demais programas brasileiros (USP/SP, UFRGS, Unicamp, UFRJ, USP/SC, UFPE). Agrupando os programas por regio, os programas da Amrica do Norte possuem em mdia 31,36 citaes por artigo contra 19,29 dos europeus e 8,98 dos brasileiros. Se considerarmos os dois programas brasileiros mais bem colocados (UFMG e PUCRio), essa mdia vai para 14,57, prxima dos programas de Waterloo, da cole Polytechnique, do Imperial College e de Paris VI (citaes na faixa 11,41 - 18,93), mostrando a insero internacional desses dois programas brasileiros em termos do impacto de suas publicaes. Conforme discutido anteriormente, outro importante indicador bibliomtrico o ndice h [Hirsch, 2005]. Um ndice h igual a 5 indica que foram publicados cinco

artigos com pelo menos cinco citaes no perodo considerado. A vantagem do ndice h em relao s citaes por artigo que ele no inuenciado por poucos artigos de grande visibilidade. Os dados obtidos de British Columbia comprovam este fato. Ressalva-se que os programas com maior nmero de docentes tendem a ter maior ndice h por publicarem mais artigos em nmero absoluto. O ndice h por programa pode ser relativizado calculando-se o ndice h mdio por docente. A Tabela 5.3 mostra o ndice h mdio por docente dos programas analisados no trinio 2004-2006. O desvio padro do ndice h por docente est indicado na coluna

DesvPad.

Os dados foram dispostos gracamente na Figura 5.3 com um intervalo O ndice h de cada programa corresponde mdia aritmtica Novamente foram considerados apenas os artigos cuja

de conana de 95%.

do ndice h de cada docente.

classicao Qualis da CAPES seja A Internacional. A classicao encabeada pelos programas da UC Berkeley e de Stanford, os

48

Captulo 5. Anlise dos Dados

Tabela 5.3.

ndice h mdio por docente do programa - perodo 2004-2006 # 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Programa

UC Berkeley Stanford Princeton Illinois Harvard Washington Cornell CMU Wisconsin MIT Brown UTexas Austin Toronto Imperial College ETH Zurich Waterloo Caltech British Columbia UFMG Oxford PUC-Rio UFRGS Unicamp USP/SC Ecole Polytechnique UFRJ/COPPE UFPE Paris VI Cambridge USP/SP Total

ndice h

5,80 5,77 5,17 5,14 4,89 4,82 4,69 4,68 4,62 4,54 4,43 4,39 3,58 3,46 3,00 2,74 2,72 2,68 2,63 2,23 2,04 1,96 1,81 1,48 1,46 1,33 1,30 1,24 1,21 1,13 3,18

DesvPad

4,50 4,02 3,37 3,81 2,89 2,80 3,04 4,00 2,93 3,70 2,94 2,61 2,66 2,73 2,03 2,37 1,87 1,88 2,24 1,57 1,87 1,15 1,12 0,98 1,21 1,37 1,21 0,89 1,11 0,93 -

quais ganharam vrias posies em relao mtrica citaes por artigo. British Columbia, que possui a maior taxa de citaes por artigo, sustentado principalmente por um nico artigo, foi para a posio 18. UFMG, Puc-Rio, UFRGS e Unicamp esto

entre os programas brasileiros com melhor mdia do ndice h. Os programas brasileiros possuem um ndice h mdio prximo ao de sete programas internacionais: Water-

loo, Caltech, British Columbia, Oxford, cole Polytechnique, Paris VI e Cambridge. Agrupando os programas por regio, os docentes dos programas da Amrica do Norte possuem um ndice h mdio de 4,42, contra 2,10 dos europeus e 1,71 dos brasileiros. A Tabela 5.4 mostra os programas analisados em ordem decrescente. Os dados foram dispostos gracamente na Figura 5.4. A diferena desta medida para a anterior

5.2.

Citaes Recebidas pelos Artigos

49

Figura 5.3.

ndice h mdio por docente do programa - perodo 2004-2006.

que agora utiliza-se o ndice h do programa e no a mdia dos ndices h dos docentes dos programas.

Figura 5.4.

ndice h por programa - perodo 2004-2006.

O ndice h de programas privilegia os programas com maior corpo docente, por terem mais publicaes no total. A classicao encabeada pelos programas de

Stanford e de Illinois, que ganharam vrias posies em relao taxa de citaes por artigo (5 e 9 respectivamente). British Columbia, que possui a maior taxa de citaes por artigo, sustentado principalmente por um nico artigo, foi para a posio 15. ETH Zrich o programa europeu com melhor resultado. UFMG e UFRGS so os brasileiros de maior impacto com ndice h 21 e 20, respectivamente. Os dois programas brasileiros

50

Captulo 5. Anlise dos Dados

Tabela 5.4.

ndice h por programa - perodo 2004-2006


Docentes

# 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 -

Programa

Stanford Illinois MIT UC Berkeley CMU Washington Cornell UTexas Austin Princeton Toronto Wisconsin ETH Zrich Waterloo Cambridge British Columbia Brown Harvard Imperial College Oxford cole Polytechnique UFMG UFRGS Caltech Paris VI PUC-Rio Unicamp UFPE UFRJ/COPPE USP/SP USP/SC Total

77 114 68 54 67 50 49 59 40 95 40 53 123 182 57 37 19 48 40 53 35 65 14 98 24 42 43 36 38 40 1.760

ndice h

75 74 72 64 54 52 51 50 49 49 44 42 42 38 37 37 31 27 23 22 21 20 18 18 15 13 12 12 12 9 36,10

mais bem posicionados possuem um ndice h no mesmo patamar dos programas de Oxford, da cole Polytechnique, da Caltech e de Paris VI.

5.3.

Anlise das Subreas em Cincia da Computao

51

5.3 Anlise das Subreas em Cincia da Computao


Nesta seo analisamos o perl das publicaes das subreas de Cincia da Computao. Para tal usamos as 30 subreas criadas no contexto do Projeto Perl-CC. As 30 subreas foram levantadas por meio de consultas a especialistas de diversas reas da computao no pas (para uma descrio da metodologia utilizada veja [Laender et al., 2008]). Para fazer a anlise, criamos consultas que retornam a quantidade de artigos por subreas e por programas de ps-graduao. Um exemplo de consulta seria a que obtm a quantidade de artigos de Inteligncia Articial publicados pelos programas da PUC-Rio e da COPPE/UFRJ. O Apndice A apresenta as subreas mais fortes em cada programa. As Tabelas A.1, A.2 e A.3 apresentam os programas brasileiros, norte-americanos e europeus mais produtivos por subrea. Novamente foram considerados os artigos publicados no trinio 2004-2006 e cuja classicao de acordo com o Qualis da CAPES seja A Internacional. A Figura 5.5 mostra um exemplo de consulta criada para anlise das subreas. Essa consulta lista o nmero de publicaes por programa por subrea. Desta consulta podemos destacar a produo da COPPE/UFRJ na rea de

Computao, da UFPE em Aprendizado de Mquina Computadores, Processamento de Alto Desempenho.

e da

Algoritmos e Teoria da UFRGS em Arquitetura de

Figura 5.5.

Consulta criada no ambiente para anlise das subreas.

52

Captulo 5. Anlise dos Dados

Para uma melhor visualizao dos dados retornados pelas consultas, utilizamos um programa de anlise grca de dados, o TreeMap [Shneiderman & Wattenberg, 2001], desenvolvido sob a coordenao do professor Ben Shneiderman da Universidade de Maryland, EUA. O Treemap mostra linhas de dados como grupos de retngulos que podem ser organizados, dimensionados e coloridos para revelar gracamente padres desconhecidos. Esta tcnica de visualizao de dados permite aos usurios um reconhecimento mais fcil de complexos relacionamentos de dados que no so bvios por outras tcnicas . A Figura 5.6 mostra os dados da Figura 5.5 visualizados de forma grca com a distribuio das subreas das publicaes dos programas. Quanto maior o retngulo, maior o nmero de artigos do programa de ps-graduao. Quanto mais claro a cor do retngulo, maior o corpo docente da subrea. Um mesmo professor pode publicar em mais de uma subrea. A partir da Figura 5.6 podemos concluir que a UFRGS possui a maior quantidade de artigos em nmeros absolutos, seguida pela UFPE e pela UFMG. A Tabela 5.5 lista as principais subreas dos programas brasileiros e as principais subreas considerando todos os programas. Algumas reas entre os programas

analisados destacam-se pelo nmero de artigos: a rea de

tegrados e Inteligncia Articial na UFRGS, Bancos de Dados e Bibliotecas Digitais na UFMG,

Concepo de Circuitos InAprendizado de Mquina na UFPE e


todos com mais de 25 artigos no

trinio. Considerando todos os programas, as reas com mais publicaes so

ria de Software, Mtodos Formais, Aprendizado de Mquina


todos com mais de 60 artigos no trinio.

EngenhaInteligncia Articial,

A Figura 5.7 mostra a comparao do nmero de publicaes e o nmero de docentes entre todos os 30 programas analisados. No geral, alguns programas norteamericanos se sobressaem em quantidade de publicaes: Illinois, Waterloo e Stanford. Os europeus mais bem classicadas so Cambridge, ETH Zrich e Imperial College. Os brasileiros mais bem classicadas esto no mesmo patamar de Princeton, Paris VI, Wisconsin, Brown, British Columbia, Oxford, Harvard, cole Polytechnique e Caltech. No geral, o nmero de docentes dos programas brasileiros menor que o dos programas norte-americanos (o grco mostra uma colorao mais escura). Considerando apenas as publicaes da subrea de

Arquitetura de Computadores

de Illinois, a quantidade

de publicaes maior que todas as publicaes da Caltech, ressaltando que o corpo docente da Caltech oito vezes menor. Podemos notar que cada programa especializa-se numa determinada subrea e que a distribuio das subreas heterognea. Alm disto, as reas mais tradicionais

2 Wikipedia.

http://www.wikipedia.org. Acessado em Maro/2008

5.3.

Anlise das Subreas em Cincia da Computao

53

Tabela 5.5.

Principais subreas por programa de ps-graduao.


rea Artigos

TODOS Engenharia de Software, Mtodos Formais Aprendizado de Mquina Inteligncia Articial UFRGS Concepo de Circuitos Integrados Inteligncia Articial Arquitetura de Computadores, Processamento de Alto Desempenho UFPE Aprendizado de Mquina Sistemas de Informao Inteligncia Articial Engenharia de Software, Mtodos Formais UFMG Bancos de Dados, Bibliotecas Digitais Redes de Computadores, Sistemas Distribudos, Sistemas P2P Recuperao de Informao UFRJ/COPPE Engenharia de Software, Mtodos Formais Algoritmos e Teoria da Computao Computao Aplicada Aprendizado de Mquina Unicamp Arquitetura de Computadores, Processamento de Alto Desempenho Sistemas de Informao Multitemticas PUC-Rio Engenharia de Software, Mtodos Formais Sistemas de Informao Web, Sistemas Multimdia e Hipermdia USP/SC Web, Sistemas Multimdia e Hipermdia Multitemticas Engenharia de Software, Mtodos Formais USP/SP Arquitetura de Computadores, Processamento de Alto Desempenho Computao Grca, Processamento de Imagens Algoritmos e Teoria da Computao

Programa

65 65 64 49 29 16

36 14 14 14 27 12 11 14 12 10 10 10 9 9 16 14 8 10 10 10 10 8 8

54

Captulo 5. Anlise dos Dados

Figura 5.6.

2006.

Subreas - Programas Brasileiros. Filtros: Qualis AI, Anos 2004-

da Cincia da Computao so as que possuem mais artigos:

Arquitetura de Computadores, Redes de Computadores, Bancos de Dados, Algoritmos e Inteligncia Articial.


A Figura 5.8 faz uma anlise dos programas europeus. Foram considerados os artigos de classicao Qualis A Internacional no trinio 2004-2006. Os programas com mais artigos so os de Cambridge, ETH Zrich e Imperial College. Em Cambridge

notamos vrias subreas com muitas publicaes e muitos docentes, em detrimento do Imperial College, onde as reas com muitas publicaes possuem poucos docentes

Computao Grca, Concepo de Circuitos Integrados, Engenharia de Software e Mtodos Formais ). Isso pode ser um indcio que o grau de colaborao entre esses
( docentes seja menor no Imperial College do que em Cambridge. Por m, a Figura 5.9 mostra os dados dos programas norte-americanos. Foram considerados os artigos de classicao Qualis A Internacional no trinio 2004-2006. O programa com mais artigos o de Illinois, que possui vrias publicaes nas reas de

5.4.

Consideraes Finais

55

Figura 5.7.

Subreas - Todos os programas. Filtros: Qualis AI, Anos 2004-2006.

Arquitetura de Computadores, Redes de Computadores, Bancos de Dados e Computao Grca. Outros programas em destaque so os de Stanford, Toronto e UC Berkeley. A subrea Algoritmos a de maior destaque em seis programas: Waterloo, MIT, Cornell, Washington, Princeton e Harvard. Outras reas de destaque so Arquitetura de Computadores, Computao Grca, Redes de Computadores e Bancos de Dados. A subrea de Arquitetura de Computadores de Illinois possui mais artigos que todas as
subreas de Harvard, essa por sua vez possui um corpo docente bem menor que Illinois (6 vezes menor).

5.4 Consideraes Finais


Os resultados obtidos mostram que o nmero de publicaes dos programas nacionais comparvel a de alguns dos principais programas da Amrica do Norte e da Europa. possvel perceber por meio das publicaes que os programas se especializam em determinadas subreas da Cincia da Computao. Quando analisamos os dados das

56

Captulo 5. Anlise dos Dados

2006.

Figura 5.8.

Subreas - Programas Europeus. Filtros: Qualis AI, Anos 2004-

citaes, percebemos que o impacto da produo cientca dos programas nacionais comparvel ao impacto dos programas estrangeiros analisados.

5.4.

Consideraes Finais

57

Figura 5.9.

2004-2006.

Subreas - Programas norte-americanos. Filtros: Qualis AI, Anos

Captulo 6 Concluses e Trabalhos Futuros


Neste trabalho, foi realizada uma anlise multidimensional da produo cientca em Cincia da Computao. Para isso foi desenvolvido um armazm de dados para publicaes cientcas. Os dados das publicaes foram obtidos em trs etapas: primeiramente foi realizada uma coleta manual dos docentes dos programas analisados, seguida da coleta automtica dos artigos dos autores na biblioteca digital DBLP, e por m, da coleta automtica das citaes no Google Scholar. O armazm de dados gerado permite uma srie de anlises sobre publicaes cientcas. O repositrio foi disponibilizado na Web

para permitir a sua utilizao e con-

sulta sem a necessidade de se instalar ferramentas adicionais. Uma ferramenta OLAP foi usada para permitir uma anlise dos dados, trazendo exibilidade e facilidade na gerao das consultas. O armazm de dados gerado foi utilizado para estudar o perl de publicao dos principais programas de ps-graduao em Cincia da Computao do pas. Os

resultados obtidos complementam o estudo realizado no contexto do projeto Perl-CC [Laender et al., 2008] com uma anlise do impacto das citaes dos artigos publicados pelos programas e o estudo da distribuio das publicaes por subreas da Cincia da Computao. Considerando as publicaes entre 2004-2006 cuja classicao Qualis A Internacional, os programas nacionais (PUC-Rio, UFRJ/COPPE, UFMG, UFPE, UFRGS, UNICAMP, USP/SP e USP/SC) possuem uma mdia entre 1,50 e 3,38 publicaes por docente. Esse volume de publicaes comparvel ao de pelo menos seis dos programas internacionais analisados (Oxford, Caltech, British Columbia, cole Polytechnique, Paris VI e Cambridge) que possuem uma mdia entre 1,51 e 3,85 publicaes por docente.

1 http://www.latin.dcc.ufmg.br:8080/perlccDW/
59

60

Captulo 6. Concluses e Trabalhos Futuros

Conclumos que o nmero de publicaes dos programas brasileiros comparvel aos da Amrica do Norte e da Europa, o que mostra a insero internacional desses programas. Analisamos tambm as citaes recebidas pelas publicaes geradas pelos programas. Considerando as publicaes do perodo 2004-2006 cuja classicao Qualis A Internacional, na poca da coleta dos dados (junho de 2008), o nmero de citaes por artigo 8,98 para os programas brasileiros, 19,29 para os europeus e 31,36 para os norte-americanos. Se considerarmos os dois programas brasileiros mais bem colocados (UFMG e PUC-Rio), essa mdia vai para 14,57, prximo de Waterloo, cole Polytechnique, Imperial College e Paris VI (citaes na faixa 11,41 - 18,93), mostrando que o impacto da produo cientca desses programas, representada por artigos publicados em peridicos e conferncias internacionais, comparvel ao impacto de alguns dos principais programas da Amrica do Norte e da Europa. Complementando a anlise com o ndice h, os programas brasileiros possuem um ndice h mdio prximo ao de sete programas internacionais: Waterloo, Caltech, British Columbia, Oxford, cole Polytechnique, Paris VI e Cambridge. Em mdia, o ndice h dos docentes dos programas brasileiros 1,71, contra 2,10 dos europeus e 4,42 dos norte-americanos. Analisamos ainda a distribuio das subreas dos programas. Foi possvel notar que cada programa especializa-se numa determinada subrea e que a distribuio dessas subreas heterognea. Alm disto, as subreas mais tradicionais da Cincia da Computao, Arquitetura de Computadores, Redes de Computadores, Bancos de Dados, Algoritmos e Inteligncia Articial, so as que apresentam maior produtividade em termos de artigos publicados. Com relao a trabalhos futuros que possam complementar o que foi desenvolvido, destacamos:

A adio dos dados de outros programas de ps-graduao em Cincia da Computao ao armazm de dados, como, por exemplo, os programas brasileiros com conceitos 3 e 4 na CAPES ou programas de outros pases, para ampliar o escopo da anlise.

Avaliao do perl evolutivo dos programas de ps-graduao para avaliar a tendncia de um programa ter seu conceito melhorado na CAPES.

Utilizao do arcabouo desenvolvido para anlise de programas de outras reas, como Fsica ou Biologia.

Referncias Bibliogrcas
Abell, A.; Samos, J. & Saltor, F. (2001). A Framework for the Classication and

Proceedings of the 12th International Conference on Database and Expert Systems Applications, pp. 668677, Munich,
Description of Multidimensional Data Models. In Germany. Alvarado, R. U. (2009). Obsolescncia da literatura sobre a Lei de Lotka.

Revista de

Cincia da Informao, 10(1):118.


Arruda, D.; Bezerra, F.; Neris, V. A.; de Toro, P. R. & Wainer, J. (2009). lian Computer Science research: gender and regional distributions. 79(3):651665. Barbieri, C. (2001). Brazi-

Scientometrics,

BI - Business Intelligence - Modelagem & Tecnologia. Axcel Books. XVI Jornada de

Campos, M. L. & Rocha Filho, A. V. (1997). Data warehouse. In

Atualizao em Informtica, pp. 221261, Braslia, DF.


Chaudhuri, S. & Dayal, U. (1997). technology. An overview of data warehousing and OLAP

ACM Sigmod Record, 26(1):6574.

Codd, E. F.; Codd, S. B. & Salley, C. T. (1993). Providing OLAP to user-analysts: An IT mandate. San Jose, California. E.F. Codd and Associates. Gareld, E. & Merton, R. (1979).

Citation indexing: Its theory and application in science, technology, and humanities. Wiley, New York.
An index to quantify an individual's scientic research output.

Hirsch, J. (2005).

Proceedings of the National Academy of Sciences, 102(46):1656916572.


Hsemann, B.; J., L. & G., V. (2000). Conceptual Data Warehouse design. In

2nd.

International Workshop On Design and Management of Data Warehouses,


Stockholm, Sweden. 61

pp. 39,

62

Referncias Bibliogrficas

Inmon, W. H. (1996).

Building the data warehouse.


Wiley.

Wiley.

Kimball, R. & Ross, M. (2002).

The Data Warehouse Toolkit: The Complete Guide to The Data

Dimensional Modeling.

Kimball, R.; Ross, M.; Thornthwaite, W.; Mundy, J. & Becker, B. (2008).

Warehouse Lifecycle Toolkit.

Wiley, 2 edio.

Laender, A. H. F.; de Lucena, C. J. P.; Maldonado, J. C.; de Souza e Silva, E. & Ziviani, N. (2008). Assessing the research and education quality of the top Brazilian Computer Science graduate programs. 145. Ley, M. (2002). The DBLP Computer Science Bibliography: Evolution, Research

ACM SIGCSE Bulletin Inroads,

40(2):135

Proceedings of the 9th International Symposium on String Processing Information Retrieval, pp. 110, Lisboa, Portugal.
Issues, Perspectives. In Ley, M. & Reuther, P. (2006). Maintaining an Online Bibliographical Database: The Problem of Data Quality. In

Actes des Siximes Journes Extraction et Gestion des

Connaissances, pp. 510, Lille, France.


Martins, W. S. (2009). Abordagens para Avaliao Automtica de Conferncias Cientcas: Um Estudo de Caso em Cincia da Computao. Master's thesis, Programa de Ps-Graduao em Cincia da Computao da Universidade Federal de Minas Gerais. Martins, W. S.; Gonalves, M. A.; Laender, A. H. F. & Pappa, G. L. (2009). Learning to Assess the Quality of Scientic Conferences: A Case Study in Computer Science. In

Proceedings of the 9th ACM/IEEE Joint Conference on Digital Libraries,

pp.

193202, Austin, Texas. Mattern, F. (2006). Pitfalls. Bibliometric Evaluation of Computer Science - Problems and

Invited Talk, SARIT 06: Swiss IT Professors' Day, Swiss Association for Research in Information Technology, Basel, Switzerland.
Menezes, G. V.; Ziviani, N. & Laender, A. H. F. (2008). Um Estudo Comparativo de Redes Sociais em Cincia da Computao. In

Workshop on Information Visualization

and Analysis in Social Networks, pp. 110, Campinas, SP.


Menezes, G. V.; Ziviani, N.; Laender, A. H. F. & Almeida, V. (2009). A Geographical Analysis of Knowledge Production in Computer Science. In

Proceedings of the 18th

International Conference on World Wide Web, pp. 10411050, Madrid, Spain.

Referncias Bibliogrficas

63

Messaoud, R. B.; Boussaid, O. & Rabasda, S. (2004). A new OLAP aggregation based on the AHC technique. In

Proceedings of the 7th ACM International Workshop on Data Warehousing and OLAP, pp. 6572, Washington, DC.
Analysis of SIGMOD's co-

Nascimento, M. A.; Sander, J. & Pound, J. (2003). authorship graph.

SIGMOD Record, 32(3):810.

Newman, M. E. J. (2004). Coauthorship Networks and Patterns of Scientic Collaboration.

Proceedings of the National Academy of Sciences, 101:52005205. Australian Computer Science Communicati-

Pedersen, D.; Riis, K. & Pedersen, T. B. (2002). A powerful and SQL-compatible data model and query language for OLAP.

ons, 24(2):121130.
Pedersen, T. B.; Shoshani, A.; Gu, J. & Jensen, C. S. (2000). querying to external object databases. In Extending OLAP

Proceedings of the 9th International Conference on Information and Knowledge Management, pp. 405413, McLean, VA.
Petricek, V.; Cox, I. J.; Han, H.; Councill, I. G. & Giles, C. L. (2005). Comparison of On-line Computer Science Citation Databases.

Proceedings of 9th European Conference on Research and Advanced Technology for Digital Libraries, pp. 438
In 449, Vienna, Austria.

Shneiderman, B. & Wattenberg, M. (2001). Ordered Treemap Layouts. In

Proceedings

of the IEEE Symposium on Information Visualization 2001,


California.

pp. 7378, San Diego,

Shoshani, A. (1997). OLAP and statistical databases: similarities and dierences. In

Proceedings of the 16th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, pp. 185196, Tucson, Arizona.
Silva, A. J.; Modesto, M. A.; Gonalves, M. A.; Cristo, M.; Laender, A. H. & Ziviani, N. (2006). Busca pelo Texto Completo de Artigos Catalogados em uma Biblioteca Digital. In

II Workshop de Bibliotecas Digitais, pp. 7180, Florianpolis, SC.

Trujillo, J.; Palomar, M. & Gmez, J. (2000). Applying Object-Oriented Conceptual Modeling Techniques to the Design of Multidimensional Databases and OLAP applications. In

Proceedings of 1st International Conference on Web-Age Information

Management, pp. 8394, Shanghai, China.

64

Referncias Bibliogrficas

Wainer, J.; Xavier, E. C. & Bezerra, F. (2009).

Scientic production in Computer

Science: A comparative study between Brazil and other countries. 81:535547.

Scientometrics,

Apndice A Tabelas

65

66

Apndice A. Tabelas

Tabela A.1.

2006).

Programas brasileiros mais produtivos por subrea (perodo 2004PUC-Rio

Subrea

Algoritmos e Teoria da Computao

Programa

Art Doc Subrea


5 1 12 6 8 3 36 7 10 8 3 5 4 16 8 10 10 3 27 10 3 7 4 6 3 10 5 7 12 4 4 8 5 4 49 3 16 6 14 5 14 3 10 8 4 3 10 1 7 3 4 3 1 5 5 12 6 7 4 3 6 8 3 4 3 4 2 5 4 2 7 4 3 4 4 2 9 5 3 6 5 4 3 2 10 4

Geoinformtica

UFRGS UFRGS

Programa

Art Doc
3 5 6 14 29 3 5 5 5 6 5 7 4 4 5 5 9 10 6 8 5 3 7 11 12 4 10 8 3 14 3 14 11 9 3 4 3 8 7 3 3 3 10

4 3

UFRJ/COPPE Unicamp USP/SP UFMG UFPE UFRGS UFRJ/COPPE USP/SC PUC-Rio UFMG UFPE UFRGS UFRJ/COPPE Unicamp USP/SP PUC-Rio UFMG UFRGS UFRJ/COPPE Unicamp USP/SC

Informtica na Educao Inteligncia Articial

Aprendizado de Mquina

PUC-Rio UFPE UFRGS UFRJ/COPPE USP/SC USP/SP PUC-Rio PUC-Rio UFPE PUC-Rio UFMG UFPE UFRGS UFRJ/COPPE Unicamp USP/SC UFRJ/COPPE Unicamp USP/SP UFRGS USP/SC UFMG UFMG UFPE UFRGS Unicamp UFMG PUC-Rio UFMG UFPE UFRGS Unicamp USP/SC UFRGS Unicamp PUC-Rio UFMG UFRGS UFRJ/COPPE Unicamp USP/SC

3 6 11 4 3 3 2 2 2 5 4 4 8 5 7 6 5 5 5 2 2 4 6 4 6 4 3 9 4 9 5 5 4 2 3 4 7 5 2 3 6

Arq Comput, Proc Alto Desempenho

IHC, Sistemas Colaborativos Linguagens de Programao Multitemticas

Bancos de Dados, Bibliot Digitais

Pesq Operac e Otimiz Combinatria Proc de Lngua Natural Recuperao de Informao Redes, Sist Distrib, Sistemas P2P

Biologia Computacional Computao Aplicada

USP/SP UFPE UFRJ/COPPE Unicamp USP/SC UFRGS Unicamp USP/SC

Computao Grca, PD Imagens

Computao Ubqua Concepo de Circuitos Integrados Eng Soft, Mtodos Formais

USP/SP UFMG UFPE UFRGS Unicamp PUC-Rio UFMG UFPE UFRGS UFRJ/COPPE Unicamp USP/SC UFRJ/COPPE

Simulao e Modelagem Sistemas de Informao

Sist Emb, T. Real, Tol. Falhas Web, Sist Multimd e Hipermd

Formalismos, Lgica, Semntica

67

Programas da Amrica de Norte mais produtivos por subrea (perodo 2004-2006).


Tabela A.2.

Subrea

Algoritmos e Teoria da Computao

CMU

Programa

Art Doc Subrea


35 9 44 24 46 68 52 38 22 37 31 79 35 39 42 28 44 32 147 38 42 55 33 40 45 49 44 24 87 55 62 31 24 46 33 22 35 29 80 48 72 28 34 25 60 10 4 12 11 10 13 12 12 6 30 12 7 16 14 9 14 36 15 13 16 13 18 13 12 11 6 11 13 10 8 3 11 7 7 13 9 13 12 15 11 8 9 13

Cornell Harvard Illinois MIT Princeton Stanford Toronto UC Berkeley Washington Waterloo CMU Illinois Stanford Toronto UTexas Austin

Concepo de Circuitos Integrados

Programa
Stanford Toronto CMU Illinois Toronto Waterloo CMU Harvard Illinois Stanford Toronto UTexas Austin Washington Waterloo Toronto Illinois MIT Stanford UC Berkeley UTexas Austin Waterloo Illinois UC Berkeley Cornell Illinois MIT Stanford Toronto UC Berkeley UTexas Austin Wisconsin Illinois Stanford Illinois CMU Illinois MIT Toronto Illinois

Art Doc
27 22 22 37 38 35 48 24 63 46 48 44 24 44 23 30 27 26 29 26 28 30 35 27 102 48 42 29 51 34 37 23 30 53 29 65 28 28 42

Eng Soft, Mtodos Formais

5 6 22 7 11 14 7 18 18 20 9 10 19 4 16 10 13 10 9 13 7 15 11 25 20 15 12 14 11 12 11 9 14 5 8 5 11 14

Inteligncia Articial

Aprendizado de Mquina

Arq Comput, Proc Alto Desempenho

CMU Illinois MIT Princeton Stanford Toronto UC Berkeley UTexas Austin Wisconsin CMU Cornell Illinois Stanford Toronto UC Berkeley Washington Waterloo Wisconsin

IHC, Sistemas Colaborativos Linguagens de Programao

Minerao de Dados Multitemticas Redes, Sist Distrib, Sistemas P2P

Bancos de Dados, Bibliot Digitais

Segurana e Privacidade Sist Emb, T. Real, Tol. Falhas Viso Computacional

Biologia Computacional Computao Grca, PD Imagens

Stanford British Columbia Brown Illinois MIT Stanford Toronto UC Berkeley Washington Waterloo

Web, Sist Multimd e Hipermd

68

Apndice A. Tabelas

Tabela A.3.

2006).

Programas da Europa mais produtivos por subrea (perodo 2004Cambridge . Polytechnique ETH Zrich Imperial College Oxford Cambridge ETH Zrich Imperial College Paris VI Cambridge ETH Zrich Imperial College Paris VI Cambridge ETH Zrich Oxford Paris VI Cambridge . Polytechnique ETH Zrich Imperial College Cambridge ETH Zrich Oxford

Subrea

Algoritmos e Teoria da Computao

Programa

Art Doc Subrea


17 12 16 30 13 14 7 10 4 11 22 25 11 9 5 22 10 5 7 5 6 8 7 5 8 4 7 26 50 12 9 5 8 4 34 13 9 20 9 28 25 5 17 27 19 10 10 8 8 4 2 8 20 10 9 5 4 6 3 5 5 4 3 3 5 5 6 4 7 8 3 13 5 4 8 2 2 8 4 3 7 17 11 1 12 11

Inteligncia Articial

Programa

Cambridge

Art Doc
4 5 14 7 21 7 4 4 35 8 4 15 24 12 7 5 6 7 7 6 4 17 10 5 6 26 9 30 9 26 4 10 11 4 6 10 10 8 13 5 7 5 11 6 11

Aprendizado de Mquina

IHC, Sistemas Colaborativos Linguagens de Programao

ETH Zrich Imperial College Oxford Paris VI Cambridge ETH Zrich Oxford Cambridge . Polytechnique ETH Zrich Imperial College Oxford Cambridge . Polytechnique ETH Zrich Imperial College Oxford

5 8 3 12 7 2 3 12 7 4 7 10 10 3 5 4 7 7 2 3 12 8 3 3 18 4 8 10 13 4 8 5 4 4 3 11 7 14 2 4 6 3 5 5

Arq Comput, Proc Alto Desempenho

Bancos de Dados, Bibliot Digitais

Multitemticas

Biologia cional

Computa-

Pesq Operac e Otimiz Combinatria

. Polytechnique ETH Zrich Oxford Paris VI Cambridge Cambridge Paris VI Cambridge . Polytechnique ETH Zrich Imperial College Paris VI Paris VI Cambridge ETH Zrich Cambridge Paris VI ETH Zrich Imperial College Paris VI Cambridge . Polytechnique ETH Zrich Paris VI ETH Zrich Cambridge ETH Zrich

Computao cada

Apli-

Computao Grca, PD Imagens Computao Ubqua

Paris VI Cambridge ETH Zrich Imperial College Cambridge ETH Zrich Paris VI Cambridge ETH Zrich Imperial College Cambridge ETH Zrich Imperial College Oxford Cambridge . Polytechnique ETH Zrich Imperial College Oxford

Proc de Lngua Natural Recuperao de Informao Redes, Sist Distrib, Sistemas P2P

Concepo de Circuitos Integrados

Robtica, Controle e Automao Segurana e Privacidade Simulao e Modelagem Sistemas de Informao Sist Emb, T. Real, Tol. Falhas

Eng Soft, Mtodos Formais

Formalismos, Lgica, Semntica

Viso Computacional Web, Sist Multimd e Hipermd

You might also like