Professional Documents
Culture Documents
Barreto, Marco Aurlio Modesto M1234a Anlise Multidimensional da Produo Cientca em Cincia da Computao / Marco Aurlio Modesto Barreto. Belo Horizonte, 2009 xviii, 68 f. : il. ; 29cm Dissertao (mestrado) Universidade Federal de Minas Gerais Orientador: Nivio Ziviani 1. Armazns de Dados. 2. Bancos de Dados. 3. Bibliometria. I. Ttulo.
CDU 519.6*82.10
vii
Resumo
O nmero de programas de ps-graduao em Cincia da Computao no Brasil cresceu mais de 200% nos ltimos doze anos, tendo aumentado de 17 para 50 programas. Em face desse crescimento importante avaliar como a qualidade da produo cientca desses programas se compara de programas congneres em outros pases. O
objetivo desta dissertao realizar uma anlise da produo cientca em Cincia da Computao, a partir de dados coletados sobre os oito principais programas no pas de acordo com dados ociais da CAPES para o trinio 2004-2006 e 22 dos mais importantes programas norte-americanos e europeus. Para isso, o primeiro passo foi projetar e implementar um armazm de dados de publicaes cientcas dos 30 programas para permitir anlises multidimensionais de dados bibliogrcos. O armazm de dados proporciona uma anlise dos dados sob diversas dimenses, o que permite obter estatsticas sobre os programas de ps-graduao abordados pelo estudo, tais como: mdia de publicaes por docente por programa, distribuio das publicaes entre as subreas da Cincia da Computao, subreas mais populares por programa, mdia de citaes por artigo por programa, indicadores de produtividade por docente, por programa ou por pas, entre outras. Dessa forma, o arcabouo proposto permitiu a anlise do perl de publicao dos programas brasileiros em relao ao perl dos principais programas da Amrica do Norte e da Europa. Os resultados mostram que a produo cientca dos programas nacionais, representada por artigos publicados em peridicos e conferncias internacionais, comparvel em volume, qualidade e impacto a de alguns dos principais programas da Amrica do Norte e da Europa.
ix
Abstract
The amount of Computer Science graduate programs in Brazil has increased over 200% in the past twelve years, from 17 to 50 programs. In light of this growth, it is important to assess how the quality of the scientic production of these programs compares to their equivalent in other countries. The objective of this dissertation is to perform an analysis of the Computer Science scientic production, using data collected from the eight major programs in the country according to ocial data from CAPES for the triennium 2004-2006, and 22 of the most important programs in North America and Europe. Therefore, the rst step was to design and implement a data warehouse of scientic publications from the 30 programs to allow multidimensional analysis of bibliographic data. The data warehouse provides an opportunity for analysis using
several dimensions, which allows the acquisition of statistical data regarding the graduate programs related in this study, such as: average of publications per professor per program, publications distribution among subareas of Computer Science, most popular subareas per program, average of citations per article per program, productivity measurements per professor, per program or per country, among others. Thus, the
data warehouse proposed allowed the analysis of the Brazilian programs publication prole, compared to major programs in North America and Europe. Results demonstrate that national scientic production, represented by articles published in journals and international conferences, is comparable in volume, quantity and impact to some of the major programs in North America and Europe.
xi
Lista de Figuras
1.1 2.1 2.2 2.3 2.4 3.1 3.2 3.3 4.1 4.2 4.3 4.4 4.5 Nmero de programas em Cincia da Computao no Brasil. . . . . . . . . Exemplo de um esquema dimensional de uma base bibliogrca. . . . . . . Extrao, transformao e carga dos dados. Esquema estrela. . . . . . . . . . . . . . . . . . 1 13 15 17 18 24 25 27 30 31 32 33
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Pgina com listagem dos docentes do programa. . . . . . . . . . . . . . . . Interface de consulta do Google Scholar. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Esquema dimensional simplicado criado a partir do esquema relacional. Esquema relacional completo que representa o problema.
. . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cdigo utilizado para gerar os dados da tabela fato. . . . . . . . . . . . . . Tela do programa utilizado para modelar os cubos (Cube Designer). . . . . Tela do programa utilizado para editar os cubos e consultas (Eclipse). . . . Consultas disponibilizadas no ambiente Web gerado. . . . . . . . . . . . . . . . . . .
4.11 Grco gerado a partir da consulta Nmero de Artigos por Programa (2006). 40 4.12 Exemplo de 5.1
Drill Through.
. . . . . . . . . . . . . . . . . . . . . . . . . . .
41
Mdia de Publicaes por Docente no Trinio 2004-2006 dos Programas Analisados (Qualis AI). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 47 49
5.2 5.3
. . . . . . . . . . . . . . . . .
49 51 54 55 56
Consulta criada no ambiente para anlise das subreas. . . . . . . . . . . . Subreas - Programas Brasileiros. Filtros: Qualis AI, Anos 2004-2006. . . . Subreas - Todos os programas. Filtros: Qualis AI, Anos 2004-2006. . . . . Subreas - Programas Europeus. Filtros: Qualis AI, Anos 2004-2006. . . .
xiv
Lista de Tabelas
2.1 2.2 3.1 3.2 5.1 Exemplo da composio do fato publicao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 20 26 28 Fato publicao sumarizado em nveis mais altos.
Mdia de Publicaes por Docente no Trinio 2004-2006 dos Programas Analisados (Qualis AI). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 46 48 50 53 66
Citaes por artigo no perodo 2004-2006 . . . . . . . . . . . . . . . . . . . ndice h mdio por docente do programa - perodo 2004-2006 . . . . . . . . ndice h por programa - perodo 2004-2006 . . . . . . . . . . . . . . . . . . Principais subreas por programa de ps-graduao. . . . . . . . . . . . . . Programas brasileiros mais produtivos por subrea (perodo 2004-2006). . . Programas da Amrica de Norte mais produtivos por subrea (perodo 20042006). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67 68
A.3
xv
Sumrio
Resumo Abstract Lista de Figuras Lista de Tabelas 1 Introduo
1.1 1.2 1.3 1.4 1.5 1.6 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ix xi xiii xv 1
1 3 4 6 7 9
Contribuies
11
12 12 14 16 17 19 20 21
Esquema de Dados para o Armazm de Dados . . . . . . . . . . . . . . 2.2.1 2.2.2 2.2.3 Propriedades das Dimenses . . . . . . . . . . . . . . . . . . . . Propriedades dos Fatos . . . . . . . . . . . . . . . . . . . . . . . Cubos de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3
Consultas OLAP
3 Dados Utilizados
3.1 3.2 Dados do Projeto Perl-CC . . . . . . . . . . . . . . . . . . . . . . . . Docentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xvii
23
23 24
Publicaes
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25 26 28
29
29 29 31 32 35 35 35 36 40
Esquema Completo . . . . . . . . . . . . . . . . . . . . . . . . .
4.4
Consideraes Finais
43
43 45 51 55
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
59 61 65
xviii
Captulo 1 Introduo
1.1 Motivao
Segundo dados da CAPES (Coordenao de Aperfeioamento de Pessoal de Nvel Superior), o nmero de programas de ps-graduao em Cincia da Computao no Brasil cresceu mais de 200% nos ltimos doze anos, conforme ilustrado na Figura 1.1. Em face desse crescimento torna-se interessante fazer uma avaliao qualitativa da produo e da insero internacional dos principais programas da rea no Brasil, de modo que se possa estabelecer o papel que a rea vem desempenhando no desenvolvimento cientco e tecnolgico do pas. Em vista disso, foi criado na Universidade Federal de Minas Gerais (UFMG) um grupo para estudar o perl da produo cientca dos principais programas brasileiros de modo a compar-los com seus congneres da Amrica do Norte e da Europa.
Figura 1.1.
Captulo 1. Introduo
Como consequncia nasceu o Projeto Perl-CC , cujo objetivo principal comparar a produo cientca dos oito principais programas da rea do pas de acordo com a avaliao da Capes para o trinio 2004-2006 com a produo de vinte e dois dos mais importantes programas da Amrica do Norte e da Europa. Para realizar o estudo, o Projeto Perl-CC utiliza a
biblioteca digital
que contempla o maior volume de publicaes da rea de Cincia da Computao em todo o mundo [Petricek et al., 2005; Ley, 2002]. Um armazm de dados (do ingls
armazenar dados relativos s atividades de uma organizao, de forma consolidada. O desenho desse repositrio favorece os relatrios, a anlise de grandes volumes de dados e a obteno de informaes estratgicas que podem facilitar a tomada de deciso. O armazm de dados permite uma anlise dos dados sob diversas perspectivas ou dimenses, de forma exvel e bastante gil. A facilidade de analisar os dados sob
diversas dimenses leva ao conceito de anlise multidimensional. A ferramenta mais popular para explorao de um armazm de dados a
(OLAP) ou Processo Analtico em Tempo Real [Kimball et al., 2008]. O objetivo desta dissertao realizar uma anlise multidimensional da produo cientca em Cincia da Computao. O primeiro passo foi projetar e implementar
um armazm de dados de publicaes cientcas em Cincia da Computao para permitir anlises multidimensionais dos dados gerados pelo Projeto Perl-CC. A partir do armazm de dados podem ser obtidas diversas estatsticas sobre os 30 programas abordados pelo estudo, tais como: mdia de publicaes por docente por programa, distribuio das publicaes entre as subreas da Cincia Computao, subreas mais populares por programa, mdia de citaes por artigo por programa, indicadores de produtividade por docente, por programa ou por pas, entre outras. Neste contexto, foram coletados dados bibliogrcos da DBLP para cada docente relacionado aos 30 programas considerados no Projeto Perl-CC. A seguir foi utilizado o repositrio de publicaes Google Scholar
pelos artigos, o qual foi adicionado a um banco de dados relacional. Finalmente, os dados consolidados do banco de dados relacional foram transformados em um armazm de dados para permitir uma anlise multidimensional dos dados, de forma tempo real.
online
e em
1.2.
Trabalhos Relacionados
mostrou diferen-
as na diversidade dos relacionamentos da rede formada pelas subreas. Numa linha prxima, Menezes et al. [2009] analisam e mesma rede e faz uma anlise temporal das publicaes das trs regies estudadas (Brasil, Amrica do Norte e Europa). O estudo mostra a evoluo do nmero de pesquisadores por artigo, o crescimento do tamanho da rede e as divergncias das redes formadas pelos novos campos e pelos campos tradicionais da rea. Um estudo semelhante foi feito para as reas de Biologia, Fsica e Matemtica [Newman, 2004]. Nascimento et al. [2003] analisa o grafo de colaborao obtido por todos os artigos publicados entre 1975 e 2002 na conferncia ACM SIGMOD (
Entre os resultados, so
identicados os autores mais prximos a todos os demais. Alm disto, mostrado que a rede formada pelos autores da conferncia SIGMOD mais um exemplo de grafo que segue o fenmeno
small world 5 .
Martins et al. [2009] apresentam um mtodo para classicao automtica da qualidade de conferncias utilizando tcnicas de aprendizado de mquina. Tal estudo utilizou tcnicas de aprendizado de mquina que testaram o uso de vrias variveis para a soluo como o nmero de citaes, o nmero de submisses das conferncias,
que mede a conectividade da rede. Determinado pela razo entre o nmero de conexes entre vizinhos comuns a um n de referncia, dividido pelo nmero de possveis conexes entre os vizinhos comuns ao n. 5 Caractersticas de redes com alto grau de agrupamento (conectividade) e baixa distncia mdia entre os vrtices, independente do tamanho e da densidade da rede.
4 Mtrica
Captulo 1. Introduo
as taxas de aceitao, a tradio da conferncia e a reputao dos membros do comit de programa. conferncia. Arruda et al. [2009] fazem um estudo sobre o perl dos pesquisadores brasileiros em Cincia da Computao. Basicamente analisam a produo dos pesquisadores em termos da localizao geogrca dos seus programas e do sexo. Foram identicadas Concluiu-se que as mais importantes so as citaes e a tradio da
subreas com uma presena feminina expressiva, como por exemplo, Interao HumanoComputador e Inteligncia Articial e subreas predominantemente masculinas como Hardware e Redes de Computadores. Nas subreas com presena feminina, concluiu-se que as pesquisadoras tm mais publicaes que os pesquisadores. Nas outras reas, a diferena no foi estatisticamente signicativa. Em relao regio, concluiu-se que os pesquisadores esto concentrados no Sudeste e Sul do Brasil, regies que tambm obtm as maiores taxas de publicao por pesquisador. Wainer et al. [2009], em um trabalho complementar do mesmo grupo de pesquisa, fazem um estudo comparativo sobre publicaes em Cincia da Computao no Brasil e em outros pases, medido pelo nmero de artigos em peridicos e conferncias indexados pelo ISI (
Institute for
Scientic Information ).
2006].
1.3 Objetivos
O objetivo deste trabalho analisar o perl de publicao cientca da rea de Cincia da Computao, comparando-o com o perl de programas de grande prestgio internacional da Amrica do Norte e da Europa. So analisados o nmero de publicaes por docente, a qualidade das publicaes e diversas mtricas de citaes. Tambm so analisadas a distribuio das subreas da Cincia da Computao entre os programas analisados. O objetivo deste estudo analisar o comportamento dos programas brasileiros em relao ao comportamento dos principais programas da Amrica do Norte e da Europa, ressaltando as principais diferenas entre as subreas. Para realizar o estudo dos dados so utilizadas tcnicas de anlise multidimensional por meio da implementao de um armazm de dados de publicaes cientcas. Um armazm de dados fornece um mtodo para se acessar, visualizar e analisar uma grande quantidade de dados com alta exibilidade e desempenho, alm de disponibilizar recursos de criao automtica de grcos e exportao dos dados para uma planilha eletrnica. A principal vantagem do ambiente proposto permitir a obten-
1.3.
Objetivos
o de respostas rpidas a consultas de natureza tipicamente dimensional, permitindo uma anlise exvel, gil e mais rica dos dados gerados. utilizao do ambiente proposto so: Algumas das vantagens da
Maior exibilidade para analisar os dados, permitindo diferentes vises; Obteno de informao mais rica; Facilidade para criao de consultas sem depender de um especialista que conhea a linguagem SQL ;
Gerao automtica de grcos a partir dos ltros aplicados e das vises selecionadas;
Flexibilidade na granularidade dos dados, permitindo tanto a anlise macro (alto nvel) dos dados, como por exemplo o nmero de publicaes por professor, quanto a anlise micro (baixo nvel), como por exemplo, a listagem de todas as X publicaes do professor Y;
Exportao dos dados por meio de planilhas eletrnicas, permitindo que os usurios possam manipul-los para novas anlises.
Programa de ps-graduao (Ex.: UFMG, Princeton, Paris VI). Localizao geogrca do programa (Ex.: Brasil, Amrica do Norte ou Europa). Docente do programa (Ex.: Virglio Almeida). Autor de um artigo (pode ou no ser um docente dos programas analisados)(Ex.: Cristiano Cazita).
Artigo publicado (Ex.: Characterizing a spam trac). Veculo onde um artigo foi publicado (Ex.: ACM SIGCOMM). Classicao Qualis do veculo de publicao (Ex.: AI ). Ano da publicao (Ex.: 2004).
Query Language ) - Linguagem de consulta declarativa para bancos de dados relacional. da qualidade do veculo de publicao fornecida pela CAPES. AI corresponde a um veculo de alta (A) qualidade e de circulao internacional (I)
7 Avaliao
6 Structured
Captulo 1. Introduo
O ambiente gerado foi disponibilizado na Web , sendo facilmente adaptvel para anlise de outras bases de dados. Este trabalho utilizou ferramentas gratuitas e de
cdigo aberto, por se adequarem melhor aos recursos existentes no laboratrio onde o ambiente foi disponibilizado e por possurem, em geral, custos mais baixos.
1.4 Contribuies
Conforme j mencionado, a principal contribuio deste trabalho uma anlise multidimensional do perl de publicao dos programas brasileiros em relao ao perl dos principais programas da Amrica do Norte e da Europa, ressaltando as principais diferenas entre as subreas destes programas. Podemos citar as seguintes contribuies especcas: 1. Construo de um armazm de dados de publicaes cientcas disponibilizado na Web (vide Captulo 4). A construo gerou um ambiente com uma base com grande qualidade dos dados, alm de permitir a obteno de diversas estatsticas sobre os 30 programas abordados com exibilidade de anlise. 2. Anlise do perl de publicao sob a tica do nmero de publicaes por programa, comparando os programas brasileiros, os norte-americanos e os europeus. Discutimos esta anlise na Seo 5.1. Conclumos que a produo cientca dos programas nacionais, representada por artigos publicados em peridicos e conferncias internacionais, comparvel em volume e qualidade a de alguns dos principais programas da Amrica do Norte e da Europa. 3. Anlise das mtricas de citaes das publicaes dos programas. Esta discusso apresentada na Seo 5.2. O nmero de citaes por artigo para os dois programas brasileiros mais bem colocados comparvel ao impacto de alguns dos principais programas da Amrica do Norte e da Europa. Considerando o ndice h, os oito programas brasileiros possuem um ndice h compvel a de vrios programas da Amrica do Norte e Europa. 4. Anlise da distribuio das subreas dos programas analisados. detalhado na Seo 5.3. Este tpico
numa determinada subrea e que a distribuio das subreas heterognea. Alm disto, as reas mais tradicionais da Cincia da Computao so as que possuem mais artigos: Arquitetura de Computadores, Redes de Computadores, Bancos de Dados, Algoritmos e Inteligncia Articial.
8 http://www.latin.dcc.ufmg.br:8080/perlccDW/
1.5.
Indicadores Bibliomtricos
O crescimento de qualquer campo da cincia, segundo a variao cronolgica do nmero de trabalhos publicados nesse campo;
O envelhecimento dos campos cientcos [Alvarado, 2009], segundo a vida mdia das referncias de suas publicaes;
A produtividade dos autores ou instituies, medida pelo nmero de seus trabalhos publicados;
A colaborao entre os pesquisadores ou instituies, medida pelo nmero de autores por trabalho ou centros de investigao que colaboram;
O impacto ou visibilidade das publicaes dentro da comunidade cientca internacional, medido pelo nmero de citaes que recebem em trabalhos posteriores;
A anlise e avaliao das fontes difusoras dos trabalhos, por meio de indicadores de impacto das fontes;
Um dos indicadores bibliomtricos mais utilizados o fator de impacto [Gareld & Merton, 1979], tambm chamado de SCI ( (
das pela comunidade acadmica para avaliar peridicos em diversos campos cientcos, incluindo a rea de Cincia da Computao. O fator de impacto oferece uma forma de avaliar ou comparar a importncia relativa dos artigos de um peridico em relao a artigos de outros peridicos do mesmo campo, sendo aplicado sobre o conjunto de artigos de um peridico para avaliar indiretamente esse peridico. O clculo do fator
Captulo 1. Introduo
de impacto feito dividindo-se o nmero de citaes de artigos publicados em um determinado ano em artigos dos dois anos anteriores, pelo nmero de artigos publicados nesses dois anos. Por exemplo, o fator de impacto de um peridico X em 2004 determinado pela soma das citaes recebidas em 2004 dos artigos publicados em 2002 e 2003. Assim, se esse peridico publicou 542 artigos em 2002 e 543 em 2003, e em 2004 esses artigos receberam 4.122 citaes, o fator de impacto deste peridico 3,799 (4.122 / (542 + 543)). Uma das desvantagens do fator de impacto sua cobertura limitada para determinadas reas como a Cincia da Computao. De acordo com Mattern [Mattern, 2006], os dados do ISI no se mostram adequados para estudos bibliomtricos na rea de Cincia da Computao j que focam principalmente as reas de Cincias Naturais e Cincias da Vida, e abrangem um nmero reduzido de conferncias. Ainda segundo Mattern [Mattern, 2006], um levantamento feito com base na produo cientca de 2003 do ETH de Zurique mostrou que o banco de dados do ISI cobria apenas 14% das publicaes em Cincia da Computao daquela instituio enquanto a cobertura nas reas de Fsica, Qumica e Biologia era bem maior, alcanando patamares em torno de 60%. O ndice h (do ingls h-index) outro indicador proposto para quanticar a produtividade e o impacto de cientistas baseando-se nos seus artigos mais citados. Foi proposto em 2005 por Jorge E. Hirsch como uma ferramenta para determinar a qualidade relativa dos trabalhos de fsicos tericos [Hirsch, 2005]. A vantagem do
ndice h em relao a outras mtricas de citaes que ele no inuenciado por poucos artigos de grande visibilidade. O ndice determinado pelo nmero de artigos com citaes maiores ou iguais a esse nmero. Por exemplo: um pesquisador com h = 5 tem 5 artigos que receberam 5 ou mais citaes; um programa de ps-graduao com h = 20 tem 20 artigos com 20 ou mais citaes; e assim por diante. O ndice h tambm pode ser aplicado para estimar a produtividade e o impacto de um grupo de cientistas, um programa de ps-graduao, um pas, e assim por diante. Apesar de ainda ter que provar seu valor e suplantar outras mtricas tradicionais, como a enumerao do nmero de artigos, enumerao do nmero de citaes e fator de impacto dos peridicos nos quais se publica, o ndice h est ganhando cada vez mais adeptos. Hirsch comparou o ndice h com outros ndices comumente usados para analisar a produo cientica de um pesquisador e fez as seguintes observaes:
1. Nmero total de artigos. Vantagem: mede a produtividade. Desvantagem: no mede a importncia e o impacto de cada artigo.
1.6.
Estrutura da Dissertao
Vantagem:
Desvantagem: pode ser insuado por um pequeno nmero de artigos de grande visibilidade, os quais podem no ser representativos do indivduo se ele um co-autor com vrios outros autores nos artigos. 3. Citaes por artigo. Vantagem: permite a comparao de cientistas de diferentes idades. Desvantagem: privilegia a baixa produtividade e penaliza a alta produtividade. Alguns autores ressaltam que o ndice h, quando tomado de modo absoluto, no pode ser usado para comparar pesquisadores de diferentes reas. Um ndice h
considerado bom em determinada rea, em outras pode no ser to bom assim ou mesmo ser considerado ruim. Os maiores valores de ndice h so encontrados entres pesquisadores ligados s cincias da vida. Alm do fator de impacto e do ndice h, vrios outros indicadores aparecem propostos na literatura, como por exemplo, o
Weighted PageRank
eo
G-index.
Entretanto,
uma descrio e discusso desses indicadores foge ao escopo desta dissertao e podem ser encontradas em Martins [2009].
armazenamento e manipulao de dados, ainda se observa uma enorme decincia na obteno de informaes estratgicas que possam auxiliar o processo decisrio [Kimball et al., 2008]. Em vista disso, tecnologias que suportam a anlise de informaes vm ganhando destaque na atualidade. Uma delas o processo de armazenagem de dados (do ingls
data warehousing ), que oferece s organizaes uma maneira exvel e eciente de obter
informaes a partir dos dados que apoiem seus processos de tomada de deciso. Com o objetivo de apresentar uma viso geral desses conceitos, este captulo est estruturado como se segue. A Seo 2.1 enfatiza os principais conceitos relacionados a armazm de dados. A Seo 2.2 mostra os esquemas de dados utilizados em armazm de dados. Real. 11 A Seo 2.3 detalha as consultas OLAP - Processo Analtico em Tempo
12
sistemas de gerenciamento de bancos de dados para o tratamento diferenciado do armazenamento e acesso s informaes, levando em conta no somente a natureza e relacionamento dos dados, mas tambm as necessidades das aplicaes. Neste con-
texto, surgiram os sistemas de apoio deciso com seus sistemas de gerenciamento de bancos de dados e ferramentas especcas para a manipulao de informaes analticas. Entre estas ferramentas destaca-se a tecnologia de armazenagem de dados que considerada a evoluo natural dos ambientes de apoio deciso [Kimball et al., 2008]. Um armazm de dados um sistema de computao utilizado para armazenar informaes relativas s atividades de uma organizao em bancos de dados. O desenho do banco de dados favorece os relatrios, a anlise de grandes volumes de dados e a obteno de informaes estratgicas que podem facilitar a tomada de deciso. Esse banco de dados preparado em vrios nveis de granularidade e obtido a partir de outros sistemas computacionais da organizao (sistemas legados). A ideia extrair dados analticos dos sistemas de produo, transform-los e armazen-los em vrios graus de relacionamento e sumarizao, de forma a facilitar e agilizar os processos de tomada de deciso. Os dados armazenados em um armazm de dados so analisados por meio de ferramenta especca para 2001].
(OLAP) [Barbieri,
2.1.
Anlise Multidimensional
13
volume de dados e no so simples nem frequentes, no sendo conveniente a normalizao das tabelas, pois no ambiente de anlise OLAP ocorrem poucas transaes concorrentes e cada transao acessa um grande nmero de registros. Outro ponto que distingue os bancos de dados relacionais das aplicaes OLAP est relacionado com a modelagem dos dados. As aplicaes OLAP no utilizam o
esquema relacional tradicional, como ocorre com os bancos de dados, pois este esquema utilizado no projeto de bancos de dados com dados no redundantes. Elas utilizam o esquema dimensional. Diferente do esquema relacional, o esquema dimensional muito assimtrico. Nele existe uma grande tabela dominante no centro do esquema, a qual se conecta com as demais por meio de mltiplas junes, enquanto o restante das tabelas se liga tabela central por meio de uma nica juno. A tabela central chamada de tabela fato e as demais tabelas so chamadas de tabelas de dimenses. As junes s ocorrem entre as tabelas Fato e Dimenses, melhorando o desempenho para a leitura. O esquema
dimensional possui uma estrutura mais intuitiva, permitindo uma consulta mais fcil para usurios no especializados [Kimball & Ross, 2002]. Um exemplo de esquema dimensional apresentado na Figura 2.1. Trata-se de uma modelagem que representa um banco de dados com dados bibliogrcos de pesquisadores da rea de Cincia da Computao. As informaes extradas so simplesmente contagens das ocorrncias das dimenses, como por exemplo, o nmero de artigos, nmero de autores e o nmero de veculos de publicaes. Na tabela fato, cada linha
representa um artigo escrito por um professor (autor) de um dos programas avaliados. Uma possvel medida para o fato seria o nmero de citaes contabilizadas para cada artigo.
Figura 2.1.
Normalmente, a tabela de dimenses contm uma nica chave primria e vrios atributos que descrevem essa dimenso com detalhes. Na tabela fato, a chave primria
14
a combinao das demais chaves primrias das tabelas de dimenso, constituindose, assim, de vrias chaves estrangeiras, de acordo com o nmero de dimenses. Os
dados pertencentes tabela fato so normalmente numricos. O esquema dimensional tambm chamado de esquema estrela (do ingls
que so dispostas as tabelas do diagrama com a tabela fato no centro e um conjunto de tabelas de dimenso nas extremidades (o que pode ser percebido na Figura 2.1). Segundo Pedersen [Pedersen et al., 2000], o esquema multidimensional permite a realizao de consultas visuais e suporta a semntica do esquema, podendo automaticamente escolher as funes mais adequadas para agregar em um nvel mais alto os dados que manipula. Para tanto, os dados so organizados em cubos de diversas dimenses. Cada dimenso consiste em um conjunto de descritores categricos organizados em estruturas hierrquicas [Messaoud et al., 2004]. O usurio pode realizar operaes no cubo, agregando dados em dimenses superiores ( cendo nas inferiores (
roll-up ),
desagregando-os, des-
A abordagem dimensional permite o uso automtico de funes de agregao e de consulta visual, alm de bom desempenho e do fato de ser mais natural para a anlise de dados [Pedersen et al., 2002]. As duas tecnologias principais para a construo de cubos multidimensionais so a ROLAP (OLAP Relacional) e a MOLAP (OLAP Multidimensional) [Shoshani, 1997]. A primeira usa bancos de dados relacionais tradicionais, nos quais os dados
star
schema )
A segunda normalmente
utiliza estruturas de dados proprietrias para armazenar o cubo de dados, tornando o processamento mais rpido. Esta ltima, no entanto, no se integra naturalmente tecnologia existente, exigindo uma importao dos dados para o sistema multidimensional proprietrio.
eliminados, combinados, validados, consolidados, agregados e sumariados) antes de serem carregados no armazm de dados. Esta uma etapa crtica da construo de um armazm de dados, pois envolve toda a movimentao dos dados. A mesma se d basicamente em trs passos, conhecidos como ETL: Extrao ( (
Extraction ), Transformao
2.1.
Anlise Multidimensional
15
Figura 2.2.
Extrao
A extrao o primeiro passo na obteno de dados para o ambiente de um armazm de dados. Signica basicamente ler e entender as fontes de dados e copiar as partes necessrias para a rea de transformao de dados, a m de serem trabalhadas posteriormente [Kimball & Ross, 2002]. Os programas de extrao devem dar suporte
captura incremental dos dados que equivale a uma replicao baseada em dados modicados para posterior distribuio ao armazm de dados.
Transformao
Uma vez que os dados tenham sido extrados dos sistemas-fonte, um conjunto de transformaes deve ser processado sobre esses dados, convertendo-os em formato vlido para o negcio e adequado para carga. A transformao dos dados pode envolver um ou vrios processos, dependendo da necessidade e situao. Alguns dos processos mais comumente utilizados so:
Desnormalizao
de dados separadas em vrias tabelas devido normalizao, dentro de uma nica dimenso, de forma desnormalizada.
16
Carga
Aps os dados serem transformados, eles so carregados no armazm de dados. A carga dos dados tambm possui uma enorme complexidade, sendo que os seguintes fatores devem ser levados em conta:
que so chaves estrangeiras com suas respectivas tabelas para certicar-se de que os dados existentes na tabela da chave estrangeira esto de acordo com a tabela da chave primria;
mente feita para tabelas de fatos e a carga total feita em tabelas de dimenso onde o analista tem que excluir os dados existentes e inclu-los novamente. Mas isso depende da necessidade do negcio em questo.
tcnicas para otimizar o processo de carga, tais como evitar a gerao de log durante o processo, criar ndices e agregar dados. Muitas dessas caractersticas podem ser
executadas nos bancos de dados ou registradas em ferramentas sobre a rea de organizao de dados.
scripts
portar as exigncias antes e depois da carga atual, como eliminar e recriar ndices e
2.2.
17
star
schema ), pois sua representao grca lembra o formato de uma estrela, com a tabela
fato no centro e as dimenses nas pontas (Figura 2.3). O esquema estrela deu origem a diversas variantes, principalmente nos esquemas lgicos e fsicos, adaptando-se s diferentes necessidades e aos produtos comerciais. Entre estes, os mais utilizados em bancos de dados relacionais so o esquema estrela tradicional, que possui os nveis de dimenses desnormalizados e o esquema oco de neve (do ingls
Snow Flake ),
que
possui os nveis de dimenses normalizados, formando uma hierarquia de nveis explcita e no redundante [Kimball et al., 2008].
Figura 2.3.
Esquema estrela.
Drill-Down e Roll-Up, as quais aumentam ou diminuem o nvel de detalhamento dos dados de uma consulta [Barbieri, 2001]. Para a dimenso Tempo, por exemplo, podemos ter os seguintes membros: Datas (01/12/2007, 05/01/2008, 10/02/2008, 20/02/2008), Meses (11/2007, 01/2008, 02/2008) e Anos (2007, 2008), como ilustrado da Figura 2.4. Estes membros so organizados em trs nveis hierrquicos: data, ms e ano, sendo que os valores (mtricas) associados a 10/02/2008 e 20/02/2008 iro compor a mtrica
18
do ms 02/2008, que por sua vez ir compor a mtrica do ano de 2008 juntamente com os valores dos meses 12/2007 e 01/2008. Na Figura 2.4, o membro de nome 12/2008, pertence ao nvel Ms e possui como membro superior o membro denominado 2008. A diviso hierrquica de uma dimenso chamada de hierarquia de classicao e pode possuir diferentes caminhos hierrquicos [Abell et al., 2001]. A maioria dos autores costuma representar a hierarquia de classicao por meio de um grafo acclico dirigido, onde os ns representam os nveis e os arcos apontam os caminhos possveis de sumarizao [Trujillo et al., 2000].
Figura 2.4.
um identicador nico utilizado nos relacionamentos internos do armazm de dados (geralmente um nmero binrio ou hexadecimal);
um nome para identicao pelo usurio; a indicao do nvel hierrquico ao qual pertencem; uma lista de identicadores de seus membros superiores (ou ancestrais), isto , os membros pais que utilizam ele (lho ou descendente) para sumarizar dados.
Os membros de dimenso podem possuir atributos descritivos para caracterizlos melhor [Hsemann et al., 2000]. Esses atributos podem servir de parmetros em operaes de seleo de membros ou como informao adicional nos resultados das consultas. Os atributos descritivos so denidos nos nveis de dimenso. Para o nvel
2.2.
19
Data, por exemplo, poderamos ter os atributos: Semana, Dia da Semana, etc.
Flag
de Feriado,
Flag
de Fim de
Tempo, Localizao geogrca, Programa, Docente, Veculo ) e duas mtricas (Artigos e Citaes ).
distintas ( Uma informao muito importante referente aos fatos a maneira como eles devem ser agrupados e calculados (sumarizados) nos diversos nveis das dimenses. As mtricas dos fatos podem utilizar funes diferentes para as totalizaes nos nveis hierrquicos superiores das dimenses ou at no permitir totalizaes. Na Tabela
2.1, por exemplo, podemos utilizar uma funo de soma para compor os totais das mtricas
Artigos
Citaes.
dos programas do Brasil? Talvez seja mais interessante utilizar uma funo de mdia geral ou mdia ponderada (em relao a nmero de artigos), para se ter uma ideia melhor do impacto mdio por artigo (nmero de citaes recebidas pelo artigo).
Tabela 2.1.
Dimenses
Tempo
Brasil Brasil Brasil Am. Norte Am. Norte Am. Norte Am. Norte
Loc. Geog.
3 2 1 5 4 4 3
30 25 442 34 13 14 41
20
A Tabela 2.2 apresenta os mesmos fatos da Tabela 2.1 sumarizados em alguns nveis mais altos, com a mtrica
Artigos
caracteriza o nvel mais alto de qualquer dimenso e que geralmente suprimido das representaes das rvores hierrquicas. O nvel
Todos
signica desconsiderao da
dimenso em questo para a consulta realizada, pois no existem classicaes distintas neste nvel que formado somente por um membro.
Tabela 2.2.
Dimenses
Tempo Loc. Geog.
Brasil Brasil Brasil Am. Norte Am. Norte Am. Norte Am. Norte
(mdia)
operaes so baseadas na manipulao e visualizao de um cubo fsico (real) por uma pessoa, por exemplo:
2.3.
Consultas OLAP
21
focalizao de detalhes por meio da aproximao do objeto (ver dados com mais detalhes) .
A maioria dos operadores das consultas OLAP tem como base estas operaes simples e intuitivas, s que adaptadas para a manipulao de dados multidimensionais (n dimenses) de forma que o usurio no precise de muito conhecimento para formalizar suas consultas.
Online Analytical
Processing ),
uma enorme quantidade de registros e a apresentao dos resultados em formatos de nvel mais alto, como tabelas ou grcos. A caracterstica principal dos sistemas OLAP permitir uma viso conceitual multidimensional dos dados armazenados. A viso multidimensional mais til para os analistas do que a viso tabular tradicional utilizada nos sistemas de processamento de transao. Ela mais natural, fcil e intuitiva, permitindo uma viso dos negcios da organizao em diferentes perspectivas e, dessa maneira, torna o analista um explorador de informaes [Chaudhuri & Dayal, 1997; Shoshani, 1997; Campos & Rocha Filho, 1997]. As ferramentas OLAP so projetadas para apoiar anlises e consultas
ad hoc
em
um armazm de dados, alm de ajudar analistas e executivos a sintetizar informaes sobre a organizao, por meio de comparaes, vises personalizadas, anlise histrica e projeo de dados em vrios cenrios. Ferramentas OLAP so implementadas para ambientes multiusurio, arquitetura cliente-servidor, e oferecem respostas rpidas e consistentes s consultas interativas executadas pelos analistas, independentemente do tamanho e complexidade de um armazm de dados [Codd et al., 1993; Chaudhuri & Dayal, 1997; Inmon, 1996]. A m de permitir uma visualizao e manipulao multidimensional dos dados, as ferramentas OLAP oferecem diferentes funes, a saber:
Pivot :
pivot
pode
consistir na troca de linhas e colunas, ou mover uma das dimenses da linha, para a dimenso da coluna;
22
Roll-up :
do
roll-up
um
Slice :
slice
a um valor simples em lugar de um ou mais atributos das dimenses. como xar um valor de uma das dimenses de um cubo e considerar para pesquisa o subcubo formado por esse valor e pelas outras dimenses do cubo inicial;
Drill-down/up :
das informaes, como por exemplo, analisar uma informao por continente, pas ou estado, partindo da mesma base de dados;
Drill-across :
sionais;
Essas funes podem ser utilizadas vontade pelos usurios de um ambiente de armazm de dados, conforme as suas necessidades de informaes.
rankings
dissertao complementam o estudo realizado no contexto do projeto Perl-CC com uma anlise do impacto das citaes dos artigos publicados pelos programas e o estudo da distribuio das publicaes por subreas da Cincia da Computao. Alm disto, 23
24
este trabalho disponibiliza um ambiente de anlise multidimensional para uma melhor anlise dos dados do Projeto Perl-CC. A Figura 3.1 apresenta o processo completo da construo da base de dados. Inicialmente so coletados os docentes dos programas analisados. Em seguida so
recuperadas as publicaes de cada docente e as citaes recebidas por cada publicao. Por m, os dados so inseridos na base de dados. Cada uma das etapas detalhada nas sees a seguir.
3.2 Docentes
Esta a primeira etapa da construo do banco de dados utilizado em nossos experimentos. Inicialmente selecionamos os oito principais programas, segundo a classicao CAPES vigente no perodo de coleta de dados (junho de 2007). Os vinte e dois programas estrangeiros foram selecionados entre os mais importantes da Amrica do Norte e da Europa. Os programas selecionados so:
Brasil :
Amrica do Norte :
CMU - Carnegie Mellow University, Cornell University, Harvard University, MIT Massachusetts Institute of Technology, Princeton University, Stanford University, University of British Columbia, University of California at Berkeley, University of Illinois, University of Texas at Austin, University of Toronto, University of Washington, University of Waterloo e University of Wisconsin;
Europa :
perial College, Oxford University e Universit Pierre et Marie Curie - Paris VI.
Figura 3.1.
A lista dos docentes foi obtida a partir da pgina Web dos respectivos programas. Esta coleta foi feita de forma manual, pois no havia padro nas estruturas das pginas, impossibilitando a criao de coletores automticos por expresso regular. A Figura
3.3.
Publicaes
25
3.2 mostra um exemplo de pgina com a listagem dos docentes dos programas de ps-graduao. Alm do nome dos docentes, coletou-se a titulao (professor titular, adjunto,
full professor,
A coleta dos 30
programas resultou numa lista com 2.027 docentes. Esta lista foi utilizada como entrada para a obteno das publicaes, processo detalhado na prxima seo.
Figura 3.2.
3.3 Publicaes
As publicaes de cada docente foram obtidas a partir da
Bibliography
digital da rea de Cincia da Computao, mantida por um grupo da Universidade de Trier, Alemanha, coordenado por Michael Ley. Em junho de 2007, perodo em
que foi feita a coleta de dados, a DBLP registrava mais de 910.000 artigos publicados nos anais de 3.636 diferentes conferncias e em 613 diferentes peridicos, cobrindo os principais campos da rea, com maior nfase naqueles de cunho tecnolgico, tais como
1 http://dblp.uni-trier.de
26
Bancos de Dados, Engenharia de Software, Linguagens de Programao, Sistemas de Computao e Redes de Computadores. A DBLP tem uma representao maior do
Institute for
Scientic Information 2 .
Outros repositrios de publicaes estudados foram o Citeseer
e o Google Scho-
lar . Tais repositrios possuem mais artigos catalogados do que a DBLP. Porm a coleta de dados feita de forma automtica, cando suscetvel a diversos erros como artigos duplicados, erros nos nomes dos autores e dos veculos de publicaes. J a DBLP
possui informaes bem estruturadas, organizadas de forma parcialmente manual por seus administradores Ley & Reuther [2006]. Seus dados possuem alta qualidade: baixa taxa de homnimos entre os autores, identicao e classicao exata dos diversos veculos de publicao. Na DBLP foram encontrados as publicaes de 1.760, ou 87%, dos 2.027 docentes da lista inicial. Conforme apresentado na Tabela 3.1, foram registrados no banco de dados 52.596 artigos de autoria de 1.760 docentes dos 30 programas analisados. Esses artigos foram publicados entre 1954 e 2007 em 456 peridicos e nos anais de 1.622 conferncias distintas. Desses veculos, 241 peridicos e 605 conferncias aparecem
Tabela 3.1.
3.4 Citaes
A partir das publicaes levantadas foi coletado o nmero de citaes de cada artigo por meio do repositrio de publicaes Google Scholar. Para isso, submetemos consultas com o ttulo completo do artigo e usamos uma opo avanada que retorna apenas os artigos que tenham em seu ttulo todas as palavras consultadas. A Figura 3.3 mostra a consulta para recuperar o nmero de citaes do artigo Characterizing a spam trac
3.4.
Citaes
27
no Google Scholar. Esse artigo possui 62 citaes. As consultas foram automatizadas atravs de
scripts
limitao quanto ao nmero de consultas submetidas, sob pena de bloquear o acesso ao repositrio atravs do nmero IP da mquina que originou a consulta. Para evitar tal problema, foi inserido um intervalo aleatrio de 45
valor obtido empiricamente com sucesso no trabalho Silva et al. [2006]. Este intervalo possibilita consultar apenas 1.920 pginas por dia.
utilizadas oito mquinas com endereos IPs distintos do laboratrio onde este trabalho foi desenvolvido. Eventualmente o Google Scholar retorna artigos distintos com ttulos parecidos com os consultados distorcendo o resultado. Por exemplo, ao buscar o artigo Conceptbased interactive query expansion, o Google Scholar retorna os artigos A study of user interaction with a concept-based interactive query expansion support tool e o prprio Concept-based interactive query expansion. Para evitar esse tipo de problema, re-
alizamos um casamento aproximado de caracteres usando a mtrica de distncia de edio , descartando os artigos com ttulo diferente do ttulo original.
Foram consi-
derados os artigos cuja proximidade entre os ttulos fosse maior que 75%, valor que tambm foi obtido no trabalho Silva et al. [2006]. Adicionalmente, para obter uma
melhor qualidade dos dados, tambm zemos uma inspeo manual nos artigos com mais de 40 citaes, retirando os artigos associados incorretamente.
Figura 3.3.
mnimo de operaes necessrias para transformar uma cadeia de caractere na outra. Por exemplo, a distncia de edio entre spam e slam de uma substituio de p por l, ou seja, 3/4 ou 75% de proximidade entre as cadeias.
6 Nmero
28
Foram coletadas as citaes de todos os artigos publicados entre 1998 e 2006 dos 30 programas analisados. Foram considerados apenas os artigos cuja classicao Qualis seja A Internacional, ou seja, publicados em veculos de circulao internacional e que tm maior impacto cientco. No total foram coletados 15.795 artigos por oito mquinas em aproximadamente 24 horas. Os resultados da coleta foram salvos em
arquivos-texto e posteriormente os dados foram inseridos no banco de dados bibliomtrico. A Tabela 3.2 mostra taxa de artigos encontrados por esse mtodo. Esse mtodo apresentou uma boa cobertura com taxa de retorno de 97,46% dos artigos pesquisados, possibilitando a anlise numa base representativa.
Tabela 3.2.
Artigos
Encontrados No encontrados Total 15.398 397 15.795
%
97,46% 2,54% 100,00%
apresentaremos o esquema de forma simplicada e, em seguida, apresentaremos o esquema completo com todas as entidades do problema.
author, para designar os autores dos artigos; program, que representa o programa de ps-graduao ao qual o autor esteja liado; article, que representa o artigo que o autor publicou; e venue, para representar o veculo de publicao ao qual o artigo pertence. A relacionamento de author para article do tipo muitos para muitos (representada pela tabela author _has_article): um autor possui
um ou mais artigos, e um artigo possui um ou mais autores. Os demais relacionamentos so do tipo um para muitos. 29
30
Figura 4.1.
Conforme vimos no Captulo 2, o esquema dimensional possui uma estrutura mais intuitiva quando comparado ao relacional, permitindo uma consulta mais fcil para usurios no especializados [Kimball & Ross, 2002]. Nesse esquema, as tabelas representam Fatos e Dimenses. Os dados so desnormalizados para um melhor desempenho na leitura, visto que as junes entre as entidades s ocorrem entre as tabelas Fato e Dimenses. A converso entre o esquema relacional e o dimensional consiste, basicamente, em ligar todas as tabelas do primeiro esquema a uma tabela central: a tabela fato. O custo para o ganho no desempenho da leitura o espao adicional utilizado por essa tabela, j que a desnormalizao leva a uma redundncia dos dados. ilustra a conexo entre a tabela fato ( A Figura 4.2
A tabela fato composta por quatro chaves: programa, autor, artigo e veculo. Cada registro representa uma publicao de um artigo: possui uma dimenso dimenso
article,
uma dimenso
author,
uma dimenso
program
e uma
venue.
vinculado a um programa, publicar um determinado artigo num determinado veculo. Podemos dizer que o gro mnimo do nosso problema o artigo, ou seja, no h uma diviso ou quebra a partir de artigo. Dessa forma, o tamanho do banco de dados
4.1.
Modelagem do Problema
31
Figura 4.2.
cional.
professor
docente pode ou no ser um autor de um artigo, e um autor de um artigo pode ou no ser um docente;
name
tintos;
venue_instance
Qualis
CAPES.
citation
Esse es-
quema permite realizar uma srie de anlises interessantes em seus dados. Porm, para uma anlise mais eciente necessrio converter esse esquema para o formato dimensional. Novamente, para construir um esquema dimensional, ligamos todas as tabelas tabela fato, conforme ilustrado na Figura 4.4. Alm disto foi adicionada uma dimenso exclusiva para tempo (
Obtivemos
assim um esquema com dez dimenses e uma tabela fato. Finalizada a modelagem do problema, partimos para o estudo das ferramentas disponveis, a seguir.
32
Figura 4.3.
e Pentaho .
A primeira ferramenta analisada foi o FreeOLAP, uma ferramenta OLAP com interface Web escrita em Java. O FreeOLAP executa em qualquer servidor de aplicao Web como, por exemplo, o Tomcat, e conecta a qualquer sistema gerenciador de bancos de dados relacional como o MySQL por meio do conector JDBC. Na poca da anlise,
1 http://freeolap.com
2 http://www.oracle.com/technology/products/discoverer/ 3 http://www.pentaho.com
4.2.
Estudo de Ferramentas
33
Figura 4.4.
esta ferramenta no estava com toda sua funcionalidade completa e seu projeto tinha sido descontinuado. Por falta de documentao tcnica no foi possvel fazer uma
anlise mais profunda da viabilidade da implementao do ambiente proposto usando esta ferramenta. A segunda ferramenta avaliada foi o Oracle Business Intelligence Discoverer ou simplesmente Discoverer, que compreende na verdade um conjunto de ferramentas para consulta, gerao de relatrios, anlise de dados e publicao Web
ad hoc.
Diferente-
mente da primeira, esta ferramenta possui uma documentao tcnica completa, o que facilitou a sua avaliao. Fizemos sua instalao, implementamos uma verso simplicada do armazm de dados de publicaes e zemos os testes iniciais. Esta ferramenta teve um bom desempenho em nossa anlise.
34
Por ltimo analisamos o pacote de Business Intelligence Pentaho. O projeto Pentaho uma aplicao de cdigo aberto de Business Intelligence composta de ferramentas de relatrios gerenciais, anlise de dados, minerao de dados,
workow
e tratamento
de dados (ETL). A comunidade responsvel pelo desenvolvimento da aplicao composta por mais de 8.000 membros. Seu modelo de negcio consiste em gerar receita por meio de servios de suporte tcnico e gerenciamento para consumidores corporativos. Instalamos o produto, implementamos uma primeira verso do armazm de dados e testamos seu desempenho. Consideramos uma boa opo de ferramenta. Por ser uma ferramenta de cdigo aberto e consequentemente se adequar melhor aos recursos do laboratrio onde o trabalho foi desenvolvido e pelos bons resultados nos testes de executados, decidimos implementar o armazm de dados de publicaes cientcas com a ferramenta Pentaho. Para contruir o armazm de dados, utilizamos uma srie de outras ferramentas, listadas a seguir:
nado Kettle) uma ferramenta ETL (Extrao, Transformao e Carga dos dados). Ele permite a extrao dos dados do sistema-fonte, a execuo de transformaes nos dados como limpeza, unicao, clculos e a carga dos dados para o banco de dados do armazm de dados.
construo da denio dos cubos. - O Mondrian o servidor OLAP. Ele recebe solicitaes de
um cliente e as submete a um banco de dados tradicional, mapeando as consultas multidimensionais para um banco de dados relacional.
Pentaho Reporting
a interface do sistema.
- O Reporting (anteriormente conhecido como JPivot) prov usado na visualizao das consultas retornadas, contendo
operaes bsicas de manipulaes de cubos multidimensionais e de apresentao dos resultados em tabelas e grcos.
Tomcat 4
cdigo aberto. O Tomcat necessrio para executar as aplicaes Mondrian e Reporting. Utiliza a linguagem SQL (Structured Query Language - Linguagem de Consulta Estruturada) como interface.
4 http://tomcat.apache.org 5 http://www.mysql.com
4.3.
35
DBDesigner 6
Eclipse 7 - O Eclipse uma IDE (ambiente integrado para desenvolvimento de software ) de cdigo aberto para a construo de cdigos. Foi utilizada para construir
as consultas em JSP e ajustar os cubos em XML.
qualis,
1 para cada publicao do banco de dados. Este indicador utilizado para calcular o nmero de publicaes por professor, por programa, por veculo, entre outras vises. A Figura 4.5 mostra a tela da ferramenta Pentaho Data Integration que gera os dados da tabela fato. A primeira parte do
com o
script
script
banco de dados por meio de comandos SQL. Em seguida extramos os dados do banco de dados de publicaes por meio de vrias junes entre as tabelas conforme ilustrado na Figura 4.6. Finalmente, no passo seguinte, carregamos os dados na tabela fato.
Com a tabela fato nalizada, foi possvel trabalhar na construo dos cubos, o que ser detalhado na prxima seo.
Expressions)9
utilizando as ferramentas Cube Designer e Eclipse, ilustradas nas Figuras 4.7 e 4.8,
6 http://fabforce.net/dbdesigner4/
ETL (Extrao, Transformao e Carga) da plataforma Pentaho. assim como SQL uma linguagem de consulta para bancos relacionais.
9 linguagem de consulta para bancos de dados multidimensionais,
7 http://www.eclipse.org 8 ferramenta
36
Criao do script no Pentaho Data Integration para gerar os dados da tabela fato.
Figura 4.5.
repectivamente. Para uma maior exibilidade das anlises decidimos inserir no cubo todas as dimenses disponveis no esquema dimensional como, por exemplo, e
docente
publicao.
as denies do cubo. Este arquivo ligado s conguraes das consultas que sero descritas na prxima seo.
4.3.
37
SELECT pr.faculty_idFaculty AS idFaculty, pr.idProfessor, au.idAuthor, ar.idArticle, pu.idPublication, pi.idPublication_instance, pu.qualis_idQualis AS idQualis, c.idCitation, pu.area AS idSubarea, YEAR(pi.date) AS yearP, 1 AS publication, 1 AS citation FROM professor AS pr, author AS au, author_has_article AS aha, article AS ar, publication_instance AS pi, publication AS pu, citation AS c WHERE au.professor_idProfessor AND au.idAuthor AND aha.article_idArticle AND ar.publication_instance_idPublication_instance AND pi.publication_idPublication AND c.article_idArticle
Figura 4.6.
= = = = = =
Figura 4.7.
38
(Eclipse).
Figura
4.8.
Figura 4.9.
4.3.
39
demos observar que h uma barra com vrios recursos, como, por exemplo, a edio visual da consulta e a exibio do respectivo cdigo, a ordenao dos dados, a exibio do grco, verso para impresso e exportao para a planilha.
Figura 4.10.
A gerao automtica de grcos a partir dos dados exibidos nas tabelas ilustrada na Figura 4.11. A gura mostra de uma forma mais clara a distribuio do
nmero de artigos por programa para o ano de 2006. Podemos congurar vrios parmetros do grco, como a fonte, o tipo do grco (exemplo: de barras ou de linhas), o tamanho e as cores. Outro recurso disponvel no ambiente desenvolvido a exibio de detalhes de um dado macro ou agregado (
Drill Through ).
que o nmero de publicaes em 2004 11, clicamos na coluna correspondente ao ano e uma nova tela exibida com detalhes das publicaes, como o ttulo, o veculo, a classicao Qualis e o ano.
40
Figura 4.11.
grama (2006).
mento do armazm de dados de publicaes, a prxima seo abordar o estudo do perl de publicao em Cincia da Computao.
4.4.
Consideraes Finais
41
Figura 4.12.
Exemplo de Drill
Through.
publicados no trinio 2004-2006. A Seo 5.3 apresenta uma anlise das subreas do conhecimento em Cincia da Computao. A Seo 5.4 apresenta consideraes nais sobre este captulo.
do veculo de publicao utilizamos a classicao Qualis criada pela CAPES . Por exemplo, a classe AI corresponde aos veculos internacionais que tm maior impacto cientco. O Qualis utilizado foi tambm referente ao perodo 2004-2006. Usamos como mtrica de produtividade o nmero de publicaes por docente, j que o tamanho do corpo docente dos 30 programas heterogneo. A Tabela 5.1 mostra o resultado do nmero de publicaes Qualis A Internacional por docente no trinio 2004-2006. docente est indicado na coluna O desvio padro do nmero de publicaes por Os dados foram dispostos gracamente na
DesvPad.
Figura 5.1 com um intervalo de conana de 95%. Considerou-se apenas os docentes dos 30 programas analisados com pelo menos uma publicao listada na DBLP totalizando 1.760 docentes (87% do total). Os programas nacionais (PUC-Rio, UFRJ/COPPE,
vinculado ao governo brasileiro responsvel pela regulamentao dos cursos de psgraduao no pas
43
1 rgo
44
Tabela 5.1.
Mdia de Publicaes por Docente no Trinio 2004-2006 dos Programas Analisados (Qualis AI). 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Programa
Illinois UC Berkeley Stanford CMU Harvard Princeton MIT Wisconsin Brown UTexas Austin Cornell Washington Toronto ETH Zurich Imperial College Waterloo Caltech PUC-Rio Oxford British Columbia UFMG UFRGS UFPE UFRJ/COPPE Unicamp USP/SC Ecole Polytechnique Paris VI Cambridge USP/SP Total
Artigos
1.005 421 593 470 122 248 418 239 221 344 285 267 496 262 226 474 49 81 125 178 103 183 110 92 90 77 91 148 274 57 7.749
Docentes
Art/Doc
8,82 7,80 7,70 7,01 6,42 6,20 6,15 5,98 5,97 5,83 5,82 5,34 5,22 4,94 4,71 3,85 3,50 3,38 3,13 3,12 2,94 2,82 2,56 2,56 2,14 1,93 1,72 1,51 1,51 1,50 4,40
DesvPad
8,60 5,71 5,54 7,26 3,95 4,59 6,21 4,28 5,09 4,67 4,14 3,30 5,01 3,70 5,81 5,00 2,46 3,59 2,57 2,24 3,00 2,39 2,54 2,09 1,48 2,50 1,83 1,20 1,67 1,42 -
5.2.
45
Mdia de Publicaes por Docente no Trinio 2004-2006 dos Programas Analisados (Qualis AI).
Figura 5.1.
UFMG, UFPE, UFRGS, UNICAMP, USP/SP e USP/SC) possuem uma mdia entre 1,50 e 3,38 publicaes por docente. Esse volume de publicaes comparvel ao de pelo menos seis dos programas internacionais analisados (Waterloo, Caltech, British Columbia, cole Polytechnique, Cambridge e Paris VI), os quais possuem uma mdia entre 1,51 e 3,85 publicaes por docente. Tais resultados mostram que a produo cientca dos programas nacionais, representada por artigos publicados em peridicos e conferncias internacionais, comparvel em volume e qualidade a de alguns dos principais programas da Amrica do Norte e da Europa.
DesvPad.
Os
dados foram dispostos gracamente na Figura 5.2 com um intervalo de conana de 95%. O programa de British Columbia possui a maior mdia de citaes por artigo, com 47,48 citaes por artigo. Entretanto, cabe ressaltar que esse resultado est suportado
46
principalmente por um nico artigo com 3.959 citaes, o que corresponde a quase metade de todas as 8.166 citaes do programa. Se retirarmos esse artigo, a mdia cai para 23,25 e o programa vai para a 14
h apenas mais um artigo com mais de 1.000 citaes dentre todos os 7.749 artigos da amostra considerada.
Tabela 5.2.
# 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Programa
British Columbia UC Berkeley MIT Washington Cornell Stanford ETH Zurich Wisconsin Princeton Harvard Illinois UTexas Austin CMU Brown Oxford Caltech Toronto Cambridge Waterloo Ecole Polytechnique UFMG PUC-Rio Imperial College Paris VI USP/SP UFRGS Unicamp UFRJ/COPPE USP/SC UFPE Total
172 356 418 219 274 541 179 206 236 112 1.000 332 455 206 116 47 453 268 400 90 95 80 222 143 53 181 85 88 71 100 7.198
Citaes
8.166 15.840 18.428 9.318 11.146 20.040 5.671 6.464 7.036 3.174 26.675 8.763 11.840 5.103 2.675 1.062 9.562 5.290 7.572 1.507 1.396 1.155 2.867 1.631 486 1.555 691 528 407 543 196.591
Cit/Art
47,48 44,49 44,09 42,55 40,68 37,04 31,68 31,38 29,81 28,34 26,68 26,39 26,02 24,77 23,06 22,6 21,11 19,74 18,93 16,74 14,69 14,44 12,91 11,41 9,17 8,59 8,13 6 5,73 5,43 27,31
DesvPad
301,97 90,44 80,11 66,68 77,29 57,78 34,28 52,35 42,65 49,89 92,95 47,57 40,57 44,65 49,27 34,69 38,30 33,57 28,25 25,40 23,94 26,23 15,94 25,67 16,90 17,64 13,09 8,72 15,88 10,19 -
Ainda considerando a Tabela 5.2, os seis programas mais bem colocados so norteamericanos (British Columbia, UC Berkeley, MIT, Washington, Cornell e Stanford). O programa do ETH Zrich vem logo em seguida e o primeiro programa europeu. UFMG e PUC-Rio possuem valores muito prximos e ocupam as posies 21 e 22, respectivamente, seguidos pelos programas do Imperial College e de Paris VI. Logo
5.2.
47
Figura 5.2.
a seguir esto os demais programas brasileiros (USP/SP, UFRGS, Unicamp, UFRJ, USP/SC, UFPE). Agrupando os programas por regio, os programas da Amrica do Norte possuem em mdia 31,36 citaes por artigo contra 19,29 dos europeus e 8,98 dos brasileiros. Se considerarmos os dois programas brasileiros mais bem colocados (UFMG e PUCRio), essa mdia vai para 14,57, prxima dos programas de Waterloo, da cole Polytechnique, do Imperial College e de Paris VI (citaes na faixa 11,41 - 18,93), mostrando a insero internacional desses dois programas brasileiros em termos do impacto de suas publicaes. Conforme discutido anteriormente, outro importante indicador bibliomtrico o ndice h [Hirsch, 2005]. Um ndice h igual a 5 indica que foram publicados cinco
artigos com pelo menos cinco citaes no perodo considerado. A vantagem do ndice h em relao s citaes por artigo que ele no inuenciado por poucos artigos de grande visibilidade. Os dados obtidos de British Columbia comprovam este fato. Ressalva-se que os programas com maior nmero de docentes tendem a ter maior ndice h por publicarem mais artigos em nmero absoluto. O ndice h por programa pode ser relativizado calculando-se o ndice h mdio por docente. A Tabela 5.3 mostra o ndice h mdio por docente dos programas analisados no trinio 2004-2006. O desvio padro do ndice h por docente est indicado na coluna
DesvPad.
Os dados foram dispostos gracamente na Figura 5.3 com um intervalo O ndice h de cada programa corresponde mdia aritmtica Novamente foram considerados apenas os artigos cuja
de conana de 95%.
classicao Qualis da CAPES seja A Internacional. A classicao encabeada pelos programas da UC Berkeley e de Stanford, os
48
Tabela 5.3.
UC Berkeley Stanford Princeton Illinois Harvard Washington Cornell CMU Wisconsin MIT Brown UTexas Austin Toronto Imperial College ETH Zurich Waterloo Caltech British Columbia UFMG Oxford PUC-Rio UFRGS Unicamp USP/SC Ecole Polytechnique UFRJ/COPPE UFPE Paris VI Cambridge USP/SP Total
ndice h
5,80 5,77 5,17 5,14 4,89 4,82 4,69 4,68 4,62 4,54 4,43 4,39 3,58 3,46 3,00 2,74 2,72 2,68 2,63 2,23 2,04 1,96 1,81 1,48 1,46 1,33 1,30 1,24 1,21 1,13 3,18
DesvPad
4,50 4,02 3,37 3,81 2,89 2,80 3,04 4,00 2,93 3,70 2,94 2,61 2,66 2,73 2,03 2,37 1,87 1,88 2,24 1,57 1,87 1,15 1,12 0,98 1,21 1,37 1,21 0,89 1,11 0,93 -
quais ganharam vrias posies em relao mtrica citaes por artigo. British Columbia, que possui a maior taxa de citaes por artigo, sustentado principalmente por um nico artigo, foi para a posio 18. UFMG, Puc-Rio, UFRGS e Unicamp esto
entre os programas brasileiros com melhor mdia do ndice h. Os programas brasileiros possuem um ndice h mdio prximo ao de sete programas internacionais: Water-
loo, Caltech, British Columbia, Oxford, cole Polytechnique, Paris VI e Cambridge. Agrupando os programas por regio, os docentes dos programas da Amrica do Norte possuem um ndice h mdio de 4,42, contra 2,10 dos europeus e 1,71 dos brasileiros. A Tabela 5.4 mostra os programas analisados em ordem decrescente. Os dados foram dispostos gracamente na Figura 5.4. A diferena desta medida para a anterior
5.2.
49
Figura 5.3.
que agora utiliza-se o ndice h do programa e no a mdia dos ndices h dos docentes dos programas.
Figura 5.4.
O ndice h de programas privilegia os programas com maior corpo docente, por terem mais publicaes no total. A classicao encabeada pelos programas de
Stanford e de Illinois, que ganharam vrias posies em relao taxa de citaes por artigo (5 e 9 respectivamente). British Columbia, que possui a maior taxa de citaes por artigo, sustentado principalmente por um nico artigo, foi para a posio 15. ETH Zrich o programa europeu com melhor resultado. UFMG e UFRGS so os brasileiros de maior impacto com ndice h 21 e 20, respectivamente. Os dois programas brasileiros
50
Tabela 5.4.
# 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 -
Programa
Stanford Illinois MIT UC Berkeley CMU Washington Cornell UTexas Austin Princeton Toronto Wisconsin ETH Zrich Waterloo Cambridge British Columbia Brown Harvard Imperial College Oxford cole Polytechnique UFMG UFRGS Caltech Paris VI PUC-Rio Unicamp UFPE UFRJ/COPPE USP/SP USP/SC Total
ndice h
75 74 72 64 54 52 51 50 49 49 44 42 42 38 37 37 31 27 23 22 21 20 18 18 15 13 12 12 12 9 36,10
mais bem posicionados possuem um ndice h no mesmo patamar dos programas de Oxford, da cole Polytechnique, da Caltech e de Paris VI.
5.3.
51
e da
Figura 5.5.
52
Para uma melhor visualizao dos dados retornados pelas consultas, utilizamos um programa de anlise grca de dados, o TreeMap [Shneiderman & Wattenberg, 2001], desenvolvido sob a coordenao do professor Ben Shneiderman da Universidade de Maryland, EUA. O Treemap mostra linhas de dados como grupos de retngulos que podem ser organizados, dimensionados e coloridos para revelar gracamente padres desconhecidos. Esta tcnica de visualizao de dados permite aos usurios um reconhecimento mais fcil de complexos relacionamentos de dados que no so bvios por outras tcnicas . A Figura 5.6 mostra os dados da Figura 5.5 visualizados de forma grca com a distribuio das subreas das publicaes dos programas. Quanto maior o retngulo, maior o nmero de artigos do programa de ps-graduao. Quanto mais claro a cor do retngulo, maior o corpo docente da subrea. Um mesmo professor pode publicar em mais de uma subrea. A partir da Figura 5.6 podemos concluir que a UFRGS possui a maior quantidade de artigos em nmeros absolutos, seguida pela UFPE e pela UFMG. A Tabela 5.5 lista as principais subreas dos programas brasileiros e as principais subreas considerando todos os programas. Algumas reas entre os programas
EngenhaInteligncia Articial,
A Figura 5.7 mostra a comparao do nmero de publicaes e o nmero de docentes entre todos os 30 programas analisados. No geral, alguns programas norteamericanos se sobressaem em quantidade de publicaes: Illinois, Waterloo e Stanford. Os europeus mais bem classicadas so Cambridge, ETH Zrich e Imperial College. Os brasileiros mais bem classicadas esto no mesmo patamar de Princeton, Paris VI, Wisconsin, Brown, British Columbia, Oxford, Harvard, cole Polytechnique e Caltech. No geral, o nmero de docentes dos programas brasileiros menor que o dos programas norte-americanos (o grco mostra uma colorao mais escura). Considerando apenas as publicaes da subrea de
Arquitetura de Computadores
de Illinois, a quantidade
de publicaes maior que todas as publicaes da Caltech, ressaltando que o corpo docente da Caltech oito vezes menor. Podemos notar que cada programa especializa-se numa determinada subrea e que a distribuio das subreas heterognea. Alm disto, as reas mais tradicionais
2 Wikipedia.
5.3.
53
Tabela 5.5.
TODOS Engenharia de Software, Mtodos Formais Aprendizado de Mquina Inteligncia Articial UFRGS Concepo de Circuitos Integrados Inteligncia Articial Arquitetura de Computadores, Processamento de Alto Desempenho UFPE Aprendizado de Mquina Sistemas de Informao Inteligncia Articial Engenharia de Software, Mtodos Formais UFMG Bancos de Dados, Bibliotecas Digitais Redes de Computadores, Sistemas Distribudos, Sistemas P2P Recuperao de Informao UFRJ/COPPE Engenharia de Software, Mtodos Formais Algoritmos e Teoria da Computao Computao Aplicada Aprendizado de Mquina Unicamp Arquitetura de Computadores, Processamento de Alto Desempenho Sistemas de Informao Multitemticas PUC-Rio Engenharia de Software, Mtodos Formais Sistemas de Informao Web, Sistemas Multimdia e Hipermdia USP/SC Web, Sistemas Multimdia e Hipermdia Multitemticas Engenharia de Software, Mtodos Formais USP/SP Arquitetura de Computadores, Processamento de Alto Desempenho Computao Grca, Processamento de Imagens Algoritmos e Teoria da Computao
Programa
65 65 64 49 29 16
36 14 14 14 27 12 11 14 12 10 10 10 9 9 16 14 8 10 10 10 10 8 8
54
Figura 5.6.
2006.
notamos vrias subreas com muitas publicaes e muitos docentes, em detrimento do Imperial College, onde as reas com muitas publicaes possuem poucos docentes
Computao Grca, Concepo de Circuitos Integrados, Engenharia de Software e Mtodos Formais ). Isso pode ser um indcio que o grau de colaborao entre esses
( docentes seja menor no Imperial College do que em Cambridge. Por m, a Figura 5.9 mostra os dados dos programas norte-americanos. Foram considerados os artigos de classicao Qualis A Internacional no trinio 2004-2006. O programa com mais artigos o de Illinois, que possui vrias publicaes nas reas de
5.4.
Consideraes Finais
55
Figura 5.7.
Arquitetura de Computadores, Redes de Computadores, Bancos de Dados e Computao Grca. Outros programas em destaque so os de Stanford, Toronto e UC Berkeley. A subrea Algoritmos a de maior destaque em seis programas: Waterloo, MIT, Cornell, Washington, Princeton e Harvard. Outras reas de destaque so Arquitetura de Computadores, Computao Grca, Redes de Computadores e Bancos de Dados. A subrea de Arquitetura de Computadores de Illinois possui mais artigos que todas as
subreas de Harvard, essa por sua vez possui um corpo docente bem menor que Illinois (6 vezes menor).
56
2006.
Figura 5.8.
citaes, percebemos que o impacto da produo cientca dos programas nacionais comparvel ao impacto dos programas estrangeiros analisados.
5.4.
Consideraes Finais
57
Figura 5.9.
2004-2006.
sulta sem a necessidade de se instalar ferramentas adicionais. Uma ferramenta OLAP foi usada para permitir uma anlise dos dados, trazendo exibilidade e facilidade na gerao das consultas. O armazm de dados gerado foi utilizado para estudar o perl de publicao dos principais programas de ps-graduao em Cincia da Computao do pas. Os
resultados obtidos complementam o estudo realizado no contexto do projeto Perl-CC [Laender et al., 2008] com uma anlise do impacto das citaes dos artigos publicados pelos programas e o estudo da distribuio das publicaes por subreas da Cincia da Computao. Considerando as publicaes entre 2004-2006 cuja classicao Qualis A Internacional, os programas nacionais (PUC-Rio, UFRJ/COPPE, UFMG, UFPE, UFRGS, UNICAMP, USP/SP e USP/SC) possuem uma mdia entre 1,50 e 3,38 publicaes por docente. Esse volume de publicaes comparvel ao de pelo menos seis dos programas internacionais analisados (Oxford, Caltech, British Columbia, cole Polytechnique, Paris VI e Cambridge) que possuem uma mdia entre 1,51 e 3,85 publicaes por docente.
1 http://www.latin.dcc.ufmg.br:8080/perlccDW/
59
60
Conclumos que o nmero de publicaes dos programas brasileiros comparvel aos da Amrica do Norte e da Europa, o que mostra a insero internacional desses programas. Analisamos tambm as citaes recebidas pelas publicaes geradas pelos programas. Considerando as publicaes do perodo 2004-2006 cuja classicao Qualis A Internacional, na poca da coleta dos dados (junho de 2008), o nmero de citaes por artigo 8,98 para os programas brasileiros, 19,29 para os europeus e 31,36 para os norte-americanos. Se considerarmos os dois programas brasileiros mais bem colocados (UFMG e PUC-Rio), essa mdia vai para 14,57, prximo de Waterloo, cole Polytechnique, Imperial College e Paris VI (citaes na faixa 11,41 - 18,93), mostrando que o impacto da produo cientca desses programas, representada por artigos publicados em peridicos e conferncias internacionais, comparvel ao impacto de alguns dos principais programas da Amrica do Norte e da Europa. Complementando a anlise com o ndice h, os programas brasileiros possuem um ndice h mdio prximo ao de sete programas internacionais: Waterloo, Caltech, British Columbia, Oxford, cole Polytechnique, Paris VI e Cambridge. Em mdia, o ndice h dos docentes dos programas brasileiros 1,71, contra 2,10 dos europeus e 4,42 dos norte-americanos. Analisamos ainda a distribuio das subreas dos programas. Foi possvel notar que cada programa especializa-se numa determinada subrea e que a distribuio dessas subreas heterognea. Alm disto, as subreas mais tradicionais da Cincia da Computao, Arquitetura de Computadores, Redes de Computadores, Bancos de Dados, Algoritmos e Inteligncia Articial, so as que apresentam maior produtividade em termos de artigos publicados. Com relao a trabalhos futuros que possam complementar o que foi desenvolvido, destacamos:
A adio dos dados de outros programas de ps-graduao em Cincia da Computao ao armazm de dados, como, por exemplo, os programas brasileiros com conceitos 3 e 4 na CAPES ou programas de outros pases, para ampliar o escopo da anlise.
Avaliao do perl evolutivo dos programas de ps-graduao para avaliar a tendncia de um programa ter seu conceito melhorado na CAPES.
Utilizao do arcabouo desenvolvido para anlise de programas de outras reas, como Fsica ou Biologia.
Referncias Bibliogrcas
Abell, A.; Samos, J. & Saltor, F. (2001). A Framework for the Classication and
Proceedings of the 12th International Conference on Database and Expert Systems Applications, pp. 668677, Munich,
Description of Multidimensional Data Models. In Germany. Alvarado, R. U. (2009). Obsolescncia da literatura sobre a Lei de Lotka.
Revista de
Scientometrics,
Codd, E. F.; Codd, S. B. & Salley, C. T. (1993). Providing OLAP to user-analysts: An IT mandate. San Jose, California. E.F. Codd and Associates. Gareld, E. & Merton, R. (1979).
Citation indexing: Its theory and application in science, technology, and humanities. Wiley, New York.
An index to quantify an individual's scientic research output.
Hirsch, J. (2005).
2nd.
pp. 39,
62
Referncias Bibliogrficas
Inmon, W. H. (1996).
Wiley.
Dimensional Modeling.
Kimball, R.; Ross, M.; Thornthwaite, W.; Mundy, J. & Becker, B. (2008).
Wiley, 2 edio.
Laender, A. H. F.; de Lucena, C. J. P.; Maldonado, J. C.; de Souza e Silva, E. & Ziviani, N. (2008). Assessing the research and education quality of the top Brazilian Computer Science graduate programs. 145. Ley, M. (2002). The DBLP Computer Science Bibliography: Evolution, Research
40(2):135
Proceedings of the 9th International Symposium on String Processing Information Retrieval, pp. 110, Lisboa, Portugal.
Issues, Perspectives. In Ley, M. & Reuther, P. (2006). Maintaining an Online Bibliographical Database: The Problem of Data Quality. In
pp.
193202, Austin, Texas. Mattern, F. (2006). Pitfalls. Bibliometric Evaluation of Computer Science - Problems and
Invited Talk, SARIT 06: Swiss IT Professors' Day, Swiss Association for Research in Information Technology, Basel, Switzerland.
Menezes, G. V.; Ziviani, N. & Laender, A. H. F. (2008). Um Estudo Comparativo de Redes Sociais em Cincia da Computao. In
Referncias Bibliogrficas
63
Messaoud, R. B.; Boussaid, O. & Rabasda, S. (2004). A new OLAP aggregation based on the AHC technique. In
Proceedings of the 7th ACM International Workshop on Data Warehousing and OLAP, pp. 6572, Washington, DC.
Analysis of SIGMOD's co-
Proceedings of the National Academy of Sciences, 101:52005205. Australian Computer Science Communicati-
Pedersen, D.; Riis, K. & Pedersen, T. B. (2002). A powerful and SQL-compatible data model and query language for OLAP.
ons, 24(2):121130.
Pedersen, T. B.; Shoshani, A.; Gu, J. & Jensen, C. S. (2000). querying to external object databases. In Extending OLAP
Proceedings of the 9th International Conference on Information and Knowledge Management, pp. 405413, McLean, VA.
Petricek, V.; Cox, I. J.; Han, H.; Councill, I. G. & Giles, C. L. (2005). Comparison of On-line Computer Science Citation Databases.
Proceedings of 9th European Conference on Research and Advanced Technology for Digital Libraries, pp. 438
In 449, Vienna, Austria.
Proceedings
Proceedings of the 16th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, pp. 185196, Tucson, Arizona.
Silva, A. J.; Modesto, M. A.; Gonalves, M. A.; Cristo, M.; Laender, A. H. & Ziviani, N. (2006). Busca pelo Texto Completo de Artigos Catalogados em uma Biblioteca Digital. In
Trujillo, J.; Palomar, M. & Gmez, J. (2000). Applying Object-Oriented Conceptual Modeling Techniques to the Design of Multidimensional Databases and OLAP applications. In
64
Referncias Bibliogrficas
Scientometrics,
Apndice A Tabelas
65
66
Apndice A. Tabelas
Tabela A.1.
2006).
Subrea
Programa
Geoinformtica
UFRGS UFRGS
Programa
Art Doc
3 5 6 14 29 3 5 5 5 6 5 7 4 4 5 5 9 10 6 8 5 3 7 11 12 4 10 8 3 14 3 14 11 9 3 4 3 8 7 3 3 3 10
4 3
UFRJ/COPPE Unicamp USP/SP UFMG UFPE UFRGS UFRJ/COPPE USP/SC PUC-Rio UFMG UFPE UFRGS UFRJ/COPPE Unicamp USP/SP PUC-Rio UFMG UFRGS UFRJ/COPPE Unicamp USP/SC
Aprendizado de Mquina
PUC-Rio UFPE UFRGS UFRJ/COPPE USP/SC USP/SP PUC-Rio PUC-Rio UFPE PUC-Rio UFMG UFPE UFRGS UFRJ/COPPE Unicamp USP/SC UFRJ/COPPE Unicamp USP/SP UFRGS USP/SC UFMG UFMG UFPE UFRGS Unicamp UFMG PUC-Rio UFMG UFPE UFRGS Unicamp USP/SC UFRGS Unicamp PUC-Rio UFMG UFRGS UFRJ/COPPE Unicamp USP/SC
3 6 11 4 3 3 2 2 2 5 4 4 8 5 7 6 5 5 5 2 2 4 6 4 6 4 3 9 4 9 5 5 4 2 3 4 7 5 2 3 6
Pesq Operac e Otimiz Combinatria Proc de Lngua Natural Recuperao de Informao Redes, Sist Distrib, Sistemas P2P
USP/SP UFMG UFPE UFRGS Unicamp PUC-Rio UFMG UFPE UFRGS UFRJ/COPPE Unicamp USP/SC UFRJ/COPPE
67
Subrea
CMU
Programa
Cornell Harvard Illinois MIT Princeton Stanford Toronto UC Berkeley Washington Waterloo CMU Illinois Stanford Toronto UTexas Austin
Programa
Stanford Toronto CMU Illinois Toronto Waterloo CMU Harvard Illinois Stanford Toronto UTexas Austin Washington Waterloo Toronto Illinois MIT Stanford UC Berkeley UTexas Austin Waterloo Illinois UC Berkeley Cornell Illinois MIT Stanford Toronto UC Berkeley UTexas Austin Wisconsin Illinois Stanford Illinois CMU Illinois MIT Toronto Illinois
Art Doc
27 22 22 37 38 35 48 24 63 46 48 44 24 44 23 30 27 26 29 26 28 30 35 27 102 48 42 29 51 34 37 23 30 53 29 65 28 28 42
5 6 22 7 11 14 7 18 18 20 9 10 19 4 16 10 13 10 9 13 7 15 11 25 20 15 12 14 11 12 11 9 14 5 8 5 11 14
Inteligncia Articial
Aprendizado de Mquina
CMU Illinois MIT Princeton Stanford Toronto UC Berkeley UTexas Austin Wisconsin CMU Cornell Illinois Stanford Toronto UC Berkeley Washington Waterloo Wisconsin
Stanford British Columbia Brown Illinois MIT Stanford Toronto UC Berkeley Washington Waterloo
68
Apndice A. Tabelas
Tabela A.3.
2006).
Programas da Europa mais produtivos por subrea (perodo 2004Cambridge . Polytechnique ETH Zrich Imperial College Oxford Cambridge ETH Zrich Imperial College Paris VI Cambridge ETH Zrich Imperial College Paris VI Cambridge ETH Zrich Oxford Paris VI Cambridge . Polytechnique ETH Zrich Imperial College Cambridge ETH Zrich Oxford
Subrea
Programa
Inteligncia Articial
Programa
Cambridge
Art Doc
4 5 14 7 21 7 4 4 35 8 4 15 24 12 7 5 6 7 7 6 4 17 10 5 6 26 9 30 9 26 4 10 11 4 6 10 10 8 13 5 7 5 11 6 11
Aprendizado de Mquina
ETH Zrich Imperial College Oxford Paris VI Cambridge ETH Zrich Oxford Cambridge . Polytechnique ETH Zrich Imperial College Oxford Cambridge . Polytechnique ETH Zrich Imperial College Oxford
5 8 3 12 7 2 3 12 7 4 7 10 10 3 5 4 7 7 2 3 12 8 3 3 18 4 8 10 13 4 8 5 4 4 3 11 7 14 2 4 6 3 5 5
Multitemticas
Biologia cional
Computa-
. Polytechnique ETH Zrich Oxford Paris VI Cambridge Cambridge Paris VI Cambridge . Polytechnique ETH Zrich Imperial College Paris VI Paris VI Cambridge ETH Zrich Cambridge Paris VI ETH Zrich Imperial College Paris VI Cambridge . Polytechnique ETH Zrich Paris VI ETH Zrich Cambridge ETH Zrich
Computao cada
Apli-
Paris VI Cambridge ETH Zrich Imperial College Cambridge ETH Zrich Paris VI Cambridge ETH Zrich Imperial College Cambridge ETH Zrich Imperial College Oxford Cambridge . Polytechnique ETH Zrich Imperial College Oxford
Proc de Lngua Natural Recuperao de Informao Redes, Sist Distrib, Sistemas P2P
Robtica, Controle e Automao Segurana e Privacidade Simulao e Modelagem Sistemas de Informao Sist Emb, T. Real, Tol. Falhas