You are on page 1of 21

Empresa de Tecnologas de la Informacin y Servicios Telemticos Avanzados CITMATEL I Taller de Proyeccin y Prospeccin en Tecnologas de Informacin y Comunicacin, Cuba Venezuela

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

Autores:

Ing. Luis Rojas Daz Ing. Lilliam Vega Torres Lic. Cecilia Placeres Villar

La Habana, Cuba Octubre de 2008

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

RESUMEN
El presente trabajo aborda la temtica del desarrollo de los sistemas de informacin estadstica de Ciencia y Tecnologa, los retos que es necesario afrontar al construir uno de estos sistemas y como la tecnologa de almacn de datos (data warehouse) provee mecanismos para su desarrollo exitoso. Adems se aborda la seleccin de una plataforma de almacn de datos de software libre, sus principales componentes y un conjunto de ejemplos del diseo del sistema a travs de las distintas herramientas que conforman el data warehouse.

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

NDICE

Desarrollo de Sistema de Informacin Estadstica de Ciencia y Tecnologa........................................1 Resumen............................................................................................................................................2 DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA.....3 ndice..................................................................................................................................................3 Introduccin........................................................................................................................................4 DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA.....5 Antecedentes de las estadsticas de ciencia y tecnologa en Venezuela.............................................4 Premisas base del sistema estadstico................................................................................................5 Modelo de Solucin Propuesto............................................................................................................5 Seleccin de la plataforma...............................................................................................................7 Plataforma Pentaho.........................................................................................................................8 Extraccin, transformacin y carga..................................................................................................9 Modelo multidimensional ..............................................................................................................11 Creacin del esquema Mondrian...................................................................................................13 Presentacin de la informacin. El servidor OLAP.........................................................................15 Minera de datos............................................................................................................................18 Conclusiones ...................................................................................................................................19 Referencias bibliogrficas.................................................................................................................20 Glosario de trminos.........................................................................................................................21

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

INTRODUCCIN
La ciencia y la tecnologa impactan en dimensiones sociales variadas: la economa; la poltica; la comunidad (en trminos de sociedad civil); los dominios institucionales especializados (salud, educacin, ley, bienestar y seguridad social, etc.); y la cultura y los valores -industria cultural, creencias, normas y comportamientos- (Holzner et.al; 1987) Ahora bien, de qu manera la sociedad percibe los mltiples impactos; cmo se vincula con el mbito cientfico-tecnolgico; qu piensa sobre los resultados de la aplicacin del conocimiento; cmo asume el riesgo que entraa el desarrollo de ciertas tecnologas; de qu forma dirime las controversias que la investigacin cientfica produce; cmo se apropia del conocimiento generado; cunta confianza tiene en los cientficos y especialistas; cunta informacin cientfica fluye socialmente; qu tipo de conocimiento cientfico debera ser incorporado; qu actitud se adopta frente al sistema cientfico local, y otras preguntas por el estilo que podran seguir formulndose, son interrogantes que, con mayor o menor xito, los profesionales en la materia intentan responder desde hace muchos aos. En la actualidad, un requisito indispensable para la toma de decisiones en los mbitos poltico, econmico, comunitarios, institucionales, entre otros, es el de contar con una informacin precisa y oportuna. A pesar de ello, cuando tratamos de conseguir informacin centralizada y sistematizada de forma coherente nos damos cuenta que an tenemos un reto por delante para que esta manera de trabajar la informacin sea parte y resultado de nuestro quehacer cotidiano. Lo que nos encontramos en la realidad es un sistema disperso, complejo y poco articulado que genera informacin con estas mismas caractersticas e incide negativamente en el proceso de la toma de decisiones. Las estadsticas de ciencia y tecnologa de Venezuela se proponen dar un vuelco a la forma tradicional con la que se meda el quehacer cientfico ante la necesidad de disear indicadores a partir de la comunidad, legtima beneficiaria de los productos de la investigacin.

ANTECEDENTES DE LAS ESTADSTICAS DE CIENCIA Y TECNOLOGA EN VENEZUELA


La elaboracin de estadsticas e indicadores en ciencia y tecnologa en Venezuela, se inicia en el ao de 1963 con la encuesta sobre investigacin realizada por la Comisin preparatoria para la creacin del Consejo de Investigaciones Cientficas y Tecnolgicas (CONICIT). Esta primera encuesta, enfocada en levantar informacin acerca de los investigadores y los institutos, marca una pauta en la conformacin del modelo de indicadores y estadsticas de ciencia y tecnologa en el pas. En el perodo comprendido entre el final de la dcada de los sesenta y principios de los ochenta, la produccin de indicadores y estadsticas de ciencia y tecnologa encuentra su ms prolfico desarrollo. Es la dcada de las llamadas encuestas de potencial cientfico y tecnolgico. Los indicadores considerados por dichas encuestas eran nicamente de insumo, es decir, bsicamente relacionados con capacidades humanas y recursos financieros destinados a actividades de ciencia y tecnologa e investigacin y desarrollo. Aunque estos resultan tiles para el diseo de polticas cientficas aportan poca o ninguna informacin acerca de la contribucin e impacto de las actividades cientfico-tcnicas en el conjunto de la sociedad. Para este momento, la divisin encargada de la produccin de estadsticas e indicadores de ciencia y tecnologa dentro del CONICIT era el Departamento de Sociologa y Estadstica. A partir de 1974 fue la Unidad de Estadstica quien asumi esta labor imprimindole un carcter fundamentalmente tcnico. La crisis econmica del pas en los aos ochenta, produjo el abandono paulatino del papel rector y planificador del Estado que redund negativamente en su capacidad de gestin. Los recursos asignados a la actividad estadstica fueron reducidos y un creciente desinters por la planificacin estatal condujo al deterioro del sistema estadstico de ciencia y tecnologa y al abandono definitivo de los inventarios de potencial. Al desencanto por la poltica cientfica sigui el inters creciente por la gestin tecnolgica. Este fenmeno tuvo su reflejo en la direccionalidad y organizacin de la produccin de indicadores y estadsticas en ciencia y tecnologa. De la Unidad de Estadstica se pas a la Direccin de Registro y Evaluacin de Recursos y Actividades, revistiendo cambios conceptuales y metodolgicos como la 4

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

supresin de toda pretensin sociolgica, el nfasis en la evaluacin y el uso de fuentes administrativas de informacin como principales proveedores de datos. En la dcada de los noventa, en Amrica Latina en general y en Venezuela en particular, surge un renovado inters por retomar y fortalecer los sistemas de indicadores de ciencia y tecnologa. Se comienza con la elaboracin de indicadores con base en los estndares definidos por organizaciones internacionales (UNESCO, OCDE). Sin embargo, a diferencia de los aos setenta, para el levantamiento de la informacin se utilizan fundamentalmente, fuentes secundarias de origen y propsitos diversos. As pues, esta situacin obligaba a realizar un esfuerzo de articulacin con las instituciones que posean dichos datos. Por otro lado, los indicadores producidos abordaban temticas como: recursos financieros, recursos humanos, programas del CONICIT, publicaciones cientficas venezolanas que utilizaban bases de datos internacionales e indicadores de desarrollo tecnolgico en la industria. Este esfuerzo de produccin y publicacin de indicadores se fue repitiendo cada tres aos hasta el ltimo trabajo producido en el ao 2001. Hacia finales de los aos noventa se propone la creacin de un Observatorio Nacional de Ciencia, Tecnologa e Innovacin (ONCTI). Su misin estaba orientada a elaborar indicadores y estadsticas que aportaran los datos fundamentales para emprender estudios por reas de conocimiento, disciplinas, especialidades y lneas de investigacin por sectores prioritarias o temas demandantes regionales y estadales. Estuvo pensado bajo un esquema organizacional pequeo, flexible, con un fin primordial presentar un cuadro completo de la ciencia y la tecnologa, por medio de la publicacin de repertorios de indicadores estadsticos, la mayora de ellos publicados cada dos aos. Reto y Razn del ONCTI: Apoyar al Sistema Nacional de Ciencia, Tecnologa e Innovacin (SNCTI), mediante la realizacin de estudios que evalen el desarrollo de la ciencia, la tecnologa y la innovacin en el pas y en el mundo, que sirvan de sustento para la formulacin de polticas pblicas que permitan consolidar el uso de la ciencia y la tecnologa como insumo indispensable para el desarrollo integral del pas. Desde su creacin, el Observatorio ha estado orientado ms que a la produccin primaria de datos, a utilizar fuentes secundarias diversas, incluidos los registros administrativos. Estos ltimos, aunque pueden ser una fuente muy rica de informacin, han sido de utilidad escasa debido a la poca normalizacin de los datos y los vacos y errores que contienen. Tomando en cuenta todas estas circunstancias, el Observatorio sistematiza, analiza y reorganiza la informacin en documentos sumarios de periodicidad variable.[14]

PREMISAS BASE DEL SISTEMA ESTADSTICO


El sistema debe poseer un diseo flexible que permita la incorporacin de nuevas fuentes de datos, con un mnimo de esfuerzo. A su vez la presentacin de los datos debe de ser flexible, de forma tal que incorpore todas las fuentes de datos que estn disponibles. El sistema debe poseer mecanismos que posibiliten la asimilacin e integracin de fuentes de datos diversas, dando la posibilidad de recodificar dichos datos de forma integral, y establecer los mecanismos de interrelacin necesarios obtener reportes cruzados de la informacin. Adems el sistema debe tener un diseo modular, segn cada tipo de funcionalidad y los procesos que la conforman. Transparencia e interoperabilidad deben ser cualidades del sistema, garantizadas a travs del uso de interfaces estndar e internet. El sistema debe funcionar sobre plataformas de software libre.

MODELO DE SOLUCIN PROPUESTO


A continuacin veremos como la tecnologa Data Warehouse (DW) o Almacn de datos cumple con las premisas necesarias en nuestro sistema. 5

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

En el contexto informtico, un Almacn de Datos es una coleccin de datos orientada a un determinado mbito (empresa, organizacin, etc.), integrado, no voltil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza [Cipher08]. En los Almacenes de Datos se utilizan herramientas para realizar un procesamiento analtico de la informacin y no precisamente el procesamiento transaccional habitual que realizan la mayora de las aplicaciones diariamente. Una de estas herramientas es el procesamiento analtico en tiempo real (OLAP (On-Line Analytical Processing)), que se contrapone con el trmino de procesamiento de transacciones en lnea (OLTP (On-Line Transactional Processing)). [10] La ventaja principal de los Almacenes de Datos se basa en su concepto fundamental: la estructura de la informacin. Este concepto significa el almacenamiento de informacin homognea y fiable, en una estructura basada en la consulta y el tratamiento jerarquizado de la misma, y en un entorno diferenciado de los sistemas operacionales. Segn defini Bill Inmon, los Almacenes de Datos se caracterizan por ser [12]: Integrado: Los datos almacenados deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La informacin suele estructurarse tambin en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios. [1] Temtico: Slo los datos necesarios para el proceso de generacin del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una nica tabla de los Almacenes de Datos. De esta forma, las peticiones de informacin sobre clientes sern ms fciles de responder dado que toda la informacin reside en el mismo lugar. [1] Histrico: El tiempo es parte implcita de la informacin contenida en los Almacenes de Datos. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la informacin almacenada en los Almacenes de Datos sirve, entre otras cosas, para realizar anlisis de tendencias. Por lo tanto, los Almacenes de Datos se cargan con los distintos valores que toma una variable en el tiempo para permitir comparaciones. [1] No voltil: El almacn de informacin de un Almacn de Datos existe para ser ledo, y no modificado. La informacin es por tanto permanente, significando la actualizacin del Almacn de Datos la incorporacin de los ltimos valores que tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre lo que ya exista. [1] Para comprender el concepto de Almacn de Datos, es importante considerar los procesos que lo conforman. A continuacin se describen dichos procesos clave en la gestin de un Almacn de Datos: Extraccin: Obtencin de informacin de las distintas fuentes ya sean internas o externas como son: archivos texto o bases de datos como FOXPRO y ACCESS muy usadas por mltiples sistemas de escritorio que resuelven problemas importantes en muchas empresas. [1] Elaboracin: Filtrado, limpieza, depuracin, homogeneizacin y agrupacin de la informacin. [1] Carga: Consiste en la organizacin y actualizacin de los datos y los metadatos en la base de datos. [1] Explotacin: Extraccin y anlisis de la informacin en los distintos niveles de agrupacin. [1] Un proyecto Data Warehousing no es solamente el diseo de una base de datos con caractersticas especiales sino todo el conjunto de herramientas y procedimientos desde el poblado de la misma, a partir de los sistemas transaccionales, la transformacin y estandarizacin de los datos, la fijacin temporal de los mismos; as como toda la infraestructura para la consulta, el anlisis en lnea y el anlisis detallado de tendencias mediante el uso de tcnicas de minera de datos. 6

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

El Data Warehouse es un repositorio de datos de muy fcil acceso, alimentado de numerosas fuentes operacionales, transformadas en grupos de informacin sobre temas especficos de negocios para permitir nuevas consultas, anlisis, reportes y toma de decisiones.

SELECCIN DE LA PLATAFORMA
Una plataforma data warehousing, de acuerdo a sus caractersticas debe de estar soportada por un conjunto de herramientas donde se establece una cooperacin entre ellas para transitar por las diferentes etapas del proceso de anlisis de los datos, desde la adquisicin hasta la visualizacin de los resultados. Es decir es un proyecto integrador de herramientas que cooperan entre s, logrando una alta cohesin entre las partes y permitiendo modelar ntegramente cualquier proceso de bsqueda de conocimiento en una organizacin determinada. La eleccin de la plataforma para la construccin del data warehouse es de vital importancia, desde el punto de vista del ahorro del tiempo que debe emplearse para adquirir las herramientas independientes y tratar de integrarlas de forma coherente. Como ejemplos de soluciones completas estn: Pentaho y SpagoBI. [2] Pentaho: es una de las ms completas de todas las soluciones, integra toda una serie de componentes Open Source muy utilizados y fiables: Servidor OLAP Mondrian, JPivot, Kettle ETL , Enhydra Shark, Quartz, Weka, JFreeReport, JFreeChart, JBoss Portal, entre otros. [9] SpagoBI: es una solucin completa de Inteligencia de Negocio que incluye desde la extraccin de los datos hasta la minera, pasando por anlisis y la generacin de reportes. Utiliza componentes muy similares a los de Pentaho. Tabla 16. Comparacin entre Pentaho y SpagoBI.[3] Herramientas\Plataformas Servidor de Aplicaciones Motor de reportes OLAP Minera de Datos ETL Planificador Posibilidad de extensin Pentaho JBOSS y Tomcat JFreeReport y BIRT Mondrian y JPivot WEKA Kettle Quartz S SpagoBI JBOSS y Tomcat JasperReport y BIRT Mondrian y JPivot WEKA Talend Quartz S

Pentaho y SpagoBI utilizan componentes muy similares, con la diferencia de la herramienta de Extraccin, transformacin y carga: Pentaho incluye Kettle y SpagoBI incluye Talend. Talend: Permite hacer transformaciones y mapeos complejos. Posee un entorno grfico aunque las transformaciones deben ser programadas ntegramente (Perl), no es muy intuitivo. Soporta conexin mediante JDBC. Es multiplataforma (basado en Java e integrable con Eclipse) Kettle: Permite realizar una amplia variedad de transformaciones y posee soporte para el trabajo con almacenes de datos. Posee un entorno grfico muy intuitivo. Permite el monitoreo de las tareas ejecutadas. Las tareas son ejecutadas en hilos diferentes y su prioridad puede ser administrada. Puede establecer conexin mediante: JDBC, ODBC y JNDI, con alrededor de 25 tipos de gestores de bases de datos. Permite acceder a ficheros: 7

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

CSV, XML, de texto personalizado, Excel, etc. Permite conexin con Servicios Web. Multiplataforma (basado en Java) Esta diferencia hace que Pentaho sea superior debido a que dentro de la solucin, un paso de vital importancia es la adquisicin, integracin y carga de datos de fuentes heterogneas y en este sentido Kettle posee una mayor gama de operaciones de transformacin, posibilidad de conexin con fuentes diversas y una interfaz de usuario mucho ms amigable que Talend. [3] Se decidi utilizar Pentaho ya que como plataforma tiene una mayor robustez y versatilidad que incluye todos los componentes requeridos.

PLATAFORMA PENTAHO
Las soluciones que brinda Pentaho se componen fundamentalmente de una infraestructura de herramientas de anlisis e informes integrados con un motor de workflow de procesos de negocio. Algunos de los productos que forman la plataforma son JFreeReport, JPivot, Mondrian o Apache FOP.[3] Arquitectura funcional de Pentaho

JFreeReport, BIRT o JasperReport: Presentacin de informes en los formatos habituales (HTML, PDF, RTF, MS Excel, etc.) [4]. JPivot: Permite ver tablas OLAP a travs de un navegador Web y realizar las tareas tpicas de anlisis OLAP (drill, down, slice, etc.) [4]. Mondrian: Servidor OLAP, sigue una arquitectura R-OLAP. Junto a JPivot permite realizar consultas y presentar los resultados mediante un navegador Web [4]. Apache FOP: Generacin de PDFs [4]. Mondrian, motor OLAP Mondrian es una de las aplicaciones ms importantes de la plataforma Pentaho. Mondrian es un servidor OLAP Open Source que gestiona la comunicacin entre una aplicacin OLAP y la base de datos con los datos fuente, en otras palabras, acta como JDBC para OLAP. Mondrian no es ms que un motor R-OLAP con cach, lo cual lo sita cerca del concepto de Hybrid OLAP. R-OLAP significa que los datos se encuentran en un Sistema de Gestin de Bases de Datos externo y no en Mondrian a no ser los que estn en la cach. En esta base de datos es la que 8

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

residen las tablas que conforman la informacin multidimensional con la que Mondrian trabaja, un ejemplo de esto es los modelos de estrella que tiene nuestros Data Marts. Mondrian se encarga de recibir consultas dimensionales (lenguaje MDX) y devolver los datos de un cubo, slo que este cubo no es algo fsico sino un conjunto de metadatos que definen como se han de mapear estas consultas que tratan conceptos dimensionales a sentencias SQL ya tratando con conceptos relacionales que obtengan de la base de datos la informacin necesario para satisfacer la consulta dimensional. Expresiones multidimensionales (MDX) es el lenguaje de consulta que se utiliza para trabajar con datos multidimensionales. MDX est basado en la especificacin XML para anlisis (XMLA MDX utiliza expresiones compuestas de identificadores, valores, instrucciones, funciones y operadores para recuperar un objeto (por ejemplo, un conjunto o un miembro).

EXTRACCIN, TRANSFORMACIN Y CARGA En toda solucin que incluya la construccin de un DW es de vital importancia la ejecucin de procesos de extraccin, limpieza y carga de los datos (ETL) provenientes de las diferentes fuentes operacionales. En esta tarea los datos se manipulan en su nivel ms bajo de granularidad aplicando las reglas establecidas. Para ello, se emplean diagramas de mapeo que representan el flujo de los datos, con varios niveles de detalle. [11] Se utilizaron dos formas para crear las dimensiones: 1. a partir de su importacin directa de la BD fuente, debido a que se encuentra en una tabla separada; Ej: Entidad federal 2. extrayendo la dimensin de la informacin en que se encuentra embebida. Ej: tiempo.
Ejemplo de un proceso de extraccin, transformacin y carga (ETL) de la informacin primaria de la BD SIDCAI hacia el data warehouse, en este ejemplo la jerarqua fecha se construye a partir del conjunto de fechas que aparecen en el hecho declaracin.
// Campos de la jerarqua que queremos calcular. var day_of_month; var week_of_year; var month_of_year; var year; var quarter; var name_day; var name_month; // Calculate! day_of_month = fecha_declaracion.Clone().dat2str("dd"); week_of_year = fecha_declaracion.Clone().Clone().dat2str("ww"); month_of_year = fecha_declaracion.Clone().dat2str("MM"); year = fecha_declaracion.Clone().dat2str("yyyy"); name_day = fecha_declaracion.Clone().dat2str("E").getString(); name_month = fecha_declaracion.Clone().dat2str("MMMM").getString(); if(month_of_year <= 3) { quarter = "Q1"; } else if(month_of_year <= 6) { quarter = "Q2"; } else if(month_of_year <= 9) { quarter = "Q3";

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

} else { quarter = "Q4"; }

Ejemplo de un proceso de extraccin, transformacin y carga (ETL) de la informacin primaria de la BD PPI hacia el data warehouse:

10

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

Ejemplo de JOB para ejecutar automticamente una Transformacin, en caso que ocurra algn error durante la transformacin, el sistema avisar mediante el envo de un correo.

MODELO MULTIDIMENSIONAL
Existen varios esquemas para el modelado de los datos en un Data Warehouse siendo los ms utilizados: Esquema de Estrella: La tabla de hechos est en el centro de la estrella y estn relacionadas con ella de forma radial todas las tablas de dimensiones, las cuales no se relacionan entre s. No existen caminos alternativos en las dimensiones. Esquema de Copo de Nieve: Es parecido al de estrella pero existen jerarquas en las dimensiones. Las tablas de dimensiones pueden estar relacionadas, o sea, existen caminos alternativos en ellas. El modelo multidimensional dentro del entorno de las bases de datos, es una disciplina de diseo que se sustenta en el modelo entidad relacin y en las realidades de la ingeniera de texto y datos numricos. [5]

11

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

Dadas las caractersticas de los almacenes de datos es ideal la utilizacin en su diseo de un Modelo Multidimensional (MMD). Este tipo de diseo tiene como ventajas sobre el Modelo Entidad-Relacin (MER), que es muy flexible, est desnormalizado y orientado a los intereses de un usuario final, aunque esto no significa que existan inconsistencias en los datos. Mediante la utilizacin de un MMD se disminuye la cantidad de tablas y relaciones entre ellas, lo que agiliza el acceso a los datos. [5] El modelo multidimensional se representa a travs de la definicin de las tablas de hechos y dimensiones. Tablas de Hechos: Representan la ocurrencia de un determinado proceso dentro de la organizacin y no tienen relacin entre s. Generalmente, almacenan medidas numricas, las que representan valores de las dimensiones, aunque en ocasiones estas no estn presentes y se les denominan tablas de hechos sin hechos. Tablas de Dimensiones: Contienen, generalmente, una llave simple y atributos que la describen. En dependencia del esquema de diseo que se asuma pueden contener llaves forneas de otras tablas de dimensin. Existe una dimensin fundamental en todo DW, la dimensin tiempo. Esto ocurre porque todo registro que se incluya constituye la ocurrencia de un fenmeno en un instante de tiempo definido. Dicha dimensin es la que establece uno de los objetivos fundamentales de la construccin de un DW, la conservacin de un histrico. Los atributos dimensionales son fundamentalmente textos descriptivos, estos juegan un papel determinante porque son la fuente de gran parte de todas las necesidades que deben cubrirse, adems, sirven de restricciones en la mayora de las consultas que realizan los usuarios. Esto significa, que la calidad del modelo multidimensional, depender en gran parte de cuan descriptivos y manejables, sean los atributos dimensionales escogidos. La dimensin ms importante de un Data Warehouse, es la dimensin tiempo, ya que esta ser la encargada de decir en qu momento ocurri este hecho. A continuacin, se exponen los niveles de granularidad de los datos almacenados en el Almacn de Datos a partir del anlisis de la informacin contenida en las bases de datos fuentes para obtener los 66 indicadores propuestos. Estrellas 1. Aporte e Inversin en Ciencia y Tecnologa 2. Acreditacin de Investigadores Dimensiones 1. Tiempo a. Ao i. Semestre 1. Mes 2. Entidad Federal 3. Tipo de aportante 4. Tipo de beneficiario 12

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

5. Actividad Hechos 1. Monto aportado 2. Inversin Con esta informacin se realiz un prototipo de la base de datos para el datawarehouse que se implement en postgre. Estructura de datos del cubo obtenido a partir de la BD SIDCAI:

CREACIN DEL ESQUEMA MONDRIAN


Para crear el modelo de los datos en la plataforma Pentaho se configura la fuente de los datos y el cubo OLAP en el fichero de configuracin XML llamado fichero del esquema Cubo Mondrian (Mondrian Cube Schema). En este fichero de esquema se pueden definir las dimensiones, los niveles de jerarqua de dimensiones, los hechos y la conexin a la base de datos relacional que sirve los datos para el cubo OLAP. Pentaho dispone de la herramienta Cube Designer, para la creacin del esquema Mondrian [7]
<Schema name="dec_sidcai"> <Cube name="dec_sidcai" cache="true" enabled="true"> <Table name="h_declaraciones"> </Table> <Dimension foreignKey="idactividad" name="Actividad"> <Hierarchy name="Actividad" hasAll="true" allMemberName="All actividad" primaryKey="idactividad"> <Table name="d_actividad"> </Table> <Level name="d_actividad.Actividad" table="d_actividad" column="actividad" type="String" uniqueMembers="false" levelType="Regular" hideMemberIf="Never"> </Level> </Hierarchy>

13

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

</Dimension> <Dimension foreignKey="idestado" name="Estado"> <Hierarchy name="Estado" hasAll="true" allMemberName="All estado" primaryKey="idestado"> <Table name="d_estado"> </Table> <Level name="d_estado.Estado" table="d_estado" column="estado" type="String" uniqueMembers="false" levelType="Regular" hideMemberIf="Never"> </Level> </Hierarchy> </Dimension> <Dimension foreignKey="idaportante" name="Aportante"> <Hierarchy name="Aportante" hasAll="true" allMemberName="All aportante" primaryKey="idaportante"> <Table name="d_aportante"> </Table> <Level name="d_aportante.Nombre Aportante" table="d_aportante" column="Nombre Aportante" type="String" uniqueMembers="false" levelType="Regular" hideMemberIf="Never"> </Level> </Hierarchy> </Dimension> <Dimension foreignKey="idbeneficiario" name="Tipo de Institucion"> <Hierarchy name="Tipo de Institucion" hasAll="true" allMemberName="All tipo de institucion" primaryKey="idbeneficiario"> <Table name="d_beneficiario"> </Table> <Level name="d_beneficiario.Tipo de Institucion" table="d_beneficiario" column="Tipo de Institucion" type="String" uniqueMembers="false" levelType="Regular" hideMemberIf="Never"> </Level> <Level name="d_beneficiario.Nombre Beneficiario de la Actividad" table="d_beneficiario" column="Nombre Beneficiario de la Actividad" type="String" uniqueMembers="false" levelType="Regular" hideMemberIf="Never"> </Level> </Hierarchy> </Dimension> <Dimension foreignKey="idtiempo" name="Tiempo"> <Hierarchy name="Tiempo" hasAll="true" allMemberName="All tiempo" primaryKey="idtiempo"> <Table name="d_tiempo"> </Table> <Level name="d_tiempo.year" table="d_tiempo" column="year" type="String" uniqueMembers="false" levelType="Regular" hideMemberIf="Never"> </Level> <Level name="d_tiempo.quarter" table="d_tiempo" column="quarter" type="String" uniqueMembers="false" levelType="Regular" hideMemberIf="Never"> </Level> <Level name="d_tiempo.name_month" table="d_tiempo" column="name_month" type="String" uniqueMembers="false" levelType="Regular" hideMemberIf="Never"> </Level> </Hierarchy> </Dimension> <Measure name="Monto Requerido" column="Monto Requerido" datatype="String" formatString="Standard" aggregator="sum"> </Measure> <Measure name="Monto Aportado" column="Monto Aportado" datatype="String" formatString="Standard" aggregator="sum"> </Measure> <Measure name="Monto Actividad" column="Monto Actividad" datatype="String" formatString="Standard" aggregator="sum"> </Measure> </Cube> </Schema>

14

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

PRESENTACIN DE LA INFORMACIN. EL SERVIDOR OLAP


Para obtener la funcionalidad de procesamiento analtico en lnea (OLAP) se utilizan otras dos aplicaciones: el servidor OLAP Mondrian, que combinado con Jpivot, permiten realizar consultas al data warehouses y permite que los resultados sean presentados mediante un navegador de modo que el usuario pueda realizar las actividades tpicas de navegacin. Mondrian utiliza MDX como lenguaje de consulta, que fue un lenguaje propuesto por Microsoft. Funciona sobre las bases de datos estndar del mercado: Oracle, DB2, SQL-Server, MySQL, etc., lo cual habilita y facilita el desarrollo de negocio basado en la plataforma Pentaho.[8] El modelo fsico es la fuente de datos, la cul es presentada a travs del modelo lgico. Es tpicamente un esquema estrella, que a su vez consiste en un conjunto de tablas en una base de datos relacional. Los esquemas Mondrian se alojan en un archivo XML. Este esquema puede ser editado de forma manual, o utilizando las herramientas Workbench o Cube Designer de Mondrian. Jpivot es un conjunto de bibliotecas configurables JSP que permiten mostrar tablas y grficos, para mostrar la navegacin tpica de los entornos OLAP: drill-down, rotar ejes, dril-through, etc. Utiliza Mondrian como servidor OLAP preferente, pero tambin podra acceder a los cubos OLAP de Microsoft Analysis Services. La conexin con las Bases de Datos se realiza via JDBC y realiza los clculos en memoria, sin generar nuevos ficheros y bases de datos que mantener y almacenar. La principal diferencia de JPivot respecto a otras bibliotecas en Javascript es que JPivot nicamente realiza la consulta de los datos necesarios, es decir los que se muestran en ese momento a diferencia de las bibliotecas de Javascript que contienen todos los datos de la consulta y los muestran de diferente manera en funcin de los filtros aplicados.

GENERACIN DE PGINAS DINMICAS UTILIZANDO JPIVOT

MONDRIAN.

Para crear pginas con tablas y grficos dinmicos utilizando JPivot y Mondrian es necesario el empleo de la tecnologa JSP, las cuales contendrn las etiquetas propuestas por las libreras JPivot y WCF para mostrar los elementos deseados. A continuacin se muestra un ejemplo de fichero JSP, que recupera cuatro dimensiones del hecho Monto del Aporte, ntese los parmetros de la conexin POSTGRESQL y la referencia al esquema dec_sidcai.mondrian.xml y la encuesta para recuperar las dimensiones y los hechos del esquema.

<%@ page session="true" contentType="text/html; charset=ISO-8859-1" %> <%@ taglib uri="http://www.tonbeller.com/jpivot" prefix="jp" %> <%@ taglib prefix="c" uri="http://java.sun.com/jstl/core" %> <jp:mondrianQuery id="query01" jdbcDriver="org.postgresql.Driver" jdbcUrl="jdbc:postgresql://localhost/decsidcai" jdbcUser="root" jdbcPassword="passroot" catalogUri="/WEB-INF/queries/dec_sidcai.mondrian.xml"> select {[Measures].[Monto Requerido], [Measures].[Monto Aportado], [Measures].[Monto Actividad]} on columns, {([Tiempo], [Actividad], [Estado], [Tipo de Institucion] ) } on rows from dec_sidcai </jp:mondrianQuery> <c:set var="title01" scope="session">Prueba de Declaraciones SIDCAI con 4 jeraquas en un eje</c:set>

A continuacin, se muestran ejemplos de recuperacin de informacin del data warehouse utilizando el servidor OLAP Mondrian, ntese en los ejemplos siguientes como se combinan varias dimensiones 15

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

en una misma tabla dinmica, en la que se pueden seleccionar las dimensiones por la cuales romper el reporte Ej: Actividad, Fecha, Entidad Federal o Tipo de Benerficiario. Tambin es posible filtrar por la ocurrencia de una determinada dimensin. Ej: Ao de Acreditacin del investigador.

16

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

17

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

MINERA DE DATOS
Pentaho incorpora la tecnologa WeKa, la que provee un completo conjunto de algoritmos que automatizan los procesos de transformacin de datos a la forma en que la minera de datos puede explotarlos. Weka es una herramienta extensible e integrable que incluye herramientas para realizar transformaciones sobre los datos, tareas de clasificacin, regresin, clustering, asociacin y visualizacin. Los resultados pueden ser visualizados en modo grfico, ya sea agrupados, segmentados, en forma de rbol de decisin, bosque aleatorio, redes neurales y componentes de anlisis. Utiliza filtros para la discrecin, normalizacin, re-muestreo, seleccin y trasformacin de atributos. Maneja clasificadores proveyendo modelos para la prediccin nominal o cantidades numricas. [6]

Weka est integrada por una extensa coleccin de algoritmos de Mquinas de conocimiento desarrollados por la universidad de Waikato (Nueva Zelanda) implementados en Java, tiles para ser aplicados sobre datos mediante los interfaces que ofrece o para embeberlos dentro de cualquier aplicacin. Adems, Weka contiene las herramientas necesarias para realizar transformaciones sobre los datos, tareas de clasificacin, regresin, clustering, asociacin y visualizacin. Weka est diseado como una herramienta orientada a la extensibilidad por lo que resulta sencillo aadir nuevas funcionalidades. [13]

18

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

CONCLUSIONES
La utilizacin de la tecnologa de Almacn de Datos permite dar solucin a los retos que implica la construccin de un sistema estadstico de Ciencia y Tecnologa, posibilita integrar fuentes de datos muy diversas y ponerlas a disposicin de los usuarios, para su consulta de una manera eficaz apoyando el proceso de toma de decisiones. Existen variedad de soluciones dentro de la comunidad de cdigo abierto, donde destacan productos de excelente profesionalidad como Pentaho y SpagoBI. La plataforma Pentaho dota a la solucin del Sistema Estadstico de Ciencia y tecnologa de versatilidad, le permite importar de fuentes primarias muy diversas, de flexibilidad, le permite incorporar nuevas fuentes y nuevos indicadores siempre y cuando se mantenga el diseo armnico y homogneo de la aplicacin.

19

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

REFERENCIAS BIBLIOGRFICAS
[1] [2] [3] [4] [5] Data Warehouse, http://www.csi.map.es/csi/silice/DW21.html. Fecha de consulta: marzo de 2008 Open Source in e collaborative way: http://oscarmanzano.f2o.org. Fecha de consulta: febrero de 2008. Introduccin a PENTAHO, http://www.gravitar.biz/index.php/category/pentaho/. Fecha de consulta julio 2008. Pentaho. Architecture. Layers of a Mondrian System, http://mondrian.pentaho.org/documentation/architecture.php. Fecha de consulta agosto 2008. Kimball Ralph:Fact Tables and Dimension Tables, http://www.intelligententerprise.com/030101/602warehouse1_1.jhtml. Fecha de consulta julio 2008. Pentaho Data Mining, septiembre 2008. http://www.pentaho.com/products/data_mining/. Fecha de consulta

[6] [7] [8] [9]

PENTAHO: Creacin de un cubo con Mondrian, http://www.gravitar.biz/index.php/herramientas-bi/. Fecha de consulta julio 2008. OLAP, http://en.wikipedia.org/wiki/OLAP. Fecha de consulta julio 2008. Pentaho: la solucion Open Source Business Intelligence, http://todobi.blogspot.com/2006/05/pentaho-la-solucion-open-source.html. consulta Julio 2008.

Fecha de

[10] Datawarehouse, http://www.sinnexus.com/business_intelligence/datawarehouse.aspx. Fecha de consulta junio 2008. [11] Transformacin grafica ETL con Spoon un componente de Pentaho Data Integration (Kettle), http://www.gravitar.biz/index.php/bi/introduccion-pentaho-parte-1/#comment-46. Fecha de consulta septiembre 2008. [12] Bill Inmon vs. Ralph Kimball, http://www.1keydata.com/datawarehousing/ inmon-kimball.htm. Fecha de consulta mayo 2008. [13] Hernndez, J.O; Ramrez, M.J.Q; Ferri, C.R: Introduccin a la Minera de Datos, Editorial Pearson, 2004. [14] Grises T. Romero Hiller, Indicadores de Ciencia y Tecnologa para la toma de decisiones y la formulacin de Polticas Pblicas. Caso: Observatorio Nacional de Ciencia, Tecnologa e Innovacin (OCTI)

20

DESARROLLO DE SISTEMA DE INFORMACIN ESTADSTICA DE CIENCIA Y TECNOLOGA

GLOSARIO DE TRMINOS
Almacn de datos: en ingls: Data Warehouse, es una coleccin de datos orientada a un dominio, integrada, no voltil y que vara en el tiempo. Cubo: una coleccin de dimensiones y medidas en un rea temtica particular. JavaServer Pages (JSP): tecnologa Java que permite generar contenido dinmico para web, en forma de documentos HTML, XML o de otro tipo. Las JSP's permiten la utilizacin de cdigo Java mediante scripts. Adems es posible utilizar algunas acciones JSP predefinidas mediante etiquetas. Estas etiquetas pueden ser enriquecidas mediante la utilizacin de Libreras de Etiquetas externas e incluso personalizadas. Minera de Datos: Conjunto de tcnicas para la induccin de conocimiento til a partir de masas muy grandes de datos. Tiene un solapamiento importante con otras disciplinas como la estadstica tradicional, el reconocimiento de patrones, la inteligencia artificial, etc. Procesamiento Analtico en Lnea: (OLAP), consiste en la realizacin de consultas a estructuras multidimensionales que contienen datos resumidos. Su objetivo fundamental es lograr altas velocidades en consultas complejas. Software Libre: Software que, una vez obtenido, puede ser usado, copiado, estudiado, modificado y redistribuido libremente. El software libre suele estar disponible gratuitamente en Internet, o a precio del costo de la distribucin a travs de otros medios. XML: sigla en ingls de Extensible Markup Language (lenguaje de marcas ampliable). Es un metalenguaje extensible de etiquetas y permite definir la gramtica de lenguajes. Se propone como un estndar para el intercambio de informacin estructurada entre diferentes plataformas.

21

You might also like