You are on page 1of 42

SEP.

SEIT.

D.G.I.T.

INSTITUTO TECNOLGICO del Istmo


MATERIA: Tpicos Avanzados de Base de Datos

CATEDRATICO:
Mara Cecilia Jimnez Aquino PRESENTA: Eric de Jess Felipe Martnez N DE CONTROL 09190158 ESPECIALIDAD: Licenciatura En Informtica SEMESTRE: 8 GRUPO: S
H Ciudad De Juchitn De Zaragoza Oax., 02 de Mayo del 2013

UNIDAD 3 "Bases De Datos Para El Soporte En La Toma De Decisiones" 3.1 Bodegas de datos (Data Warehouse). Es un conjunto de datos integrados u orientados a una materia, que varan con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de la administracin y esta orientada al manejo de grandes volmenes de datos provenientes de diversas fuentes o diversos tipos. Estos datos cubren largos perodos de tiempo lo que trae consigo que se tengan diferentes esquemas de los datos fuentes, La concentracin de esta informacin esta orientada a su anlisis para apoyar la toma de decisiones oportunas y fundamentadas, Previo a su utilizacin se debe aplicar procesos de anlisis, seleccin y transferencia de datos seleccionados desde las fuentes. RIESGOS. - Desactualizacin de esquemas a nuevas necesidades del negocio. - Acceso no restringido a objetos de Data Warehouse. - Respaldo de los datos almacenados.

Un Data Warehouse Usa Una Representacin Multidimensional De Los Datos (Cubos). Por La Dimensin De Tiempo.

3.1.1 Definicin Y Objetivo De Bodegas De Datos Data Warehouse o bodega de datos es una coleccin de informacin corporativa derivada directamente de los sistemas operacionales (DB) y de algunos datos externos. Su propsito es soportar la toma de decisiones en un negocio (no las operaciones del negocio). Para construir una bodega de datos se necesitan herramientas para ayudar a la migracin y a la transformacin de los datos hacia la bodega de datos. Ya construida la bodega de datos necesitamos de herramientas para manejar grandes volmenes de informacin.

Fuentes Y Usos Del Data Warehouse.

3.1.2 Funcionamiento Data Warehouse Un data Warehouse se crea al extraer datos desde una o ms bases de datos de aplicaciones operacionales. La data extrada es transformada para eliminar inconsistencias y resumir si es necesario y luego, cargadas en el data Warehouse. El proceso de transformar, crear el detalle de tiempo variante, resumir y combinar los extractos de datos, ayudan a crear el ambiente para el acceso a la informacin Institucional. Este nuevo enfoque ayuda a las personas individuales, en todos los niveles de la empresa, a efectuar su toma de decisiones con ms responsabilidad. La innovacin de la Tecnologa de Informacin dentro de un ambiente data warehousing, puede permitir a cualquier organizacin hacer un uso ms ptimo de los datos, como un ingrediente clave para un proceso de toma de decisiones ms efectivo. Las organizaciones tienen que aprovechar sus recursos de informacin para crear la informacin de la operacin del negocio, pero deben considerarse las estrategias tecnolgicas necesarias para la implementacin de una arquitectura completa de data Warehouse.

Almacn de datos operativos (ODS) Staging rea es la ubicacin temporal donde se copian los datos de los sistemas de origen.

3.1.3 Consideraciones Diseo Data Warehouse


El diseo de un DW debe estar orientado a optimizar las consultas relacionadas con los aspectos del negocio que se desean estudiar. Tal y como se plante anteriormente, esto conduce a una estructura en estrella en la que el centro es la tabla Fact o Hecho que representa al factor principal por el que se desea analizar la base de datos. Alrededor de esta tabla aparecen las tablas dimensin, que representan los diferentes aspectos relacionados con el principal y que influyen en el estudio. Entre los aspectos a tener en cuenta al afrontar el diseo de un DW hay que tener especial cuidado al: Identificar las tablas de hechos, ya que es posible tener ms de una. Por cada aspecto del negocio que interese estudiar debe aparecer una tabla de hechos. Identificar las tablas de dimensin (esto es, decidir cules son los parmetros por los que interesa realizar el estudio). Comprobar que ninguna de las tablas de hechos oculta tablas de dimensiones. Al heredar la estructura de las bases de datos operacionales, esto ocurre muy a menudo al encontrarnos que no se han eliminado atributos que ya no interesan. Comprobar que ninguna de las tablas de dimensin oculta una tabla de hechos. Esto conducira a la tabla a un crecimiento anormal muy por encima de los lmites aceptables para este tipo de tablas (por otra parte, este sntoma ayuda a identificar el error cometido en el diseo).

3.1.4 Herramientas Para Extraer Transformar Y Cargar Fuentes De Datos Componentes: Sistema ETL (Extraction, Transformation, Load): realiza las funciones de extraccin de las fuentes de datos (transaccionales o externas), transformacin (limpieza, consolidacin, ) y la carga del AD, realizando: extraccin de los datos. Filtrado De Los Datos: limpieza, consolidacin, etc. Carga Inicial Del Almacn: ordenacin, agregaciones, etc. Refresco Del Almacn: operacin peridica que propaga los cambios de las fuentes externas al almacn de datos Repositorio Propio de Datos: informacin relevante, metadatos. Interfaces y Gestores de Consulta: permiten acceder a los datos y sobre ellos se conectan herramientas ms sofisticadas (OLAP, EIS, minera de datos). Sistemas de Integridad y Seguridad: se encargan de un mantenimiento global, copias de seguridad

Proceso ETL

DESCRIPCIN DE ETAPAS ETL


Extraer. Consiste en obtener los datos desde los sistemas de origen. La mayora de los proyectos de almacenamiento de datos fusionan datos provenientes de diferentes sistemas de origen. Cada sistema separado puede usar una organizacin diferente de los datos o formatos distintos. Los formatos de las fuentes normalmente se encuentran en bases de datos relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u otras estructuras diferentes. La extraccin convierte los datos a un formato preparado para iniciar el proceso de transformacin.

Transformar.
La fase de transformacin aplica una serie de reglas de negocio o funciones sobre los datos extrados para convertirlos en datos que sern cargados. Algunas fuentes de datos requerirn alguna pequea manipulacin de los datos.

Cargar
Es el momento en el cual los datos de la fase anterior (transformar) son cargados en el sistema de destino. Dependiendo de los requerimientos de la organizacin, este proceso puede abarcar una amplia variedad de acciones diferentes. En algunas bases de datos se sobrescribe la informacin antigua con nuevos datos. Los data Warehouse mantienen un historial de los registros de manera que se pueda hacer una auditora de los mismos y disponer de un rastro de toda la historia de un valor a lo largo del tiempo.

Algunas Herramientas ETL


Ab Initio Barracuda Software (Integrator) MakeWare Soluciones Tecnologicas http:// Benetl Biable http://www.visiontecnologica.com www.makeware.net BITool - ETL Software http://www.bitool.com/ BOPOS TLOG-4690 rhiscom (back-office POS) CloverETL [1] Cognos Decisionstream Data Integrator (herramienta de Business Objects) Data Migraton Toolset de Backoffice Associates (BoA) http://www.boaweb.com/migrationtoolset.htm Genio, Hummingbird IBM Websphere DataStage (Previously Ascential DataStage) Informtica PowerCenter metaWORKS ( Document Tools) Microsoft DTS (incluido en SQL-Server 2000) Microsoft Integration Services (MS SQL Server 2005) MySQL Migration Toolkit Scriptella ETL - Libre, Apache-licensed ETL Oracle Warehouse Builder WebFocus-iWay DataMigrator Server

3.2 Procesamiento Y Anlisis En Lnea OLAP


OLAP es el acrnimo en ingls de procesamiento analtico en lnea (On-Line Analytical Processing). Es una solucin utilizada en el campo de la llamada Inteligencia empresarial (o Business Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello utiliza estructuras multidimensionales (o Cubos OLAP) que contienen datos resumidos de grandes Bases de datos o Sistemas Transaccionales (OLTP). Se usa en informes de negocios de ventas, marketing, informes de direccin, minera de datos y reas similares. La razn de usar OLAP para las consultas es la velocidad de respuesta. Una base de datos relacional almacena entidades en tablas discretas si han sido normalizadas. Esta estructura es buena en un sistema OLTP pero para las complejas consultas Multi-tabla es relativamente lenta. Un modelo mejor para bsquedas (aunque peor desde el punto de vista operativo) es una base de datos multidimensional. La principal caracterstica que potencia a OLAP, es que es lo ms rpido a la hora de ejecutar sentencias SQL de tipo SELECT, en contraposicin con OLTP que es la mejor opcin para operaciones de tipo INSERT, UPDATE Y DELETE.

3.2.1 Definiciones Y Conceptos OLAP El procesamiento analtico en lnea (OLAP) le permite obtener acceso a datos organizados y agregados de orgenes de datos empresariales, como por ejemplo almacenamientos de datos, en una estructura multidimensional denominada cubo. Microsoft SQL Server 2005 Analysis Services (SSAS) proporciona herramientas y caractersticas para OLAP que puede utilizar para disear, implementar y mantener cubos y otros objetos compatibles. Antes de empezar a integrar cubos y otras funciones OLAP en las soluciones de Business Intelligence, asegrese de que conoce los conceptos y decisiones siguientes. El usuario emite consultas en el UDM mediante diversas herramientas de cliente, como Microsoft Excel. La interfaz de diseo que se muestra en este ejemplo est disponible en las herramientas de desarrollo incluidas en Microsoft SQL Server 2005. Con todo, se podra usar cualquier interfaz compatible con el modelo UDM, incluidas herramientas cliente como Office Excel u Office Web Components (OWC), o una de las muchas herramientas de anlisis y creacin de informes.

Ejemplo De OLAP

Ejemplo De Herramienta OLAP

Herramienta OLAP Para Excel

3.2.2 Requerimientos Funcionales De Los Sistemas OLAP.


Para el funcionamiento de un sistema OLAP se requiere:

3.2.3 Operadores Para Manejo De Cubos De Datos Del Estndar SQL3


Los cubos de informacin o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data Warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un nmero indefinido de dimensiones, razn por la cual tambin reciben el nombre de hipercubos. Un cubo OLAP contendr datos de una determinada variable que se desea analizar, proporcionando una vista lgica de los datos provistos por el sistema de informacin hacia el data Warehouse, esta vista estar dispuesta segn unas dimensiones y podr contener informacin calculada. El anlisis de los datos est basado en las dimensiones del hipercubos, por lo tanto, se trata de un anlisis multidimensional. A la informacin de un cubo puede acceder el ejecutivo mediante tablas dinmicas en una hoja de clculo o a travs de programas personalizados. Las tablas dinmicas le permiten manipular las vistas (cruces, filtrados, organizacin, totales) de la informacin con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de informacin se producen con mucha rapidez. Llevando estos conceptos a un data Warehouse, ste es una coleccin de datos que est formada por dimensiones y variables, entendiendo como dimensiones a aquellos elementos que participan en el anlisis y variables a los valores que se desean analizar.

3.2.4 Diseo De Consultas De Bases De Datos Multidimensionales El modelo UDM proporciona las siguientes ventajas: Mejora notablemente el modelo del usuario. Proporciona consultas de alto rendimiento que admiten un anlisis interactivo, incluso con grandes volmenes de datos. Captura las reglas de negocio del modelo para proporcionar un anlisis mejorado. Admite cerrar el ciclo, lo que permite que los usuarios acten segn los datos que ven. Modelo bsico del usuario final. Los datos de ventas se almacenan en la base de datos principal Sales and Inventory, que tambin contiene otras tablas. Incluso despus de identificar las tablas relevantes, puede que el usuario observe que los datos de una entidad nica, como Producto, se reparten en distintas tablas. Identificar las columnas que se deben utilizar para combinar las tablas. Seleccionar las columnas que contienen los detalles de inters, de muchas tablas con gran cantidad de detalles orientados al sistema. Por ejemplo, de las 11 columnas de las tablas que almacenan detalles sobre categoras de producto, slo dos columnas con nombre son relevantes para el usuario.

3.2.5 Utilizacin Herramientas Para OLAP


Herramientas OLAP (On-Line Analytical Processing). Permiten obtener informacin generando consultas multidimensionales, con columnas y filas mviles y diversos grados de agrupamiento para diferentes parmetros. Modelo Multidimensional: Modelo estilo hoja de clculo. Elementos: Medidas: Valores de inters Dimensiones, Atributos, Propiedades Visin de Cubos, Datos representados en forma de arreglos multidimensionales. Visin de Relaciones: Tablas de hechos (Fact Table): Ejemplo: ventas. Tablas de dimensiones: Ejemplo: tiempo, producto, geografa. Usualmente se maneja el tiempo como una tabla. Esto permite colocar atributos a la fecha. La normalizacin genera un efecto denominado copos de nieve, es preferible usar el mtodo de la estrella, donde las relaciones son ms claras. La actualizacin se hace por periodos, no en lnea.

Se tienen herramientas comerciales y otras gratuitas.

3.3 Mercado De Datos Data Mart


Un Data Mart es una versin especial almacn de datos (Data Warehouse). Como los almacenes de datos, los data Marts contienen una visin de datos operacionales que ayudan a decidir sobre estrategias de negocio basadas en el anlisis de tendencias y experiencias pasadas. La diferencia principal es que la creacin de un data Mart es especifica para una necesidad de datos seleccionados, enfatizando el fcil acceso a una informacin relevante.
Introduccin de data Mart Los productos Data Warehouse han nacido para resolver problemas de anlisis de grandes masas de informacin, en empresas donde una pequea diferencia en el valor de una variable, puede afectar la cuenta de resultado con unas diferencias de millones de dlares. Data Mart se destaca por una definicin de requerimientos ms fcil y rpida. Tambin se simplifica el desarrollo de todo el mecanismo de su base de datos y con ello baja substancialmente todo el coste del proyecto, as como su duracin. Normalmente, Data Mart resuelve aplicaciones a nivel departamental, aunque en ocasiones se desarrolla una aplicacin que integre todas ellas y proporciona las funciones de un EIS (Executive Information System)

3.3.1 Definiciones Conceptos Y Mercados De Datos


Un Data Mart es una base de datos departamental, especializada en el almacenamiento de los datos de un rea de negocio especfica. Se caracteriza por disponer la estructura ptima de datos para analizar la informacin al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. Data Mart es un almacn de datos histricos relativos a un departamento de una organizacin, as que puede ser simplemente una copia de parte de un DWH para uso departamental. Por lo tanto para crear el Data Mart de un rea funcional de la empresa es preciso encontrar la estructura ptima para el anlisis de su informacin. Diferencias entre Data Mart y Data Warehouse El Data Mart se centra solamente en los requerimientos de usuarios asociados con un departamento o funcin de negocio. Los Data Marts normalmente no contienen datos operacionales detallados a diferencia de data Warehouse. Debido a que los data Marts contienen menos informacin comparados con los Data Warehouse, los data Marts son ms fcilmente entendibles y navegables.

3.3.2 Fases De Construccin de Mercado De Datos


1.- Construccin del Data Mart: Esta actividad tiene el objetivo de construir el modelo de datos, la Metadata de la herramienta de Explotacin y La Arquitectura del Modelo Multidimensional en la herramienta de explotacin. 2.- Construccin de los Procesos de Cargas: En sta actividad es cuando se debe desarrollar los procesos de carga de datos, las rutinas de limpieza, los flujos de cargas de datos, las interfaz de acceso, los importadores e integradores de datos, los programas de entrada de datos, etc. 3.- Construccin de los reportes analticos: Consiste en construir los reportes, tableros de control, dashboard, scorecard, etc. 4.- Construccin de los procesos de prueba: Se debe construir los programas, reportes, informes que permita probar los procesos de cargas y los reportes entregados.

3.3.2.1 Anlisis
Data Mart es especfica para una necesidad de datos seleccionados, enfatizando el fcil acceso a una informacin relevante. Data Mart se destaca por una definicin de requerimientos ms fcil y rpida. Para crear el Datamart de un rea funcional de la empresa es preciso encontrar la estructura ptima para el anlisis de su informacin, estructura que puede estar montada sobre una base de datos OLTP, como el propio Data Warehouse, o sobre una base de datos OLAP.

Datamart OLAP: se basan en los populares cubos OLAP, que se construyen agregando, segn los requisitos de cada rea o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creacin, explotacin y mantenimiento de los cubos OLAP es muy heterogneo, en funcin de la herramienta final que se utilice. Datamart OLTP: Pueden basarse en un simple extracto del Data Warehouse, no obstante, lo comn es introducir mejoras en su rendimiento (las agregaciones y los filtrados suelen ser las operaciones ms usuales) aprovechando las caractersticas particulares de cada rea de la empresa. Los datamarts que estn dotados con estas estructuras ptimas de anlisis presentan las siguientes ventajas: Poco volumen de datos Mayor rapidez de consulta Consultas SQL y/o MDX sencillas Validacin directa de la informacin Facilidad para la hostilizacin de los datos

3.3.2.2 Construccin
La Fase de Construccin implica:
Construccin del Data Mart: Esta actividad tiene el objetivo de construir el modelo de datos, la Metadata de la herramienta de Explotacin y La Arquitectura del Modelo Multidimensional en la herramienta de explotacin. Construccin de los Procesos de Cargas: En sta actividad es cuando se debe desarrollar los procesos de carga de datos, las rutinas de limpieza, los flujos de cargas de datos, las interfaz de acceso, los importadores e integradores de datos, los programas de entrada de datos. Construccin de los reportes analticos: Consiste en construir los reportes, tableros de control, dashboard, scorecard. Construccin de los procesos de prueba: Se debe construir los programas, reportes, informes que permita probar los procesos de cargas y los reportes entregados.

El modelo Top Down: Est basado en la estructura de la Data Warehouse, la cual se construye a partir de los datos que se puedan obtener de los diferentes sistemas operacionales o externos (datos aislados) a travs de un proceso de extraccin, transformacin y transportacin (ETT).

Top Down: Tiene como base un sistema de Data Warehouse para toda la empresa y a partir de este se desarrollan los Data Marts para las divisiones o departamentos. Modelo Bottom up: En este modelo los Data Marts se construyen a partir de los datos dispersos y la Data Warehouse se construye a partir de los Data Marts existentes, esta construccin se realiza a travs de dos procesos diferentes de extraccin, transformacin y transportacin.
El Modelo Paralelo: El diseo del modelo paralelo se basa en dos alternativas, en la primera se tratan los Data Marts con entidades independientes de los Data Warehouse y en la segunda, esta independencia se trata de forma temporal.

Modelo Top Down con Retroalimentacin: Este modelo incluye la posibilidad de agregar datos que no estn presentes en la Data Warehouse y que se requieran para cumplir con los requerimientos de un anlisis especfico. Modelo Bottom Up con Retroalimentacin: Permitir que la integracin de los datos e informacin dada en los Data Marts se pueda implementar durante la construccin de la Data Warehouse. Modelo Paralelo con Retroalimentacin: El desarrollo principalmente trabaja con la retroalimentacin que tenga el Data Mart, ya que su inicio depende de un perodo de ajuste entre ste y el modelo de datos de la Data Warehouse. Mientras las entradas y salidas se estn dando en los Data Marts, en la Data Warehouse estos mismos se estn realizando, dado a las caractersticas de paralelismo que existe entre ellos. *

3.3.3 Tecnologas De Mercados De Datos TECNOLOGIAS DATAMART: Aspect Data Mart es una solucin completa de reportes para la empresa, que le proporciona un mayor entendimiento de las operaciones de sus negocios y reduce el tiempo que consumen estas tareas. Esta solucin consolida datos de mltiples fuentes para darle una perspectiva de las operaciones del centro de contacto de su empresa y as poder identificar rpidamente los procesos de cambio necesarios. Destacados Consolidacin y fcil anlisis de datos de mltiples sitios, canales y plataformas. Perspectiva a nivel empresarial de las operaciones del centro de contacto. Informe integral que ayuda a dar un servicio al cliente personalizado. Integracin de datos desde el almacn de datos corporativo actual para tener un panorama completo de sus negocios. Interfaces customizables para fuentes de datos comunes de centros de contacto.

3.3.3.1 Herramientas Front-End Tambin conocidas como herramientas de acceso a los datos o herramientas de presentacin. El Front-End es la parte del software que interacta con el o los usuarios Herramientas Front-End Herramientas de consulta: usan consultas predefinidas y las capacidades de informacin incorporadas para que los usuarios tenga accesos a los datos. Aplicaciones de usuarios: Muchos programas de aplicacin comunes como Microsoft Excel pueden proporcionar acceso Front-End a bases de datos de apoyo. Herramientas de desarrollos de programas: Muchas instalaciones cliente-servidor necesitan aplicaciones Front-End especiales personalizados para sus tareas de obtencin de datos. Son esenciales para acceder y analizar los datos en el Datamart.

3.3.3.2 Herramientas De Bases De Datos


Base de Datos Multidimensional: Llamada DATAMART en la cual se guardan los datos histricos correspondientes a los indicadores de gestin de calidad de bd Access Todas las bases de dato se construyeron con SQL Server 2000. Queries Bsicas y Reporting: En este tipo de herramientas el usuario accede directamente a la estructura de las bases de datos relacionales para construir consultas e informes, va SQL (estndar para el acceso a las bases de datos relacionales). El SQL es un lenguaje muy extendido entre los programadores, pero no tanto entre los usuarios finales. Aunque estas herramientas escondan en cierta forma los comandos del SQL, sigue siendo necesario tener claro el modelo relacional en cuanto se quiere hacer algn informe complejo, por lo que su utilizacin directa no est recomendada a usuarios finales.

3.3.4 Proceso De Diseo De Consultas De Mercados De Datos

El diseo de bases de datos es el proceso por el que se determina la organizacin de una base de datos, incluidos su estructura, contenido y las aplicaciones que se han de desarrollar. PALO es un motor orientado a celdas, multidimensional, que est especficamente diseado para mostrar informacin desde Excel, para todo tipo de anlisis.

3.4 Minera De Datos Data Mining

La minera de datos (DM, Data Mining) consiste en la extraccin no trivial de informacin que reside de manera implcita en los datos. Dicha informacin era previamente desconocida y podr resultar til para algn proceso. En otras palabras, la minera de datos prepara, sondea y explora los datos para sacar la informacin oculta en ellos. Bajo el nombre de minera de datos se engloba todo un conjunto de tcnicas encaminadas a la extraccin de conocimiento procesable, implcito en las bases de datos. Est fuertemente ligado con la supervisin de procesos industriales ya que resulta muy til para aprovechar los datos almacenados en las bases de datos. Las bases de la minera de datos se encuentran en la inteligencia artificial y en el anlisis estadstico. Mediante los modelos extrados utilizando tcnicas de minera de datos se aborda la solucin a problemas de prediccin, clasificacin y segmentacin.

3.4.1 Definiciones Y Conceptos De Minera Datos Segn Fallad y sus coautores (1996): La minera de datos es un proceso no trivial de identificacin vlida, novedosa, potencialmente til y entendible de patrones comprensibles que se encuentran ocultos en los datos. Es una herramienta capaz de abarcar una amplia gama de dominios, desde aquellos de la recuperacin y extraccin de informacin, presentacin, resumen de multidocumentos, minera de datos aplicada a textos, etctera. Es un trmino que en dependencia del autor que lo emplee se restringen o se amplan sus esferas de aplicacin. Consiste en la bsqueda de regularidades o patrones que se encuentran en un texto, a partir de tcnicas de aprendizaje automtico; por tanto, se considera como una de las muchas ramas de la lingstica computacional. Como proceso se ocupa del descubrimiento del conocimiento que no existe en el texto, pero que surge al relacionar el contenido de varios textos y se divide en varias etapas.

3.4.2 Aplicaciones De Minera De Datos


En la actualidad existe una gran cantidad de aplicaciones, en reas tales como: Negocios La minera de datos puede contribuir significativamente en las aplicaciones de administracin empresarial basada en la relacin con el cliente. En lugar de contactar con el cliente de forma indiscriminada a travs de un centro de llamadas o enviando cartas, slo se contactar con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promocin. Por lo general, las empresas que emplean minera de datos ven rpidamente el retorno de la inversin, pero tambin reconocen que el nmero de modelos predictivos desarrollados puede crecer muy rpidamente. En lugar de crear modelos para predecir qu clientes pueden cambiar, la empresa podra construir modelos separados para cada regin y/o para cada tipo de cliente. Tambin puede querer determinar que clientes van a ser rentables durante una ventana de tiempo (una quincena, un mes, ) y slo enviar las ofertas a las personas que es probable que sean rentables. Para mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo y pasar a una minera de datos lo ms automatizada posible.

3.4.3 Diseo De Mineros De Datos


Un proceso tpico de minera de datos consta de los siguientes pasos generales: 1. Seleccin del conjunto de datos, tanto en lo que se refiere a las variables dependientes, como a las variables objetivo, como posiblemente al muestreo de los registros disponibles. 2. Anlisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersin, presencia de valores atpicos y ausencia de datos (valores nulos). 3. Transformacin del conjunto de datos de entrada, se realizar de diversas formas en funcin del anlisis previo, con el objetivo de prepararlo para aplicar la tcnica de minera de datos que mejor se adapte a los datos y al problema. 4. Seleccionar y aplicar la tcnica de minera de datos, se construye el modelo predictivo, de clasificacin o segmentacin. 5. Evaluar los resultados contrastndolos con un conjunto de datos previamente reservado para validar la generalidad del modelo. Si el modelo final no superara esta evaluacin el proceso se podra repetir desde el principio o, si el experto lo considera oportuno, a partir de cualquiera de los pasos anteriores. Esta retroalimentacin se podr repetir cuantas veces se considere necesario hasta obtener un modelo vlido.

3.4.5 Tcnicas De Herramientas De Minera De Datos

Como ya se ha comentado, las tcnicas de la minera de datos provienen de la Inteligencia artificial y de la estadstica, dichas tcnicas, no son ms que algoritmos, ms o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. Las tcnicas ms representativas son: Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automtico inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexin de neuronas en una red que colabora para producir un estmulo de salida. Algunos ejemplos de red neuronal son: El Perceptrn. El Perceptrn multicapa. Los Mapas Auto organizados, tambin conocidos como redes de Kohonen.

3.4.6 Tendencias En Minera De Datos La Minera de Datos ha sufrido transformaciones en los ltimos aos de acuerdo con cambios tecnolgicos, de estrategias de marketing, la extensin de los modelos de compra en lnea, etc. Los ms importantes de ellos son: La importancia que han cobrado los datos no estructurados (texto, pginas de Internet, etc.) La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet, etc. La exigencia de que los procesos funcionen prcticamente en lnea (por ejemplo, que frente a un fraude con una tarjeta de crdito). Los tiempos de respuesta. El gran volumen de datos que hay que procesar en muchos casos para obtener un modelo vlido es un inconveniente; esto implica grandes cantidades de tiempo de proceso y hay problemas que requieren una respuesta en tiempo real.

You might also like