You are on page 1of 6

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf.

(51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

Curso Bsico de Anlisis Predictivo

Minera de Datos y Minera de Textos (DM051)

SUMILLA El anlisis predictivo relaciona los datos con las acciones efectuadas por las organizaciones tal que permitan llegar a conclusiones fiables sobre eventos actuales y futuros, permite mejorar el conocimiento del negocio tal como el comportamiento de los clientes, empleados, pacientes, estudiantes y ciudadanos. Los dominios de aplicacin pueden estar en empresas comercializadoras, de produccin, finanzas, energa, gobierno, etc. La minera de datos es el proceso de descubrir conocimiento desde bases de datos, mediante un proceso de extraccin no trivial de informacin implcita, previamente desconocida y potencialmente til. Descubrir conocimiento implica buscar patrones de comportamiento an no conocidos en los datos. El conocimiento se puede manifestar como: patrones, reglas de conocimiento, asociaciones, grupos, restricciones, tendencias, etc. La minera de textos es el proceso para descubrir conocimiento almacenado en documentos (datos no estructurados). Comprende las siguientes actividades fundamentales: Clasificacin de documentos para la asignacin automtica a clases pre-definidas; Agrupamiento de documentos para la identificacin de documentos similares; Recuperacin de informacin (similar a un buscador); Extraccin de la informacin incluida en esos textos (hechos); y Extraccin de asociaciones entre los hechos extrados. OBJETIVOS Al final del curso los alumnos estarn en capacidad de: Comprender y usar las tcnicas para el muestreo, descripcin, limpieza y transformacin de datos mediante la identificacin y eliminacin de datos extremos, valores nulos y datos mal clasificados, la seleccin de caractersticas y el balanceo de datos. Comprender el proceso de la minera de datos para extraer patrones de comportamiento haciendo uso de la metodologa CRISP-DM. Disear, desarrollar, evaluar y comprender los modelo descriptivos reglas de asociacin y agrupamiento y los modelos predictivos clasificacin y regresin, con la finalidad de identificar patrones de comportamiento (conocimiento oculto). Comprender y aplicar los conceptos necesarios para evaluar el rendimiento de los modelos basado en su efectividad haciendo uso de la matriz de clasificacin y del MAPE Comprender, usar y entender los resultados entregados por los programas de software. Entender y aplicar los algoritmos de redes neuronales, rboles de decisin, modelo naive bayes, regresin logstica, k-means, maximizacin de expectativas y algoritmo a priori. Conocer y entender los fundamentos y problemticas actuales de Minera de Textos en comparacin a Data Mining tradicional. Comprender y usar las tcnicas para el anlisis y la preparacin de documentos.

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

CONTENIDO El curso est conformado por los siguientes temas.

Fundamentos de Anlisis Predictivo

Entendim iento y Preparacin de datos

Modelo de Clasificacin

Modelos de Regresin

Modelo s de Agrupamie nto

Modelo s de Asocia ci n

Minera de Textos

Los temas se encadenan en una secuencia lgica de desarrollo pedaggico, basados en la exposicin conceptual de nociones fundamentales de la minera de datos y en el desarrollo de ejercicios prcticos para consolidar los conocimientos impartidos. METODOLOGA Desarrollo de clases tericas para explicar los conceptos necesarios. Desarrollo de talleres, donde se aplica lo aprendido en clase. Uso de medios audiovisuales (proyectores) Materiales de clase impresos y en CD.

DOMINIOS DE APLICACIN Riesgos Financieros Riesgos de Fraudes Riesgos de Accidentes de Trabajo Desercin de clientes Deteccin de fraudes Segmentacin de Clientes Ventas Cruzadas Patrones Secuenciales Anlisis de opiniones subjetivas Similaridad de documentos Bsqueda e indexacin de documentos Anlisis de mensajes en redes sociales Anlisis de encuestas abiertas. Anlisis de post en blogs. Anlisis de correos electrnicos (spam). Estructuracin de base de datos.

REQUISITOS Es deseable que los alumnos tengan experiencia en (no indispensable): Base de datos (MS SQL, mySQL, Oracle, Sybase, etc.) Estadstica y probabilidades Hoja de clculo. Disponer de una computadora para el desarrollo de las clases

QUIENES PUEDEN ASISTIR Analistas de riesgos. Analistas de marketing en la web. Analistas de marketing, mercadeo o de pronstico. Investigadores de mercado que desean analizar encuestas abiertas. Personal involucrado en proyectos de Business Intelligence. Personal involucrado en proyectos de pronstico y prediccin. Profesionales de estadsticos y economa. Profesionales en estadstica interesados en analizar el contenido de textos no estructurados (formularios, encuestas, etc.). Administradores de Bases de Datos.

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

HERRAMIENTAS Para el desarrollo del curso se hace uso del software libre Rapidminer.

MATERIALES El alumno recibe como parte de su capacitacin Un CD conteniendo el material del curso, ejercicios prcticos, software libre y documentos relacionados. Material impreso CERTIFICADO Para recibir el certificado de aprobacin del curso, los alumnos deben asistir al 100% de las sesiones y desarrollar un conjunto de ejercicios que demuestran su aprendizaje. Los alumnos que asistan al 100% de las sesiones y no entregan la tareas reciben una constancia de asistencia por 24 horas.

INSTRUCTOR Ing. Samuel Oporto Daz. Especialista en el desarrollo de modelos predictivos. Magster en Inteligencia Artificial ITESM-Mxico. Ingeniero de Sistemas UNI-Per. Estudios de Especializacin en robtica aplicada-CNAD-Mxico DF. Poltica Educativa Virtual-UAHChile. Docente del curso de Inteligencia Artificial en la UNI, UPAO, USMP y UPC. Docente del Curso de Minera de Datos en el IIFIIS, CTIC-UNI y la UPC. Jefe del Proyectos en el CTIC-UNI. Investigador Principal del Instituto de Investigacin de la FIIS (IIFIIS). Especialista en Visin Artificial, Reconocimiento de Patrones y Redes Neuronales. Investigador en Ciencias de Computacin con publicaciones en: IJCNN2007, ICAIPR2007, ICIAR2005, LNCS2005, CLEI2004, CLEI2006. Consultor en Sistemas Inteligentes y Sistemas Autnomos. Consultor del programa de Modernizacin del Estado Peruano. Consultor de la Secretara de Planificacin Estratgica del Ministerio de Educacin del Per.

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

TEMARIO Nombre de los temas a tratar INTRODUCCIN A LOS FUNDAMENTOS DE MINERA DE DATOS Fundamentos de anlisis de datos. Conceptos y conocimientos previos. Definicin de la Minera de Datos. Herramientas de software disponibles. Modelo de minera de datos. Evaluacin del desempeo. Matriz de confusin. Lift charts. Curva ROC. El proceso de la minera de datos. Metodologas para la minera de datos. CRISP-DM. SEMMA. El proceso de la minera de datos (CRISP). ENTENDIMIENTO Y PREPARACIN DE DATOS Entendimiento de los datos. Recoleccin de datos inciales. Descripcin de los datos. Estadsticas descriptiva univariada y multivariada. Relaciones entre series de datos. Exploracin de los datos. Verificacin de la calidad de los datos. Preparacin de datos. Limpieza de datos. Datos perdidos. Valores extremos. Datos con ruido. Datos mal clasificados. Datos inconsistentes. Integracin de datos. Transformacin de datos. Reduccin de datos. Reduccin de datos. Reduccin de instancias. MODELOS DE CLASIFICACIN ARBOLES DE DECISION Mtodos de Clasificacin. Induccin. Atributos y clase. Evaluacin de modelos de clasificacin. Probabilidad de una clasificacin. Clasificador Naive Bayes. Probabilidades. Clasificador Naive Bayes. Arboles de Decisin. rbol de decisin. Informacin y entropa. Generacin del rbol de decisin. Poda del rbol. Regresin Logstica. Discretizacin y numerizacin. MODELOS DE REGRESIN REDES NEURONALES Modelos de Regresin. Evaluacin de modelos de regresin. MAPE. Neuronas naturales y artificiales. pocas, funcin de transferencia. Aprendizaje de la red neuronal. Preparacin de datos. Red Perceptrn. Red de retro propagacin. Anlisis de las Redes Neuronales. Sub-ajuste y sobre-ajuste. Normalizacin de datos. Neuronas de la capa intermedia. MODELOS DE AGRUPAMIENTO K-MEANS Y ALGORITMO EM Modelos de agrupamiento. Conceptos de agrupamiento. Conceptos de agrupamiento. Medidas de distancias. Tipos de agrupamiento. Componentes Principales. Modelos de Agrupamiento. K-means. Jerrquico. Modelos de agrupamiento y modelos de clasificacin. MODELOS DE ASOCIACIN ALGORITMO A PRIORI Conceptos acerca de modelos de asociacin, entendiendo conceptos como: soporte, confianza, itemset. Buscando itemsets frecuentes. Graficando las reglas de asociacin. Generando reglas de asociacin. Prediccin. Ventas cruzadas, Canasta de mercado. INTRODUCCIN A LA MINERIA DE TEXTOS (TEXT MINING) Qu es la minera de textos?. Colecciones de documentos corpus. Datos semiestructurados y datos no estructurados. Tcnicas de minera de textos. El proceso de la minera de textos. Herramientas. Lingstica, Morfologa, Sintaxis, Semntica. Conceptos bsicos, Gramtica, Lxico, Sintaxis. Tokenizacin. Stop words. Stemming. Vector de Indices. Total de horas a dictar Duracin 4h

4h

4h

4h

2h

2h

24 h

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

EX ALUMNOS EDELNOR SUNAT Pacifico Vida Profuturo AFP Caja Municipal de Trujillo FondeSurco SCI Nextel del Per Telefnica del Per ATENTO Corporacin Radial del Per RPP TECSUP UPCH UPC BSH Electrodomsticos LAN Per Visanet Per Corporacin Lindley Citibank del Per S.A. Aceros Arequipa Financiera Efectiva S.A. Red Cientfica Peruana

Av. Jos Pardo 138, Oficina 1402 Miraflores Lima - Per Telf. (51-1) 6978227 / 725-7209

informes@kasperu.com www.kasperu.com

KASPeru Av. Jos Pardo 138, Oficina 1402 Miraflores Lima Per (51-1) 697-8227 (51-1) 725-7209

www.kasperu.com informes@kasperu.com Todos los derechos reservados. Todos los nombres de empresas y/o productos mencionados tienen propsitos de identificacin nicamente, ellos son registrados por sus respectivos dueos.

You might also like