Professional Documents
Culture Documents
Permite el
desarrollo de procesos de anlisis de datos mediante el encadenamiento de operadores a travs
de un entorno grfico. Se usa en investigacin, educacin, capacitacin, creacin rpida de
prototipos y en aplicaciones empresariales.
RapidMiner utiliza un modelo de cliente / servidor con el servidor ofrecido como premisa o en
infraestructuras de nube pblica o privada
http://sourceforge.net/projects/rapidminer/
INSTALACION
Para un repositorio local basta con especificar un nombre (alias) y definir cualquier en su disco
duro. Puede seleccionar el directorio directamente haciendo clic en el icono de la carpeta a la
derecha. Es aconsejable crear un nuevo directorio en un lugar conveniente dentro del cuadro
de dilogo del archivo que luego aparece y luego usar este nuevo directorio como base para su
repositorio local. Este repositorio sirve como central de almacenamiento para sus datos y
procesos de anlisis y acompaar en el futuro cercano.
PERSPECTIVAS Y VISTAS
1. Nuevo Proceso: Abre la perspectiva del diseo y crea un nuevo anlisis proceso.
2. Abrir: Abre un navegador de repositorio, si hace clic en el botn. Usted puede elegir y abrir
un proceso existente en la perspectiva del diseo. Si hace clic en el botn de flecha en el lado
derecho, una lista de procesos recientemente abiertos aparece. Puede seleccionar uno y se
abrir en la perspectiva del diseo.
3. Asistente para aplicaciones: puede utilizar el Asistente para aplicaciones para resolver
problemas de minera de datos con sus datos en tres pasos. El Marketing Directo Asistente le
permite encontrar acciones de marketing con la mayor conversin tarifas El Asistente de
mantenimiento predictivo predice el mantenimiento necesario ocupaciones. El Asistente para
Anlisis de Churn le permite identificar qu clientes son ms propensos a churn y por qu. El
Asistente para Anlisis de Sentimientos analiza una corriente de los medios sociales y le da una
penetracin en clientes pensando.
4. Tutoriales: Inicia una ventana de tutorial que muestra varios tutoriales disponibles desde la
creacin del primer proceso de anlisis hasta la transformacin de datos. Cada tutorial se puede
utilizar directamente en RapidMiner Studio y ofrece una introduccin a algunos conceptos de
minera de datos utilizando una seleccin de procesos de anlisis.
En la Perspectiva del Hogar slo hay una visin, una preestablecida al menos, pantalla de
inicio, que est viendo ahora. Puede activar otras vistas acceder al men "Ver":
En el subitem "Mostrar vista" encontrar todas las vistas disponibles de RapidMiner Estudio.
Las vistas, que ahora son visibles en la perspectiva actual, estn marcadas con un visto. Active
otra vista haciendo una seleccin, por ejemplo la vista con el nombre "Registro". Ahora ver en
que una segunda vista con este nombre ha sido aadida en la Perspectiva del Hogar.
Perspectiva del diseo: sta es la perspectiva central de RapidMiner Studio donde todos los
procesos de anlisis son creados, editados y administrados.
Wizard Perspective: Esta es la perspectiva, que muestra la aplicacin Asistente para aplicar
problemas tpicos de minera de datos en sus datos.
Hay dos puntos de vista muy significativos en esta rea, por lo menos en el estndar, que se
describen a continuacin.
Vista de Operadores
Control de Procesos: Operadores tales como bucles o ramas condicionales que controlar el
flujo del proceso.
Importar: Contiene un gran nmero de operadores para leer datos y objetos desde formatos
externos como archivos, bases de datos, etc.
Exportar: Contiene un gran nmero de operadores para escribir datos y objetos en formatos
externos como archivos, bases de datos, etc.
Evaluacin: Los operadores que pueden calcular la calidad de un modelo y por nuevos datos,
p. validaciones cruzadas, bootstrapping, etc.
Con el fin de hacer el trabajo tan fcil para usted como sea posible, la vista de Operadores
tambin soporta filtro adems, que se puede utilizar para buscar partes del nombre del
operador o el nombre completo del operador. Simplemente introduzca la palabra de bsqueda
en el campo de filtro.
Tan pronto como hay menos de 10 resultados de bsqueda en conjunto, el rbol se abre para
revelar todos los resultados de bsqueda. Esto significa que no es necesario navegar por el
jerarqua completa cada vez. Haciendo clic en la cruz roja junto al campo de bsqueda borra lo
que est entrando actualmente y cierra de nuevo el rbol.
Los iconos junto al campo de bsqueda pueden filtrar operadores obsoletos y clasificar los
operadores de acuerdo con los operadores ms utilizados.
PRIMEROS PASOS
Operadores y Procesos
La accin realizada por el operador en las entradas, que en ltima instancia al suministro de
las salidas,
Dicho operador puede, por ejemplo, importar datos del repositorio, una base de datos o de
archivos. En este caso no tendra puertos de entrada, aunque tendra un parmetro al menos
especificar la ubicacin de los datos. Otros operadores transforman sus entradas y devolver un
objeto del mismo tipo. Operadores que transforman los datos pertenecen a este grupo. Y otros
operadores siguen consumiendo sus convertirlo en un objeto completamente nuevo: muchos
mtodos de minera de datos vienen bajo esta categora y suministrar un modelo para los
datos de entrada dados por ejemplo.
El color de los puertos indica el tipo de entrada con el que se debe suministrar un puerto. Por
ejemplo, un color azulado indica que se requiere un conjunto de ejemplo. Si la mitad superior
del puerto y el nombre del puerto son rojos, entonces esto indica un problema. Este problema
es fcil de ver para el operador en la figura no se encuentra conectado y los puertos de
entrada todava necesitan una conexin a una fuente adecuada.
Los puertos de salida son blancos si el resultado no est claro o no se puede (an) suministrar
en la configuracin actual. Tan pronto como todas las configuraciones necesarias estn
completas, es decir, se definen todos los parmetros necesarios y todos los puertos de entrada
necesarios conectados, entonces los puertos de salida se colorean de acuerdo con su tipo.
Pero no slo los puertos pueden visualizar su estado mediante diferentes estados indicadores,
sino tambin el operador completo. Estos se dan a partir de la izquierda a la derecha por:
Luz de estado: Indica si hay un problema como los parmetros que no tienen puertos de
entrada conectados o no conectados (rojo), si la configuracin est prcticamente completa,
pero el operador todava no se ha puesto en prctica entonces (amarillo) o si todo est bien y
el operador tambin ha implementado correctamente (verde).
Tringulo de advertencia: Indica cundo hay mensajes de estado para este operador.
Punto de interrupcin: Indica si se debe detener la ejecucin del proceso antes o despus este
operador con el fin de dar al analista la oportunidad de examinar resultados intermedios.
Comentario: Si se ha introducido un comentario para este operador, se indica por este icono.
Subproceso: Esta es una indicacin muy importante, ya que algunos operadores tienen una o
ms subprocesos. Se demuestra por esta indicacin si existe tal un subproceso. Puede hacer
doble clic en el operador en cuestin para bajar en los subprocesos.
Si varios operadores estn interconectados, entonces hablamos de un proceso de anlisis o
proceso para abreviar. Dicha sucesin de pasos puede por ejemplo cargar un conjunto de
datos, transformar los datos, calcular un modelo y aplicar el modelo a otro conjunto de datos.
Insertar operadores
Puede insertar nuevos operadores en el proceso de diferentes maneras. Aqu estn los detalles
de las diferentes maneras:
A travs del dilogo que se abre mediante la entrada de men "Editar" - "Nuevo operador. .
." (Ctrl - I),
A travs del men contextual en un rea libre del rea de proceso blanca y submen "Nuevo
Operador" y la seleccin de un operador.
En cada caso, los nuevos operadores son, dependiendo del ajuste en la vista de operadores,
conectados automticamente con los operadores adecuados, o las conexiones a realizar o
corregir manualmente por el usuario.
Operadores de conexin
Hay bsicamente tres maneras disponibles para usted, que se describir en el siguiente.
Conexiones 2: manualmente
Tambin puede interconectar los operadores manualmente y esto es incluso necesario para
procesos ms complejos. Para ello, haga clic en un puerto de salida. Ahora vas a dibuje una
hebra naranja como se muestra en la Figura 2.17. Haga clic en un puerto de entrada n para
conectar el puerto de salida seleccionado con este puerto de entrada. Para cancelar el
proceso, mantenga pulsado el ratn y haga clic con el botn derecho del ratn. La hebra de
color naranja desaparecer y usted puede continuar trabajando normalmente.
El operador anterior siempre estaba marcado por un marco y una sombra durante la insercin.
Seleccin de operadores
Para modificar los parmetros, debe seleccionar un operador individual. Vas a reconocer el
operador seleccionado actualmente por su marco naranja as como su sombra.
Si desea realizar una accin para varios operadores al mismo tiempo, ejemplo, mover o borrar,
seleccione los operadores relevantes arrastrando un marco alrededor de stos.
Con el fin de agregar operadores individuales a la seleccin actual o excluir operadores de la
seleccin actual, mantenga presionada la tecla CTRL mientras haga clic en los operadores
relevantes o agregue operadores adicionales arrastrando un marco.
Operadores mviles
Seleccione uno o ms operadores como se describe arriba. Ahora mueva el cursor sobre uno
de los operadores seleccionados y arrastre el ratn mientras mantiene pulsado el botn. Todos
los operadores seleccionados se movern ahora a un nuevo lugar en funcin de mover el
ratn. Si, en el transcurso de este movimiento, llegas al borde del rea blanca, entonces esto
se ampliar automticamente en consecuencia. Si usted debe alcanzar el borde del rea
visible, entonces esto tambin se mover automticamente.
Operadores de Copia
Seleccione uno o ms operadores como se describe arriba. Ahora presione Ctrl + C para copiar
el seleccione los operadores y pulse Ctrl + V para pegarlos. Todos los operadores seleccionados
ahora a un nuevo lugar junto a los operadores originales, donde se puede mover ms
adelante.
Eliminacin de operadores
Seleccione uno o ms operadores como se describe arriba. Ahora puede borrar la operadores
por
Eliminacin de conexiones
Las conexiones se pueden eliminar haciendo clic en uno de los dos puertos mientras ALT al
mismo tiempo. Alternativamente, tambin puede eliminar una conexin a travs del men
contextual de los puertos afectados.
Flecha que apunta a la izquierda: Regresa al ltimo lugar de edicin de manera similar a la
navegacin que es familiar de los navegadores de Internet. Pasos individuales pueden tambin
se saltan a travs del men emergente.
Flecha hacia la derecha: vuelve a los lugares de edicin ms recientes de la historia de una
manera similar a la navegacin que es familiar de los navegadores de Internet.
Flecha apuntando hacia arriba: Dejar el subproceso actual y volver al mayor proceso.
Con el fin de descender en un subproceso, es necesario hacer doble clic en un operador con el
subproceso icono en la parte inferior de la derecha. Para poder ir un nivel de nuevo, puede
navegar hacia arriba con la flecha. El camino actual se muestra mediante la barra de
navegacin (Fig. 2.19), que puede alternativamente utilizarse para navegue en ambas
direcciones.
En casi todos los casos, RapidMiner logra determinar automticamente la orden de ejecucin
de los operadores. Para ello, RapidMiner utiliza la informacin de conexin y el hecho de que
un operador, cuyo resultado es ser utilizado por otro operador, debe obviamente ser
ejecutado antes de este ltimo.
Sin embargo, hay casos en los que la orden no puede definirse como subprocesos
completamente paralelos o donde el orden automtico no es correcto, por ejemplo, porque
primero se debe calcular una macro antes de poder usarla como una en un operador posterior.
Pero tambin hay otras razones que a menudo juegan una parte importante, como un manejo
ms eficiente de los datos o un orden exacto ejecucin (para informes, por ejemplo).
Para ello, RapidMiner ofrece un mtodo elegante para indicar el pedido de los operadores e
incluso para editar el orden de ejecucin cmodamente. Por favor haga clic en el icono con la
doble flecha apuntando hacia arriba y hacia abajo punto de interrogacin en la barra de
herramientas de la vista de proceso (Fig. 2.18) y la vista de proceso muestra la definicin de
orden de los operadores. En lugar del icono para cada operador, ahora se mostrar el nmero
de su ejecucin. La lnea naranja transparente conecta los operadores en este orden, como se
muestra en la Figura 2.20.
Para cambiar tal orden de ejecucin, puede hacer clic en cualquier lugar del operador para
seleccinelo. El camino que conduce a este operador ahora no se puede cambiar, pero
haciendo clic otra vez en otro operador intentar cambiar el orden de tal manera que el
segundo operador se ejecuta tan pronto como sea posible despus de la primera. Mientras tu
mover el ratn sobre los operadores restantes, ver la opcin actual en naranja hasta este
operador y en gris a partir de este operador. Una opcin que no es posible se simboliza por un
nmero rojo. Puede cancelar una seleccin actual haciendo clic con el botn derecho del
ratn. De esta manera puede, como se muestra en la figura 2.21, cambiar el orden del proceso
descrito anteriormente a lo siguiente con slo unos pocos clics.
Despus de haber discutido casi todas las opciones de este elemento central del RapidMiner
Design Perspective, ahora describiremos las acciones restantes en la barra de herramientas,
que puede verse en la Figura 2.18, as como otras posibilidades del Proceso Ver.
Los cinco iconos en el lado derecho de la barra de herramientas Vista de proceso siguientes
acciones:
Disposicin automtica: Reorganiza todos los operadores del proceso actual segn a las
conexiones y al orden de ejecucin actual.
Mostrar y modificar el orden de ejecucin Esta accin le permite ver la ejecucin de las
rdenes de los operadores y cambiarla.
Tamao automtico: Cambia el tamao del rea de trabajo blanca de tal manera que todos los
operadores actualmente posicionados tienen suficiente espacio. Esto es
VISION DE PARAMETROS
RapidMiner. Numerosos operadores requieren uno o varios parmetros para ser indicados
para una funcionalidad correcta. Por Por ejemplo, los operadores que leen datos de archivos
requieren que se indique la ruta del archivo.
Las acciones de la barra de herramientas se refieren, al igual que los parmetros, al operador
actual seleccionado.
Modo experto: El icono de la izquierda cambia entre el modo experto y el modo principiante.
Slo en el modo experto se muestran todos los parmetros; en el principiante no se muestran
los parmetros clasificados como parmetros expertos.
Operador Info: Visualizacin de alguna informacin fundamental sobre este operador tales
como entradas esperadas o una descripcin. Este dilogo tambin se muestra presionando F1
despus de la seleccin, a travs del men contextual de la as como a travs de la entrada de
men "Editar" - "Mostrar informacin del operador. . . ".
Renombrar: Una de las maneras de cambiar el nombre de un operador. Otras maneras estn
presionando F2 despus de seleccionar, seleccionando "Cambiar nombre" en el men
contextual del operador en la vista de proceso, as como la entrada de men "Editar" -
Renombrar".
Eliminar: Una de las maneras de eliminar un operador. Otras maneras estn presionando
Borrar despus de seleccionar, seleccionando "Borrar" en el men contextual operador en la
vista de proceso, as como la entrada de men "Editar" - "Eliminar".
Toggle Breakpoints: Pueden establecerse puntos de interrupcin tanto antes como despus
de la ejecucin del operador, donde la ejecucin del proceso se detiene e intermedia los
resultados pueden ser examinados. Tambin existe esta posibilidad en el men contextual del
operador en la vista de proceso, as como en el men "Editar". Un punto de interrupcin
despus de que la ejecucin del operador tambin se puede activar y desactivar con F7.
El primer proceso de anlisis
Siempre y cuando no haya cambiado la seleccin y las posiciones del individuo vistas para la
Perspectiva de Diseo, su pantalla debera verse ms o menos como uno en la figura 3.3.
Comenzaremos ahora nuestro nuevo proceso a partir de la generacin de datos que puede
trabajar en.
Vista Operadores. Si esto no sucede, puede conectar manualmente la salida puerto del nuevo
operador con el primer puerto de resultado de todo el proceso en el lado derecho del rea de
trabajo blanca. Alternativamente, tendra Tambin se ha podido insertar el operador mediante
el dilogo Nuevo Operador, descrito en el captulo anterior. Como seguramente ha notado, el
nombre completo de este operador, "Generar Datos de Ventas", es demasiado largo y se corta
despus de las primeras letras. Mueva el mouse sobre este operador y estancia all por unos
momentos. El nombre se mostrar ahora en su totalidad en una pequea animacin. Por
supuesto, tambin podra cambiar el nombre del operador y darle un nombre ms corto.
Como puede ver, el indicador de estado del operador en la parte inferior izquierda Es amarillo.
Esto significa que el operador no ha producido errores, pero ha tambin no se ha ejecutado
con xito. As que slo ha configurado completamente el hasta ahora, pero esto no quiere
decir que haya sido ejecutado directamente. Se puede ver fcilmente que el indicador de
estado se vuelve verde. Esta configuracin era muy simple en este caso especfico: no era
necesario establecer cualquier parmetro del operador. Un indicador de estado rojo y las
entradas en los Vista habra indicado una necesidad de configuracin.
TRANSFORMACIN DE LOS METADATOS
Ahora vamos a tratar con uno de los aspectos ms fascinantes de RapidMiner Studio, la
capacidad de calcular la salida de un operador o proceso de antemano e incluso hacer esto
durante el tiempo de diseo, por lo que sin tener que cargar el real datos o incluso realizar el
proceso. Esto es posible gracias a la llamada meta transformacin de datos de RapidMiner
Studio. Por supuesto, cada operador define la forma en que los datos de entrada recibidos son
transformado Esta es su tarea al final del da. Lo especial de RapidMiner Studio sin embargo es
que esto no slo se puede hacer para los datos reales, pero tambin para los metadatos sobre
estos datos. Esto suele ser mucho menos voluminoso que los propios datos y da una idea
excelente de cules son las caractersticas conjunto de datos. Los metadatos en RapidMiner
Studio se equiparan esencialmente a las descripciones de conceptos que hemos discutido
anteriormente. Contiene los nombres de atributos del ejemplo establecido, as como los tipos
de valores y las funciones de los atributos e incluso algunas estadsticas fundamentales.
Tanto para la teora, pero cmo se ven los metadatos en la prctica, es decir, en RapidMiner
Studio? En RapidMiner Studio los metadatos se proporcionan en los puertos Simplemente
pase por el puerto de salida del operador recin insertado con el cursor lo que sucede.
Aparecer una descripcin de herramientas que describe la salida esperada del puerto.
Primero el nombre del operador y del puerto seguido por el tipo de metadatos. En esto en este
caso estamos tratando con los metadatos de un conjunto de ejemplos. El nmero de tambin
se pueden inferir ejemplos as como el nmero de atributos.
Entonces viene una descripcin de la trayectoria que el objeto habra tomado a travs el
proceso durante una ejecucin. En este caso, la trayectoria tiene slo una estacin, es decir, el
puerto del operador generador. Sin embargo, la parte ms importante de la meta datos (al
menos para un conjunto de ejemplo) es la tabla que describe la meta datos de los atributos
individuales. Las columnas individuales son:
Intervalo: El rango de valores del atributo, por lo que el mnimo y el mximo en el caso de
atributos numricos y un extracto de valores posibles en el caso de atributos nominales
Despus de pulsar el botn con el nombre "Editar lista (0)", abierto, dndole la oportunidad de
introducir el clculo deseado.
Puede agregar ms entradas en dichas listas de parmetros individuales con las dos acciones
"Agregar entrada" y "Eliminar entrada" y tambin eliminar entradas seleccionadas. Los
nombres de los parmetros deseados se encuentran en el encabezado de la tabla. Aadir una
fila, nombre del nuevo atributo a la izquierda e ingrese la funcin de la derecha que calcula
este nuevo atributo. En este caso es simplemente el producto de otros dos atributos Confirme
su entrada con "Aplicar" y el dilogo se cerrar. El botn que dice "Editar lista" debe mostrar
un "1" entre parntesis, lo que significa que usted puede ver cuntas entradas tiene la lista de
parmetros y por lo tanto en este caso cmo muchos nuevos atributos se generan. Ahora
podemos observar qu efecto tiene la adicin del operador "Generar Atributos" en los
metadatos. RapidMiner tiene ya transformado los metadatos en segundo plano y se puede ver
el nuevo meta datos como una informacin de herramientas a travs del puerto de salida del
operador.
Es fcil ver en la lnea "Generado por" que la ltima cosa que el objeto provino a partir de
ahora es el operador "Generar Atributos" y fue anteriormente el operador "Generar datos de
ventas". Adems, casi nada ha cambiado tanto el nmero de los ejemplos y los ocho
atributos originales se han mantenido mismo. Sin embargo, se ha aadido un noveno atributo:
Nuestro atributo recientemente definido "Precio total" tambin se puede encontrar ahora en
la tabla. Y nuestro proceso todava no se ha ejecutado, como se puede ver simplemente
mirando los indicadores de estado que siguen siendo amarillos. Ahora puede preguntarse:
"Y? As que s el resultado de antemano y sin la ejecucin del proceso. Qu obtengo a partir
de ese?". Bueno, ms bien. Ahora puede ver de un vistazo qu operador o (sub) proceso est
haciendo con los datos de entrada. Dado que los metadatos tambin son considerablemente
menores que los conjuntos de datos completos, este examen tambin realizado mucho ms
rpido que en los datos completos. De esta manera obtendr retroalimentacin en el tiempo
ms corto en cuanto a si hay un problema que puede hacer ms datos transformacin
necesaria y no slo despus de un proceso de anlisis de varios horas ha abortado con un
error. Y por ltimo, pero no menos importante, RapidMiner Studio puede continuar
procesando la informacin de los metadatos y continuar usted en el diseo del proceso, p. slo
a travs de todos los atributos disponible (y recin generado) que se muestra en la interfaz
grfica de usuario mientras que los atributos se filtran. Ahora intente lo siguiente, por ejemplo:
Abra el grupo "Transformacin de datos" - "Atributo Ajuste Reduccin y Transformacin "-"
Seleccin "y arrastre el operador denominados "Select Attributes" en el proceso - idealmente
directamente en la conexin despus del ltimo operador. Recuerde que la conexin debe
resaltarse antes usted deja el operador, entonces se reconectar correctamente
inmediatamente.
PROCESOS DE EJECUCIN
Ahora estamos listos y queremos ejecutar el proceso recin creado por primera vez.
Los indicadores de estado de todos los operadores deberan ser ahora de color amarillo y
debera haber no hay entradas en la vista de problemas. En tal caso, debera ser posible
ejecutar nuestro proceso consistente en los tres operadores (para generar datos, calcular el
volumen de negocios total para cada transaccin y atributos de filtrado) sin ningn problema.
3. Presione F11.
Mientras se est ejecutando un proceso, el indicador de estado del operador que se ejecuta en
cada caso se transforma en un pequeo icono de juego verde. De esta manera usted puede ver
qu punto el proceso se encuentra actualmente en. Despus de que un operador haya sido
ejecutado el indicador de estado cambia y permanece verde - hasta que, por ejemplo,
parmetro para este operador: A continuacin, el indicador de estado ser de color amarillo.
Lo mismo se aplica a todos los operadores que siguen. Esto significa que usted puede ver muy
rpidamente en qu operadores un cambio podra tener un efecto.
Una vez finalizado el proceso, RapidMiner Studio debera haber cambiado a la perspectiva de
resultados (Fig. 3.14). Si este no fuera el caso, probablemente no conect el puerto de salida
del ltimo operador con uno de los puertos de resultado del proceso en el lado derecho.
Compruebe esto y compruebe tambin otros posibles errores, teniendo en cuenta las notas en
la vista de problemas. Sintase libre de pasar un poco de tiempo con los resultados. Dado que
el proceso anterior no realiz cualquier modelado, pero slo transform los datos, el resultado
slo consiste en de un conjunto de ejemplos. Puede ver los metadatos de este conjunto de
datos y probar las tabla ms algunas de las visualizaciones en Grficos o Grficos Avanzados.