You are on page 1of 537

RESMENES DE DATASETS

REPOSITORIO DE LA UCI

UNIDAD ACADMICA DE CIENCIAS Y


TECNOLOGAS DE LA INFORMACIN

PROFESOR: M.C. ARTURO DE LEN CHAPA


GRUPO: 601

ACAPULCO, GRO., A 09 DE ABRIL DE 2014


Red Vial 3D (Jutlandia del Norte, Dinamarca) Conjunto de datos
Resumen : la red de carreteras en 3D con informacin muy precisa elevacin (+-20cm) de
Dinamarca usado en algoritmos eco-enrutamiento y enrutamiento fuel/Co2-estimation.

Conjunto de datos Secuencial, Nmero de


434874 rea: Ordenador
Caractersticas: Texto instancias:

Caractersticas del Nmero de Fecha


Real 4 16/04/2013
atributo: atributos: Donado

Nmero de
Regresin, Valores
Tareas asociadas: N/A Web 11743
Clustering perdidos?
Accesos:

Fuente:
Manohar Kaul, Departamento de Ciencias de la Computacin de la Universidad de Aarhus,
Dinamarca ( mkaul '@' cs.au.dk )

Datos Conjunto de Informacin:


Este conjunto de datos se calcul aadiendo informacin de elevacin a una red de carreteras en
2D en el norte de Jutlandia, Dinamarca (que cubre una regin de 185 x 135 kilometros ^ 2). Los
valores de elevacin donde extraen de una disposicin del pblico masivo Nube Laser Scan Point
para Dinamarca (disponible en: [Web Link] (Bottom-ms conjunto de datos)). Esta red de carreteras
en 3D lleg a ser utilizado para la evaluacin comparativa varios algoritmos de estimacin de
combustible y CO2. Este conjunto de datos puede ser utilizado por todas las aplicaciones que
requieren saber muy
informacin de elevacin precisa de una red de carreteras para realizar el enrutamiento ms
precisa para el eco-rutas, rutas ciclistas, etc Para la comunidad de minera de datos y aprendizaje
automtico, este conjunto de datos se puede utilizar como ' realidad sobre el terreno de validacin
"en tcnicas de minera espaciales y procesamiento de imgenes de satlite. No tiene ninguna
clase de etiquetas, pero se puede utilizar en el aprendizaje no supervisado y regresin de adivinar
alguna informacin de elevacin que falta para algunos puntos en el camino.
El trabajo fue apoyado por el proyecto de Reduccin que es financiado por la Comisin Europea
como FP7-ICT-2011- 7 PEIF proyecto nmero 288254.

Atributo de la informacin:
1. OSM_ID: ID OpenStreetMap para cada segmento de carretera o borde en el grfico.
2. LONGITUD: Web Mercaptor (formato de Google) de longitud
3. LATITUD: Web Mercaptor (formato de Google) latitud
4. ALTITUD:. Altura en metros Nota: OSM_ID es el identificador asignado por OpenStreetMaps
( [Web de enlace] ) para los segmentos de carretera. Cada (largo, lat, altitud) apuntan en un
segmento de carretera (con ID nico OSM) se ordena en el mismo orden en que aparecen en el
camino. As que una polilnea 3D se puede dibujar uniendo los puntos de cada fila para cada
segmento de carretera OSM_ID.

Documentos pertinentes:
[1] Chenjuan Guo Yu Ma, Bin Yang, Christian S. Jensen, Manohar Kaul: EcoMark: evaluacin de
modelos de impacto ambiental vehicular. SIGSPATIAL / GIS 2012: 269-278
Cita de pedidos:
El uso de este conjunto de datos en las publicaciones debe ser reconocido por referencia a la
siguiente publicacin: Construyendo Redes espaciales precisos en 3D para permitir a la prxima
generacin de sistemas de transporte inteligentes (Aceptado y que se publicar en junio) Actas de
la Conferencia Internacional sobre la Gestin de Datos Mviles (IEEE MDM), junio 3-6 de 2013,
Miln, Italia

Abuln Data Set


Resumen : Predecir la edad de abuln de las mediciones fsicas

Conjunto de datos Nmero de


Multivariante 4177 rea: Vida
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de Fecha 1995-


8
atributo: entero, real atributos: Donado 12-01

Nmero de
Valores
Tareas asociadas: Clasificacin No Web 213047
perdidos?
Accesos:

Fuente:
Los datos provienen de un estudio original (no-mquina-learning):
Warwick J Nash, Tracy L Sellers, Simon R Talbot, Andrew J Cawthorn y Wes B Ford (1994)
. "La Biologa de Poblacin de Abuln (especie _Haliotis_) en Tasmania I . Blacklip Abuln (rubra_
_H.) de la Costa Norte y las Islas del Estrecho de Bass ",
Divisin de Pesca Martima, el Informe Tcnico N 48 (ISSN 1034-3288) Los propietarios
originales de base de datos: Recursos Marinos Divisin Marine Research Laboratories -
Taroona Departamento de Primaria Industria y Pesca, Tasmania GPO Box 619F, Hobart, Tasmania
7001, Australia (contacto: Warwick Nash +61 02 277277, wnash '@' dpi.tas.gov.au ) Donantes de
base de datos: Sam Waugh ( Sam.Waugh '@' cs.utas.edu.au )Departamento de Ciencias de la
Computacin de la Universidad de Tasmania GPO Box 252C, Hobart, Tasmania 7001, Australia

Datos Conjunto de Informacin:


La prediccin de la edad de abuln de las mediciones fsicas. La edad de orejas de mar se
determina mediante la reduccin de la carcasa a travs del cono, la tincin, y contando el nmero
de anillos a travs de un microscopio - una tarea aburrida y consume mucho tiempo. Otras
medidas, que son ms fciles de obtener, se utilizan para predecir la edad. Para ms informacin,
por ejemplo, los patrones climticos y la ubicacin (por lo tanto la disponibilidad de alimentos)
puede ser necesaria para resolver el problema. A partir de los ejemplos de datos originales se
retiraron con valores perdidos (la mayora con los desaparecidos valor predicho), y los rangos de
los valores continuos tener sido escalado para uso con una RNA (dividiendo por 200).
Atributo de la informacin:
Teniendo en cuenta es el nombre del atributo, el tipo, la unidad de medida y una breve descripcin
de atributos. El nmero de anillos es el valor de predecir:. Sea como un valor continuo o como un
problema de clasificacinNombre / Tipo de datos / unidad de medida / Descripcin -------------------- -
-------- Sexo / nominal / - / M, F y I (beb) Longitud / continua / mm / shell Mayor medicin Dimetro
/ continua / mm / perpendicular a la longitud de la altura / continua / mm / con carne en shell Peso
entero / / g / conjunto de abuln continua sin concha: peso / / g / peso continuo de carne
de vsceras peso / peso continua / gramos / intestino (despus de la hemorragia) peso Shell /
continua / gramos / despus de ser secado Anillos / entero / - - / 1.5 da la edad en aos El archivo
Lame contiene estadsticas de atributos.

Documentos pertinentes:
Sam Waugh (1995) "La extensin y la evaluacin comparativa de Cascade-Correlacin", tesis de
doctorado, Departamento de Informtica de la Universidad de Tasmania. [Web Link] David Clark,
Zoltan Schreter, Anthony Adams "Comparacin cuantitativa de Dystal y backpropagation",
presentado a la Conferencia australiana sobre Redes Neuronales (ACNN'96).
cido abscsico sealizacin del conjunto de datos de red
Resumen : El objetivo es determinar el conjunto de reglas booleanas que describen las
interacciones de los nodos de esta red de sealizacin de la planta. El conjunto de datos incluye
300 simulaciones pseudodynamic booleanas separadas utilizando un esquema de actualizacin
asncrona.

Conjunto de datos Nmero de


Multivariante 300 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de 2008-


Entero 43 Fecha Donado
atributo: atributos: 04-03

Causal- Valores N/ Nmero de


Tareas asociadas: 23029
Discovery perdidos? A Web Accesos:

Fuente:
Jerry W. Jenkins, Ph.D.
Biologa de Sistemas y Bioinformations Group
CFD Research Corporation
215 Wynn Drive
Huntsville, AL 35805
email: TcJ '@' cfdrc.com

Abhishek Soni, de doctorado


de Biologa de Sistemas y Bioinformations Group
CFD Research Corporation
215 Wynn Drive
Huntsville, AL 35805
email: AXS '@' cfdrc.com
Datos Conjunto de Informacin:
El objetivo es determinar el conjunto de reglas booleanas que describen las interacciones de los
nodos dentro de esta red de sealizacin de la planta. El conjunto de datos incluye 300
simulaciones pseudodynamic booleanas separadas de las reglas verdaderas, utilizando un
esquema de actualizacin asncrona. Cada una de las 300 simulaciones comienzan con una
condicin inicial generado al azar, con el fin de garantizar un muestreo de todos los estados
estacionarios del sistema. Hay un total de 43 nodos en este conjunto de datos, con 5 nno ser
constantes. Los resultados de 300 simulaciones independientes se incluyen en el conjunto de
datos. Cada simulacin consiste en una matriz de 0 y de 1 de, con 21 filas y 43 columnas. La
primera fila es la condicin inicial generado aleatoriamente para la simulacin en particular, con los
prximos 20 filas siendo la salida de la simulacin pseudodynamics booleanos. Cada una de las 43
columnas representan la respuesta transitoria de un nodo particular. Los nombres nodales se
identifican en la parte superior del archivo de datos. Una lnea de asteriscos se utiliza para separar
las simulaciones el uno del otro. Un ejemplo conjunto de datos se incluyen

Actividades de la Vida Diaria (AVD) Reconocimiento Utilizando Sensores


Binary Data Set
Resumen : Este conjunto de datos incluye informacin sobre las actividades cotidianas
realizadas por dos usuarios a diario en sus propios hogares.

Multivariante,
Conjunto de datos Nmero de
Secuencial, 2747 rea: Ordenador
Caractersticas: instancias:
Time-Series

Caractersticas del Nmero de Fecha


N/A N/A 10/28/2013
atributo: atributos: Donado

Nmero de
Clasificacin, Valores
Tareas asociadas: N/A Web 9497
Clustering perdidos?
Accesos:

Fuente:
Francisco Javier Orda ez, Universidad Carlos III de Madrid, fordonez '@' inf.uc3m.es

Datos Conjunto de Informacin:


Este conjunto de datos incluye informacin sobre las actividades cotidianas realizadas por dos
usuarios a diario en sus
propios hogares. Este conjunto de datos se compone de dos instancias de datos, cada uno
correspondiente a un diferente
usuario y sumando hasta 35 das de datos correctamente rotulados. Cada instancia del conjunto de
datos se describe mediante
tres archivos de texto, a saber:. descripcin, eventos sensores (caractersticas), actividades de la
vida diaria (las etiquetas)
eventos del sensor se registraron utilizando una red de sensores inalmbricos y los datos fueron
etiquetados manualmente.
Atributo de la informacin:
Las caractersticas son los eventos de sensor capturados por la red de sensores inalmbrica
correspondiente.

Documentos pertinentes:
N/A

Cita de pedidos:
Orda ez, FJ; de Toledo, P.; Sanchis, A. Actividad Reconocimiento Usando hbridos
generativos / Modelos discriminativas en Inicio entornos utilizando binarios Sensores. Sensores de
2013, 13, 5460 a 5477
Actividad Reconocimiento de Single Chest-Mounted Acelermetro Data
Set
Resumen : El conjunto de datos recoge datos a partir de un acelermetro porttil montado en el
pecho. El conjunto de datos est prevista para fines de investigacin de reconocimiento de la
actividad.

Univariante, N
Conjunto de datos Nmero de
Secuencial, Time- / rea: N/A
Caractersticas: instancias:
Series A

N
Caractersticas del Nmero de Fecha
Real / 02/03/2014
atributo: atributos: Donado
A

N Nmero de
Clasificacin, Valores
Tareas asociadas: / Web 593
Clustering perdidos?
A Accesos:

Fuente:
Sin calibrar datos del acelermetro se recogen de 15 Participantes que realizan 7 actividades. El
conjunto de datos proporciona desafos para la identificacin y autenticacin de personas que
utilizan los patrones de movimiento.

Datos Conjunto de Informacin:


--- El conjunto de datos recoge datos de un acelermetro porttil montado en el pecho
--- Frecuencia de muestreo del acelermetro: 52 Hz
--- Acelermetro datos son sRGB
--- Nmero de participantes: 15
--- Nmero de Actividades: 7
- - Formato de datos: CSV
Atributo de la informacin:
--- Los datos estn separados por participante
--- Cada archivo contiene la siguiente informacin
---- nmero secuencial, x aceleracin, la aceleracin y la aceleracin z, etiqueta
--- Las etiquetas estn codificadas por nmeros
--- 1: Trabajo en el ordenador
--- 2: de pie, caminar y el ir escaleras UpDown
--- 3: De pie
--- 4: Caminar
--- 5: Going UpDown Escaleras
--- 6: caminar y hablar con alguien
--- 7: mientras se habla De pie

Documentos pertinentes:
--- Casale, P. Pujol, O. y Radeva, P.
'BeaStreamer-v0.1: una nueva plataforma para mltiples sensores de adquisicin de datos en
aplicaciones Wearable Computing',
CVCRD09, ISBN: 978-84-937261-1 - 9, 2009
disponible en [Web Link]

--- Casale, P. Pujol, O. y Radeva, P.


'Human reconocimiento actividad a partir de datos del acelermetro utilizando un dispositivo porttil
",
IbPRIA'11, 289-296, Springer-Verlag, 2011
disponible en [Web Link]

--- Casale, P. Pujol, O. y Radeva, P.


"La personalizacin y verificacin del usuario en sistemas porttiles que utilizan los patrones de
caminar biomtricos '
Personal y Computacin Ubicua, 16 (5), 563-580, 2012
disponible en [Web Link]

Cita de pedidos:
Casale, P. Pujol, O. y Radeva, P.
"La personalizacin y verificacin del usuario en sistemas porttiles que utilizan los patrones de
caminar biomtricos '
Personal y Computacin Ubicua, 16 (5), 563-580, 2012
Conjunto de datos inflamaciones agudas

Resumen : Los datos fue creada por un experto mdico como un conjunto de datos para poner a
prueba el sistema experto, que llevar a cabo el diagnstico presuntivo de dos enfermedades del
sistema urinario.

Conjunto de datos Nmero de


Multivariante 120 rea: Vida
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de 2009-


6 Fecha Donado
atributo: Integer atributos: 02-11

Valores Nmero de
Tareas asociadas: Clasificacin No 49522
perdidos? Web Accesos:

Fuente:
Jacek Czerniak, Ph.D., profesor adjunto
del Instituto de Investigacin de Sistemas
de la Academia Polaca de Ciencias
Laboratorio de Sistemas Inteligentes
ul. Newelska 6, Room 218
01-447 Warszawa, Polonia
e-mail: jacek.czerniak '@' ibspan.waw.pl o jczerniak '@' ukw.edu.pl

Datos Conjunto de Informacin:


La idea principal de este conjunto de datos es preparar el algoritmo del sistema experto, que
llevar a cabo el diagnstico presuntivo de dos enfermedades del aparato urinario. Ser
el ejemplo de diagnstico de las inflamaciones agudas de la vejiga urinaria y agudas
nephritises. Para una mejor comprensin del problema vamos a considerar las definiciones de
ambas enfermedades dadas por los mdicos. La inflamacin aguda de la vejiga urinaria se
caracteriza
por la aparicin repentina de dolor en la regin del abdomen y el orinar en forma de
orina constante empujando, dolores de miccin ya veces la falta de mantenimiento de la orina.
Temperatura del cuerpo va en aumento, sin embargo, muy a menudo no por encima de 38C. La
excreta
la orina es turbia y, a veces con sangre. En el tratamiento adecuado, los sntomas generalmente se
desintegran
dentro de varios das. Sin embargo, existe la inclinacin a la rentabilidad. En las personas con
aguda
inflamacin de la vejiga urinaria, debemos esperar que la enfermedad se convierta en
forma prolongada. nefritis aguda de origen pelvis renal se produce mucho ms a menudo en las
mujeres que en los hombres. Comienza con fiebre repentina, que alcanza ya veces excede
40C. La fiebre se acompaa de escalofros y uno-o ambos-secundarios dolores lumbares, que a
veces son muy fuertes. Los sntomas de la inflamacin aguda de la vejiga urinaria aparecen muy a
menudo. Absolutamente no poca frecuencia hay nuseas y vmitos y se extendi dolores de todo
el abdomen. Los datos fue creada por un experto mdico como un conjunto de datos para poner a
prueba el sistema experto, que llevar a cabo el diagnstico presuntivo de dos enfermedades del
aparato urinario. La base para la deteccin de las reglas era Rough Sets Theory. Cada instancia
representa un paciente potencial. Los datos estn en un archivo ASCII. Los atributos estn
separados por TAB.Cada lnea del archivo de datos comienza con un dgito que indica la
temperatura del paciente. - lneas Categoras: Por ejemplo, '35, 9 no no s s s s no ' Donde: '35 9 '
Temperatura del paciente Ocurrencia 'no' de la nusea "no" dolor lumbar "s" Orina de empuje
(continua necesidad de orinar) 's' miccin dolores Burning 's' de la uretra, picor, hinchazn de la
salida de la uretra "s" decisin: Inflamacin de vejiga urinaria 'no' decisin: Nefritis de origen pelvis

Atributo de la informacin:
a1 Temperatura del paciente {35C-42C}
a2 La aparicin de nuseas {s, no}
a3 dolor lumbar {s, no}
a4 orina empuje (continua necesidad de orinar) {s, no}
miccin a5 dolores {s, no}
a6 Ardientes de uretra, picor, hinchazn de la salida de la uretra {s, no}
decisin d1: Inflamacin de la vejiga urinaria {s, no}
decisin d2: Nefritis de origen pelvis renal {s, no}

Documentos pertinentes:
J.Czerniak, H.Zarzycki, Aplicacin de los conjuntos aproximados en el diagnstico presuntivo de
las enfermedades del sistema urinario,
Artificial Inteligence y Seguridad en Sistemas de Informtica, ACS'2002 noveno actas de congresos
internacionales,
Kluwer Academic Publishers, 2003, pp 41-51

Cita de pedidos:
Para citar este artculo: J.Czerniak, H.Zarzycki, Aplicacin de los conjuntos aproximados en el
diagnstico presuntivo de las enfermedades del sistema urinario, Artificial Inteligence y Seguridad
en Sistemas de Informtica, ACS'2002 noveno Actas del Congreso Internacional, Kluwer Academic
Publishers, 2003, pp 41 - 51
Adultos Data Set
Resumen : Predecir si el ingreso es superior a $ 50K/yr basado en los datos del censo. Tambin
conocido como conjunto de datos "Resultado del Censo".

Conjunto de datos Nmero de


Multivariante 48842 rea: Social
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de Fecha 1996-


14
atributo: Integer atributos: Donado 05-01

Nmero de
Valores
Tareas asociadas: Clasificacin S Web 383122
perdidos?
Accesos:

Fuente:
Donante: Ronny Kohavi y Barry Becker de minera de datos y visualizacin . Silicon Graphics e-
mail: ronnyk '@' live.com para preguntas.
Datos Conjunto de Informacin:
La extraccin se realiza por Barry Becker, de la base de datos del Censo de 1994. Un conjunto de
registros razonablemente limpias fue extrado por medio de las siguientes condiciones: ((AAGE>
16) && (AGI> 100) && (AFNLWGT> 1) && (HRSWK> 0)) Prediccin tarea es determinar si una
persona hace ms de 50 mil al aos.

Atributo de la informacin:
Listado de atributos: .> 50K, <= 50K edad:. continua workclass: Privada, Auto-emp-no-inc, Auto-
emp-inc, Federal-gov, Local-gov, Estado-gov, sin sueldo, nunca .-trabajado fnlwgt:
continuo. Diploma, Some-universidad, 11, HS-graduado, el profesor de la escuela, Assoc-ACDM,
Assoc-voc, 9, 7 -8 , 12 , Masters, primera a cuarta, dcima, Doctorado ., 5to-6to,
Preschool educacin-num:. continuo civil-Estado civil: Casado-civ-cnyuge, Divorciado, Nunca se
ha casado-, Separado, Viudo, Casado-cnyuge ausente, Casado-AF-cnyuge. ocupacin: Tech-
apoyo , para naves de reparacin, y de servicio, ventas,, Prof-especialidad, Manipuladores
limpiadores Exec-gerenciales, Machine-op-Inspct, Adm-clerical, Agricultura pesca, de transporte y
de movimiento, Priv-casa-serv, protector-serv , Fuerzas Armadas-. relacin: Esposa, propia e hijos,
marido, no-en-familia,-Otro pariente, soltera. raza: blanca, de Asia y el Pac-Islander, Amer-Indian-
esquimal, Otros, Negro. Sexo: Mujer ., Hombre de capital-ganancia:. continua prdida de capital:.
continua hora-por-semana:. continua nativo-Pas: Estados Unidos-, Camboya, Inglaterra, Puerto-
Rico, Canad, Alemania, Outlying-US (Guam-Islas Vrgenes -etc), India, Japn, Grecia, Sur, China,
Cuba, Irn, Honduras, Filipinas, Italia, Polonia, Jamaica, Vietnam, Mxico, Portugal, Irlanda,
Francia, Repblica Dominicana-, Laos, Ecuador, Taiwn, Hait, Columbia, Hungra, Guatemala,
Nicaragua, Escocia, Tailandia, Yugoslavia, El-Salvador, Trinadad y Tobago, Per, Hong, Holand-
Pases Bajos.

Documentos pertinentes:
Ron Kohavi, "Ampliar los efectivos Precisin de Naive-Bayes clasificadores: un hbrido de rbol de
decisiones", Actas de la Segunda Conferencia Internacional de Descubrimiento de Conocimiento y
Minera de Datos, 1996 [Web Link]

Airfoil ruido propio conjunto de datos


Resumen : conjunto de datos de la NASA, que se obtiene a partir de una serie de pruebas
aerodinmicas y acsticas de dos secciones de la pala y de perfil aerodinmico tridimensionales
realizadas en un tnel de viento anecoica.

Conjunto de datos Nmero de


Multivariante 1503 rea: Fsico
Caractersticas: instancias:

Caractersticas del Nmero de Fecha


Real 6 03/04/2014
atributo: atributos: Donado

Nmero de
Valores
Tareas asociadas: Regresin N/A Web 970
perdidos?
Accesos:
Fuente:
Proporcionar los nombres, direcciones de correo electrnico, instituciones y otros datos de contacto
de los donantes y los creadores de la serie de datos.
Donante:
Dr. Roberto Lpez robertolopez '@' intelnics.com Intelnics Creadores: Thomas F. Brooks, D. Stuart
Papa y Michael A . Marcolini NASA

Datos Conjunto de Informacin:


El conjunto de datos de la NASA cuenta con diferentes perfiles aerodinmicos NACA tamao de
0012 a varias velocidades en tnel de viento y los ngulos de ataque. El lapso de la superficie de
sustentacin y la posicin del observador fueron los mismos en todos los experimentos.

Atributo de la informacin:
Este problema tiene las siguientes entradas:
1. Frecuencia, en hertzs.
2. El ngulo de ataque, en grados.
3. Longitud de la cuerda, en metros.
4. Velocidad gratuito-stream, en metros por segundo.
5. . Espesor de desplazamiento lateral de aspiracin, en metros La nica salida es: 6. Scaled nivel
de presin acstica, en decibelios.

Documentos pertinentes:
TF Brooks, DS Papa, y AM Marcolini.
Airfoil ruido propio y prediccin.
Memoria tcnica, la NASA RP-1218, julio de 1989. K. Lau. A neural enfoque de redes para la
prediccin del ruido aerodinmico. tesis s ster, Departamento de Aeronutica. Colegio Imperial
de Ciencia, Tecnologa y Medicina (Londres, Reino Unido), 2006. R. Lpez. Redes Neuronales
para los problemas variacionales en Ingeniera. Tesis doctoral, Universidad Politcnica de
Catalua, 2008.

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Muestras Amazon Access Data Set
Resumen : InfoSec de Amazon se vuelven ms inteligentes acerca de la forma de datos de
Access est apalancada. Esta es una muestra annima de acceso provisionado en la empresa.

Conjunto de datos Time-Series, Nmero de


30000 rea: Negocios
Caractersticas: Domain-Theory instancias:

Caractersticas del Nmero de Fecha 2011-09-


N/A 20000
atributo: atributos: Donado 13

Regresin,
Nmero de
Clustering, Valores
Tareas asociadas: N/A Web 68969
causal- perdidos?
Accesos:
Discovery

Fuente:
Creador de conjunto de datos y donante: Ken Montaez email: kenmonta [at] cal.berkeley.edu
institucin: Seguridad de la Informacin, Amazon Corp.

Datos Conjunto de Informacin:


Este es un conjunto de datos escasos, menos de 10% de los atributos se utilizan para cada
muestra. El vnculo es a un archivo '* tgz. ", Que contiene dos archivos:
[amzn-anon-access-muestras-2.0.csv] Este archivo contiene el acceso a los usuarios
[amzn-anon-access-muestras-historia-2.0.csv ] Este archivo contiene el historial de acceso de un
usuario determinado

Atributo de la informacin:
_amzn-anon-access-muestras-2.0.csv__
trata de un conjunto de datos dispersos que contiene los usuarios y su acceso asignado. El archivo
contiene 4 categoras de atributos.
1) [PERSON_ {ATRIBUTO}] Esta categora describe el "usuario" que se le dio acceso. El
[PERSON_ID] columna es la columna de clave principal para el archivo. Hay una fila por cada
usuario.
PERSON_ID: id del usuario
PERSON_MGR_ID: Identificacin de administrador del usuario
PERSON_ROLLUP_1: agrupacin de usuarios Identificacin
PERSON_ROLLUP_2: agrupacin de usuarios Identificacin
PERSON_ROLLUP_3: agrupacin de usuarios Identificacin
PERSON_DEPTNAME: desciption departamento Identificacin
PERSON_LOCATION: ID de la regin
PERSON_BUSINESS_TITLE: ttulo de id
PERSON_BUSINESS_TITLE_DETAIL: Descripcin Identificacin
PERSON_JOB_CODE: Cdigo de Identificacin del Aviso
Identificacin compaa: PERSON_COMPANY
PERSON_JOB_FAMILY: id familia de puestos 2) [RESOURCE_ {ID}] Esta categora de atributos
son los recursos que un usuario puede posiblemente tener acceso. Un usuario tendr un 1 en esta
columna si el acceso a ella de lo contrario ser 0. 3) [GROUP_ {ID}] - Esta categora de atributos
son los grupos que un usuario puede posiblemente tener acceso. Un usuario tendr un 1 en esta
columna si el acceso a ella de lo contrario ser 0. 4) [SYSTEM_SUPPORT_ {ID}] - Esta categora
de atributos son el sistema que un usuario puede posiblemente apoyar. Un usuario tendr un 1 en
esta columna si el haber posiblemente puede ser que lo apoyan, de lo contrario ser 0. __amzn-
anon-access-muestras-historia-2.0.csv__ datos de series de tiempo Permisos. He aqu una breve
descripcin de las columnas: ACCIN: o 'remove_access' o 'add_access' target_name: o bien el
id_recurso {} o {} group_id LOGIN: el id del usuario que va a obtener o perder el
acceso REQUEST_DATE: AAAA-MM-DD HH: MM: SS AUTHORIZATION_DATE: AAAA-MM-DD
HH: MM: SS

Documentos pertinentes:
N/A

Cita de pedidos:
Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine.

Amazon Commerce reseas establecen Data Set


Resumen : El conjunto de datos se utiliza para la identificacin de la autora en lnea Writeprint
que es un nuevo campo de investigacin de reconocimiento de patrones.

Multivariante,
Conjunto de datos Nmero de
Texto, Domain- 1500 rea: Fsico
Caractersticas: instancias:
Theory

Caractersticas del Nmero de Fecha 2011-


Real 10000
atributo: atributos: Donado 06-11

Nmero de
Valores
Tareas asociadas: Clasificacin N/A Web 43780
perdidos?
Accesos:

Fuente:
Creador de conjunto de datos y donante: ZhiLiu, e-mail: liuzhi8673 '@' gmail.com , institucin:
Centro de Investigacin de Ingeniera Nacional de E-Learning de Hubei, Wuhan, China

Datos Conjunto de Informacin:


conjunto de datos se derivan de las revisiones customers en Amazon sitio Web de comercio
para la identificacin de la autora. La mayora de los estudios previos realizados los experimentos
de identificacin de dos a diez autores. Pero en el contexto en lnea, revisiones ser identificado por
lo general tienen ms autores potenciales, y normalmente algoritmos de clasificacin no se
adaptan a gran nmero de clases objetivo. Para examinar la robustez de los algoritmos de
clasificacin, se identificaron 50 de los usuarios ms activos (representados por un nico ID y
nombre de usuario) que frecuentemente publican comentarios en estos grupos de noticias. El
nmero de comentarios se recogieron para cada autor es de 30.

Atributo de la informacin:
atribucin incluye 'estilo LINGSTICA, como el uso de dgitos, puntuacion, palabras y oraciones'
autores longitud y frecuencia de uso de las palabras y as sucesivamen

Documentos pertinentes:
Sanya Liu, Liu Zhi, Jianwen Sun, Lin Liu, 'Aplicacin de Synergetic red neuronal en lnea Writeprint
Identificacin', JDCTA: Revista Internacional de la tecnologa digital de contenidos y sus
Aplicaciones, vol. 5, No. 3, pp 126 ~ 135, 2011
Jianwen Sun, Zongkai Yang, Wang Pei, Sanya Liu, 'Longitud de caracteres Enfoque N-Gram
variable para Online Writeprint Identificacin,' minas, pp.486-490, Conferencia Internacional 2010
de Informacin Multimedia Networking y Seguridad, 2010

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Recocido Data Set
Resumen de datos de recocido de acero:

Conjunto de datos Nmero de


Multivariante 798 rea: Fsico
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de


38 Fecha Donado N/A
atributo: entero, real atributos:

Valores Nmero de
Tareas asociadas: Clasificacin S 46335
perdidos? Web Accesos:

Fuente:
Donantes: David Sterling y Wray Buntine

Datos Conjunto de Informacin:


N/A

Atributo de la informacin:
Atributo de listado:
1. familia: -, GB, GK, GS, TN, ZA, ZF, ZH, ZM, ZS
2. tipo de producto: C, H, G
3. Acero: -, R, A, U, K, M, S, W, V
4. carbono: continua
5. dureza: continua
6. temper_rolling: -, T
7. condiciones: -, S, A, X
8. conformabilidad: -, 1,2,3,4,5
9. fuerza: continua
10. no envejece: -, N
11. acabado superficial: P, M, -
12. calidad de superficie: -, D, E, F, G
13. enamelability: -, 1,2,3,4,5
14. bc: Y, -
15. bf: Y, -
16. bt: Y, -
17. pc / me: B, M, -
18. bl: Y, -
19. m: Y, -
20. chrom: C, -
21. phos: P, -
22. cbond: Y, -
23. marvi: Y, -
24. exptl: Y, -
25. ferro: Y, -
26. corr: Y, -
27. azul / brillante / varn / limpia: B, R, V, C, -
28. brillo: Y, -
29. jurofm: Y, -
30. s: Y, -
31. p: Y, -
32. forma: BOBINA, HOJA
33. de espesor: continua
34. anchura: continua
35. len: continua
36. aceite: -, Y, N
37. dimetro: 0000,0500,0600,0760
38. embalaje: -, 1,2,3
clases: 1,2,3,4,5, U - La '-' los valores son en realidad los valores de los not_applicable 'en vez de'
missing_values '(y por lo que se pueden tratar como valores legales discretas en lugar de como
muestra la ausencia de un valor discreto).

Documentos pertinentes:
N/A
Anonymous Microsoft Data Web Data Set
Resumen : Registro de usuarios annimos de www.microsoft.com; predecir las reas del sitio
web de una persona visit en base a datos de otras reas que el usuario visit.

Conjunto de datos Nmero de


N/A 37711 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 1998-11-


Categrico 294
atributo: atributos: Donado 01

Nmero de
Recommender- Valores
Tareas asociadas: N/A Web 46480
Systems perdidos?
Accesos:

Fuente:
Creadores: Jack S. Breese, David Heckerman, Carl M. Kadie Microsoft Research, Redmond, WA,
98052-6399,
EE.UU. breese '@' microsoft.com , heckerma '@' microsoft.com , carlk '@' microsoft.com Donantes
: Breese:, Heckerman, y Kadie

Datos Conjunto de Informacin:


Creamos los datos mediante el muestreo y el procesamiento de los registros de
www.microsoft.com. Los datos registra el uso de www.microsoft.com por 38000 usuarios annimos,
seleccionados al azar. Para cada usuario, los datos se enumeran todas las reas del sitio web
(races virtuales) que el usuario visit en una semana de plazo. Los usuarios se identifican
nicamente con un nmero secuencial, por ejemplo, usuario # 14988, # 14989 del usuario, etc El
archivo no contiene ninguna informacin de identificacin personal. Las 294 races virtuales son
identificados por su ttulo (por ejemplo, "NetShow para PowerPoint") y la URL (por ejemplo, "/
stream"). Los datos provienen de una semana, en febrero de 1998.

Atributo de la informacin:
Cada atributo es un rea ("vroot") del sitio web www.microsoft.com. El registro de datos que cada
usuario vroots visitado en un plazo de una semana en de Feburary de 1998.

Documentos pertinentes:
J. Breese, D. Heckerman., C. Kadie _Empirical Anlisis de Algoritmos de prediccin para la
prestacin conjunta Filtering_ Actas de la XIV Conferencia sobre la Incertidumbre en Inteligencia
Artificial, Madison, WI, julio de 1998.[Web Link] Por otra parte, se expandi como Microsoft
Investigacin Tcnica Informe MSR-TR-98-12, Los documentos estn disponibles en lnea
en: [Web Link]

Arcene Data Set


Resumen : La tarea de Arcene es distinguir el cncer en comparacin con los patrones normales
de datos de espectrometra de masas. Este es un problema de clasificacin de dos clases con
variables de entrada continuas. Este conjunto de datos es uno de los conjuntos de datos 5 del
desafo de la seleccin de caractersticas NIPS 2003.

Conjunto de datos Nmero de


Multivariante 900 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de 2008-


Real 10000 Fecha Donado
atributo: atributos: 02-29

Valores Nmero de
Tareas asociadas: Clasificacin N/A 47068
perdidos? Web Accesos:

Fuente:
una. Propietarios originales
Los datos se obtuvieron a partir de dos fuentes: el Instituto Nacional del Cncer (NCI) y la Escuela
de Medicina de Virginia Oriental (EVMS). Todos los datos consisten en masa espectros obtenidos
con la tcnica de SELDI. Las muestras incluyen a los pacientes con cncer (ovario o cncer de
prstata), y pacientes sanos o control. b. Donante de base de datos Esta versin de la base de
datos estaba preparado para la variable y la funcin de seleccin de referencia NIPS 2003 por
Isabelle Guyon, 955 Creston Road, Berkeley, CA 94708, EE.UU. ( isabelle '@' clopinet.com ).

Datos Conjunto de Informacin:


Arcene se obtuvo mediante la fusin de tres conjuntos de datos de espectrometra de masas para
obtener suficiente entrenamiento y datos de prueba para un punto de referencia. Las
caractersticas originales indican la abundancia de protenas en el suero humano que tiene un valor
de masa dada. Sobre la base de esas caractersticas se debe separar a los pacientes de cncer de
pacientes sanos. Hemos aadido una serie de caractersticas distractor llamado 'sondas' que no
tienen ningn poder predictivo. El orden de las caractersticas y los patrones fueron
aleatorizados. Arcene - ex positiva. - Ex Negativo. - Total de Entrenamiento Conjunto - 44 - 56-
100 Validacin set - 44 - 56-100 Kit de ensayo - 310 - 390-700 All - 398 - 502-900 N de variables /
caractersticas / atributos: real: 7000 Sondas: 3.000 Total: 10.000 Este conjunto de datos es uno de
los cinco conjuntos de datos utilizados en el desafo de seleccin de caractersticas NIPS
2003. Nuestra pgina web [Web Link] est todava abierto para la presentacin despus de la
exposicin. Informacin acerca de otros problemas conexos se encuentran en: [Web Link] . El
paquete CLOP incluye cdigo de ejemplo para procesar estos datos: [Web Link] . Todos los
detalles sobre la preparacin de los datos se encuentran en nuestro informe tcnico: Diseo de
experimentos para la seleccin de variables de referencia, Isabelle Guyon, julio de 2003, NIPS
2003 [Web Link] (tambin incluido en el archivo de conjunto de datos). Dicha informacin se
pondr a disposicin slo despus de la final del desafo. Los datos se dividen en entrenamiento,
validacin y prueba. Valores objetivo slo se proporcionan para los 2 primeros sets. Los resultados
de rendimiento conjunto de pruebas se obtienen mediante la presentacin de resultados de la
prediccin a: [Web Link] . Los datos estn en el siguiente formato: dataname.param: Los
parmetros y las estadsticas sobre los datos dataname.feat: Identidades de las caractersticas
(retenidos, para evitar sesgar funcin . seleccin) dataname_train.data: conjunto de entrenamiento
(coma delimitada matriz regular, los patrones de lneas, las caractersticas de las
columnas). dataname_valid.data:. conjunto de validacin dataname_test.data: Conjunto de
prueba. dataname_train.labels: Etiquetas (valores de verdad de las clases ) para ejemplos de
formacin. dataname_valid.labels: etiquetas conjunto de validacin (retenidos durante el referente,
pero siempre ahora).dataname_test.labels: Test establecidos de etiquetas (retenciones, por lo que
los datos todava pueden ser usados como un punto de referencia).

Atributo de la informacin:
No proporcionamos informacin de atributos para evitar sesgar el proceso de seleccin de
caractersticas.

Documentos pertinentes:
Los mejores participantes desafo escribieron artculos recogidos en el libro:
Isabelle Guyon, Steve Gunn, Masoud Nikravesh, Lofti Zadeh (Eds.), extraccin de caractersticas,
fundamentos y aplicaciones. Los estudios en Tolerancia y Soft Computing. . Physica-Verlag,
Springer [Web Link]

Ver tambin:
Isabelle Guyon, et al, 2007. Mtodos de referencia competitivos establecen nuevas normas para la
seleccin de caractersticas de referencia NIPS 2003. Pattern Recognition Letters 28 (2007) 1438
1444?.
y el informe tcnico correspondiente:
Isabelle Guyon, et al. 2006. La seleccin de caractersticas con el paquete CLOP. Informe
Tcnico. [Web Link] .

Cita de pedidos:
Isabelle Guyon, Steve R. Gunn, Asa Ben-Hur, Gideon Dror, 2004. Anlisis de los resultados del
desafo de seleccin de caractersticas NIPS 2003. En:. NIPS [Web Link] .

Arritmia Data Set


Resumen : Distinguir entre la presencia y ausencia de la arritmia
cardiaca y clasificarlo en uno de los 16 grupos.

Conjunto de datos Nmero de


Multivariante 452 rea: Vida
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de Fecha 1998-


279
atributo: entero, real atributos: Donado 01-01

Nmero de
Valores
Tareas asociadas: Clasificacin S Web 66012
perdidos?
Accesos:

Fuente:
Los propietarios originales de base de datos: 1. H. Altay Gvenir, PhD,. Bilkent
University, Departamento de Ingeniera Informtica y Ciencias de la Informacin, 06533 Ankara,
Turqua Telfono: +90 (312) 266 4133 Email: Gvenir'@' cs.bilkent.edu.tr 2. Burak Acar,
MS, Universidad de Bilkent, EE Eng. Dept. 06533 Ankara,
Turqua Email: buraka '@' ee.bilkent.edu.tr 3. Haldun Muderrisoglu, MD, Ph.D., de la Universidad
Baskent, Facultad de MedicinaAnkara, Turqua Donante: H. Altay Gvenir Universidad
Bilkent, Departamento de Ingeniera Informtica y Ciencias de la Informacin, 06533 Ankara,
Turqua Telfono: +90 (312) 266 4133 Email: Gvenir '@' cs.bilkent.edu.tr

Datos Conjunto de Informacin:


Esta base de datos contiene 279 atributos, 206 de las cuales son valoradas lineal y el resto son
nominales. En cuanto al estudio de H. Altay Gvenir: "El objetivo es distinguir entre la presencia y
ausencia de la arritmia cardiaca y clasificarlo en uno de los 16 grupos. Clase 01 se refiere a las
clases "normales" de ECG 02-15 se refiere a las diferentes clases de arritmias y la clase 16 se
refiere al resto de los no clasificados. Por el momento, no existe un programa de computadora que
hace que tal clasificacin. Sin embargo, hay diferencias entre los aos CardioLog y la clasificacin
de los programas. Tomando los aos CardioLog como estndar de oro nuestro objetivo es
minimizar esta diferencia por medio de herramientas de aprendizaje automtico. " Los nombres y
nmeros de identificacin de los pacientes que se retiraron recientemente de la base de datos.

Atributo de la informacin:
- La documentacin completa de atributos:
1 Edad: Edad en aos, lineal
2 Sexo: El sexo (0 = hombre, 1 = mujer), nominal
3 Altura: Altura en centmetros, lineal
4 Peso: Peso en kilogramos, lineal
duracin 5 QRS: Promedio de la duracin del QRS en milisegundos, lineal.
6 Intervalo PR:. Duracin promedio entre la aparicin de las ondas P y Q en ms, lineal
7 intervalo QT:. Duracin promedio entre el inicio de Q y el desplazamiento de las ondas T en ms,
lineal
8 T intervalo: . Duracin media de la onda T en ms, lineal
9 P intervalo:. Duracin media de la onda P en ms, lineales
ngulos vectoriales en grados en plano frontal: lineales,
10 QRS
11 T
12 P
13 QRST
14 J 15 La frecuencia cardaca: Nmero latidos del corazn por minuto, lineal de DI canal: .
Anchura media, en milisegundos, de: lineal de ondas Q 16 17 onda R 18 S de la onda 19 R 'onda,
pequeo pico justo despus de R 20 S 'wave 21 Nmero de desviaciones intrnsecas, lineal 22
Existencia de onda R desigual, nominal 23 Existencia de derivacin bifsica de la onda R,
nominal 24 Existencia de onda P desigual, nominal 25 Existencia de derivacin bifsica de la onda
P, nominal 26 Existencia de la onda T desigual, nominal 27 Existencia de derivacin difsica de la
onda T, nominal de DII canal: 28 .. 39 (similar a 16 .. 27 de canal DI) de los canales de DIII: 40 ..
51 De AVR canal: 52 .. 63 de canal AVL: 64 .. 75 de canal FAV: 76 .. 87 Por V1 canal: 88 .. 99 Por
V2 canal: 100 .. 111 De V3 canal: 112 .. 123 De V4 canal: 124 .. 135 De V5 canal: 136 .. 147 De V6
canal: 148 .. 159 de DI canal: Amplitud, * 0,1 milivoltios, de 160 ola JJ, lineal de ondas Q 161,
linear onda 162 R, lineal S wave 163, lineal 164 R 'onda, lineal 165 S 'onda, lineal de ondas P 166 ,
lineal 167 de la onda T, lineal 168 QRSA, Suma de las reas de todos los segmentos divididos por
10, (rea = ancho * altura / 2), lineal 169 QRSTA = QRSA + 0,5 * ancho de la onda T * 0,1 * altura
de la onda T. (Si T es bifsica entonces se considera el segmento ms grande), lineal de DII
canal: 170 .. 179 De DIII canal: 180 .. 189 De AVR canal: 190 .. 199 de canal AVL: 200 .. 209 de
canal FAV: 210 .. 219 de V1 canal: 220 .. 229 V2 de canal: 230 .. 239 De V3 canal: 240 .. 249 De
V4 canal: 250 .. 259 De V5 canal: 260 .. 269De V6 canal: 270. . 279

Documentos pertinentes:
H. Altay Gvenir, Burak Acar, Gulsen Demiroz, Ayhan Cekin "Un algoritmo de aprendizaje
automtico supervisado para el Anlisis de Arritmia". Actas de los Ordenadores en Cardiologa
Conferencia, Lund, Suecia, 1997. [Web Enlace]
Personajes Artificiales Conjunto de Datos

Resumen : Conjunto de datos generados artificialmente mediante el uso de teora de primer


orden que describe la estructura de diez letras maysculas del alfabeto Ingls

Conjunto de datos Nmero de


Multivariante 6000 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de Fecha 1992-07-


7
atributo: entero, real atributos: Donado 01

Nmero de
Valores
Tareas asociadas: Clasificacin No Web 69424
perdidos?
Accesos:

Fuente:
Los propietarios originales de base de datos: 1. H. Altay Gvenir, PhD,. Bilkent
University, Departamento de Ingeniera Informtica y Ciencias de la Informacin, 06533 Ankara,
Turqua Telfono: +90 (312) 266 4133 Email: Gvenir'@' cs.bilkent.edu.tr 2. Burak Acar,
MS, Universidad de Bilkent, EE Eng. Dept. 06533 Ankara,
Turqua Email: buraka '@' ee.bilkent.edu.tr 3. Haldun Muderrisoglu, MD, Ph.D., de la Universidad
Baskent, Facultad de MedicinaAnkara, Turqua Donante: H. Altay Gvenir Universidad
Bilkent, Departamento de Ingeniera Informtica y Ciencias de la Informacin, 06533 Ankara,
Turqua Telfono: +90 (312) 266 4133 Email: Gvenir '@' cs.bilkent.edu.tr

Datos Conjunto de Informacin:


Esta base de datos ha sido generada artificialmente mediante el uso de una teora de primer orden
que describe la estructura de diez letras maysculas del alfabeto Ingls y un demostrador de
teoremas eleccin aleatoria que representa el etherogeneity en las instancias. Las maysculas
representadas son las siguientes: A, C, D, E, F, G, H, L, P, R. Cada instancia est estructurado y
es descrito por un conjunto de segmentos (lneas) que se asemejan a la forma en que un programa
automtico hara segmento una imagen. Cada instancia se almacena en un archivo independiente
cuyo formato es el siguiente: TIPO DE CLASE OBJNUM YY1 XX1 XX2 YY2 TAMAO DIAG donde
clase es un nmero entero que indica la clase como se describe a continuacin, OBJNUM es un
identificador entero de un segmento (comenzando por 0) en la instancia y el resto de columnas
representan los valores de los atributos. Para ms detalles, pngase en contacto con el autor.

Atributo de la informacin:
TIPO: el primer atributo describe el tipo de segmento y se establece siempre en la "lnea"
cadena. Su tipo de lenguaje C es de tipo char. XX1, YY1, XX2, YY2: estos atributos contienen las
coordenadas iniciales y finales de un segmento en un plano cartesiano. Su tipo de lenguaje C es
int. TAMAO: esta es la longitud de un segmento, calculado utilizando la distancia geomtrica
entre dos puntos A (X1, Y1) y B (X2, Y2). Su tipo de lenguaje C es flotador. DIAG: esta es la
longitud de la diagonal del rectngulo ms pequeo que incluye la imagen del carcter. El valor de
este atributo es la misma en cada objeto. Su tipo de lenguaje C es float.

Documentos pertinentes:
M. Botta, A. Giordana, L. Saitta: "Aprender las definiciones de conceptos difusos", IEEE-Fuzzy
Conferencia de 1993. [Web Link] M. Botta, A. Giordana:. "Aprender Caracterstica cuantitativa en
un entorno simblico", LNAI 542, 1991, pp 296-305 [Web Link]

Audiologa (Original) Conjunto de datos


Resumen : Nominal conjunto de datos audiologa de Baylor

Conjunto de datos Nmero de


Multivariante 226 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de N/ Fecha


Categrico 12/03/1987
atributo: atributos: A Donado

Nmero de
Valores
Tareas asociadas: Clasificacin S Web 32009
perdidos?
Accesos:

Fuente:
Propietario original: Profesor Jergen en el Colegio Baylor de Medicina Donante: Bruce Porter
( Porter '@' fall.cs.utexas.EDU )

Datos Conjunto de Informacin:


Esta base de datos no utiliza un conjunto estndar de atributos por ejemplo. Contact Ray Bareiss
( rbareiss '@' uunet.uucp ?) para obtener ms informacin. experto de dominio: El profesor Craig
Wier de la Universidad de Texas, Austin.

Atributo de la informacin:
(Todos los atributos son valoradas nominalmente)
1. identificador de caso.
2. clasificacin (24 clases)
3. Lista de las caractersticas del caso
- Formato: forma f (v) debe leerse como "funcin f tiene un valor v"

Documentos pertinentes:
Bareiss, E. Ray, & Porter, Bruce (1987). Protos: Un aprendiz Aprendizaje Basado Ejemplar. En las
Actas de la 4 Taller Internacional sobre Aprendizaje Automtico, 12-23, Irvine, CA:. Morgan
Kaufmann [Web Link]
Audiologa (Estandarizado) Conjunto de datos
Resumen : La versin estandarizada de la base de datos original de audiologa

Conjunto de datos Nmero de


Multivariante 226 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de 1992-


Categrico 69 Fecha Donado
atributo: atributos: 08-18

Valores Nmero de
Tareas asociadas: Clasificacin S 33402
perdidos? Web Accesos:

Fuente:
Versin original: (a) Propietario original: Profesor Jergen en el Colegio Baylor de Medicina (b)
Donante: Bruce Porter ( Porter '@' fall.cs.utexas.EDU ) Estandarizado Versin: (a) Donante: Ross
Quinlan

Datos Conjunto de Informacin:


Esta base de datos es una versin estandarizada de la base de datos de audiologa original (vase
la audiologa. * En este directorio). El conjunto no estndar de atributos se han convertido a un
conjunto estndar de atributos de acuerdo a las reglas que siguen. * Cada propiedad que aparece
en cualquier lugar de la original. datos o. archivo de prueba se ha representado como un atributo
independiente en este archivo. * Una propiedad tales como age_gt_60 se representa como un
atributo booleano con los valores de F yt. * En la mayora de los casos, una propiedad de la forma
x (y) se representa como un atributo discreto x () cuyos valores posibles son los diversos y de;de
aire () es un ejemplo. Hay dos excepciones: ** cuando slo un valor de y aparece en cualquier
lugar, por ejemplo, esttica (normal). En este caso, x_y aparece como un atributo booleano. **
cuando un caso puede tener dos o ms valores de x, por ejemplo, la historia (..). Todos los valores
posibles de la historia se tratan como atributos booleanos separadas. * Desde atributos booleanos
slo aparecen como condiciones positivas, cada atributo booleano se asume que es falso a menos
que se indique lo cierto. A menos que se especifique un valor El valor de los atributos discretos
mltiples valores tomados como desconocido ("?"). * Las identificaciones de casos originales, p1 a
p200 en el archivo de datos. y t1 a t26 en el archivo de prueba., se han aadido como . un atributo
nico identificador . [Nota: en el archivo de datos original, p165 tiene una especificacin repetida de
o_ar_c (normal); P166 ha repetido la especificacin del lenguaje (normal) y valores en conflicto aire
(moderada) y el aire (leve). No se observaron otros problemas con los datos originales.]

Atributo de la informacin:
age_gt_60: f, t.
aire ():. leve, moderada, severa, normal, profundo
airBoneGap:. f, t
ar_c (): normal, elevado, ausente.
ar_u (): ausente normal, elevado.
seo (): leve, moderado, normal, no medida.
boneAbnormal:. f, t
BSER ():. normal de degradado,
history_buzzing: f, t.
history_dizziness: f, t.
history_fluctuating:. f, t
history_fullness:. f, t
history_heredity: f, . t
history_nausea:. f, t
history_noise: f, t.
history_recruitment:. f, t
history_ringing: f, t.
history_roaring:. f, t
history_vomiting:. f, t
late_wave_poor:. f, t
m_at_2k: f, t.
m_cond_lt_1k:. f, t
m_gt_1k: f, t.
m_m_gt_2k:. f, t
m_m_sn:. f, t
m_m_sn_gt_1k:. f, t
m_m_sn_gt_2k:. f, t
m_m_sn_gt_500:. f, t
m_p_sn_gt_2k: f, t.
m_s_gt_500: f, t.
m_s_sn: f, t.
m_s_sn_gt_1k: f, t.
m_s_sn_gt_2k:. f, t
m_s_sn_gt_3k:. f, t
m_s_sn_gt_4k:. f, t
m_sn_2_3k: f, t.
m_sn_gt_1k:. f, t
m_sn_gt_2k: f, . t
m_sn_gt_3k:. f, t
m_sn_gt_4k:. f, t
m_sn_gt_500: f, t.
m_sn_gt_6k:. f, t
m_sn_lt_1k:. f, t
m_sn_lt_2k: f, t.
m_sn_lt_3k:. f, t
middle_wave_poor: f, t.
mod_gt_4k:. f, t
mod_mixed:. f, t
mod_s_mixed:. f, t
mod_s_sn_gt_500: f, t.
mod_sn:. f, t
mod_sn_gt_1k:. f, t
mod_sn_gt_2k: f, t.
mod_sn_gt_3k:. f, t
mod_sn_gt_4k: f, t.
mod_sn_gt_500: f, t.
notch_4k:. f, t
notch_at_4k:. f, t
o_ar_c (): normal, elevado, ausente.
o_ar_u ():. normalidad ausente, elevado,
s_sn_gt_1k:. f, t
s_sn_gt_2k: f, t.
s_sn_gt_4k:. f, t
discurso (): normal, bueno, very_good, very_poor, pobre, no medida.
static_normal:. f, t
timpa (): a, como, b, ad, c.
viith_nerve_signs: f, t.
wave_V_delayed: f, t.
waveform_ItoV_prolonged:. f, t
indentifier (nico para cada
instance) class: cochlear_unknown,mixed_cochlear_age_fixation,poss_central mixed_cochlear_ag
e_otitis_media,mixed_poss_noise_om,cochlear_age,normal_ear,cochlear_poss_noise,cochlear_ag
e_and_noise, acoustic_neuroma,mixed_cochlear_unk_ser_om,conductive_discontinuity, retrocochl
ear_unknown,conductive_fixation,bells_palsy,cochlear_noise_and_heredity,mixed_cochlear_unk_fi
xation, otitis_media,possible_menieres,possible_brainstem_disorder, cochlear_age_plus_poss_me
nieres,mixed_cochlear_age_s_om,mixed_cochlear_unk_discontinuity,mixed_poss_central_om

Documentos pertinentes:
Bareiss, E. Ray, & Porter, Bruce (1987). Protos: Un aprendiz Aprendizaje Basado Ejemplar. En las
Actas de la 4 Taller Internacional sobre Aprendizaje Automtico, 12-23, Irvine, CA:. Morgan
Kaufmann [Web Link]

Australia Lengua de Signos firma Data Set


Resumen : Esta informacin consta de muestra de Auslan (Australian Sign Language)
signos. Ejemplos de 95 signos se obtuvieron de cinco firmantes de un total de 6.650 muestras de
signos.

Conjunto de datos Multivariado, Nmero de


6650 rea: N/A
Caractersticas: Time-Series instancias:

Caractersticas del Categrico, el Nmero de Fecha 1999-


15
atributo: Real atributos: Donado 04-20

Nmero de
Valores
Tareas asociadas: Clasificacin N/A Web 32474
perdidos?
Accesos:

Fuente:
Propietario original y los donantes: Mohammed Waleed Kadous Facultad de Ciencias de la
Computacin de Ingeniera de la Universidad de Nueva Gales del Sur Sydney NSW 2052
Australia waleed '@' cse.unsw.edu.au

Datos Conjunto de Informacin:


La fuente de los datos es de las mediciones en bruto de una Nintendo PowerGlove. Se
interconecta a travs de una interfaz serial PowerGlove a una estacin de trabajo Silicon Graphics
4D/35G. Este guante definitivamente entra en la categora de "barato y desagradable". La
informacin de posicin se calcula sobre la base de las emisiones de ultrasonido de emisores del
guante para un 3-micrfono "L-Bar" que se sienta encima de un monitor. Hay dos emisores en el
guante; y tres receptores. Esto permite el clculo de 4 piezas de informacin: x (izquierda /
derecha), y (arriba / abajo), z (atrs / adelante), y balanceo (es la palma apuntando hacia arriba o
hacia abajo?). x, y y z se miden con una precisin de 8 bits. "X, y, z" no debe ser tomada a ser la
base ortogonal de 3 dimensiones normales. En particular, 1 unidad en la direccin z no es de
similar distancia a 1 unidad en X o Y.. Estas x, y, z son las posiciones con relacin a un punto de
calibracin que es cuando la palma est descansando en el muslo de la persona que firma
asentada. Rollo es de 4 bits. Los datos son susceptibles a los "picos" ocasionales causadas por el
ruido de ultrasonido al azar. La mediana de filtros se han encontrado para ser beneficioso en la
resolucin de este problema. doblar el dedo se genera por los sensores de plegado conductoras en
los primero cuatro dedos. Los valores varan entre 0 (recta) y 3 (totalmente doblada). La precisin
es de 2 bits. Los guantes se aplican automticamente un filtro de histresis de estos sensores de
flexin. A lo sumo, estas mediciones deben ser tratados con escepticismo. Ver uso en el pasado
para una discusin ms detallada sobre la metodologa de recopilacin de datos. Los datos fueron
recogidos a partir de cinco firmantes: Signer - Descripcin - Sesiones - Total de muestras /
firman Adam - Inscripcin lingista - Doctorado complet en el rea. - 2 - 8 Andrew - firmante
Natural - la firma ya la juventud - 3 - 8 John - Profesional Auslan intrprete - 5-18 Stephen -
Profesional Auslan intrprete - 4 - 16 Waleed - El investigador . Firmante de principiante - 4 -
20 Cada sesin fue tomada en un momento diferente, despus de un descanso, etc El conjunto de
datos "adam" se tomaron muestras en un orden fijo - esto significa que estn sujetos a los efectos
de la fatiga, etc Todos los dems conjuntos de datos fueron muestreados en orden aleatorio. Los
"waleed" y conjuntos de datos "stephen" contienen signos que comienzan con "cal-". Estos fueron
considerados como un medio de calibracin, pero no funcion muy bien. Los datos que se
presentan son los datos crudos sin filtracin. abandonos ocasionales en x, y, z valores. Estos
pueden ser fijados fcilmente usando un filtro de mediana. Promedio del nmero de cuadros por
ejemplo es 51, sino que vara desde 30 hasta 102. Los datos estn en un archivo separado por
comas que contiene todos los atributos mencionados anteriormente. Cada muestra de seal se
almacena en un nico archivo. La jerarqua de directorios es la siguiente: -Cada firmante est en
un directorio independiente. -Cada sesin del firmante se encuentra en un subdirectorio. Cada
sesin se indica mediante un nmero. -Cada muestra se encuentra en un archivo llamado por la
muestra se adjunta con el nmero de la muestra de ese signo. Los nombres de archivo indican la
clase.

Atributo de la informacin:
x:
- Continua.
- Descripcin: x posicin entre -1 y 1. Las unidades son * metros aproximadamente *.
y:
- Continua.
- Descripcin: posicin y entre -1 y 1. Las unidades son aproximadamente metros.
z:
- Continua.
- Descripcin: posicin z entre -1 y 1. Las unidades no son metros.
Este espacio no debe ser tratado como realmente lineal, aunque es seguro que
lo tratan como montona creciente.
rodar:
- Continua.
- Descripcin: Rodillo con el 0 significa "palma hacia abajo", que gira clcokwise hasta un mximo
de 1 (no incluido), que es tambin "la palma hacia abajo."
pitch:
- Tiene un valor de -1, lo que indica que no se dispone de estos datos.
deben ser ignorados.
guiada:
- Tiene un valor de -1, lo que indica que que no est disponible para estos datos.
deben ser ignorados.
pulgar:
- Continua.
- Descripcin: Curva del pulgar. tiene un valor de 0 (recta) a 1 (totalmente doblada).
plano:
-. Continuo
- Descripcin: ndice curva. tiene un valor de 0 (recta) a 1 (totalmente doblada).
ndice:
-. Continuo
- Descripcin: El dedo ndice de curvatura. tiene un valor de 0 (recta) a 1 (totalmente doblada).
anillo:
-. Continuo
- Descripcin: finger curva Anillo. tiene un valor de 0 (recta) a 1 (totalmente doblada).
poco:
- En este caso, se trata de una copia de la curva del anillo. En caso de ser ignorado.
keycode:
- Indica que se ha pulsado en el guante. En caso de ser ignorado.
GS1:
- Estado guante 1 debe ser ignorada.
gs2:
- Estado guante 2 debe ser ignorada.
valores del receptor:
- Determina si todos los receptores reciben los valores de todos los transmisores. Un valor 0x3F
indica todos los receptores recibieron informacin de todos los transmisores. Otros valores indican
que esto no es el caso.

Documentos pertinentes:
MW Kadous, GRASP:. Reconocimiento de la Lengua de Signos Australiana usando guantes
instrumentados, con honores tesis, Escuela de Ciencias de la Computacin e Ingeniera de la
Universidad de Nueva Gales del Sur, 1995[Web Link]

Signos de Lengua de Signos de Australia (High Quality) Conjunto de


datos
Resumen : Esta informacin consta de muestra de Auslan (Australian Sign Language) signos. 27
ejemplos de cada uno de los 95 signos Auslan fueron capturados por un firmante nativo usando
rastreadores de posicin de alta calidad

Conjunto de datos Multivariado, Nmero de


2565 rea: N/A
Caractersticas: Time-Series instancias:

Caractersticas del Nmero de Fecha 2002-


Real 22
atributo: atributos: Donado 02-26

Nmero de
Valores
Tareas asociadas: Clasificacin N/A Web 43007
perdidos?
Accesos:

Fuente:
Propietario original y los donantes: Mohammed Waleed Kadous Facultad de Ciencias de la
Computacin de Ingeniera de la Universidad de Nueva Gales del Sur Sydney NSW 2052
Australia Tel.: 61 2 9385 6922 waleed '@'cse.unsw.edu.au

Datos Conjunto de Informacin:


Los datos fueron capturados utilizando una configuracin que consisti en: - Dos tecnologas de
quinta dimensin (5DT) guantes, uno derecho y otro izquierdo - dos trackers Ascensin Flock-de-
aves de posicin magntico, uno conectado a cada lado - Una tarjeta de serie de cuatro puertos
para hacer frente a cuatro fuentes de datos - Un PC (RAM 128MB, 266MHz Intel Pentium II) se
utiliz en trminos de la calidad de los datos, el sistema Flock era muy superior a la consola
Nintendo tambin disponible del mismo donante. En primer lugar, se trataba de un sistema de dos
manos. En segundo lugar, cada seguidor de posicin proporciona 6 grados de libertad - es decir,
balance, cabeceo y guiada, as como x, y, z. Los guantes tambin proporcionaron un total de
cinco dedos de los datos. Pero las grandes mejoras fueron en la resolucin - tanto la precisin y
temporal. Posicin y orientacin se definieron para la precisin de 14 bits, dando informacin de
posicin con un error tpico posicional menos de un centmetro de error y el ngulo de menos de
una mitad de un grado. Doblar el dedo se midi con 8 bits por el dedo, de la que, probablemente, 6
trozos eran utilizables una vez que se calibr el guante. La frecuencia de actualizacin de todo el
sistema estaba cerca de 100 imgenes por segundo; y todas las seales tenan significativamente
menos ruido que los datos de Nintendo. muestras de un solo firmante (uno de los firmantes nativa
Auslan) fueron recogidos durante un perodo de nueve semanas. En total, se recogieron 27
muestras por seas, y un total de 2.565 signos. La duracin media de cada signo fue de
aproximadamente 57 marcos. Los datos fueron obtenidos de un nativo voluntario Auslan
firmante todos los datos son los datos en bruto sin filtracin. El archivo consta de 9 subdirectorios
tctodd1-9. Cada directorio se compone de 3 muestras de cada signo, capturados en un da
diferente. En total hay 95 signos diferentes, con 27 muestras por seal. Signos fueron
proporcionados por un voluntario firmante nativa. Cada archivo consta de una secuencia de
lneas. Cada lnea se compone de 22 nmeros separados por espacios en blanco que representan
a los 22 canales de informacin. La lista de canales se puede encontrar en el archivo de
descripcin de dominio. Tambin enumera las clases. Ms informacin se puede encontrar
aqu: [Web Link] .

Atributo de la informacin:
Los siguientes datos fueron registrados para cada mano: * x posicin expresada con relacin a un
punto de ajuste ligeramente por debajo de la barbilla cero. Expresado en metros. * posicin y,
expresado con relacin a un punto de ajuste ligeramente por debajo de la barbilla cero. Expresado
en metros. * posicin z expresa en relacin a un punto de ajuste ligeramente por debajo de la
barbilla cero. Expresado en metros. * rollo expresado como un valor entre -0,5 y 0,5, siendo 0 la
palma hacia abajo. Positivo significa la palma se rueda en sentido horario desde la perspectiva de
la persona que firma. Para obtener grados, multiplquelo por 180. * pitch expresado como un valor
entre -0,5 y 0,5, siendo 0 la palma plana (horizontal). Positivo significa la palma apunte hacia
arriba. Para obtener un ttulo, multiplquelo por 180. * guiada expresa un valor entre -1,0 y 1,0,
siendo 0 la palma hacia el frente desde la perspectiva de la persona que firma. Medios positivos
hacia la derecha desde la perspectiva arriba firmante. Para obtener grados, multiplquelo por 180. *
medida bend Pulgar entre 0 y 1. 0 significa totalmente plana, 1 es totalmente doblada. Sin
embargo, las mediciones de doblar el dedo no son muy exacta. * medida curva dedo ndice entre 0
y 1. 0 significa totalmente plana, 1 significa totalmente doblada. Sin embargo, los mediciones
doblar el dedo no son muy exacta. * medida doblar el dedo medio entre 0 y 1. 0 significa totalmente
plana, 1 es totalmente doblada. Sin embargo, las mediciones de doblar el dedo no son muy
exacta. * medida de curvatura dedo anular entre 0 y 1. 0 significa totalmente plana, 1 es totalmente
doblada. Sin embargo, las mediciones de doblar el dedo no son muy exacta. * Poco medida curva
dedo entre 0 y 1. 0 significa totalmente plana, 1 es totalmente doblada.Sin embargo, las
mediciones de doblar el dedo no son muy exacta.

Documentos pertinentes:
Kadous, MW, "Clasificacin temporal: Ampliacin de la Clasificacin Paradigma para multivariante
de series temporales", Tesis de Doctorado (borrador), Facultad de Ciencias de la Computacin e
Ingeniera de la Universidad de Nueva Gales del Sur, 2002. [Web Link] Tambin disponible
en: [Web Enlace ]

Auto MPG Data Set


Resumen : Se ha revisado de la biblioteca de CMU StatLib, los datos se refiere a consumo de
combustible, ciclo de la ciudad

Conjunto de datos Nmero de


Multivariante 398 rea: N/A
Caractersticas: instancias:

Caractersticas del Categrico, el Nmero de Fecha 1993-


8
atributo: Real atributos: Donado 07-07

Valores Nmero de
Tareas asociadas: Regresin S 101000
perdidos? Web Accesos:

Fuente:
Este conjunto de datos fue tomada de la biblioteca StatLib que se mantiene en la Universidad
Carnegie Mellon. El conjunto de datos se utiliza en el 1983 Asociacin Americana de Estadstica
Exposicin.

Datos Conjunto de Informacin:


Este conjunto de datos es una versin ligeramente modificada del conjunto de datos proporcionado
en la biblioteca StatLib. En lnea con el uso por Ross Quinlan (1993) para predecir el atributo
"mpg", 8 de los casos originales fueron retirados porque tenan valores desconocidos para el
atributo "mpg". El conjunto de datos original est disponible en el archivo "auto-mpg.data
originales". "Las preocupaciones de datos de consumo de combustible de ciclo de la ciudad en
millas por galn, para ser pronosticada en funcin de varios valores discretos 3 y 5 atributos
continuos." (Quinlan, 1993)

Atributo de la informacin:
1. mpg: continua
2. cilindros: varios valores discretos
3. desplazamiento: continua
4. caballos de fuerza: continua
5. peso: continua
6. aceleracin: continua
7. Ao de construccin: varios valores discretos
8. origen: varios valores discretos
9. nombre del coche: string (nico para cada instancia)

Documentos pertinentes:
Quinlan, R. (1993). Combinando Instancia-con base y basado en modelos de aprendizaje. En
Actas de la Dcima Conferencia Internacional de Aprendizaje Automtico, 236-243, Universidad de
Massachusetts, Amherst. Morgan Kaufmann. [Web Link]

Automvil Data Set


Resumen : A partir de 1985 de Ward Automotive Yearbook

Conjunto de datos Nmero de


Multivariante 205 rea: N/A
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de Fecha 1987-


26
atributo: entero, real atributos: Donado 05-19

Nmero de
Valores
Tareas asociadas: Regresin S Web 85130
perdidos?
Accesos:

Fuente:
Creador / Donante: Jeffrey C. Schlimmer ( Jeffrey.Schlimmer '@' a.gp.cs.cmu.edu ) Fuentes: 1.)
Modelo 1985 Importacin de coches y camiones Especificaciones, 1985 de Ward Automotive
Yearbook 2) Personal Auto Manuales, Servicios de aseguramiento Oficina, 160 Water Street,
Nueva York, NY 10038 3) Seguro Reportar colisin, Instituto de Seguros para Seguridad en las
Carreteras, Watergate 600, Washington, DC 20037

Datos Conjunto de Informacin:


Este conjunto de datos se compone de tres tipos de entidades: (a) la especificacin de un auto en
trminos de varias caractersticas, (b) su calificacin de riesgo de seguro asignado, (c) sus
prdidas normalizadas de uso en comparacin con otros coches. La segunda clasificacin se
corresponde con el grado en que el auto es ms arriesgado que su precio indica. Coches se
asignan inicialmente un smbolo factor de riesgo asociado con su precio.Entonces, si es ms
riesgoso (o menos), este smbolo se ajusta moviendo hacia arriba (o hacia abajo) de la
escala. Actuarians llaman a este proceso "symboling". Un valor de 3 indica que el auto es
arriesgado, -3 que es probablemente bastante seguro. El tercer factor es el pago promedio de
prdida en relacin al ao del vehculo asegurado. Este valor est normalizado para todos los
autos dentro de una clasificacin por tamao en particular (de dos puertas pequeas, camionetas,
deportes / especialidad, etc ..), y representa la prdida media por vehculo y por ao. Nota: Varios
de los atributos en la base de datos podra ser utilizado como un atributo "class".

Atributo de la informacin:
Atributo: Rango Atributo 1. symboling: -3, -2, -1, 0, 1, 2, 3. 2. normalizados-prdidas: continua 65-
256. 3. hacer: alfa-romero, audi, bmw, chevrolet, dodge, honda, isuzu, jaguar, Mazda, Mercedes-
Benz, el mercurio, mitsubishi, nissan, Peugeot, plymouth, porsche, renault, saab, subaru, toyota,
volkswagen, volvo 4 . tipo de combustible: disel, gas. 5. aspiracin: std, turbo. 6. num-de-puertas:
cuatro, dos. 7. al estilo de cuerpo: techo duro, carro, sedn, hatchback, convertible. 8. drive-ruedas:
4wd, fwd, rwd. 9. motor ubicacin: delantero, trasero. 10. distancia entre ejes: continuo desde 86.6
120.9. 11. longitud: continua 141,1-208,1. 12. anchura: continua 60,3-72,3. 13. altura: continua
47,8-59,8. 14. frenar peso: continua 1.488-4066. 15. -Tipo de motor: DOHC, dohcv, l, OHC,
tamaos grandes, ohcv, rotor. 16. num-of-cilindros: ocho, cinco, cuatro, seis, tres, doce,
dos. 17. motor-size: continua 61-326.18. combustible-sistema:. 1BBL, 2bbl, 4bbl, idi, mfi, mpfi,
SPDI, ISPS 19. dimetro: continua 2,54-3,94. 20. Carrera: continua 2,07-4,17. 21. compresin-
razn: continua del 7 al 23. 22. caballos de fuerza: continua 48-288. 23. pico rpm: continua desde
4150 hasta 6600. 24. ciudad-mpg: continua 13 a 49. 25. autopista de mpg: continua 16-
54. 26. precio: continua 5.118-45.400.

Documentos pertinentes:
Kibler, D., Aha, DW, y Albert, M. (1989). Prediccin basada en instancia de atributos con valores
reales. Inteligencia Computacional, Vol. 5, 51 - 57. [Web Link]
AutoUniv Data Set
Resumen : AutoUniv es un generador avanzado de datos para tareas de clasificaciones. El
objetivo es reflejar los matices y la heterogeneidad de los datos reales. Los datos pueden ser
generados en. Csv, ARFF o formatos C4.5.

N
Conjunto de datos Nmero de
Multivariante / rea: N/A
Caractersticas: instancias:
A

N
Caractersticas del Categrico, Nmero de 2010-
/ Fecha Donado
atributo: entero, real atributos: 11-03
A

N
Valores Nmero de
Tareas asociadas: Clasificacin / 21946
perdidos? Web Accesos:
A

Fuente:
AutoUniv fue desarrollado por Ray. J. Hickey. Email: ray.j.hickey '@' gmail.com
AutoUniv web-site: http://sites.google.com/site/autouniv/

Datos Conjunto de Informacin:


. El usuario crea primero un modelo de clasificacin y luego genera ejemplos de anuncios de ella
Para crear un modelo, el siguiente se especifican: el nmero de atributos (hasta 1000) y su tipo
(discreto o continuo), el nmero de clases (hasta 10), la complejidad de las reglas subyacentes y el
nivel de ruido. AutoUniv produce entonces un modelo a travs de un proceso de bsqueda
aleatorios limitados para satisfacer las necesidades del usuario. Un modelo puede tener un
mximo de 3.000 reglas. Modelos de clase raras pueden ser diseados. Una secuencia de
modelos puede ser diseado para reflejar el concepto y / o desplazamiento de la
poblacin. AutoUniv crea tres archivos de texto para un modelo: una especificacin Prolog del
modelo utilizado para generar ejemplos (. aupl); una declaracin de uso fcil de las reglas de
clasificacin en un 'si ... entonces' formato (aurules.); un resumen estadstico de las principales
propiedades del modelo, incluyendo su tasa de Bayes (. auprops).

Atributo de la informacin:
Los atributos pueden ser discretos con un mximo de 10 valores o continua. Un atributo discreto
puede ser nominal con valores v1, v2, v3 ... o enteros con valores 0, 1, 2, ....

Documentos pertinentes:
Marrs, G, Hickey, RJ y Negro, MM (2010) Modelacin del ciclo de vida de ejemplo, en un
estudiante de la clasificacin en lnea. En Actas de HaCDAIS 2010:. Taller Internacional sobre
Manejo Concepto Drift Adaptive Information Systems [Web Link] # proc. Marrs, G, Hickey, RJ y
Negro, MM (2010) El impacto de la latencia en el aprendizaje de Clasificacin Online con Concept
Drift. En Y. Bi y MA Williams (Eds.): KSEM 2010, LNAI 6291, Springer-Verlag, Berlin, pp 459A
"469. Hickey, RJ (2007) Estructura y clases mayoritarias en la Decisin Learning Tree. Journal of
Machine Learning Research, 8, pp 1747-1768.

Bach Corales Data Set


Resumen : Los datos de series de tiempo sobre la base de corales; reto es aprender la
gramtica generativa; datos en Lisp

Conjunto de datos Univariante, Nmero de


100 rea: N/A
Caractersticas: Time-Series instancias:

Caractersticas del Categrico, Nmero de


6 Fecha Donado N/A
atributo: Integer atributos:

Valores Nmero de
Tareas asociadas: N/A No 39308
perdidos? Web Accesos:

Fuente:
Corales: Mainous y Ottman edition.Mainous, Frank D. y Robert W. Ottman, eds. 1966.
Los 371 Corales de Bach. . Holt, Rinehart and Winston, Nueva York propietarios originales de base
de datos: Darrell Conklin ZymoGenetics Inc. 1201 Eastlake Avenue East Seattle WA,
98102 conklin '@' zgi.com Donantes de base de datos: Igual que el propietario. Ann Blombach de
la Universidad Estatal de Ohio me suministr originalmente con codificaciones de 4 voces de 100
corales. La actual base de datos es la lnea de soprano, convertida en formato Lisp legible y
ampliamente corregida.

Datos Conjunto de Informacin:


Secuencial (series de tiempo) de dominio. Melodas de una sola lnea de 100 corales de Bach
(originalmente 4 voces). La lnea de la meloda puede ser estudiado independientemente de otras
voces. El gran reto es aprender una gramtica generativa de corales estilsticamente vlidos (ver
referencias y discusin en "Viewpoint Systems mltiples para Music Prediccin").

Atributo de la informacin:
Nmero de Atributos: 6 (nominal) por evento (a) puesta en el tiempo, medido en notas 16a de
principio coral (tiempo 0) (b) de paso, nmero de MIDI (60 = C4, 61 = C # 4, 72 = C5, etc) (c) la
duracin, medida en notas 16o (d) firma de clave, nmero de sostenidos o bemoles, positivo si
firma dominante tiene sostenidos, negativo si firma dominante tiene pisos (e) de comps, en las
notas de 16o por barra (f ) caldern, verdadero o falso dependiendo de si est en un evento
fermata dominios Atributo (todos los enteros): (a) {0,1,2, ...} (b) {60, ..., 75} (c) {1, ..., 16} (d) {-4, ...,
4} (e) {12,16} (f) {0,1}

Documentos pertinentes:
Conklin, Darrell y Witten, Ian. 1995. Viewpoint Systems mltiples para Music Prediccin. Diario de
Nueva Music Research. 24 (1) :51-73. [Web Link]
Insignias conjunto de datos
Resumen : Insignias marcadas con un "+" o "-" en funcin del nombre de una persona

Conjunto de datos Univariante, Nmero de


294 rea: N/A
Caractersticas: Texto instancias:

Caractersticas del Nmero de 1994-


N/A 1 Fecha Donado
atributo: atributos: 09-01

Valores Nmero de
Tareas asociadas: Clasificacin No 32727
perdidos? Web Accesos:

Fuente:
Creador: Haym Hirsh, despus de una idea de Rob Schapire Donante: Haym Hirsh
( hirsh '@' cs.rutgers.edu )

Datos Conjunto de Informacin:


Parte del problema en el uso de un programa automatizado para descubrir la funcin de destino
desconocido es decidir cmo codificar nombres de tal manera que el programa puede ser
utilizado. Los datos se muestran a continuacin se presentan en forma de un + / - etiqueta seguido
del nombre de la persona. Es responsabilidad del usuario-sistema de aprendizaje para decidir
cmo convertir estos datos en algo utilizable por el sistema (por ejemplo, lo que atribuye a usar si
su alumno favorito requiere datos de funciones vectoriales).

Atributo de la informacin:
N/A

Documentos pertinentes:
N/A
Bag of Words Data Set 2008-03-12

Resumen:Este conjunto de datoscontiene cincocolecciones de textosenforma de bolsas-


de-palabras.
Caractersticas N/A
Nmero de
del Conjunto Texto 8000000 rea:
instancias:
de datos:

2008-03-12
Caractersticas Nmero de Fecha de
Entero 100000
del atributo: atributos: Donacin

122589
Tareas Valores Nmero de
Clustering N/A
asociadas: perdidos? accesos Web:

Fuente:
David Newman newman'@' uci.edu University of California, Irvine

Informacin del Conjunto de datos:


Para cada coleccin de texto , D es el nmero de documentos , W es el
nmero de palabras en el vocabulario , y N es el nmero total de palabras
en la coleccin (por debajo de , NNZ es el nmero de recuentos distintos de cero en el
bolsa - de - palabras). Despus de tokenizacin y la eliminacin de palabras vacas , el
vocabulario de palabras nicas se trunc por slo mantener las palabras que
producido ms de diez veces . Nombres de los documentos individuales ( es decir, una
identificador para cada docID ) no se proporcionan por motivos de copyright .
Estos conjuntos de datos no tienen etiquetas de clase , y por razones de derechos de autor
no
nombres de archivo u otros metadatos a nivel de documento. Estos conjuntos de datos son
ideales
Para la agrupacin y tema experimentos de modelado.
Para cada coleccin de textos que ofrecemos docword . * . Txt( la bolsa de palabras
presentar en formato escasa) y vocabulario . * . txt ( archivo de vocabulario ) .

Los correos electrnicos de Enron :


fuente orig : www.cs.cmu.edu/ ~ Enron
D = 39861
W = 28102
N = 6.400.000 (aprox. )

NIPS trabajos completos :


fuente orig : books.nips.cc
D = 1500
W = 12419
N = 1.900.000 (aprox. )

KOS Entradas de blog :


fuente orig : dailykos.com
D = 3430
W = 6906
N = 467 714

NYTimes noticias :
fuente orig : ldc.upenn.edu
D = 300000
W = 102660
N = 100 000 000 ( aprox )

PubMed resmenes:
fuente orig : www.pubmed.gov
D = 8200000
W = 141043
N = 730 000 000 ( aprox )

Informacin de los Atributos:


El formato de ladocword. *. Txtes de 3lneas de encabezado, seguido de
NNZtriplica:
---
D
W
NNZ
docIDwordIDconteo
docIDwordIDconteo
docIDwordIDconteo
docIDwordIDconteo
...
docIDwordIDconteo
docIDwordIDconteo
docIDwordIDconteo
---
El formato delvocabulario. *. Txteslnea contienewordID= n.

Documentos relevantes:

N/A

Citas:
Por favor,consulte elRepositoriode polticascitacinAprendizaje Automtico
Balance Scale Data Set 1994-04-22

Resumen:El pesoyla distanciabase de datos deBalance de


la escala
Caractersticas Social
Nmero de
del Conjunto de Multivariado 625 rea:
instancias:
datos:

Caractersticas Nmero de Fecha de


Categrico 4 1994-04-22
del atributo: atributos: Donacin

Nmero
70436
Valores de
Tareas asociadas: Clasificacin No
perdidos? accesos
Web:

Fuente:
Generadopara modelarexperimentos psicolgicosreportados porSiegler, RS (1976).
Tresaspectos del desarrollocognitivo. Psicologa Cognitiva, 8, 481-520.
Donante:
TimHume(Hume '@'ics.uci.edu)

Informacin del Conjunto de datos:


Este conjunto de datosse generpara modelarlos resultados
experimentalespsicolgicos.Cada ejemplose clasifica comola puntabalanzahacia la
derecha, la punta hacia la izquierda,oser equilibrado.Los atributosson el pesoizquierda,
ladistancia de la izquierda, el peso correcto, yla distancia correcta. La forma correcta
deencontrar la clasees el mayor entre(a la izquierdadistancia*pesode la
izquierda)y(derechadistancia*derechade peso). Si son iguales, es equilibrada
.
Informacin de los Atributos:
1. Clase Nombre: 3 (L, B, R)
2. Peso hacia la izquierda: 5 (1, 2, 3, 4, 5)
3. Distancia a la izquierda: 5 (1, 2, 3, 4, 5)
4. Peso hacia la derecha: 5 (1, 2, 3, 4, 5)
5. Distancia a la derecha: 5 (1, 2, 3, 4, 5)

Documentos relevantes:
Klahr, D., &Siegler, R.S. (1978). The Representation of Children's Knowledge. In H. W.
Reese & L. P. Lipsitt (Eds.), Advances in Child Development and Behavior, pp. 61-116.
New York: Academic Press

Langley,P. (1987). A General Theory of Discrimination Learning. In D. Klahr, P. Langley, &


R. Neches (Eds.), Production System Models of Learning and Development, pp. 99-161.
Cambridge, MA: MIT Press

Newell, A. (1990). Unified Theories of Cognition. Cambridge, MA: Harvard University Press

McClelland, J.L. (1988). Parallel Distibuted Processing: Implications for Cognition and
Development. Technical Report AIP-47, Department of Psychology, Carnegie-Mellon
University
Shultz, T., Mareschal, D., & Schmidt, W. (1994). Modeling Cognitive Development on
Balance Scale Phenomena. Machine Learning, Vol. 16, pp. 59-88.

Documentos que citan este conjunto de Datos:

Zhi-Hua Zhou and Yuan Jiang and Shifu Chen. Extracting symbolic rules from trained
neural network ensembles. AI Commun, 16. 2003.

Jianbin Tan and David L. Dowe. MML Inference of Decision Graphs with Multi-way Joins
and Dynamic Attributes. Australian Conference on Artificial Intelligence. 2003.

Peter Sykacek and Stephen J. Roberts. Adaptive Classification by VariationalKalman


Filtering. NIPS. 2002.

Remco R. Bouckaert. Accuracy bounds for ensembles under 0 { 1 loss. Xtal Mountain
Information Technology & Computer Science Department, University of Waikato. 2002.

Nir Friedman and MoissGoldszmidt and Thomas J. Lee. Bayesian Network Classification
with Continuous Attributes: Getting the Best of Both Discretization and Parametric Fitting.
ICML. 1998.

Hirotaka Inoue and Hiroyuki Narihisa. Experiments with an Ensemble Self-Generating


Neural Network. Okayama University of Science.

Alexander K. Seewald. Meta-Learning for Stacked Classification. Austrian Research


Institute for Artificial Intelligence. [View Context].

Alexander K. Seewald. Dissertation Towards Understanding Stacking Studies of a General


Ensemble Learning Scheme ausgefuhrtzumZwecke der Erlangung des akademischen
Grades einesDoktors der technischenNaturwissenschaften

Citas:
Por favor,consulte elRepositoriode polticascitacinAprendizaje Automtico
Balloons Data Set
Resumen: Los datos utilizadospreviamente enexperimento de psicologacognitiva,
4conjuntos de datosrepresentan diferentescondicionesde un experimento
Social
Caractersticas del Nmero de
Multivariado 16 rea:
Conjunto de datos: instancias:

N/A
Caractersticas del Nmero de Fecha de
Categrico 4
atributo: atributos: Donacin

70430
Valores Nmero de
Tareas asociadas: Clasificacin No
perdidos? accesos Web:

Fuente:
Michael Pazzani (pazzani'@' ics.uci.edu)

Informacin del Conjunto de datos:


Hay cuatroconjuntos de datosque representandiferentescondicionesdeun experimento.
Todos tienenlos mismos atributos.

a. adultostretch.datainfladoes ciertosi la edadadultao=act =tramo

b. adulto +stretch.datainfladoescierto sila edadadulta y=act =tramo

c. pequeayellow.datainfladoes cierto si(color=amarillo ysize =pequeo)o

d.pequeaamarilla+adultostretch.datainfladoes verdadera si(color=amarillo ysize


=pequeo) o (= edadadulta yact =estiramiento)

Informacin de los Atributos:


(ClasesinfladoT oF)

Color:amarillo, morado
Tamao: grande, pequeo
acto: estiramiento, inmersin
edad:adulto, nio
inflado: T, F

Documentosrelevantes:

Pazzani, M. (1991). The influence of prior knowledge on concept acquisition: Experimental


and computational results. Journal of Experimental Psychology: Learning,
Memory&Cognition, 17, 3, 416-432.
Documentos que citan este conjunto de datos:

Ron Kohavi and George H. John and Richard Long and David Manley and Karl Pfleger.
MLC++: A Machine Learning Library in C. ICTAI. 1994.

Citas:
Por favor,consulte elRepositoriode polticascitacinAprendizaje Automtico
Bank Marketing Data Set
Resumen: Los datos serelacionacon las campaasde marketing directo(llamadas
telefnicas) deuna institucin bancariaportuguesa.El objetivode clasificacines predecirsi
elcliente va asuscribirun depsito a plazo(variabley). datos utilizadospreviamente
enexperimento de psicologacognitiva, 4conjuntos de datosrepresentan
diferentescondicionesde un experimento
Caractersticas del 45211 Negocios
Nmero de
Conjunto de Multivariado rea:
instancias:
datos:

2012-02-
14
Caractersticas del Nmero de Fecha de
Real 17
atributo: atributos: Donacin

Nmero de 73510
Valores
Tareas asociadas: Clasificacin N/A accesos
perdidos?
Web:

Fuente:
[Moro et al., 2011] S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct
Marketing: An Application of the CRISP-DM Methodology. In P. Novais et al. (Eds.),
Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-
121, Guimaraes, Portugal, October, 2011. EUROSIS (http://hdl.handle.net/1822/14838)

Informacin del Conjunto de datos:


Los datos serelacionacon las campaasde marketing directodeuna institucin
bancariaportuguesa.Lascampaas de marketingsebasan enllamadas telefnicas.A
menudo,serequierems de un contactoaun mismo cliente, con el fin deaccedersi el
producto(depsito a plazo del banco) sera (o no) suscrito.

Hay dosconjuntos de datos:


1) bancofull.csvcontodos los ejemplos,por fecha(entre mayo de 2008 noviembre de 2010).
2) bank.csvcon un 10%de losejemplos (4521), seleccionados aleatoriamente de
bancofull.csv.
El conjunto de datosms pequeose ofrecepara probaralgoritmos de aprendizaje
automticomsexigentescomputacionalmente(por ejemploSVM).
El objetivode clasificacines predecirsi elcliente va asuscribirun depsito a
plazo(variabley).

Informacin de los Atributos:


Para obtener ms informacin, lea [ Moro et al. , 2011 ] .

Las variables de entrada :


# Datos de clientes del banco :
1 - edad ( numrico)
2 - Trabajo: tipo de trabajo ( categrica : "admin . " , "Desconocido" , "gestin" '
desempleados ', ' sirvienta ', ' empresario ', ' estudiante ' ,
' cuello azul ', ' autnomos ', ' retirado ' , , 'servicios' "tcnico" )
3 - Estado civil : estado civil ( categrica : ' casado ', ' divorciada ' , 'single' , cuenta: '
divorciada ' significa divorciado o viudo )
4 - Educacin ( categrica : "desconocido" , "secundaria" , "primario" , " terciaria" )
5 - por defecto: tiene crdito en mora ? ( binario: 's ', ' no')
6 - equilibrio : balance de promedio anual , en euros (numrico )
7 - vivienda : tiene crdito de vivienda ? ( binario: 's ', ' no')
8 - Prstamo : tiene un prstamo personal ? ( binario: 's ', ' no')
# Relacionada con el ltimo contacto de la campaa actual :
9 - contacto: tipo de contacto de comunicacin ( categrica : "desconocido" , "telfono" , "
celular " )
10 - das : ltimo da de contacto del mes (numrico )
11 - mes : ltimo contacto meses del ao ( categrica : ' enero ', ' febrero ', ' mar' , ..., '
noviembre ', ' diciembre ' )
12 - duracin : ltima duracin de contacto, en el segundo (numrico )
# Otros atributos:
13 - Campaa : nmero de contactos realizados durante esta campaa y para este cliente
(numrico , incluye ltimo contacto )
14 - pdays : nmero de das que pasaron despus de que el cliente fue la ltima en
contacto de una campaa anterior (numrico , -1 significa cliente no se contact
previamente )
15 - anterior : nmero de contactos realizados antes de esta campaa y para este cliente (
numrica)
16 - poutcome : resultado de la campaa de comercializacin anterior ( categrica :
"desconocido" , "otro" , "fracaso" , el "xito" )

Magnitud de salida ( objetivo deseado ) :


17 - y - el cliente ha suscrito un depsito a plazo ? ( binario: 's ', ' no')

Documentos relevantes:

El conjunto de datos completos fue descrito y analizado en:


S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An
Application of the CRISP-DM Methodology. In P. Novais et al. (Eds.), Proceedings of the
European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimaraes,
Portugal, October, 2011. EUROSIS.

Citas:
Este conjunto de datoses pblicadisponibles para la investigacin. Losdetalles se
describen en[Moro et al., 2011].
Por favor, incluyaesta citasitiene previsto utilizaresta base de datos:

[Moro etal., 2011] S.Moro, R. y P.LaureanoCortez. El uso dela minera de datospara


BankMarketing Directo: una aplicacin de la metodologaCRISP-DM.
En P.Novaisetal.(Eds.),Actas de laConferenciade SimulacinEuropeayModelado-
ESM'2011, pp117-121, Guimares, Portugal,octubre de 2011. Eurosis
banknote authentication Data Set 2013-04-16

Resumen:
Los datos se obtuvieron a partir de imgenes que fueron tomadas para la evaluacin de un
procedimiento de autenticacin para los billetes de banco.
Caractersticas del Computacin
Nmero de
Conjunto de Multivariable 1372 rea:
instancias:
datos:

2013-04-16
Caractersticas del Nmero de Fecha de
Real 5
atributo: atributos: Donacin

Nmero
8049
Valores de
Tareas asociadas: Clasificacin N/A
perdidos? accesos
Web:

Fuente: Propietario de la base de datos: Volker Lohweg (Universidad de Ciencias


Aplicadas Ostwestfalen-Lippe, volker.lohweg '@' hs-owl.de)
Donante de la base de datos: Helene D rksen (Universidad de Ciencias Aplicadas,
Ostwestfalen-Lippe, helene.doerksen '@' hs-owl.de)
Fecha de recepcin: agosto de 2012

Informacin del Conjunto de datos: Los datos fueron obtenidos a partir de imgenes
que fueron tomadas de genuino y forjaron especmenes de billetes similares. Para la
digitalizacin, se utiliz una cmara industrial por lo general utilizados para la inspeccin
de impresin. Las imgenes finales tienen 400x 400 pxeles. Debido a se ganaron la lente
objetivo y la distancia a los objetos de las imgenes en escala de grises investigados con
una resolucin de unos 660 dpi. Wavelet Transform herramienta se utiliza para extraer las
caractersticas de las imgenes.

Informacin de los Atributos:


1. imagen varianza de Wavelet Transformado (continua)
2. imagen asimetra de Wavelet Transformado (continua)
3. imagen curtosis de Wavelet Transformado (continua)
4. entropa de la imagen (continua)
5. clase (entero)

Documentos relevantes:
documento presentado (informacin ser subido lo antes posible)

Citas:
Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine

BLOGGER Data Set 2013-07-06


Resumen:
En este trabajo, se busca reconocer las causas de los usuarios tienden a espacio
ciberntico en Kohkiloye y Boyer Ahmad provincia en Irn.
Computacin
Caractersticas del Nmero de
Multivariable 100 rea:
Conjunto de datos: instancias:

2013-07-06
Caractersticas del Nmero de Fecha de
N/A 6
atributo: atributos: Donacin

Nmero
9950
Valores de
Tareas asociadas: Clasificacin N/A
perdidos? accesos
Web:

Fuente: http://www.ijcaonline.org/archives/volume47/number18/7291-0509

Informacin del Conjunto de datos:


En este trabajo, se busca reconocer las causas de los usuarios tienden al espacio
ciberntico en Kohkiloye y Boyer Ahmad en Provincia Irn. La recogida de informacin
para formar la base de datos se realiza mediante
cuestionario. Este cuestionario se proporciona como oral, escrita as como la
programacin de un sitio web que incluye un servicio de internet cuestionario y los
usuarios pueden responder a las preguntas, ya que
desee. Entraron en sus sitios web utilizados, blogs y sociales redes durante el da.
Despus de recoger los cuestionarios, las direcciones son casados reunida para obtener
los resultados esperados. Y, por ltimo, su confianza se comprueba mediante el anlisis
de sus pginas web utilizadas. Como los resultados eran iguales, para conseguir una
mejor respuesta y silencioso, se puesto en la base de datos.

Informacin de los Atributos:


Se consideraron los siguientes parmetros como preguntas : edad , la educacin, las
actitudes polticas , tema del blog , y el tipo de la identidad en Internet , la influencia de
managers ineficiencia en tendencia , el efecto de los medios de comunicacin
ineficiente en tendencia , los efectos de las condiciones sociales y polticas en tendencia y
finalmente, el efecto de la pobreza en la provincia de tendencia . la
datos ruidosos o demasiado detallados en la base de datos nos hace lejos de conseguir
respuestas apropiadas y adecuadas de algoritmos [ 8 ] . Nos preprocesado los datos y
eliminar algunos datos que no son relevantes .
Finalmente los siguientes son considerados como los principales mbitos que incluyen: la
educacin , el capricho poltico , temas , medios de comunicacin locales, volumen de
negocios ( LMT) y espacio local , poltica y social ( LPSS ) .
Los datos recogidos se muestran en la Tabla 1 .Con el fin de obtener la respuesta correcta
, clasificamos a los bloggers a dos grupos: los bloggers profesionales y de temporada
(temporal ) bloggers . Bloggers profesionales son aquellos que adoptan blog como un
medio digital de efectivo e interesados en la escritura digital en intervalos de tiempo
continuo. Los bloggers de temporada (temporal) Arena t profesional y seguir los blogs
en tiempo discret perodos . En este estudio, se revisan los factores de tendencia
considerando si estas personas se encuentran entre profesionales bloggers ( bloggers pro
, PB ) y, a continuacin , considerar al otro factores de acuerdo con ella.

Documentos relevantes:
FS GHAREHCHOPOGH, SRKHAZE, 'Aplicacin de minera de datos para la Tendencia
Cyber Space en la escritura de blog: A Case Studya , Revista Internacional de
Aplicaciones Informticas (IJCA), vol:?? 47, n 18, pp: 40-46 de Julio del 2012 .

Citas: Si usted no tiene ninguna peticin de citas especiales, por favor, deje este campo
en blanco.
Bike Sharing Dataset Data Set 2013-12-20

Resumen:
Este conjunto de datos contiene el nmero de hora y da de alquiler de bicicletas entre los
aos 2011 y 2012 en el sistema de Bikeshare capital con el clima y la informacin
correspondiente de temporada.
Social
Caractersticas del Nmero de
Univariante 17389 rea:
Conjunto de datos: instancias:

2013-12-20
Caractersticas del Entero, Nmero de Fecha de
16
atributo: Real atributos: Donacin

Nmero
8789
Valores de
Tareas asociadas: Regresin N/A
perdidos? accesos
Web:

Fuente:
Laboratorio de Inteligencia Artificial y Apoyo de Decisiones (LIAAD), Universidad de Porto
INESC Porto, Campus da FEUP
Rua Dr. Roberto Fras, 378
4200 - 465 Oporto, Portugal

Fuente original: http://capitalbikeshare.com/system-data


Informacin del tiempo: http://www.freemeteo.com
Calendario de vacaciones: http://dchr.dc.gov/page/holiday-schedule

Informacin del Conjunto de datos:


Sistemas de intercambio de bicicletas son la nueva generacin de renta de bicicletas
tradicionales, donde todo el proceso de la pertenencia , de alquiler y volver ha convertido
en automtica. A travs de estos sistemas , el usuario es capaz de alquilar fcilmente una
bicicleta en una posicin determinada y volver en otra posicin . En la actualidad, hay
alrededor de ms de 500 programas de intercambio de bicicletas en todo el mundo , que
se compone de ms de 500 mil bicicletas. Hoy en da , existe un gran inters en estos
sistemas debido a su importante papel en el trfico, los problemas ambientales y de salud.

Adems de interesantes aplicaciones del mundo real de los sistemas de intercambio de


bicicletas , las caractersticas de los datos que estn siendo generados por estos sistemas
los hacen atractivos para la investigacin. A diferencia de otros servicios de transporte
como el autobs o el metro , la duracin de los viajes , la posicin de salida y llegada se
registra explcitamente en estos sistemas. Esta caracterstica resulta sistema de
intercambio de bicicletas en una red de sensor virtual que puede ser utilizado para
detectar la movilidad en la ciudad . Por lo tanto , se espera que la mayora de los eventos
importantes de la ciudad se pudo detectar a travs de seguimiento de estos datos .

Informacin de los Atributos:


Tanto hour.csv y day.csv tienen los siguientes campos , excepto hr que no est disponible
en day.csv

- Instantnea : ndice de registro


- Dteday : Fecha
- Temporada : Temporada ( 1 : saltador, 2 : verano, 3 : cada , 4: invierno)
- Ao : ao ( 0 : 2011, 1:2012 )
- Mnth : mes (1 a 12 )
- Hr: horas (0 a 23)
- Vacaciones : da de tiempo es la fiesta o no ( extrado de [Web Link] )
- Da de la semana : das de la semana
- Jornada de trabajo : si el da no es ni fin de semana ni vacaciones es 1 , de lo contrario
es 0 .
+ Weathersit :
- 1 : Claro, pocas nubes , Soleado, Parcialmente nublado
- 2 : Bruma + nublado , Bruma + Cielo nuboso , Neblina + Escasas nubes , niebla
- 3 : Soleado , Nublado + Tormenta nubes + dispersas , lluvia ligera nubes dispersas +
- 4 : Heavy Rain + Ice Pallets + + Tormenta Niebla , Nieve + Fog
- Temperatura : la temperatura normalizada en Celsius. Los valores se dividen al 41 ( max)
- Atemp : temperatura de sensacin normalizada en grados Celsius . Los valores se
dividen al 50 ( max)
- Hum : Humedad normalizado . Los valores se dividen al 100 ( max)
- Velocidad del viento : velocidad del viento normalizada . Los valores se dividen al 67 (
max)
- Informal : la cuenta de los usuarios ocasionales
- Registrada : recuento de usuarios registrados
- Cnt : Conteo de las bicicletas de alquiler total , incluyendo tanto casual y registrado

Documentos relevantes:
Fanaee-T, Hadi, y Gama, Joao, etiquetado Evento combinando detectores de conjunto y
el conocimiento de fondo", Avances en Inteligencia Artificial (2013): pp 1-15, Springer
Berlin Heidelberg

Citas:
Fanaee-T, Hadi, y Gama, Joao, etiquetado Evento combinando detectores de conjunto y
el conocimiento de fondo", Avances en Inteligencia Artificial (2013): pp 1-15, Springer
Berlin Heidelberg, [Web Link].

@ article {
ao = {2013},
ISSN = {2192-6352},
journal = {Avances en Inteligencia Artificial},
doi = {} 10.1007/s13748-013-0040-3,
title = {etiquetado Evento combinando detectores de conjunto y el conocimiento de fondo},
url = {[Web Link]},
publisher = {} Springer Berlin Heidelberg,
keywords = {etiquetado de eventos, deteccin de eventos, el aprendizaje Ensemble;
Conocimientos previos},
author = {Fanaee-T, Hadi y Gama, Joao},
pages = {1-15}
}
Blood Transfusion Service Center 2008-10-03
Data Set

Resumen:
Datos tomados del Centro de Transfusin de Sangre de servicios en Hsin-Chu City en
Taiwn - se trata de un problema de clasificacin..
Negocios
Caractersticas del Nmero de
Multivariable 748 rea:
Conjunto de datos: instancias:

2008-10-03
Caractersticas del Nmero de Fecha de
Real 5
atributo: atributos: Donacin

Nmero
71382
Valores de
Tareas asociadas: Clasificacin N/A
perdidos? accesos
Web:

Fuente:
Propietario original y Donantes
Prof. I-Cheng Yeh
Departamento de Gestin de la Informacin
Chung-Hua Universidad,
Hsin Chu, Taiwn 30067, R.O.C.
e-mail: Icyeh '@' chu.edu.tw
TEL :886-3-5186511

Fecha donado: 03 de octubre 2008

Informacin del Conjunto de datos: Para demostrar el modelo de comercializacin


RFMTC (una versin modificada de RFM), este estudio adopt la base de datos de
donantes de sangre del Centro de Transfusin de servicio en Hsin-Chu City en Taiwn. El
centro de sus pases de bus de servicios de transfusin de sangre a una universidad en
Hsin-Chu City para recoger las donaciones de sangre cada tres meses. Para construir un
modelo FRMTC, se seleccionaron 748 donantes al azar de la base de datos de donantes.
Estos datos del donante 748, cada uno incluido R (actualidad - meses desde la ltima
donacin), F (Frecuencia - nmero total de la donacin), M (Monetario - total de la sangre
donada en cc), T (Tiempo - mes desde la primera donacin), y una variable binaria que
representa si l / ella don sangre en marzo de 2007 (1 soporte para la donacin de
sangre, 0 para no donar sangre).

Informacin de los Atributos: Teniendo en cuenta es el nombre de la variable , tipo de


variable , la unidad de medida y una breve descripcin . El " Centro de Servicio de
Transfusin de Sangre " es un problema de clasificacin . El fin de este anuncio
corresponde con el orden de los nmeros a lo largo de las filas de la base de datos .

R (actualidad - meses desde la ltima donacin) ,


F ( Frecuencia - nmero total de la donacin ) ,
M ( monetaria - total de la sangre donada en C.C. ) ,
T ( Time - meses desde la primera donacin) , y
una variable binaria que representa si l / ella don sangre en marzo de 2007 ( 1 soporte
para la donacin de sangre, 0 para no donar sangre ) .
La Tabla 1 muestra la estadstica descriptiva de los datos. Hemos seleccionado los datos
500 al azar como el conjunto de entrenamiento , y el resto 248 como el conjunto de
pruebas .

Tabla 1 . Estadstica descriptiva de los datos

Variable Tipo de datos Descripcin Medida min max significa std


Fecha reciente Meses cuantitativos de entrada 0,03 74,4 9,74 8,07
Frecuencia tiempos cuantitativos Entrada 1 50 5.51 5.84
C.C. cuantitativa Monetario Entrada de sangre 250 12500 1,378.68 1,459.83
Tiempo Meses cuantitativos de entrada 2,27 98,3 34,42 24,32
Si l / ella don sangre 03 2007 binario 1 = si 0 = no hay salida 0 1 1 ( 24 % ) 0 ( 76 %)

Documentos relevantes: Yeh, I-Cheng, Yang, King-Jang, y Ting, Tao-Ming,


"Descubrimiento de conocimiento en el modelo RFM utilizando la secuencia de Bernoulli,"
Expert Systems with Applications, 2008.

Citas:
NOTE: Reuse of this database is unlimited with retention of copyright notice for Prof. I-
Cheng Yeh and the following published paper:

Yeh, I-Cheng, Yang, King-Jang, and Ting, Tao-Ming, "Knowledge discovery on RFM model
using Bernoulli sequence, "Expert Systems with Applications, 2008,
1988-07-11

Breast Cancer Data Set


Resumen:
Datos tomados del Centro de Transfusin de Sangre de servicios en Hsin-Chu City en
Taiwn - se trata de un problema de clasificacin..
Vida
Caractersticas del Nmero de
Multivariable 286 rea:
Conjunto de datos: instancias:

1988-07-11
Caractersticas del Nmero de Fecha de
Categricos 9
atributo: atributos: Donacin

Nmero
108124
Valores de
Tareas asociadas: Clasificacin Yes
perdidos? accesos
Web:

Fuente:
Creadores:

Matjaz Zwitter & Milan Soklic (mdicos)


Instituto de Oncologa
University Medical Center
Ljubljana, Yugoslavia

donantes:
Ming Tan y Jeff Schlimmer (Jeffrey.Schlimmer '@' a.gp.cs.cmu.edu)

Informacin del Conjunto de datos: Este es uno de los tres dominios proporcionados
por el Instituto de Oncologa que ha aparecido repetidamente en la literatura de
aprendizaje de mquina. (Ver tambin la linfografa y-tumor primario.)

Este conjunto de datos incluye 201 casos de una clase y 85 casos de otra clase. Los
casos son descritos por 9 atributos, algunos de los cuales son lineales y algunos son
nominales.

Informacin de los Atributos:


1. Clase: sin recurrencia: eventos, eventos de recurrencia
2. edad: 10-19, 20-29, 30-39, 40-49, 50-59, 60-69, 70-79, 80-89, 90-99.
3. menopausia: LT40, GE40, premenopusicas.
4. tumor de tamao: 0-4, 5-9, 10-14, 15-19, 20-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-
54, 55 - 59.
5. INV-nodos: 0-2, 3-5, 6-8, 9-11, 12-14, 15-17, 18-20, 21-23, 24-26, 27-29, 30-32, 33 - 35,
36-39.
6. node-caps: s, no.
7. -grados malignidad: 1, 2, 3.
8. pecho: izquierda, derecha.
9. dando de quad: izquierda-arriba, izquierda-baja, a la derecha-arriba, derecha baja,
central.
10. irradiados: s, no.
Documentos relevantes:
Michalski , R. S. , Mozetic , I., Hong , J., y Lavrac , N. ( 1986 ) . El Multi -Purpose
Incremental Learning System AQ15 y su Aplicacin de pruebas de tres dominios de
Medicina . En Actas de la V Conferencia Nacional sobre Inteligencia Artificial , 1041-1045 ,
Philadelphia , PA : Morgan Kaufmann .
Clark , P. Y Niblett , T. ( 1987 ) . Induccin en Noisy Dominios . En curso de aprendizaje de
la mquina (de las Actas de la 2 Sesin europea de Trabajo sobre el Aprendizaje ) , 11-
30 , Bled , Yugoslavia : Sigma Press.
Tan, M., y Eshelman , L. ( 1988 ) . El uso de redes ponderados para representar el
conocimiento clasificacin en dominios ruidosos. Actas de la Quinta Conferencia
Internacional sobre Aprendizaje Automtico , 121-134 , Ann Arbor , MI .
Cestnik , G., Konenenko , I, y Bratko , I. ( 1987 ) . Asistente -86 : Un Conocimiento
Elicitation herramienta para usuarios avanzados . En I.Bratko y N.Lavrac ( Eds. ) Avances
en Aprendizaje Automtico , 31-45 , Sigma Press.
Documentos que citan este conjunto de datos.

Igor Fischer y Jan Polonia. Amplificar la estructura de la matriz de bloques para Espectral
Clustering. Laboratorio de Telecomunicaciones . 2005 . [Ver Contexto ] .

Saher Esmeir y Sal Markovitch . Algoritmos basados en la bsqueda hacia delante para
en cualquier momento de la induccin de rboles de decisin . ICML . 2004 . [Ver Contexto
].

Gavin Brown. La diversidad en Neuronales Conjuntos de red. La Universidad de


Birmingham. 2004 . [Ver Contexto ] .

Kaizhu Huang y Yang Haiqin e Irwin Rey y Michael R. Lyu y Laiwan Chan. Sesgo Machine
Probabilidad Minimax para el diagnstico mdico . AMAI . 2004 . [Ver Contexto ] .

Qingping Tao Ph. D. HACIENDO algoritmos de aprendizaje EFICIENTES CON


EXPONENCIALMENTE muchas caractersticas. Qingping Tao una disertacin Facultad de
El Colegio de Graduados de la Universidad de Nebraska en cumplimiento parcial de los
requisitos . 2004 . [Ver Contexto ] .

Krzysztof Grabczewski y Wl / odzisl / aw Duch. Los bosques heterogneos de rboles de


decisin . ICANN. 2002 . [Ver Contexto ] .

Hussein A. Abbass . Un enfoque de redes neuronales artificiales evolutivo para el


diagnstico del cncer de mama. Inteligencia Artificial en Medicina , 25 . 2002 . [Ver
Contexto ] .

Fei Sha y Lawrence K. Sal y Daniel D. Lee. Actualizaciones multiplicativos para


programacin cuadrtica Nonnegative en Mquinas de Vectores Soporte. PNI. 2002 . [Ver
Contexto ] .

Kristin P. Bennett y Ayhan Demiriz y Richard Maclin . La explotacin de los datos no


marcados en los mtodos del conjunto. KDD . 2002 . [Ver Contexto ] .

Baback Moghaddam y Gregory Shakhnarovich . Impulsado didicas Kernel discriminantes


. PNI. 2002 . [Ver Contexto ] .

Andrs Antos y Balzs Kgl y Tams Linder y Gbor Lugosi . Generalizacin basada
margin- dependiente de los datos limita para la clasificacin. Journal of Machine Learning
Research , 3 . 2002 . [Ver Contexto ] .
Michael G. Madden. Evaluacin del Desempeo de la cadena de Markov clasificador
bayesiano Algoritmo . CoRR , csLG/0211003 . 2002 . [Ver Contexto ] .

Yongmei Wang y Ian H. Witten . Modelado de probabilidad de prediccin ptima . ICML .


2002 . [Ver Contexto ] .

Remco R. Bouckaert . Precisin limita para conjuntos bajo 0 { 1 derrota . Xtal Montaa
Tecnologa de la Informacin y Departamento de Ciencias de la Computacin de la
Universidad de Waikato . 2002 . [Ver Contexto ] .

Nikunj C. Oza y Stuart J. Russell. Comparaciones experimentales de las versiones en


lnea y por lotes de embolsado y potenciar . KDD . 2001 . [Ver Contexto ] .

Bernhard Pfahringer y Geoffrey Holmes y Richard Kirkby . Optimizacin de la induccin de


la alternancia de rboles de decisin . PAKDD . 2001 . [Ver Contexto ] .

Robert Burbidge y Matthew Trotter y Bernard F. Buxton y Sean B. Holden. STAR - Sparsity
travs Rechazo automatizado . IWANN ( 1 ) . 2001 . [Ver Contexto ] .

Bernhard Pfahringer y Geoffrey Holmes y Gabi Schmidberger . Envolviendo Boosters


contra ruido . Australiana Conferencia Conjunta sobre Inteligencia Artificial. 2001 . [Ver
Contexto ] .

W. Nick Street y Yoo- Hyon Kim. Un conjunto algoritmo de secuencias ( SEA ) para la
clasificacin de gran escala. KDD . 2001 . [Ver Contexto ] .

Lorne Mason y Peter L. Bartlett y Jonathan Baxter. Mejora Generalizacin travs de la


optimizacin explcita de Mrgenes. Aprendizaje Automtico , 38. 2000 . [Ver Contexto ] .

Endre Boros y Peter Hammer y Toshihide Ibaraki y Alexander Kogan y Eddy Mayoraz e
Ilya B. Muchnik . Una Aplicacin del anlisis lgico de datos . IEEE Trans . Conocimiento .
Datos Eng, 12 . 2000 . [Ver Contexto ] .

P. S y Bradley K. P y Bennett A. Demiriz . Constreido conglomerados K-means .


Microsoft Research Dept. de Ciencias Matemticas One Microsoft Way Departamento de
Ciencias de la Decisin y el Ing. . Sys . 2000 . [Ver Contexto ] .

Sally A. Goldman y Yan Zhou. La mejora de Aprendizaje Supervisado con datos sin
etiqueta . ICML . 2000 . [Ver Contexto ] .

Justin Bradley y Kristin P. Bennett y Bennett A. Demiriz . Constreido conglomerados K-


means . Microsoft Research Dept. de Ciencias Matemticas One Microsoft Way
Departamento de Ciencias de la Decisin y el Ing. . Sys . 2000 . [Ver Contexto ] .

Yuh- Jeng Lee. Alise Mquinas de Vectores Soporte . Propuesta Preliminar Tesis
Computer Sciences Department de la Universidad de Wisconsin. 2000 . [Ver Contexto ] .

Petri Kontkanen y Petri Myllym y Tomi Silander y Henry Tirri y Peter Gr . En las
distribuciones predictivas y las redes bayesianas . Departamento de Ciencias de la
Computacin de la Universidad de Stanford. 2000 . [Ver Contexto ] .

Kristin P. Bennett y Ayhan Demiriz y John Shawe -Taylor . A Columna algoritmo de


generacin para impulsar . ICML . 2000 . [Ver Contexto ] .

Mateo Mullin y Rahul Sukthankar . Validacin cruzada completa para clasificadores vecino
ms cercano . ICML . 2000 . [Ver Contexto ] .
Chun -Nan Hsu y Hilmar Schuschel y Ya- Ting Yang. El Enfoque ANNIGMA - Envoltura
con Redes Neuronales funcin de seleccin de Descubrimiento de Conocimiento y Minera
de Datos . Instituto de Ciencias de la Informacin . 1999 . [Ver Contexto ] .

David M J Tax y Robert P W Duin . Apoyar descripcin del dominio del vector. Pattern
Recognition Letters , 20 . 1999 . [Ver Contexto ] .

Kai Ming Ting y Ian H. Witten . Problemas en Stacked generalizacin. J. Artif . Intell . Res. .
( JAIR , 10 . 1999 . [Ver Contexto ] .

Ismail Taha y Joydeep Ghosh . Interpretacin simblica de las Redes Neuronales


Artificiales . IEEE Trans . Conocimiento . Datos Eng, 11 . 1999 . [Ver Contexto ] .

Lorne Mason y Jonathan Baxter y Peter L. Bartlett y Marcus Frean . Impulsar Algoritmos
como Gradient Descent . PNI. 1999 . [Ver Contexto ] .

Iaki Inza y Pedro Larraaga y Basilio Sierra y Ramn Etxeberria y Jos Antonio Lozano y
Jos Manuel Pea. En representacin del comportamiento de los algoritmos de
aprendizaje de clasificacin supervisada por redes bayesianas . Pattern Recognition
Letters , 20 . 1999 . [Ver Contexto ] .

David W. Opitz y Richard Maclin . Populares Ensemble Mtodos: Un estudio emprico . J.


Artif . Intell . Res. . ( JAIR , 11 . 1999 . [Ver Contexto ] .

Lorne Mason y Peter L. Bartlett y Jonathan Baxter. Optimizacin directo de Mrgenes


Mejora Generalizacin en clasificadores combinados . PNI. 1998 . [Ver Contexto ] .

Richard Maclin . Impulsar Clasificadores nivel regional . AAAI / IAAI . 1998 . [Ver Contexto
].

Huan Liu y Hiroshi Motoda y Manoranjan Dash. A Medida Monotnica ptima Seleccin
de caractersticas. ECML . 1998 . [Ver Contexto ] .

Yk Huhtala y Juha Krkkinen y Pasi Porkka y Hannu Toivonen . Descubrimiento eficiente


de las dependencias funcionales y aproximadas utilizando particiones . ICDE . 1998 . [Ver
Contexto ] .

W. Nick Street. Un modelo de red neuronal para la prediccin pronstica . ICML . 1998 .
[Ver Contexto ] .

Kristin P. Bennett y Erin J. Bredensteiner . Un mtodo paramtrico Optimizacin de


Aprendizaje Automtico . INFORMA Journal on Computing, 9 . 1997 . [Ver Contexto ] .

Pedro Domingos . Control- Sensible Seleccin de caractersticas para los Estudiantes de


Lazy . Artif . Intell . Rev , 11 . 1997 . [Ver Contexto ] .

Rudy Setiono y Huan Liu. NeuroLinear : De redes neuronales para las reglas de decisin
oblicuos. Neurocomputing , 17 . 1997 . [Ver Contexto ] .

. Seleccin Prototipo para compuestos Clasificadores vecino ms cercano . Departamento


de Informtica Universidad de Massachusetts. 1997 . [Ver Contexto ] .

Ismail Taha y Joydeep Ghosh . Caracterizacin de la Wisconsin El cncer de mama base


de datos mediante un sistema simblico - conexionista hbrido . Actas de Annie. 1996 .
[Ver Contexto ] .

Kamal Ali y Michael J. Pazzani . Reduccin de errores a travs del aprendizaje mltiples
descripciones. Aprendizaje Automtico , 24 . 1996 . [Ver Contexto ] .

Jennifer A. Azul y Kristin P. Bennett. Hbrido Extreme Point Bsqueda Tab .


Departamento de Ciencias Matemticas del Instituto Politcnico Rensselaer . 1996 . [Ver
Contexto ] .

Pedro Domingos . Unifying Instancia basada e induccin basada en reglas . Aprendizaje


Automtico , 24 . 1996 . [Ver Contexto ] .

Erin J. Bredensteiner y Kristin P. Bennett. Caracterstica Minimizacin en rboles de


decisin . Fundacin Nacional de Ciencia. 1996 . [Ver Contexto ] .

Geoffrey I. Webb. OPUS : Un Algoritmo admisible Eficiente para Unordered Buscar . J.


Artif . Intell . Res. . ( JAIR , 3 . 1995 . [Ver Contexto ] .

Christophe Giraud y Tony Martnez y Christophe G. Giraud -Carrier . Universidad del


Departamento de Ciencias de la Computacin de la ILA Bristol: Combinar inductivo de
aprendizaje con el conocimiento previo y razonamiento . 1995 . [Ver Contexto ] .

Ron Kohavi . Un estudio de la validacin cruzada y Bootstrap para la Precisin Estimacin


y seleccin del modelo . IJCAI . 1995 . [Ver Contexto ] .

Rong -En Fan y P. Chen -H y C -J Lin. Conjunto de trabajo de seleccin utilizando la


segunda informacin de la orden para la Formacin SVM . Departamento de Ciencias de
la Computacin e Ingeniera de la Informacin de la Universidad Nacional de Taiwn . [Ver
Contexto ] .

Rong Jin Yan y Liu y Luo Si y Jaime Carbonell y Alexander G. Hauptmann . Un Nuevo
Impulso algoritmo utilizando regularizador Input- Dependiente. Facultad de Ciencias de la
Computacin , de la Universidad Carnegie Mellon. [Ver Contexto ] .

David Kwartowitz y Sean Brophy y Horace Mann. Sesin S2D Work In Progress : El
establecimiento de mltiples contextos de refinamiento progresivo de los estudiantes de la
minera de datos. [Ver Contexto ] .

Geoffrey I Webb. La generalidad es ms significativa que la complejidad: Hacia una


alternativa a la navaja de Occam . Facultad de Informtica y Matemticas de la
Universidad de Deakin . [Ver Contexto ] .

Karthik Ramakrishnan . UNIVERSIDAD DE MINNESOTA . [Ver Contexto ] .

Geoffrey I Webb. Aprender Listas de decisin anteponiendo Reglas inferidos . Facultad de


Informtica y Matemticas de la Universidad de Deakin . [Ver Contexto ] .

Adil M. Bagirov y Alex Rubinov y AN Soukhojak y John Yearwood . Clasificacin de datos


no supervisada y supervisada a travs de no lisos y optimizacin global. Escuela de
Tecnologa de la Informacin y Ciencias Matemticas de la Universidad de Ballarat . [Ver
Contexto ] .

MV Fidelis y Heitor S. Lopes y Alex Alves Freitas . Descubriendo comprensibles Reglas de


clasificacin con un Algoritmo Gentico . UEPG , CPD CEFET -PR , CPGEI PUC- PR ,
PPGIA Praa Santos Andrade, s / n Av . Sete de Setembro . [Ver Contexto ] .

Chris Drummond y Robert C. Holte . C4.5 , desequilibrio de clases , y costo Sensibilidad:


Por qu sub- muestreo late sobremuestreo . Instituto para la Tecnologa de la
Informacin , el Consejo de Investigacin Nacional de Canad. [Ver Contexto ] .
Wl odzisl / aw Duch y Rudy Setiono y Jacek M. Zurada . Mtodos de inteligencia
computacional para la comprensin de datos basado en normas . [Ver Contexto ] .

Maria Salamo y Elisabet Golobardes . El anlisis de los mtodos de ponderacin Rough


Sets de Razonamiento Basado en Casos Systems. Enginyeria i Arquitectura La Salle. [Ver
Contexto ] .

G. Ratsch y B. Scholkopf y Alex Smola y K. Muller -R y T. Onoda y Sebastian Mika . Arco :


Conjunto de Aprendizaje en la presencia de valores atpicos . GMD PRIMERO. [Ver
Contexto ] .

D. Randall Wilson y Roel Martinez . Mejora Seleccin Center Point para probabilsticos
Redes Neuronales . Actas de la Conferencia Internacional sobre Redes Neuronales
Artificiales y Algoritmos Genticos . [Ver Contexto ] .

Chiranjib Bhattacharyya . Clasificacin robusta de datos ruidosos utilizando el enfoque de


programacin Segunda Cono Orden. Dpto. Informtica y Automtica , Instituto Indio de
Ciencia . [Ver Contexto ] .

K. A. J Doherty y Rolf Adams y Neil Davey . Aprendizaje no supervisado con Normalizado


de Datos y no euclidianas Normas. Universidad de Hertfordshire. [Ver Contexto ] .

Adam H. Cannon y Lenore J. Cowen y Carey E. Priebe . Clasificacin Distancia


aproximada. Departamento de Ciencias Matemticas de la Universidad Johns Hopkins.
[Ver Contexto ] .

G. Ratsch y B. Scholkopf y Alex Smola y Sebastian Mika y T. Onoda y K. -R Muller.


Robusto Aprendizaje Ensemble for Data Mining. GMD PRIMERA , Kekul # estr . [Ver
Contexto ] .

Andrew I. Schein y Lyle H. Ungar . A- optimalidad para el Aprendizaje Activo de regresin


logstica de los clasificadores . Departamento de Informtica y Ciencias de la Informacin
Levine Hall. [Ver Contexto ] .

Huan Liu. Una familia de generadores de reglas eficientes . Departamento de Sistemas


Informticos y la Universidad Nacional de Ciencias de la Computacin de Singapur. [Ver
Contexto ] .

Alexander K. Seewald . Disertacin hacia la comprensin de apilamiento Los estudios de


un general Ensemble Aprendizaje Esquema ausgefuhrt zum Zwecke der Erlangung des
akademischen Grados eines der Doktors technischen Naturwissenschaften . [Ver Contexto
].

Rafael S. Parpinelli y Heitor S. Lopes y Alex Alves Freitas . CUARTA PARTE :


OPTIMIZACIN colonia de hormigas e Inmunolgico Captulo X Una colonia de hormigas
algoritmo para la Clasificacin Regla Discovery. CEFET -PR , Curitiba . [Ver Contexto ] .

Paul D. Wilson y Tony R. Martnez. Combinar la validacin cruzada y Confianza medir la


aptitud . corporacin fonix la Universidad Brigham Young. [Ver Contexto ] .

Charles Campbell y Nello Cristianini . Algoritmos de aprendizaje simples para Mquinas de


Vectores Soporte Entrenamiento. Departamento de Ingeniera Matemtica . [Ver Contexto
].

Nikunj C. Oza y Stuart J. Russell. Embolsado en lnea e impulsar . Divisin de Ciencias de


la Computacin de la Universidad de California. [Ver Contexto ] .
Michael R. Berthold y Klaus - Peter Huber. Desde Radial para Funciones de Base
Rectangular : Un nuevo enfoque para la Regla Aprendiendo de grandes conjuntos de
datos . Institut fur Rechnerentwurf und Fehlertoleranz (Prof. D. Schmid ) Universitat
Karlsruhe. [Ver Contexto ] .

Bart Baesens y Stijn Viaene y Tony Van Gestel y JA K Suykens y Guido Dedene y Bart De
Moor y Jan VANTHIENEN y Universidad Catlica de Lovaina . Estudio emprico de tipo
Kernel Desempeo de Mnimos Cuadrados Apoyo Vector Machine clasificadores . Dept.
Aplicadas Ciencias Econmicas . [Ver Contexto ] .

Rudy Setiono y Huan Liu. Selector de funciones neuronales de la red . Departamento de


Sistemas Informticos y la Universidad Nacional de Ciencias de la Computacin de
Singapur. [Ver Contexto ] .

Rafael S. Parpinelli y Heitor S. Lopes y Alex Alves Freitas . Un sistema basado en Colonia
de Hormigas para minera de datos : Aplicaciones a los datos mdicos . CEFET -PR ,
CPGEI Av . Sete de Setembro, 3165 . [Ver Contexto ] .

Wl odzisl y Rafal Adamczak y Krzysztof Grzegorz Grabczewski y Zal . Un mtodo hbrido


para la extraccin de reglas lgicas de datos . Departamento de Mtodos
Computacionales , Universidad Nicols Coprnico. [Ver Contexto ] .

Jarkko Salojrvi y Samuel Kaski y Janne Sinkkonen . Clustering discriminativo en las


mtricas de Fisher. Redes Neuronales Research Centre Helsinki University of Technology.
[Ver Contexto ] .

Rudy Setiono . La extraccin de M- de -N Normas de Capacitacin de Redes Neuronales .


Escuela de la Universidad Nacional de Computacin de Singapur. [Ver Contexto ] .

Ayhan Demiriz y Kristin P. Bennett y John Shawe y yo Nouretdinov V. . Programacin


Lineal Impulsar a travs de la generacin de columnas . Departamento de Ciencias de la
Decisin y el Ing. . Sistemas , el Instituto Politcnico Rensselaer . [Ver Contexto ] .

Liping Wei y Russ B. Altman. Un sistema automatizado para la generacin de perfiles


comparativo de Enfermedades y hacer diagnsticos . Seccin de Informtica Universidad
de Stanford Escuela de Medicina de Medicina, MSOB X215 . [Ver Contexto ] .

Chotirat Ann y Dimitrios Gunopulos . La ampliacin de la Ingenuo clasificador bayesiano :


Utilizacin de rboles de decisin para la Seleccin de caractersticas. Departamento de
Ciencias de la Computacin de la Universidad de California. [Ver Contexto ] .

Sherrie L. W y Zijian Zheng. UN REFERENTE PARA CLASIFICADOR DE APRENDIZAJE


. Departamento Basser de Ciencias de la Computacin de la Universidad de Sydney. [Ver
Contexto ] .

John W. Chinneck . Heursticos rpidos para el Problema mxima Subsistema factible.


Ingeniera de Sistemas y Computacin, Universidad de Carleton. [Ver Contexto ] .

M. A. Galway y Michael G. Madden. DEPARTAMENTO DE TECNOLOGA DE LA


INFORMACIN informe tcnico NUIG -IT- 011002 Evaluacin del Desempeo de la
cadena de Markov clasificador bayesiano Algoritmo . Departamento de Tecnologa de la
Informacin de la Universidad Nacional de Irlanda, Galway. [Ver Contexto ] .

John G. Cleary y Leonard E. Trigg . Las experiencias con el OB 1 , una decisin ptima
Bayes Tree alumno. Departamento de Informtica Universidad de Waikato . [Ver Contexto
].
Wl / odzisl / aw Duch y Rafal / Adamczak Email: duchraad @ fs . uni . Torun . pl. Mtodos
estadsticos para la construccin de las redes neuronales . Departamento de Mtodos
Computacionales , Universidad Nicols Coprnico

Citas:
Este dominio del cncer de mama se obtuvo del Centro Mdico de la Universidad, Instituto
de Oncologa, Ljubljana, Yugoslavia. Damos las gracias a M. y M. Zwitter Soklic de
proporcionar los datos. Por favor, incluya esta cita si tiene previsto utilizar esta base de
datos.
Breast Cancer Wisconsin (Original) Data Set 1992-07-15

Resumen:
Base de datos Wisconsin Breast Cancer original.
Vida
Caractersticas del Nmero de
Multivariable 699 rea:
Conjunto de datos: instancias:

1992-07-15
Caractersticas del Nmero de Fecha de
Entero 10
atributo: atributos: Donacin

Nmero
112739
Valores de
Tareas asociadas: Clasificacin Yes
perdidos? accesos
Web:

Fuente:
Creador:

El Dr. William H. Wolberg (mdico)


Universidad de Wisconsin Hospitales
Madison, Wisconsin, EE.UU.

Donante:

Olvi Mangasarian (Mangasarian '@' cs.wisc.edu)


Recibido por David W. Aha (aha '@' cs.jhu.edu)

Informacin del Conjunto de datos: Las muestras llegan peridicamente segn informa
el Dr. Wolberg sus casos clnicos. Por consiguiente, la base de datos refleja esta
agrupacin cronolgica de los datos . Esta informacin de agrupacin aparece
inmediatamente a continuacin , despus de haber sido retirado de los datos en s :

Grupo 1: 367 casos (enero , 1989)


Grupo 2: 70 casos (octubre 1989)
Grupo 3: 31 casos ( febrero de 1990)
Grupo 4: 17 casos ( abril de 1990)
Grupo 5: 48 casos ( agosto de 1990)
Grupo 6: 49 casos ( Actualizado en enero de 1991)
Grupo 7: 31 casos ( junio de 1991)
Grupo 8: 86 casos ( noviembre de 1991)
-----------------------------------------
Total: 699 puntos ( a partir de la datbase donado el 15 de julio de 1992)

Tenga en cuenta que los resultados sealados en uso en el pasado se refieren a un


conjunto de datos de tamao de 369, mientras que el Grupo 1 tiene slo 367 casos . Esto
es debido a que contena originalmente 369 casos ; 2 fueron retirados . Las siguientes
declaraciones resume los cambios en el original conjunto de datos del Grupo 1 :

# # # # # Grupo 1: 367 puntos: 200B 167M (enero de 1989)


# # # # # Revisada 10 de enero 1991 : se ha sustituido cero ncleos desnudos en 1080185
y 1187805

# # # # # Revisado noviembre 22,1991 : Eliminada 765878,4,5,9,7,10,10,10,3,8,1 ningn


registro
# # # # # : Eliminada 484201,2,7,8,8,4,3,10,3,4,1 cero epitelial
# # # # # : Se ha cambiado de 0 a 1 en el campo 6 de la muestra 1219406
# # # # # : Se ha cambiado de 0 a 1 en el campo 8 del siguiente ejemplo :
# # # # #: 1182404,2,3,1,1,1,2,0,1,1,1

Informacin de los Atributos:


1. Nmero de cdigo de la muestra: nmero de identificacin
2. Espesor Macizo: 1 - 10
3. Uniformidad de Tamao de celda: 1 - 10
4. La uniformidad de la forma celular: 1 - 10
5. Adhesin Marginal: 1 - 10
6. Soltero epitelial Tamao de celda: 1 - 10
7. Bare Nucleos: 1 - 10
8. La cromatina de Bland: 1 - 10
9. Nucleolos normal: 1 - 10
10. Mitosis: 1 - 10
11. Clase: (2 para benigna, 4 para maligna)

Documentos relevantes:
Wolberg, W. H., y Mangasarian, O.L. (1990). Mtodo MultiSurface de separacin patrn
para el diagnstico mdico aplicado a la citologa de mama. En Actas de la Academia
Nacional de Ciencias, 87, desde 9.193 hasta 9.196.
[Web Link]

Zhang, J. (1992). Seleccin de casos tpicos en el aprendizaje basado en instancias. En


Actas de la Novena Conferencia Internacional de Aprendizaje Automtico (pp. 470-479).
Aberdeen, Escocia: Morgan Kaufmann.

Documentos que citan este conjunto de datos

Gavin Brown. La diversidad en Neuronales Conjuntos de red. La Universidad de


Birmingham. 2004 . [Ver Contexto ] .

Krzysztof Grabczewski y Wl / odzisl / aw Duch. Los bosques heterogneos de rboles de


decisin . ICANN. 2002 . [Ver Contexto ] .

Andrs Antos y Balzs Kgl y Tams Linder y Gbor Lugosi . Generalizacin basada
margin- dependiente de los datos limita para la clasificacin. Journal of Machine Learning
Research , 3 . 2002 . [Ver Contexto ] .

Kristin P. Bennett y Ayhan Demiriz y Richard Maclin . La explotacin de los datos no


marcados en los mtodos del conjunto. KDD . 2002 . [Ver Contexto ] .

Hussein A. Abbass . Un enfoque de redes neuronales artificiales evolutivo para el


diagnstico del cncer de mama. Inteligencia Artificial en Medicina , 25 . 2002 . [Ver
Contexto ] .

Baback Moghaddam y Gregory Shakhnarovich . Impulsado didicas Kernel discriminantes


. PNI. 2002 . [Ver Contexto ] .
Robert Burbidge y Matthew Trotter y Bernard F. Buxton y Sean B. Holden. STAR - Sparsity
travs Rechazo automatizado . IWANN ( 1 ) . 2001 . [Ver Contexto ] .

Nikunj C. Oza y Stuart J. Russell. Comparaciones experimentales de las versiones en


lnea y por lotes de embolsado y potenciar . KDD . 2001 . [Ver Contexto ] .

Yuh- Jeng Lee. Alise Mquinas de Vectores Soporte . Propuesta Preliminar Tesis
Computer Sciences Department de la Universidad de Wisconsin. 2000 . [Ver Contexto ] .

Justin Bradley y Kristin P. Bennett y Bennett A. Demiriz . Constreido conglomerados K-


means . Microsoft Research Dept. de Ciencias Matemticas One Microsoft Way
Departamento de Ciencias de la Decisin y el Ing. . Sys . 2000 . [Ver Contexto ] .

Lorne Mason y Peter L. Bartlett y Jonathan Baxter. Mejora Generalizacin travs de la


optimizacin explcita de Mrgenes. Aprendizaje Automtico , 38. 2000 . [Ver Contexto ] .

P. S y Bradley K. P y Bennett A. Demiriz . Constreido conglomerados K-means .


Microsoft Research Dept. de Ciencias Matemticas One Microsoft Way Departamento de
Ciencias de la Decisin y el Ing. . Sys . 2000 . [Ver Contexto ] .

Endre Boros y Peter Hammer y Toshihide Ibaraki y Alexander Kogan y Eddy Mayoraz e
Ilya B. Muchnik . Una Aplicacin del anlisis lgico de datos . IEEE Trans . Conocimiento .
Datos Eng, 12 . 2000 . [Ver Contexto ] .

Chun -Nan Hsu y Hilmar Schuschel y Ya- Ting Yang. El Enfoque ANNIGMA - Envoltura
con Redes Neuronales funcin de seleccin de Descubrimiento de Conocimiento y Minera
de Datos . Instituto de Ciencias de la Informacin . 1999 . [Ver Contexto ] .

Huan Liu y Hiroshi Motoda y Manoranjan Dash. A Medida Monotnica ptima Seleccin
de caractersticas. ECML . 1998 . [Ver Contexto ] .

Lorne Mason y Peter L. Bartlett y Jonathan Baxter. Optimizacin directo de Mrgenes


Mejora Generalizacin en clasificadores combinados . PNI. 1998 . [Ver Contexto ] .

W. Nick Street. Un modelo de red neuronal para la prediccin pronstica . ICML . 1998 .
[Ver Contexto ] .

Yk Huhtala y Juha Krkkinen y Pasi Porkka y Hannu Toivonen . Descubrimiento eficiente


de las dependencias funcionales y aproximadas utilizando particiones . ICDE . 1998 . [Ver
Contexto ] .

Kristin P. Bennett y Erin J. Bredensteiner . Un mtodo paramtrico Optimizacin de


Aprendizaje Automtico . INFORMA Journal on Computing, 9 . 1997 . [Ver Contexto ] .

Rudy Setiono y Huan Liu. NeuroLinear : De redes neuronales para las reglas de decisin
oblicuos. Neurocomputing , 17 . 1997 . [Ver Contexto ] .

. Seleccin Prototipo para compuestos Clasificadores vecino ms cercano . Departamento


de Informtica Universidad de Massachusetts. 1997 . [Ver Contexto ] .

Erin J. Bredensteiner y Kristin P. Bennett. Caracterstica Minimizacin en rboles de


decisin . Fundacin Nacional de Ciencia. 1996 . [Ver Contexto ] .

Ismail Taha y Joydeep Ghosh . Caracterizacin de la Wisconsin El cncer de mama base


de datos mediante un sistema simblico - conexionista hbrido . Actas de Annie. 1996 .
[Ver Contexto ] .
Jennifer A. Azul y Kristin P. Bennett. Hbrido Extreme Point Bsqueda Tab .
Departamento de Ciencias Matemticas del Instituto Politcnico Rensselaer . 1996 . [Ver
Contexto ] .

Geoffrey I. Webb. OPUS : Un Algoritmo admisible Eficiente para Unordered Buscar . J.


Artif . Intell . Res. . ( JAIR , 3 . 1995 . [Ver Contexto ] .

Rafael S. Parpinelli y Heitor S. Lopes y Alex Alves Freitas . Un sistema basado en Colonia
de Hormigas para minera de datos : Aplicaciones a los datos mdicos . CEFET -PR ,
CPGEI Av . Sete de Setembro, 3165 . [Ver Contexto ] .

Wl / odzisl / aw Duch y Rafal / Adamczak Email: duchraad @ fs . uni . Torun . pl. Mtodos
estadsticos para la construccin de las redes neuronales . Departamento de Mtodos
Computacionales , Universidad Nicols Coprnico. [Ver Contexto ] .

Rafael S. Parpinelli y Heitor S. Lopes y Alex Alves Freitas . CUARTA PARTE :


OPTIMIZACIN colonia de hormigas e Inmunolgico Captulo X Una colonia de hormigas
algoritmo para la Clasificacin Regla Discovery. CEFET -PR , Curitiba . [Ver Contexto ] .

Adam H. Cannon y Lenore J. Cowen y Carey E. Priebe . Clasificacin Distancia


aproximada. Departamento de Ciencias Matemticas de la Universidad Johns Hopkins.
[Ver Contexto ] .

Andrew I. Schein y Lyle H. Ungar . A- optimalidad para el Aprendizaje Activo de regresin


logstica de los clasificadores . Departamento de Informtica y Ciencias de la Informacin
Levine Hall. [Ver Contexto ] .

Bart Baesens y Stijn Viaene y Tony Van Gestel y JA K Suykens y Guido Dedene y Bart De
Moor y Jan VANTHIENEN y Universidad Catlica de Lovaina . Estudio emprico de tipo
Kernel Desempeo de Mnimos Cuadrados Apoyo Vector Machine clasificadores . Dept.
Aplicadas Ciencias Econmicas . [Ver Contexto ] .

Adil M. Bagirov y Alex Rubinov y AN Soukhojak y John Yearwood . Clasificacin de datos


no supervisada y supervisada a travs de no lisos y optimizacin global. Escuela de
Tecnologa de la Informacin y Ciencias Matemticas de la Universidad de Ballarat . [Ver
Contexto ] .

Rudy Setiono y Huan Liu. Selector de funciones neuronales de la red . Departamento de


Sistemas Informticos y la Universidad Nacional de Ciencias de la Computacin de
Singapur. [Ver Contexto ] .

Huan Liu. Una familia de generadores de reglas eficientes . Departamento de Sistemas


Informticos y la Universidad Nacional de Ciencias de la Computacin de Singapur. [Ver
Contexto ] .

Rudy Setiono . La extraccin de M- de -N Normas de Capacitacin de Redes Neuronales .


Escuela de la Universidad Nacional de Computacin de Singapur. [Ver Contexto ] .

Jarkko Salojrvi y Samuel Kaski y Janne Sinkkonen . Clustering discriminativo en las


mtricas de Fisher. Redes Neuronales Research Centre Helsinki University of Technology.
[Ver Contexto ] .

Wl odzisl y Rafal Adamczak y Krzysztof Grzegorz Grabczewski y Zal . Un mtodo hbrido


para la extraccin de reglas lgicas de datos . Departamento de Mtodos
Computacionales , Universidad Nicols Coprnico. [Ver Contexto ] .

Charles Campbell y Nello Cristianini . Algoritmos de aprendizaje simples para Mquinas de


Vectores Soporte Entrenamiento. Departamento de Ingeniera Matemtica . [Ver Contexto
].

Chotirat Ann y Dimitrios Gunopulos . La ampliacin de la Ingenuo clasificador bayesiano :


Utilizacin de rboles de decisin para la Seleccin de caractersticas. Departamento de
Ciencias de la Computacin de la Universidad de California. [Ver Contexto ] .

Wl odzisl / aw Duch y Rudy Setiono y Jacek M. Zurada . Mtodos de inteligencia


computacional para la comprensin de datos basado en normas . [Ver Contexto ] .

Citas:
Esta base de datos de cncer de mama se obtuvo de la Universidad de Wisconsin
Hospitales , Madison del Dr. William H. Wolberg . Si publica resultados al utilizar esta base
de datos , a continuacin, por favor incluya esta informacin en sus agradecimientos.
Tambin, por favor, cite uno o ms de :
1 . OL Mangasarian y WH Wolberg : " El diagnstico de cncer a travs de la
programacin lineal " , SIAM News, Volumen 23 , Nmero 5, septiembre de 1990, pp 1 y
18 .
2 . William H. Wolberg y O.L. Mangasarian : " mtodo MultiSurface de separacin patrn
para el diagnstico mdico aplicado a la citologa de mama " , Actas de la Academia
Nacional de Ciencias, EE.UU. , Volumen 87 , diciembre de 1990, pp 9193-9196 .
3 . O. L. Mangasarian , R. Setiono , y W. H. Wolberg : " El reconocimiento de patrones a
travs de la programacin lineal : teora y aplicacin al diagnstico mdico ", en: "La
optimizacin a gran escala numrica " , Thomas F. Coleman y Yuying Li, editores , SIAM
Publicaciones , Philadelphia 1990 , pp 22-30 .
4 . KP Bennett & OL Mangasarian : "discriminacin programacin lineal robusta de dos
conjuntos linealmente inseparables " , Mtodos de Optimizacin y Software 1 , 1992 , 23-
34 (Gordon & Breach Science Publishers ) .
Breast Cancer Wisconsin (Prognostic) Data Set 1995-12-01

Resumen:
Base de datos Wisconsin Cncer de Mama pronstico.
Vida
Caractersticas del Nmero de
Multivariable 198 rea:
Conjunto de datos: instancias:

1995-12-01
Caractersticas del Nmero de Fecha de
Real 34
atributo: atributos: Donacin

Nmero
53640
Clasificacin y Valores de
Tareas asociadas: Yes
Regresi perdidos? accesos
Web:

Fuente:
Creadores:

1. Dr. William H. Wolberg, el General Dpto. de Ciruga


Universidad de Wisconsin, Centro de Ciencias Clnicas
Madison, WI 53792
Wolberg '@' eagle.surgery.wisc.edu

2. W. Nick Street, Ciencias de la Informtica Departamento


Universidad de Wisconsin
1210 West Dayton St., Madison, WI 53706
calle '@' cs.wisc.edu 608-262-6619

3. Olvi L. Mangasarian, Ciencias de la Informtica Dept.,


Universidad de Wisconsin
1210 West Dayton St., Madison, WI 53706
Olvi '@' cs.wisc.edu

Donante:
Nick Street

Informacin del Conjunto de datos: Cada registro representa los datos de seguimiento de
un caso de cncer de mama. Se trata de pacientes atendidos de forma consecutiva por el
Dr. Wolberg desde 1984, e incluyen slo aquellos casos que presentan cncer de mama
invasivo y sin evidencia de metstasis a distancia en el momento del diagnstico.

Los primeros 30 elementos se calculan a partir de una imagen digitalizada de un aspirado


con aguja fina ( PAAF ) de una masa en la mama . Se describen las caractersticas de los
ncleos de las clulas presentes en la imagen . Algunas de las imgenes se pueden
encontrar en [Web Link]

La separacin se ha descrito anteriormente se obtuvo utilizando el Mtodo MultiSurface -


Tree ( HSH -T) [ K. P. Bennett, " Decisin Programacin Tree Construccin Va lineal . "
Actas de la cuarta Inteligencia Artificial Midwest and Cognitive Science Society , pp 97-101 ,
1992 ] , un mtodo de clasificacin que utiliza la programacin lineal para construir un rbol
de decisin . Caractersticas relevantes fueron seleccionados mediante una bsqueda
exhaustiva en el espacio de caractersticas y 1-4 1-3 planos de separacin.

El programa lineal real utilizado para obtener el plano de separacin en el espacio 3 -


dimensional es el que se describe en :
[ K. P. Bennett y OL Mangasarian : " Robust Programacin Lineal Discriminacin de dos
conjuntos linealmente Inseparables " , Mtodos de optimizacin y Software 1 , 1992, 23-34 ]
.

El mtodo Recurrencia aproximacin superficial ( RSA) es un modelo de programacin lineal


que predice Tiempo a repetirse utilizando casos recurrentes y no recurrentes tanto . Vanse
las referencias (i) y ( ii) anterior para los detalles del mtodo RSA .

Esta base de datos tambin est disponible a travs del servidor ftp UW CS:

ftp ftp.cs.wisc.edu
cd math-prog/cpo-dataset/machine-learn/WPBC /

Informacin de los Atributos:


1) Nmero de identificacin
2) Resultado (R = recurrente, N = nonrecur)
3) Tiempo (tiempo de recurrencia si el campo 2 = R, el tiempo libre de la enfermedad
si el campo 2 = N)
4-33) Diez funciones con valores reales se calculan para cada ncleo de la clula:

a) radio (media de las distancias de centro a puntos en el permetro)


b) la textura (desviacin estndar de los valores de la escala de grises)
c) permetro
d) rea de
e) la suavidad (variacin local en longitudes de radio)
f) compacidad (permetro ^ 2 / zona - 1,0)
g) concavidad (severidad de las porciones cncavas del contorno)
puntos h) cncavas (nmero de porciones cncavas del contorno)
i) la simetra
j) la dimensin fractal ("aproximacin costa" - 1)

Documentos relevantes:
W. N. Street, O. L. Mangasarian y W.H. Wolberg . Un enfoque de aprendizaje inductivo para
la prediccin pronstica. En A. Prieditis y S. Russell, editores , Actas de la duodcima
Conferencia Internacional sobre Aprendizaje Automtico , pginas 522 a 530 , San
Francisco, 1995 . Morgan Kaufmann .
[Web Link]

O.L. Mangasarian , W.N. Street y W. H. Wolberg . Diagnstico de cncer de mama y el


pronstico a travs de la programacin lineal. Operations Research , 43 ( 4 ), pginas 570-
577 , julio- agosto de 1995.
[Web Link]

W.H. Wolberg , W.N. Street, D. M. Heisey y O.L. Mangasarian . Diagnstico de cncer de


mama computarizado y el pronstico de aspirados con aguja fina . Archives of Surgery 1995
; 130:511-516 .
[Web Link]

W.H. Wolberg , W.N. Street, y O.L. Mangasarian . Anlisis de la imagen y de la mquina de


aprendizaje aplicado al diagnstico de cncer de mama y el pronstico. Analtica y
cuantitativa de Citologa e Histologa , vol. 17 N 2 , pginas 77-87 , abril de 1995.
W.H. Wolberg , W.N. Street, D. M. Heisey y O.L. Mangasarian . Computer derivados `` grado
nuclear '' y el pronstico del cncer de mama. Analtica y cuantitativa de Citologa e
Histologa , vol. 17 , pginas 257-264 , 1995 .
Documentos que citan este conjunto de datos.

Gavin Brown. La diversidad en Neuronales Conjuntos de red. La Universidad de


Birmingham. 2004 . [Ver Contexto ] .

Krzysztof Grabczewski y Wl / odzisl / aw Duch. Los bosques heterogneos de rboles de


decisin . ICANN. 2002 . [Ver Contexto ] .

Andrs Antos y Balzs Kgl y Tams Linder y Gbor Lugosi . Generalizacin basada
margin- dependiente de los datos limita para la clasificacin. Journal of Machine Learning
Research , 3 . 2002 . [Ver Contexto ] .

Kristin P. Bennett y Ayhan Demiriz y Richard Maclin . La explotacin de los datos no


marcados en los mtodos del conjunto. KDD . 2002 . [Ver Contexto ] .

Hussein A. Abbass . Un enfoque de redes neuronales artificiales evolutivo para el


diagnstico del cncer de mama. Inteligencia Artificial en Medicina , 25 . 2002 . [Ver
Contexto ] .

Baback Moghaddam y Gregory Shakhnarovich . Impulsado didicas Kernel discriminantes .


PNI. 2002 . [Ver Contexto ] .

Robert Burbidge y Matthew Trotter y Bernard F. Buxton y Sean B. Holden. STAR - Sparsity
travs Rechazo automatizado . IWANN ( 1 ) . 2001 . [Ver Contexto ] .

Nikunj C. Oza y Stuart J. Russell. Comparaciones experimentales de las versiones en lnea


y por lotes de embolsado y potenciar . KDD . 2001 . [Ver Contexto ] .

Yuh- Jeng Lee. Alise Mquinas de Vectores Soporte . Propuesta Preliminar Tesis Computer
Sciences Department de la Universidad de Wisconsin. 2000 . [Ver Contexto ] .

Justin Bradley y Kristin P. Bennett y Bennett A. Demiriz . Constreido conglomerados K-


means . Microsoft Research Dept. de Ciencias Matemticas One Microsoft Way
Departamento de Ciencias de la Decisin y el Ing. . Sys . 2000 . [Ver Contexto ] .

Lorne Mason y Peter L. Bartlett y Jonathan Baxter. Mejora Generalizacin travs de la


optimizacin explcita de Mrgenes. Aprendizaje Automtico , 38. 2000 . [Ver Contexto ] .

P. S y Bradley K. P y Bennett A. Demiriz . Constreido conglomerados K-means . Microsoft


Research Dept. de Ciencias Matemticas One Microsoft Way Departamento de Ciencias de
la Decisin y el Ing. . Sys . 2000 . [Ver Contexto ] .

Endre Boros y Peter Hammer y Toshihide Ibaraki y Alexander Kogan y Eddy Mayoraz e Ilya
B. Muchnik . Una Aplicacin del anlisis lgico de datos . IEEE Trans . Conocimiento . Datos
Eng, 12 . 2000 . [Ver Contexto ] .

Chun -Nan Hsu y Hilmar Schuschel y Ya- Ting Yang. El Enfoque ANNIGMA - Envoltura con
Redes Neuronales funcin de seleccin de Descubrimiento de Conocimiento y Minera de
Datos . Instituto de Ciencias de la Informacin . 1999 . [Ver Contexto ] .

Huan Liu y Hiroshi Motoda y Manoranjan Dash. A Medida Monotnica ptima Seleccin de
caractersticas. ECML . 1998 . [Ver Contexto ] .
Lorne Mason y Peter L. Bartlett y Jonathan Baxter. Optimizacin directo de Mrgenes
Mejora Generalizacin en clasificadores combinados . PNI. 1998 . [Ver Contexto ] .

W. Nick Street. Un modelo de red neuronal para la prediccin pronstica . ICML . 1998 . [Ver
Contexto ] .

Yk Huhtala y Juha Krkkinen y Pasi Porkka y Hannu Toivonen . Descubrimiento eficiente


de las dependencias funcionales y aproximadas utilizando particiones . ICDE . 1998 . [Ver
Contexto ] .

Kristin P. Bennett y Erin J. Bredensteiner . Un mtodo paramtrico Optimizacin de


Aprendizaje Automtico . INFORMA Journal on Computing, 9 . 1997 . [Ver Contexto ] .

Rudy Setiono y Huan Liu. NeuroLinear : De redes neuronales para las reglas de decisin
oblicuos. Neurocomputing , 17 . 1997 . [Ver Contexto ] .

. Seleccin Prototipo para compuestos Clasificadores vecino ms cercano . Departamento


de Informtica Universidad de Massachusetts. 1997 . [Ver Contexto ] .

Erin J. Bredensteiner y Kristin P. Bennett. Caracterstica Minimizacin en rboles de


decisin . Fundacin Nacional de Ciencia. 1996 . [Ver Contexto ] .

Ismail Taha y Joydeep Ghosh . Caracterizacin de la Wisconsin El cncer de mama base de


datos mediante un sistema simblico - conexionista hbrido . Actas de Annie. 1996 . [Ver
Contexto ] .

Jennifer A. Azul y Kristin P. Bennett. Hbrido Extreme Point Bsqueda Tab . Departamento
de Ciencias Matemticas del Instituto Politcnico Rensselaer . 1996 . [Ver Contexto ] .

Geoffrey I. Webb. OPUS : Un Algoritmo admisible Eficiente para Unordered Buscar . J. Artif .
Intell . Res. . ( JAIR , 3 . 1995 . [Ver Contexto ] .

Rafael S. Parpinelli y Heitor S. Lopes y Alex Alves Freitas . Un sistema basado en Colonia
de Hormigas para minera de datos : Aplicaciones a los datos mdicos . CEFET -PR ,
CPGEI Av . Sete de Setembro, 3165 . [Ver Contexto ] .

Wl / odzisl / aw Duch y Rafal / Adamczak Email: duchraad @ fs . uni . Torun . pl. Mtodos
estadsticos para la construccin de las redes neuronales . Departamento de Mtodos
Computacionales , Universidad Nicols Coprnico. [Ver Contexto ] .

Rafael S. Parpinelli y Heitor S. Lopes y Alex Alves Freitas . CUARTA PARTE :


OPTIMIZACIN colonia de hormigas e Inmunolgico Captulo X Una colonia de hormigas
algoritmo para la Clasificacin Regla Discovery. CEFET -PR , Curitiba . [Ver Contexto ] .

Adam H. Cannon y Lenore J. Cowen y Carey E. Priebe . Clasificacin Distancia aproximada.


Departamento de Ciencias Matemticas de la Universidad Johns Hopkins. [Ver Contexto ] .

Andrew I. Schein y Lyle H. Ungar . A- optimalidad para el Aprendizaje Activo de regresin


logstica de los clasificadores . Departamento de Informtica y Ciencias de la Informacin
Levine Hall. [Ver Contexto ] .

Bart Baesens y Stijn Viaene y Tony Van Gestel y JA K Suykens y Guido Dedene y Bart De
Moor y Jan VANTHIENEN y Universidad Catlica de Lovaina . Estudio emprico de tipo
Kernel Desempeo de Mnimos Cuadrados Apoyo Vector Machine clasificadores . Dept.
Aplicadas Ciencias Econmicas . [Ver Contexto ] .
Adil M. Bagirov y Alex Rubinov y AN Soukhojak y John Yearwood . Clasificacin de datos no
supervisada y supervisada a travs de no lisos y optimizacin global. Escuela de Tecnologa
de la Informacin y Ciencias Matemticas de la Universidad de Ballarat . [Ver Contexto ] .

Rudy Setiono y Huan Liu. Selector de funciones neuronales de la red . Departamento de


Sistemas Informticos y la Universidad Nacional de Ciencias de la Computacin de
Singapur. [Ver Contexto ] .

Huan Liu. Una familia de generadores de reglas eficientes . Departamento de Sistemas


Informticos y la Universidad Nacional de Ciencias de la Computacin de Singapur. [Ver
Contexto ] .

Rudy Setiono . La extraccin de M- de -N Normas de Capacitacin de Redes Neuronales .


Escuela de la Universidad Nacional de Computacin de Singapur. [Ver Contexto ] .

Jarkko Salojrvi y Samuel Kaski y Janne Sinkkonen . Clustering discriminativo en las


mtricas de Fisher. Redes Neuronales Research Centre Helsinki University of Technology.
[Ver Contexto ] .

Wl odzisl y Rafal Adamczak y Krzysztof Grzegorz Grabczewski y Zal . Un mtodo hbrido


para la extraccin de reglas lgicas de datos . Departamento de Mtodos Computacionales ,
Universidad Nicols Coprnico. [Ver Contexto ] .

Charles Campbell y Nello Cristianini . Algoritmos de aprendizaje simples para Mquinas de


Vectores Soporte Entrenamiento. Departamento de Ingeniera Matemtica . [Ver Contexto ] .

Chotirat Ann y Dimitrios Gunopulos . La ampliacin de la Ingenuo clasificador bayesiano :


Utilizacin de rboles de decisin para la Seleccin de caractersticas. Departamento de
Ciencias de la Computacin de la Universidad de California. [Ver Contexto ] .

Wl odzisl / aw Duch y Rudy Setiono y Jacek M. Zurada . Mtodos de inteligencia


computacional para la comprensin de datos basado en normas . [Ver Contexto ] .

Citas:
Por favor, consulte el Repositorio de polticas citacin Aprendizaje Automtico
Breast Tissue Data Set 2010-05-10

Resumen:
Conjunto de datos con las mediciones de impedancia elctrica de muestras de tejido
recin extirpadas de la mama.
Vida
Caractersticas del Nmero de
Multivariable 106 rea:
Conjunto de datos: instancias:

2010-05-10
Caractersticas del Nmero de Fecha de
Real 10
atributo: atributos: Donacin

Nmero
38869
Valores de
Tareas asociadas: Clasificacin N/A
perdidos? accesos
Web:

Fuente:
JP Marqus de S, INEB-Instituto de Engenharia Biomdica, Porto, Portugal; e-mail:
jpmdesa '@' gmail.com
J Jossinet, INSERM, Lyon, Francia

Informacin del Conjunto de datos:


Las mediciones de impedancia se realizaron en las frecuencias: 15.625, 31.25, 62.5, 125,
250, 500, 1000 KHz
Las mediciones de impedancia de tejido de mama recin extirpado se realizaron a las
frecuencias follwoing: 15,625, 31,25, 62,5, 125, 250, 500, 1000 KHz. Estas mediciones
representan grficamente en la (imaginaria, real) avin constituyen el espectro de
impedancia desde donde se calculan las caractersticas del tejido del seno.
El conjunto de datos se puede utilizar para predecir la clasificacin de cualquiera de las 6
clases de originales o de 4 clases por fusionando la fibro-adenoma, mastopata y clases
glandulares cuya discriminacin no es importante (que no se pueden discriminar con
precisin de todos modos).

Informacin de los Atributos: I0 Impedivity (ohmios) en la frecuencia cero


ngulo de fase PA500 a 500 KHz
HFS pendiente de alta frecuencia de ngulo de fase
Distancia impedancia DA entre los extremos del espectro
rea rea bajo el espectro
Un rea / DA normalizado por DA
Mximo MAX IP del espectro
DR distancia entre I0 y parte real del punto de la frecuencia mxima
Longitud P de la curva espectral
Coche Class (carcinoma), FAD (fibro-adenoma), mas (mastopata), gla (glandular), con
(conectivo), adi (adiposo). la

Documentos relevantes:
Jossinet J (1996) Variabilidad de impedivity en el tejido normal y patolgico de mama.
Med. Y Biol. Eng. Y Comput, 34: 346-350.
Silva JE, Marqus de S JP, Jossinet J (2000) Clasificacin del tejido mamario mediante
Espectroscopia de Impedancia Elctrica. Med & Bio Eng & Computing, 38:26-30.
Citas: Por favor, consulte el Repositorio de polticas citacin Aprendizaje Automtico

Buzz in social media Data Set 2013-05-27

Resumen:
Este conjunto de datos contiene ejemplos de eventos de moda de dos redes sociales
diferentes: Twitter y Hardware de Tom, una red foro se centra en las nuevas tecnologas
con una dinmica ms conservadoras.
Caractersticas 140000 Computacin
Time-Series., Nmero de
del Conjunto de rea:
Multivariado instancias:
datos:

2013-05-27
Caractersticas Nmero de Fecha de
Entero, Real 77
del atributo: atributos: Donacin

Nmero
Tareas Clasificacin Valores de
N/A 13006
asociadas: y Regresin perdidos? accesos
Web:

Fuente:
Creadores:
Franois Kawala (1.2) Ahlame Douzal (1) Eric Gaussier (1) Diemert Eustache (2)
Instituciones:
(1) de la Universidad Joseph Fourier (Grenoble I)
Laboratorio de Informtica de Grenoble (LIG)
(2) Grupo Bestofmedia Red
Donante:
Bestofmedia (ediemert '@' bestofmedia.com)

Informacin del Conjunto de datos: Porfavor ver [Web Link]

Informacin de los Atributos: Porfavor ve [Web Link]

Documentos relevantes:
Las predicciones de la actividad en las redes sociales en lnea (F. Kawala, A. Douzal-
Chouakria, E. Gaussier, E. Dimert), En Actas de la Conferencia sobre Modelos y Anlisis
de Redes: Acercamientos Matemticas y Ciencias de la Computacin (Marami), p. 16,
2013.

Citas:
Las predicciones de la actividad en las redes sociales en lnea (F. Kawala, A. Douzal-
Chouakria, E. Gaussier, E. Dimert), En Actas de la Conferencia sobre Modelos y Anlisis
de Redes: Acercamientos Matemticas y Ciencias de la Computacin (Marami), p. 16,
2013.
CalIt2 Building People Counts Data Set 2006-12-01

Resumen:
Estos datos vienen de la puerta principal del edificio de Calit2 en UCI.
Multivariado,
Caractersticas 10080 N/A
Time-Series Nmero de
del Conjunto de rea:
instancias:
datos:

2006-12-01
Caractersticas Entero, Nmero de Fecha de
4
del atributo: Categrico atributos: Donacin

Nmero
19578
Valores de
Tareas asociadas: N/A No
perdidos? accesos
Web:

Fuente:
Creador y Mantenedor:
Jon Hutchins
UCI
johutchi '@' uci.edu

Informacin del Conjunto de datos: Observaciones provienen de 2 flujos de datos (flujo


de personas dentro y fuera del edificio), ms de 15 semanas, 48 segmentos de tiempo por
da (agregados de recuento de media hora).

El objetivo es predecir la presencia de un evento, como una conferencia en el edificio que


se refleja en la gente inusualmente altas que cuenta para ese perodo de da / hora.

Informacin de los Atributos:


1. Flow ID: 7 est fuera del flujo, 9 es en el flujo
2. Fecha: MM / DD / AA
3. Hora: HH: MM: SS
4. Cuenta: Nmero de recuentos reportados para la media hora anterior

Filas: Cada porcin de tiempo media hora est representado por 2 filas: una para el
flujo durante ese perodo de tiempo (ID = 7) y una fila para el flujo durante ese
perodo de tiempo (ID = 9)

Los atributos de. Archivo acontecimientos ("ground truth")


1. Fecha: MM / DD / AA
2. Comience hora del evento: HH: MM: SS (militar)
3. Hora del evento de finalizacin: HH: MM: SS (militar)
4. Ttulo del evento (annima)
Documentos relevantes:
"La deteccin de eventos de adaptacin a los procesos de Poisson variables en el tiempo"
A. Ihler, J. Hutchins, y P. Smyth
Actas de la 12 Conferencia SIGKDD ACM (KDD-06), agosto de 2006.

Citas:
Por favor refirase a la poltica de la citacin Machine Learning Repository.
1997-06-01

Car Evaluation Data Set


Resumen:
Derivado de lo simple modelo de decisin jerrquica, esta base de datos puede ser til
para probar la induccin constructiva y mtodos de descubrimiento de la estructura..
N/A
Caractersticas del Nmero de
Multivariado 1728 rea:
Conjunto de datos: instancias:

1997-06-01
Caractersticas del Nmero de Fecha de
Categrico 6
atributo: atributos: Donacin

Nmero
Valores de
Tareas asociadas: Clasificacin No 263399
perdidos? accesos
Web:

Fuente:
Creador: Marko Bohanec
Donantes
1. Marko Bohanec (marko.bohanec '@' ijs.si)
2. Blaz Zupan (blaz.zupan '@' ijs.si)

Informacin del Conjunto de datos: Evaluacin Car Base de datos se deriva de un


modelo de decisin jerrquica sencilla desarrollada originalmente para la demostracin de
DEX , M. Bohanec , V. Rajkovic : Sistema experto para la toma de decisiones. Sistemica 1
( 1 ) , pp 145-157 , 1990 . ) . El modelo evala coches de acuerdo con la siguiente
estructura concepto :

Aceptabilidad coche CAR


. PRECIO general de precios
. . compra precio de compra
. . precio maint del mantenimiento
. Caractersticas tcnicas TECH
. . confort cONFORT
. . . Puertas Nmero de puertas
. . . capacidad de las personas en trminos de las personas para llevar a
. . . lug_boot el tamao del maletero
. . seguridad seguridad estimado del coche

Atributos de entrada se imprimen en minsculas. Adems del concepto de destino ( CAR ),


el modelo incluye tres conceptos intermedios : PRECIO , tecnologa, COMFORT. Cada
concepto est en el modelo original relacionado con sus descendientes nivel inferior por
un conjunto de ejemplos ( para estos ejemplos conjuntos ver [Web Link] ) .

La Base de Datos de Evaluacin de Coches contiene ejemplos con la informacin


estructural eliminado , es decir , se relaciona directamente CAR a los seis atributos de
entrada : comprar, mant , puertas, personas , lug_boot , seguridad .

Debido a la estructura conocida concepto subyacente , esta base de datos puede ser
particularmente til para probar la induccin constructiva y mtodos de descubrimiento de
la estructura .

Informacin de los Atributos:


Valores Clase:
UNACC, acc, bueno, vgood

Atributos:
ofertas: En VHIGH, alto, Medio, Bajo.
maint: VHIGH, alto, Medio, Bajo.
puertas: 2, 3, 4, 5more.
personas: 2, 4, ms.
lug_boot: pequeo, med, grande.
seguridad: bajo, Medio, Alto.

Documentos relevantes:
M. Bohanec y V. Rajkovic: La adquisicin de conocimientos y la explicacin para la toma
de decisiones con atributos mltiples. En octavo Intl Taller sobre Sistemas Expertos y sus
Aplicaciones, Avignon, Francia. pginas 59-78, 1988.
[Web Link]

B. Zupan, M. Bohanec, I. Bratko, J. Demsar: Aprendizaje automtico con la funcin de


descomposicin. ICML-97, Nashville, TN. 1997 (a aparecer)
[Web Link]

Documentos que citan este conjunto de datos.

Qingping Tao Ph. D. HACIENDO algoritmos de aprendizaje EFICIENTES CON


EXPONENCIALMENTE muchas caractersticas. Qingping Tao una disertacin Facultad de
El Colegio de Graduados de la Universidad de Nebraska en cumplimiento parcial de los
requisitos . 2004 . [Ver Contexto ] .

Jianbin Tan y David L. Dowe . MML Inferencia de la Decisin Grficos con varias vas se
une y atributos dinmicos . Conferencia australiana sobre Inteligencia Artificial. 2003 . [Ver
Contexto ] .

Daniel J. Lizotte y Omid Madani y Russell Greiner . Presupuestado Aprendizaje de Naive -


Bayes clasificadores . UAI . 2003 . [Ver Contexto ] .

Marc Sebban y Richard Nock y Stphane Lallich . Detener Criterio de tcnicas de


reduccin de datos Impulsar basada en : a partir de binario a multiclase problema . Journal
of Machine Learning Research , 3 . 2002 . [Ver Contexto ] .

Nikunj C. Oza y Stuart J. Russell. Comparaciones experimentales de las versiones en


lnea y por lotes de embolsado y potenciar . KDD . 2001 . [Ver Contexto ] .

Marc Sebban y Richard Nock y Jean -Hugues Chauchat y Ricco Rakotomalala . Impacto
de la calidad del aprendizaje conjunto y el tamao de las actuaciones de rbol de decisin
. Int . J. Comput . Syst . Seal , 1 . 2000 . [Ver Contexto ] .

Iztok Savnik y Peter A. Flach . Descubrimiento de las dependencias de varios valores de


las relaciones . Intell . Datos Anal, 4 . 2000 . [Ver Contexto ] .

Jie Cheng y Russell Greiner . Comparando red bayesiana clasificadores . UAI . 1999 . [Ver
Contexto ] .
Zhiqiang Yang Sheng y Zhong y Rebecca N. Wright. Privacidad - Preservar Clasificacin
de los datos del cliente y sin prdida de precisin . Departamento de Informtica , Stevens
Institute of Technology. [Ver Contexto ] .

Jos'e L. Balc'azar . Las reglas con Bounded Negaciones y el Plan de Cobertura de


inferencia . Dept. LSI , UPC . [Ver Contexto ] .

Shi Zhong y Weiyu Tang y Taghi M. Khoshgoftaar . Impulsado Filtros de ruido para
identificar Mislabeled Datos. Departamento de Ciencias de la Computacin e Ingeniera de
la Universidad Atlntica de la Florida. [Ver Contexto ] .

Hyunwoo Kim y Wei -Yin Loh . rboles de Clasificacin con modelos bivariados
discriminante lineal nodo. Departamento de Estadstica del Departamento de Estadstica
de la Universidad de la Universidad de Tennessee de Wisconsin. [Ver Contexto ] .

Daniel J. Lizotte . Biblioteca Formulario de Autorizacin Nombre del Autor . Presupuestado


Aprendizaje de Naive Bayes clasificadores . [Ver Contexto ] .

Nikunj C. Oza y Stuart J. Russell. Embolsado en lnea e impulsar . Divisin de Ciencias de


la Computacin de la Universidad de California. [Ver Contexto ] .

Daniel J. Lizotte y Omid Madani y Russell Greiner . Presupuestado Aprendizaje , Parte II:
El Na # ve- Bayes Case. Departamento de Informtica de la Universidad de Ciencias de
Alberta. [Ver Contexto ] .

Huan Liu. Una familia de generadores de reglas eficientes . Departamento de Sistemas


Informticos y la Universidad Nacional de Ciencias de la Computacin de Singapur. [Ver
Contexto ] .

Citas: Por favor, consulte el Repositorio de polticas citacin Aprendizaje Automtico


Cardiotocography Data Set 2010-09-07

Resumen:
El conjunto de datos consiste en la medicin de la frecuencia cardaca fetal (FCF) y la
contraccin uterina (CU) cuenta en cardiotocograms clasificados por obstetras expertos..
2126 Vida
Caractersticas del Nmero de
Multivariable rea:
Conjunto de datos: instancias:

2010-09-07
Caractersticas del Nmero de Fecha de
Real 23
atributo: atributos: Donacin

Nmero
Valores de
Tareas asociadas: Clasificacin N/A 40350
perdidos? accesos
Web:

Fuente:
Marqus de S, JP, jpmdesa '@' gmail.com, Instituto de Ingeniera Biomdica, Porto,
Portugal.
Bernardes, J., joaobern '@' med.up.pt, Facultad de Medicina de la Universidad de Oporto,
Portugal.
Ayres de Campos, D., sisporto '@' med.up.pt, Facultad de Medicina de la Universidad de
Oporto, Portugal.

Informacin del Conjunto de datos:


2126 cardiotocograms fetal (CTG) se procesan automticamente y las respectivas
funciones de diagnstico medidos. Los CTG tambin fueron clasificados en tres obstetras
de expertos y una etiqueta de clasificacin de consenso asignado a cada uno de ellos.
Clasificacin era a la vez con respecto a un patrn morfolgico (A, B, C ...) y a un estado
fetal (N, S, P). Por lo tanto el conjunto de datos se puede utilizar tanto para los
experimentos 10 de clase o de clase 3.

Informacin de los Atributos:


LB - FCF basal (latidos por minuto)
AC - # de aceleraciones por segundo
FM - # de movimientos fetales por segundo
UC - # de las contracciones uterinas por segundo
DL - # de desaceleraciones de luz por segundo
DS - # de desaceleraciones severas por segundo
DP - # de desaceleraciones prolongadas de por segundo
ASTV - porcentaje de tiempo con anormal variabilidad a corto plazo
Valor medio de la variabilidad a corto plazo - MSTV
ALTV - porcentaje de tiempo con anormal variabilidad a largo plazo
Valor medio de la variabilidad a largo plazo - MLTV
Ancho - ancho de la FCF histograma
Min - mnimo de la frecuencia cardaca fetal histograma
Max - Mximo de la FCF histograma
Nmax - # de picos del histograma
Nzeros - # de ceros histograma
Modo - Modo de histograma
Mean - histograma media
Mediana histograma - Mediana
Varianza - varianza histograma
Tendencia - tendencia histograma
CLASS - FCF cdigo de clase de patrn (1 a 10)
NSP - fetal cdigo de clase del Estado (N = normal, S = sospechoso; P = patolgico)

Documentos relevantes:
Ayres de Campos et al. (2000) SisPorto 2.0 Un Programa para el Anlisis Automatizado de
Cardiotocograms. J Matern Fetal Med. 5:311-318

Citas:
Por favor, consulte el Repositorio de polticas citacin Aprendizaje Automtico
1996-05-01

Census Income Data Set


Resumen:
Predecir si el ingreso es superior a $ 50K/yr basado en los datos del censo. Tambin
conocido como conjunto de datos "adultos".
Caractersticas del Social
Nmero de
Conjunto de Multivariable 48842 rea:
instancias:
datos:

1996-05-01
Caractersticas del Categrico, Nmero de Fecha de
14
atributo: Entero atributos: Donacin

Nmero
77805
Valores de
Tareas asociadas: Clasificacin Yes
perdidos? accesos
Web:

Fuente:
Ronny Kohavi y Barry Becker
Minera de Datos y Visualizacin
Silicon Graphics.
e-mail: ronnyk '@' sgi.com para preguntas.

Informacin del Conjunto de datos: La extraccin se realiza por Barry Becker, de la


base de datos del Censo de 1994. Un conjunto de registros razonablemente limpias fue
extrado por medio de las siguientes condiciones: ((AAGE> 16) && (AGI> 100) &&
(AFNLWGT> 1) && (HRSWK> 0))
Prediccin tarea es determinar si una persona hace ms de 50 mil al ao.

Informacin de los Atributos:


Listado de atributos:

> 50K , <= 50K .

edad: continuo.
workclass : Privada, Auto- emp - no -inc , Auto- emp -inc , Federal- gov, Local- gov, Estado
-gov , sin sueldo , de Nunca funcion.
fnlwgt : continuo.
Diploma , Some- universidad, 11 , HS- graduado , el profesor de la escuela, Assoc- ACDM
, Assoc- voc , 9 , 7 -8 , 12 , Masters, primero a cuarto , dcimo , Doctorado , 5to-6to ,
Preschool .
educacin - num: continuo.
civil - Estado Civil: Casado - civ - cnyuge , Divorciado, nunca se han casado , Separado,
Viudo, Casado - cnyuge ausente, Casado -AF- cnyuge.
Ocupacin: Tech- apoyo , para naves de reparacin, y de servicio , ventas , - Exec
gestin, Prof- especialidad, Manipuladores - limpiadores, Machine -op- Inspct , - Adm
clerical , Agricultura , pesca, transporte y movimiento, Priv - casa - serv , protector -serv ,
Fuerzas Armadas - .
relacin : Esposa, propia e hijos, marido, no - en - la familia, otro pariente , soltera .
carrera: Blanco , Asia y Pac- Islander, Amer -Indian- esquimal , Otros, Negro .
Sexo : Mujer, Hombre .
de capital - ganancia : continuo.
de capital -loss : continuo.
hora -por- semana : continuo.
- orgenes: Estados- Unidos , Camboya , Inglaterra , Puerto - Rico , Canad, Alemania ,
Outlying -US ( Guam- Islas Vrgenes -etc ) , India , Japn, Grecia, Sur , China, Cuba , Irn,
Honduras , Filipinas , Italia , Polonia , Jamaica , Vietnam, Mxico , Portugal, Irlanda,
Francia, Republica-Dominicana , Laos, Ecuador , Taiwn , Hait , Colombia, Hungra,
Guatemala , Nicaragua , Escocia , Tailandia , Yugoslavia , El- Salvador, Trinadad y
Tobago, Per , Hong , Holand -Pases Bajos .

Documentos relevantes:
Ron Kohavi , " Ampliar los efectivos Precisin de Naive - Bayes clasificadores : un hbrido
de rbol de decisiones " , Actas de la Segunda Conferencia Internacional de
Descubrimiento de Conocimiento y Minera de Datos , 1996
[Web Link]

Documentos que citan este conjunto de datos.

Rakesh Agrawal y Ramakrishnan iKant y Dilys Thomas . Privacidad Preservar OLAP.


Conferencia SIGMOD . 2005 . [Ver Contexto ] .

Manuel Oliveira. Biblioteca de formularios de lanzamiento Nombre del Autor : Stanley


Robson de Oliveira Medeiros Ttulo de la tesis: transformacin de datos para la privacidad
- Preservar Data Mining Titulacin: Doctor en Filosofa Ao este ttulo otorgado .
Universidad de Alberta Library . 2005 . [Ver Contexto ] .

Aristides Gionis y Heikki Mannila y Panayiotis Tsaparas . Agregacin Clustering. ICDE .


2005 . [Ver Contexto ] .

Dan Pelleg . Estimadores de densidad de probabilidad escalables y prcticos para la


deteccin de anomalas Cientfico. Facultad de Ciencias de la Universidad Carnegie
Mellon de ordenador . 2004 . [Ver Contexto ] .

Ke Wang y Zhou Shiyu y Ada Wai Chee - Fu y Jeffrey Xu Yu. Minera Cambios de
Clasificacin por correspondencia Tracing . SDM . 2003 . [Ver Contexto ] .

Douglas Burdick y Manuel Calimlim y Jason Flannick y Johannes Gehrke y Tomi Yiu .
MAFIA : Un estudio sobre los resultados de Minera mximas conjuntos de elementos
frecuentes . FIMI . 2003 . [Ver Contexto ] .

Bart Hamers y J. A. K Suykens . Junto transductivo Ensemble Aprendizaje de Modelos


Kernel . Bart De Moor . 2003 . [Ver Contexto ] .

Eibe Frank y Geoffrey Holmes y Richard Kirkby y Mark A. Hall. Racing Comits de grandes
conjuntos de datos . Discovery Science . 2002 . [Ver Contexto ] .

James Bailey y Thomas Manoukian y Kotagiri Ramamohanarao . Algoritmos rpidos para


Minera patrones emergentes. PKDD . 2002 . [Ver Contexto ] .

Dennis P. Groth y Edward L. Robertson. Un enfoque basado en la entropa de


Visualizacin Estructura de base de datos . VDB . 2002 . [Ver Contexto ] .

Nikunj C. Oza y Stuart J. Russell. Comparaciones experimentales de las versiones en


lnea y por lotes de embolsado y potenciar . KDD . 2001 . [Ver Contexto ] .

Jinyan Li y Guozhu Dong y Kotagiri Ramamohanarao y Limsoon Wong. Profundidades : un


descubrimiento basada en instancia Nuevo y sistema de clasificacin. Actas de la IV
Conferencia Europea sobre Principios y Prctica de Descubrimiento de Conocimiento en
Bases de Datos . 2001 . [Ver Contexto ] .

Dan Pelleg y Andrew W. Moore. Las mezclas de los rectngulos : Interpretables Soft
Clustering . ICML . 2001 . [Ver Contexto ] .

Stephen D. Bay. Multivariante Discretizacin para Set Minera. Conocimiento . Inf . Syst , 3
. 2001 . [Ver Contexto ] .

Zhiyuan Chen y Johannes Gehrke y Flip Korn . Optimizacin de consultas en los sistemas
de base de datos comprimida . Conferencia SIGMOD . 2001 . [Ver Contexto ] .

Stephen D. Bay y Michael J. Pazzani . Diferencias Deteccin Grupo: Conjuntos de


contraste mineras. Dato Min . Conocimiento . Discov , 5 . 2001 . [Ver Contexto ] .

Jie Cheng y Russell Greiner . Comparando red bayesiana clasificadores . UAI . 1999 . [Ver
Contexto ] .

John C. Platt . Usando Analytic QP y poca densidad de velocidad de entrenamiento de


Mquinas de Vectores Soporte . PNI. 1998 . [Ver Contexto ] .

Ron Kohavi . Ampliar los efectivos Precisin de Naive - Bayes clasificadores : Un hbrido
de rbol de decisiones . KDD . 1996 . [Ver Contexto ] .

Gabor Melli . Un enfoque basado en modelos perezoso en On -Line Clasificacin.


Universidad de la Columbia Britnica. 1989 . [Ver Contexto ] .

David R. Musicant y Alexander Feinberg. Set Active Support Vector de regresin . [Ver
Contexto ] .

David R. Musicant . MINERA DE DATOS A TRAVS DE PROGRAMACIN


MATEMTICA Y EL APRENDIZAJE DE LA MQUINA . Doctor en Filosofa ( Ciencias de
la Computacin ) UNIVERSIDAD . [Ver Contexto ] .

Chris Giannella y Bassem Sayrafi . Una teora de la informacin de histograma individual


Dimensional Selectividad Estimacin . Departamento de Ciencias de la Computacin ,
Universidad de Indiana en Bloomington . [Ver Contexto ] .

Masahiro Terabe y Takashi Washio y Hiroshi Motoda . El efecto de submuestreo de


Cambio on S 3 Embolsado de rendimiento . Instituto de Investigacin de Mitsubishi . [Ver
Contexto ] .

Citas:
Por favor, consulte el Repositorio de polticas citacin Aprendizaje Automtico
Census-Income (KDD) Data Set 2000-03-07

Resumen:
Este conjunto de datos contiene los datos del censo ponderados extrados de las
encuestas de poblacin actuales 1994 y 1995 realizadas por la Oficina del Censo de
EE.UU.
Caractersticas 299285 Social
Nmero de
del Conjunto de Multivariable rea:
instancias:
datos:

2000-03-07
Caractersticas Categrico, Nmero de Fecha de
40
del atributo: Entero atributos: Donacin

Nmero
44502
Valores de
Tareas asociadas: Clasificacin Yes
perdidos? accesos
Web:

Fuente:
Propietario original:
Oficina del Censo de EE.UU.
http://www.census.gov/
Departamento de Comercio de los Estados Unidos
Donante:
Terran Lane y Ronny Kohavi
Minera de Datos y Visualizacin
Silicon Graphics.
terran '@' ecn.purdue.edu, ronnyk '@' sgi.com

Informacin del Conjunto de datos: Este conjunto de datos contiene los datos del censo
ponderados extrados de la Encuesta de la Poblacin Actual de 1994 y 1995 realizadas
por la Oficina del Censo de EE.UU.. Los datos contienen 41 variables relacionadas
demogrficas y de empleo.

El peso instancia indica el nmero de personas en la poblacin que cada registro


representa debido al muestreo estratificado. Para hacer un anlisis real y sacar
conclusiones, este campo debe ser utilizado. Este atributo debe * no * puede utilizar en los
clasificadores.

Una instancia por lnea con campos delimitados por comas. Hay 199.523 casos en el
archivo de datos y 99762 en el archivo de prueba.

Los datos se dividi en tren / test en aproximadamente 2/3, 1/3 de proporciones utilizando
MIndUtil MineSet-to-mlc de MineSet.

Informacin de los Atributos:


Ms informacin detallada sobre el significado de los atributos se puede encontrar en la
documentacin de la Oficina del Censo para hacer uso de las descripciones de los datos
en este sitio, se necesitarn los siguientes asignaciones a los nombres de columnas de
bases de datos internas de la Oficina del Censo :
AAGE edad
clase de ACLSWKR trabajador
cdigo de la industria ADTIND
Cdigo de ocupacin ADTOCC
AGI ingreso bruto ajustado
educacin AHGA
salario por hora AHRSPAY
inscrito en inst edu ltima AHSCOL sem
AMARITL estado civil
importante AMJIND cdigo de la industria
importante AMJOCC cdigo ocupacin
maza Arace
Origen Hispano AREORGN
ASEX sexo
miembro de un sindicato laboral AUNMEM
razn de AUNTYPE desempleo

Documentos relevantes:
N/A
Documentos que citan este conjunto de datos

Eibe Frank y Geoffrey Holmes y Richard Kirkby y Mark A. Hall. Racing Comits de grandes
conjuntos de datos. Discovery Science. 2002. [Ver Contexto].

Stephen D. Bay. Multivariante Discretizacin para Set Minera. Conocimiento. Inf. Syst, 3.
2001. [Ver Contexto].

Nikunj C. Oza y Stuart J. Russell. Comparaciones experimentales de las versiones en


lnea y por lotes de embolsado y potenciar. KDD. 2001. [Ver Contexto].

Masahiro Terabe y Takashi Washio y Hiroshi Motoda. El efecto de submuestreo de


Cambio on S 3 Embolsado de rendimiento. Instituto de Investigacin de Mitsubishi. [Ver
Contexto].
Citas:
Por favor, consulte el Repositorio de polticas citacin Aprendizaje Automtico
Challenger USA Space Shuttle O-Ring Data Set 1993-08-05

Resumen:
Tarea: predecir el nmero de juntas tricas que experimentan malestar trmico en un vuelo
a 31 grados F dado datos sobre los 23 vuelos previos de transporte.
Fsica
Caractersticas del Nmero de
Multivariable 23 rea:
Conjunto de datos: instancias:

1993-08-05
Caractersticas del Nmero de Fecha de
Entero 4
atributo: atributos: Donacin

Nmero
Valores de
Tareas asociadas: Regresin No 35773
perdidos? accesos
Web:

Fuente:
Propietario original:
David Draper (draper '@' math.ucla.edu)
Universidad de California, Los Angeles
Donante:
David Draper (draper '@' math.ucla.edu)

Informacin del Conjunto de datos: Hay dos bases de datos: ( ambos utilizan el mismo
conjunto de atributos 5 ) :
1 . Erosin Primaria o- ring y / o escape de combustin
2 . Slo primaria erosin o-ring

Las dos bases de datos son idnticos excepto por el segundo atributo del ejemplo 21a
(confirmado por David Draper el 08/05/93 ) .

Editado de ( Draper, 1993 ) :

La motivacin para la recogida de esta base de datos fue la explosin del transbordador
espacial Challenger EE.UU. el 28 de enero de 1986. Una investigacin se produjo en la
fiabilidad del sistema de propulsin del transbordador. La explosin fue finalmente remontar
al fallo de una de las tres articulaciones de campo en uno de los dos cohetes impulsores
slidos. Cada uno de estos seis articulaciones campo incluye dos juntas tricas,
designadas como primaria y secundaria , que fallan cuando los fenmenos llamados
erosin y escape de combustin tanto ocurrir.

La noche antes de la puesta en marcha de una decisin tena que ser hecho con respecto a
la seguridad del lanzamiento . La discusin entre los ingenieros y gerentes que llevan a
esta decisin incluy la preocupacin de que la probabilidad de fallo de las juntas tricas
dependa de la temperatura t en el lanzamiento, que fue forecase ser 31 grados F. Hay
razones fuertes de ingeniera basados en la composicin de la O anillos para apoyar el
juicio de que la probabilidad de falla puede aumentar montonamente como baja la
temperatura . Una otra variable , se realiz la presin a la que s pruebas de seguridad para
el campo se unen fugas , estaba disponible, pero su importancia para el proceso de fracaso
era poco clara.

El artculo de Draper incluye una figura amenazante graficar el nmero de juntas de campo
que experimentan estrs frente a la temperatura del despegue de los 23 vuelos de los
transbordadores anteriores al desastre del Challenger. No Temperatura despegue anterior
estaba bajo 53 grados F. Aunque tremenda extrapolacin debe hacerse a partir de los
datos dados para evaluar el riesgo a 31 grados F , es evidente incluso para el profano " de
prever el riesgo inaceptablemente alto creado por el lanzamiento en 31 grados F. " Para
obtener ms informacin, consulte Draper ( 1993 ) o los otros anlisis previos .

La tarea consiste en predecir el nmero de juntas tricas que experimentan malestar


trmico para un vuelo determinado cuando la temperatura de lanzamiento est por debajo
de cero .

Informacin de los Atributos:


1. Nmero de juntas tricas en riesgo en un vuelo determinado
2. Nmero experimentar problemas trmica
3. Temperatura de lanzamiento (grados F)
4. Presin de fugas de verificacin (psi)
5. Orden temporal de vuelo

Documentos relevantes:
Draper , D. ( 1993 ) . Evaluacin y propagacin de la incertidumbre del modelo . En Actas
del IV Taller Internacional sobre Inteligencia Artificial y Estadstica (pp. 497-509 ) . Ft. .
Lauderdale, FL : indito .
[Web Link]

Dalal, S. R. , Fowlkes , E. B. , y Hoadley , B. ( 1989 ) . El anlisis de riesgos de la lanzadera


espacial : prediccin de pre - Challenger de fracaso. Revista de la Asociacin Americana
Estadsticos , 84, 945-957 .
[Web Link]

Lavine , M. ( 1991 ) . Los problemas en la extrapolacin ilustran con datos de las juntas
tricas del transbordador espacial. Revista de la Asociacin Americana Estadsticos , 86,
919-922 .

Martz H.F. , y Zimmer, W. J. ( 1992 ) . El riesgo de un fallo catastrfico de los cohetes de


combustible slido del transbordador espacial. Estadsticas de Amrica , 46, 42-47 .
[Web Link]
Documentos que citan este conjunto de datos.
Stephen D. Bay. Multivariante Discretizacin para Set Minera. Conocimiento . Inf . Syst , 3 .
2001 . [Ver Contexto ] .

Pedro Domingos . Linear -Time Regla de induccin . KDD . 1996 . [Ver Contexto ] .

Mohammed Waleed Kadous y Claude Sammut . La Universidad de Nueva Gales del Sur
Escuela de Ciencias de la Computacin e Ingeniera Temporal Clasificacin : Ampliacin de
la Clasificacin Paradigma para multivariante de series temporales . [Ver Contexto ] .

Citas:
Por favor, consulte el Repositorio de polticas citacin Aprendizaje Automtico
Character Trajectories Data Set 2008-08-20

Resumen:
Mltiples muestras, etiquetado de las trayectorias de la punta del lpiz registran mientras
la escritura de caracteres individuales. Todas las muestras son del mismo autor, a los
efectos de la extraccin primitiva. Slo se consideraron los personajes con un solo
segmento visible.].
Caractersticas
Nmero de
del Conjunto de Time-Series 2858 rea: Computacin
instancias:
datos:

2008-08-20
Caractersticas Nmero de Fecha de
Real 3
del atributo: atributos: Donacin

Nmero
Clasificacin, Valores de
Tareas asociadas: N/A 59726
Agrupamiento perdidos? accesos
Web:

Fuente:
Ben H Williams
Escuela de Informticos,
Universidad de Edinburgo,
ben.williams '@' ed.ac.uk

Informacin del Conjunto de datos: Los personajes aqu se utilizaron para un estudio de
doctorado en la extraccin primitiva utilizando modelos HMM basados. Los datos
consisten en 2.858 muestras de carcter, que contiene la matriz celular 'mixout'. 'Consts'
La estructura variable contiene una consts.charlabels de campo que proporciona etiquetas
ennummerated para los personajes. consts.key proporciona la clave para cada etiqueta.
Los datos fueron capturados utilizando una tableta WACOM. 3 Dimensiones se
mantuvieron - x, y, y la fuerza de la punta del lpiz. Los datos han sido numricamente
diferenciada y Gauss alisada, con un valor de sigma de 2. De datos fue capturado en
200Hz. Los datos se normaliz con consts.datanorm. Slo se consideraron los personajes
con un solo segmento 'PEN-DOWN'. Segmentacin de caracteres se realiz con un punto
de corte de la fuerza punta del lpiz. Los personajes tambin se han desplazado de
manera que sus perfiles de velocidad mejor coinciden con la media del conjunto.

Informacin de los Atributos:


Cada muestra de carcter es un 3-dimensional punta del lpiz velocidad trayectoria. Este
est contenido en formato de matriz, con 3 filas y columnas T donde T es la longitud de la
muestra carcter.

Documentos relevantes:
B.H. Williams, M.Toussaint, y A. J. Storkey. La extraccin de las primitivas de movimiento
a partir de datos de escritura a mano naturales. En la ICANN, volumen 2, pginas 634-
643, 2006.

B.H. Williams, M.Toussaint, y A. J. Storkey. Un modelo generativo basado primitiva para


inferir informacin de tiempo en la escritura de datos sin particiones. En IJCAI, pginas
1119-1124, 2007.

B.H. Williams, M. Toussaint, y A. J. Storkey. Primitivas de movimiento y su calendario de


Modelizacin en movimientos biolgicamente ejecutados. En JC Platt, D. Koller, Y. Singer
y S. Roweis, los editores, los avances de la Informacin Sistemas de procesamiento
neural 20, pginas 1609-1616. MIT Press, Cambridge, MA, 2008.
Citas:
Por favor, consulte el Repositorio de polticas citacin Aprendizaje Automtico

Chess (Domain Theories) Data Set


Resumen:
6 teoras de dominio diferentes para la generacin de movimientos legales del ajedrez.
N/A Juegos
Caractersticas del Dominio - Nmero de
rea:
Conjunto de datos: Teora instancias:

N/A
Caractersticas del Nmero de Fecha de
N/A N/A
atributo: atributos: Donacin

Nmero
15954
Valores de
Tareas asociadas: N/A N/A
perdidos? accesos
Web:

Fuente:
1. "chess_flann_new" y "chess_flann_wyl" escrito por flann '@' cs.orst.edu

2. "chess_russel_wyl", originalmente escrito por Stuart Russell en MRS, luego traducido al


prlogo de Flann '@' cs.orst.edu

3. "chess_vijay_1", "chess_vijay_2" y "chess_vijay_3" escrito por vijay '@' cs.orst.edu

Informacin del Conjunto de datos: Los seis codificacin se describen brevemente a


continuacin :

1 ) chess_flann_new : Escrito por flann '@' cs.orst.edu . Emplea una representacin


geomtrica de los estados , con cada cuadrado designado por una X , coordenada Y y
conectividad cuadrado calculado por vectores. Genera movimientos legales de primera
generacin peusdo mueve entonces eliminando aquellas que resultan en el jugador que
mueve estar en jaque.

2 ) chess_flann_wyl : Escrito por flann '@' cs.orst.edu . Emplea una representacin


relacional de los estados , con cada cuadrado dado un nombre nico y conectividad
cuadrado calculado por una enumeracin de las relaciones conectados. Genera
movimientos legales de primera generacin peusdo mueve entonces eliminando aquellas
que resultan en el jugador que mueve estar en jaque.

3 ) chess_russell_wyl : Originalmente escrito por Stuart Russell en MRS , traducido al


prlogo de Flann '@' cs.orst.edu . Emplea una representacin geomtrica de los estados ,
con cada cuadrado designado por una X , coordenada Y y conectividad cuadrado calculado
por vectores. Genera movimientos legales determinando si el lado mvil est en jaque . Si
el lado mvil est en jaque , los movimientos son generados que destruyen la amenaza
cheque. Si el lado mvil no est en jaque , se generan movimientos que no generan una
amenaza cheque. Tenga en cuenta que si el lado mvil est en jaque desde mltiples
amenazas entonces la teora de dominio genera movimientos incorrectos.

4 ) chess_vijay_1 : Escrito por vijay '@' cs.orst.edu . Emplea una representacin relacional
de los estados , con cada cuadrado dado un nombre nico y conectividad cuadrado
calculado por una enumeracin de las relaciones conectados. Genera movimientos legales
de primera generacin peusdo mueve entonces eliminando aquellas que resultan en el
jugador que mueve estar en jaque.

5 ) chess_vijay_2 : Escrito por vijay '@' cs.orst.edu . Emplea una representacin geomtrica
de los estados , con cada cuadrado designado por una X , coordenada Y y conectividad
cuadrado calculado por vectores. Genera movimientos legales de primera generacin
peusdo mueve entonces eliminando aquellas que resultan en el jugador que mueve estar
en jaque.

6 ) chess_vijay_3 : Escrito por vijay '@' cs.orst.edu . Emplea una representacin lineal
especial para los estados, con cada cuadrado designado por un solo nmero y conectividad
cuadrado calculado por un nico valor delta. Genera movimientos legales de primera
generacin peusdo mueve entonces eliminando aquellas que resultan en el jugador que
mueve estar en jaque.

Cada teora de dominio incluye un estado de ejemplo denominado estado1 que describe la
posicin del tablero ilustrado como la Figura 4 ( d ) en Flann y Dietterich , " Un estudio de
los mtodos basados en la explicacin para el aprendizaje inductivo " en Aprendizaje
Automtico , 4 187-226 . Ver test_domain_theories de archivos para un ejemplo de carga y
de desarrollo de las teoras de dominio.

Adems de las teoras de dominio , un archivo llamado support_code est incluido que
contiene algunas rutinas de prlogo tiles. Una rutina toma una descripcin genrica de
tablero de ajedrez y un nombre de dominio de la teora , y produce una descripcin del
estado de prlogo adecuado para su uso con la teora del dominio dado. Ver
test_domain_theories de archivos para un ejemplo de la generacin de descripciones de
estado .

Informacin de los Atributos:


N/A

Documentos relevantes:
Flann y Dietterich , " Un estudio de los mtodos basados en la explicacin para el
aprendizaje inductivo ", Aprendizaje Automtico , 4 187-226 .
[Web Link]

4 ) chess_vijay_1 : Escrito por vijay '@' cs.orst.edu . Emplea una representacin relacional
de los estados , con cada cuadrado dado un nombre nico y conectividad cuadrado
calculado por una enumeracin de las relaciones conectados. Genera movimientos legales
de primera generacin peusdo mueve entonces eliminando aquellas que resultan en el
jugador que mueve estar en jaque.

5 ) chess_vijay_2 : Escrito por vijay '@' cs.orst.edu . Emplea una representacin geomtrica
de los estados , con cada cuadrado designado por una X , coordenada Y y conectividad
cuadrado calculado por vectores. Genera movimientos legales de primera generacin
peusdo mueve entonces eliminando aquellas que resultan en el jugador que mueve estar
en jaque.

6 ) chess_vijay_3 : Escrito por vijay '@' cs.orst.edu . Emplea una representacin lineal
especial para los estados, con cada cuadrado designado por un solo nmero y conectividad
cuadrado calculado por un nico valor delta. Genera movimientos legales de primera
generacin peusdo mueve entonces eliminando aquellas que resultan en el jugador que
mueve estar en jaque.

Cada teora de dominio incluye un estado de ejemplo denominado estado1 que describe la
posicin del tablero ilustrado como la Figura 4 ( d ) en Flann y Dietterich , " Un estudio de
los mtodos basados en la explicacin para el aprendizaje inductivo " en Aprendizaje
Automtico , 4 187-226 . Ver test_domain_theories de archivos para un ejemplo de carga y
de desarrollo de las teoras de dominio.

Adems de las teoras de dominio , un archivo llamado support_code est incluido que
contiene algunas rutinas de prlogo tiles. Una rutina toma una descripcin genrica de
tablero de ajedrez y un nombre de dominio de la teora , y produce una descripcin del
estado de prlogo adecuado para su uso con la teora del dominio dado. Ver
test_domain_theories de archivos para un ejemplo de la generacin de descripciones de
estado .

Documentos que citan este conjunto de datos

Mark A. Hall. Departamento de Ciencias de la Computacin Hamilton, Nueva Zelandia


basada en correlacin Seleccin de caractersticas para el Aprendizaje de la mquina.
Doctor en Filosofa en la Universidad de Waikato. 1999. [Ver Contexto].

Citas:
Por favor, consulte el Repositorio de polticas citacin Aprendizaje Automtico
1994-06-01

Chess (King-Rook vs. King) Data Set


Resumen:
Ajedrez Base de datos para Blanco Rey y Torre contra Rey Negro (KRK)..
Caractersticas del 28056 Juego
Nmero de
Conjunto de Multivariable rea:
instancias:
datos:

1994-06-01
Caractersticas del Categrico, Nmero de Fecha de
6
atributo: Entero atributos: Donacin

Nmero
38903
Valores de
Tareas asociadas: Clasificacin No
perdidos? accesos
Web:

Fuente:
Creadores:
Base de datos generada por Michael Bain y Arthur van Hoff en el Instituto Turing , Glasgow
, Reino Unido.

Donante:
Michael Bain ( mike '@' cse.unsw.edu.au ) , AI Lab, Ciencias de la Computacin
Universidad de Nueva Gales del Sur , Sydney 2052 , Australia .
( tel) +61 2 385 3939
(fax) +61 2 663 4576

Informacin del Conjunto de datos: Una programacin lgica inductiva (ILP ) o un marco
de aprendizaje relacional se supone ( Muggleton , 1992 ) . El sistema de aprendizaje se
proporciona con ejemplos de posiciones de ajedrez descritos slo por las coordenadas de
las piezas en el tablero . Tambin se suministra el conocimiento de fondo en forma de
diferencias de fila y columna . Las relaciones necesarias para formar un clasificador
correcta y concisa para el concepto de destino deben ser descubiertos por el sistema de
aprendizaje ( los ejemplos ya proporcionan una definicin extensional completa ) . La tarea
est estrechamente relacionada con ( 1983 ) la aplicacin de Quinlan de ID3 para clasificar
Blanco Rey y Torre contra posiciones Negro Rey y Caballero ( KRKN ) como perdida de 2
capas o perdida de 3 capas . El marco es similar en que el ejemplo se coloca slo los datos
de bajo grado de suministro . Una diferencia importante es que los predicados de fondo
adicionales del tipo suministrado en el estudio KRKN mediante atributos artesanales no se
proporcionan para este dominio KRK .

Los finales de ajedrez son dominios complejos que son enumerable . Bases de datos de
finales son tablas de valores de teora de juegos almacenados para los elementos
enumerados (posiciones jurdicas ) del dominio. Los valores de la teora de juegos
almacenados denota independientemente de si las posiciones se ganan por cada lado , o
incluir tambin la profundidad de la victoria ( nmero de movimientos ) suponiendo play-
minimax ptima. Desde el punto de vista de los experimentos sobre la induccin de
ordenador tales bases de datos proporcionan no slo una fuente de ejemplos , sino tambin
un orculo ( Roycroft , 1986 ) para las reglas de inducidos de prueba . Sin embargo, una
base de datos de final de juego de ajedrez se diferencia de , por ejemplo , una base de
datos relacional que contiene los detalles de las partes y los proveedores en el siguiente
aspecto importante. Los combinatoria del clculo de los valores de la teora de juegos
requeridos para las entradas individuales de posicin independiente seran prohibitivos .
Por lo tanto todas las entradas de la base de datos se generan en un solo proceso iterativo
utilizando el algoritmo ( Thompson , 1986 ) `` estndar '' de copia de seguridad .

Una base de datos KRK fue descrito por Clarke ( 1977 ) . La base de datos actual fue
descrito y utilizado para los experimentos de aprendizaje automtico en Bain ( 1992 ; 1994 )
. Cabe sealar que la base de datos no est garantizada correcta , pero la distribucin de
clase es la misma que la base de datos de Clarke . En ( Bain 1992 ; 1994 ) la tarea era la
clasificacin de puestos en la base de datos como ganaron por blanco en un nmero fijo de
movimientos , en el supuesto juego ptimo por ambos lados. El problema se ha
estructurado en sub- problemas separados por la profundidad de la victoria ordenado
empate , cero, uno , ..., diecisis. Cuando el aprendizaje de profundidad d todos los
ejemplos a profundidades > d se utilizan como negativos. Quinlan ( 1994 ) aplica la hoja de
aprender una solucin completa y correcta para esta tarea .

La complejidad tpica de clasificadores inducidos en este campo sugieren que la tarea es


exigente cuando el conocimiento de fondo est restringido.

Informacin de los Atributos:


1. Archivo Rey Blanco (columna)
2. Rango Rey Blanco (fila)
3. Archivo Blanco Torre
4. Ranking Blanco Torre
5. Archivo de Rey Negro
6. Ranking Negro Rey
7. ptimo de la profundidad de la victoria para las blancas en 0 a 16 movimientos, dibujado
otra manera {empate, cero, uno, dos, ..., diecisis}.

Documentos relevantes:
M. Bain. "Aprender estrategias ptimas de ajedrez " , ILP 92 : ICOT TM- 1182, S.
Muggleton , Instituto de Tecnologa de Computadoras de Nueva Generacin , Tokio ,
Japn.
[Web Link]

M. Bain. Aprender excepciones lgicas en Ajedrez. Tesis doctoral . Universidad de


Strathclyde. 1994 .
[Web Link]

M. R. B. Clarke . Un estudio cuantitativo de Rey y Pen contra Rey. Los avances en la


computadora de ajedrez , 1, 108-110 . M. R. B. Clarke , ed. Edinburgh University Press.
Edimburgo. 1977
[Web Link]

S. Muggleton . Programacin lgica inductiva , 3-27 . S. Muggleton , ed. Academic Press,


Londres , 1992 .
[Web Link]

J. R. Quinlan . Aprender los procedimientos de clasificacin eficientes y su Aplicacin al


ajedrez End Games.Machine Learning : Un enfoque de Inteligencia Artificial. 464-482 . R. y
J. Michalski Carbonnel y T. Mitchell, eds . Tioga, 1983 . Palo Alto, CA .
[Web Link]

A. J. Roycroft . Base de datos " Orculos '': las caractersticas necesarias y deseables
Revista Internacional de la Asociacin de Ajedrez de ordenador 8 , 2, 1986 100-104 . . . .
[Web Link]

K. Thompson . Anlisis retrgrado de ciertos Asociacin de Ajedrez Endgames.International


Computer Journal . 8 , 3 , 1986 . 131-139 .
[Web Link]
Documentos que citan este conjunto de datos.

Manuel Oliveira. Biblioteca de formularios de lanzamiento Nombre del Autor : Stanley


Robson de Oliveira Medeiros Ttulo de la tesis: transformacin de datos para la privacidad -
Preservar Data Mining Titulacin: Doctor en Filosofa Ao este ttulo otorgado . Universidad
de Alberta Library . 2005 . [Ver Contexto ] .

Ira Cohen y Fabio Gagliardi Cozman y Nicu Sebe y Marcelo Cesar Cirelo y Thomas S.
Huang. Semisupervised Aprendizaje de clasificadores : Teora, Algoritmos , y su aplicacin
a la Interaccin Persona-Ordenador . IEEE Trans . Patrn anal . Mach . Intell , 26 . 2004 .
[Ver Contexto ] .

Marcus Hutter y Marco Zaffalon . Distribucin de Informacin Mutua de datos completas e


incompletas . CoRR , csLG/0403025 . 2004 . [Ver Contexto ] .

Douglas Burdick y Manuel Calimlim y Jason Flannick y Johannes Gehrke y Tomi Yiu .
MAFIA : Un estudio sobre los resultados de Minera mximas conjuntos de elementos
frecuentes . FIMI . 2003 . [Ver Contexto ] .

Tanzeem Choudhury y James M. Rehg y Vladimir Pavlovic y Alex Pentland . Impulsar y


estructura de aprendizaje en redes bayesianas dinmicas para la Deteccin de Audio-
Visual altavoz . ICPR ( 3 ) . 2002 . [Ver Contexto ] .

Marco Zaffalon y Marcus Hutter . Robusto Seleccin de caractersticas de la informacin


mutua Distribuciones . CoRR , csAI/0206006 . 2002 . [Ver Contexto ] .

Michael G. Madden. Evaluacin del Desempeo de la cadena de Markov clasificador


bayesiano Algoritmo . CoRR , csLG/0211003 . 2002 . [Ver Contexto ] .

James Bailey y Thomas Manoukian y Kotagiri Ramamohanarao . Algoritmos rpidos para


Minera patrones emergentes. PKDD . 2002 . [Ver Contexto ] .

Russell Greiner y Wei Zhou. Extensin estructural de regresin logstica: Parmetro de


Aprendizaje discriminativo de creencias Clasificadores netos . AAAI / IAAI . 2002 . [Ver
Contexto ] .

Boonserm Kijsirikul y Sukree Sinthupinyo y Kongsak Chongkasemwongse . Partido


aproximado de reglas utilizando redes neuronales backpropagation . Aprendizaje
Automtico , 44. 2001 . [Ver Contexto ] .

Jinyan Li y Guozhu Dong y Kotagiri Ramamohanarao y Limsoon Wong. Profundidades : un


descubrimiento basada en instancia Nuevo y sistema de clasificacin. Actas de la IV
Conferencia Europea sobre Principios y Prctica de Descubrimiento de Conocimiento en
Bases de Datos . 2001 . [Ver Contexto ] .

Jie Cheng y Russell Greiner . Aprender Clasificadores Red de creencia bayesiana :


Algoritmos y Sistema . Conferencia Canadiense sobre la influenza aviar. 2001 . [Ver
Contexto ] .

Jinyan Li y Guozhu Dong y Kotagiri Ramamohanarao . Clasificacin basada en instancia


por los patrones emergentes . PKDD . 2000 . [Ver Contexto ] .

Mark A. Hall. Departamento de Ciencias de la Computacin Hamilton, Nueva Zelandia


basada en correlacin Seleccin de caractersticas para el Aprendizaje de la mquina .
Doctor en Filosofa en la Universidad de Waikato . 1999 . [Ver Contexto ] .

Yk Huhtala y Juha Krkkinen y Pasi Porkka y Hannu Toivonen . Descubrimiento eficiente


de las dependencias funcionales y aproximadas utilizando particiones . ICDE . 1998 . [Ver
Contexto ] .

Adam J. Grove y Dale Schuurmans . Impulsar en el lmite: La maximizacin del margen de


Conjuntos aprendidas . AAAI / IAAI . 1998 . [Ver Contexto ] .

Ron Kohavi . Ampliar los efectivos Precisin de Naive - Bayes clasificadores : Un hbrido de
rbol de decisiones . KDD . 1996 . [Ver Contexto ] .

Ron Kohavi y Dan Sommerfield . Funcin de seleccin de subconjuntos mediante el mtodo


de Envoltura : Overfitting y bsqueda dinmica espacial de topologa. KDD . 1995 . [Ver
Contexto ] .

Brian R. Gaines. Induccin estructurados y no estructurados con EDAGs . KDD . 1995 .


[Ver Contexto ] .

Hankil Yoon y Khaled A. Alsabti y Sanjay Ranka . Clasificacin incremental basado en


rboles de grandes conjuntos de datos . Departamento CISE , Universidad de Florida. [Ver
Contexto ] .

Omid Madani y David M. Pennock y Gary William Flake . Co- validacin: El uso de modelos
Desacuerdo para validar algoritmos de clasificacin . Yahoo! Research Labs . [Ver Contexto
].

M. A. Galway y Michael G. Madden. DEPARTAMENTO DE TECNOLOGA DE LA


INFORMACIN informe tcnico NUIG -IT- 011002 Evaluacin del Desempeo de la cadena
de Markov clasificador bayesiano Algoritmo . Departamento de Tecnologa de la
Informacin de la Universidad Nacional de Irlanda, Galway. [Ver Contexto ] .

BayesianClassifi552 Pat Langley y Wayne Iba. En Actas de la Inteligencia Nacional


ConferenceonArtifi256 Dcima ( 42.840 . Lambda Kevin Thompson. [Ver Contexto ] .

Jerome H. Friedman y Ron Kohavi y Youngkeol Yun. Para aparecer en AAAI - 96 rboles
de decisin de Lazy . Departamento de Estadstica y Stanford Linear Accelerator Center de
la Universidad de Stanford. [Ver Contexto ] .

Grigorios Tsoumakas y Ioannis P. Vlahavas . Fuzzy Meta -Learning: Resultados


preliminares . Secretara Griego para la Investigacin y la Tecnologa. [Ver Contexto ] .

Nikunj C. Oza y Stuart J. Russell. Embolsado en lnea e impulsar . Divisin de Ciencias de


la Computacin de la Universidad de California. [Ver Contexto ] .

Citas:
Por favor, consulte el Repositorio de polticas citacin Aprendizaje Automtico
Chess (King-Rook vs. King-Knight) Data Set 1988-10-03

Resumen:

Ajedrez perno caballero base de datos.


Caractersticas del Multivariable, N/A Juego
Nmero de
Conjunto de Generador de rea:
instancias:
datos: datos

1988-10-03
Caractersticas del Categrico, Nmero de Fecha de
22
atributo: Entero atributos: Donacin

Nmero
22819
Valores de
Tareas asociadas: Clasificacin No
perdidos? accesos
Web:

Fuente:
Base de datos originalmente descrito por Ross Quinlan .
Donante / Coder :
Jeff Schlimmer ( Jeff.Schlimmer '@' cs.cmu.edu )

Informacin del Conjunto de datos: El archivo de compaero es un archivo de


demostracin Common Lisp que genera muestras Ajedrez final del juego caballero pines.
Inicie Lisp y cargar el archivo . Genera 100 -juegos finales y los graba en un archivo aparte .
Mira el final del archivo para ver cmo cambiarlo para que se produzca ms juegos finales,
o utilizar el archivo de salida que desee .

El cdigo est liberado para experimentacin , slo para uso confidencial. Ver el final del
archivo de comandos de tiempo de carga que generan un archivo de ejemplos en formato
de Quinlan .

Nota: este programa genera duplicados. En una carrera , haba cerca de 370 copias en los
primeros 1.000 casos (es decir, 630 ejemplos diferentes) .

Informacin de los Atributos:


Atributo Resmenes :
Clase: lado del caballero se pierde en n -capas (n = 2 , 3 , etc)
1 . distancia de rey negro para caballero : 1 , 2, > 2
2 . distancia de rey negro a la torre : 1 , 2, > 2
3 . distancia de rey negro al rey blanco : 1 , 2, > 2
4 . distancia de rey blanco al caballero : 1 , 2, > 2
5 . distancia de rey blanco a la torre : 1 , 2, > 2
6 . distancia de la torre de caballero ( AGREGADO ): 1, 2 , > 2
7 . relacin consejo de rey negro y el caballo ( AGREGADO ) : diagnstico , rect , otra
8 . relacin consejo de rey negro y la torre ( AGREGADO ) : diagnstico , rect , otra
9 . relacin consejo de rey negro y rey blanco ( AGREGADO ) : diagnstico , rect , otra
10 . relacin consejo de rey blanco y el caballero ( AGREGADO ) : diagnstico , rect , otra
11 . relacin consejo de rey blanco y la torre ( AGREGADO ) : diagnstico , rect , otra
12 . relacin consejo de torre blanca y caballero ( AGREGADO ) : diagnstico , rect , otra
13 . tipo de de rey negro inicial cuadrada : esquina, borde, apertura
14 . tipo de plaza inicial del caballero negro ( AGREGADO ) : esquina, borde, apertura
15 . tipo de plaza inicial del rey blanco ( AGREGADO ) : esquina, borde, apertura
16 . tipo de plaza inicial de torre blanca ( AGREGADO ) : esquina, borde, apertura
17 . grajo comprueba rey negro ( se omite, siempre f ) : t, f
18 . grajo amenaza caballero ( se omite, siempre t): t, f
19 . Caballero amenaza torre ( se omite, siempre f ) : t, f
20 . rey negro , caballero, grajo en lnea ( se omite, siempre t) t, f
21 . rey negro puede moverse junto al caballero (omitido ) t, f
22 . caballero puede interponer adyacente a rey (omitido ) t, f

Documentos relevantes:
Quinlan , J. R. ( 1983 ) . Aprender los procedimientos de clasificacin eficaces y su
aplicacin al ajedrez End Games . En R.S. Michalski , J.G. Carbonell , y T.M. Mitchell ( Eds.
) , Aprendizaje Automtico - Un enfoque de Inteligencia Artificial , 463-482 , Palo Alto :
Tioga .
[Web Link]
Documentos que citan este conjunto de datos.

Manuel Oliveira. Biblioteca de formularios de lanzamiento Nombre del Autor : Stanley


Robson de Oliveira Medeiros Ttulo de la tesis: transformacin de datos para la privacidad -
Preservar Data Mining Titulacin: Doctor en Filosofa Ao este ttulo otorgado . Universidad
de Alberta Library . 2005 . [Ver Contexto ] .

Ira Cohen y Fabio Gagliardi Cozman y Nicu Sebe y Marcelo Cesar Cirelo y Thomas S.
Huang. Semisupervised Aprendizaje de clasificadores : Teora, Algoritmos , y su aplicacin
a la Interaccin Persona-Ordenador . IEEE Trans . Patrn anal . Mach . Intell , 26 . 2004 .
[Ver Contexto ] .

Marcus Hutter y Marco Zaffalon . Distribucin de Informacin Mutua de datos completas e


incompletas . CoRR , csLG/0403025 . 2004 . [Ver Contexto ] .

Douglas Burdick y Manuel Calimlim y Jason Flannick y Johannes Gehrke y Tomi Yiu .
MAFIA : Un estudio sobre los resultados de Minera mximas conjuntos de elementos
frecuentes . FIMI . 2003 . [Ver Contexto ] .

Tanzeem Choudhury y James M. Rehg y Vladimir Pavlovic y Alex Pentland . Impulsar y


estructura de aprendizaje en redes bayesianas dinmicas para la Deteccin de Audio-
Visual altavoz . ICPR ( 3 ) . 2002 . [Ver Contexto ] .

Marco Zaffalon y Marcus Hutter . Robusto Seleccin de caractersticas de la informacin


mutua Distribuciones . CoRR , csAI/0206006 . 2002 . [Ver Contexto ] .

Michael G. Madden. Evaluacin del Desempeo de la cadena de Markov clasificador


bayesiano Algoritmo . CoRR , csLG/0211003 . 2002 . [Ver Contexto ] .

James Bailey y Thomas Manoukian y Kotagiri Ramamohanarao . Algoritmos rpidos para


Minera patrones emergentes. PKDD . 2002 . [Ver Contexto ] .

Russell Greiner y Wei Zhou. Extensin estructural de regresin logstica: Parmetro de


Aprendizaje discriminativo de creencias Clasificadores netos . AAAI / IAAI . 2002 . [Ver
Contexto ] .

Boonserm Kijsirikul y Sukree Sinthupinyo y Kongsak Chongkasemwongse . Partido


aproximado de reglas utilizando redes neuronales backpropagation . Aprendizaje
Automtico , 44. 2001 . [Ver Contexto ] .

Jinyan Li y Guozhu Dong y Kotagiri Ramamohanarao y Limsoon Wong. Profundidades : un


descubrimiento basada en instancia Nuevo y sistema de clasificacin. Actas de la IV
Conferencia Europea sobre Principios y Prctica de Descubrimiento de Conocimiento en
Bases de Datos . 2001 . [Ver Contexto ] .

Jie Cheng y Russell Greiner . Aprender Clasificadores Red de creencia bayesiana :


Algoritmos y Sistema . Conferencia Canadiense sobre la influenza aviar. 2001 . [Ver
Contexto ] .

Jinyan Li y Guozhu Dong y Kotagiri Ramamohanarao . Clasificacin basada en instancia


por los patrones emergentes . PKDD . 2000 . [Ver Contexto ] .

Mark A. Hall. Departamento de Ciencias de la Computacin Hamilton, Nueva Zelandia


basada en correlacin Seleccin de caractersticas para el Aprendizaje de la mquina .
Doctor en Filosofa en la Universidad de Waikato . 1999 . [Ver Contexto ] .

Yk Huhtala y Juha Krkkinen y Pasi Porkka y Hannu Toivonen . Descubrimiento eficiente


de las dependencias funcionales y aproximadas utilizando particiones . ICDE . 1998 . [Ver
Contexto ] .

Adam J. Grove y Dale Schuurmans . Impulsar en el lmite: La maximizacin del margen de


Conjuntos aprendidas . AAAI / IAAI . 1998 . [Ver Contexto ] .

Ron Kohavi . Ampliar los efectivos Precisin de Naive - Bayes clasificadores : Un hbrido de
rbol de decisiones . KDD . 1996 . [Ver Contexto ] .

Ron Kohavi y Dan Sommerfield . Funcin de seleccin de subconjuntos mediante el mtodo


de Envoltura : Overfitting y bsqueda dinmica espacial de topologa. KDD . 1995 . [Ver
Contexto ] .

Brian R. Gaines. Induccin estructurados y no estructurados con EDAGs . KDD . 1995 .


[Ver Contexto ] .

Hankil Yoon y Khaled A. Alsabti y Sanjay Ranka . Clasificacin incremental basado en


rboles de grandes conjuntos de datos . Departamento CISE , Universidad de Florida. [Ver
Contexto ] .

Omid Madani y David M. Pennock y Gary William Flake . Co- validacin: El uso de modelos
Desacuerdo para validar algoritmos de clasificacin . Yahoo! Research Labs . [Ver Contexto
].

M. A. Galway y Michael G. Madden. DEPARTAMENTO DE TECNOLOGA DE LA


INFORMACIN informe tcnico NUIG -IT- 011002 Evaluacin del Desempeo de la cadena
de Markov clasificador bayesiano Algoritmo . Departamento de Tecnologa de la
Informacin de la Universidad Nacional de Irlanda, Galway. [Ver Contexto ] .

BayesianClassifi552 Pat Langley y Wayne Iba. En Actas de la Inteligencia Nacional


ConferenceonArtifi256 Dcima ( 42.840 . Lambda Kevin Thompson. [Ver Contexto ] .

Jerome H. Friedman y Ron Kohavi y Youngkeol Yun. Para aparecer en AAAI - 96 rboles
de decisin de Lazy . Departamento de Estadstica y Stanford Linear Accelerator Center de
la Universidad de Stanford. [Ver Contexto ] .

Grigorios Tsoumakas y Ioannis P. Vlahavas . Fuzzy Meta -Learning: Resultados


preliminares . Secretara Griego para la Investigacin y la Tecnologa. [Ver Contexto ] .
Nikunj C. Oza y Stuart J. Russell. Embolsado en lnea e impulsar . Divisin de Ciencias de
la Computacin de la Universidad de California. [Ver Contexto ] .

Citas:
Por favor, consulte el Repositorio de polticas citacin Aprendizaje Automtico
Chess (King-Rook vs. King-Pawn) Data Set 1989-08-01

Resumen:
Rey + Torre contra Rey + Pen en a7 (KRKPA7 generalmente abreviado).
3196 Juego
Caractersticas del Nmero de
Multivariable rea:
Conjunto de datos: instancias:

1989-08-01
Caractersticas del Nmero de Fecha de
Categrico 36
atributo: atributos: Donacin

Nmero
Valores de
Tareas asociadas: Clasificacin No 36451
perdidos? accesos
Web:

Fuente:
Base de datos originalmente generados y descrito por Alen Shapiro.
Donante / Coder :
Rob Holte ( holte '@' uottawa.bitnet ) .
La base de datos fue suministrada a Holte por Peter Clark del Instituto Turing en Glasgow (
pete '@' turing.ac.uk ) .

Informacin del Conjunto de datos: El formato de datos se describe a continuacin .


Nota: el formato de esta base de datos fue modificada el 02/26/90 para cumplir con el
formato de todas las otras bases de datos del repositorio UCI de las bases de datos de
aprendizaje automtico.

Informacin de los Atributos:


Clases ( 2 ): - puede ganar- Blanco- ( "ganado" ) y White cannot- ganar- ( " nowin ") .
Yo creo que las blancas se considera que es incapaz de ganar si el pen Negro puede
avanzar con seguridad .
Atributos: vase el libro de Shapiro.

Documentos relevantes:
Alen D. Shapiro ( 1983,1987 ) , "Induccin estructurada en sistemas expertos " , Addison -
Wesley . Este libro se basa en doctorado de Shapiro Tesis ( 1983 ) en la Universidad de
Edimburgo , titulado " El papel de la induccin estructurado en Sistemas Expertos " .
[Web Link]

Stephen Muggleton ( 1987 ) , " Estructuracin del conocimiento haciendo preguntas " ,
pp.218 - 229 en "El progreso en el aprendizaje de la mquina" , editado por I. Bratko y Nada
Lavrac , Sigma Press, Wilmslow , Inglaterra SK9 5BB .
[Web Link]

Robert C. Holte, Liane Acker, y Bruce W. Porter ( 1989 ) , " Concepto de Aprendizaje y el
problema de las pequeas disyunciones " , Actas de IJCAI . Tambin disponible como
informe tcnico AI89 -106, Departamento de Ciencias de la Computacin, Universidad de
Texas en Austin , Austin , Texas 78712 .
[Web Link]
Documentos que citan este conjunto de datos.
Manuel Oliveira. Biblioteca de formularios de lanzamiento Nombre del Autor : Stanley
Robson de Oliveira Medeiros Ttulo de la tesis: transformacin de datos para la privacidad -
Preservar Data Mining Titulacin: Doctor en Filosofa Ao este ttulo otorgado . Universidad
de Alberta Library . 2005 . [Ver Contexto ] .

Ira Cohen y Fabio Gagliardi Cozman y Nicu Sebe y Marcelo Cesar Cirelo y Thomas S.
Huang. Semisupervised Aprendizaje de clasificadores : Teora, Algoritmos , y su aplicacin
a la Interaccin Persona-Ordenador . IEEE Trans . Patrn anal . Mach . Intell , 26 . 2004 .
[Ver Contexto ] .

Marcus Hutter y Marco Zaffalon . Distribucin de Informacin Mutua de datos completas e


incompletas . CoRR , csLG/0403025 . 2004 . [Ver Contexto ] .

Douglas Burdick y Manuel Calimlim y Jason Flannick y Johannes Gehrke y Tomi Yiu .
MAFIA : Un estudio sobre los resultados de Minera mximas conjuntos de elementos
frecuentes . FIMI . 2003 . [Ver Contexto ] .

Tanzeem Choudhury y James M. Rehg y Vladimir Pavlovic y Alex Pentland . Impulsar y


estructura de aprendizaje en redes bayesianas dinmicas para la Deteccin de Audio-
Visual altavoz . ICPR ( 3 ) . 2002 . [Ver Contexto ] .

Marco Zaffalon y Marcus Hutter . Robusto Seleccin de caractersticas de la informacin


mutua Distribuciones . CoRR , csAI/0206006 . 2002 . [Ver Contexto ] .

Michael G. Madden. Evaluacin del Desempeo de la cadena de Markov clasificador


bayesiano Algoritmo . CoRR , csLG/0211003 . 2002 . [Ver Contexto ] .

James Bailey y Thomas Manoukian y Kotagiri Ramamohanarao . Algoritmos rpidos para


Minera patrones emergentes. PKDD . 2002 . [Ver Contexto ] .

Russell Greiner y Wei Zhou. Extensin estructural de regresin logstica: Parmetro de


Aprendizaje discriminativo de creencias Clasificadores netos . AAAI / IAAI . 2002 . [Ver
Contexto ] .

Boonserm Kijsirikul y Sukree Sinthupinyo y Kongsak Chongkasemwongse . Partido


aproximado de reglas utilizando redes neuronales backpropagation . Aprendizaje
Automtico , 44. 2001 . [Ver Contexto ] .

Jinyan Li y Guozhu Dong y Kotagiri Ramamohanarao y Limsoon Wong. Profundidades : un


descubrimiento basada en instancia Nuevo y sistema de clasificacin. Actas de la IV
Conferencia Europea sobre Principios y Prctica de Descubrimiento de Conocimiento en
Bases de Datos . 2001 . [Ver Contexto ] .

Jie Cheng y Russell Greiner . Aprender Clasificadores Red de creencia bayesiana :


Algoritmos y Sistema . Conferencia Canadiense sobre la influenza aviar. 2001 . [Ver
Contexto ] .

Jinyan Li y Guozhu Dong y Kotagiri Ramamohanarao . Clasificacin basada en instancia


por los patrones emergentes . PKDD . 2000 . [Ver Contexto ] .

Mark A. Hall. Departamento de Ciencias de la Computacin Hamilton, Nueva Zelandia


basada en correlacin Seleccin de caractersticas para el Aprendizaje de la mquina .
Doctor en Filosofa en la Universidad de Waikato . 1999 . [Ver Contexto ] .
Yk Huhtala y Juha Krkkinen y Pasi Porkka y Hannu Toivonen . Descubrimiento eficiente
de las dependencias funcionales y aproximadas utilizando particiones . ICDE . 1998 . [Ver
Contexto ] .

Adam J. Grove y Dale Schuurmans . Impulsar en el lmite: La maximizacin del margen de


Conjuntos aprendidas . AAAI / IAAI . 1998 . [Ver Contexto ] .

Ron Kohavi . Ampliar los efectivos Precisin de Naive - Bayes clasificadores : Un hbrido de
rbol de decisiones . KDD . 1996 . [Ver Contexto ] .

Ron Kohavi y Dan Sommerfield . Funcin de seleccin de subconjuntos mediante el mtodo


de Envoltura : Overfitting y bsqueda dinmica espacial de topologa. KDD . 1995 . [Ver
Contexto ] .

Brian R. Gaines. Induccin estructurados y no estructurados con EDAGs . KDD . 1995 .


[Ver Contexto ] .

Hankil Yoon y Khaled A. Alsabti y Sanjay Ranka . Clasificacin incremental basado en


rboles de grandes conjuntos de datos . Departamento CISE , Universidad de Florida. [Ver
Contexto ] .

Omid Madani y David M. Pennock y Gary William Flake . Co- validacin: El uso de modelos
Desacuerdo para validar algoritmos de clasificacin . Yahoo! Research Labs . [Ver Contexto
].

M. A. Galway y Michael G. Madden. DEPARTAMENTO DE TECNOLOGA DE LA


INFORMACIN informe tcnico NUIG -IT- 011002 Evaluacin del Desempeo de la cadena
de Markov clasificador bayesiano Algoritmo . Departamento de Tecnologa de la
Informacin de la Universidad Nacional de Irlanda, Galway. [Ver Contexto ] .

BayesianClassifi552 Pat Langley y Wayne Iba. En Actas de la Inteligencia Nacional


ConferenceonArtifi256 Dcima ( 42.840 . Lambda Kevin Thompson. [Ver Contexto ] .

Jerome H. Friedman y Ron Kohavi y Youngkeol Yun. Para aparecer en AAAI - 96 rboles
de decisin de Lazy . Departamento de Estadstica y Stanford Linear Accelerator Center de
la Universidad de Stanford. [Ver Contexto ] .

Grigorios Tsoumakas y Ioannis P. Vlahavas . Fuzzy Meta -Learning: Resultados


preliminares . Secretara Griego para la Investigacin y la Tecnologa. [Ver Contexto ] .

Nikunj C. Oza y Stuart J. Russell. Embolsado en lnea e impulsar . Divisin de Ciencias de


la Computacin de la Universidad de California. [Ver Contexto ] .

Citas:
Por favor, consulte el Repositorio de polticas citacin Aprendizaje Automtico
Clima Modelo de Simulacin 2014-02-12
Crashes Data Set
Resumen: Dada muestras hipercubo latino de 18 valores de los parmetros de entrada
del modelo del clima, predecir los accidentes de simulacin de modelos climticos y
determinar las combinaciones de valores de parmetros que causan los fracasos.

Caractersticas
Nmero de
del Conjunto de N/A 11000000 rea: Fsico
instancias:
datos:

Caractersticas Nmero de Fecha de


Real 28 02/12/2014
del atributo: atributos: Donacin

Nmero
Tareas Valores de
Clasificacin N/A 4926
asociadas: perdidos? accesos
Web:

Fuente:

D. Lucas (ddlucas. Al. Alum.mit.edu), el Laboratorio Nacional Lawrence Livermore


R. Klein (rklein. Al. Astron.berkeley.edu), el Laboratorio Nacional Lawrence Livermore y la
Universidad de Berkeley
J. Tannahill (tannahill1. Al. Llnl.gov), el Laboratorio Nacional Lawrence Livermore
D. Ivanova (ivanova2. Al. Llnl.gov), Lawrence Livermore Nacional Laboratory
S. Brandon (brandon1. Al. Llnl.gov), el Laboratorio Nacional Lawrence Livermore
D. Domyancic (domyancic1. Al. Llnl.gov), Lawrence Livermore Nacional Laboratory
Y. Zhang (zhang24. Al. Llnl.gov), el Laboratorio Nacional Lawrence Livermore Estos datos
se construy utilizando LLNL UQ Pipeline, fue creado bajo los auspicios del Departamento
de Energa de los EE.UU. por el Laboratorio Nacional Lawrence Livermore en virtud de
contrato DE-AC52-07NA27344, financiado por la incertidumbre del LLNL Iniciativa
Estratgica Cuantificacin Laboratorio Dirigido Proyecto de Investigacin y Desarrollo en el
cdigo de seguimiento de 10-SI-013, y se libera con el nmero UCRL LLNL-MISC-633994.

Datos Conjunto de Informacin:


Este conjunto de datos contiene registros de accidentes de simulacin encontradas
durante modelo climtico incertidumbre cuantificacin (UQ) conjuntos. miembros del
conjunto se construyeron utilizando un mtodo hipercubo latino en sistema de software UQ
Pipeline del LLNL para probar las incertidumbres de 18 parmetros del modelo dentro del
Programa Ocano Paralelo (POP2) componente del Sistema Climtico Modelo
Comunitario (CCSM4). Se realizaron tres conjuntos hipercubo latino separados, cada uno
con 180 miembros del conjunto. 46 de los 540 simulaciones fallidos por razones numricas
en las combinaciones de valores de parmetros. El objetivo es utilizar la clasificacin para
predecir los resultados de simulacin (fallar o tener xito) de los valores de los parmetros
de entrada y de utilizar el anlisis de sensibilidad y de la seleccin de caractersticas para
determinar las causas de la simulacin accidentes. Ms detalles acerca de los datos y los
mtodos se presentan en la publicacin "Anlisis de Fallas de accidentes de simulacin
inducidas-Parameter en los modelos climticos, 'geocientfica Modelo de Desarrollo ( [Web
Link] ).

Atributo de la informacin:

El objetivo es predecir los resultados de modelos climticos de simulacin (columna 21,


fracasar o tener xito) dado valores escalados de los parmetros de entrada del modelo
climtico (columnas 3-20). Columna 1: Latin ID estudio hipercubo (estudio 1 para estudiar
3) Columna 2: Simulacin ID (correr 1 para ejecutar 180) Columnas 3-20: Valores de 18
parmetros de los modelos climticos a escala en el intervalo [0, 1] Columna 21:
resultados de simulacin (0 = error, 1 = xito)

Documentos pertinentes:
Lucas, DD, Klein, R., Tannahill, J., Ivanova, D., Brandon, S., Domyancic, D., y Zhang, Y.:
Anlisis de la falta de los accidentes de simulacin inducida por parmetros en los
modelos climticos, Geosci. Modelo Dev.. Discuta., 6, 585-623, [Web Link] , 2013.
[ [Web Link] ]
Nube Data Set 2014-02-12
Conjunto de datos Nmero de
Multivariante 1024 rea: Fsico
Caractersticas: instancias:

Caractersticas del Nmero de Fecha


Real 10 03/08/1989
atributo: atributos: Donado

Nmero de
Valores
Tareas asociadas: N/A N/A Web 43877
perdidos?
Accesos:

Fuente:

Philippe Collard
California Institute Espacio
A-021 de la UCSD
en La Jolla, CA 92093
(619) 534-6369

Datos Conjunto de Informacin:


Los conjuntos de datos que nos proponemos analizar estn constituidas de 1.024
vectores, cada vector incluye 10 parmetros. Usted puede pensar en l como una matriz
de 1024 * 10. Para producir estos vectores, se procede de la siguiente
manera: 1. comenzamos con dos 512 * 512 imgenes AVHRR (1 en el espectro visible, 1
en el IR) 2. cada imagen se divide en super-pixeles 16 * 16 y en cada super-pixel se
calcula una serie de parmetros: (a) visible: media, mximo, mnimo, la distribucin, el
contraste, la entropa, segundo momento angular media (b) IR: significar, mximo,
mnimo El conjunto de 10 parmetros que elegimos para formar los vectores es un
compromiso entre diversas limitaciones. En realidad todava estamos trabajando en la
eleccin de los parmetros de los vectores de datos. El conjunto de datos te envo no se
ha normalizado. La normalizacin del conjunto de datos es requerida por nuestro esquema
de clasificacin, pero que puede no ser cierto para los suyos. Para normalizar los datos se
calcula la media y la desviacin estndar para cada parmetro de los establecidos a
continuacin para cada parmetro de cada vector se computa datos
completos: Norma. valor = (valor sin norma - media) / SD donde media = valor medio para
este parmetro en particular sobre el conjunto de datos SD = desviacin estndar .....

Atributo de la informacin:
N/A

Documentos pertinentes:
N/A

Documentos que citan este conjunto de datos 1 :


CMU Imgenes de la cara 2014-02-12
de datos Fije
Resumen : Esta informacin consta de 640 imgenes de la cara en blanco y negro de
personas tomadas con diferentes postura (recta, izquierda, derecha, arriba), la expresin
(neutros, feliz, triste, enojado), los ojos (gafas de sol o no), y el tamao

Conjunto de datos Nmero de


Imagen 640 rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de N/ Fecha 1999-


Entero
atributo: atributos: A Donado 06-24

Nmero de
Valores
Tareas asociadas: Clasificacin S Web 35280
perdidos?
Accesos:

Fuente:
Propietario original y los donantes: Tom Mitchell Escuela de Ciencias de la
Computacin de la Universidad Carnegie
Mellon tom.mitchell '@' cmu.eduhttp://www.cs.cmu.edu/ ~ tom /

Datos Conjunto de Informacin:


Cada imagen se puede caracterizar por la pose, expresin, ojos, y tamao. Hay 32
imgenes para cada persona capturando cada combinacin de caractersticas. Para ver
las imgenes, puede utilizar el programa xv. Los datos de la imagen se pueden encontrar
en / faces. Este directorio contiene 20 subdirectorios, uno para cada persona, nombrado
por id de usuario. Cada uno de estos directorios contiene varios diferentes imgenes de la
cara de la misma persona. Usted estar interesado en las imgenes con la siguiente
convencin de nomenclatura:. Pgm
es el ID de usuario de la persona en la imagen, y este campo tiene 20 valores: an2i, AT33,
boland, lpm, ch4f, Cheyer, choon, danieln, Glickman, Karyadi, Kawamura, kk49, megak,
mitchell, noche, phoebe, Saavik, Steffi, sz24 y tammo.
es la posicin de la cabeza de la persona, y este campo tiene 4 valores: derecho,
izquierdo, derecho, arriba.
es la expresin facial de la persona, y este campo tiene 4 valores: neutro, alegre, triste,
enojado.
es el estado del ojo de la persona, y este campo tiene 2 valores: abierto, gafas de sol.
es la escala de la imagen, y este campo tiene 3 valores: 1, 2, y 4. 1 indica una imagen de
alta resolucin (128 columnas por 120 filas); 2 indica una imagen de media resolucin (64
por 60) 4, indica una imagen de un cuarto de resolucin (32 por 30).
Si usted ha estado buscando muy de cerca en el directorios de imgenes, usted puede
notar que algunas imgenes tienen una. mala sufijo en lugar del. sufijo pgm.Como
resultado, 16 de las 640 imgenes tomadas pueden tener problemas tcnicos debido a
problemas con la configuracin de la cmara, que son las malas imgenes..Algunas
personas tenan ms problemas tcnicos que otros, pero todos los que consiguieron ``
enfrent'' deben tener al menos 28 buenas imgenes de la cara (de las 32 variaciones
posibles, escala descontar). Ms informacin y cdigo C para la carga de imgenes est
disponible aqu: [Web Link] .

Atributo de la informacin:
N/A

Documentos pertinentes:
T. Mitchell. Aprendizaje Automtico, McGraw Hill, 1997.

Documentos que citan este conjunto de datos 1 :


Xiaofeng l y Partha Niyogi. Localidad Preservar Proyecciones . PNI. 2003. [ Ver
Contexto ]. Marina Meila y Michael I. Jordan. Aprender con mezclas de rboles . Journal of
Machine Learning Research, 1. 2000. [ Ver Contexto ].
CNAE-9 conjunto de datos 2014-02-12

Resumen : Se trata de un conjunto de datos que contiene 1.080 documentos de texto


gratuitos descripciones empresariales de las empresas brasileas categorizados en un
subconjunto de las 9 categoras
Conjunto de datos Multivariante, Nmero de
1080 rea: Negocios
Caractersticas: Texto instancias:

Caractersticas del Nmero de Fecha 2012-08-


Entero 857
atributo: atributos: Donado 03

Nmero de
Valores
Tareas asociadas: Clasificacin N/A Web 12067
perdidos?
Accesos:

Fuente:
Patrick Marques Ciarelli, pciarelli '@' lcad.inf.ufes.br , Departamento de Ingeniera
Elctrica de la Universidad Federal de Esprito Santo
Elias Oliveira, elias '@' lcad.inf.ufes.br , Departamento de Ciencias de la Informacin de la
Universidad Federal de Esprito Santo

Datos Conjunto de Informacin:


Se trata de un conjunto de datos que contiene 1.080 documentos de texto gratuitos
descripciones empresariales de las empresas brasileas categorizados en un
subconjunto de las 9 categoras catalogados en una tabla llamada Clasificacin Nacional
de Actividades Econmicas (Classifica o Nacional de
Atividade Econ'micas - CNAE). Los textos originales fueron pre-procesados para obtener
el actual conjunto de datos: inicialmente, se mantuvo slo
letras y luego se retir preposiciones de los textos. A continuacin, las palabras se
transformaron a su forma cannica. Por ltimo,
cada documento se representa como un vector, donde el peso de cada palabra es su
frecuencia en el documento. Este conjunto de datos es
altamente dispersa (99,22% de la matriz se llena con ceros).

Atributo de la informacin:
En el conjunto de datos hay 857 atributos, 1 atributos con la clase de instancia y 856 con
frecuencia de la palabra:
1. categora: rango 1-9 (entero)
2-857. frecuencia de las palabras: (entero)

Documentos pertinentes:
Patrick Marques Ciarelli, Elias Oliveira, 'Aglomeracin y eliminacin de trminos para la
reduccin de dimensionalidad',
Novena Conferencia Internacional sobre Sistemas Inteligentes de Diseo y Aplicaciones,
pp.547-552, 2009 Patrick Marques Ciarelli, Elias Oliveira, Evandro OT Salles, "un sistema
en evolucin Basado en Probabilstico de red neuronal ", Simposio Brasileo de Redes
Neuronales Artificiales, 2010

Cita de pedidos:
Si usted no tiene ninguna peticin de citas especiales, por favor, deje este campo en
blanco.
Bobina de 1999 Datos de la 2014-02-12
competicin Data Set
Resumen : Este conjunto de datos es de la competencia 1999 de Inteligencia
Computacional y Aprendizaje (COIL). Los datos contienen mediciones de las
concentraciones qumicas ro y las densidades de algas.
Conjunto de datos Nmero de
Multivariante 340 rea: Fsico
Caractersticas: instancias:

Caractersticas del Categrico, el Nmero de Fecha 1999-


17
atributo: Real atributos: Donado 09-09

Nmero de
Valores
Tareas asociadas: N/A No Web 15942
perdidos?
Accesos:

Fuente:
Propietario original: Erudit Red Europea para la Lgica Fuzzy y Modelizacin de la incertidumbre
en Tecnologa de la Informacin http://www.erudit.de/ Donante: Jens Strackeljan Universidad
Tcnica de Clausthal Instituto de Mecnica Aplicada Graupenstr. 3, 38678 Clausthal-Zellerfeld,
Alemania ATM '@' itm.tu-clausthal.de

Datos Conjunto de Informacin:


Estos datos proceden de un estudio de la calidad del agua que se tomaron muestras de los sitios
en los diferentes ros de Europa de un perodo de aproximadamente un ao. Estas muestras se
analizaron por diversas sustancias qumicas, incluyendo: nitrgeno en forma de nitratos, nitritos y
amonaco, fosfato, pH, oxgeno, cloruro. En paralelo, se recogieron las muestras de algas para
determinar las distribuciones de la poblacin de algas. El concurso consisti en la prediccin de las
distribuciones de frecuencia de algas sobre la base de las concentraciones medidas de las
sustancias qumicas y la informacin mundial en relacin con la temporada en que se tom la
muestra, el tamao de ro y su velocidad de flujo. Las instrucciones de la competencia contienen
informacin adicional sobre la tarea de prediccin: [Web Link]

Atributo de la informacin:
Hay un total de 340 ejemplos que contienen cada uno 17 valores. Los primeros 11 valores
de cada conjunto de datos son de la temporada, el tamao del ro, la velocidad del fluido y
8 concentraciones qumicas que debern ser tiles para la distribucin de la poblacin de
algas. Los ltimos 8 valores de cada ejemplo son la distribucin de diferentes tipos de
algas. Estos 8 clases son slo una pequea parte de toda la comunidad, pero para la
competencia que limitan el nmero de 7. El valor 0,0 significa que la frecuencia es muy
baja. El conjunto de datos contiene tambin algunos campos vacos que se etiquetan con
el XXXXX cadena. Los datos de entrenamiento se guardan en el archivo:. analysis.data
(formato ASCII) Tabla 1: Estructura del archivo analysis.data A ... K a. .. g CC1, 1 ... CC1,
11 AG1, 1 ... AG1, 7 ... CC200, CC200 1 ... 11 AG200, 1 ... AG200, 7 Explicacin: CCi, j:
concentracin qumica o ro caracterstico AGi, j: frecuencia de algas Los parmetros
qumicos estn etiquetados como A, ..., K. Las columnas de las algas se etiquetan como,
.., g.

Documentos pertinentes:
N/A
Comunidades y el Delito 2014-02-12
Data Set
Resumen : Las comunidades dentro de los Estados Unidos. Los datos combina los
datos socioeconmicos del Censo de EE.UU. de 1990, los datos policiales de la
encuesta de 1990 EE.UU. LEMAS, y los datos de criminalidad del 1995 FBI UCR.
Conjunto de datos Nmero de
Multivariante 1994 rea: Social
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2009-


Real 128
atributo: atributos: Donado 07-13

Nmero de
Valores
Tareas asociadas: Regresin S Web 64464
perdidos?
Accesos:

Fuente:
Creador: Michael Redmond ( Redmond '@' lasalle.edu ); Ciencias de la Computacin, de
la Universidad La Salle, Philadelphia, PA, 19141, EE.UU.
- entresacado de 1990 del Censo de EE.UU., 1995 EE.UU. FBI Uniform Crime Report,
1990 EE.UU. Administracin de Aplicacin de la Ley y Administrativo Estadsticas
encuesta, disponible en ICPSR en la U de Michigan.
- Donante: Michael Redmond ( Redmond '@' lasalle.edu ); Ciencias de la Computacin, de
la Universidad La Salle, Philadelphia, PA, 19141, EE.UU.
- Fecha: Julio 2009

Datos Conjunto de Informacin:


Muchas variables se incluyen para que los algoritmos que seleccionan o aprenden los
pesos de los atributos podran ser probados. Sin embargo, los atributos no relacionados
claramente no se incluyeron; atributos fueron recogidos si haba alguna conexin plausible
delito (N = 122), ms el atributo a predecir (per cpita Delitos Violentos). Las variables
incluidas en el conjunto de datos involucran a la comunidad, tales como el porcentaje de la
poblacin considerada urbana, y la renta mediana de la familia, y la participacin de las
fuerzas del orden, como el nmero de policas per cpita, y el porcentaje de los oficiales
asignados a las unidades de drogas. La Se calcul la variable per cpita crmenes
violentos utilizando la poblacin y la suma de las variables de delitos considerados
crmenes violentos en Estados Unidos: el asesinato, la violacin, el robo y asalto. Al
parecer, haba una cierta controversia en algunos estados en relacin con el conteo de
violaciones. Esto dio como resultado valores perdidos de violacin, lo que dio como
resultado valores incorrectos para los delitos violentos por habitante. Estas ciudades no
estn incluidos en el conjunto de datos. Muchas de estas comunidades eran omitidas
desde el medio oeste de EE.UU.. Los datos se describe a continuacin en base a los
valores originales. Todos los datos numricos se normaliz en el rango 0,00-1,00 decimal
usando un mtodo de agrupacin no supervisada, intervalos iguales. Atributos conservan
su distribucin y sesgan (de ah, por ejemplo, el atributo de la poblacin tiene un valor
medio de 0,06 porque la mayora de las comunidades son pequeas). Por ejemplo, un
atributo se describe como "gente mala por hogar" es en realidad el normalizado (0-1)
versin de ese valor. La normalizacin conserva proporciones aproximadas de los valores
dentro de un atributo (por ejemplo, el doble del valor por el doble de la poblacin dentro de
la precisin disponible - excepto para valores extremos (todos los valores de ms de 3 SD
por encima de la media se normalizan a 1,00; todos los valores de ms de 3 SD por
debajo de la media se nromalized a 0,00).) Sin embargo, la normalizacin no preserva las
relaciones entre los valores entre los atributos (por ejemplo, sera no tendra sentido para
comparar el valor de whitePerCap con la relacin calidad blackPerCap para una
comunidad) Una limitacin es que la encuesta LEMAS era de los departamentos de polica
de al menos 100 oficiales, adems de una muestra aleatoria de los departamentos ms
pequeos. Para nuestros propsitos, las comunidades que no se encuentran en los dos
conjuntos de datos de los censos y la delincuencia fueron omitidos. Muchas comunidades
faltan datos de Lemas. encabezado ARFF para Weka:. @ relacin crimepredict estado
atributo @ numrico numrico del condado atributo @ comunidad @ atributo numrico @
atribuir communityName cadena @ atributo veces numrico atributo @ numrico
poblacin @ atributo householdsize numrico numrico del atributo @
racepctblack atributo @ racePctWhite numrico @ atribuir racePctAsian numrico atributo
@ racePctHisp numricoatributo @ agePct12t21 numrico atributo @ agePct12t29
numrico atributo @ agePct16t24 numrico atributo @ agePct65up numrico @ atribuir
numbUrban numrico@ atribuir pctUrban numrico @ atribuir medIncome numrico @
atributo pctWWage numrico atributo @ pctWFarmSelf numrico atributo @ pctWInvInc
numrico @ atribuir pctWSocSec numrico atributo @ pctWPubAsst numrico atributo @
pctWRetire numrico @ atribuir medFamInc numrico atributo @ perCapInc
numricoatributo @ whitePerCap numrico @ atributo blackPerCap numrico @ atributo
indianPerCap numrico atributo @ AsianPerCap numrico @ atribuir OtherPerCap
numrico numrico del atributo @ HispPerCap @ atribuir NumUnderPov numrico atributo
@ PctPopUnderPov numrico atributo @ PctLess9thGrade numrico atributo @
PctNotHSGrad numrico @ atributo PctBSorMore numrico @ atributo PctUnemployed
numrico @ atribuir PctEmploy numrico atributo @ PctEmplManu numrico @ atribuir
PctEmplProfServ numrico @ atributo PctOccupManu numrico atributo @
PctOccupMgmtProf numrico @ atribuir MalePctDivorce numrico atributo @
MalePctNevMarr numrico @ atribuir FemalePctDiv numrico @ atribuir TotalPctDiv
numrico @ atribuir PersPerFam numrico @ atributo PctFam2Par numrico @ atributo
PctKids2Par numrico atributo @ PctYoungKids2Par numrico @ atribuir PctTeen2Par
numrico atributo @ PctWorkMomYoungKids numrico @ atribuir PctWorkMom
numrico @ atributo NumIlleg numrico @ atributo PctIlleg numrico numrico del atributo
@ NumImmig atributo @ PctImmigRecent numrico atributo @ PctImmigRec5
numrico atributo @ PctImmigRec8 numrico atributo @ PctImmigRec10
numrico atributo @ PctRecentImmig numrico atributo @ PctRecImmig5
numrico atributo @ PctRecImmig8 numrico atributo @ PctRecImmig10
numrico atributo @ PctSpeakEnglOnly numrico atributo @ PctNotSpeakEnglWell
numricoatributo @ PctLargHouseFam numrico atributo @ PctLargHouseOccup
numrico @ atributo PersPerOccupHous numrico @ atributo numrico
PersPerOwnOccHous @ atribuir PersPerRentOccHous numrico atributo @
PctPersOwnOccup numrico @ atribuir PctPersDenseHous numrico atributo @
PctHousLess3BR numrico @ atribuir MedNumBR numrico @ atributo HousVacant
numrico @ atributo PctHousOccup numrico atributo @ PctHousOwnOcc
numrico atributo @ PctVacantBoarded numricos PctVacMore6Mos atributo numrico
@ @ atribuir MedYrHousBuilt numrico @ atributo PctHousNoPhone numrico @ atributo
PctWOFullPlumb numricoatributo @ OwnOccLowQuart numrico @ atributo numrico
OwnOccMedVal atributo @ OwnOccHiQuart numrico atributo @ RentLowQ numrico @
atributo RentMedian numrico atributo @ RentHighQ numrico @ atributo MedRent
numrico @ atributo MedRentPctHousInc numrico atributo @ MedOwnCostPctInc
numrico@ atribuir MedOwnCostPctIncNoMtg numrico NumInShelters atributo numrico
@ @ atribuir NumStreet numrico @ atribuir PctForeignBorn numrico @ atributo
PctBornSameState numrico @ atributo PctSameHouse85 numrico atributo @
PctSameCity85 numrico atributo @ PctSameState85 numrico @ atributo
LemasSwornFT numrico @ atributo LemasSwFTPerPop numrico numrico
LemasSwFTFieldOps @ atribuir atributo @ LemasSwFTFieldPerPop numrico @ atributo
LemasTotalReq numrico @ atribuir LemasTotReqPerPop numrico @ atribuir
PolicReqPerOffic numrico atributo @ PolicPerPop numrico @ atributo
RacialMatchCommPol numrico atributo @ PctPolicWhite numrico atributo @
PctPolicBlack numrico atributo @ PctPolicHisp numrico @ atribuir PctPolicAsian
numrico atributo @ PctPolicMinor numrico numrico del atributo @
OfficAssgnDrugUnits atributo @ NumKindsDrugsSeiz numrico atributo @
PolicAveOTWorked numrico atributo @ LandArea numrico atributo @ PopDens
numrico atributo @ PctUsePubTrans numrico @ atribuir PolicCars numricos @ atributo
PolicOperBudg numrico atributo @ LemasPctPolicOnPatr numrico @ atribuir
LemasGangUnitDeploy numrico @ atribuir LemasPctOfficDrugUn numrico atributo @
PolicBudgPerPop numrico atributo @ ViolentCrimesPerPop numrico @ datos

Atributo de la informacin:
Atributo Informacin: (122 predictivo, 5 no predictiva, 1 gol)
- Estado: estado de los EE.UU. (por nmero) - no se cuentan como predictivos arriba, pero
si se considera, se debe consided nominal (nominal)
- Condado: cdigo numrico para condado - no predictiva, y muchos valores perdidos
(numrico)
- Comunidad: cdigo numrico para la comunidad - no predictiva y muchos valores
perdidos (numricos)
- communityName: nombre de la comunidad - no predictiva - slo para informacin
(cadena)
- doble: nmero de veces para la validacin cruzada no aleatoria de 10 veces,
potencialmente til para la depuracin, pares de pruebas - no predictiva (numrico)
- Poblacin: La poblacin de la comunidad: (numrico - decimal)
- householdsize: personas promedio por hogar (numrico - decimales)
- racepctblack: porcentaje de la poblacin que es afroamericano (numrico - decimal)
- racePctWhite: porcentaje de la poblacin que es de raza blanca (numrico - decimal)
- racePctAsian: porcentaje de la poblacin que es de origen asitico (numrico - decimal)
- racePctHisp: porcentaje de la poblacin que es de origen hispano (numrico - decimal)
- agePct12t21: porcentaje de la poblacin que est en edad de 12 a 21 (numrico -
decimal)
- agePct12t29: porcentaje de la poblacin que est en edad de 12 a 29 (numrico -
decimal)
- agePct16t24: porcentaje de la poblacin que est en edad de 16 a 24 (numrico -
decimal)
- agePct65up: porcentaje de la poblacin que es de 65 aos y ms de edad (numrico -
decimal)
- numbUrban: nmero de personas que viven en reas clasificadas como urbanas
(numrico - decimal)
- pctUrban: porcentaje de personas que viven en zonas clasificadas como urbanas
(numrico - decimal)
- medIncome: ingreso medio por hogar (numrico - decimales)
- pctWWage: porcentaje de hogares con sueldos o salarios ingresos en 1989 (numrico -
decimal)
- pctWFarmSelf: porcentaje de hogares con granja o ingresos por cuenta propia en 1989
(numrico - decimal)
- pctWInvInc: porcentaje de hogares con una inversin / alquiler de ingresos en 1989
(numrico - decimal)
- pctWSocSec : porcentaje de hogares con ingresos de la seguridad social en 1989
(numrico - decimal)
- pctWPubAsst: porcentaje de hogares con ingresos de asistencia pblica en 1989
(numrico - decimal)
- pctWRetire: porcentaje de hogares con ingresos de jubilacin en 1989 (numrico -
decimal)
- medFamInc: ingreso familiar medio (se diferencia de los ingresos familiares de los
hogares no familiares) (numrico - decimal)
- perCapInc: el ingreso per cpita (numrico - decimal)
- whitePerCap: el ingreso per cpita de los caucsicos (numrico - decimal)
- - blackPerCap: el ingreso per cpita de los afroamericanos (numrico - decimal)
- indianPerCap: el ingreso per cpita de los nativos americanos (numrico - decimal)
- AsianPerCap: el ingreso per cpita para personas de origen asitico (numrico -
decimal)
- OtherPerCap: el ingreso per cpita de las personas con "otro" patrimonio (numrico -
decimal)
- HispPerCap: el ingreso per cpita de las personas con herencia hispana (numrico -
decimal)
- NumUnderPov: nmero de personas bajo el nivel de pobreza (numrico - decimal)
- PctPopUnderPov: porcentaje de personas bajo el nivel de pobreza (numrico - decimal)
- PctLess9thGrade: porcentaje de personas de 25 y ms aos con una educacin inferior a
noveno grado (numeric - decimal)
- PctNotHSGrad: porcentaje de personas de 25 y otra vez que no son altos graduados de
la escuela (numrico - decimales)
- PctBSorMore: porcentaje de personas de 25 y ms aos con una licenciatura o estudios
superiores (numrico - decimal)
- PctUnemployed: porcentaje de personas de 16 y ms, en la fuerza de trabajo, y los
desempleados (numrico - decimal)
- PctEmploy: porcentaje de personas de 16 y ms aos que se emplean (numrico -
decimal)
- PctEmplManu: porcentaje de personas de 16 y ms que son empleados en la industria
manufacturera (numrico - decimal)
- PctEmplProfServ: porcentaje de personas de 16 y ms que estn empleados en los
servicios profesionales (numrico - decimal)
- PctOccupManu: porcentaje de personas de 16 o ms aos que se emplean en la
fabricacin (numrico - decimal) # # # # # # # #
- PctOccupMgmtProf: porcentaje de personas de 16 y ms aos que se emplean en la
gestin o profesionales ocupaciones (numrico - decimales)
- MalePctDivorce: Porcentaje de hombres que estn divorciados (numrico - decimal)
- MalePctNevMarr: porcentaje de hombres que nunca se han casado (numrico - decimal)
- FemalePctDiv: porcentaje de mujeres que estn divorciados (numrico - decimal)
- TotalPctDiv: porcentaje de la poblacin que estn divorciados (numrico - decimal)
- PersPerFam: nmero de personas por familia media (numrico - decimal)
- PctFam2Par: porcentaje de familias (con nios) que estn encabezados por dos padres
(numricos - decimales)
- PctKids2Par: porcentaje de nios en la vivienda familiar con dos padres (numrico -
decimales)
- PctYoungKids2Par: Porcentaje de nios de 4 aos en dos hogares monoparentales
(numrico - decimal)
- PctTeen2Par : por ciento de los nios de 12-17 aos en dos hogares monoparentales
(numrico - decimales)
- PctWorkMomYoungKids: Porcentaje de madres de nios de 6 aos en la fuerza laboral
(numrico - decimal)
- PctWorkMom: porcentaje de madres de nios menores de 18 aos en el trabajo fuerza
(numrico - decimal)
- NumIlleg: nmero de nios nacidos de que nunca se casaron (numrico - decimal)
- PctIlleg: porcentaje de nios nacidos de que nunca se casaron (numrico - decimal)
- NumImmig: nmero total de personas que se sabe que son extranjeros nacido (numrico
- decimal)
- PctImmigRecent: porcentaje de _immigrants_ que immigated dentro de los 3 ltimos
aos (numrico - decimal)
- PctImmigRec5: porcentaje de _immigrants_ que immigated en los ltimos 5 aos
(numrico - decimal)
- PctImmigRec8: porcentaje de _immigrants_ que immigated dentro de los ltimos 8 aos
(numrico - decimal)
- PctImmigRec10: porcentaje de _immigrants_ que immigated dentro de los ltimos 10
aos (numrico - decimal)
- PctRecentImmig: ciento de _population_ que han inmigrado en los ltimos 3 aos
(numrico - decimal)
- PctRecImmig5: ciento de _population_ que han inmigrado en los ltimos 5 aos
(numrico - decimal)
- PctRecImmig8: ciento de _population_ que han inmigrado en los ltimos 8 aos
(numrico - decimal)
- PctRecImmig10: ciento de _population_ que han inmigrado en el ltimos 10 aos
(numrico - decimal)
- PctSpeakEnglOnly: ciento de las personas que slo hablan Ingls (numrico - decimal)
- PctNotSpeakEnglWell: ciento de las personas que no hablan Ingls bien (numrico -
decimal)
- PctLargHouseFam: por ciento de los hogares de la familia que son grandes (6 o ms)
(numrico - decimal)
- PctLargHouseOccup: por ciento de todas las casas ocupadas que son grandes (6 o ms
personas) (numrico - decimales)
- PersPerOccupHous: personas promedio por hogar (numrico - decimal)
- - PersPerOwnOccHous: personas promedio por hogar ocupadas por sus propietarios
(numrico - decimal)
- PersPerRentOccHous: personas promedio por hogar de alquiler (numrico - decimal)
- PctPersOwnOccup: Porcentaje de personas en propietario hogares ocupados (numrico
- decimales)
- PctPersDenseHous: Porcentaje de las personas en condiciones de densa (ms de 1
persona por habitacin) (numrico - decimal)
- PctHousLess3BR: porcentaje de viviendas con menos de 3 dormitorios (numrico -
decimales)
- MedNumBR: nmero medio de habitaciones (numrico - decimal)
- HousVacant: nmero de hogares vacantes (numrico - decimales)
- PctHousOccup: por ciento de las viviendas ocupadas (numrico - decimal)
- PctHousOwnOcc: porcentaje de hogares ocupadas por sus propietarios (numrico -
decimal)
- PctVacantBoarded: porcentaje de viviendas desocupadas que est tapiada (numrico -
decimales)
- PctVacMore6Mos: Porcentaje de viviendas desocupadas que ha estado vacante ms de
6 meses (numrico - decimales)
- MedYrHousBuilt: unidades de vivienda construidas aos mediana (numrico - decimal)
- PctHousNoPhone: por ciento de unidades de vivienda ocupadas sin telfono (en 1990,
esto era raro!) (numrico - decimal)
- PctWOFullPlumb: porcentaje de viviendas sin instalaciones sanitarias completas
(numrico - decimales)
- OwnOccLowQuart: vivienda en propiedad - valor cuartil inferior (numrico - decimal)
- OwnOccMedVal : vivienda en propiedad - valor medio (numrico - decimal)
- OwnOccHiQuart: vivienda en propiedad - valor cuartil superior (numrico - decimal)
- RentLowQ: alquiler de viviendas - una renta menor cuartil (numrico - decimal)
- RentMedian: alquiler de viviendas - renta mediana (Censo H32B variable a partir de
archivos STF1A) (numrico - decimal)
- RentHighQ: vivienda de alquiler - alquiler cuartil superior (numrico - decimal)
- MedRent: renta bruta media (Censo H43A variables de archivo STF3A - incluye servicios
pblicos) (numrico - decimal)
- MedRentPctHousInc: renta bruta promedio como porcentaje del ingreso de los hogares
(numrico - decimal)
- MedOwnCostPctInc: propietarios de la mediana de costos como porcentaje de los
ingresos del hogar - para los propietarios con una hipoteca (numrico - decimal)
- MedOwnCostPctIncNoMtg: mediana propietarios de costos como porcentaje de los
ingresos del hogar - para los propietarios sin una hipoteca (numrico - decimal)
- NumInShelters: nmero de personas en refugios para desamparados (numrico -
decimal)
- NumStreet: nmero de personas sin hogar, contados en la calle (numrico - decimales )
- PctForeignBorn: ciento de las personas nacidas en el extranjero (numrico - decimal)
- PctBornSameState: por ciento de las personas nacidas en el mismo estado en el que
viven actualmente (numrico - decimal)
- PctSameHouse85: Porcentaje de personas que viven en la misma casa que en 1985 (5
aos antes) (numrico - decimal)
- PctSameCity85: porcentaje de personas que viven en la misma ciudad que en 1985 (5
aos antes) (numrico - decimal)
- PctSameState85: porcentaje de personas que viven en el mismo estado que en 1985 (5
aos antes) (numrico - decimal)
- LemasSwornFT: nmero de oficiales jurados de tiempo completo de la polica (numrico
- decimales)
- LemasSwFTPerPop: oficiales jurados tiempo completo policiales por 100K poblacin
(numrico - decimales)
- LemasSwFTFieldOps: nmero de jurado los agentes de polica a tiempo completo en las
operaciones de campo (en la calle en lugar de etc administrativa) (numrico - decimal)
- LemasSwFTFieldPerPop: jurada agentes de polica a tiempo completo en las
operaciones de campo (en la calle en lugar de etc administrativa) por 100 mil habitantes
(numrico - decimal)
- LemasTotalReq: total de solicitudes para la polica (numrico - decimal)
- LemasTotReqPerPop: Total de solicitudes para la polica por 100K popuation (numrico -
decimal)
- PolicReqPerOffic: total de solicitudes para la polica por oficial de polica (numrico -
decimales)
- PolicPerPop : policas por 100K poblacin (numrico - decimales)
- RacialMatchCommPol: una medida del partido racial entre la comunidad y la polica. Los
valores altos indican las proporciones en la comunidad y la polica son similares (numrico
- decimal)
- PctPolicWhite: por ciento de la polica que son caucsicos (numrico - decimal)
- PctPolicBlack: por ciento de la polica que son afroamericanos (numrico - decimal)
- PctPolicHisp : por ciento de la polica que son hispanos (numrico - decimal)
- PctPolicAsian: por ciento de la polica que son asitico (numrico - decimal)
- PctPolicMinor: por ciento de la polica que son minora de cualquier tipo (numrico -
decimal)
- OfficAssgnDrugUnits: nmero de los oficiales asignados a las unidades especiales de la
droga (numrico - decimales)
- NumKindsDrugsSeiz: nmero de diferentes tipos de drogas incautadas (numrico -
decimal)
- PolicAveOTWorked: polica promedio de horas extras trabajadas (numrico - decimal)
- LandArea: rea de tierra en millas cuadradas (numrico - decimales)
- PopDens: la densidad de poblacin de personas por milla cuadrada (numrico - decimal)
- PctUsePubTrans: porcentaje de personas que utilizan el transporte pblico para ir al
trabajo (numrico - decimal)
- PolicCars: nmero de coches de polica (numrico - decimales )
- PolicOperBudg: presupuesto operativo de la polica (numrico - decimal)
- LemasPctPolicOnPatr: por ciento de los oficiales juramentados a tiempo completo de la
polica en patrulla (numrico - decimales)
- LemasGangUnitDeploy: unidad de pandillas desplegado (numrico - decimal - pero
realmente ordinal - 0 significa NO , 1 medio YES, 0.5 significa Part Time)
- LemasPctOfficDrugUn: ciento de los oficiales asignados a las unidades de la droga
(numrico - decimales)
- PolicBudgPerPop: el presupuesto operativo de la polica por la poblacin (numrico -
decimal)
- ViolentCrimesPerPop: nmero total de delitos violentos por cada 100K popuation -
atributo (numrico decimal) GOAL (a predecir) Resumen Estadsticas: Min Max Promedio
DE Correl Mediana Moda Missing poblacin 0 1 0.06 0.13 0.37 0.02 0.01 0 householdsize
0 1 0.46 0.16 -0.03 0.44 0.41 0 racepctblack 0 1 0.18 0.25 0.63 0,06 0,01 0 racePctWhite 0
1 0.75 0.24 -0.68 0.85 0.98 0 racePctAsian 0 1 0.15 0.21 0.04 0.07 0.02 0 racePctHisp 0 1
0.14 0.23 0.29 0.04 0.01 0 agePct12t21 0 1 0,42 0,16 0,06 0,4 0,38 0 agePct12t29 0 1
0.49 0.14 0.15 0.48 0.49 0 agePct16t24 0 1 0.34 0.17 0.10 0.29 0.29 0 agePct65up 0 1
0.42 0.18 0.07 0.42 0.47 0 numbUrban 0 1 0,06 0,13 0,36 0,03 0 0 0 1 pctUrban 0.70 0.44
0.08 1 1 0 0 1 medIncome 0.36 0.21 -0.42 0.32 0.23 0 0 pctWWage 1 0,56 0,18 -0,31 0,56
0,58 0 pctWFarmSelf 0 1 0.29 0.20 -0.15 0.23 0.16 0 pctWInvInc 0 1 0.50 0.18 -0.58 0.48
0.41 0 pctWSocSec 0 1 0.47 0.17 0.12 0.475 0.56 0 pctWPubAsst 0 1 0.32 0.22 0.57 0.26
0.1 0 pctWRetire 0 1 0.48 0.17 -0.10 0,47 0,44 0 medFamInc 0 1 0.38 0.20 -0.44 0.33 0.25
0 perCapInc 0 1 0.35 0.19 -0.35 0.3 0.23 0 whitePerCap 0 1 0.37 0.19 -0.21 0.32 0.3
0 blackPerCap 0 1 0.29 0.17 -0.28 0.25 0.18 0 0 1 indianPerCap 0.20 0.16 -0.09 0,17 0 0 0
1 AsianPerCap 0.32 0.20 -0.16 0.28 0.18 0 OtherPerCap 0 1 0.28 0.19 -0.13 0.25 0 1 0 1
HispPerCap 0,39 0,18 -0,24 0,345 0.3 0 NumUnderPov 0 1 0.06 0.13 0.45 0.02 0.01
0 PctPopUnderPov 0 1 0,30 0,23 0,52 0,25 0,08 0 PctLess9thGrade 0 1 0.32 0.21 0.41
0.27 0.19 0 PctNotHSGrad 0 1 0.38 0.20 0.48 0.36 0.39 0 PctBSorMore 0 1 0.36 0.21 -
0.31 0.31 0.18 0 PctUnemployed 0 1 0.36 0.20 0.50 0.32 0.24 0 PctEmploy 0 1 0.50 0.17 -
0.33 0.51 0.56 0 0 PctEmplManu 1 0.40 0.20 -0.04 0.37 0.26 0 PctEmplProfServ 0 1 0.44
0.18 -0.07 0.41 0.36 0 PctOccupManu 0 1 0,39 0,20 0,30 0,37 0,32 0 0 1
PctOccupMgmtProf 0.44 0.19 -0.34 0.4 0.36 0 MalePctDivorce 0 1 0,46 0,18 0,53 0,47
0,56 0 0 1 0,43 MalePctNevMarr 0,18 0,30 0,4 0,38 0 FemalePctDiv 0 1 0,49 0,18 0,56 0,5
0,54 0 TotalPctDiv 0 1 0,49 0,18 0,55 0,5 0,57 0 PersPerFam 0 1 0.49 0.15 0.14 0.47 0.44
0 PctFam2Par 0 1 0.61 0.20 -0.71 0.63 0.7 0 PctKids2Par 0 1 0.62 0.21 -0.74 0.64 0.72
0 PctYoungKids2Par 0 1 0.66 0.22 -0.67 0.7 0.91 0 PctTeen2Par 0 1 0.58 0.19 -0.66 0.61
0.6 0 PctWorkMomYoungKids 0 1 0.50 0.17 -0.02 0.51 0.51 0 PctWorkMom 0 1 0.53 0.18 -
0.15 0.54 0.57 0 NumIlleg 0 1 0.04 0.11 0.47 0.01 0 0 PctIlleg 0 1 0.25 0.23 0.74 0.17 0.09
0 NumImmig 0 1 0,03 0,09 0,29 0,01 0 0 0 1 PctImmigRecent 0,32 0,22 0,17 0,29 0 0 0 1
PctImmigRec5 0,36 0,21 0,22 0,34 0 0 0 1 PctImmigRec8 0,40 0,20 0,25 0,39 0,26 0 0 1
0,43 PctImmigRec10 0,19 0,29 0,43 0,43 0 0 1 PctRecentImmig 0.18 0.24 0.23 0.09 0.01
0 PctRecImmig5 0 1 0.18 0.24 0.25 0.08 0.02 0 PctRecImmig8 0 1 0.18 0.24 0.25 0.09
0.02 0PctRecImmig10 0 1 0.18 0.23 0.26 0.09 0.02 0 PctSpeakEnglOnly 0 1 0.79 0.23 -
0.24 0.87 0.96 0 PctNotSpeakEnglWell 0 1 0.15 0.22 0.30 0.06 0.03 0PctLargHouseFam 0
1 0,27 0,20 0,38 0,2 0,17 0 PctLargHouseOccup 0 1 0.25 0.19 0.29 0.19 0.19
0 PersPerOccupHous 0 1 0.46 0.17 -0.04 0.44 0.37 0PersPerOwnOccHous 0 1 0.49 0.16 -
0.12 0.48 0.45 0 0 PersPerRentOccHous 1 0.40 0.19 0.25 0.36 0.32 0 PctPersOwnOccup
0 1 0.56 0.20 -0.53 0.56 0.54 0PctPersDenseHous 0 1 0.19 0.21 0.45 0.11 0.06
0 PctHousLess3BR 0 1 0,50 0,17 0,47 0,51 0,53 0 0 MedNumBR 1 0,31 0,26 -0,36 0,5 0,5
0 0 1 HousVacant 0,08 0,15 0,42 0,03 0,01 0 0 1 PctHousOccup 0.72 0.19 -0.32 0.77 0.88
0 PctHousOwnOcc 0 1 0.55 0.19 -0.47 0.54 0.52 0 PctVacantBoarded 0 1 0,20 0,22 0,48
0,13 0 0 0 1 PctVacMore6Mos 0.43 0.19 0.02 0.42 0.44 0 MedYrHousBuilt 0 1 0.49 0.23 -
0.11 0.52 0 0 PctHousNoPhone 0 1 0.26 0.24 0.49 0.185 0.01 0 PctWOFullPlumb 0 1 0,24
0,21 0,36 0,19 0 0 0 1 OwnOccLowQuart 0.26 0.22 -0.21 0.18 0.09 0 OwnOccMedVal 0 1
0.26 0.23 -0.19 0.17 0.08 0 OwnOccHiQuart 0 1 0.27 0.24 -0.17 0.18 0.08 0RentLowQ 0 1
0,35 0,22 -0,25 0,31 0,13 0 RentMedian 0 1 0,37 0,21 -0,24 0,33 0,19 0 RentHighQ 0 1
0,42 0,25 -0,23 0,37 1 0 MedRent 0 1 0,38 0,21 -0,24 0,34 0,17 0MedRentPctHousInc 0 1
0,49 0,17 0,33 0,48 0,4 0 MedOwnCostPctInc 0 1 0.45 0.19 0.06 0.45 0.41
0 MedOwnCostPctIncNoMtg 0 1 0.40 0.19 0.05 0.37 0.24 0NumInShelters 0 1 0.03 0.10
0.38 0 0 0 0 1 NumStreet 0.02 0.10 0.34 0 0 0 0 1 PctForeignBorn 0.22 0.23 0.19 0.13 0.03
0 0 1 PctBornSameState 0,61 0,20 - 0,08 0,63 0,78 0 0 1 PctSameHouse85 0.54 0.18 -
0.16 0.54 0.59 0 PctSameCity85 0 1 0,63 0,20 0,08 0,67 0,74 0 0 1 PctSameState85 0.65
0.20 -0.02 0.7 0.79 0 LemasSwornFT 0 1 0,07 0,14 0,34 0,02 0,02
1,675 LemasSwFTPerPop 0 1 0.22 0.16 0.15 0.18 0.2 1675 LemasSwFTFieldOps 0 1 0,92
0,13 -0,33 0,97 0,98 1675 LemasSwFTFieldPerPop 0 1 0,25 0,16 0,16 0,21 0,19
1,675 LemasTotalReq 0 1 0,10 0,16 0,35 0,04 0,02 1,675 LemasTotReqPerPop 0 1 0,22
0,16 0,27 0,17 0,14 1,675 PolicReqPerOffic 0 1 0,34 0,20 0,17 0,29 0,23
1,675 PolicPerPop 0 1 0,22 0,16 0,15 0,18 0,2 1,675 RacialMatchCommPol 0 1 0,69 0,23 -
0,46 0,74 0,78 1675 PctPolicWhite 0 1 0,73 0,22 -0,44 0,78 0,72 1675 PctPolicBlack 0 1
0.22 0.24 0.54 0.12 0 1675 PctPolicHisp 0 1 0.13 0.20 0.12 0.06 0 1675 PctPolicAsian 0 1
0,11 0,23 0,10 0 0 1675 PctPolicMinor 0 1 0,26 0,23 0,49 0,2 0,07
1,675 OfficAssgnDrugUnits 0 1 0,08 0,12 0,34 0,04 0,03 1,675 NumKindsDrugsSeiz 0 1
0,56 0,20 0,13 0,57 0,57 1,675 PolicAveOTWorked 0 1 0,31 0,23 0,03 0,26 0,19
1,675 LandArea 0 1 0,07 0,11 0,20 0,04 0,01 0 0 PopDens 1 0.23 0.20 0.28 0.17 0.09
0 PctUsePubTrans 0 1 0.16 0.23 0.15 0.07 0.01 0 PolicCars 0 1 0,16 0,21 0,38 0,08 0,02
1,675 PolicOperBudg 0 1 0,08 0,14 0,34 0,03 0,02 1,675 LemasPctPolicOnPatr 0 1 0,70
0,21 -0,08 0,75 0,74 1675 LemasGangUnitDeploy 0 1 0,44 0,41 0,12 0.5 0
1675 LemasPctOfficDrugUn 0 1 0.09 0.24 0.35 0 0 0 0 1 PolicBudgPerPop 0,20 0,16 0,10
0,15 0,12 1,675 ViolentCrimesPerPop 0 1 0.24 0.23 1.00 0.15 0.03 0 Distribucin de la
variable objetivo (delitos violentos por Poblacin): Rango de frecuencia 0,000 hasta 0,067
484 0,067- 0,133 420 284 0,133 a 0,200 0,200 hasta 0,267 177 142 0,267-,333 ,333-,400
113 0,400 hasta 0,467 59 76 0,467-0,533 0,533-0,600 57 38 0,600-0,667 0,667-0,733
37 0,733 hasta 0,800 20 0,800 a 0,867 2314 0,867 hasta 0,933 0,933-1,000 50

Documentos pertinentes:
No hay resultados publicados que utilizan esta base de datos especfica. relacionados
conjunto de datos utilizado en Redmond y Baveja 'Una herramienta de software basada en
datos para permitir el intercambio de cooperacin entre los departamentos de polica de la
informacin "en el European Journal of Operational Research 141 (2002) 660-678; Ese
artculo incluye una descripcin de la integracin de las tres fuentes de datos, sin
embargo, estos datos se normaliza de manera diferente y ms / diferentes atributos estn
incluidos.

Cita de pedidos:
Por favor, cite la UCI Machine Learning Repository, mis fuentes y mi artculo
relacionado: Departamento de Comercio, Oficina del Censo de EE.UU., Censo de
Poblacin y Vivienda 1990 Estados Unidos: Compendio de Datos Cinta 1a y 3a (Archivos
de computadora), Departamento de Comercio de EE.UU., Oficina del productor del Censo,
Washington, DC y el Consorcio Interuniversitario para la Investigacin Poltica y Social
Ann Arbor, Michigan. (1992) Departamento de Justicia de EE.UU., Oficina de Estadsticas
de Justicia, Administracin de Aplicacin de la Ley y las estadsticas administrativas
(Archivo de computadora) del Departamento de Comercio, Oficina del Censo de EE.UU.
Productor, Washington, DC y el Consorcio Interuniversitario para la Investigacin Poltica y
Social Ann Arbor, Michigan. (1992) Departamento de Justicia de EE.UU., Oficina Federal
de Investigaciones, Crimen en los Estados Unidos (Archivo de computadora)
(1995) Redmond, MA y A. Baveja: una herramienta de software basado en los Datos de
Activacin Cooperativa intercambio de informacin entre los Departamentos de
Polica. European Journal of Operational Research 141 (2002) 660-678.
Comunidades y el Delito 2014-02-12
unnormalized Data Set
Resumen : Las comunidades en los EE.UU.. Los datos combina los datos socio-
econmicos de los aos 90 del Censo, los datos policiales de la aplicacin de la ley 1990
de gestin y administracin de las estadsticas de la encuesta, y los datos de
criminalidad del 1995 FBI UCR
Conjunto de datos Nmero de
Multivariante 2215 rea: Social
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2011-


Real 147
atributo: atributos: Donado 03-02

Nmero de
Valores
Tareas asociadas: Regresin S Web 33511
perdidos?
Accesos:

Fuente:
- Creador: Michael Redmond (Redmond 'at' lasalle.edu); Ciencias de la Computacin, de
la Universidad La Salle, Philadelphia, PA, 19141, EE.UU.
- entresacado de 1990 del Censo de EE.UU., 1995 EE.UU. FBI Uniform Crime Report,
1990 Gestin EE.UU. aplicacin de la ley y Administrativo de Estadstica Encuesta,
disponible en ICPSR en la U de Michigan.
- Donante: Michael Redmond (Redmond 'at' lasalle.edu); Ciencias de la Computacin, de
la Universidad La Salle, Philadelphia, PA, 19141, EE.UU.

Datos Conjunto de Informacin:


Los conjuntos de datos de origen necesarios para combinarse a travs de la
programacin. Muchas variables se incluyen para que los algoritmos que seleccionan o
aprenden los pesos de los atributos podran ser probados. Sin embargo, los atributos no
relacionados claramente no se incluyeron; atributos fueron recogidos si haba alguna
conexin plausible delito (N = 125), adems de las variables de delincuencia que son
posibles variables dependientes. Las variables incluidas en el conjunto de datos involucran
a la comunidad, tales como el porcentaje de la poblacin considerada urbana, y la renta
mediana de la familia, y la participacin de las fuerzas del orden, como el nmero de
policas per cpita, y el porcentaje de los oficiales asignados a las unidades de la
droga. Los atributos de delitos (N = 18) que podran ser predichos son los 8 delitos
considerados "crmenes ndice 'por el FBI) (Asesinatos, Violacin, Robo, ....), per cpita
(en realidad por 100.000 habitantes) versiones de cada uno, y Per Cpita delitos violentos
y no violentos Delitos per cpita). Una limitacin es que la encuesta LEMAS era de los
departamentos de polica de al menos 100 oficiales, adems de una muestra aleatoria de
los departamentos ms pequeos. Para nuestros propsitos, las comunidades que no se
encuentran en los dos conjuntos de datos de los censos y la delincuencia fueron
omitidos. Muchas comunidades faltan datos de Lemas. Las variables crmenes per cpita
se calcularon utilizando valores de la poblacin incluida en los datos de 1995 del FBI (que
difieren de los valores del Censo 1990). La variable per cpita crmenes violentos se
calcul utilizando la poblacin y la suma de las variables del crimen considerado crmenes
violentos en Estados Unidos: el asesinato, la violacin, el robo y asalto. Al parecer, haba
una cierta controversia en algunos estados en relacin con el conteo de violaciones. Esto
dio como resultado valores perdidos de violacin, lo que dio lugar a los valores que faltan
para el crimen violento per cpita. Muchas de estas comunidades eran omitidos de los
EE.UU. del Medio Oeste (Minnesota, Illinois y Michigan tienen muchos de estos).La
variable de la delincuencia no violenta per cpita fue calculado utilizando la suma de las
variables de delitos considerados crmenes no violentos en los Estados Unidos: robos,
hurtos , robos de automviles e incendios. (Hay muchos otros tipos de delitos, stos slo
incluyen 'Crmenes ndice' FBI) Algunos ms pre-procesamiento del conjunto de datos
debe hacerse. Elija la variable dependiente deseable de entre los 18 posibles. No sera
interesante o apropiado para predecir el total de delitos (por ejemplo, los delitos violentos),
mientras incluyendo subtotales (por ejemplo, asesinatos) como variables
independientes. Tambin hay variables de identificacin (nombre de la comunidad, el
cdigo de condado, cdigo comunitario) que no son predictivos, y se pondr en el camino
de algunos algoritmos. Sin supervisin de Weka Atributo Eliminar filtro se puede utilizar
para quitar los atributos deseados. El FBI seala que el uso de estos datos para evaluar
las comunidades es demasiado simplista, no se incluyen como muchos factores
relevantes. Por ejemplo, las comunidades con un gran nmero de visitantes tendrn mayor
delincuencia per cpita (medido por los residentes) que las comunidades con menor
nmero de visitantes, en igualdad de circunstancias.

Atributo de la informacin:
(125 predictivo, 4 no predictiva, 18 gol potencial)
- communityName: Nombre de la comunidad - no predictiva - slo para informacin
(cadena)
- Estado: estado de los EE.UU. (por 2 letras de la abreviatura postal) (nominal)
- countyCode: numrico Cdigo para el condado - no predictiva, y muchos valores
perdidos (numrico)
- communityCode: cdigo numrico para la comunidad - no predictivos y muchos valores
perdidos (numricos)
- aspectos: nmero de validacin no aleatoria 10 cruz doblez plegar, potencialmente til
para depuracin, pruebas pareadas - no predictiva (numrico - entero) - Poblacin: La
poblacin de la comunidad: (numrico - espera que sea entero) - householdsize: personas
promedio por hogar (numrico - decimal) - racepctblack: porcentaje de la poblacin que es
afroamericano (numrico - decimal) - racePctWhite: porcentaje de la poblacin que es
caucsico (numrico - decimal) - racePctAsian: porcentaje de la poblacin que es de
origen asitico (numrico - decimal) - racePctHisp: porcentaje de la poblacin que es de
hispanos patrimonio (numrico - decimal) - agePct12t21: porcentaje de la poblacin que
est en edad de 12 a 21 (numrico - decimal) - agePct12t29: porcentaje de la poblacin
que est en edad de 12 a 29 (numrico - decimal) - agePct16t24: porcentaje de poblacin
que est en edad de 16 a 24 (numrico - decimal) - agePct65up: porcentaje de la
poblacin que es de 65 aos y ms de edad (numrico - decimal) - numbUrban: nmero
de personas que viven en zonas clasificadas como urbanas (numrico - se espera que ser
entero) - pctUrban: porcentaje de personas que viven en zonas clasificadas como urbanas
(numrico - decimal) - medIncome: renta de casa mediana (numrico - puede ser un
nmero entero) - pctWWage: porcentaje de hogares con sueldos o ingresos salariales en
1989 ( numrico - decimal) - pctWFarmSelf: porcentaje de hogares con granja o ingresos
de trabajo por cuenta propia en 1989 (numrico - decimal) - pctWInvInc: porcentaje de
hogares con una inversin / alquiler de ingresos en 1989 (numrico - decimal) -
pctWSocSec: porcentaje de hogares con ingresos de la seguridad social en 1989
(numrico - decimal) - pctWPubAsst: porcentaje de hogares con ingresos de asistencia
pblica en 1989 (numrico - decimal) - pctWRetire: porcentaje de hogares con ingresos de
jubilacin en 1989 (numrico - decimal) - medFamInc: ingreso familiar medio (se diferencia
de los ingresos familiares de los hogares no familiares) (numrico - puede ser un nmero
entero) - perCapInc: el ingreso per cpita (numrico - decimal) - whitePerCap: el ingreso
per cpita de los caucsicos (numrico - decimal) - blackPerCap : el ingreso per cpita de
los afroamericanos (numrico - decimal) el ingreso per cpita para nativos americanos
(numrico - decimales): indianPerCap - - AsianPerCap: el ingreso per cpita de las
personas con herencia asitica (numrico - decimal) - OtherPerCap: per cpita ingresos
para las personas con "otro" patrimonio (numrico - decimal) - HispPerCap: el ingreso per
cpita de las personas con herencia hispana (numrico - decimal) - NumUnderPov:
nmero de personas bajo el nivel de pobreza (numrico - espera que sea entero) - -
PctPopUnderPov: porcentaje de personas bajo el nivel de pobreza (numrico - decimal) -
PctLess9thGrade: porcentaje de personas de 25 y ms aos con una educacin inferior a
9 grado (numrico - decimal) - PctNotHSGrad: porcentaje de personas de 25 y ms que
no lo son los graduados de secundaria (numrico - decimales) - PctBSorMore: porcentaje
de personas de 25 y ms aos con una licenciatura o de educacin superior (numrico -
decimal) - PctUnemployed: Porcentaje de personas de 16 y ms, en la fuerza de trabajo, y
los desempleados (numrico - decimal) - PctEmploy: porcentaje de personas de 16 y ms
aos que se emplean (numrico - decimal) - PctEmplManu: porcentaje de personas de 16
aos en que estn empleados en la industria manufacturera (numrico - decimal) -
PctEmplProfServ: porcentaje de personas de 16 y sobre quin estn empleados en los
servicios profesionales (numrico - decimales) - PctOccupManu: porcentaje de personas
de 16 y ms aos que se emplean en la fabricacin (numrico - decimal) # # # # Ya no
seguro de la diferencia de PctEmplManu - pueden incluir los trabajadores manufactureros
en paro # # # # - PctOccupMgmtProf: porcentaje de personas de 16 o ms aos que se
emplean en la gestin o de las profesiones liberales (numrico - decimales) -
MalePctDivorce: porcentaje de hombres que estn divorciados (numrico - decimal) -
MalePctNevMarr: porcentaje de varones que tienen nunca se cas (numrico - decimal) -
FemalePctDiv: porcentaje de mujeres que se han divorciado (numrico - decimal) -
TotalPctDiv: porcentaje de la poblacin que estn divorciados (numrico - decimal) -
PersPerFam: nmero de personas por familia media (numrico - decimal) - PctFam2Par:
porcentaje de familias (con nios) que se dirigi por dos padres (numrico - decimales) -
PctKids2Par: porcentaje de nios en la vivienda familiar con dos padres (numrico -
decimales) - PctYoungKids2Par: por ciento de los nios 4 y bajo en dos hogares
monoparentales (numrico - decimal) - PctTeen2Par: por ciento de los nios de 12-17
aos en dos hogares monoparentales (numrico - decimales) - PctWorkMomYoungKids:
Porcentaje de madres de nios de 6 aos en la fuerza laboral (numrico - decimales ) -
PctWorkMom: porcentaje de madres de nios menores de 18 aos en la fuerza laboral
(numrico - decimal) - NumKidsBornNeverMar: nmero de nios nacidos de que nunca se
casaron (numrico - espera que sea entero) - PctKidsBornNeverMar: porcentaje de nios
nacidos de nunca casado (numrico - decimal) - NumImmig: nmero total de personas que
se sabe que son nacidos en el extranjero (numrico - espera que sea entero) -
PctImmigRecent: porcentaje de _immigrants_ que immigated dentro de los 3 ltimos aos
(numrico - decimal) - PctImmigRec5: porcentaje de _immigrants_ que immigated en los
ltimos 5 aos (numrico - decimal) - PctImmigRec8: porcentaje de _immigrants_ que
immigated dentro de los ltimos 8 aos (numrico - decimal) - PctImmigRec10: porcentaje
de _immigrants_ que immigated dentro de los ltimos 10 aos (numrico - decimal) -
PctRecentImmig: ciento de _population_ que han inmigrado en los ltimos 3 aos
(numrico - decimal) - PctRecImmig5: ciento de _population_ que han inmigrado en los
ltimos 5 aos (numrico - decimal) - PctRecImmig8: ciento de _population_ que han
inmigrado en el ltimos 8 aos (numrico - decimal) - PctRecImmig10: ciento de
_population_ que han inmigrado en los ltimos 10 aos (numrico - decimal) -
PctSpeakEnglOnly: ciento de las personas que slo hablan Ingls (numrico - decimal) -
PctNotSpeakEnglWell: por ciento de las personas que no hablan Ingls bien (numrico -
decimal) - PctLargHouseFam: por ciento de los hogares de la familia que son grandes (6 o
ms) (numrico - decimal) - PctLargHouseOccup: por ciento de todas las casas ocupadas
que son grandes (6 o ms personas ) (numrico - decimal) - PersPerOccupHous:
personas promedio por hogar (numrico - decimal) - PersPerOwnOccHous: personas
promedio por hogar ocupadas por sus propietarios (numrico - decimal) -
PersPerRentOccHous: personas promedio por hogar de alquiler (numrico - decimal) -
PctPersOwnOccup: ciento de las personas ocupadas por sus propietarios en los hogares
(numrico - decimales) - PctPersDenseHous: por ciento de las personas en condiciones
de densa (ms de 1 persona por habitacin) (numrico - decimal) - PctHousLess3BR:
porcentaje de viviendas con menos de 3 dormitorios (numrico - decimal) - MedNumBR:
mediana del nmero de dormitorios (numrico - decimal) - HousVacant: nmero de
hogares vacantes (numrico - espera que sea entero) - PctHousOccup: porcentaje de
viviendas ocupadas (numrico - decimal) - PctHousOwnOcc : porcentaje de hogares
ocupadas por sus propietarios (numrico - decimal) - PctVacantBoarded: porcentaje de
viviendas desocupadas que est tapiada (numrico - decimal) - PctVacMore6Mos:
porcentaje de viviendas desocupadas que ha estado vacante ms de 6 meses (numrico -
decimales) - - MedYrHousBuilt: unidades de vivienda construidas aos mediana (numrico
- puede ser un nmero entero) - PctHousNoPhone: por ciento de unidades de vivienda
ocupadas sin telfono (en 1990, esto era raro!) (numrico - decimal) - PctWOFullPlumb:
porcentaje de viviendas sin agua corriente completa instalaciones (numrico - decimales) -
OwnOccLowQuart: vivienda en propiedad - valor cuartil inferior (numrico - decimal) -
OwnOccMedVal: vivienda en propiedad - valor medio (numrico - decimal) -
OwnOccHiQuart: vivienda en propiedad - valor cuartil superior (numrico - decimal) -
OwnOccQrange: vivienda en propiedad - diferencia entre el cuartil superior y los valores
ms bajos cuartil (numrico - decimales) - RentLowQ: alquiler de viviendas - una renta
menor cuartil (numrico - decimal) - RentMedian: alquiler de vivienda - renta mediana
(Censo H32B variables de archivo STF1A) (numrico - decimal) - RentHighQ: vivienda de
alquiler - alquiler cuartil superior (numrico - decimal) - RentQrange: alquiler de vivienda -
diferencia entre el cuartil superior e inferior alquiler cuartil (numrico - decimal) - MedRent:
renta bruta media (Censo H43A variables de archivo STF3A - incluye los servicios
pblicos) (numrico - decimales) - MedRentPctHousInc: renta bruta promedio como
porcentaje del ingreso de los hogares (numrico - decimal) - MedOwnCostPctInc:
propietarios de la mediana de costos como porcentaje de los ingresos familiares - para los
propietarios con una hipoteca (numrico - decimales) - MedOwnCostPctIncNoMtg:
propietarios de la mediana de costos como porcentaje de los ingresos del hogar - para los
dueos sin hipoteca (numrico - decimal) - NumInShelters: nmero de personas en
refugios para desamparados (numrico - se espera que como entero) - NumStreet:
nmero de personas sin hogar, contados en la calle (numrico - espera que sea entero) -
PctForeignBorn: ciento de las personas nacidas en el extranjero (numrico - decimales) -
PctBornSameState: por ciento de las personas nacidas en el mismo estado que
Actualmente vive (numrico - decimal) - PctSameHouse85: porcentaje de personas que
viven en la misma casa que en 1985 (5 aos antes) (numrico - decimal) - PctSameCity85:
porcentaje de personas que viven en la misma ciudad que en 1985 (5 aos antes)
(numrico - decimal) - PctSameState85: porcentaje de personas que viven en el mismo
estado que en 1985 (5 aos antes) (numrico - decimal) - LemasSwornFT: nmero de
oficiales jurados tiempo completo de la polica (numrico - que se espera estn entero ) -
LemasSwFTPerPop: oficiales jurados tiempo completo policiales por 100K poblacin
(numrico - decimales) - LemasSwFTFieldOps: nmero de oficiales de polica a tiempo
completo juradas en las operaciones de campo (en la calle en lugar de etc administrativa)
(numrico - que se espera estn entero) - LemasSwFTFieldPerPop: oficiales juramentados
a tiempo completo de la polica en las operaciones de campo (en la calle en lugar de etc
administrativa) por 100 mil habitantes (numrico - decimal) - LemasTotalReq: Total de
solicitudes para la polica (numrico - se espera que estn enteros) -
LemasTotReqPerPop: total de solicitudes para la polica por 100K popuation (numrico -
decimal) - PolicReqPerOffic: total de solicitudes para la polica por oficial de polica
(numrico - decimales) - PolicPerPop: oficiales de polica por 100K poblacin (numrico -
decimales) - RacialMatchCommPol: una medida de la partido racial entre la comunidad y
la polica. Los valores altos indican las proporciones en la comunidad y la polica son
similares (numrico - decimal) - PctPolicWhite: por ciento de la polica que son caucsicos
(numrico - decimal)- PctPolicBlack: por ciento de la polica que son afroamericanos
(numrico - decimal) - PctPolicHisp : por ciento de la polica que son hispanos (numrico -
decimal) - PctPolicAsian: por ciento de la polica que son asitico (numrico - decimal) -
PctPolicMinor: por ciento de la polica que son minora de cualquier tipo (numrico -
decimal) - OfficAssgnDrugUnits: nmero de los oficiales asignados a las unidades
especiales de la droga (numrico - espera que sea entero) - NumKindsDrugsSeiz: nmero
de diferentes tipos de drogas incautadas (numrico - espera que sea entero) -
PolicAveOTWorked: polica promedio de horas extras trabajadas (numrico - decimal) -
LandArea : rea de la tierra en millas cuadradas (numrico - decimal) - PopDens:
densidad de poblacin en las personas por la milla cuadrada (numrico - decimal) -
PctUsePubTrans: porcentaje de personas que utilizan el transporte pblico para ir al
trabajo (numrico - decimal) - PolicCars: nmero de coches de polica (numrico - se
espera que estn enteros) - PolicOperBudg: presupuesto operativo de la polica (numrico
- puede ser un nmero entero) - LemasPctPolicOnPatr: por ciento de los oficiales
juramentados a tiempo completo de la polica en patrulla (numrico - decimales) -
LemasGangUnitDeploy: unidad de pandillas desplegado ( numrico - entero - pero
realmente nominal - 0 significa NO, 10 medios s, 5 significa Part Time) -
LemasPctOfficDrugUn: ciento de los oficiales asignados a las unidades de la droga
(numrico - decimales) - PolicBudgPerPop: el presupuesto operativo de la polica por la
poblacin (numrico - decimales ) - asesinatos: nmero de asesinatos en 1995 (numrico -
se espera que estn enteros) atributo META potencial (que se predijo) - murdPerPop:
nmero de homicidios por cada 100 mil habitantes (numrico - decimal) atributo META
potencial (que se predijo) - - violaciones: nmero de violaciones en 1995 (numrico -
espera que sea entero) atributo META potencial (que se predijo) - rapesPerPop: nmero
de violaciones por 100K poblacin (numrico - decimal) atributo META potencial (que se
predijo) - robos : nmero de robos en 1995 (numrico - espera que sea entero) atributo
META potencial (que se predijo) - robbbPerPop: nmero de atracos por 100K poblacin
(numrico - decimal) atributo META potencial (que se predijo) - asaltos: nmero de las
agresiones en 1995 (numrico - espera que sea entero) atributo potencial GOAL (a ser
predicho) - assaultPerPop: nmero de agresiones por cada 100 mil habitantes (numrico -
decimal) atributo META potencial (que se predijo) - robos: nmero de robos en 1995
(numrico - espera que sea entero) atributo META potencial (que se predijo) -
burglPerPop: nmero de robos por cada 100 mil habitantes (numrico - decimal) atributo
META potencial (que se predijo) - hurtos: nmero de hurtos en 1995 (numrico - espera
que sea entero) atributo META potencial (que se predijo) - larcPerPop: nmero de hurtos
por 100K poblacin (numrico - decimal) atributo META potencial (que se predijo) -
autoTheft: nmero de robos de automviles en 1995 ( numrico - espera que sea entero)
atributo META potencial (que se predijo) - autoTheftPerPop: nmero de robos de
automviles por cada 100 mil habitantes (numrico - decimal) atributo META potencial
(que se predijo) - incendios provocados: nmero de incendios provocados en 1995
(numricos - espera que sea entero) atributo META potencial (que se predijo) -
arsonsPerPop: nmero de incendios provocados por 100K poblacin (numrico - decimal)
atributo META potencial (que se predijo) - ViolentCrimesPerPop: nmero total de delitos
violentos por 100K popuation ( numrico - atributo decimal) GOAL (a predecir) -
nonViolPerPop: nmero total de delitos no violentos por 100K popuation (numrico -
decimal) atributo META potencial (que se predijo) Resumen de estadsticas: variables,
mnimo, mximo, media, Standard Desviacin, Correlacin w / de Estado nominaldel
Objetivo principal Variable (delitos violentos por Poblacin): Rango de frecuencia (en el
lmite va en el compartimiento inferior, por ejemplo, exactamente 200 va enencabezado
por Weka: @ relacin crimeunnormalized @ atributo string communityName @ atribuir
Estado countyCode numrico @ atributo communityCode numricoatributo @ pliegue
numrico

@ Atributo pop numrico


@ atribuir perHoush numrico
@ atributo pctBlack numrico
atributo @ pctWhite numrico
@ atribuir pctAsian numrico
atributo @ pctHisp numrico
@ atributo PCT12-21 numrico
@ PCT12-29 numrico atributo
@ atributo pCT16-24 numrico
@ atributo pct65up numrico
atributo @ persUrban numrico
@ atributo pctUrban numrico
@ atribuir medIncome numrico
@ atributo pctWwage numrico
@ atributo pctWfarm numrico
atributo @ pctWdiv numrico
@ atributo pctWsocsec numrico
atributo @ pctPubAsst numrico
atributo @ pctRetire numrico
@ atribuir medFamIncome numrico
@ atributo perCapInc numrico
@ atributo whitePerCap numrico
@ atribuir blackPerCap numrico
@ atributo NAperCap numrico
@ atributo asianPerCap numrico
@ atribuir otherPerCap numrico
atributo @ hispPerCap numrico
atributo @ persPoverty numrico
@ atribuir pctPoverty numrico
atributo @ pctLowEdu numrico
atributo @ pctNotHSgrad numrico
atributo @ pctCollGrad numrico
@ atribuir pctUnemploy numrico
atributo @ pctEmploy numrico
atributo @ pctEmployMfg numrico
atributo @ pctEmployProfServ numrico
@ atribuir pctOccupManu numrico
atributo @ pctOccupMgmt numrico
@ atribuir pctMaleDivorc numrico
@ atribuir pctMaleNevMar numrico
@ atributo pctFemDivorc numrico
atributo @ pctAllDivorc numrico
@ atribuir persPerFam numrico
@ atributo pct2Par numrico
@ atributo pctKids2Par numrico
atributo @ pctKids-4w2Par numrico
@ atribuir PCT12-17w2Par numrico
atributo @ pctWorkMom-6 numrica
@ atribuir pctWorkMom-18 numrico
@ atributo kidsBornNevrMarr numrico
atributo @ pctKidsBornNevrMarr numrico
atributo @ numForeignBorn numrico
@ atributo pctFgnImmig-3 numrica
@ atribuir pctFgnImmig-5 numrica
atributo @ pctFgnImmig-8 numrico
@ atribuir pctFgnImmig-10 numrico
@ atributo pctImmig- 3 numrico
atributo @ pctImmig-5 numrica
@ atribuir pctImmig-8 numrico
@ atribuir pctImmig-10 numrico
@ atributo pctSpeakOnlyEng numrico
@ atributo pctNotSpeakEng numrico
atributo @ pctLargHousFam numrico
@ atribuir pctLargHous numrico
@ atribuir persPerOccupHous numrico
atributo @ persPerOwnOccup numrico
atributo @ persPerRenterOccup numrico
atributo @ pctPersOwnOccup numrico
@ atribuir pctPopDenseHous numrico
atributo @ pctSmallHousUnits numrico
@ atribuir medNumBedrm numrico
@ atributo houseVacant numrico
atributo @ pctHousOccup numrico
atributo @ pctHousOwnerOccup numrico
atributo @ pctVacantBoarded numrico
atributo @ pctVacant6up numrico
@ atribuir medYrHousBuilt numrico
@ atributo pctHousWOphone numrico
atributo @ pctHousWOplumb numrico
atributo @ ownHousLowQ numrico
@ atributo ownHousMed numrico
atributo @ ownHousUperQ numrico
atributo @ ownHousQrange numrico
atributo @ rentLowQ numrico
atributo @ rentMed numrico
atributo @ rentUpperQ numrico
atributo @ rentQrange numrico
@ atribuir medGrossRent numrico
@ atributo medRentpctHousInc numrico
@ atributo medOwnCostpct numrico
@ atributo medOwnCostPctWO numrico
atributo @ persEmergShelt numrico
atributo @ persHomeless numrico
@ atributo pctForeignBorn numrico
atributo @ pctBornStateResid numrico
@ atribuir pctSameHouse-5 numrica
@ atribuir pctSameCounty-5 numrica
atributo @ pctSameState-5 numrica
@ atribuir numPolice numrico
atributo @ policePerPop numrico
atributo @ policeField numrico
atributo @ policeFieldPerPop numrico
atributo @ policeCalls numrico
atributo @ policCallPerPop numrico
@ atribuir policCallPerOffic numrico
atributo @ policePerPop2 numrico
atributo @ racialMatch numrico
atributo @ pctPolicWhite numrico
atributo @ pctPolicBlack numrico
atributo @ pctPolicHisp numrico
@ atribuir pctPolicAsian numrico
@ atribuir pctPolicMinority numrico
numrico del atributo @ officDrugUnits
atributo @ numDiffDrugsSeiz numrico
atributo @ policAveOT numrico
atributo @ LandArea numrico
@ atribuir PopDensity numrico
numrico del atributo @ pctUsePubTrans
atributo @ policCarsAvail numrico
atributo @ policOperBudget numrico
atributo @ pctPolicPatrol numrico
atributo @ gangUnit numrico
atributo @ pctOfficDrugUnit numrico
atributo @ policBudgetPerPop numricos
asesinatos atributo @ numrico
atributo @ murdPerPop numrico
atributo @ viola numrico
numrico del atributo @ rapesPerPop
atributo @ robos numrico
numrico del atributo @ robbbPerPop
atributo @ asalta numrico
atributo @ assaultPerPop numrico
atributo @ Robos numrico
atributo @ burglPerPop numrico
atributo @ hurtos numrico
@ atributo larcPerPop numrico
atributo @ autoTheft numrico
atributo @ autoTheftPerPop numricos
incendios provocados atributo @ numrico
atributo @ arsonsPerPop numrico
atributo @ violentPerPop numrico
@ atributo nonViolPerPop numrico @ datos

Documentos pertinentes:
Pasado Uso
1. [Redmond y Highley 2009] Redmond, M., y Highley, T., Anlisis Emprico de Case-
Edicin de Enfoques para la Prediccin Numrica. En Conferencia Conjunta Internacional
sobre Informtica, Informacin y Sistemas Ciencias e Ingeniera (Cisse) subconferencia
Conferencia Internacional sobre Sistemas, Ciencias de la Computacin e Ingeniera de
Software (SCSS). Universidad de Bridgeport, CT, diciembre de 2009.
- Todos los datos numricos se normaliz (0-1), ViolentCrimesPerPop se predijo (todos los
dems atributos del crimen fueron eliminados)
- Mejor error absoluto medio obtenido fue de 0.096 (en datos normalizados)
2. [Buczak y Gifford 2010] Buczak, AL y Gifford, CM, Fuzzy Regla Asociacin Minera de
Patrn Comunidad Crimen Discovery. En el Taller de Inteligencia y Seguridad Informtica
de la 16 Conferencia de Descubrimiento de Conocimiento y Minera de Datos (ISI-KDD-
2010). Washington DC. Julio de 2010.
- Los datos se procesaron ms
Cita de pedidos:
Por favor, cite la UCI Machine Learning repositorio y mis fuentes: Departamento de
Comercio de EE.UU., Oficina del Censo, Censo de Poblacin y Vivienda 1990 Estados
Unidos: Compendio de Datos Cinta 1a y 3a (Archivos de computadora), Departamento de
Comercio de EE.UU., Oficina del Censo Productor, Washington, DC y el Consorcio
Interuniversitario para la Investigacin Poltica y Social Ann Arbor,
Michigan. (1992) Departamento de Justicia de EE.UU., Oficina de Estadsticas de Justicia,
Administracin de Aplicacin de la Ley y las estadsticas administrativas (Archivo de
computadora) del Departamento de Comercio, Oficina del Censo de EE.UU. Productor,
Washington, DC y el Consorcio Interuniversitario para la Investigacin Poltica y Social
Ann Arbor, Michigan. (1992) Departamento de Justicia de EE.UU., Oficina Federal de
Investigaciones, Crimen en los Estados Unidos (Archivo de computadora) (1995)
Computer Hardware Data Set 2014-
02-12
Resumen : Los datos relativos rendimiento de la CPU, que se describen en
trminos de su tiempo de ciclo, tamao de la memoria, etc
Conjunto de
Nmero de
datos Multivariante 209 rea: Ordenador
instancias:
Caractersticas:

Caractersticas Nmero de Fecha 1987-10-


Entero 9
del atributo: atributos: Donado 01

Nmero
Tareas Valores
Regresin No de Web 72020
asociadas: perdidos?
Accesos:

Fuente:
Creador: Phillip Ein-Dor y Jacob Feldmesser Ein-Dor: Facultad de Administracin
de la Universidad de Tel Aviv, Ramat-Aviv, Tel Aviv, 69978, Israel Donante: David
W. Aha ( aha '@' ics.uci.edu ) (714) 856-8779

Datos Conjunto de Informacin:


Los valores estimados de rendimiento relativo fueron estimados por los autores a
partir de un mtodo de regresin lineal. Vase su artculo (pp 308-313) para ms
detalles sobre cmo se establecieron los valores de rendimiento relativo.

Atributo de la informacin:
1. Nombre del proveedor: 30
(consejero, Amdahl, apolo, BASF, bti, burroughs, crd, cambex, cdc, diciembre,
dg, formacin, de cuatro fases, gould, honeywell, HP, IBM, ipl, Magnuson,
microdatos, nas, ncr , nixdorf, Perkin-Elmer, prima, siemens, Sperry,
sratus, wang)
2. Nombre del modelo: muchos smbolos nicos
3. MYCT: tiempo de ciclo de la mquina en nanosegundos (entero)
4. MMIN: memoria principal mnimo en kilobytes (entero)
5. MMAX: memoria principal mxima en kilobytes (entero)
6. CACH: memoria cach en kilobytes (entero)
7. CHMIN: canales mnimos en unidades (entero)
8. CHMAX: canales mximos en unidades (entero)
9. PRP: desempeo relativo publicada (nmero entero)
10. ERP: El rendimiento relativo estimado del artculo original (entero)

Documentos pertinentes:
Ein-Dor y Feldmesser (MCCA 4/87, pp 308-317) Kibler, D. Y Aha,
D. (1988). Prediccin basada en instancia de atributos-valor real. En Actas de la
Conferencia CSCSI (Canadian AI). [Web Link]

Documentos que citan este conjunto de datos 1 :


Dan Pelleg. estimadores de densidad de probabilidad escalables y prcticos para
la deteccin de anomalas Cientfico . Facultad de Ciencias de la Universidad
Carnegie Mellon de ordenador. 2004. [ Ver Contexto ]. Yongge Wang. Un nuevo
enfoque de los modelos lineales de montaje en High espacios acotados . Alastair
Scott (Departamento de Estadstica, Universidad de Auckland). [ Ver Contexto ].

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la
citacin
Hormign Resistencia a la 2014-02-12
Compresin Set Data
Resumen : El hormign es el material ms importante en la ingeniera civil. La resistencia
a la compresin de hormign es una funcin altamente no lineal de la edad y los
ingredientes.

Conjunto de datos Nmero de


Multivariante 1030 rea: Fsico
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2007-


Real 9
atributo: atributos: Donado 08-03

Nmero de
Valores
Tareas asociadas: Regresin N / A Web 48104
perdidos?
Accesos:

Fuente:
Propietario original y donante
Prof. I-Cheng Yeh
Departamento de Gestin de la Informacin
de la Universidad Chung-Hua,
Hsin Chu, Taiwn 30067, ROC
e-mail: Icyeh '@' chu.edu.tw
TEL :886-3-5186511 Fecha donado: 03 de agosto 2007

Datos Conjunto de Informacin:


Nmero de casos 1030
Nmero de Atributos 9
desglose 8 variables de entrada cuantitativos atributo y 1 salida cuantitativa variables
Atributo Valores perdidos Ninguno

Atributo de la informacin:
Teniendo en cuenta son el nombre de variable, tipo de variable, la unidad de medida y una
breve descripcin. La resistencia a la compresin de hormign es el problema de
regresin. El orden de esta lista se corresponde con el orden de los nmeros a lo largo de
las filas de la base de datos. Nombre - Tipo de datos - Medicin - Descripcin del Cemento
(componente 1) - cuantitativa - kg en una mezcla m3 - Entrada de la variable de alto horno
Escoria (componente 2) - cuantitativas - kg en una mezcla m3 - Entrada de la
variable cenizas volantes (componente 3) - cuantitativa - kg en una mezcla m3 - Variable
de entrada de agua (componente 4) - cuantitativa - kg en una mezcla m3 - Entrada
Variable Superplasticizer (componente 5) - cuantitativas - kg en una mezcla m3 - Entrada
de la variable Agregado Grueso (componente 6) - cuantitativas - kg en una mezcla m3 -
Entrada de la variable Agregado Fino ( Componente 7) - cuantitativas - kg en una mezcla
m3 - Entrada de la variable de la edad - cuantitativa - Da (1 ~ 365) - Variable de
entrada de resistencia a la compresin de hormign - cuantitativos - MPa - Variable de
salida

Documentos pertinentes:
Principal
1. I-Cheng Ye, "Modelado de la resistencia del hormign de alto rendimiento utilizando
redes neuronales artificiales", Cemento y Concrete Research, vol. 28, N 12, pp 1797-
1808 (1998). Otros 2. I-Cheng Ye, "Modelado de Resistencia media del hormign con
Augment-Neurona Networks," J. de Materiales en Ingeniera Civil, ASCE, vol.10, N 4, pp
263-268 (1998). 3. I-Cheng Ye, "Diseo de Alto Rendimiento de mezcla de concreto con
Redes Neuronales," J. de la Computacin en Ingeniera Civil, ASCE, vol. 13, N 1, pp 36-
42 (1999). 4. I-Cheng Ye, "Prediccin de la Fuerza de las cenizas volantes y escorias de
hormign mediante el uso de redes neuronales artificiales", Revista del Instituto Chino de
Ingeniera Civil y hidrulica, vol. 15, N 4, pp 659-663 (2003). 5. I-Cheng Ye, "Una
Metodologa Dosificacin mezcla de cenizas volantes y escorias de hormign utilizando
redes neuronales," Chung Hua Journal of Science and Engineering, vol. 1, N 1, pp 77-84
(2003). 6. Yeh, I-Cheng, "Anlisis de la resistencia del hormign mediante diseo de
experimentos y redes neuronales," Diario de Materiales en Ingeniera Civil, ASCE, Vol.18,
No.4, pp.597-604 (2006).

Cita de pedidos:
NOTA: La reutilizacin de esta base de datos es ilimitado con la retencin de la
notificacin de derechos de autor por el Prof. I-Cheng Yeh y el siguiente artculo
publicado: I-Cheng Ye, "Modelado de la resistencia del hormign de alto rendimiento
utilizando redes neuronales artificiales", Cemento y Hormign de Investigacin, Vol..28, N
12, pp 1797-1808 (1998).
Slump Concrete Test Set Data 2014-
02-12
Resumen : El hormign es un material de gran complejidad. El flujo de
asentamiento del hormign no slo es determinada por el contenido de agua,
pero que tambin est influenciada por otros ingredientes concretos.
Conjunto de
Nmero de
datos Multivariante 103 rea: Ordenador
instancias:
Caractersticas:

Caractersticas Nmero de Fecha 2009-04-


Real 10
del atributo: atributos: Donado 30

Nmero
Tareas Valores N/
Regresin de Web 31206
asociadas: perdidos? A
Accesos:

Fuente:
Donante: I-Cheng Yeh
Email: Icyeh '@' chu.edu.tw
Institucin: Departamento de Gestin de la Informacin de la Universidad Chung-
Hua (Repblica de China)
Otros datos de contacto: Departamento de Gestin de la Informacin de la
Universidad Chung-Hua, Hsin Chu, Taiwn 30067, ROC

Datos Conjunto de Informacin:


El conjunto de datos incluye 103 puntos de datos. Hay 7 variables de entrada y 3
variables de salida del conjunto de datos.
El conjunto de datos inicial incluy datos de 78. Despus de varios aos, tenemos
25 nuevos puntos de datos.

Atributo de la informacin:
Las variables de entrada (7) (kg de componente en un M ^ 3 de hormign):
Cemento
de escoria
Fly ash
Agua
SP
. Gruesa Glob
. Fine Glob Variables de salida (3): DEPRESIN (cm) FLOW (cm) 28 das
Resistencia a la compresin (Mpa)

Documentos pertinentes:
1. Yeh, I-Cheng, "Modelado de asentamiento de hormign con cenizas volantes y
superplastificante," Ordenadores y concreto, Vol.5, N 6, 559-572,. 2.008 2. Yeh,
I-Cheng, "Simulacin de asentamiento del concreto usando redes neuronales,"
Materiales de Construccin, Vol.162, N 1, 11-18, 2009. 3. Yeh, I-Cheng,
"Prediccin de la trabajabilidad del hormign mediante diseo de experimentos
para las mezclas, los" ordenadores y concreto, Vol.5, N 1, 1-20, 2008. 4. Yeh, I-
Cheng, "Modelado de flujo bache de hormign utilizando regresiones de segundo
orden y las redes neuronales artificiales," Cemento y Concreto Composites,
Vol.29, N 6, 474-480, 2007. 5. Yeh, I-Cheng, "Explorando modelo asentamiento
del concreto usando redes neuronales artificiales", J. de la Computacin en
Ingeniera Civil, ASCE, Vol.20, N 3, 217-221, 2006.

Cita de pedidos:
Yeh, I-Cheng, "Modelado de flujo bache de hormign utilizando regresiones de
segundo orden y las redes neuronales artificiales," Cemento y Concreto
Composites, Vol.29, N 6, 474-480, 2007.
Congreso Votacin 2014-02-12
Registros Data Set
Resumen : 1,984 unido indicado en el Congreso de voto Records; Clasificar como
republicano o demcrata
Conjunto de datos Nmero de
Multivariante 435 rea: Social
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 1987-


Categrico 16
atributo: atributos: Donado 04-27

Nmero de
Valores
Tareas asociadas: Clasificacin S Web 57369
perdidos?
Accesos:

Fuente:
Origen: Congressional Quarterly Almanac, Congreso 98o, segunda sesin de 1984,
Volumen XL:. Congressional Quarterly Inc. Washington, DC, 1985 Donante: Jeff
Schlimmer ( Jeffrey.Schlimmer '@' a.gp.cs.cmu.edu )

Datos Conjunto de Informacin:


Este conjunto de datos incluye votos de cada sector de la Cmara de Representantes de
EE.UU. congresistas sobre los 16 votos clave identificados por el CQA. El CQA enumera
nueve tipos diferentes de votos: votado, a la par de, y anunci para (estos tres simplificado
para s), votaron en contra, emparejado en contra, y anunci en contra (estos tres
simplificado a Nay), votaron presentes, votaron en la actualidad para evitar conflicto de
intereses, y no voto ni a presentar una posicin conocida (estos tres simplificado a una
disposicin desconocida) en caso contrario.

Atributo de la informacin:
1. Nombre de clase: 2 (demcrata, republicano)
2. discapacitados-bebs: 2 (a, n)
3. -proyecto de agua de costo compartido: 2 (y, n)
4. adopcin-de-la-presupuesto-resolucin: 2 (y, n)
5. mdico-fee-congelante: 2 (y, n)
6. el-salvador-ayuda: 2 (y, n)
7. grupos religiosos-en-escuelas: 2 (a, n)
8. -prueba anti-satlite-ban: 2 (y, n)
9. ayuda a nicaragua-contras: 2 (y, n)
10. mx-misiles: 2 (y, n)
11. inmigracin: 2 (y, n)
12. combustibles sintticos-corporation-reduccin: 2 (y, n)
13. educacin-gasto: 2 (y, n)
14. -superfund-derecho a demandar: 2 (y, n)
15. delito: 2 (y, n)
16. libres de impuestos-exportaciones: 2 (a, n)
17. La administracin de las exportaciones-acto-south-africa: 2 (y, n)

Documentos pertinentes:
Schlimmer, JC (1987). La adquisicin de conceptos a travs del ajuste de
representacin. Tesis doctoral, Departamento de Informacin y Ciencias de la
Computacin de la Universidad de California, Irvine, CA. [Web Link]
Documentos que citan este conjunto de datos 1 :
Aristides Gionis y Heikki Mannila y Panayiotis Tsaparas. Clustering
agregacin . ICDE. 2005. [ Ver Contexto ]. Daniel J. Lizotte y Omid Madani y Russell
Greiner.Presupuestado Aprendizaje de Naive-Bayes clasificadores . UAI. 2003. [ Ver
Contexto ]. Julie Greensmith. Nuevas fronteras para un sistema inmune artificial . Digital
Media Laboratorio de Sistemas HP Laboratorios Bristol. 2003. [ Ver Contexto ]. Jonathan
Eckstein y Peter L. Hammer y Ying Liu y Mikhail Nediak y Bruno Simeone. The Box
Problema mxima y su aplicacin al anlisis de datos . RUTCOR Rutgers Centro de
Investigacin Operativa de la Universidad de Rutgers. 2002. [ Ver Contexto .] . Daniel
Barbar y Yi Li y Julia Couto COOLCAT: un algoritmo basado en la entropa para la
agrupacin categrica . CIKM. 2002. [ Ver Contexto ]. Federico Divina y Elena
Marchiori. Evolutiva Concepto de Aprendizaje . GECCO. 2002. [ Ver Contexto ]. Robert M
francesa y Nick Chater. Uso de ruido para Calcular superficies de error en conexionistas
Redes: un nuevo medio de Reduccin catastrfica olvido . Neural
Computation. 2002. [ Ver Contexto .] . Gary M. Weiss y Haym Hirsh un estudio cuantitativo
de Pequeos disyunciones: Experimentos y Resultados . Departamento de Ciencias de la
Universidad de Rutgers Computer. 2000. [ Ver Contexto ]. Chun-Nan Hsu y Hilmar
Schuschel y Ya-Ting Yang. Enfoque ANNIGMA-Envoltura con Redes Neuronales funcin
de seleccin de Descubrimiento de Conocimiento y Minera de Datos . Instituto de
Ciencias de la Informacin. 1999. [ Ver Contexto ]. Huan Liu y Rudy Setiono. Incremental
Seleccin de caractersticas . Appl. Intell, 9. 1998. [ Ver Contexto ]. Blai Bonet y Hctor
Geffner. Learning Clasificacin y rboles de decisin con POMDPs . ICML. 1998. [ Ver
Contexto ]. Eui-Hong Han y George Karypis y Vipin Kumar y Bamshad
Mobasher. Clustering Basado En Asociacin Regla hypergraphs . DMKD. 1997. [ Ver
Contexto ]. Igor Kononenko y Edvard Simec y Marko Robnik-Sikonja. Superacin de la
miopa de los algoritmos de aprendizaje inductivo con RELIEFF . Appl. Intell, 7. 1997. [ Ver
Contexto ]. Erin J. Bredensteiner y Kristin P. Bennett. Caracterstica Minimizacin en
rboles de decisin . Fundacin Nacional de Ciencia. 1996. [ Ver Contexto ]. Kohavi Ron y
George H. John y Richard Long y David Manley y Karl Pfleger. MLC + +: Una Biblioteca
Aprendizaje Automtico en C ICTAI.. 1994. [ Ver Contexto ]. Rudy Setiono y Huan
Liu. Selector de funciones neuronales de la red . Departamento de Sistemas Informticos y
la Universidad Nacional de Ciencias de la Computacin de Singapur. [ Ver Contexto ]. Igor
Kononenko y Edvard Simec. Induccin de rboles de decisin utilizando
RELIEFF . Universidad de Ljubljana, Facultad de Ingeniera e Informtica Ingeniera
Elctrica. [ Ver Contexto ].Daniel J. Lizotte. Biblioteca Formulario de Autorizacin Nombre
del Autor . Presupuestado Aprendizaje de Naive Bayes clasificadores. [ Ver
Contexto ]. Daniel J. Lizotte y Omid Madani y Russell Greiner. Presupuestado Aprendizaje,
Parte II: La AN # ve-Bayes Case . Departamento de Informtica de la Universidad de
Ciencias de Alberta. [Ver Contexto ]. Chotirat Ann y Dimitrios Gunopulos. Ampliacin de la
Ingenuo clasificador bayesiano: Utilizacin de rboles de decisin para la seleccin de
caractersticas . Departamento de Ciencias de la Computacin de la Universidad de
California. [ Ver Contexto ].

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Connect-4 Conjunto de 2014-02-12
Datos
Resumen : Contiene Connect-4 posiciones
Conjunto de datos Multivariado, Nmero de
67557 rea: Juego
Caractersticas: espacial instancias:

Caractersticas del Nmero de Fecha


Categrico 42 02/04/1995
atributo: atributos: Donado

Nmero de
Valores
Tareas asociadas: Clasificacin No Web 57714
perdidos?
Accesos:

Fuente:
Los propietarios originales de base de datos: John Tromp
( tromp '@' cwi.nl ) Donante: John Tromp ( tromp '@' cwi.nl )

Datos Conjunto de Informacin:


Esta base de datos contiene todas las posiciones jurdicas de 8 lminas en el juego de la
conexin-4 en el que ninguno de los jugadores ha ganado todava, y en la que no se ve
obligado el siguiente movimiento. x es el primer jugador;. o la segunda La clase de
resultado es el juego valor terico para el primer jugador.

Atributo de la informacin:
Atributo Informacin: (x = x jugador ha tomado, o = player o ha tomado, b = blanco) La
junta est numerada
como: 6. . . . . . . 5. . . . . . . 4. . . . . . . 3. . . . . . . 2. . . . . . .1. . . . . . . abcdefg 1. a1: {x, o,
b} 2. a2: {x, o, b} 3. a3: {x, o, b} 4. a4: {x, o, b} 5. a5: {x, o, b} 6. a6: {x, o, b} 7. b1: {x, o,
b} 8. b2: {x, o, b} 9. b3: {x, o, b} 10. b4: {x, o, b}11. b5: {x, o, b} 12. b6: {x, o, b} 13. c1: {x, o,
b} 14. c2: {x, o, b} 15. c3: {x, o, b} 16. c4: {x, o, b} 17. c5: {x, o, b} 18. c6: {x, o, b} 19. d1: {x,
o, b} 20. d2: {x, o, b} 21. d3: {x, o, b} 22. d4: {x, o, b} 23. d5: {x, o, b} 24. d6: {x, o, b} 25. e1:
{x, o, b} 26. e2: {x, o, b} 27. e3: {x, o, b} 28. e4: {x, o, b} 29. e5: {x, o, b} 30. e6: {x, o,
b} 31. f1: {x, o, b}32. f2: {x, o, b} 33. f3: {x, o, b} 34. f4: {x, o, b} 35. f5: {x, o, b} 36. f6: {x, o,
b} 37. g1: {x, o, b} 38. g2: {x, o, b} 39. g3: {x, o, b} 40. g4: {x, o, b} 41. g5: {x, o, b} 42. g6:
{x, o, b} 43. Clase: {triunfo, prdida, sorteo}

Documentos pertinentes:
N/A
Documentos que citan este conjunto de datos 1 :
Alan Burton y Paul HJ Kelly. Prediccin de rendimiento de las cargas de trabajo de
paginacin Uso ligero Tracing . PDPI. 2003. [ Ver Contexto ]. Shi Zhong y Weiyu Tang y
Taghi M. Khoshgoftaar. Impulsado filtros de ruido para identificar Mislabeled
datos . Departamento de Ciencias de la Computacin e Ingeniera de la Universidad
Atlntica de la Florida. [ Ver Contexto ].

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Bench conexionista 2014-02-12
(Nettalk Corpus) Conjunto
de datos
Resumen : El archivo "nettalk.data" contiene una lista de 20 008 palabras en ingls,
junto con una transcripcin fontica de cada palabra. La tarea es entrenar una red para
producir los fonemas adecuados
Conjunto de datos Nmero de
Multivariante 20008 rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de Fecha


Categrico 4 N/A
atributo: atributos: Donado

Nmero de
Valores
Tareas asociadas: N/A N/A Web 17064
perdidos?
Accesos:
Fuente:
El conjunto de datos es una contribucin a la coleccin de referencia en Terry Sejnowski,
ahora en el Instituto Salk y la Universidad de California en San Deigo. El conjunto de datos
fue desarrollada en colaboracin con Charles Rosenberg de Princeton. Aproximadamente
250 horas-persona entr en la creacin y prueba de esta base de datos.

Datos Conjunto de Informacin:


Esta es una versin actualizada y corregida de la base de datos utilizada por Sejnowski y
Rosenberg en su influyente estudio de generacin de voz usando una red neuronal [1]. El
archivo "nettalk.data" contiene una lista de 20 008 palabras en ingls, junto con una
transcripcin fontica de cada palabra. La tarea es entrenar una red para producir los
fonemas adecuados, dada una cadena de letras como de entrada. Este es un ejemplo de
una tarea de asignacin de entrada / salida que exhibe fuertes regularidades globales,
sino tambin un gran nmero de normas ms especializados y casos excepcionales. Por
favor, consulte el archivo Lame original para ms informacin.

Atributo de la informacin:
El diccionario de pronunciacin se cre para estudiar el proceso de traduccin entre el
Ingls escrito, usando grafemas o letras como unidades, y se habla Ingls, utilizando
fonemas como unidades. El diccionario incluye 20.008 carta alineados y representaciones
fonticas con las tensiones. El diccionario contiene cuatro campos separados de la ficha
de informacin para cada palabra. Los campos son: 1) una representacin carta 2) una
representacin fonolgica 3) el estrs y la estructura silbica4) un entero que indica
palabras extranjeras e irregulares Consulte el archivo readme original para ms
informacin.

Documentos pertinentes:
Sejnowski, TJ, y Rosenberg, CR (1987). "Las redes paralelas que aprenden a pronunciar
el texto Ingls" en Sistemas Complejos, 1, 145-168. [Web Enlace]

Documentos que citan este conjunto de datos 1 :


Kai Ming Ting y Ian H. Witten. Problemas en Stacked Generalizacin . J.
Artif. Intell. Res.. .. (JAIR, 10 de 1999 [ Ver Contexto .] . Kai Ming Ting y Boon Toh
BajoCombinacin Modelo en el Multiple-Data-Lotes Escenario ... ECML 1997 [ Ver
Contexto .] Steven Salzberg. Sobre Clasificadores Comparando: trampas para evitar y un
enfoque recomendado . Dato Min. Conocimiento. Discov, 1. 1997. [ Ver
Contexto ]. Dietrich Wettschereck y David W. Aha. Caractersticas de ponderacin ..
ICCBR 1995. [ Ver Contexto ]. Thomas G. Dietterich y Ghulum Bakiri. Solucin multiclase
problemas de aprendizaje a travs de los cdigos de salida de correccin de errores .
CoRR, csAI/9501101. 1995. [ Ver Contexto ]. Rong Jin Yan y Liu y Luo Si y Jaime
Carbonell y Alexander G. Hauptmann. Un Nuevo Impulso algoritmo usando Input-
Dependiente regularizador . Facultad de Ciencias de la Computacin, de la Universidad
Carnegie Mellon. [ Ver Contexto ]. / odzisl / aw Wl Duch y Jerzy J. Korczak. Optimizacin y
mtodos globales de minimizacin adecuados para las redes neuronales . Departamento
de Mtodos Computacionales, Universidad Nicols Coprnico. [ Ver Contexto ].Rayid
Ghani. Informe del Proyecto KDD Utilizacin de cdigos de correccin de errores de
clasificacin de texto eficiente con un gran nmero de categoras . Centro para el
Aprendizaje Automatizado y Discovery, Facultad de Ciencias de la Computacin de la
Universidad Carnegie Mellon. [ Ver Contexto ]. Kai Ming Ting y Boon Toh baja.Teora de
combinacin: una alternativa a la combinacin de datos . Universidad de Waikato. [ Ver
Contexto ]. Sherrie L. W y Zijian Zheng. UN REFERENTE PARA EL APRENDIZAJE
CLASIFICADOR . Departamento Basser de Ciencias de la Computacin de la Universidad
de Sydney. [ Ver Contexto .] . Steve Whittaker y Loren G. Terveen y Bonnie A.
Nardi Vamos a dejar de empujar el sobre y empieza a hacerle frente: una agenda de
trabajo de referencia para HCI . un investigador cientfico senior en el Departamento de
Human Computer Interaction de AT & T LabsResearch. [ Ver Contexto ].

Cita de pedidos:
Copyright (C) 1988 por Terrence J. Sejnowski. Por la presente se da al utilizar los datos
incluidos para fines de investigacin no comerciales. Pngase en contacto con la
Universidad Johns Hopkins, Cognitive Science Center, Baltimore MD, EE.UU. para
obtener informacin sobre el uso comercial.
Bench conexionista (Sonar, 2014-02-12
Minas vs Rocks) Conjunto
de datos
Resumen : La tarea es formar una red para discriminar entre las seales de sonar rebot
en un cilindro de metal y los que rebot en una roca ms o menos cilndrica.
Conjunto de datos Nmero de
Multivariante 208 rea: Fsico
Caractersticas: instancias:

Caractersticas del Nmero de Fecha


Real 60 N/A
atributo: atributos: Donado

Nmero de
Valores N/
Tareas asociadas: Clasificacin Web 39017
perdidos? A
Accesos:

Fuente:
El conjunto de datos es una contribucin a la coleccin de referencia en Terry Sejnowski,
ahora en el Instituto Salk y la Universidad de California en San Deigo. El conjunto de datos
fue desarrollada en colaboracin con R. Paul Gorman del Centro de Tecnologa de Allied-
Signal Aerospace.

Datos Conjunto de Informacin:


El archivo "sonar.mines" contiene 111 patrones obtenidos por el rebote de seales de
sonar fuera de un cilindro de metal en varios ngulos y bajo diferentes condiciones.El
archivo "sonar.rocks" contiene 97 patrones obtenidos a partir de rocas bajo condiciones
similares. La seal transmitida es sonar un sonido de frecuencia modulada, el aumento en
la frecuencia. El conjunto de datos contiene las seales obtenidas a partir de una variedad
de diferentes ngulos de aspecto, que abarca 90 grados para el cilindro y 180 grados para
el rock. Cada patrn es un conjunto de 60 nmeros en el rango de 0,0 a 1,0. Cada nmero
representa la energa dentro de una banda de frecuencia particular, integrada a lo largo de
un cierto perodo de tiempo. La abertura de la integracin de las frecuencias ms altas se
producen ms tarde en el tiempo, ya que estas frecuencias se transmiten ms tarde
durante el canto. La etiqueta asociada a cada registro contiene la letra "R" si el objeto es
una roca y "M" si es una mina (metal cilindro). Los nmeros en las etiquetas estn en
orden creciente de ngulo de aspecto, pero que no codifican el ngulo directamente.

Atributo de la informacin:
N/A

Documentos pertinentes:
1. Gorman, RP, y Sejnowski, TJ (1988). "Anlisis de Hidden unidades en una red por
capas Entrenados para Objetivos Clasificar Sonar" en Redes Neuronales, vol. 1, pp 75-
89. [Web Link]

Documentos que citan este conjunto de datos 1 :


Jianbin Tan y David L. Dowe. MML inferencia de rboles de decisin de
oblicuos . Conferencia australiana sobre Inteligencia Artificial. 2004. [ Ver Contexto ]. Zhi-
Hua Zhou y Jiang Yuan. NeC4.5: Neural Ensemble Based C4.5 . IEEE
Trans. Conocimiento. Datos Eng, 16. 2004. [ Ver Contexto ]. Jeremy Kubica y Andrew
Moore. Probabilstico de identificacin de ruido y limpieza de datos . ICDM. 2003. [ Ver
Contexto ]. Dennis DeCoste. Anytime Mquinas Kernel Query-Tuned mediante
factorizacin de Cholesky . SDM. 2003. [ Ver Contexto ]. Ayhan Demiriz y Kristin P.
Bennett y Mark J. Embrechts. Un enfoque Algoritmo Gentico para Clustering semi-
supervisado . E-Business Departamento, Verizon. Inc. 2002. [ Ver Contexto ]. Michail
Vlachos y Carlotta Domeniconi y Dimitrios Gunopulos y George Kollios y Nick
Koudas. tcnicas de reduccin de dimensionalidad no lineales para la clasificacin y
visualizacin . KDD. 2002. [ Ver Contexto ]. Xavier Llor y David E. Goldberg e Ivn Traus y
Ester Bernad i Mansilla. Precisin, parsimonia, y la generalidad en los sistemas de
aprendizaje evolutivo a travs de Seleccin multiobjetivo . IWLCS. 2002. [ Ver
Contexto ]. Fei Sha y Lawrence K. Sal y Daniel D. Lee. Actualizaciones multiplicativos
para programacin cuadrtica Nonnegative en Mquinas de Vectores
Soporte . PNI. 2002. [ Ver Contexto ]. Marina Skurichina y Ludmila Kuncheva y Robert PW
Duin. Embolsado y impulso para el clasificador ms cercano Mean: Efectos del tamao de
la muestra sobre la diversidad y precisin . Sistemas Clasificadores mltiples. 2002. [ Ver
Contexto .] . Dennis DeCoste Anytime Salidas para Mquinas Kernel intervalo con valores
de: Fast Apoyo Vector Machine Clasificacin via Distancia Geometra . ICML. 2002. [ Ver
Contexto ]. Wl / odzisl / aw Duch y Karol Grudzinski. Conjuntos de modelos basados en la
similitud . Sistemas de Informacin Inteligentes. 2001. [ Ver Contexto ]. Juan J. Rodr guez
# # y Carlos J. Alonso y Henrik Bostrom. Impulsar basada en intervalos
literales . 2000. [ Ver Contexto ]. Chris Drummond y Robert C. Holte. Explotar el Costo (In)
sensibilidad de los criterios que parten de rboles de decisin .ICML. 2000. [ Ver
Contexto ]. Carlotta Domeniconi y Jing Peng y Dimitrios Gunopulos. Una mquina
adaptativa Mtricas de Clasificacin de patrones . PNI. 2000. [ Ver Contexto ]. Lorne
Mason y Peter L. Bartlett y Jonathan Baxter. Mejora Generalizacin travs de la
optimizacin explcita de Mrgenes . Aprendizaje Automtico, 38.2000. [ Ver
Contexto ]. Kristin P. Bennett y Ayhan Demiriz y John Shawe-Taylor. A Columna algoritmo
de generacin para impulsar . ICML. 2000. [ Ver Contexto ]. Chris Drummond y Robert C.
Holte. Explcitamente que representa costo esperado: una alternativa a la representacin
de la Repblica de China . KDD. 2000. [ Ver Contexto ].Stavros J. Perantonis y Vassilis
Virvilis. Caracterstica de entrada Extractor de mltiples capas Perceptrones Usando
Anlisis de Componentes Principales supervisada .Neural Processing Letters,
10. 1999. [ Ver Contexto ]. Jing Peng y Bir Bhanu. Caracterstica Relevancia Estimacin
para bases de datos de la imagen . Sistemas de Informacin Multimedia. 1999. [ Ver
Contexto ]. Lorne Mason y Jonathan Baxter y Peter L. Bartlett y Marcus Frean. Impulsar
Algoritmos como Gradient Descent . PNI.1999. [ Ver Contexto ]. Ayhan Demiriz y Kristin P.
Bennett y Mark J. Embrechts. Clustering semi-supervisado Usando Algoritmos
Genticos . Dept. 1999. [ Ver Contexto]. Kagan Tumer y Joydeep Ghosh. robusta
combinacin de clasificadores dispares a travs de estadsticas de orden . CoRR,
csLG/9905013. 1999. [ Ver Contexto ].Chun-Nan Hsu y Hilmar Schuschel y Ya-Ting
Yang. Enfoque ANNIGMA-Envoltura con Redes Neuronales funcin de seleccin de
Descubrimiento de Conocimiento y Minera de Datos . Instituto de Ciencias de la
Informacin. 1999. [ Ver Contexto ]. Art B. Owen. vecinos tubulares para la regresin y
clasificacin . La Universidad de Stanford. 1999. [ Ver Contexto ]. Richard Maclin. Impulsar
Clasificadores nivel regional . AAAI / IAAI. 1998. [ Ver Contexto ]. Lorne Mason y Peter L.
Bartlett y Jonathan Baxter. Optimizacin directo de Mrgenes Mejora la generalizacin de
los clasificadores combinados . PNI. 1998. [ Ver Contexto ]. Hiroshi Shimodaira y Jun Okui
y Mitsuru Nakai. Modificado Aprendizaje Error clasificacin mnima y su aplicacin a las
redes neuronales . SSPR / SPR. 1998. [ Ver Contexto ]. Perry Moerland y E. Fiesler y yo
Ubarretxena-Belandia. Martigny - Valais - Suisse discretos All-positivas Multilayer
Perceptron para la Implementacin ptica . ESEARCHREPRORTIDIA P. 1997. [ Ver
Contexto ]. Thomas G. Dietterich. Investigaciones Mquina-Learning . Revista AI,
18. 1997. [ Ver Contexto ]. Richard Maclin y David W. Opitz. Una evaluacin emprica de
embolsado y Impulsar . AAAI / IAAI. 1997. [ Ver Contexto ]. Erin J. Bredensteiner y Kristin
P. Bennett. Caracterstica Minimizacin en rboles de decisin .Fundacin Nacional de
Ciencia. 1996. [ Ver Contexto ]. Carlotta Domeniconi y Bojun Yan. Sobre Correlacin de
errores y exactitud del ms cercanos Clasificadores Ensemble Vecino . Informacin y
Software Departamento de Ingeniera de la Universidad George Mason. [ Ver
Contexto ]. Chris Drummond y Robert C. Holte. C4.5, desequilibrio de clases, y la
sensibilidad de costos: Por qu sub-muestreo late sobremuestreo . Instituto para la
Tecnologa de la Informacin, el Consejo de Investigacin Nacional de Canad. [ Ver
Contexto ]. Alexander K. Seewald. Disertacin hacia la comprensin de apilamiento Los
estudios de un general Ensemble Aprendizaje Esquema ausgefuhrt zum Zwecke der
Erlangung des akademischen Grados eines der Doktors technischen
Naturwissenschaften . [ Ver Contexto ].NVESTIGACIN R y DR Ort y Perry Moerland y E.
Fiesler y yo Ubarretxena-Belandia. Multilayer Perceptron para la Implementacin
ptica . Ingeniera ptica, ol. [ Ver Contexto ]. Yin Zhang y W. Nick Street. embolsado con
los gastos de adaptacin . Departamento de Ciencias de la Administracin de la
Universidad de Iowa, Iowa City. [Ver Contexto ]. Chiranjib Bhattacharyya. Clasificacin
robusta de datos ruidosos utilizando el enfoque de programacin Segunda Cono
Orden . Dpto. Informtica y Automtica, Instituto Indio de Ciencia. [ Ver Contexto ]. Lois C.
Boggess Andrew Watkins y Jon Timmis y. Sistema Inmune Artificial Reconocimiento
(AIRS): Un ImmuneInspired supervisadas algoritmo de aprendizaje . (Abw5,
jt6@kent.ac.uk) Laboratorio de Computacin de la Universidad de Kent. [ Ver
Contexto ]. Perry Moerland y E. Fiesler y yo Ubarretxena-Belandia. Incorporar LCLV no
linealidades en la ptica de mltiples capas de redes neuronales . Impresin final de un
artculo publicado en Applied Optics. [ Ver Contexto ]. Maria Salamo y Elisabet
Golobardes. Analizar Rough Sets mtodos de ponderacin de Razonamiento Basado en
Casos de Sistemas .Enginyeria i Arquitectura La Salle. [ Ver Contexto ]. Jakub Zavrel. An
Empirical Re-examen de voto ponderado para k-NN . Lingstica Computacional. [ Ver
Contexto ].Rudy Setiono y Huan Liu. Selector de funciones neuronales de la
red . Departamento de Sistemas Informticos y la Universidad Nacional de Ciencias de la
Computacin de Singapur. [ Ver Contexto ]. / odzisl / aw Wl Duch y Jerzy J.
Korczak. Optimizacin y mtodos globales de minimizacin adecuados para las redes
neuronales .Departamento de Mtodos Computacionales, Universidad Nicols
Coprnico. [ Ver Contexto ]. Christos Emmanouilidis y A. Hunter y el Dr. J. MacIntyre. A
multiobjetivo Evolutiva Ajuste para Seleccin de caractersticas y un Crossover Operador
comunalidad-Based . Centro de Sistemas Adaptativos, Facultad de Informtica, Ingeniera
y Tecnologa de la Universidad de Sunderland. [ Ver Contexto ]. Elena Smirnova e Ida G.
Sprinkhuizen-Kuyper y yo Nalbantis y b. ERIM y Universiteit Rotterdam. Votacin unnime
el uso de mquinas de soporte vectorial . IKAT, Universiteit Maastricht. [ Ver
Contexto ]. Alain Rakotomamonjy. Leave-One-Out errores en Bipartita de clasificacin
SVM . PSI CNRS FRE2645 INSA de Rouen Avenue de l'Universit. [ Ver
Contexto ]. Hiroshi Shimodaira y Jun Okui y Mitsuru Nakai. MEJORA DEL RENDIMIENTO
generalizacin del MCE / GPD APRENDIZAJE . Facultad de Ciencias de la Informacin de
Japn Instituto Avanzado de Ciencia y Tecnologa Tatsunokuchi, Ishikawa. [ Ver
Contexto ]. Charles Campbell y Nello Cristianini. simple algoritmos de aprendizaje para las
Mquinas de Vectores Soporte Entrenamiento .Departamento de Ingeniera
Matemtica. [ Ver Contexto ]. Ayhan Demiriz y Kristin P. Bennett. Captulo 1 Aprendizaje
Supervisado-OPTIMIZATIONAPPROACHESTOSEMI. Departamento de Ciencias de la
Decisin y Sistemas de Ingeniera y el Departamento de Ciencias Matemticas, Instituto
Politcnico Rensselaer. [ Ver Contexto ]. C. Ronaldo Prati y Peter A. Flach. ROCCER: A
convexa algoritmo de aprendizaje regla casco ROC . Instituto de Matemticas y Ciencias
de la Computacin en la Universidad de So Paulo. [ Ver Contexto ]. Perry
Moerland. Mezclas de modelos de variables latentes para la estimacin de la densidad y la
clasificacin .ESEARCHREPRORTIDIAPD alle M olle yo nstitutefor Pe r cep t ua l Una
Inteligencia rtificial. [ Ver Contexto ]. Stefan Aeberhard y O. de Vel y Danny
Coomans. Nuevos algoritmos rpidos para la seleccin de variables basado en clasificador
rendimiento . Universidad James Cook. [ Ver Contexto ]. Kristin P. Bennett y Erin J.
Bredensteiner. Geometra en el aprendizaje . Departamento de Ciencias Matemticas del
Instituto Politcnico Rensselaer. [ Ver Contexto ].

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Bench conexionista 2014-02-12
(Reconocimiento vocal -
Deterding Datos) Conjunto de
datos
Resumen : altavoz independiente de reconocimiento de los once vocales de estado estacionario
de Ingls britnico utilizando un conjunto de entrenamiento especfico de relaciones de rea de
registro lpc derivada.

Conjunto de datos Nmero de


N/A 528 rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de


Real 10 Fecha Donado N/A
atributo: atributos:

Valores N/ Nmero de Web


Tareas asociadas: Clasificacin 30092
perdidos? A Accesos:
Fuente:
David Deterding (datos y anlisis no conexionista)
Mahesan Niranjan (primer anlisis conexionista)
Tony Robinson (descripcin, programas, datos y resultados) - " ajr '@' dsl.eng.cam.ac.uk "

Datos Conjunto de Informacin:


El problema se especifica por el archivo de datos de acompaamiento, "vowel.data". Esto consiste
en una matriz de tres dimensiones: voweldata [altavoz, vocal, de entrada]. Los altavoces son
indexados por enteros 0-89. (En realidad, hay quince altavoces individuales, cada uno diciendo
cada vocal seis veces.) Los vocales son indexados por enteros 0-10. Para cada enunciado, hay diez
valores de entrada de punto flotante, con ndices de matriz 0-9. El problema es entrenar la red, as
como sea posible utilizando slo en datos de "altavoces" 0 a 47, y luego para poner a prueba la red
de altavoces 48-89, informando el nmero de clasificaciones correctas en la prueba. Para una
explicacin ms detallada del problema, ver el extracto de doctorado de Tony Robinson tesis en la
seccin de comentarios. En opinin de Robinson, problemas conexionistas se dividen en dos clases,
lo posible y lo imposible. Se interesa en el segundo, lo que quiere decir problemas que no tienen
solucin exacta. As, el problema aqu no es ver lo rpido que una red puede ser entrenado
(aunque esto es importante), pero para maximizar un rendimiento menos que perfecto.

Atributo de la informacin:
N/A
Documentos pertinentes:
[Deterding89] DH Deterding, 1989, Universidad de Cambridge, "Normalizacin Portavoz de
reconocimiento automtico de voz", presentado para su doctorado. [Web Link][NiranjanFallside88]
M. Niranjan y F. Fallside, 1988, Universidad de Cambridge Departamento de Ingeniera, "Redes
Neuronales y funciones de base radial en la clasificacin de los patrones del habla estticas ",
CUED/F- [Web Link] . [Web Link] [RenalsRohwer89-ijcnn] Steve Renals y Richard Rohwer,
"Experimentos de clasificacin de fonemas utilizando funciones de base radial", Conferencia
Internacional Conjunta sobre Neural Redes, Washington, 1989. [Web Link]

Documentos que citan este conjunto de datos 1 :


M. Layton y MJ F Gales. CAMBRIDGE UNIVERSITY DEPARTAMENTO DE INGENIERA mxima
Formacin Margen de generativos Kernels . Complementada. 2004. [Ver Contexto ]. Mateo
Brand. Descubrimiento de patrn a travs de la minimizacin de la entropa . REAL - A MITSUBISHI
ELECTRIC LABORATORIO DE INVESTIGACIN. 1998. [ Ver Contexto ].

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Mtodo Anticonceptivo 2014-02-12
Conjunto de datos Eleccin
Resumen : Recurso de datos es un subconjunto de la Nacional Indonesia anticonceptivos
Encuesta de Prevalencia del 1987.

Conjunto de datos Nmero de


Multivariante 1473 rea: Vida
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de 1997-


9 Fecha Donado
atributo: Integer atributos: 07-07

Valores Nmero de
Tareas asociadas: Clasificacin No 51715
perdidos? Web Accesos:

Fuente:
Origen: Este conjunto de datos es un subconjunto del 1987 Indonesia Encuesta Nacional de
Prevalencia de Anticonceptivos Creador: Tjen-Sien Lim ( limt '@'stat.wisc.edu ) Donante: Tjen-Sien
Lim ( limt '@' stat.wisc.edu )

Datos Conjunto de Informacin:


Este conjunto de datos es un subconjunto de la Nacional Indonesia anticonceptivos Encuesta de
Prevalencia del 1987. Las muestras son mujeres casadas que eran o no embarazada o no saben si
se encontraban en el momento de la entrevista. El problema es predecir la eleccin actual mtodo
anticonceptivo (sin uso, mtodos de largo plazo, o los mtodos de corto plazo) de una mujer sobre
la base de sus caractersticas demogrficas y socio-econmicas.
Atributo de la informacin:
1. Edad de la esposa (numrica)
2. La educacin de la esposa (categrica) 1 = bajo, 2, 3, 4 = Alta
3. La educacin del esposo (categrica) 1 = bajo, 2, 3, 4 = alto
4. Nmero de hijos nacidos vivos (numrica)
5. La religin de la esposa (binario) 0 = no el Islam, 1 = Islam
6. Esposa Ahora est trabajando? (Binario) 0 = Si, 1 = No
7. Ocupacin del esposo (categrica) 1, 2, 3, 4
8. ndice Standard-de-vida (categrica) 1 = bajo, 2, 3, 4 = alta
9. Exposicin a los medios (binario) 0 = bueno, 1 = No es bueno
10. Mtodo anticonceptivo utilizado (atributo class) 1 = sin uso, 2 = a largo plazo, 3 = Corto plazo
Documentos pertinentes:
Lim, T.-S., Loh, W.-Y. Y Shih, Y.-S. (1999). Una comparacin de la exactitud de prediccin,
complejidad y tiempo de formacin de los Treinta y tres del Antiguo y Nuevo Clasificacin
Algoritmos. Aprendizaje Automtico. ( [Web Link] o [Web Link] ) [Web Link]

Documentos que citan este conjunto de datos 1 :


Earl Harris Jr. Informacin Gain Gain Versus victorias: Un Estudio de mtodo Split sesgos . La
Corporacin MITRE / Washington C. 2001. [ Ver Contexto ]. Soumya Ray y David
Page. Generalizado El sesgado para funciones con atributos continuos y nominales . Departamento
de Ciencias de la Computacin y el Departamento de Bioestadstica e Informtica Mdica de la
Universidad de Wisconsin [ Ver Contexto ]. Jos'e L. Balc'azar. Las reglas con Bounded Negaciones y
el Plan de Cobertura de inferencia . Dept. LSI, UPC. [ Ver Contexto ].

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Corel imagen Caractersticas 2014-02-12
del conjunto de datos
Resumen : Este conjunto de datos contiene caractersticas de la imagen extrada de una coleccin
de imgenes de Corel. Cuatro conjuntos de caractersticas estn disponibles en base al
histograma de color, diseo histograma de color, momentos de color, y la co-ocurrencia

Conjunto de datos Nmero de


Multivariante 68040 rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de 1999-


Real 89 Fecha Donado
atributo: atributos: 07-01

Valores Nmero de
Tareas asociadas: N/A N/A 29536
perdidos? Web Accesos:

Fuente:
Propietario original: Michael Ortega-Binderberger Informacin y Ciencias de la Computacin de la
Universidad de California en Irvine Irvine, CA 92697-
3425 EE.UU. miki '@'ics.uci.edu Donante: Kriengkrai Porkaew y Sharad Mehrotra Informacin y
Ciencias de la Computacin de la Universidad de California en Irvine Irvine, CA 92697-
3425EE.UU. nid '@' ics.uci.edu , sharad '@' ics.uci.edu

Datos Conjunto de Informacin:


La coleccin de imagen original se obtuvo de Corel en [Web Link] . Hay 68.040 imgenes
fotogrficas de diversas categoras. Cada conjunto de caractersticas se almacena en un archivo
independiente. Para cada archivo, una lnea corresponde a una sola imagen. El primer valor en una
lnea se es el ID de la imagen y los valores subsiguientes son el vector de caractersticas (por
ejemplo, el histograma de color, etc) de la imagen. La misma imagen tiene el mismo ID en todos los
archivos pero el ID de imagen no es el mismo que el nombre de archivo de imagen.

Atributo de la informacin:
De cada imagen se extrajeron cuatro conjuntos de caractersticas: - Color Histograma - Color
Histograma Layout - Momentos de color - Co-ocurrencia de la textura del color de histograma: 32
dimensiones (8 x 4 = H x S) - espacio de color HSV se divide en 32 sub-espacios (32 colores:. 8
rangos de H y 4 rangos de S) . - el valor de cada dimensin en una ColorHistogram de una imagen
es la densidad de cada color en toda la imagen - Histograma de interseccin (rea de superposicin
entre ColorHistograms de dos imgenes) pueden ser utilizado para medir la similitud entre dos
imgenes. Color de histograma de colocacin: 32 dimensiones (4 x 2 x 4 = H x S x sub-imgenes) -
cada imagen se divide en 4 sub-imgenes (una divisin horizontal y una divisin vertical). - 4x2
color de histograma para cada sub-imagen se calcula.- Histograma Interseccin se puede utilizar
para medir la similitud entre dos imgenes. Momentos Color: 9 dimensiones (3 x 3) - los valores 9
son: (una para cada uno de H, S , y V en el espacio de color HSV) - media, - desviacin estndar, y -
la asimetra. - la distancia eucldea entre los momentos de color de dos imgenes puede ser usado
para representar la pantalla similitud (distancia) entre dos imgenes. co-ocurrencia Textura: 16
dimensiones (4 x 4) - Las imgenes se convierten a 16 imgenes en escala de grises. - co-ocurrencia
en 4 direcciones se computa (horizontal, vertical, y dos direcciones diagonales). 16 los valores son
los siguientes:. (uno para cada sentido) - Momento Angular En segundo lugar, - Contraste, I -
Momento Diferencia nverse, y - Entropa. euclidiana distancia entre ColorMoments de dos
imgenes se puede utilizar para medir la dis- similitud (distancia) entre dos imgenes.

Documentos pertinentes:
Michael Ortega, Yong Rui, Kaushik Chakrabarti, Kriengkrai Porkaew, Sharad Mehrotra, y Thomas S.
Huang, apoyando Clasificado booleanas similitud consultas en MARS, IEEE transacciones en
conocimiento e informacin tcnica, vol. 10, No. 6, pginas 905-925, diciembre de 1998. [Web
Link] Kaushik Chakrabarti y Sharad Mehrotra, El rbol hbrido: una estructura de ndice de alto
dimensional Espacios Estelar, 1999 IEEE Conferencia Internacional sobre Datos de Ingeniera
(ICDE), Pginas 440-447, febrero de 1999. [Web Link] Kriengkrai Porkaew, Kaushik Chakrabarti y
Sharad Mehrotra, Refinamiento de consultas para la recuperacin Multimedia y sus Tcnicas de
Evaluacin en MARS, 1999 ACM Conferencia Multimedia International, Orlando, Florida, octubre
30-noviembre 04, de 1999. [Web Link] Kaushik Chakrabarti, Kriengkrai Porkaew y Sharad Mehrotra,
Refinamiento de consultas Eficiente en bases de datos multimedia, ICDE, 2000 [Web Link]

Documentos que citan este conjunto de datos 1 :


Thomas T. Osugi y MS BASADO EN LA EXPLORACIN DE APRENDIZAJE MQUINA ACTIVE . Facultad
de El Colegio de Graduados de la Universidad de Nebraska en cumplimiento parcial de los
requisitos. [ Ver Contexto ].

Cita de pedidos:
Estos datos pueden usarse para fines no comerciales.
Covertype Data Set 2014-02-12

Resumen : Bosque CoverType conjunto de datos

Conjunto de datos Nmero de


Multivariante 581012 rea: Vida
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de 1998-


54 Fecha Donado
atributo: Integer atributos: 08-01

Valores Nmero de
Tareas asociadas: Clasificacin No 56636
perdidos? Web Accesos:

Fuente:
Los propietarios originales de base de datos: Teledeteccin y SIG del programa del Departamento
de Ciencias Forestales Facultad de Recursos Naturales de la Universidad Estatal de Colorado en
Fort Collins, CO 80523 (contacto Jock A. Blackard, jblackard '@' fs.fed.us o el Dr. Denis J.
Dean, denis.dean '@' utdallas.edu ) Los donantes de base de datos: 1. Jock A. Blackard
( jblackard '@' fs.fed.us ) Coordinador de GIS USFS - Inventario Forestal y Anlisis Estacin de
Investigacin de las Montaas Rocosas 507 25th Street Ogden, UT 84401 2. Dr. Denis J. Dean
( denis.dean '@' utdallas.edu ) Profesor del Programa de Geografa y Ciencias
GeoespacialesFacultad de Econmicas, Ciencias Polticas y Poltica 800 West Campbell
Rd Richardson, TX 75080-3021 3. Dr. Charles W. Anderson
( Anderson '@' cs.colostate.edu )Profesor Asociado del Departamento de Ciencias de la
Computacin de la Universidad Estatal de Colorado en Fort Collins, CO 80523 EE.UU.

Datos Conjunto de Informacin:


Predecir el tipo de la cubierta forestal a partir de variables cartogrficas nicas (datos obtenidos no
remotamente). El tipo de cobertura forestal actual para una observacin dada (30 x 30 celdas
metro) se determin a partir del Servicio Forestal de EE.UU. (USFS) Regin 2 Sistema de
Informacin de Recursos de datos (RIS). Las variables independientes se obtuvieron a partir de
datos procedentes originalmente de EE.UU. Geological Survey (USGS) y los datos del USFS. Los
datos estn en forma cruda (no a escala) y contiene binarios (0 o 1) columnas de datos para las
variables independientes cualitativas (reas silvestres y tipos de suelo). Esta rea de estudio
incluye cuatro reas silvestres ubicado en el Bosque Nacional Roosevelt del norte de
Colorado. Estas reas representan los bosques con perturbaciones de origen humano mnimos, por
lo que los tipos de cubierta forestal existente son ms el resultado de los procesos ecolgicos en
lugar de prcticas de manejo forestal. Parte de la informacin de fondo para estas cuatro reas
silvestres: Neota (rea 2) probablemente tiene la elevacin media ms alta valor de las 4 reas
silvestres. Ragua (zona 1) y Comanche Peak (rea 3) tendran un valor en alzado media ms baja,
mientras que la cach de Poudre (rea 4) tendra el valor ms bajo en elevacin media. En cuanto a
las especies de rboles ms importantes primarios en estas reas, Neota tendra abeto / abeto
(tipo 1), mientras que Ragua y Comanche Peak probablemente tendran pino torcido (tipo 2) como
sus principales especies, seguida de la picea / abeto y el lamo tembln (tipo 5). Cach de la
Poudre tendera a tener Ponderosa pino (tipo 3), Douglas-fir (tipo 6), y lamo / sauce (tipo 4). Las
reas Rawah y Comanche Peak tenderan a ser ms tpica del conjunto de datos en general que sea
la Neota o cach de Poudre, debido a su gran variedad de especies de rboles y la gama de valores
de prediccin de variables (elevacin, etc) la cach de Poudre probablemente seran ms singular
que los dems, debido a su composicin relativamente bajo rango de elevacin y especies.

Atributo de la informacin:
Teniendo en cuenta es el nombre del atributo, el tipo, la unidad de medida y una breve descripcin
de atributos. El tipo de cobertura forestal es el problema de clasificacin. El orden de esta lista se
corresponde con el orden de los nmeros a lo largo de las filas de la base de datos. Nombre / Tipo
Data / Medicin / DescripcinElevacin / cuantitativa / metros / Altitud en metros Aspecto /
cuantitativa / acimut / Aspect en grados de azimut de pendiente / cuantitativos / grados /
Pendiente en grados Horizontal_Distance_To_Hydrology / cuantitativos / metros / Horz Dist al
agua superficial cercana cuenta con Vertical_Distance_To_Hydrology / cuantitativa / metros / Vert
Dist. a entidades ms cercanas aguas superficiales Horizontal_Distance_To_Roadways /
cuantitativos / metros / Horz Dist. a la carretera ms cercanaHillshade_9am / cuantitativa / 0 a 255
index / ndice de sombreado a las 9 am, solsticio de verano Hillshade_Noon / cuantitativa / 0 al
ndice 255 ndice / Sombreado al medioda, solsticio de verano Hillshade_3pm / cuantitativa / 0 al
ndice 255 ndice / Sombreado en 15:00, solsticio de verano Horizontal_Distance_To_Fire_Points /
cuantitativa / metros / Horz Dist. a la ms cercana de incendios forestales puntos de
ignicin Wilderness_Area (4 columnas binarias) / cualitativa / 0 (ausencia) o 1 (presencia) / rea
Wilderness designacin Soil_Type (40 columnas binarias) / cualitativa / 0 (ausencia) o 1 (presencia)
/ Tipo de suelo designacin Cover_Type (7 tipos ) / entero / 1 a 7 / Bosques Tipo Cubierta
designacin

Documentos pertinentes:
Blackard, Jock A. y Denis J. Dean. 2000. "Precisiones comparativos de Redes Neuronales Artificiales
y anlisis discriminante en la prediccin de tipos de cubierta forestal de variables
cartogrficas." Informtica y electrnica en la Agricultura 24 (3) :131-151. [Web Link] Blackard, Jock
A. y Denis J. Dean. 1998. "Precisiones comparativos de Redes Neuronales y Anlisis discriminante
en la prediccin de tipos de cubierta forestal de variables cartogrficas." Segunda Conferencia SIG
Forestal del Sur. Universidad de Georgia. Athens, GA. Pginas 189-199. Blackard, Jock A.
1998. "Comparacin de las redes neuronales y anlisis discriminante en la prediccin de tipos de
cubierta forestal." Ph.D. disertacin. Departamento de Ciencias Forestales. Universidad del Estado
de Colorado. Fort Collins, Colorado. 165 pginas.

Documentos que citan este conjunto de datos 1 :


Joao Gama y Ricardo Rocha y Pedro Medas. rboles de decisiones precisas para la minera de flujos
de datos de alta velocidad . KDD. 2003. [ Ver Contexto ]. Nikunj C. Oza y Stuart J.
Russell. comparaciones experimentales de las versiones en lnea y por lotes de embolsado y
potenciar . KDD. 2001. [ Ver Contexto ]. Zoran Obradovic y Slobodan Vucetic. Desafos en Scientific
Data Mining: muestras heterogneas, sesgadas, y grandes . Centro de Informacin de Ciencia y
Tecnologa de la Universidad de Temple. [ Ver Contexto ]. Arto Klami y Samuel Kaski y Ty n ohjaaja
y Janne Sinkkonen. Universidad Tecnolgica de Helsinki Departamento de Ingeniera Fsica y
Matemticas Arto Klami regularizada discriminativo Clustering . Regularizada discriminativo
Clustering. [ Ver Contexto ]. Chris Giannella y Bassem Sayrafi. Una teora de la informacin de
histograma individual Dimensional Selectividad Estimacin . Departamento de Ciencias de la
Computacin, Universidad de Indiana en Bloomington. [ Ver Contexto ]. Johannes
Frnkranz. Round Robin regla de aprendizaje . Instituto Austraco de Investigacin para la
Inteligencia Artificial. [ Ver Contexto ].

Cita de pedidos:
La reutilizacin de esta base de datos es ilimitado con la retencin de la notificacin de derechos
de autor para Jock A. Blackard y la Universidad Estatal de Colorado.
Aprobacin de Crdito Conjunto 2014-02-12
de Datos
Resumen : Esta aplicacin preocupaciones de datos de tarjetas de crdito; buena mezcla de
atributos

Conjunto de datos Nmero de


Multivariante 690 rea: Financiero
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de


15 Fecha Donado N/A
atributo: entero, real atributos:

Valores Nmero de
Tareas asociadas: Clasificacin S 89181
perdidos? Web Accesos:
Fuente:
(Fuente confidencial) Enviado por quinlan '@' cs.su.oz.au
Datos Conjunto de Informacin:
Este archivo se refiere a las solicitudes de tarjetas de crdito. . Todos los nombres de atributo y los
valores han sido cambiados para smbolos sin sentido para proteger la confidencialidad de los
datos de este conjunto de datos es interesante porque hay una buena mezcla de atributos -
continua nominal con un pequeo nmero de valores y nominal con un nmero mayor de
valores. Tambin hay unos pocos valores perdidos.
Atributo de la informacin:
A1: b, a.
A2:. continua
A3: continuo.
A4:. u, y, l, t
A5:. g, p, gg
A6: c, d, cc, i, j, k, m, r, . q, w, x, e, aa, ff
A7:. v, h, bb, j, n, z, dd, ff, o
A8: continuo.
A9: t, f.
A10: t, f.
A11: . continua
. A12: t, f
. A13: g, p, s
A14: continuo.
A15: continuo.
A16: +, - (atributo de clase)
Documentos pertinentes:
Quinlan. "La simplificacin de los rboles de decisin", Estudios Int J Man-Machine 27, diciembre
1987, pp 221-234. [Web Link] Quinlan. "C4.5: Programas de Aprendizaje Automtico", Morgan
Kaufmann, octubre 1992 [Web Link]

Documentos que citan este conjunto de datos 1 :


. Xiaoming Huo FBP: Un algoritmo de poda de rboles basado en la Frontera . Seoung Bum
Kim. 2002. [ Ver Contexto ]. Lorne Mason y Peter L. Bartlett y Jonathan Baxter. Mejora
Generalizacin travs de la optimizacin explcita de Mrgenes . Aprendizaje Automtico,
38. 2000. [ Ver Contexto ]. Kagan Tumer y Joydeep Ghosh.robusta combinacin de clasificadores
dispares a travs de estadsticas de orden . CoRR, csLG/9905013. 1999. [ Ver Contexto ]. Lorne
Mason y Peter L. Bartlett y Jonathan Baxter. Optimizacin directo de Mrgenes Mejora la
generalizacin de los clasificadores combinados . PNI. 1998. [ Ver Contexto ].

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Bandas Cilindro Conjunto de 2014-02-12
Datos
Resumen : Se utiliza en la toma del rbol de induccin para la mitigacin de los retrasos del
proceso conocido como "bandas de cilindro" en la impresin en huecograbado

Conjunto de datos Nmero de


Multivariante 512 rea: Fsico
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de 1995-


39 Fecha Donado
atributo: entero, real atributos: 08-01

Valores Nmero de
Tareas asociadas: Clasificacin S 23324
perdidos? Web Accesos:

Fuente:
Creador: Bob Evans RR Donnelley & Sons Co. Divisin Gallatin Plant 801 Steam Rd Gallatin,
Tennessee 37066-3396 (615) 452 a 5170 Donante: misma

Datos Conjunto de Informacin:


Aqu est el resumen de la referencia anterior: RESUMEN: herramientas de aprendizaje automtico
muestran una promesa significativa para la adquisicin de conocimientos, sobre todo cuando la
experiencia humana es inadecuada. Recientemente, demoras en los procesos conocidos como
bandas de cilindro en la impresin en huecograbado se han mitigado sustancialmente el uso de las
reglas de control descubiertos por decisin rbol de induccin. Nuestro trabajo es un ejemplo de
una metodologa ms general que transforma la tarea de adquisicin de conocimiento a partir de
aquel en el que las reglas son provocados directamente de un experto, a una en la que un sistema
de aprendizaje es responsable de la generacin de reglas. Las principales responsabilidades del
experto humano son evaluar los mritos de reglas generadas, y para orientar la adquisicin y
clasificacin de los datos necesarios para la mquina de induccin. Estas responsabilidades
requieren que el experto para hacer lo que mejor sabe hacer un experto: el ejercicio de su
especialidad. Esto parece un ajuste ms natural a las capacidades de un experto que los requisitos
de las metodologas tradicionales que los expertos enumeran explcitamente las reglas que ellos
emplean.
Atributo de la informacin:
1. fecha y hora: numrico, 19500101 a 21001231
2. Nmero de cilindros: nominal
3. cliente: nominal;
4. nmero de trabajo: nominal;
5. grano blindado: nominal; s, no
6. color de la tinta: nominal, llave, tipo
7. prueba de tinta ctd: nominal; s, no
8. hoja MFG: nominal; benton, Daetwyler, Uddeholm
9. divisin del cilindro: nominal; gallatin, varsovia, mattoon
10. ; no recubierto, recubierto de gran nominal: tipo de papel
11. Tipo de tinta: nominal, sin estucar ni recubrir, recubierto, cubre
12. directa de vapor: nominal; usar; s, no *
13. tipo de disolvente: nominal; xilol, lactol, nafta, lnea, otro
14. escriba en el cilindro: nominal; s, no
15. tipo de prensa: nominal, el uso, el 70 azada de madera, 70 Motter, 70 albert, 94 Motter
16. pulse: nominal, 821, 802, 813, 824, 815, 816, 827, 828
17. nmero de unidad: nominal, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10
18. tamao del cilindro: nominal, catlogo, spiegel, tabloide
19. ubicacin molino de papel: nominal, al norte de nosotros, al sur de nosotros, canadiense,
escandinavo, medio europeo
20. chapado tanque: nominal; 1910, 1911, otro
21. corte a prueba: numrico; 0-100
22. viscosidad: numrico; 0-100
23. pinza: numrico; 0-1,0
24. temperatura de la tinta: numrico; 5-30
25. humifity: numrico; 5-120
26. rugosidad: numrico, 0-2
27. presin de la hoja: numrico, 10-75
28. barniz pct: numrico; 0-100
29. pulse velocidad: numrico; 0-4000
30. pct de tinta: numrico; 0-100
31. solvente pct: numrico; 0-100
32. ESA Voltaje: numrico; 0-16
33. ESA Amperaje: numrico; 0-10
34. cera: numrico; 0-4.0
35. endurecedor: numrico; 0-3.0
36. durmetro rodillo: numrico; 15-120
37. densidad de corriente: numrico, 20-50
38. nodo relacin de espacio: numrico; 70-130
39. contenido de cromo: numrico; 80-120
40. Tipo de banda: nominal, clase, grupo, ninguna banda *
Documentos pertinentes:
Evans, B., y Fisher, D. (1994). Proceso de superacin de demora con la induccin de rbol de
decisin. IEEE Expert, vol. 9, N 1, 60 - 66. [Web Link]
Documentos que citan este conjunto de datos 1 :
Juan J. Rodr guez # # y Carlos J. Alonso. Aplicacin de Impulso a la similitud literales para Time
Clasificacin Series . Departamento de Informtica de la Universidad de Valladolid,
Espaa. 2000. [ Ver Contexto ]. Juan J. Rodr guez # # y Carlos J. Alonso y Henrik Bostrom. Impulsar
basada en intervalos literales . 2000. [ Ver Contexto ].Juan J Rodrguez Diez y Carlos Alonso
Gonzlez y Henrik Bostrm. Clasificadores de Aprendizaje lgica de primer orden de series
temporales: Reglas y Impulsar .PKDD. 2000. [ Ver Contexto ]. Juan J. Rodr guez # # y Carlos J.
Alonso y Henrik Bostrom. aprendizaje de primer orden Lgica Series de tiempo Clasificadores:
Reglas y Impulsar . Grupo de Sistemas Inteligentes, Departamento de Inform atica # Universidad de
Valladolid, Espaa. [ Ver Contexto ]. Charles Campbell y Nello Cristianini.simple algoritmos de
aprendizaje para las Mquinas de Vectores Soporte Entrenamiento . Departamento de Ingeniera
Matemtica. [ Ver Contexto ]. Carlos J. Alonso Gonzlez y Juan J. Rodr iguez y Diez. Tiempo
Clasificacin Series by Impulsar basada en intervalos literales . Grupo de Sistemas Inteligentes
Departamento de Informatica de la Universidad de Valladolid. [ Ver Contexto ].

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Diario y Deportes de conjunto 2014-02-12
de datos
Resumen : El conjunto de datos consta de los datos del sensor de movimiento de 19 diarios y
actividades deportivas cada uno realizado por 8 sujetos en su propio estilo durante 5
minutos. Cinco unidades Xsens MTx se usan en el torso, los brazos y las piernas.

Conjunto de datos Multivariado, Nmero de


9120 rea: Ordenador
Caractersticas: Time-Series instancias:

Caractersticas del Nmero de Fecha


Real 5625 07/08/2013
atributo: atributos: Donado

Nmero de
Clasificacin, Valores N/
Tareas asociadas: Web 31669
Clustering perdidos? A
Accesos:

Fuente:
Billur Barshan,
Departamento de Ingeniera Elctrica y Electrnica de la Universidad de Bilkent, TR-06800 Bilkent,
Ankara, Turqua
tel: (90-312) 290-2161 Fax: (90-312) 266-4192 e-mail: billur `@ 'ee . bilkent.edu.tr
url: www.ee.bilkent.edu.tr/ ~ billur Kerem
Altun, kerem.altun '@' kemerburgaz.edu.tr , kerem.altun '@' gmail.com

Datos Conjunto de Informacin:


Cada una de las actividades 19 se lleva a cabo por ocho sujetos ( 4 mujeres, 4 hombres, de entre 20
y 30) durante 5 minutos.
Duracin total de la seal es de 5 minutos para cada actividad de cada tema.
Se pide a los sujetos que realizaran las actividades en su propio estilo y no se limitaron en cmo las
actividades se debe realizar. Por esta razn, hay variaciones entre los sujetos en las velocidades y
amplitudes de algunas actividades.
Las actividades se llevan a cabo en la Universidad Bilkent Sports Hall, en la elctrica y Electrnica
Ingeniera de Edificacin,
y en una zona al aire libre plana en el campus. Unidades de sensores son calibrados para la
adquisicin de datos a 25 Hz de frecuencia de muestreo. . Las seales de 5 min se dividen en
segmentos de 5 seg para que 480 (= 60x8) segmentos de seal se obtienen para cada actividad Las
actividades de 19 son: sentarse (A1), de pie (A2),acostado sobre la espalda y en el lado derecho (
A3 y A4), subiendo y bajando escaleras (A5 y A6), de pie en un ascensor todava (A7) y moverse en
un ascensor (A8),caminando en una playa de estacionamiento (A9), caminar en una cinta con una
velocidad de 4 kmh (en plano y 15 grados posiciones inclinadas) (A1 0 y A11), que se ejecuta en un
tapiz rodante con una velocidad de 8 km / h (A12), hacer ejercicio de paso a paso (A13), el ejercicio
en una mquina de cross ( A14), andar en bicicleta en una bicicleta de ejercicio en posicin
horizontal y vertical (A15 y A16), remo (A17), salto (A18), y jugar al baloncesto (A19). Estructura de
los archivos: 19 actividades (a) (en el orden dado arriba ) 8 sujetos (p) 60 segmentos (s) 5 unidades
en el torso (T), el brazo derecho (RA), el brazo izquierdo (LA), la pierna derecha (RL), pierna
izquierda (LL) 9 sensores en cada unidad (x, y, acelermetros z, x, y, z, giroscopios x, y, z)
magnetmetros Carpetas a01, a02, ..., a19 contener datos registrados a partir de las actividades
19. Para cada actividad, las subcarpetas p1, p2, ... , p8 contienen los datos de cada uno de los 8
temas. En cada subcarpeta, hay 60 archivos de texto s01, s02, ..., s60, uno para cada segmento. En
cada archivo de texto, hay 5 unidades x 9 = 45 sensores columnas y 5 seg x 25 = 125 Hz filas. Cada
columna contiene las 125 muestras de datos adquiridos a partir de uno de los sensores de una de
las unidades durante un perodo de 5 segundos. Cada fila contiene datos adquiridos a partir de
todo el sensor de 45 ejes en una . todo instante de muestreo separados por comas Columnas 1-45
corresponden a: T_xacc, T_yacc, T_zacc, T_xgyro, ..., T_ymag, T_zmag, RA_xacc, RA_yacc, RA_zacc,
RA_xgyro, ..., RA_ymag, RA_zmag, LA_xacc, LA_yacc, LA_zacc, LA_xgyro, ..., LA_ymag,
LA_zmag, RL_xacc, RL_yacc, RL_zacc, RL_xgyro, ..., RL_ymag, RL_zmag, LL_xacc, LL_yacc, LL_zacc,
LL_xgyro, ..., LL_ymag, LL_zmag. Por lo tanto, las columnas 1-9 corresponden a los sensores en la
unidad 1 (t), columnas 10-18 se corresponden con los sensores en la unidad 2 (RA), columnas 19-27
se corresponden con los sensores en la unidad 3 (LA), columnas 28-36 se corresponden con los
sensores en unidad 4 (RL), columnas 37-45 se corresponden con los sensores en la unidad 5 (LL).

Atributo de la informacin:
Por favor, vea la descripcin detallada anteriormente.

Documentos pertinentes:
Los documentos enumerados en `Las solicitudes de citas 'utilizan este conjunto de datos.

Cita de pedidos:
K. Altun, B. Barshan y O. Tunel,
`` Estudio comparativo sobre la clasificacin de las actividades humanas con sensores inerciales y
magnticos decorativos,''
Pattern Recognition, 43 (10) :3605-3620, octubre de 2010. Barshan, billur y Murat Cihan
Yksek. "Reconociendo diario y actividades deportivas en la Segunda Open Source Machine
Learning Environments Utilizacin de unidades de sensor usado en el cuerpo." The Computer
Journal (2013) K. Altun y B. Barshan, `` reconocimiento actividad humana usando unidades de
sensores inerciales / magnticos,'' Memorias Primer Taller Internacional sobre la comprensin del
comportamiento humano (en conjuncin con el 20 Int.. Conf. sobre Reconocimiento de Patrones),
22 de agosto de 2010, Estambul, Turqua , AA Salah, T. Gevers, N. Sebe, A. Vinciarelli (editores),
HBU 2010, LNCS 6219, pp.38-51, Springer: Berln, Heidelberg, 2010.
Daphnet bloqueo de la marcha 2014-02-12
del conjunto de datos
Resumen : Este conjunto de datos contiene las lecturas comentadas de 3 sensores de aceleracin
en la cadera y la pierna de los pacientes con enfermedad de Parkinson que la experiencia de
congelacin de la marcha (neblina) durante las tareas de a pie.

Conjunto de datos Multivariado, Nmero de


237 rea: Vida
Caractersticas: Time-Series instancias:

Caractersticas del Nmero de Fecha


Real 9 07/03/2013
atributo: atributos: Donado

Nmero de
Valores N/
Tareas asociadas: Clasificacin Web 10434
perdidos? A
Accesos:

Fuente:
0Daniel Roggen, Universidad de Newcastle Upon Tyne, Reino Unido, daniel.roggen '@' ieee.org
Meir Plotnik, Sheba Medical Center, IL, meir.plotnikPeleg '@' sheba.health.gov.il
Jeff Hausdorff, Tel Aviv Sourasky Medical Center , jhausdor '@' tlvmc.gov.il
Este conjunto de datos se recogieron como parte de la Daphnet proyecto del 6PM de la UE,
concede nmero 018474-2.
esfuerzo adicional para publicar este conjunto de datos fue financiada en parte por el proyecto del
7PM de la UE Cupido, el nmero de concesin 288516.

Datos Conjunto de Informacin:


La congelacin de la marcha Daphnet conjunto de datos es un conjunto de datos ideado para
mtodos automticos de referencia para reconocer la congelacin de la marcha de los sensores de
aceleracin porttiles colocados en las piernas y la cadera. El conjunto de datos se registr en el
laboratorio con nfasis en la generacin de muchos eventos de congelacin. Los usuarios realizan
all clases de tareas: la lnea recta para caminar, caminando con numerosas curvas, y por ltimo
una actividad ms realista de la vida diaria (AVD) de tareas, donde los usuarios entraron en
diferentes salas, mientras que ir a buscar el caf, abrir puertas, etc Este conjunto de datos es el
resultado de una colaboracin entre el Laboratorio de Marcha y Neurodinmico, Tel Aviv Sourasky
Medical Center, Israel y el Laboratorio de Computacin usable, ETH Zurich, Suiza. Las grabaciones
se realizaron en el Aviv Sourasky Medical Center Tel en 2008. El estudio fue aprobado por el
Comit de Sujetos Humanos local de revisin, y se llev a cabo de acuerdo con las normas ticas de
la Declaracin de Helsinki.

Atributo de la informacin:
Cada archivo comprende los datos en un formato de matriz, con una lnea por muestra, y una
columna por canal. Los canales son los siguientes:
Tiempo de la muestra en milisegundos
tobillo (pierna) Aceleracin - Aceleracin de avance horizontal [mg]
tobillo (pierna) de aceleracin - [mg] vertical de
tobillo (pierna) de aceleracin - lateral [mg] horizontal
pierna superior (muslo) aceleracin - La aceleracin horizontal delantera [mg]
pierna superior (muslo) aceleracin - [mg] verticales
pierna superior (muslo) aceleracin - lateral [mg] horizontal
aceleracin Trunk - aceleracin horizontal delantera [mg]
aceleracin Trunk - verticales [mg]
aceleracin Trunk - horizontal lateral [mg]
Anotacin [0, 1 2] El significado de las anotaciones son las siguientes: 0: no forma parte del
experimento. Por ejemplo, los sensores estn instalados en el usuario o el usuario est realizando
actividades no relacionadas con el protocolo experimental, como debriefing 1: experimento, sin
congelar (puede ser cualquiera de stand, caminar, girar) 2: congelacin

Documentos pertinentes:
[1] chlin Marc B , Meir Plotnik, Daniel Roggen, Nir Giladi, Jeffrey M Hausdorff y Gerhard Tr
ster, un sistema usable para Asistir a pie por la enfermedad de Parkinson Patients.Methods de
Informacin en Medicina, 49:1 (88-95 ), 2010
[2] Meir Plotnik, Marc B chlin, Inbal Maidan, Daniel Roggen, Gerhard Tr ster, Nir Giladi y
Jeffrey M Hausdorff, asistencia biofeedback Automatizado de bloqueo de la marcha en pacientes
con enfermedad de Parkinson. Actas de la Sociedad Internacional para la postura y la marcha de
Investigacin (ISPGR), Bologna, Italia, 2009
[3] Meir Plotnik, Marc B chlin, Daniel Roggen, Noit Inbar, Inbal Maidan, Talia Herman, Marina
Brozgol, Eliya Shaviv, Gerhard Tr ster y Jeffrey M de Hausdorff, tratamiento automatizado de
bloqueo de la marcha en la enfermedad de Parkinson utilizando un dispositivo porttil que detecta
automticamente la congelacin. Reunin anual de la Sociedad Neurolgica de Israel, Israel,
pginas 63, 2009
[4] Marc B chlin, Daniel Roggen, Meir Plotnik, Jeffrey M Hausdorff, Nir Giladi y Gerhard Tr
ster, Deteccin en lnea de bloqueo de la marcha en pacientes con enfermedad de Parkinson : Una
caracterizacin del rendimiento. Actas de la 4 Conferencia Internacional sobre Body Area
Networks, 2009
[5] Marc B chlin, Meir Plotnik, Daniel Roggen, Noit Inbar, Nir Giladi, Jeffrey M Hausdorff y
Gerhard Tr ster. Perspectiva de Parkinson los pacientes 'del contexto tecnologa porttil
conscientes de ayuda auditiva. Actas de la 3 Conferencia Internacional sobre Tecnologas de
Pervasive Computing de Salud, 2009
[6] chlin Marc B , Daniel Roggen, Meir Plotnik, Noit Inbar, Inbal Maidan, Talia Herman, Marina
Brozgol, Eliya Shaviv, Nir Giladi, Jeffrey M Hausdorff y Gerhard Tr ster,
Potenciales de una mayor sensibilidad al contexto en asistentes porttiles para los pacientes con
enfermedad de Parkinson s con la congelacin del sndrome de la marcha. Actas del Simposio
Internacional sobre la 13 Wearable Computers (ISCA), pginas 123-130, 2009
[7] Sinziana Mazilu, Michael Hardegger, Zack Zhu, Daniel Roggen, Gerhard Tr ster, Meir Plotnik,
Jeff Hausdorff. Deteccin en lnea de bloqueo de la marcha con Smartphones y Tcnicas de
Aprendizaje Automtico. Sexto Proc Int. Conf. sobre Tecnologas Pervasive Computing de Salud,
2012

Cita de pedidos:
El uso de este conjunto de datos en las publicaciones debe ser reconocido por referencia a la
siguiente publicacin: chlin Marc B , Meir Plotnik, Daniel Roggen, Inbal Maidan, Jeffrey M.
Hausdorff, Nir Giladi, y Gerhard Tr ster, Asistente usable para los pacientes con enfermedad de
Parkinson con el bloqueo de la marcha de los sntomas. IEEE Transactions on Information
Technology en Biomedicina, 14 (2), marzo 2010, pginas 436-446 En este trabajo se describe el
conjunto de datos en los detalles. Se explica el protocolo de adquisicin de datos, el tipo de sensor
utilizado y su colocacin, y la naturaleza de los datos adquiridos. Tambin proporciona resultados
de referencia para la deteccin automtica de bloqueo de la marcha, contra la que los nuevos
mtodos se pueden benchmarking. En particular, se describe la sensibilidad de deteccin /
especificidad para 3 posiciones de sensor y 4 tipos de seales de los sensores se derivan, se analiza
la latencia de deteccin, y proporciona la primera visin especfica vs desempeo independiente
user user. Tambin agradeceramos que nos (informar daniel.roggen '@ ' ieee.org ) de cualquier
publicacin que utiliza este conjunto de datos con fines de referencias cruzadas.
Conjunto de datos para el 2014-02-12
Reconocimiento ADL con
desgastado mueca
Acelermetro Data Set
Resumen : Los registros de 16 voluntarios que realizan 14 Actividades de la Vida Diaria (ADL) en
el ejercicio de un solo acelermetro triaxial de pulsera.

N
Conjunto de datos Multivariado, Nmero de
/ rea: Ordenador
Caractersticas: Time-Series instancias:
A

Caractersticas del Nmero de Fecha


N/A 3 11/02/2014
atributo: atributos: Donado

N
Clasificacin, Valores Nmero de
Tareas asociadas: / 179
Clustering perdidos? Web Accesos:
A

Fuente:
Barbara Bruno, Fulvio Mastrogiovanni, Antonio Sgorbissa
Laboratorium - Laboratorio de Inteligencia Ambiental y Robtica Mvil
DIBRIS, Universidad de Genova,
a travs de Opera Pia 13, 16145, Genova, Italia (IT)

Datos Conjunto de Informacin:


El conjunto de datos para las AVD reconocimiento con la mueca-desgastado acelermetro es una
coleccin pblica de grabaciones de datos del acelermetro etiquetados para ser utilizados para la
creacin y validacin de modelos de aceleracin de simples actividades cotidianas. El conjunto de
datos se compone de las grabaciones de 14 sencillos ADL (brush_teeth, climb_stairs, comb_hair,
descend_stairs, drink_glass, eat_meat, eat_soup, getup_bed, liedown_bed, pour_water,
sitdown_chair, standup_chair, use_telephone, caminar) perfomed por un total de 16
voluntarios. Los datos son recogidos por un nico acelermetro triaxial adjunta a la derecha de la
mueca de el voluntario. Especificaciones del acelermetro se detallan en el Manual.txt archivo
dentro de la carpeta de conjunto de datos. documentacin detallada sobre el conjunto de datos se
proporciona en los archivos README.TXT y Manual.txt dentro de la carpeta de conjunto de datos.

Atributo de la informacin:
Cada archivo en el conjunto de datos sigue la siguiente convencin de nomenclatura:
Acelermetro-[START_TIME] - [ADL] - [VOLUNTARIO]
donde:
- [START_TIME]: fecha y hora del momento de inicio de la grabacin en el formato [AAAA-MM-DD-
HH -MM-SS]
- [HMP]: nombre de la ADL realizado en el ensayo registrado
- [VOLUNTARIO]: cdigo de identificacin del voluntario que realiza el movimiento grabada en el
formato [GN] donde:
- 'g' indica el sexo del voluntario (m -> hombre, f -> hembra)
- 'N' indica el nmero progresivo asociado al voluntario Cada registro de un archivo de informes: -
aceleracin a lo largo del eje x del acelermetro - aceleracin a lo largo del eje y del acelermetro -
aceleracin a lo largo del eje z del acelermetro

Documentos pertinentes:
Una descripcin del sistema de monitoreo de ADL que hemos diseado para trabajar con el
conjunto de datos suministrado se puede encontrar en:
- Bruno, B., Mastrogiovanni, F., Sgorbissa, A., Vernazza, T., Zaccaria, R.:
Anlisis de . algoritmos de reconocimiento de la conducta humana sobre la base de los datos de
aceleracin
en: IEEE Int. Conf. de Robtica y Automatizacin (ICRA),
pp 1602 - 1607 (2013) - Bruno, B., Mastrogiovanni, F., Sgorbissa, A., Vernazza, T., Zaccaria, R.: .
modelizacin de movimiento humano y reconocimiento: Un enfoque computacional En: IEEE Int.
Conf. on Automation Ciencia e Ingeniera (CASE), pp 156-161 (2012)

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
DBWorld correos electrnicos 2014-02-12
Conjunto de datos
Resumen : Contiene 64 e-mails que he recogido de forma manual desde la lista de correo
DBWorld. Se clasifican en: 'anuncia las conferencias "y" todo lo dems ".

Conjunto de datos Nmero de


Texto 64 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de 2011-11-


N/A 4702 Fecha Donado
atributo: atributos: 06

Valores N/ Nmero de
Tareas asociadas: Clasificacin 10055
perdidos? A Web Accesos:

Fuente:
Michele Filannino, PhD
de la Universidad de Manchester
Centro de Formacin Doctoral
Email: filannim_AT_cs.man.ac.uk

Datos Conjunto de Informacin:


Recog 64 e-mails de boletn DBWorld y las us para entrenar diferentes algoritmos para clasificar
entre los "anuncia de conferencias" y "todo lo dems". He utilizado una representacin binaria de
bolsa de palabras con una tarea pre-procesamiento de eliminacin de palabras vacas antes.

Atributo de la informacin:
Cada atributo se corresponde con una palabra precisa o madre en todo el vocabulario conjunto de
datos (yo us representacin bolsa-de-palabras).

Documentos pertinentes:
Michele Filannino, 'DBWorld clasificacin de correo electrnico mediante un pequeo corpus',
proyecto de curso de aprendizaje de la mquina, de la Universidad de Manchester, 2011. [ enlace
web ]

Cita de pedidos:
Gracias a ACM-SIGMOD para su servicio de utilidad! :)
Demospongiae Data Set 2014-02-12
Resumen : Las esponjas marinas del dominio de clase clasificacin Demospongiae.

Conjunto de datos Nmero de


Multivariante 503 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de N/ 2010-


Entero Fecha Donado
atributo: atributos: A 01-21

Valores Nmero de
Tareas asociadas: Clasificacin S 20732
perdidos? Web Accesos:

Fuente:
Creador: Eva Armengol, Enric Plaza, Marta Domingo y Iosune Uriz Donante: Santiago Ontan
( santi "@" iiia.csic.es )

Datos Conjunto de Informacin:


Este conjunto de datos contiene 503 esponjas pertenecientes a la clase Demospongiae recogido
desde el Mediterrneo (451 esponjas) y Atlntico (52 esponjas). Cada esponja se clasifica de
acuerdo a una jerarqua formada por: orden, familia, gnero y especie. Cada orden se subdivide en
varias familias. Cada familia tambin se divide en varios gneros, y cada gnero en varias especies:
- Hay 7 rdenes diferentes (entre 42-117 esponjas por orden)
- 42 familias diferentes (1-43 esponjas por familia)
- 114 gnero diferente (1 a 34 esponjas por gnero)
- 230 especies diferentes (de 1 a 15 esponjas por especie) Aunque la clasificacin en todos estos
niveles se puede intentar, se ha utilizado tradicionalmente como un conjunto de datos de
clasificacin, usando el "orden" como la clase de destino. . Adems, un subgrupo formado por 280
esponjas (rdenes astrophoricda, axinellida y Hadromerida) tambin de uso general El conjunto de
datos es relacional y se ofrece en dos formatos alternativos (que son equivalentes): - NOOS: NOOS
es un lenguaje Lisp tipo de representar los datos como caracterstica-trminos. Los siguientes
archivos contienen el conjunto de datos en este formato: - esponja ontology.noos: esto define la
ontologa (tipos y caractersticas) - esponjas dm.noos: este archivo se definen los diferentes
constantes utilizadas en los ejemplos - esponja-casos-503. Noos: este archivo contiene el conjunto
de datos reales - Clusulas de Horn: el conjunto de datos tambin se proporciona como un
conjunto de clusulas de prlogo, equivalente a la representacin de entidad plazo en NOOS. El
archivo de las esponjas-503.pl contiene el conjunto de datos en este formato. Cada predicado con
la cabeza de esponja-problema 'define una esponja diferente.

Atributo de la informacin:
Cada esponja define 2 atributos:
- Descripcin: que de por s define hasta 6 atributos (caractersticas externas-, ecolgicos-
caractersticas, spikulate-esqueleto, esqueleto fibroso, tractos-esqueleto, y la anatoma). Cada uno
de estos atributos se ha definido atributos adicionales, y as sucesivamente, formando una
estructura de rbol. Las hojas del rbol contienen tanto categorial, as como caractersticas
numricas. Por otra parte, algunas caractersticas son multi-valoradas (es decir, una funcin puede
contener ms de un valor)
- Solucin: Este atributo tiene 4 atributos adicionales definidos (orden, familia, gnero y especie),
que son los atributos de destino. . Como se explic anteriormente, por lo general el "orden" se
utiliza como la clase de destino, ya que no hay suficientes ejemplos para predecir familia, gnero y
especie con precisin los rboles que representan las esponjas varan de tamao: su profundidad
vara formulario 5-8, y su nmero de hojas de 17 a 51. Una representacin grfica de una esponja
se muestra en el archivo de esponja-220.pdf como un ejemplo.
Documentos pertinentes:
Santiago Ontan y Enric Plaza (2009) sobre las medidas de similitud basadas en un refinamiento
de celosa. en ICCBR 2009, LNAI 5650, pp 240-255. Eva Armengol, Enric Plaza: Lazy Induccin de
Descripciones de Aprendizaje Basado en Casos Relacional. ECML 2001: 13-24 Eva Armengol, Enric
Plaza: Evaluacin Similitud de Relational CBR. ICCBR 2001: 44-58

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Dermatologa Data Set 2014-02-12
Resumen : Objetivo para este conjunto de datos es determinar el tipo de enfermedad
Eryhemato-escamosas.
Conjunto de datos Nmero de
Multivariante 366 rea: Vida
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de Fecha 1998-


33
atributo: Integer atributos: Donado 01-01

Nmero de
Valores
Tareas asociadas: Clasificacin S Web 46383
perdidos?
Accesos:

Fuente:
Los propietarios originales: 1. Nilsel Ilter, MD, Ph.D., de la Universidad de Gazi, Facultad
de Medicina 06510 Ankara, Turqua Telfono: +90 (312) 214 1080 2. H. Altay Gvenir,
PhD,. Bilkent University, Departamento de Ingeniera Informtica y Ciencias de la
Informacin, 06533 Ankara, Turqua Telfono: +90 (312) 266 4133 Email: Gvenir '@'
cs.bilkent.edu.tr Donante: H. Altay Gvenir, Universidad de Bilkent, Departamento de
Ingeniera Informtica y Ciencias de la Informacin, 06533 Ankara, Turqua Telfono: +90
(312) 266 4133 Email: Gvenir '@' cs.bilkent.edu.tr

Datos Conjunto de Informacin:


Esta base de datos contiene 34 atributos, de las cuales 33 son lineales valorados y uno de
ellos es nominal. El diagnstico diferencial de las enfermedades eritematoescamosas
escamosas es un problema real en dermatologa. Todos ellos comparten las
caractersticas clnicas de eritema y descamacin, con muy pocas diferencias. Las
enfermedades de este grupo son la psoriasis, la dermatitis seboreic, el liquen plano, la
pitiriasis rosada, dermatitis crnica y pitiriasis rubra pilaris. Por lo general, una biopsia es
necesaria para el diagnstico, pero por desgracia estas enfermedades comparten muchas
caractersticas histopatolgicas tambin. Otra dificultad para el diagnstico diferencial es
que una enfermedad puede mostrar las caractersticas de otra enfermedad en la etapa
inicial y puede tener los rasgos caractersticos en las siguientes etapas. Los pacientes
fueron evaluados clnicamente por primera vez con 12 funciones. Posteriormente, se
tomaron muestras de piel para la evaluacin de 22 caractersticas histopatolgicas. Los
valores de las caractersticas histopatolgicas son determinados por un anlisis de las
muestras en el microscopio. En el conjunto de datos construida para este dominio, la
funcin de la historia de la familia tiene el valor 1 si cualquiera de estas enfermedades se
ha observado en la familia, y 0 en caso contrario. La funcin de la edad simplemente
representa la edad de la paciente. Cada otra caracterstica (clnico e histopatolgico)
recibi un grado en el rango de 0 a 3. Aqu, 0 indica que la funcin no estaba presente, 3
indica la cantidad ms grande posible, y 1, 2 indican los valores intermedios relativos. Los
nombres y nmeros de identificacin de los pacientes que se retiraron recientemente de la
base de datos.

Atributo de la informacin:
Atributos clnicos: (tomar valores 0, 1, 2, 3, a menos que se indique lo contrario)
1: eritema
2: expansin
3: fronteras definitivas
4: picazn
5: Fenmeno de Koebner
6: ppulas poligonales
7: ppulas foliculares
8: afectacin de la mucosa oral,
9: la rodilla y el codo participacin
10: Participacin del cuero cabelludo
11: antecedentes familiares, (0 o 1)
34: La edad (lineal) histopatolgico Atributos: (toma valores 0, 1, 2, 3) 12: incontinencia de
melanina 13: eosinfilos en el infiltrado 14: PNL se infiltran 15: fibrosis de la dermis papilar
16: exocitosis 17: acantosis 18: hiperqueratosis 19: paraqueratosis 20: Parranda de las
crestas epiteliales 21: elongacin de las crestas epiteliales 22: adelgazamiento de la
epidermis suprapapilar 23: pstula espongiforme 24: microabcess munro 25:
hipergranulosis focal 26: desaparicin de la capa granular 27: vacuolizacin y el dao de la
capa basal 28: espongiosis 29: aparicin de dientes de sierra de retes 30: tapn folicular
cuerno 31: paraqueratosis perifolicular 32: inflamatoria monoluclear inflitrate 33: infiltrado
en banda

Documentos pertinentes:
G. Demiroz, HA Govenir y N. Ilter, "Aprendizaje Diagnstico diferencial de las
enfermedades Eryhemato-escamosas utilizando la funcin de votacin Intervalos",
Inteligencia Aritificial en Medicina [Web Link]

Documentos que citan este conjunto de datos 1 :


Vassilis Athitsos y Stan Sclaroff. Impulsar Clasificadores vecino ms cercano para el
Reconocimiento multiclase . Universidad de Boston Computer Tech Ciencia. Informe n, 2004-006.
2004. [ Ver Contexto ]. Gisele L. Pappa y Alex Alves Freitas y Celso AA Kaestner. Seleccin de
atributos con un algoritmo gentico multiobjetivo . EISB. 2002. [ Ver Contexto ]. MV Fidelis y
Heitor S. Lopes y Alex Alves Freitas. Descubriendo comprensibles Reglas de clasificacin con un
Algoritmo Gentico . UEPG, CPD CEFET-PR, CPGEI PUC-PR, PPGIA Praa Santos Andrade, s / n
Av. Sete de Setembro. [ Ver Contexto ]. Rafael S. Parpinelli y Heitor S. Lopes y Alex Alves Freitas.
CUARTA PARTE: OPTIMIZACIN colonia de hormigas e Inmunolgico Captulo X Una colonia
de hormigas algoritmo para la Clasificacin Regla Descubrimiento . CEFET-PR, Curitiba. [ Ver
Contexto ]. Rafael S. Parpinelli y Heitor S. Lopes y Alex Alves Freitas. Un sistema basado en
Colonia de Hormigas para Minera de Datos: Aplicaciones a los datos mdicos . CEFET-PR, CPGEI
Av. Sete de Setembro, 3165. [ Ver Contexto ]. Gisele L. Pappa y Alex Alves Freitas y Celso AA
Kaestner. AMultiobjective Algoritmo Gentico para la seleccin de atributos . Laboratorio de
Computacin de la Pontificia Universidade Catlica do Paran Universidad de Kent en Canterbury.
[ Ver Contexto ]. Perry Moerland. Mezclas de modelos de variables latentes para la estimacin de la
densidad y la clasificacin . ESEARCHREPRORTIDIAPD alle M olle yo nstitutefor Pe r cep t ua l
Una Inteligencia rtificial. [ Ver Contexto ]. H. Altay Gvenir. A Clasificacin algoritmo de
aprendizaje robusto de caractersticas irrelevantes . Universidad de Bilkent, Departamento de
Ingeniera Informtica y Ciencias de la Informacin. [ Ver Contexto ].
Dexter Data Set 2014-02-12
Resumen : DEXTER es un problema de clasificacin de texto en una representacin de
la bolsa-de-palabra. Este es un problema de clasificacin de dos clases con variables de
entrada continuas dispersos. Este conjunto de datos es uno de los cinco conjuntos de
datos del desafo de seleccin de caractersticas NIPS 2003.
Conjunto de datos Nmero de
Multivariante 2600 rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2008-


Entero 20000
atributo: atributos: Donado 02-29

Nmero de
Valores
Tareas asociadas: Clasificacin N/A Web 37480
perdidos?
Accesos:

Fuente:
una. Propietarios originales
El conjunto original de datos hemos utilizado es un subconjunto de la conocida Reuters
texto referente categorizacin. Los datos fueron recogidos y etiquetados por Carnegie
Group, Inc. y Reuters, Ltd. en el curso del desarrollo del sistema de categorizacin de
textos interpretan originalmente. Es recibido por el repositorio UCI KDD:
http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html . David D. Lewis est
organizando recursos valiosos acerca de estos datos (ver
http://www.daviddlewis.com/resources/testcollections/reuters21578/ ). Utilizamos la
"adquisicin corporativa" clase clasificacin de texto pre-procesado por Thorsten Joachims
< thorsten '@' joachims.org >. Los datos son uno de los ejemplos del paquete de software
SVM-Luz., Ver http://svmlight.joachims.org/ . El ejemplo se puede descargar desde
ftp://ftp-ai.cs.uni-dortmund.de/pub/Users/thorsten/svm_light/examples/example1.tar.gz . b.
Donante de base de datos Esta versin de la base de datos estaba preparado para la
variable y la funcin de seleccin de referencia NIPS 2003 por Isabelle Guyon, 955
Creston Road, Berkeley, CA 94708, EE.UU. ( isabelle '@' clopinet.com ).

Datos Conjunto de Informacin:


Los datos originales fueron formateados por Thorsten Joachims en la representacin
"bolsa-de-palabras". Haba 9.947 caractersticas (de los cuales 2.562 son siempre ceros
para todos los ejemplos) que representan frecuencias de ocurrencia de la palabra de tallos
en el texto. La tarea es aprender cules son los artculos de Reuters son acerca de
"adquisiciones de empresas '. Hemos aadido una serie de caractersticas distractor
llamado 'sondas' que no tienen ningn poder predictivo. El orden de las caractersticas y
los patrones fueron aleatorizados. DEXTER - ex positiva. - Ex Negativo. - Total Training
ajustado - 150 - 150 - 300 La validacin establece - 150 - 150 - 300 Kit de ensayo - 1000 -
1000-2000 All - 1300 - 1300-2600 N de variables / caractersticas / atributos: Reales:
9947 Sondas: 10.053 totales: 20000 Este conjunto de datos es uno de los cinco conjuntos
de datos utilizados en el desafo de seleccin de caractersticas NIPS 2003. Nuestra
pgina web [Web Link] est todava abierto para la presentacin despus de la exposicin.
Informacin acerca de otros problemas conexos se encuentran en: [Web Link] . El paquete
CLOP incluye cdigo de ejemplo para procesar estos datos: [Web Link] . Todos los
detalles sobre la preparacin de los datos se encuentran en nuestro informe tcnico:
Diseo de experimentos para la seleccin de variables de referencia, Isabelle Guyon, julio
de 2003, NIPS 2003 [Web Link] (tambin incluido en el archivo de conjunto de datos).
Dicha informacin se pondr a disposicin slo despus de la final del desafo. Los datos
se dividen en entrenamiento, validacin y prueba. Valores objetivo slo se proporcionan
para los 2 primeros sets. Los resultados de rendimiento conjunto de pruebas se obtienen
mediante la presentacin de resultados de la prediccin a: [Web Link] . Los datos estn en
el siguiente formato: dataname.param: Los parmetros y las estadsticas sobre los datos
dataname.feat: Identidades de las caractersticas (retenidos, para evitar sesgar funcin .
seleccin) dataname_train.data: conjunto de entrenamiento (una matriz dispersa, los
patrones de lneas, las caractersticas de las columnas:. nmero de funcin seguido de
valor) dataname_valid.data:. conjunto de validacin dataname_test.data: conjunto de
prueba. dataname_train.labels: Etiquetas (la verdad . valores de las clases) para ejemplos
de entrenamiento dataname_valid.labels: Definir etiquetas de Validacin (retenidos
durante el punto de referencia, pero siempre ahora). dataname_test.labels: Test set
etiquetas (retenciones, por lo que los datos todava pueden ser usados como un punto de
referencia).

Atributo de la informacin:
No proporcionamos informacin de la caracterstica para evitar sesgar la seleccin de
caractersticas.

Documentos pertinentes:
Los mejores participantes desafo escribieron artculos recogidos en el libro:
Isabelle Guyon, Steve Gunn, Masoud Nikravesh, Lofti Zadeh (Eds.), extraccin de
caractersticas, fundamentos y aplicaciones. Los estudios en Tolerancia y Soft Computing.
. Physica-Verlag, Springer [Web Link]
Ver tambin:
Isabelle Guyon, et al, 2007. Mtodos de referencia competitivos establecen nuevas
normas para la seleccin de caractersticas de referencia NIPS 2003. Pattern Recognition
Letters 28 (2007) 1438-1444.
y el informe tcnico correspondiente:
Isabelle Guyon, et al. 2006. La seleccin de caractersticas con el paquete CLOP. Informe
Tcnico. [Web Link] .

Cita de pedidos:
Isabelle Guyon, Steve R. Gunn, Asa Ben-Hur, Gideon Dror, 2004. Anlisis de los resultados del
desafo de seleccin de caractersticas NIPS 2003. En:. NIPS [Web Link] .
DGP2 - El Programa de 2014-02-12
Segunda Generacin de
datos Conjunto de datos
Resumen : Genera los dominios de aplicacin sobre la base de parmetros especficos,
la cantidad de caractersticas, y la proporcin de positivos a negativos ejemplos
N
Conjunto de datos Datos- Nmero de
/ rea: N/A
Caractersticas: Generador instancias:
A

N
Caractersticas del Nmero de
Real / Fecha Donado N/A
atributo: atributos:
A

N
Valores Nmero de
Tareas asociadas: N/A / 9932
perdidos? Web Accesos:
A

Fuente:
Powell Benedicto
Universidad de Illinois en Urbana
inductivo Learning Group
Beckman Institute
Urbana, IL 61801
tel: (217) 244-1620
E-mail: Benedict '@' cs.uiuc.edu

Datos Conjunto de Informacin:


DGP / 2 es una mejora de DGP. Permite para parmetros adicionales y automatiza el
ajuste del parmetro de desviacin estndar, que no se hace fcilmente por el usuario. En
particular, DGP / 2 permite la variacin en el nmero de casos, el nmero de
caractersticas, la gama de valores de caractersticas, el nmero de picos, el porcentaje de
casos positivos deseados y un radio alrededor de los picos que estos casos estarn dentro
de ( esto controla la densidad de ejemplo, y determina el valor de la desviacin estndar
para la funcin de distribucin normal).

Atributo de la informacin:
N/A

Documentos pertinentes:
Benedict, PA, el uso de datos sinttico en Dinmica sesgo de seleccin, Proc. De las
aplicaciones aeroespaciales sexto de Artificial Intelligence Conference, Dayton, Ohio,
octubre de 1990. Ehrenfeucht, A., Haussler, D., Kearns, M, Valiant, L. Un general cota
inferior del nmero de ejemplos necesarios para el aprendizaje. Proc. Teora
Computacional de Aprendizaje, 1988, 139-154. [Web Link] Kononenko, I., Bratko, I.,
Roskar, E., Los experimentos en aprendizaje automtico de las Reglas de Diagnstico
Mdico (Ljubljana, Yugoslavia: Jozef Stefan Institute, 1984). [ Web Link] Michalski, RS,
Mozetic, I., Hong, J., Lavrac, N., El Multiusos Incremental Learning System AQ15 y su
aplicacin de pruebas a Tres Dominios Mdico, Proc. De la V Conferencia Nacional sobre
Inteligencia Artificial, Pp. 1041-1045, Morgan Kaufman, Los Altos, Ca, 1986. [Web Link]
Mitchell, TM La necesidad de sesgos en las generalizaciones de aprendizaje. Informe
Tcnico CBM-TR-117, mayo de 1980. [Web Link] Rendell, LA, una nueva base para los
sistemas de aprendizaje Espacio de Estado y una implementacin exitosa, Inteligencia
Artificial 20 (1983): 369-392. [Web Link] Rendell, LA , Cho, HH El efecto del carcter de
datos sobre el aprendizaje de conceptos empricos en Proc. Quinta Conferencia
Internacional sobre Aplicaciones de la Inteligencia Artificial, de marzo de 1989. [Web Link]
Rendell, LA, Benedict, PA, Cho, HH, Seshu, Mejorar el diseo de los sistemas de reglas
de aprendizaje, Actas de la Sptima Conferencia Internacional sobre Sistemas Expertos y
su Aplicaciones, junio de 1988. Rendell, L., Seshu, R., Aprender conceptos difciles
mediante la induccin constructiva:. marco y razn de ser, la Inteligencia Computacional,
1990 [Web Link] Rendell, LA, Seshu, RM, Tcheng, DK Capas aprendizaje de conceptos y
la gestin de sesgo dinmicamente variable. . Actas de la Dcima Conferencia
Internacional Conjunta sobre Inteligencia Artificial, 1987 [Web Link] Russell, S., Grosof, B.
sesgo declarativa: Una visin general, en P. Benjamin (Ed.), La transformacin de la
representacin y la inductiva Bias. Kluwer Academic Press, 1990. [Web Link] Utgoff, PE
Shift de sesgo para el aprendizaje de conceptos inductivo. Aprendizaje Automtico:. Un
enfoque de Inteligencia Artificial, 1986, III [Web Link] Utgoff, PE, Mitchell, TM, Adquisicin
de sesgo apropiado para el aprendizaje de conceptos inductivo, Proc. Conferencia
Nacional de Inteligencia Artificial, 1982. [Web Link]

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Diabetes Data Set 2014-02-12
Resumen : Este conjunto de datos de la diabetes es de AIM '94
Conjunto de datos Multivariado, Nmero de N/
rea: Vida
Caractersticas: Time-Series instancias: A

Caractersticas del Categrico, Nmero de Fecha


20 N/A
atributo: Integer atributos: Donado

Nmero de
Valores N/
Tareas asociadas: N/A Web 76913
perdidos? A
Accesos:

Fuente:
Michael Kahn, MD, PhD, de la Universidad de Washington, St. Louis, MO

Datos Conjunto de Informacin:


Registros de los pacientes de la diabetes se obtuvieron a partir de dos fuentes: un
dispositivo y papel automtica de registros electrnicos de registro. El dispositivo
automtico tiene un reloj interno para la hora de eventos, mientras que los registros en
papel slo proporcionan ranuras en "tiempo lgico" (desayuno, almuerzo, cena, la hora de
acostarse). Para los registros en papel, se les asign un horario fijo para el desayuno
(08:00), almuerzo (12:00), cena (18:00), y la hora de acostarse (22:00). Por lo tanto los
registros en papel tienen tiempos de grabacin uniforme ficticios mientras que los
documentos electrnicos tienen marcas de tiempo ms realistas. archivos diabetes
consisten en cuatro campos por registro. Cada campo est separado por un tabulador y
cada registro est separado por un salto de lnea. Nombres y formato de archivo: (1)
Fecha en formato DD-MM-AAAA (2) Tiempo en XX: YY formato (3) Cdigo (4) Valor del
campo Cdigo es descifrado de la siguiente manera: 33 = dosis de insulina regular la dosis
de insulina NPH 34 = 35 = dosis insulina ultralenta 48 = medicin de glucosa en sangre no
especificada 57 = medicin de glucosa en sangre no especificada 58 = Antes del
desayuno medicin de glucosa en sangre 59 = Post-desayuno medicin de glucosa en
sangre 60 = Pre-almuerzo de medicin de glucosa en sangre 61 = Post-almuerzo de
medicin de glucosa en sangre 62 = medicin de glucosa en sangre antes de la cena 63 =
Post-cena medicin de glucosa en sangre 64 = medicin de glucosa en sangre pre-snack
65 = sntomas de hipoglucemia 66 = tpica ingesta de alimentos 67 =-Ms de lo habitual
comida ingestin 68 = Menos de lo habitual la ingestin de la comida 69 = actividad tpica
de ejercicio = 70-Ms de lo habitual actividad de ejercicio 71 = actividad-Menos de lo
normal ejercicio 72 = evento especial no especificada

Atributo de la informacin:
Archivos diabetes consisten en cuatro campos por registro. . Cada campo est separado
por un tabulador y cada registro est separado por un salto de lnea Los nombres y
formato de archivo: (1) Fecha en formato DD-MM-AAAA (2) Tiempo en XX: YY formato (3)
Cdigo (4) Valor

Documentos pertinentes:
N/A

Documentos que citan este conjunto de datos 1 :


. Jeroen Eggermont y Joost N. Kok y Walter A. Kosters Programacin Gentica para la
clasificacin de los datos: la particin del espacio de bsqueda . SAC. 2004. [ Ver
Contexto ]. Zhi-Hua Zhou y Jiang Yuan. NeC4.5: Neural Ensemble Based C4.5 . IEEE
Trans. Conocimiento. Datos Eng, 16. 2004. [ Ver Contexto ]. Prem Melville y Raymond J.
Mooney. conjuntos diversos para el aprendizaje activo . ICML. 2004. [ Ver Contexto ].
Michael L. Raymer y Travis E. Doom y Leslie A. Kuhn y William F. Punch. Descubrimiento
de conocimiento en bases de datos mdicas y biolgicas utilizando un clasificador de
Bayes / algoritmo evolutivo hbrido . Transacciones de IEEE en Sistemas, Hombre y
Ciberntica, parte B, de 33 aos. 2003. [ Ver Contexto ]. Eibe Frank y Mark Hall.
estimadores de probabilidad Visualizacin de clase . PKDD. 2003. [ Ver Contexto ]. Zhihua
Zhang y James T. Kwok y Dit-Yan Yeung. paramtrico Distancia Mtricas aprendizaje con
informacin de la etiqueta . IJCAI. 2003. [ Ver Contexto ]. Ilya Blayvas y Ron Kimmel.
multirresolucin Aproximacin para la Clasificacin . CS Dept. Technion. 2002. [ Ver
Contexto ]. Peter Sykacek y Stephen J. Roberts. Clasificacin de adaptacin por
Variational Kalman filtrado . PNI. 2002. [ Ver Contexto ]. Kristin P. Bennett y Ayhan Demiriz
y Richard Maclin. Explotar los datos no marcados en los mtodos de conjunto . KDD.
2002. [ Ver Contexto ]. Marina Skurichina y Ludmila Kuncheva y Robert PW Duin.
Embolsado y impulso para el clasificador ms cercano Mean: Efectos del tamao de la
muestra sobre la diversidad y precisin . Sistemas Clasificadores mltiples. 2002. [ Ver
Contexto ]. Krzysztof Krawiec. Gentica de construccin a base de programacin de
funciones para las tareas de aprendizaje automtico y Descubrimiento de Conocimiento .
Instituto de Ciencias de la Computacin, Universidad Tecnolgica de Poznan. 2002. [ Ver
Contexto ]. Jochen Garcke y Michael Griebel y Michael Tes. Minera de datos con Sparse
Grids . Informtica, 67. 2001. [ Ver Contexto ]. Pedro L. Hammer y Alexander Kogan y
Bruno Simeone y Sandor Szedm'ak. R utcor Investigacin I nforme . Rutgers Centro de
Investigacin Operativa de la Universidad de Rutgers. 2001. [ Ver Contexto ]. Robert
Burbidge y Matthew Trotter y Bernard F. Buxton y Sean B. Holden. STAR - Sparsity travs
Rechazo automatizado . IWANN (1). 2001. [ Ver Contexto ]. Endre Boros y Peter Hammer
y Toshihide Ibaraki y Alexander Kogan y Eddy Mayoraz e Ilya B. Muchnik. Una Aplicacin
del anlisis lgico de datos . IEEE Trans. Conocimiento. Datos Eng, 12. 2000. [ Ver
Contexto ]. Simon Tong y Daphne Koller. Restricted Bayes clasificadores ptimo . AAAI /
IAAI. 2000. [ Ver Contexto ]. Marina Skurichina y Robert PW Duin. Impulsar en el anlisis
discriminante lineal . Sistemas Clasificadores mltiples. 2000. [ Ver Contexto ]. Chris
Drummond y Robert C. Holte. Explotar el Costo (In) sensibilidad de los criterios que parten
de rboles de decisin . ICML. 2000. [ Ver Contexto ]. Mark A. Hall. basada correlacin-
Seleccin de caractersticas para fabricacin discreta y numrico Machine Learning Class .
ICML. 2000. [ Ver Contexto ]. Kai Ming Ting y Ian H. Witten. Problemas en Stacked
Generalizacin . J. Artif. Intell. Res.. (JAIR, 10. 1999. [ Ver Contexto ]. Stavros J.
Perantonis y Vassilis Virvilis. Caracterstica de entrada Extractor de mltiples capas
Perceptrones Uso Principal Supervisado Anlisis de Componentes . Neural Processing
Letters, 10. 1999. [ Ver Contexto ]. Art B. Owen. vecinos tubulares para la regresin y
clasificacin . Universidad de Stanford. 1999. [ Ver Contexto ]. Iaki Inza y Pedro
Larraaga y Basilio Sierra y Ramn Etxeberria y Jos Antonio Lozano y Jos Manuel
Pea. Representar el comportamiento de los algoritmos de aprendizaje de clasificacin
supervisada por redes bayesianas . Patrn Recognition Letters, 20. 1999. [ Ver Contexto ].
Thomas G. Dietterich. Prueba estadstica aproximada para la comparacin de clasificacin
supervisada algoritmos de aprendizaje . Neural Computation, 10. 1998. [ Ver Contexto ].
Huan Liu y Rudy Setiono. Caracterstica Transformacin y Decisin multivariado rbol de
induccin ... Science Discovery 1998 [ Ver Contexto .] Wojciech Kwedlo y Marek
Kretowski. Descubrimiento de reglas de decisin de las bases de datos: un enfoque
evolutivo PKDD.. 1998. [ Ver Contexto ]. Jan C. Bioch y D. Meer y Rob Potharst. rboles
de decisin bivariadas . PKDD. 1997. [ Ver Contexto ]. Kristin P. Bennett y Erin J.
Bredensteiner. Un mtodo paramtrico Optimizacin de Aprendizaje Automtico .
INFORMA Journal on Computing, 9. 1997. [ Ver Contexto ]. . Seleccin Prototipo para
compuestos Clasificadores vecino ms cercano . Departamento de Informtica
Universidad de Massachusetts. 1997. [ Ver Contexto ]. Jennifer A. Azul y Kristin P.
Bennett. Hybrid Extreme Point Bsqueda Tab . Departamento de Ciencias Matemticas
del Instituto Politcnico Rensselaer. 1996. [ Ver Contexto ]. Peter D. Turney. sensibles a
los costes de clasificacin: evaluacin emprica de una Decisin gentico hbrido Tree
Induccin algoritmo . CoRR, csAI/9503102. 1995. [ Ver Contexto ]. Lois C. Boggess
Andrew Watkins y Jon Timmis y. Sistema Inmune Artificial Reconocimiento (AIRS): Un
ImmuneInspired supervisadas algoritmo de aprendizaje . (Abw5, jt6@kent.ac.uk)
Laboratorio de Computacin de la Universidad de Kent. [ Ver Contexto ]. Stefan R uping.
Un mtodo simple para estimar las probabilidades condicionales para SVMs .
Departamento CS, AI Unidad de la universidad de Dortmund. [ Ver Contexto ]. Adil M.
Bagirov y John Yearwood. Un nuevo algoritmo de optimizacin no lisos para la agrupacin
. Centro de Informtica y Optimizacin Aplicada de la Facultad de Informtica y Ciencias
Matemticas de la Universidad de Ballarat. [ Ver Contexto ]. Adil M. Bagirov y Alex
Rubinov y AN Soukhojak y John Yearwood. clasificacin de datos no supervisada y
supervisada a travs de no lisos y optimizacin global . Escuela de Tecnologa de la
Informacin y Ciencias Matemticas de la Universidad de Ballarat. [ Ver Contexto ]. Rudy
Setiono y Huan Liu. Selector de funciones neuronales de la red . Departamento de
Sistemas Informticos y la Universidad Nacional de Ciencias de la Computacin de
Singapur. [ Ver Contexto ]. Charles Campbell y Nello Cristianini. simple algoritmos de
aprendizaje para las Mquinas de Vectores Soporte Entrenamiento . Departamento de
Ingeniera Matemtica. [ Ver Contexto ]. Michael Lindenbaum y Sal Markovitch y Dmitry
Rusakov. Muestreo Selectivo Usando Random Campo Modelado . [ Ver Contexto ]. Prem
Melville y Raymond J. Mooney. Actas de la 21 Conferencia Internacional sobre
Aprendizaje Automtico . Departamento de Ciencias de la Computacin. [ Ver Contexto ].
Fran ois Poulet. Cooperacin entre algoritmos automticos, algoritmos interactivos y
herramientas de visualizacin de Visual Data Mining . ESIEA Recherche. [ Ver Contexto ].
Wl odzisl / aw Duch y Rudy Setiono y Jacek M. Zurada. mtodos de inteligencia
computacional para la comprensin de datos basado en normas . [ Ver Contexto ]. Liping
Wei y Russ B. Altman. y un sistema automatizado para la generacin de perfiles de
Enfermedades comparativo hacer diagnsticos . Seccin de Informtica Universidad de
Stanford Escuela de Medicina de Medicina, MSOB X215. [ Ver Contexto ]. Ilya Blayvas y
Ron Kimmel. PAPEL INVITADO Nmero especial sobre el anlisis multirresolucin
Machine Learning a travs de multirresolucin aproximacin . [ Ver Contexto ]. YongSeog
Kim y W. Nick Street y Filippo Menczer. Optimal Ensemble de construccin a travs de
Meta-evolutivos Conjuntos . Sistemas de Informacin Empresarial, Universidad del Estado
de Utah. [ Ver Contexto ]. Krzysztof Grabczewski y Wl / odzisl / aw Duch. LA
SEPARACIN DE CRITERIO VALOR SPLIT . Departamento de Mtodos
Computacionales, Universidad Nicolaus Copernicus. [ Ver Contexto ]. Ilya Blayvas y Ron
Kimmel. Clasificacin eficiente a travs de multirresolucin Training Set aproximacin . CS
Dept. Technion. [ Ver Contexto ]. Hussein A. Abbass. Pareto Neuro-Evolution:
Construyendo Ensemble de redes neuronales mediante la optimizacin multi-objetivo .
Vida Artificial y Robtica Adaptativa (ALAR) Laboratorio de la Facultad de Tecnologa de la
Informacin e Ingeniera Elctrica, de Australia Academia de Defensa de la Fuerza. [ Ver
Contexto ]. Matthias Scherf y W. Brauer. Seleccin de caractersticas por medio de un
enfoque de funciones de ponderacin . GSF - Centro Nacional de Investigacin del Medio
Ambiente y de la Salud. [ Ver Contexto ]. Lena Kallin. receptor caracterstica de
funcionamiento (ROC) anlisis de evaluacin de efectos discriminance entre los sistemas
de soporte de decisiones . Contenido 1 La teora de curvas de caractersticas operativas
del receptor 5. [ Ver Contexto ]. Rong-En Fan y P. Chen-H y C-J Lin. conjunto de trabajo
Seleccin Uso de la Informacin del Segundo Orden de Formacin SVM . Departamento
de Ciencias de la Computacin e Ingeniera de la Informacin de la Universidad Nacional
de Taiwn. [ Ver Contexto ]. Alexander K. Seewald. Disertacin hacia la comprensin de
apilamiento Los estudios de un general Ensemble Aprendizaje Esquema ausgefuhrt zum
Zwecke der Erlangung des akademischen Grados eines der Doktors technischen
Naturwissenschaften . [ Ver Contexto ]. Lawrence O. Hall y Nitesh V. Chawla y Kevin W.
Bowyer. Combinando rboles de decisin aprendidas en paralelo . Departamento de
Ciencias de la Computacin e Ingeniera, ENB 118 University of South Florida. [ Ver
Contexto ]. Ahmed Hussain Khan y Cuidados Intensivos. Multiplicador libres Feedforward
Redes . 174. [ Ver Contexto ].

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Documentar comprension 2014-02-12
Data Set
Resumen : Cinco conceptos, expresados como predicados, que se pueden aprender
Conjunto de datos N/ Nmero de N/
rea: N/A
Caractersticas: A instancias: A

Caractersticas del N/ Nmero de N/ 1994-


Fecha Donado
atributo: A atributos: A 11-01

N/ Valores Nmero de Web


Tareas asociadas: No 12740
A perdidos? Accesos:

Fuente:
Propietario: Donato Malerba Dipartimento di Informatica de la Universidad de Bari a travs
de Orabona 4 70126 Bari - Italia : +39 - 80-5443269 Fax: +39 - 80-5443196 malerbad '@'
vm.csata.it Donante: Donato Malerba

Datos Conjunto de Informacin:


En la experimentacin, se consideraron 30 documentos de una sola pgina. Son copias de
las cartas enviadas por Olivetti. Seis ensayos se llevaron a cabo con seleccin aleatoria de
20 documentos para el conjunto de entrenamiento y 10 para el equipo de prueba. Cada
documento se identifica con una letra (A a Z) o un par de letras (AA, AB, AC, AD).
documentos de formacin Trial 1 ABCDEFGHIJKLMNOPQRST 2 CDEFGHIMPRSVXYWZ
AA AB AC AD 3 CDEFGHIJKPRSTUVYW AA AB AC 4 ABCDEFGJLMNOPQTVXZ AB AD
5 ABEFGIJKMNOPQRTVXZ AA AD 6 ABCDEFGIJMQSTXYZ AA AB AC AD

Atributo de la informacin:
N/A

Documentos pertinentes:
Malerba D. Comprensin del documento: un enfoque de aprendizaje de la mquina.
Informe Tcnico, Proyecto Esprit 5203 INTREPID, 4 de marzo de 1993. [Web Link] F.
Esposito, Malerba D., Semeraro G., y Pazzani M. A Machine Learning Approach to
Document Entendimiento. Proc. Segundo Int.. Taller sobre Multiestrategia Learning,
Harpers Ferry, Virginia Occidental, pp 276-292, mayo de 1993. [Web Link] F. Esposito,
Malerba D., y Semeraro G. Aprendizaje reglas contextuales en Lgica de Primer Orden.
Proc. 4 Taller Italiano sobre Aprendizaje Automtico (GAA93), Milan, Italia, pp 111-127,
junio de 1993. Esposito F., Malerba D., y Semeraro G. Automatizado Adquisicin de
Reglas para la comprensin del documento. Proc. de la segunda Int.. Conf. el anlisis de
documentos y reconocimiento, Tsukuba Science City, Japn, pp 650-654, octubre de
1993. [Web Link] Semeraro G., F. Esposito, y Malerba D. Aprendizaje reglas contextuales
para la comprensin del documento. Proc. 10a IEEE Conf. en Inteligencia Artificial para
aplicaciones. San Antonio, Texas, pp 108-115, marzo de 1994. [Web Link] F. Esposito,
Malerba D., y Semeraro G. Multiestrategia Aprendizaje para el reconocimiento de
documentos. Inteligencia Artificial Aplicada, 8, pp 33-84, 1994 [Web Link]

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Dodgers Loop Sensor Data 2014-02-12
Set
Resumen : los datos del sensor de bucle se recogi para el Glendale en la rampa para la
101 Norte Autopista de Los ngeles
Conjunto de datos Multivariado, Nmero de
50400 rea: N/A
Caractersticas: Time-Series instancias:

Caractersticas del Categrico, Nmero de Fecha 2006-


3
atributo: Integer atributos: Donado 12-01

Nmero de
Valores
Tareas asociadas: N/A S Web 24937
perdidos?
Accesos:

Fuente:
Creador y Mantenedor:
Jon Hutchins
UCI johutchi '@' uci.edu donantes: Pems

Datos Conjunto de Informacin:


Estos datos del sensor de bucle se recogi para el Glendale en la rampa para la 101 Norte
Autopista de Los ngeles. Est lo suficientemente cerca al estadio a ver el trfico inusual
despus de un partido de los Dodgers, pero no tan cerca y muy utilizado por el trfico
juego de modo que la seal para el trfico adicional es demasiado obvio. NOTA: Esta es
una rampa cerca del estadio de manera evento trfico comienza en o cerca del final de la
hora del evento. Las observaciones fueron tomadas durante 25 semanas, 288 segmentos
de tiempo por da (agregados de recuento 5 minutos). El objetivo es predecir la presencia
de un partido de bisbol en el estadio de los Dodgers

Atributo de la informacin:
1. Fecha: MM / DD / AA
2. Tiempo: (H) H: MM (hora militar)
3. Cuenta: Nmero de coches medidos para los ltimos cinco minutos
filas: Cada rebanada de tiempo de cinco minuto se representa mediante una fila Para
archivo de eventos:. 1. Fecha: MM / DD / AA 2. Comience hora del evento: HH: MM: SS
(militar) 3. Hora del evento de finalizacin: HH: MM: SS (militar) 4. Atencin del juego 5.
Equipo visitante 6. W / L puntuacin

Documentos pertinentes:
"La deteccin de eventos de adaptacin a los procesos de Poisson variables en el tiempo"
A. Ihler, J. Hutchins, y P. Smyth
Actas de la 12 Conferencia ACM SIGKDD (KDD-06), agosto de 2006.

Cita de pedidos:
Estas mediciones del sensor de bucle se obtuvieron del Sistema de Medicin del Desempeo
Autopista (PEMS), " [Web Link] "Escriba esta cita si tiene previsto utilizar esta base de datos.
Dorothea Data Set 2014-02-12
Resumen : DOROTHEA es un conjunto de datos de descubrimiento de frmacos. Los
compuestos qumicos representados por las caractersticas moleculares estructurales
deben clasificarse como activo (unin a trombina) o inactivo. Este es uno de los
conjuntos de datos 5 del desafo de seleccin de caractersticas NIPS 2003.
Conjunto de datos Nmero de
Multivariante 1950 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2008-


Entero 100000
atributo: atributos: Donado 02-29

Nmero de
Valores
Tareas asociadas: Clasificacin N/A Web 34721
perdidos?
Accesos:

Fuente:
Propietarios originales
del conjunto de datos con la que se cre DOROTHEA es una de las KDD (Knowledge
Discovery en Minera de datos) de la Copa de 2001. El conjunto de datos y documentos de
los ganadores del concurso original, estn disponibles en: http://www.cs.wisc.edu/ ~
dpage/kddcup2001 / . DuPont Farmacuticos, nos ayud este conjunto de datos para la
competicin KDD Cup 2001. Todas las publicaciones que se refieren a anlisis de este
conjunto de datos deben reconocer DuPont Pharmaceuticals Research Laboratories y
KDD Cup 2001. b. Donante de base de datos Esta versin de la base de datos estaba
preparado para la variable y la funcin de seleccin de referencia NIPS 2003 por Isabelle
Guyon, 955 Creston Road, Berkeley, CA 94708, EE.UU. ( isabelle '@' clopinet.com ).

Datos Conjunto de Informacin:


Las drogas son tpicamente molculas orgnicas pequeas que logran su actividad
deseada mediante la unin a un sitio diana en un receptor. El primer paso en el
descubrimiento de un nuevo frmaco es por lo general para identificar y aislar el receptor
al que se debe unir, seguido por pruebas de muchas molculas pequeas por su
capacidad para unirse al sitio de destino. Esto deja a los investigadores la tarea de
determinar lo que separa a los compuestos (vinculantes) activos de los inactivos (no
vinculantes) queridos. Tal determinacin puede ser utilizado en el diseo de nuevos
compuestos que no slo se unen, pero tambin han requerido todas las otras propiedades
de un medicamento (solubilidad, la absorcin oral, la falta de efectos secundarios, la
duracin de accin apropiado, toxicidad, etc) .
Los datos originales fueron modificados para el propsito de la seleccin de caractersticas
desafo. En particular, hemos aadido una serie de caractersticas distractor llamado
'sondas' que no tienen ningn poder predictivo. El orden de las caractersticas y los
patrones fueron aleatorizados. DOROTHEA - ex positiva. - Ex Negativo. - Total Training
ajustado - 78 - 722-800 Validacin set - 350 - 34-316 Kit de ensayo - 78 - 722-800 All - 190
- 1760-1950 Mapeamos compuestos activos con el valor objetivo 1 (ejemplos positivos) y
compuestos inactivos en el valor objetivo -1 (ejemplos negativos). Nmero de variables /
caractersticas / atributos: Reales: 50000 Sondas: 50.000 totales: 100,000 Este conjunto
de datos es uno de los cinco conjuntos de datos utilizados en el desafo de seleccin de
caractersticas NIPS 2003. Nuestra pgina web [Web Link] est todava abierto para la
presentacin despus de la exposicin. Informacin acerca de otros problemas conexos
se encuentran en: [Web Link] . El paquete CLOP incluye cdigo de ejemplo para procesar
estos datos: [Web Link] . Todos los detalles sobre la preparacin de los datos se
encuentran en nuestro informe tcnico: Diseo de experimentos para la seleccin de
variables de referencia, Isabelle Guyon, julio de 2003, NIPS 2003 [Web Link] (tambin
incluido en el archivo de conjunto de datos). Dicha informacin se pondr a disposicin
slo despus de la final del desafo. Los datos se dividen en entrenamiento, validacin y
prueba. Valores objetivo slo se proporcionan para los 2 primeros sets. Los resultados de
rendimiento conjunto de pruebas se obtienen mediante la presentacin de resultados de la
prediccin a: [Web Link] . Los datos estn en el siguiente formato: dataname.param: Los
parmetros y las estadsticas sobre los datos dataname.feat: Identidades de las
caractersticas (retenidos, para evitar sesgar funcin . seleccin) dataname_train.data:
conjunto de entrenamiento (una matriz binaria escasa, patrones de lneas, las
caractersticas de las columnas:. se proporcionan el nmero de las caractersticas que no
son cero) dataname_valid.data:. conjunto de validacin dataname_test.data:. prueba de
conjunto dataname_train . etiquetas: Etiquetas (valores de verdad de las clases) para
ejemplos de entrenamiento. dataname_valid.labels: Definir etiquetas de Validacin
(retenidos durante el punto de referencia, pero proporcionadas ahora).
dataname_test.labels: Test set etiquetas (retenciones, por lo que los datos todava pueden
ser uso como punto de referencia).

Atributo de la informacin:
No proporcionamos informacin de atributos para evitar sesgar la seleccin de
caractersticas.

Documentos pertinentes:
Los mejores participantes desafo escribieron artculos recogidos en el libro:
Isabelle Guyon, Steve Gunn, Masoud Nikravesh, Lofti Zadeh (Eds.), extraccin de
caractersticas, fundamentos y aplicaciones. Los estudios en Tolerancia y Soft Computing.
. Physica-Verlag, Springer [Web Link]
Ver tambin:
Isabelle Guyon, et al, 2007. Mtodos de referencia competitivos establecen nuevas
normas para la seleccin de caractersticas de referencia NIPS 2003. Pattern Recognition
Letters 28 (2007) 1438-1444.
y el informe tcnico correspondiente:
Isabelle Guyon, et al. 2006. La seleccin de caractersticas con el paquete CLOP. Informe
Tcnico. [Web Link] .

Cita de pedidos:
Isabelle Guyon, Steve R. Gunn, Asa Ben-Hur, Gideon Dror, 2004. Anlisis de los resultados del
desafo de seleccin de caractersticas NIPS 2003. En:. NIPS [Web Link] .
Dresses_Attribute_Sales 2014-02-12
Data Set
Resumen : Este conjunto de datos Atributos de vestidos y sus recomendaciones
contienen de acuerdo a sus sales.Sales estn monitorear en base a das alternos.
Conjunto de datos Nmero de
Texto 501 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de Fecha


N/A 13 19/02/2014
atributo: atributos: Donado

Nmero de
Clasificacin, Valores
Tareas asociadas: S Web 373
Clustering perdidos?
Accesos:

Fuente:
Muhammad Usman y Adeel Ahmed, usman.madspot '@' gmail.com adeel.ahmed92 '@'
gmail.com , la Universidad del Aire, estudiantes de la Universidad del Aire.

Datos Conjunto de Informacin:


Estilo, Precio, Rating, Tamao, Estacin, Escotado, sleevelength, waiseline, Material,
FabricType, Decoracin, Diseo, Tipo, Recomendacin son atributos en el conjunto de
datos.

Atributo de la informacin:
Estilo: etc FabricType: shafoon, dobby, popline, satn, de punto, jersey, franela, pana, etc
Decoracin: apliques, abalorios, arco, botn, en cascada, cristal, cubierto, embroridary,
plumas, flores, etc Tipo de Patrn: slido, animal, punto, leapard etc Recomendacin: 0,1

Documentos pertinentes:
Nulo

Cita de pedidos:
Si usted no tiene ninguna peticin de citas especiales, por favor, deje este campo en blanco.
Los genes de E. coli 2014-02-12
conjunto de datos
Resumen : Los datos que da caractersticas de cada uno (gen potencial) ORF en el
genoma de E. coli. Secuencia, se proporcionan homologa (similitud con otros genes) y la
informacin estructural y la funcin (si se conoce).
Conjunto de datos Nmero de N/
Relacional rea: Vida
Caractersticas: instancias: A

Caractersticas del Nmero de N/ Fecha 2001-


N/A
atributo: atributos: A Donado 07-14

Valores Nmero de
Tareas asociadas: N/A S 16890
perdidos? Web Accesos:

Fuente:
Propietario original y los donantes: Ross D. King Departamento de Ciencias de la
Computacin, Universidad de Gales, Aberystwyth, SY23 3DB, Gales rdk '@' aber.ac.uk
http://users.aber.ac.uk/rdk

Datos Conjunto de Informacin:


Los datos fueron recolectados de varias fuentes, incluyendo GenProtEC ( [Web Link] ) y
SWISSPROT ( [Web Link] ). Estructura de prediccin fue hecha por PROF ( [Web Link] ).
La bsqueda de homologas fue proporcionada por PSI-BLAST ( [Web Link] ). Los datos
estn en formato de registro de datos. Los valores perdidos no son explcitas, pero
algunos genes tienen ms relaciones que otros. E. coli genes (ORF) estn relacionados
entre s por el ecoli_to_ecoli predicado (EcoliNumber, E-valor, Psi-blast_iteration). Se
relacionan con otros (SWISSPROT) las protenas por el e_val predicado (AccNo, E-valor).
Todos los datos de un solo gen (ORF) se encierra entre delimitadores de la forma: .
comenzar (modelo (EcoliNumber)) . final (modelo (EcoliNumber)) Las clases funcionales
de genes estn en una jerarqua. Ver [Web Link] (nota: las clases pueden haber cambiado
desde la recoleccin de datos original). Hay dos archivos de registro de datos:
ecoli_data.pl y ecoli_functions.pl 1. ecoli_functions.pl Listas clases y funciones ORF. Las
lneas son de la siguiente forma: . clase (5,1,1, "funciones relacionadas con Colicina ') .
clase (5,1, 'elementos Lateralmente acquirred') . clase (5, 'Extracromosmica') Los
argumentos son hasta 3 nmeros (que describen la clase de hasta 3 niveles diferentes),
seguido de una descripcin de la clase string. Por ejemplo: . funcin (ecoli210, 7,0,0,
'b0217', 'aminopeptidasa putativo') Argumentos son varios ORF, exactamente 3 nmeros
de clase, el nombre de genes (o Blattner nmero si no el nombre de genes), descripcin
ORF. 2. ecoli_data.pl de datos para cada ORF (gen) est delimitada por comenzar
(modelo (ecoliX)). final (modelo (ecoliX)). donde X es el nmero de ORF. Otros predicados
son los siguientes (ejemplos): ecoli_orf (ecoliX). % X es ORF nmero ecoli_mol_wt
(176624.1). % De flotacin ecoli_theo_pI (5,81). % De flotacin ecoli_atomic_comp (c,
7940). % {C, H, N, O, s}, int ecoli_aliphatic_index (69,57). % De flotacin ecoli_hydro (-
0.549). % De flotante sec_struc (1, C, 2). % Int (inicio), {a, b, c}, int (longitud)
sec_struc_coil (1,2). % Int (inicio), int (longitud) sec_struc_beta (1,5). % Int (inicio), int
(longitud) sec_struc_alpha (1,7). % Int (inicio), int (longitud) sequence_length (255). % Int
amino_acid_ratio (a, 8,9). % Amino_acid_char, flotador amino_acids (ecoli3013, a, 70). %
ORF_num, amino_acid_char, int amino_acid_pair_ratio (A, A, 9,0). % Amino_acid_char,
amino_acid_char, flotar amino_acid_pairs (A, A, 7). % Amino_acid_char, amino_acid_char,
int ecoli_to_ecoli (1170,1.0 e-105, 5). % ORF_num, doble (e-valor), int (iteracin) e_val
(o42893, 2.0e-99). % Accession_number, doble (e-valor) psi_iter (o42893, 5). %
Accession_number, int (iteracin) especie (p52494, 'candida_albicans__yeast_'). %
Accession_number, string mol_wt (p52494, 104022). % Accession_number, int
clasificacin (p52494, cndida). % Accession_number, nombre de palabras clave (p25195,
"plsmido"). % Accession_number, string
Atributo de la informacin:
N/A

Documentos pertinentes:
Rey, R. y Karwath, A. y Clare, A. y Dehaspe, L. (2001). La utilidad de diferentes
representaciones de secuencia de protenas para predecir la clase funcional,
bioinformtica, 17 (5), pginas 445 -. 454 [Web Link]

Documentos que citan este conjunto de datos 1 :


Aik Choon Tan y David Gilbert. An Empirical Comparacin de las tcnicas de aprendizaje
automtico supervisado en Bioinformtica . APBC. 2003. [ Ver Contexto ]. Mukund
Deshpande y George Karypis. Evaluacin de Tcnicas para la clasificacin de secuencias
biolgicas . PAKDD. 2002. [ Ver Contexto ]. Mark A. Hall. Departamento de Ciencias de la
Computacin Hamilton, Nueva Zelandia basada en correlacin Seleccin de
caractersticas para el Aprendizaje de la mquina . Doctor en Filosofa en la Universidad
de Waikato. 1999. [ Ver Contexto ]. Paul Horton y Kenta Nakai. mejor prediccin de la
protena celular Sitios de localizacin con el que k vecinos ms cercanos clasificador .
ISMB. 1997. [ Ver Contexto ]. . Seleccin Prototipo para compuestos Clasificadores vecino
ms cercano . Departamento de Informtica Universidad de Massachusetts. 1997. [ Ver
Contexto ]. Gaurav Marwah y Lois C. Boggess. Artificiales sistemas inmunolgicos para la
clasificacin: algunas cuestiones . Departamento de Ciencias de la Universidad Estatal de
Mississippi ordenador. [ Ver Contexto ]. Lois C. Boggess Andrew Watkins y Jon Timmis y.
Sistema Inmune Artificial Reconocimiento (AIRS): Un ImmuneInspired supervisadas
algoritmo de aprendizaje . (Abw5, jt6@kent.ac.uk) Laboratorio de Computacin de la
Universidad de Kent. [ Ver Contexto ].

Cita de pedidos:
Restricciones de uso:
Derechos de Autor 2000 por RD King, A. Karwath, A. Clare, L. Dehaspe No hay restricciones de
uso de datos. Estos datos se proporcionan "tal cual" y sin ninguna garanta expresa o implcita,
incluyendo, pero sin limitarse a, las garantas implcitas de comerciabilidad y adecuacin para un
propsito en particular. Las solicitudes de citas: Por favor, cite King et al. (2000). Agradecimientos:
Este trabajo fue apoyado por las siguientes subvenciones: G78/6609, BIF08765, GR/L62849 y por
PharmaDM, Ambachtenlaan, 54 / D, B-3001 Leuven, Blgica
Teoras EBL Data Domain 2014-02-12
Set
Resumen : Las teoras de dominio pequea escala surtidos
Conjunto de datos N/ Nmero de N/
rea: Ordenador
Caractersticas: A instancias: A

Caractersticas del N/ Nmero de N/


Fecha Donado N/A
atributo: A atributos: A

N/ Valores N/ Nmero de Web


Tareas asociadas: 7505
A perdidos? A Accesos:

Fuente:
N/A

Datos Conjunto de Informacin:


N/A

Atributo de la informacin:
N/A

Documentos pertinentes:
N/A

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Ecoli Data Set 2014-02-12
Resumen : Esta informacin contiene sitios de localizacin de protenas
Conjunto de datos Nmero de
Multivariante 336 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 1996-


Real 8
atributo: atributos: Donado 09-01

Nmero de
Valores
Tareas asociadas: Clasificacin No Web 69048
perdidos?
Accesos:

Fuente:
Creador y Mantenedor: Kenta Nakai Institue de Biologa Molecular y Celular de Osaka,
Universidad 1-3 Yamada-oka, Suita 565 Japn nakai '@' imcb.osaka-u.ac.jp
http://www.imcb.osaka-u. ac.jp / nakai / psort.html \ Donante: Paul Horton ( PaulH '@'
cs.berkeley.edu ) Ver tambin: base de datos de la levadura

Datos Conjunto de Informacin:


Las referencias siguientes describen un predecesor de este conjunto de datos y su
desarrollo. Tambin dan resultados (no validados) para la clasificacin cruzada por un
sistema experto basado en reglas con la versin del conjunto de datos. Referencia:
"Sytem de Expertos para la prediccin de protenas lugares de localizacin de las
bacterias Gram-negativas", Kenta Nakai y Minoru Kanehisa, PROTENAS : Estructura,
Funcin, y Gentica 11:95-110, 1991. Referencia: "Una base de conocimientos para
predecir la localizacin de los sitios de protenas en clulas eucariotas", Kenta Nakai y
Minoru Kanehisa, Genmica 14:897-911, 1992.

Atributo de la informacin:
1. Nombre de secuencia: nmero de acceso de la base de datos SWISS-PROT
2. mcg: mtodo de McGeoch de reconocimiento secuencia seal.
3. gvh: mtodo de Von Heijne de reconocimiento secuencia seal.
4. labio: peptidasa seal II score secuencia consenso de von Heijne. Atributo binario.
5. var: Presencia de carga en N-terminal de las lipoprotenas predichos. Atributo binario.
6. aac: Puntuacin de anlisis discriminante del contenido de aminocidos de las protenas
de membrana externa y periplsmicos.
7. alm1: Puntuacin de la membrana que abarca el programa de prediccin regin ALOM.
8. alm2: Puntuacin de programa ALOM despus de excluir las regiones de seal
escindibles putativo de la secuencia.

Documentos pertinentes:
Paul Horton y Kenta Nakai. "Un Sistema de Clasificacin probabilstico para predecir los
Sitios Celular localizacin de las protenas". Sistemas Inteligentes de Biologa Molecular,
109-115. St. Louis, EE.UU. 1996. [Web Link]
Documentos que citan este conjunto de datos 1 :
Vassilis Athitsos y Stan Sclaroff. Impulsar Clasificadores vecino ms cercano para el
Reconocimiento multiclase . Universidad de Boston Computer Tech Ciencia. Informe n,
2004-006. 2004. [ Ver Contexto ]. Charles X. Ling y Qiang Yang y Jianning Wang y Zhang
Shichao. Los rboles de decisin con un coste mnimo . ICML. 2004. [ Ver Contexto ].
Xiaoyong Chai y Li Deng y Qiang Yang y Charles X. Ling. Prueba sensibles al coste
Clasificacin Naive Bayes . ICDM. 2004. [ Ver Contexto ]. Aik Choon Tan y David Gilbert.
An Empirical Comparacin de las tcnicas de aprendizaje automtico supervisado en
Bioinformtica . APBC. 2003. [ Ver Contexto ]. Mukund Deshpande y George Karypis.
Evaluacin de Tcnicas para la clasificacin de secuencias biolgicas . PAKDD. 2002. [
Ver Contexto ]. Huajie Zhang y Charles X. Ling. un algoritmo mejorado de aprendizaje
para Nave Bayes aumentado . PAKDD. 2001. [ Ver Contexto ]. Mark A. Hall.
Departamento de Ciencias de la Computacin Hamilton, Nueva Zelandia basada en
correlacin Seleccin de caractersticas para el Aprendizaje de la mquina . Doctor en
Filosofa en la Universidad de Waikato. 1999. [ Ver Contexto ]. Paul Horton y Kenta Nakai.
mejor prediccin de la protena celular Sitios de localizacin con el que k vecinos ms
cercanos clasificador . ISMB. 1997. [ Ver Contexto ]. . Seleccin Prototipo para
compuestos Clasificadores vecino ms cercano . Departamento de Informtica
Universidad de Massachusetts. 1997. [ Ver Contexto ]. Chotirat Ann y Dimitrios Gunopulos.
Ampliacin de la Ingenuo clasificador bayesiano: Utilizacin de rboles de decisin para la
seleccin de caractersticas . Departamento de Ciencias de la Computacin de la
Universidad de California. [ Ver Contexto ]. Lois C. Boggess Andrew Watkins y Jon Timmis
y. Sistema Inmune Artificial Reconocimiento (AIRS): Un ImmuneInspired supervisadas
algoritmo de aprendizaje . (Abw5, jt6@kent.ac.uk) Laboratorio de Computacin de la
Universidad de Kent. [ Ver Contexto ]. Gaurav Marwah y Lois C. Boggess. Artificiales
sistemas inmunolgicos para la clasificacin: algunas cuestiones . Departamento de
Ciencias de la Universidad Estatal de Mississippi ordenador. [ Ver Contexto ].

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Sanciones economicas Data 2014-02-12
Set
Resumen : La teora del dominio de las Sanciones Econmicas; Indocumentados
N
Conjunto de datos Domain- Nmero de
/ rea: Financiero
Caractersticas: Theory instancias:
A

N
Caractersticas del Nmero de Fecha
N/A / N/A
atributo: atributos: Donado
A

N Nmero de
Valores
Tareas asociadas: N/A / Web 19862
perdidos?
A Accesos:

Fuente:
Michael Pazzani Pazzani '@' ICS.UCI.EDU

Datos Conjunto de Informacin:


Creo que usted encontrar alguna documentacin limitada sobre la base de datos de Mike
en sus papeles. Su tesis sera una buena referencia (UCLA). Tal vez las pginas 152-153
en el procedimiento-EWSL 1988 deben ayudar con la comprensin del formato de datos.
Pginas 713-718 de IJCAI-1989 deben ayudar an ms.

Atributo de la informacin:
N/A

Documentos pertinentes:
N/A

Documentos que citan este conjunto de datos 1 :


De Sally Jo Cunningham. Dataset metadatos de catalogacin para las aplicaciones de
aprendizaje automtico y la investigacin . Departamento de Informtica Universidad de
Waikato. [ Ver Contexto ].

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Base de datos de EEG Data 2014-02-12
Set
Resumen : Esta informacin surge de un gran estudio para examinar las correlaciones
EEG de predisposicin gentica al alcoholismo. Contiene medidas de 64 electrodos
colocados en el cuero cabelludo muestreada a 256 Hz
Conjunto de datos Multivariado, Nmero de
122 rea: Vida
Caractersticas: Time-Series instancias:

Caractersticas del Categrico, Nmero de Fecha 1999-


4
atributo: entero, real atributos: Donado 10-13

Nmero de
Valores
Tareas asociadas: N/A S Web 46744
perdidos?
Accesos:

Fuente:
Propietario original: Henri Begleiter Neurodinmico Laboratory, Universidad Estatal de
Nueva York Centro de Salud de Brooklyn, Nueva York Donante: Lester Ingber POB 06440
Torre Sears de Chicago, IL 60606 Ingber '@' ingber.com http://www.ingber.com/

Datos Conjunto de Informacin:


Estos datos se deriva de un gran estudio para examinar las correlaciones EEG de
predisposicin gentica al alcoholismo. . Contiene mediciones de 64 electrodos colocados
en el cuero cabelludo de sujetos que fueron muestreados a 256 Hz (poca de 3,9 ms)
durante 1 segundo Haba dos grupos de sujetos: alcohlico y control. Cada sujeto fue
expuesto a ya sea un nico estmulo (S1) o a dos estmulos (S1 y S2) que eran imgenes
de los objetos seleccionados del Snodgrass y Vanderwart imagen 1980 establecido.
Cuando se mostr que dos estmulos, que se presentaron ya sea en una condicin
adaptada donde S1 es idntica a S2 o en una condicin no-emparejado donde S1 difera
de S2. Aqu se presentan ejemplos de las parcelas de un control ( [Web de enlace] ) y
bebidas alcohlicas ( [Web Link] ) sujetos. Los grficos indican el voltaje, la hora y el canal
y se promedian ms de 10 ensayos para la condicin de estmulo nico. Haba 122 temas
y cada tema completaron 120 ensayos en los que se muestran los diferentes estmulos.
Las posiciones de los electrodos se encuentran en los sitios estndar (Electrodo estndar
Posicin de la nomenclatura, la Asociacin Americana del electroencefalogrfica 1990).
Zhang et al. (1995) describe en detalle el proceso de recoleccin de datos. Hay tres
versiones del conjunto de datos de EEG. 1. El Set Small Data El pequeo conjunto de
datos (smni97_eeg_data.tar.gz) figuran los datos de los 2 sujetos, a_co2a0000364 y
control alcohlica c_co2c0000337. Para cada uno de los 3 paradigmas a juego, c_1 (slo
una presentacin), c_m (partido de presentacin anterior) y C_n (no-match a la
presentacin anterior), se muestran 10 carreras. 2. Los datos de gran conjunto El conjunto
de datos de gran tamao (SMNI_CMI_TRAIN.tar.gz y SMNI_CMI_TEST.tar.gz) contiene
datos de 10 sujetos alcohlicos y 10 de control, con 10 carreras por objeto por paradigma.
Los datos de prueba utilizan los mismos 10 sujetos alcohlicos y 10 de control como con
los datos de entrenamiento, pero con 10 fuera de ejemplo se ejecuta por sujeto por
paradigma. 3. El conjunto completo de datos Este conjunto de datos contiene los 120
juicios por 122 sujetos. El conjunto de datos es de unos 700 MBytes. NOTA: Hay 17
ensayos con archivos vacos en co2c1000367. Algunos ensayos tienen avisos "ERR", por
ejemplo, la bsqueda / grep para "equivocarse" y ver "partido err S2" o "S2 nomatch errar",
etc

Atributo de la informacin:
Cada ensayo se almacena en su propio archivo y aparecer en el siguiente formato. #
co2a0000364.rd # 120 ensayos, 64 Chans, 416 muestras de 368 muestras post_stim #
3.906000 msecs uV # S1 obj, ensayo 0 # FP1 chan 0 0 0 FP1 - 8.921 0 FP1 1 -8.433 -
2.574 0 FP1 2 0 FP1 3 5,239 0 FP1 4 11.587 0 14.028 FP1 5 ... Las primeras cuatro lneas
son informacin de encabezado. La lnea 1 contiene el identificador de objeto e indica si el
sujeto era un alcholic (a) o control (c) sin perjuicio de la cuarta carta. La lnea 4 se
identifican las condiciones que coinciden:. Un solo objeto mostrado (S1 obj), objeto 2 se
muestra en una condicin de coincidencia (match S2), y el objeto 2 se muestra en una
condicin de coincidencia no (S2 nomatch) Lnea 5 identifica el inicio de los datos FP1 de
sensor. Las cuatro columnas de datos son: el nmero de prueba, la posicin del sensor,
nmero de muestra (0-255), y el valor del sensor (en micro voltios).

Documentos pertinentes:
XL Zhang, H. Begleiter, B. Porjesz, W. Wang, y A. Litke. (1995). "potenciales evocados
cognitivos durante las tareas de reconocimiento de objetos." Cerebro Research Bulletin.
Volumen 38. Nmero 6. Pginas 531-538. [Web Link] L. Ingber. (1997). Mecnica
estadstica de las interacciones neocortical: indicadores Momenta cannicas de
electroencefalografa. Physical Review E. Volumen 55. Nmero 4. Pginas 4578-4593.
[Web Link] L. Ingber. (1998). Mecnica estadstica de las interacciones neocortical:
entrenamiento y prueba los indicadores Momenta cannicas de EEG. Matemtica
Computer Modelling. Volumen 27. Nmero 3. Pginas 33-64. [Web Link] JG Snodgrss y M.
Vanderwart. (1980). "Un conjunto estandarizado de 260 fotografas: normas para el
acuerdo de nombramiento, la familiaridad y la complejidad visual." Revista de Psicologa
Experimental: Aprendizaje Humano y Memoria. Volumen 6. Pginas 174-215. [Web Link]
Documentos que citan este conjunto de datos 1 :
Peter Sykacek y Stephen J. Roberts. Clasificacin de adaptacin por Variational Kalman
filtrado . PNI. 2002. [ Ver Contexto ]. Stephen D. Bay y Dennis F. Kibler y Michael J.
Pazzani y Padhraic Smyth. KDD El Archivo de los grandes conjuntos de datos para la
investigacin de minera de datos y Experimentacin UCI . SIGKDD Exploraciones, 2.
2000. [ Ver Contexto ].

Cita de pedidos:
No existen restricciones de uso sobre los datos. Reconocimientos para estos datos deben hecha a
Henri Begleiter en el Laboratorio Neurodinmico en la Universidad Estatal del Centro de Salud de
Nueva York en Brooklyn. Parcelas son cortesa de Roger Gabriel.
EEG estado de ojos Data 2014-02-12
Set
Resumen : El conjunto de datos consta de 14 valores de EEG y un valor que indica el
estado de los ojos.
Multivariante,
Conjunto de datos Nmero de
Secuencial, 14980 rea: Vida
Caractersticas: instancias:
Time-Series

Caractersticas Nmero de Fecha


Entero, real 15 10/06/2013
del atributo: atributos: Donado

Nmero
Valores
Tareas asociadas: Clasificacin N/A de Web 5704
perdidos?
Accesos:

Fuente:
Oliver Roesler, it12148 '@' lehre.dhbw-stuttgart.de , Baden-Wuerttemberg Universidad
Estatal Cooperativo (DHBW), Stuttgart, Alemania

Datos Conjunto de Informacin:


Todos los datos son de una medicin EEG continuo con el Emotiv EEG Neuroheadset. La
duracin de la medicin fue de 117 segundos. Se detect el estado del ojo a travs de una
cmara durante la medicin EEG y aadi ms tarde manualmente al archivo despus de
analizar los fotogramas de vdeo. '1 'Indica que el ojo cerrado y '0' Estado-ojo abierto.
Todos los valores estn en orden cronolgico con el primer valor medido en la parte
superior de los datos.

Atributo de la informacin:
Proporcionar informacin acerca de cada atributo del conjunto de datos.

Documentos pertinentes:
Proporcionar referencias a los documentos que han citado este conjunto de datos en el
pasado (si los hay).

Cita de pedidos:
Si usted no tiene ninguna peticin de citas especiales, por favor, deje este campo en blanco.

El nio Data Set 2014-02-12


Resumen : El conjunto de datos contiene las lecturas oceanogrficos y meteorolgicos
de superficie tomados de una serie de boyas colocadas a lo largo del Pacfico ecuatorial.
Conjunto de datos Espacio- Nmero de
178080 rea: Fsico
Caractersticas: temporal instancias:

Caractersticas del Entero, Nmero de Fecha 1999-


12
atributo: real atributos: Donado 06-30
Nmero de
Valores
Tareas asociadas: N/A S Web 26355
perdidos?
Accesos:

Fuente:
Propietario original: Pacific Marine Environmental Laboratory Administracin Nacional
Ocenica y Atmosfrica del Departamento de Comercio de EE.UU.
http://www.pmel.noaa.gov/ Donante: Dr. Di Cocine Departamento de Estadstica de la
Universidad Estatal de Iowa dicook '@' iastate.edu http:// www.public.iastate.edu/ ~ dicook
/

Datos Conjunto de Informacin:


Estos datos fueron obtenidos con la Atmsfera Tropical Ocean (TAO) de matriz que fue
desarrollado por el programa internacional (TOGA) Ocano Tropical atmsfera global. La
matriz TAO consiste en cerca de 70 boyas fondeadas que abarca el Pacfico ecuatorial,
que mide oceanogrfica y de superficie variables meteorolgicas crticos para mejorar la
deteccin, la comprensin y la prediccin de las variaciones climticas estacionales a
interanuales originarias de los trpicos, sobre todo los relacionados con el fenmeno de El
Nio / Oscilacin del Sur (ENOS) ciclos. Los amarres fueron desarrollados por National
Oceanic and (NOAA) Pacific Marine Environmental Laboratory de la Atmsfera (PMEL).
Cada amarre mide la temperatura del aire, humedad relativa, vientos de superficie, las
temperaturas superficiales del mar y la temperatura del subsuelo a una profundidad de
500 metros y unos pocos de una de las boyas miden las corrientes, las precipitaciones y la
radiacin solar. Los datos de la matriz, y ver las actualizaciones, se pueden ver en la web
en la siguiente direccin. El Nio / Oscilacin del Sur (ENSO) El ciclo de 1982 a 1983, el
ms fuerte del siglo, cre muchos problemas en todo el mundo. Partes del mundo, como
Per y los Estados Unidos experimentaron inundaciones destructivas del aumento de las
precipitaciones, mientras que las reas occidentales del Pacfico experimentaron la sequa
y los incendios de malezas devastadores. El ciclo ENOS no fue predicho ni detecta hasta
que estaba cerca de su pico. Esto pone de relieve la necesidad de un sistema de
observacin de los ocanos (es decir, la matriz TAO) para apoyar los estudios de gran
escala interacciones ocano-atmsfera en escalas de tiempo estacional a interanual. La
matriz TAO proporciona datos en tiempo real para los investigadores del clima, los centros
de prediccin meteorolgica y cientficos de todo el mundo. Previsiones para temperaturas
tropicales del Ocano Pacfico para uno o dos aos de antelacin se pueden hacer
usando los datos del ciclo ENOS. Estos forcasts son posibles debido a las boyas
fondeadas, junto con boyas a la deriva, sondas de temperatura nave voluntario, y
mediciones del nivel del mar. Las preguntas de investigacin de inters como: - Cmo
puede la informacin ser utilizado para predecir las condiciones meteorolgicas en todo el
mundo - Cmo hacer la las variables se relacionan entre s? - Qu variables tienen un
mayor efecto en las variaciones del clima? - La cantidad de movimiento del efecto de la
boya de la fiabilidad de los datos? - Al realizar un anlisis de los datos, se debe prestar
atencin a la posible efecto de autocorrelacin. Utilizando un enfoque de regresin
mltiple para modelar los datos requerira un vistazo a autoregresin ya que las
estadsticas meteorolgicas de los das anteriores afectarn el tiempo de hoy. Los datos
se almacenan en un archivos ASCII con una observacin por lnea. (.) Espacios campos y
perodos separados denotan los valores perdidos. Ms informacin y datos de la matriz
TAO se pueden encontrar en la pgina web los datos de Pacific Marine Environmental
Laboratory TAO: [Web Link] La informacin sobre los datos de la tormenta est disponible
aqu: [Web Link] . Este sitio contiene datos desde enero 1994 a abril 1998 en una lista
cronolgica segn el estado proporcionado por el Servicio Meteorolgico Nacional. Los
datos incluyen los huracanes, tornados, tormentas, granizo, inundaciones, sequas,
tormentas elctricas, fuertes vientos, nieve y temperaturas extremas. datos de seguimiento
de huracanes para el Atlntico est disponible aqu: [Web Link] . El sitio contiene un mapa
que muestra las trayectorias de los huracanes en el Atlntico y tambin incluye los vientos
de tormentas (en nudos), presin (en milibares), y la categora de la tormenta sobre la
base de la escala Saffir-Simpson. Otro sitio de inters relacionados con el ENSO Cyles
est disponible aqu: [Web Link] . Este sitio contiene informacin sobre las doce regiones
del mundo que han demostrado relaciones ENSO-precipitacin. Incluido en el sitio son los
mapas de las reas y parcelas de series de tiempo de precipitacin diaria real y la
precipitacin acumulada normal, para las reas.

Atributo de la informacin:
Los datos consisten en las siguientes variables: fecha, latitud, longitud, vientos zonales
(oeste <0, Medio> 0), vientos meridionales (sur <0, norte> 0), humedad relativa,
temperatura del aire, la temperatura superficial del mar y temperaturas subsuperficiales
hasta una profundidad de 500 metros. Datos tomados de las boyas desde tan temprano
como 1980 para algunas ubicaciones. Otros datos que fueron tomadas en diversos
lugares son la precipitacin, la radiacin solar, los niveles actuales, y las temperaturas
subsuperficiales. La latitud y la longitud de los datos mostraron que las boyas se movan a
diferentes lugares. Los valores de latitud se mantuvieron dentro de un grado de la posicin
aproximada. Sin embargo, los valores de longitud eran a veces hasta cinco grados con
respecto a la ubicacin aproximada. Mirando los datos de viento, tanto de los vientos
zonales y meridionales fluctuaron entre -10 m / s y 10 m / s. La trama de las dos variables
de viento no mostr una relacin lineal. Adems, las parcelas de cada variable viento
contra los otros tres datos meteorolgical no mostraron relaciones lineales. Los valores de
humedad relativa en el Pacfico tropical eran por lo general entre el 70% y el 90%. Tanto la
temperatura del aire y la temperatura superficial del mar fluctuaron entre 20 y 30 grados
Celcius. La trama de las dos variables de temperaturas muestra una relacin lineal positiva
existente. Las dos temperaturas cuando cada uno en funcin del tiempo tambin tienen
diseos de parcelas similares. Los grficos de las otras variables meteorolgicas en contra
de las variables de temperatura no mostraron relacin lineal. Hay valores que faltan en los
datos. Como se mencion anteriormente, no todas las boyas son capaces de medir las
corrientes, las precipitaciones y la radiacin solar, por lo que estos valores estn
perdiendo depende de la boya individual. La cantidad de datos disponibles tambin
depende de la boya, como ciertas boyas se encargaron antes que otros. Todas las
lecturas se tomaron a la misma hora del da.

Documentos pertinentes:
N/A

Documentos que citan este conjunto de datos 1 :


Stephen D. Bay y Dennis F. Kibler y Michael J. Pazzani y Padhraic Smyth. KDD El Archivo
de los grandes conjuntos de datos para la investigacin de minera de datos y
Experimentacin UCI . SIGKDD Exploraciones, 2. 2000. [ Ver Contexto ].

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
EMG conjunto de datos en 2014-02-12
la extremidad inferior del
conjunto de datos
Resumen : 3 ejercicios diferentes: sentados, de pie y caminar en los msculos: bceps
femoral, vasto medial, recto femoral y semitendinoso adicin a goniometra en los
ejercicios.
Conjunto de datos Multivariado, Nmero de
132 rea: Ordenador
Caractersticas: Time-Series instancias:

Caractersticas del Nmero de Fecha 2014-02-


Real 5
atributo: atributos: Donado 05

Nmero de
Valores N/
Tareas asociadas: N/A Web 2375
perdidos? A
Accesos:

Fuente:
Las muestras obtenidas con la ayuda de:
Batalln n de Sanidad (BASAN) Universidad Militar Nueva Granada "Bogot
(muestras de julio de 2012).
Carrera 7 No 52-48, Bogot.
TecnoParque SENA Nodo Manizales (muestras marzo-julio 2013).
Km 10 camino a Magdalena, Manizales. Ph.D Oscar Fernando Snchez Avils oscfer '@'
gmail.com Universidad Militar Nueva Granada Ph.D Jos Luis Rodrguez Sotelo jdw.siul
'@' gmail.com Mg. Marcelo Herrera Gonzales marhego '@' gmail.com Mg. Gustavo Adolfo
Martnez Hernndez gamhet2 '@' gmail.com Universidad Autnoma de Manizales

Datos Conjunto de Informacin:


2. Base de datos de informacin: 2.1. Protocolo: 22 varones, 11 con diferentes anomalas
en la rodilla previamente diagnosticados por un profesional. Se someten a tres
movimientos para analizar el comportamiento asociado con el msculo de la rodilla, la
marcha, extensin de la pierna de una posicin sentada, y la flexin de la pierna. El
proceso de adquisicin se llev a cabo con 4 electrodos (vasto medial, semitendinoso,
bceps femoral y recto femoral) y el gonimetro en la rodilla. 2.2. Instrumentacin equipos
de registro de datos se utiliz MWX8 por biometra de 8 canales digitales y 4 canales
analgicos, 4 de las cuales para el muestreo se utilizaron SEMG y 1 para la goniometra,
estos datos fueron adquiridos directamente a la MWX8 equipo de almacenamiento interno
con tarjetas microSD y transmiten en tiempo real software de registro de datos a travs del
adaptador bluetooth, resolucin de 14 bits y frecuencia de muestreo de 1000Hz. 2.3.
Configuracin de los datos: El nmero total de electrodos es de 4, que corresponde a la de
series temporales para cada canal (1 a 4). Cada serie contiene ~ 5 acciones o repeticiones
de movimiento para cada sujeto.

Atributo de la informacin:
Cada archivo de datos contiene 5 columnas, organizados de la siguiente manera.
Segmento Miembro Inferior
Canal CH1 CH2 CH3 CH4 Ch5
Muscle RF BF VM ST FX
Columna 0 1 2 3 4

Documentos pertinentes:
Proporcionar referencias a los documentos que han citado este conjunto de datos en el
pasado (si los hay).

Cita de pedidos:
Si usted no tiene ninguna peticin de citas especiales, por favor, deje este campo en blanco..

EMG Set Datos de accin 2014-02-12


fsica Conjunto de Datos
esumen : El Conjunto de Datos accin fsica incluye 10 normales y 10 acciones fsicas
agresivas que miden la actividad humana. Los datos han sido recogidos por 4 sujetos
que utilizaron el aparato inalmbrico Delsys EMG.
Conjunto de datos Series de Nmero de
10000 rea: Fsico
Caractersticas: Tiempo instancias:

Caractersticas del Nmero de Fecha 2011-


Real 8
atributo: atributos: Donado 07-27

Nmero de
Valores
Tareas asociadas: Clasificacin N/A Web 24196
perdidos?
Accesos:

Fuente:
Theo Theodoridis
Facultad de Ciencias de la Computacin e Ingeniera Electrnica
de la Universidad de Essex
Wivenhoe Park, Colchester, 3SQ CO4, Reino Unido ttheod '@' gmail.com
http://sites.google.com/site/ttheod/

Datos Conjunto de Informacin:


1. Protocolo:
Tres hombres y un sujetos femeninos (edad de 25 a 30), que han sufrido la agresin en
escenarios
tales como peleas fsicas, particip en el experimento. A lo largo de 20 experimentos
individuales,
cada sujeto tena que realizar diez normal y diez actividades agresivas. En cuanto a los
derechos de los
sujetos involucrados, las regulaciones ticas y medida de seguridad se han seguido
basndose en el cdigo
de tica de la Sociedad Britnica de Psicologa. Las regulaciones explican las
legislaciones ticas
que deben aplicarse cuando se llevan a cabo experimentos con sujetos humanos. De
acuerdo con el experimental
instalacin y las precauciones tomadas, el riesgo final de las lesiones era mnimo. Los
sujetos eran conscientes de
que, dado que su participacin en esta serie de experimentos fue voluntaria, se dej en
claro que
podan retirarse en cualquier momento del estudio. 2. Instrumentacin: La arena robtico
Essex fue la principal sala experimental donde la recoleccin de datos se llev a cabo.
Con zona 4x5.5m, los sujetos manifestaron actividades fsicas agresivas en lugares al
azar. Un profesional del bolso de pie kick-boxing se ha utilizado, 1.75m de altura, con una
figura humana dibujada en su cuerpo. El rendimiento subjects ha sido registrado por
el aparato Delsys EMG, interfaces actividad humana con contracciones mioelctricas.
Basado en este contexto, el proceso de adquisicin de datos involucrado ocho electrodos
de la piel de la superficie colocados en los brazos superiores (bceps y trceps), y las
piernas superiores (muslos y los tendones). 3. Configuracin de los datos: El nmero total
de los electrodos es de 8, que corresponde al 8 de tiempo de entrada serie uno para un
msculo canal (CH1-8). Cada serie temporal contiene ~ 10000 muestras (~ 15 acciones
por cada sesin experimental para cada materia).

Atributo de la informacin:
Cada archivo en el conjunto de datos contiene en total 8 columnas, y est organizado de
la siguiente manera: + --------- + --------------- + ------ --------- + --------------- + --------------- + |
Segmentos | R-Arm | L -Arm | R-Leg | L-Leg | + --------- + ------- + ------- + ------- + ---- --- + --
----- + ------- + ------- + ------- + | Canal | ch1 | CH2 | CH3 | CH4 | ch5 | ch6 | ch7 | ch8 | |
Muscle | R-Bic | R-Tri | L-Bic | L-Tri | R-Thi | R-Ham | L-Thi | L-Ham | | columna | 0 | 1 | 2 | 3
| 4 | 5 | 6 | 7 | + --------- + ------- + ------- + ------- + ------ - + ------- + ------- + ------- + ------- +
Segmento:. Un segmento se define un segmento del cuerpo o de las extremidades - Brazo
derecho (R -Arm) - Brazo izquierdo (L-Arm) - Barra derecha (R-Leg) - Barra izquierda (L-
Leg) Canal:. Un canal corresponde a un electrodo unido a un msculo muscular: Un par de
msculos que se corresponde con una segmento. - R-Bic: bceps derecho (C1) - R-Tri:
trceps derecho (C2) - L-Bic: bceps izquierdo (C3) - L-Tri: trceps izquierdo (C4) - R-Thi:
muslo derecho ( C5) - R-Ham: corva derecha (C6) - L-Thi: muslo izquierdo (C7) - L-Ham:
corva izquierda (C8)

Documentos pertinentes:
N/A

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin

Eficiencia energetica Data 2014-02-12


Set
Resumen : Este estudio observ en la evaluacin de la carga de calefaccin y
refrigeracin de edificios requisitos de carga (es decir, la eficiencia de energa) como una
funcin de los parmetros de construccin.
Conjunto de datos Nmero de
Multivariante 768 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2012-11-


Entero, real 8
atributo: atributos: Donado 30

La Nmero de
Valores N/
Tareas asociadas: clasificacin, Web 25474
perdidos? A
regresin Accesos:

Fuente:
El conjunto de datos fue creada por Angeliki Xifara ( angxifara '@' gmail.com , / Ingeniero
Civil Estructural) y fue procesado por Athanasios Tsanas ( tsanasthanasis '@' gmail.com ,
Centro de Oxford para la Matemtica Industrial y Aplicada de la Universidad de Oxford,
Reino Unido) .

Datos Conjunto de Informacin:


Realizamos anlisis de energa utilizando 12 formas diferentes de edificios simulados en
Ecotect. Los edificios difieren con respecto a la zona de acristalamiento, la zona de
distribucin de acristalamiento, y la orientacin, entre otros parmetros. Simulamos varios
ajustes como funciones de las caractersticas antes mencionadas para obtener 768 formas
de construccin. El conjunto de datos comprende 768 muestras y 8 caractersticas, con el
objetivo de predecir las respuestas de dos valores reales. Tambin se puede utilizar como
un problema de clasificacin multi-clase si la respuesta se redondea al nmero entero ms
cercano.

Atributo de la informacin:
El conjunto de datos contiene ocho atributos (o caractersticas, denotados por X1 ... X8) y
dos respuestas (o resultados, indicados por Y1 e Y2). El objetivo es utilizar las ocho
caractersticas de predecir cada una de las dos respuestas. Especficamente: X1
compacidad relativa Area Superficie X2 X3 rea Muro Area X4 Roof X5 Altura total X6
Orientacin X7 Acristalamiento rea X8 Acristalamiento rea Distribucin y1 Calefaccin
Load Load y2 Refrigeracin

Documentos pertinentes:
A. Tsanas, A. Xifara: estimacin cuantitativa precisa de la eficiencia energtica de los
edificios de viviendas que utilizan estadsticos herramientas de aprendizaje automtico ', la
Energa y Construcciones, vol. 49, pginas 560-567, 2012

Cita de pedidos:
A. Tsanas, A. Xifara: estimacin cuantitativa precisa de la eficiencia energtica de los edificios de
viviendas que utilizan estadsticos herramientas de aprendizaje automtico ', la Energa y
Construcciones, vol. 49, pginas 560-567, 2012 (el documento puede accederse desde [Web Link] )
Para ms detalles sobre la metodologa de anlisis de los datos: A. Tsanas, 'telemonitorizacin
exacta de la enfermedad de gravedad de los sntomas de Parkinson s no lineal utilizando el
procesamiento de seal de voz y el aprendizaje automtico estadstico', D. Phil. tesis de la
Universidad de Oxford, 2012 (al que se accede desde [Web Link] )
Entree Recomendacin 2014-02-12
Chicago de datos Conjunto
de datos
Resumen : Esta informacin contiene un registro de las interacciones del usuario con el
sistema de recomendacin de restaurante Entree Chicago.
Conjunto de datos Transaccional, Nmero de
50672 rea: N/A
Caractersticas: Secuencial instancias:

Caractersticas del Nmero de Fecha 2000-


Categrico N/A
atributo: atributos: Donado 03-09

Nmero de
Recommender- Valores
Tareas asociadas: S Web 24298
Systems perdidos?
Accesos:

Fuente:
Propietario original y los donantes: Robin Burke de la Universidad de California, Irvine
Departamento de Informacin y Ciencias de la Computacin Irvine, CA 92697 Ahora aqu:
http://josquin.cti.depaul.edu/ ~ rburke /

Datos Conjunto de Informacin:


Estos registros de datos interacciones con el sistema Entree Chicago recomendacin de
restaurante (originalmente [Web Link] ) desde septiembre de 1996 hasta abril de 1999. Los
datos se organizan en archivos que abarca ms o menos un ao trimestre -. Con Q3 1996
y Q2 1999 cada uno slo contiene un mes Cada lnea en un archivo de sesin representa
una sesin de la interaccin del usuario con el sistema. Los (separado por tabuladores)
campos son los siguientes: Fecha, punto de entrada IP, Restaurante1 nominal, ...,
Calificacin restaurantN, punto final 1. Punto de entrada: Los usuarios pueden utilizar un
restaurante de cualquier ciudad como un punto de entrada, pero siempre obtener
recomendaciones de restaurantes de Chicago. Por tanto, el punto de entrada permite
encontrar en un universo ms grande de restaurantes que el resto de los datos. Puntos de
entrada tienen la forma nnnX, donde nnn es un restaurante ID numrico y X es un AH
carcter que codifica la ciudad. A = Atlanta Boston B = C = Chicago D = Los Angeles E =
Nueva Orleans F = Nueva York G = San Francisco H = Washington DC 2. Restaurante
nominal: Estos son todos los restaurantes de Chicago. Estas entradas tienen la forma
nnnX, donde nnn es un restaurante ID numrico y X es un LT carcter que codifica la
operacin de navegacin. L = Examinar (traslado de un restaurante en una lista de
recomendaciones a otra ) M = ms barato (bsqueda de un restaurante como ste, pero
ms barato) N = ms agradable ("", pero mejor) O = ms cerca (no utilizado en la versin
de produccin del sistema) P = ms tradicional (bsqueda de un restaurante como este ,
pero que sirve cocina ms tradicional) Q = ms creativo (bsqueda de un restaurante que
sirve cocina ms creativa) R = ms animado (bsqueda de un restaurante con un
ambiente ms animado) S = ms bajo (bsqueda de un restaurante con un ambiente ms
tranquilo) T = cambiar la cocina (la bsqueda de un restaurante como este, pero que sirve
un tipo diferente de comida) Tenga en cuenta que con este truco, que idealmente nos
gustara saber qu tipo de cocina que el usuario quera cambiar, pero esta informacin no
se grab. 3. Punto final: Slo el id numrico para el (Chicago) restaurante que el usuario
vio por ltima vez. En nuestros experimentos, estamos asumiendo que esto era una buena
sugerencia, pero tambin es posible que el usuario slo se da por vencido. Algunos datos
potencialmente tiles se encuentra. En muchos casos, no sabemos el punto de partida, ya
la entrada del usuario una serie de criterios de seleccin (como "de bajo costo mexicana
tradicional"), utilizando datos de un formulario, en lugar de partir de un conocido
restaurante. No se registraron Estas consultas. Esto se denota por un 0 en el campo de
punto de entrada. Algunas de las sesiones no tienen un punto final conocido. Esta se
caracteriza por -1 en el campo de punto final. Adems de las interacciones del usuario,
tambin hay datos que vinculan el ID restaurante con su nombre y caractersticas tales
como "listas fabulosas del vino", "bueno para los nios ms pequeos", y "Ethopian
"cocina. Estos datos se almacenan en la ciudad (por ejemplo, Atlanta, Boston, etc) y se
encuentra en el siguiente formato: Nombre Identificacin restaurante [tab] restaurante
[TAB] restaurante ofrece (3 dgitos identificadores separados por espacios)

Atributo de la informacin:
N/A

Documentos pertinentes:
Burke, R. El Wasabi Personal Shopper: Un sistema de recomendacin basado en casos.
En Actas de la 11 Conferencia Nacional sobre aplicaciones innovadoras de la
Inteligencia Artificial, pginas 844-849. AAAI, 1999. [Web Link] Burke, R. Sistemas de
Recomendacin basados en el conocimiento. Para aparecer en la Enciclopedia de
Biblioteconoma y Documentacin.

Documentos que citan este conjunto de datos 1 :


Zoran Obradovic y Slobodan Vucetic. Desafos en Scientific Data Mining: muestras
heterogneas, sesgadas, y grandes . Centro de Informacin de Ciencia y Tecnologa de la
Universidad de Temple. [ Ver Contexto ].

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Anuncios de granja Data 2014-02-12
Set
Resumen : Esta informacin se recopil a partir de los anuncios de texto que aparecen
en doce sitios web que se ocupan de diversos temas relacionados con los animales de
granja. Las etiquetas binarias se basan en si es o no el propietario del contenido apruebe
el anuncio.
Conjunto de datos Nmero de
Texto 4143 rea: Negocios
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2011-10-


N/A 54877
atributo: atributos: Donado 18

Nmero de
Valores
Tareas asociadas: Clasificacin N/A Web 10745
perdidos?
Accesos:

Fuente:
Chris Mesterharm y Michael J. Pazzani
Rutgers, la Universidad Estatal de Nueva Jersey mesterha '@' cs.rutgers.edu

Datos Conjunto de Informacin:


Estos datos fueron obtenidos a partir de los anuncios de texto que aparecen en doce sitios
web que se ocupan de diversos temas relacionados con los animales de granja.
Informacin de la creatividad del anuncio y de la pgina de destino de anuncios est
incluido. Las etiquetas binarias se basan en si es o no el propietario del contenido apruebe
el anuncio. Para cada anuncio, incluimos las palabras en la creatividad del anuncio y las
palabras de la pgina de destino. Cada palabra de la creatividad se da un prefijo de 'ad-'.
Ttulo y cabecera HTML marcas se destacan de una manera similar en el texto de la
pgina de destino. Ya hemos realizado despalillado y la eliminacin de palabras vacas.
Cada anuncio es en una sola lnea. La primera palabra de la lnea es la etiqueta de la
instancia. Es 1 Anuncios aceptadas y -1 para los anuncios rechazados. Tambin hemos
incluido una sencilla representacin de los datos de la bolsa-de-palabras. Usamos el
formato vectorial escasa SVMlight. El primer valor es la etiqueta seguido por todos los
atributos que no sea cero. Cada uno de estos atributos se codifica como un ndice: el
valor. Esta es la representacin utilizada para el papel relevante citado a continuacin.

Atributo de la informacin:
Palabras de texto en la granja-ads archivo. SVMlight formatear vectores dispersos en el
archivo de la granja-ads-vect.

Documentos pertinentes:
Aprendizaje Activo usando Algoritmos on-line. Chris Mesterharm, Michael J. Pazzani. En
KDD 2011.

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Fertilidad Data Set 2014-02-12
Resumen : 100 voluntarios ofrecen una muestra de semen analizada de acuerdo a los
criterios de la OMS 2010. La concentracin de espermatozoides estn relacionados con
datos socio-demogrficos, factores ambientales, el estado de salud y hbitos de vida
Conjunto de datos Nmero de
Multivariante 100 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de Fecha


Real 10 01/17/2013
atributo: atributos: Donado

La Nmero de
Valores N/
Tareas asociadas: clasificacin, Web 24472
perdidos? A
regresin Accesos:

Fuente:
David Gil, dgil "@" dtic.ua.es , Lucentia Grupo de Investigacin del Departamento de
Tecnologa de Computadores de la Universidad de Alicante Jos Luis Girela, Girela '@'
ua.es , Departamento de Biotecnologa de la Universidad de Alicante

Datos Conjunto de Informacin:


Proporcionar toda la informacin pertinente acerca de su conjunto de datos.

Atributo de la informacin:
Temporada en la que se realiz el anlisis. 1) invierno, 2) la primavera, 3) Verano, 4)
caiga. (-1, -0.33, 0.33, 1) La edad en el momento del anlisis. 18-36 (0, 1) enfermedades
Childish (es decir, la varicela, el sarampin, las paperas, polio) 1) s, 2) no. (0, 1) Accidente
o grave trauma 1) s, 2) no. (0, 1) Intervencin quirrgica 1) s, 2) no. (0, 1) Fiebre alta en
el ltimo ao 1) hace menos de tres meses, 2) hace ms de tres meses, 3) no. (-1, 0, 1) de
frecuencia de consumo de alcohol 1) varias veces al da, 2) todos los das, 3) varias veces
a la semana, 4) una vez por semana, 5) Casi nunca o nunca (0, 1) el hbito de fumar 1)
Nunca, 2) 3 ocasional) diariamente. (-1, 0, 1) Nmero de horas dedicadas sentado por da
eno-16 (0, 1) de la salida: Diagnstico normal (N), alterado (O)

Documentos pertinentes:
David Gil, Jos Luis Girela, Joaqun De Juan, M. Jos Gmez-Torres, y
Magnus Johnsson. Prediccin de la calidad seminal con inteligencia artificial
mtodos. Expert Systems with Applications, 39 (16): 12.564 "12.573 de 2012

Cita de pedidos:
David Gil, Jos Luis Girela, Joaqun De Juan, M. Jos Gmez-Torres, y
Magnus Johnsson. Prediccin de la calidad seminal con inteligencia artificial
mtodos. Expert Systems with Applications, 39 (16): 12.564 "12.573 de 2012
Demostracion de teoremas 2014-02-12
de primer orden Data Set
Resumen : Dado un teorema, predecir cul de los cinco heurstica dar la prueba ms
rpida cuando se usa por un probador de primer orden. Una sexta prediccin se niega a
intentar una prueba, debera ser demasiado difcil teorema.
Conjunto de datos Nmero de
Multivariante 6118 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de Fecha


Real 51 17/04/2013
atributo: atributos: Donado

Nmero de
Valores
Tareas asociadas: Clasificacin N/A Web 5142
perdidos?
Accesos:

Fuente:
James P Bridge, Sean B Holden y Lawrence C Paulson Universidad de Cambridge
Computer Laboratory Building William Gates 15 JJ Thomson avenida Cambridge CB3 0FD
Reino Unido +44 (0) 1223 763 500 nombre.apellido '@' cl.cam.ac.uk

Datos Conjunto de Informacin:


Vea el archivo de puentes holden-Paulson-Details.txt en el tarball presentado.

Atributo de la informacin:
Los atributos son una mezcla de caractersticas estticas y dinmicas derivadas de los
teoremas que ser probadas. Ver el documento para ms detalles.

Documentos pertinentes:
El aprendizaje automtico de primer orden demostracin de teoremas: aprender a
seleccionar una buena heurstica
James P Bridge, Sean B Holden y Lawrence C Paulson
Presentado para su publicacin en el Diario de razonamiento automatizado, Springer
2012/13.

Cita de pedidos:
Por favor, citar el papel si se utiliza este conjunto de datos.
Banderas Data Set 2014-02-12
Resumen : Desde Gua Collins Gem de Banderas, 1986
Conjunto de datos Nmero de
Multivariante 194 rea: N/A
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de Fecha 1990-


30
atributo: Integer atributos: Donado 05-15

Nmero de
Valores
Tareas asociadas: Clasificacin No Web 60914
perdidos?
Accesos:

Fuente:
Creadores: Collected principalmente de la "Gua de Collins Gem de Banderas":. Collins
Publishers (1986) Donante: Richard S. Forsyth 8 Grosvenor Avenida Mapperley Parque
Nottingham NG3 5DX desde 0.602 hasta 621.676

Datos Conjunto de Informacin:


Este archivo de datos contiene detalles de las diversas naciones y sus banderas. En este
archivo de los campos estn separados por espacios (no comas). Con estos datos puedes
probar cosas como la prediccin de la religin de un pas de su tamao y los colores de su
bandera. 10 atributos son numricos valorado. El resto son o bien de Boole o de valor
nominal.

Atributo de la informacin:
1. Nombre: Nombre del pas en cuestin
2. masa de tierra: 1 = N. Amrica, 2 = S.America, 3 = Europa, 4 = frica, 4 = Asia,
Oceana 6 =
3. zona: cuadrante geogrfico, basado en Greenwich y el Ecuador; 1 = NE, 2 = SE, 3 =
SW, NW 4 =
4. rea: en miles de kilmetros cuadrados
5. poblacin: en millones redondas
6. idiomas: 1 = Ingls, 2 = espaoles, franceses, 3 = 4 = 5 = alemn, eslavo, 6 = Otros
indoeuropeas, 7 = 8 = chinos, rabes, 9 = japons / turco / finlandesa / magiares, 10 =
Otros
7. religin: 0 = catlica, 1 = Otro Cristiana, 2 = musulmn, 3 = budista, 4 = Hindu, 5 =
tnicas, 6 = marxista, 7 = Otros
8. barras: Nmero de barras verticales en el pabelln
9. rayas: Nmero de rayas horizontales en la bandera
10. colores: Numero de diferentes colores en la bandera
11. rojo: 0 si est ausente rojo, 1 si el rojo presente en el pabelln
12. verde: lo mismo para el verde
13. azul: lo mismo para el azul
14. oro: lo mismo para el oro (tambin de color amarillo)
15. blanco: lo mismo para el blanco
16. negro: lo mismo para el negro
17. naranja: la misma para la naranja (tambin de color marrn)
18. mainhue: color predominante en la bandera (tie-breaks decidieron tomando el tono
ms alto, si eso no funciona, entonces el tono ms cntrica, y si eso falla el matiz ms a la
izquierda)
19. crculos: El nmero de crculos en el pabelln
20. cruza: Nmero de (vertical) cruza
21. sotueres: Nmero de cruces en diagonal
22. cuartos: Nmero de secciones en cuartos
23. sunstars: Cantidad de sol o estrella smbolos
24. media luna: 1 si un smbolo luna creciente actualidad, si no 0
25. tringulo: 1 si los tringulos presentes, 0 en caso contrario
26. icono: 1 si una imagen inanimada presente (por ejemplo, un barco), de lo contrario 0
27. animar: 1 si una imagen animada (por ejemplo, un guila, un rbol, una mano humana)
presentes, 0 en caso contrario
28. texto: 1 si cualquier carta o escrito en la bandera (por ejemplo, un lema o eslogan), 0
en caso contrario
29. topLeft: color en la esquina superior izquierda (derecho a decidir tie-breaks en
movimiento)
30. botright: El color en la esquina inferior izquierda (moviendo hacia la izquierda para
decidir tie-breaks)

Documentos pertinentes:
Gua del PC / BEAGLE usuario de Forsyth.

Documentos que citan este conjunto de datos 1 :


George H. John y Ron Kohavi y Karl Pfleger. Caractersticas irrelevante y el problema de
la seleccin de subconjuntos . ICML. 1994. [ Ver Contexto ]. Kohavi Ron y George H. John
y Richard Long y David Manley y Karl Pfleger. MLC + +: Una Biblioteca Aprendizaje
Automtico en C ICTAI.. 1994. [ Ver Contexto ]. Wl / odzisl / aw Duch y Karol Grudzi nski y
Grzegorz Stawski. CARACTERSTICAS simblico en redes neuronales . Departamento de
Mtodos Computacionales, Universidad Nicolaus Copernicus. [ Ver Contexto ].

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Incendios forestales Data 2014-02-12
Set
Resumen : Se trata de una tarea difcil de regresin, donde el objetivo es predecir el
rea quemada de los incendios forestales, en la regin noreste de Portugal, mediante el
uso de datos meteorolgicos y otros (ver detalles en: [Web Link] ).
Conjunto de datos Nmero de
Multivariante 517 rea: Fsico
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2008-


Real 13
atributo: atributos: Donado 02-29

Nmero de
Valores N/
Tareas asociadas: Regresin Web 152418
perdidos? A
Accesos:

Fuente:
Paulo Cortez, pcortez '@' dsi.uminho.pt , Departamento de Sistemas de Informacin de la
Universidad de Minho, Portugal.
Anbal Morais, araimorais '@' gmail.com , Departamento de Sistemas de Informacin de
la Universidad de Minho, Portugal.

Datos Conjunto de Informacin:


En [Cortez y Morais, 2007], la salida de "rea" se transform por primera vez con una
funcin ln (x +1).
Luego, se aplicaron varios mtodos de minera de datos. Despus de ajustar los
modelos, las salidas fueron
post-procesadas con la inversa del ln (x +1) transformar. Fueron cuatro configuraciones
diferentes de entrada
utilizados. Los experimentos se llevaron a cabo utilizando un 10 veces (validacin
cruzada) x 30 carreras. Dos
se midieron parmetros de regresin: MAD y RMSE. Una mquina de vectores de
soporte de Gauss (SVM) alimentado
con slo 4 condiciones meteorolgicas directas (temperatura, humedad relativa, viento y
lluvia) obtenido el mejor valor MAD:
12,71 + - 0,01 (media e intervalo de confianza del 95% en el uso de una distribucin t-
student). El
mejor RMSE se alcanz por el predictor media ingenua. Un anlisis de la curva de error
de regresin
(REC) muestra que el modelo SVM predice ms ejemplos dentro de un error menor
admitido. En efecto,
el modelo de SVM predice mejor los incendios pequeos, que son la mayora.

Atributo de la informacin:
Para obtener ms informacin, lea [Cortez y Morais, 2007].
1. X - x-eje espacial de coordenadas en el mapa del parque de Montesinho: 1 a 9
2. Y - eje y coordenada espacial dentro del mapa del parque de Montesinho: 2 a 9
3. mes - mes del ao: 'enero' hasta 'diciembre'
4. da - da de la semana: mon al 'sol'
5. ndice FFMC del sistema FWI - FFMC: 18,7 a 96,20
6. ndice DMC del sistema FWI - DMC: 1,1 a 291,3
7. ndice de CC del sistema FWI - DC: 7,9 a 860,6
8. ndice ISI del sistema FWI - ISI: 0,0 a 56,10
9. temp - la temperatura en grados Celsius: 2,2 a 33,30
10. RH - humedad relativa en%: 15,0 a 100
11. viento - Velocidad del viento en km / h: 0,40 a 9,40
12. lluvia - lluvia fuera en mm/m2: 0,0-6,4
13. rea - la zona quemada del bosque (en ha): 0,00-1.090,84
(esta variable de salida est muy sesgada hacia 0.0, por lo que puede hacer
sentido de modelar con el logaritmo transformar).

Documentos pertinentes:
[Cortez y Morais, 2007] P. Corts y A. Morais. Un enfoque de minera de datos para
predecir los incendios forestales utilizando datos meteorolgicos. En J. Neves, MF
Santos y J. Machado Eds, Nuevas tendencias en Inteligencia Artificial, Actas de la EPIA
13 de 2007 -. Conferencia portugus sobre Inteligencia Artificial, de diciembre de
Guimares, Portugal, pp 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Disponible
en: [Web Link]

Cita de pedidos:
Este conjunto de datos es pblica disponibles para la investigacin. . Los detalles se
describen en [Cortez y Morais, 2007]
Por favor, incluya esta cita si tiene previsto utilizar esta base de datos:
[Cortez y Morais, 2007] P. Corts y A. Morais. Un enfoque de minera de datos para
predecir los incendios forestales utilizando datos meteorolgicos. En J. Neves, MF
Santos y J. Machado Eds, Nuevas tendencias en Inteligencia Artificial, Actas de la EPIA
13 de 2007 -. Conferencia portugus sobre Inteligencia Artificial, de diciembre de
Guimares, Portugal, pp 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Disponible
en: [Web Link]
Funcion de investigacion 2014-02-12
Data Set
Resumen : Los casos recogidos en su mayora de las investigaciones en las ciencias
fsicas, la intencin es evaluar los algoritmos de funcin exploratorias
Conjunto de datos Nmero de
N/A 352 rea: Fsico
Caractersticas: instancias:

Caractersticas del Nmero de N/ Fecha 1990-


Real
atributo: atributos: A Donado 09-01

Nmero de
Funcin- Valores
Tareas asociadas: No Web 15508
Learning perdidos?
Accesos:

Fuente:
Donante: Cullen Schaffer Departamento de Ciencias de la Computacin de la Universidad
de Rutgers, New Brunswick, NJ 08903 schaffer '@' paul.rutgers.edu Fuente: . Cullen
Schaffer, Domain-Independiente de Investigacin Cientfica Funcin Tesis doctoral,
Departamento de Ciencias de la Computacin de la Universidad de Rutgers, 1990
(Technical Informe LCSR-TR-149).

Datos Conjunto de Informacin:


[Por favor, tenga en cuenta el uso del formato Latex aqu para expresiones
algebraicas. Ver Leslie Lamport, ltex: un sistema de preparacin de documentos,
Addison-Wesley, 1986 para ms detalles]. Esta base de datos contiene 352 conjuntos de
datos numricos de dos variables recogidas de diversas fuentes y que resultan, con
algunas excepciones, de las investigaciones en las ciencias fsicas. Para cada conjunto de
datos, la coleccin incluye: 1. Fuente: Informacin bibliogrfica de la fuente de los
datos. 2. Descripcin: Identificacin de las variables $ x $ y $ y $. Excepto en algunos
casos claramente identificados, se emplea el formato abreviado $ y $ vs $ x $.Una entrada
del formulario Descripcin:. Fuerza vs separacin indica que $ x $ es una separacin y $ y
$ es una fuerza. En algunos casos - cuando la informacin estaba disponible -. La
descripcin tambin incluye las unidades en las que los datos se inform
originalmente 3. Relacin de referencia: La relacin funcional propuesta por el cientfico de
informes en la fuente original. 4. Comentarios (opcional): Informacin adicional sobre el
caso. En la grabacin de las relaciones de referencia, la base de datos a menudo omite
detalles de valores de parmetros. Si un cientfico propone $ y = 23.1x-0.0014 $, la
relacin de referencia se puede administrar como slo $ y = k_ {1} x + {2} k_ $. Adems,
dado que las transformaciones algebraicas se han empleado libremente, la misma relacin
se podra dar como $ y / x = {2} k_ / x + k_ {1} $. Por lo general, los datos aqu recogidos
se da en su totalidad, ya que apareci en el fuente original. Las fracciones que han sido
convertidos a decimales, los nmeros se han traducido libremente hacia y desde la
notacin cientfica y ceros en ocasiones, se han aadido nmeros decimales para facilitar
la tabulacin. Las desviaciones adicionales de transcripcin literal se anotan en la entrada
Comentarios del caso asociado. Tenga en cuenta, en particular, que, en algunos casos
claramente identificados, aparentes errores tipogrficos han sido corregidos y que, en
otros, los puntos de datos identificados por el cientfico de informes como * no * es
conforme a la relacin propuesta, se han omitido.

Atributo de la informacin:
N/A

Documentos pertinentes:
Cullen Schaffer, "Un cientfico Funcin de Investigacin Algoritmo Dominio Independiente
probada", en AAAI-90. [Web Link]
Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Conjunto de sensores de
gas Drift Data Set
Resumen : Este archivo contiene 13.910 mediciones de 16 sensores qumicos utilizados
en las simulaciones para la compensacin de deriva en una tarea de discriminacin de
los 6 gases en varios niveles de concentraciones.
Conjunto de datos Nmero de
Multivariante 13910 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2012-04-


Real 128
atributo: atributos: Donado 25

Nmero de
Valores
Tareas asociadas: Clasificacin N/A Web 68511
perdidos?
Accesos:

Fuente:
Creadores: Alexander Vergara ( vergara '@' ucsd.edu )
BioCircutis Institute
de la Universidad de California en San Diego
San Diego, California, EE.UU.
Los donantes del conjunto de datos: Alexander Vergara ( vergara '@' ucsd.edu )
Ramn Huerta ( rhuerta '@' ucsd . edu )

Datos Conjunto de Informacin:


Este archivo contiene 13.910 mediciones de 16 sensores qumicos utilizados en
simulaciones para la compensacin de la desviacin en una tarea de discriminacin de los
6 gases en varios niveles de concentraciones. El objetivo es lograr un buen rendimiento (o
tan bajo como sea posible degradacin) con el tiempo, segn se informa en el documento
mencionado en la Seccin 2: Recoleccin de datos. El objetivo principal es proporcionar
este conjunto de datos es para que sea de libre acceso en lnea a la comunidad de
investigacin quimio-sensores y la inteligencia artificial desarrollar estrategias para hacer
frente a los sensores / concepto de deriva. El conjunto de datos se puede utilizar
exclusivamente para fines de investigacin. Propsitos comerciales estn totalmente
excluidos.
El conjunto de datos se obtuvo dentro de 01 2007 hasta febrero 2011 (36 meses) en un
centro de la plataforma de distribucin de gas situada en el Laboratorio de seales
qumicas en el Instituto BioCircuits de la Universidad de California San Diego. Estando
completamente operado por un entorno totalmente informatizado "controlado por un
LabVIEW " software de National Instruments en un PC equipado con las tarjetas de
adquisicin de datos en serie apropiadas. La plataforma del sistema de medicin
proporciona versatilidad para obtener las concentraciones deseadas de las sustancias
qumicas de inters con alta precisin y de una manera altamente reproducible,
minimizando as los errores comunes causadas por la intervencin humana y por lo que es
posible concentrarse exclusivamente en los sensores qumicos para compensar verdadera
la deriva.
El conjunto de datos resultante comprende grabaciones de seis sustancias gaseosas
puras distintas, a saber, amonaco, acetaldehdo, acetona, etileno, etanol, y tolueno, cada
dosificado a una amplia variedad de valores de concentracin que varan de 5 a 1000
ppmv. Vanse los cuadros 1 y 2 del citado manuscrito debajo para ms detalles sobre el
nombre de identidad de gas, los valores de concentracin, y la secuencia de la distribucin
del tiempo de las grabaciones de medicin considerados en este conjunto de
datos. Batch10.dat se actualiz el 10/14/2013 para corregir algunos valores corruptos en
los ltimos 120 lneas del archivo.
Atributo de la informacin:
La respuesta de dichos sensores se lee de salida en la forma de la resistencia a travs de
la capa activa de cada sensor, por lo que cada medicin produjo una serie de tiempo de
16 canales, cada uno de los cuales representa por un conjunto de caractersticas que
reflejan todos los procesos dinmicos que se producen en la superficie del sensor en
reaccin a la sustancia qumica que se est evaluando. En particular, se consideran dos
tipos distintos de caractersticas en la creacin de este conjunto de datos: (i) La llamada
funcin de estado estacionario (R I "), definido como la diferencia de la variacin de la
resistencia mxima y la lnea de base y su versin normalizada expresado por la relacin
de la resistencia mxima y los valores de lnea de base cuando el vapor qumico est
presente en la cmara de prueba. Y (II), un agregado de caractersticas que reflejan la
dinmica del sensor de la parte de transicin creciente / descomposicin de la respuesta
del sensor durante todo el procedimiento de medicin en condiciones controladas, a saber,
la media mvil exponencial (EMAI ). Estos agregados de caractersticas es una
transformacin, tomado del campo de la econometra originalmente introducidos a la
comunidad quimio-deteccin por Muezzinoglu et al. (2009), que convierte dicha porcin
transitoria en un escalar real, mediante la estimacin del valor mximo "mnimo para la
parte decadente del sensor duraderaa " de su media mvil exponencial (EMAI ), con
una condicin inicial establecido para cero y un parmetro de suavizado escalar del
operador, , que define tanto la calidad de la caracterstica y el momento de su
ocurrencia a lo largo de la serie de tiempo el escalar, establecer un rango de entre 0 y
1. En particular, tres valores diferentes para i se establecieron para obtener tres valores
de caractersticas diferentes a partir de la porcin ascendente pre-grabado de la respuesta
del sensor y tres caractersticas adicionales con el mismo valores, pero para la porcin
de decaimiento de la respuesta del sensor, cubriendo as toda la dinmica de respuesta
del sensor. Para un anlisis ms detallado y discusin de estas caractersticas, as como
una ilustracin grfica de ellos por favor refirase a la seccin 2.3 y en la Figura 2,
respectivamente, del manuscrito anotado.
Una vez que se calculan las caractersticas antes mencionadas, se trata de formar un
vector de caractersticas que contiene el 8 caractersticas extradas de cada sensor en
particular multiplicado por los sensores 16 que aqu se consideran. Al final, el vector de
caractersticas 128-dimensional resultante que contiene todas las caractersticas que se
indica ms arriba (8 cuenta con un-16 sensores) se organiza de la siguiente manera:
i "R_1, | " R | _1, EMAi0.001_1, EMAi0.01_1, EMAi0 0,1 _1, EMAd0.001_1, EMAd0.01_1,
EMAd0.1_1, "R_2, | " R | _2, EMAi0.001_2, EMAi0.01_2, EMAi0.1_2, EMAd0.001_2,
EMAd0.01_2, EMAd0.1_2, ..., "R_16, | " R | _16, EMAi0.001_16, EMAi0.01_16,
EMAi0.1_16, EMAd0.001_16, EMAd0.01_16, EMAd0.1_16, donde: OEI "R_1 ? y
| "R | _1a ? es la "R y el normalizado" destaco R, respectivamente,
EMAi0.001_1 ?, EMAi0.01_1 ?, y EMAi0.1_1 ?, el emai del
transitorio en aumento parte de la respuesta del sensor de es igual a 0,001, 0,01 y 0,1,
respectivamente, y EMAd0.001_1 ?, EMAd0.01_1 ?, y EMAd0.1_1
?, el emai de la parte transitoria de decaimiento de la respuesta del sensor de es
igual a 0,001, 0,01 y 0,1, respectivamente, todo ello correspondiente al sensor n 1,
OEI "R_2 ? y | "R | _2 ? es la "R y el normalizado" destaco R,
respectivamente, EMAi0.001_2 ?, EMAi0.01_2 ?, y EMAi0.1_2 ?,
el emai del transitorio en aumento parte de la respuesta del sensor de es igual a
0,001, 0,01 y 0,1, respectivamente, y EMAd0.001_2 ?, EMAd0.01_2 ?, y
EMAd0.1_2 ?, el emai de la parte transitoria de decaimiento de la respuesta del
sensor para i es igual a 0,001, 0,01, y 0,1, respectivamente, todo ello correspondiente al
sensor # 2, y as sucesivamente hasta el sensor # 16, formando de este modo el vector de
caractersticas 128-dimensional que es que ser trada a los clasificadores para la
formacin. Para fines de procesamiento, los datos se organiza en diez lotes, cada uno que
contiene el nmero de mediciones por clase y mes indicados en la tabla siguiente. Esta
reorganizacin de los datos se hizo para asegurar que tiene una adecuada y lo distribuye
uniformemente posible nmero de experimentos en cada clase y el mes cuando se
entrena el clasificador. Dataset detalles de la organizacin. Cada fila corresponde a meses
que se combinaron para formar un lote: ID de lote Mes identificadores de lote 1 Meses 1 y
2 lotes 2 Meses 3, 4, 8, 9 y 10 lotes 3 Meses 11, 12, y 13 por lotes 4 Meses 14 y 15 Lote 5
Mes 16 lotes 6 Meses 17, 18, 19, y 20 lotes 7 Mes 21 lotes 8 Meses 22 y 23 por lotes 9
Meses 24 y 30 lotes 10 Mes 36 El formato de datos sigue el mismo estilo de codificacin
como en libsvm, en el que uno indica la clase de cada punto de datos pertenece a (1:
Etanol; 2: El etileno; 3: amonaco; 4: El acetaldehdo; 5: Acetona; 6: tolueno), y, a
continuacin, la coleccin de caractersticas en un formato de x: v, donde x representa el
nmero de funcin y V para el valor real de la caracterstica. Por ejemplo, en 1
1:15596.162100 2:1.868245 3:2.371604 4:2.803678 5:7.512213 | 128: -2.654529 El
nmero 1 ? representa el nmero de la clase (en este caso etanol), mientras que
los 128 restantes columnas muestran los valores reales de caractersticas para cada
grabacin medicin organizado como se describe anteriormente. Por ltimo, para que los
resultados presentados en el artculo asociado reproducible para el lector, por favor, utilice
el siguientes valores de los parmetros en la tarea de formacin: pliegues: 10
log2c = -5, 10, 1 log2g = -10, 5, 1 Escala las caractersticas en el conjunto de
entrenamiento adecuada a yacen entre . -1 y 1 Y utilizar los siguientes parmetros
de validacin cruzada: lotes C Gamma ( ) Tasa de 1 256,0 0,03125 98,8764 2 64.0
0.00390625 99.7588 3 128,0 0,03125 100,0 4 100,0 1,0 0,25 5 2,0 0.015625 99.4924 6
256,0 0,0009765625 99.5217 7 64.0 0.0625 99.9723 8 1.024,0 0.0078125 99.6599 9 2.0
0.00390625 100.0

Documentos pertinentes:
N/A

Cita de pedidos:
Para citar este artculo:
Alexander Vergara y Shankar Vembu y Tuba Ayhan y Margaret A. Ryan y Margie L.
Homero y Ramn Huerta, gas qumico sensor de compensacin de deriva utilizando
conjuntos de clasificadores, Sensors and Actuators B: Qumica (2012) doi: 10.1016/j.snb
.2012.01.074.
Conjunto de sensores de 23/10/2013
gas Drift Dataset a
diferentes concentraciones
Dataset
Resumen:
Este archivo contiene 13.910 mediciones de 16 sensores qumicos expuestos a 6 gases
diferentes a diferentes niveles de concentracin.
Caractersticas Multivariado,
Nmero de
del Conjunto de 13910 rea: ordenador
instancias:
datos: Time-Series

Caractersticas Nmero de Fecha de


Real 129 23/10/2013
del atributo: atributos: Donacin

clasificacin,
Nmero de
Tareas regresin, Valores
N/A accesos 6720
asociadas: clustering, perdidos?
Web:
Causa

Fuente:
Creadores: Alexander Vergara (Vergara '@' ucsd.edu)
BioCircutis Instituto
Universidad de California en San Diego
San Diego, California, EE.UU.
Los donantes del conjunto de datos:
Alejandro Vergara (Vergara '@' ucsd.edu)
Jordi Fonollosa (Fonollosa '@' ucsd.edu)
Irene Rodrguez-Lujan (irrodriguezlujan '@' ucsd.edu)
Ramn Huerta (rhuerta '@' ucsd.edu)

Datos Conjunto de Informacin :

Este conjunto de datos contiene 13.910 mediciones de 16 sensores qumicos expuestos a


6 gases a diferentes niveles de concentracin. Este conjunto de datos es una extensin de
la matriz de sensores de gas Drift conjunto de datos ([Web Link]), que proporciona ahora
la informacin sobre el nivel de concentracin en la que los sensores estaban expuestos
para cada medicin. El propsito principal de hacer este conjunto de datos libremente
accesibles en lnea es ofrecer un amplio conjunto de datos para el sensor y las
comunidades de investigacin de inteligencia artificial para desarrollar y probar estrategias
para resolver una amplia variedad de tareas, incluyendo la deriva del sensor , clasificacin,
regresin , entre otros.

El conjunto de datos se puede utilizar exclusivamente para fines de investigacin. Fines


comerciales estn totalmente excluidos. La citacin de ambos Vergara et al. Sensor de
compensacin de gas qumico corrimiento utilizando conjuntos de clasificadores ' y
Rodrguez- Lujn et al. On la calibracin de matrices de sensores para el
reconocimiento de patrones usando el nmero mnimo de experiments ?? Se requiere
(vase ms adelante).

El conjunto de datos se obtuvo durante el perodo de enero 2008 hasta 02 2011 (36
meses) en una instalacin de la plataforma de distribucin de gas situada en el Laboratorio
de seales qumicas en el Instituto BioCircuits de la Universidad de California San Diego.
La plataforma del sistema de medicin proporciona versatilidad para obtener las
concentraciones deseadas de las sustancias qumicas de inters con alta precisin y de
una manera altamente reproducible, minimizando as los errores comunes causados por la
intervencin humana y por lo que es posible concentrarse exclusivamente en los sensores
qumicos. Vase la referencia 1 para ms detalles sobre la configuracin experimental.

El conjunto de datos resultante comprende grabaciones de seis sustancias distintas puros


gaseosos , a saber, amonaco , acetaldehdo, acetona, etileno , etanol , y tolueno ,
dosificado a una amplia variedad de niveles de concentracin en los intervalos ( 50,1000 )
, ( 5500 ) , ( 12 , 1000 ) , ( 10.300 ) , ( 10.600 ) , y ( 10.100 ) ppmv , respectivamente .

Atributo de la informacin:

Las respuestas de dichos sensores se leen en forma de la resistencia a travs de la capa


activa de cada sensor; por lo tanto, cada medicin produjo una serie de tiempo de 16
canales , cada uno representado por un conjunto de caractersticas que reflejan los
procesos dinmicos que se producen en la superficie del sensor en reaccin a la sustancia
qumica que se est evaluando . En particular , se consideran dos tipos distintos de
caractersticas en la creacin de este conjunto de datos : ( i ) la llamada funcin de estado
estacionario ( DR ) , que se define como el cambio de resistencia mxima con respecto a
la lnea de base y su versin normalizada DR ( DR dividido por el valor adquirido cuando el
vapor qumico est presente en la cmara de prueba ) . Y (II ) , un agregado de
caractersticas que reflejan la dinmica del sensor de la parte de transicin creciente /
descomposicin de la respuesta del sensor durante toda la medicin . Este conjunto de
caractersticas es una transformacin , tomado del campo de la econometra y
originalmente presentado a la comunidad quimio -deteccin por Muezzinoglu et al. ( 2009 )
, que convierte la parte transitoria de la respuesta del sensor en un escalar real por la
estimacin del valor mximo / mnimo y [k ] para el aumento / descomposicin porcin de
la media mvil exponencial de la respuesta del sensor :

y [k ] = ( 1 - Alfa ) y [k - 1 ] + Alfa ( R [ k ] - R [ k - 1 ] )

en donde R [ k ] es la resistencia del sensor medido en el instante k y Alfa es un parmetro


de suavizado escalar entre 0 y 1 .

En particular , tres valores diferentes para Alfa = 0,1 , 0,01 , 0,001 se establecieron para
obtener tres valores de caractersticas diferentes a partir de la porcin ascendente de la
respuesta del sensor y tres caractersticas adicionales con los mismos valores Alfa para la
porcin de decaimiento de la respuesta del sensor , cubriendo as toda la dinmica de
respuesta del sensor .

Por lo tanto , cada vector de caractersticas contiene las 8 caractersticas extradas de


cada sensor en particular , lo que resulta en un vector de caracterstica de 128
dimensiones ( 8 caractersticas x 16 sensores ) que contiene todas las caractersticas y
organizan de la siguiente manera :
DR_1 , | DR | _1 , EMAi0.001_1 , EMAi0.01_1 , EMAi0.1_1 , EMAd0.001_1 , EMAd0.01_1
, EMAd0.1_1 , DR_2 , | DR | _2 , EMAi0.001_2 , EMAi0.01_2 , EMAi0.1_2 , EMAd0.001_2
, EMAd0.01_2 , EMAd0.1_2 , ..., DR_16 , | DR | _16 , EMAi0.001_16 , EMAi0.01_16 ,
EMAi0.1_16 , EMAd0.001_16 , EMAd0.01_16 , EMAd0.1_16
donde: y DR_j | DR | _j son el R y las caractersticas de I normalizados , respectivamente.
EMAi0.001_j , EMAi0.01_j y EMAi0.1_j , son los Emar de la parte transitoria de subida de
la respuesta del sensor para Alfa 0,001, 0,01 y 0,1 , respectivamente. EMAd0.001_j ,
EMAd0.01_j y EMAd0.1_j , son Emar de la parte transitoria de decaimiento de la respuesta
del sensor para Alfa 0,001, 0,01 y 0,1 , respectivamente. El ndice j = 1 | 16 representa
el nmero del sensor , formando as el vector de caracterstica de 128 dimensiones .

A efectos de procesamiento , el conjunto de datos est organizado en diez lotes , cada


uno que contiene el nmero de mediciones por clase y mes indicados en las tablas
siguientes . Esta reorganizacin de los datos se hizo para asegurar que tiene una
adecuada y lo distribuye uniformemente posible nmero de experimentos en cada lote.

ID de lote Mes IDs


Lotes 1 Meses 1 y 2
Lote 2 Meses 3 , 4 , 8 , 9 y 10
Lote 3 Meses 11 , 12 , y 13
Lote 4 Meses 14 y 15
Lote 5 meses 16
Lote 6 Meses 17 , 18, 19 , y 20
Lote 7 meses 21
Lote 8 Meses 22 y 23
Lote 9 Meses 24 y 30
Lote 10 meses 36

Identificacin de lote : etanol , etileno , amonaco , acetaldehdo , acetona, tolueno


Lote 1 : 83, 30 , 70, 98 , 90, 74
Lote 2 : 100 , 109 , 532 , 334 , 164 , 5
Lote 3 : 216 , 240 , 275 , 490 , 365 , 0
Lote 4 : 12, 30 , 12, 43 , 64, 0
Lote 5 : 20 , 46, 63 , 40, 28 , 0
Lote 6 : 110, 29 , 606, 574, 514, 467
Lote 7 : 360, 744, 630, 662, 649, 568
Lote 8 : 40 , 33 , 143 , 30 , 30 , 18
Lote 9 : 100, 75 , 78, 55 , 61, 101
Lote 10 : 600 , 600 , 600 , 600 , 600 , 600

El conjunto de datos est organizada en archivos, cada uno representando un lote


diferente . Dentro de los archivos , cada lnea representa una medicin. El primero de
caracteres ( 1-6 ) cdigos del analito , seguido por el nivel de concentracin :

1 : El etanol ; 2 : El etileno ; 3 : El amonaco ; 4 : El acetaldehdo ; 5 : acetona; 6 : El


tolueno

El formato de datos sigue el mismo estilo de codificacin como en formato libsvm x : v,


donde x representa el nmero de funcin y V para el valor real de la caracterstica . Por
ejemplo , en
1 ; 10,000000 1:15596.162100 2:1.868245 3:2.371604 4:2.803678 5:7.512213 | 128: -
2.654529

El nmero 1 representa el nmero de clase (en este caso el etanol ) , el nivel de


concentracin de gas era 10ppmv , y los 128 restantes columnas muestran los valores
reales de caractersticas para cada grabacin medicin organizado como se describe
anteriormente .

Documentos pertinentes:

N/A

Cita de pedidos:

La citacin de ambos documentos se requiere :

Alejandro Vergara y Shankar Vembu y Tuba Ayhan y Margaret A. Ryan y Margie L. Homer
y Ramn Huerta , gas qumico sensor de compensacin de deriva utilizando conjuntos de
clasificadores , Sensor and Actuators B: Qumica 166 ( 2012 ) 320-329 . doi :
10.1016/j.snb.2012.01.074 .

Irene Rodrguez - Lujn, Jordi Fonollosa, Alejandro Vergara, Margie Homer, Ramn
Huerta. En la calibracin de los conjuntos de sensores para el reconocimiento de patrones
usando el nmero mnimo de experimentos. Quimiometra y Sistemas Inteligentes de
laboratorio (2013) en la prensa.

Conjuntos de sensores de gas 06/05/2013


en la configuracin de muestreo
conjunto abierto de datos
Resumen:
El conjunto de datos contiene 18.000 grabaciones de series de tiempo a partir de una
plataforma de deteccin qumica en seis lugares diferentes en una instalacin de tnel de
viento, en respuesta a las diez sustancias gaseosas qumicas de alta prioridad.
Caractersticas Multivariado,
Nmero de
del Conjunto de 18000 rea: ordenador
instancias:
datos: Time-Series

Caractersticas Nmero de Fecha de


Real 1950000 06/05/2013
del atributo: atributos: Donacin

Nmero de
Tareas Valores
Clasificacin, N/A accesos 7183
asociadas: perdidos?
Web:

Fuente:

Creadores:
Alejandro Vergara (vergara '@' ucsd.edu)
BioCircutis Instituto
Universidad de California en San Diego
San Diego, California, EE.UU.

Los donantes del conjunto de datos:


Alejandro Vergara (vergara '@' ucsd.edu)
Jordi Fonollosa (Fonollosa '@' ucsd.edu)
Marco Trincavelli (marco.trincavelli '@' oru.se)
Nikolai F. Rulkov (nrulkov '@' ucsd.edu)
Ramn Huerta (rhuerta '@' ucsd.edu)

Datos Conjunto de Informacin :


Nmero de casos :
Mediciones de 18.000 veces de la serie grabados desde una plataforma de deteccin
qumica basada en matrices 72 sensor de gas de xido metlico .

Nmero de atributos (caractersticas) :


Cada medida contiene 72 series de tiempo registrados durante 260 segundos , cada
recogida a una frecuencia de muestreo de 100 Hz ( muestras por segundo ) .
El conjunto de datos tambin contiene el tiempo , la temperatura , y la informacin de
humedad relativa .
El conjunto de datos resultante incluye en ltima instancia, la serie 75 en tiempo
compuesto por 26.000 puntos.

Este archivo contiene 18.000 series cronolgicas de las grabaciones de medicin


obtenidos de un conjunto de 72 sensores de gas de xido de metal que componen nuestra
plataforma de deteccin utilizado en la deteccin e identificacin de sustancias gaseosas
qumicas potencialmente peligrosas en condiciones ambientales complejas , como se
informa en el manuscrito relacionado abajo . Nuestro objetivo primordial es hacer que
nuestra base de datos de acceso gratuito en lnea a los de investigacin y de aprendizaje
automtico comunidades quimio -deteccin , as como otras comunidades interesadas ,
para desarrollar soluciones competitivas alternativas pertinentes a las tareas de
discriminacin de gases con deteccin en entornos abiertos de muestreo , tales como el
que se persigue aqu , y / o de navegacin . El conjunto de datos se puede utilizar
exclusivamente para fines de investigacin. Fines comerciales estn totalmente excluidos .
El conjunto de datos se obtuvo de diciembre 2010 a abril 2012 ( 16 meses ) en una
instalacin de pruebas de investigacin - cama 2,5 m 1,2 m 0,4 m de tnel de viento
situado en el Instituto BioCircuits de la Universidad de California San Diego.
Especficamente , nuestro centro de investigacin personalizada , dotado de un sistema de
suministro de gas por ordenador supervisado de flujo de masa basado en un controlador
de flujo continuo , funciona en un modo de ciclo abierto de propulsin , mediante la
elaboracin continua de aire turbulento en externa y en todo el tnel y lo expulsa de nuevo
a la exterior, creando de ese modo un flujo de aire relativamente menos turbulento en
movimiento aguas abajo hacia el final del campo de prueba , que es particularmente
adecuado para aplicaciones que requieren aqu perseguidos inyectables agentes txicos
qumicos o mezclas explosivas ya que evita la saturacin . Siendo operado por un entorno
totalmente informatizado " controlado por un software de servidor robot jugador / etapa
programada en C + + en un PC equipado con el adecuado cards serial ", y con la
mnima intervencin humana , la instalacin del banco de pruebas de tnel de viento
diseado proporciona versatilidad para la liberacin de las sustancias qumicas de inters
a las concentraciones deseadas con gran precisin y de una manera altamente
reproducible durante todo el experimento y, simultneamente, en la preservacin de las
condiciones ambientales apropiadas para generar penachos de gas qumicos que exhiben
patrones turbulentos . Una ilustracin grfica de la instalacin de banco de pruebas de
tnel de viento diseado considerado en este estudio junto con las caractersticas de la
geometra del problema , as como la ubicacin exacta de la fuente de analitos qumicos y
plataforma de quimioterapia sensorial se presenta en la figura 2 del manuscrito citado a
continuacin. Los cuadros reales del tnel de viento diseado tambin se presentan en el
material complementario , figura S.1 del manuscrito adjunto.
El conjunto de datos resultante induce un problema de diez clases de discriminacin de
gas , que comprende las grabaciones de diez gases qumicos puros distintas, a saber
acetona , acetaldehdo , amoniaco , butanol , etileno , metano , metanol , monxido de
carbono , benceno y tolueno . El objetivo es identificar y discriminar los riesgos qumicos
mencionados en concentraciones relevantes, independientemente de la ubicacin de la
plataforma del sistema sensorial en el centro de investigacin de tnel de viento con
anotaciones , as como las condiciones ambientales y paramtricos inducidos en el
entorno ( por favor ver manuscrito para ms detalles) . Ver Tabla 1 en Vergara et a. 2013 (
manuscrito ms adelante) para obtener informacin especfica sobre la identidad de los
peligros qumicos analito , as como sus valores de concentracin nominal en la salida de
la fuente de gas en partes por milln por volumen ( ppmv ) . Por favor, consulte el
manuscrito a continuacin para ver informacin de la instalacin de banco de pruebas de
tnel de viento , as como para obtener informacin especfica sobre el procedimiento de
recogida de seguir y los parmetros de funcionamiento y ambientales utilizados durante la
creacin de la base de datos anteriormente mencionada.

Atributo de la informacin:

La respuesta de la plataforma de sensores se lee de salida en la forma de la resistencia a


travs de la pelcula sensible activa de cada uno de los sensores de gas 72 que integran la
matriz de sensores ; por lo tanto , cada medicin produjo una serie de tiempo 72 canales ,
cada uno de los cuales representa por un 260 - segunda serie de tiempo recogida a una
velocidad de muestreo de 100 muestras por segundo ( Hz ) , lo que refleja todos los
cambios ambientales en el escenario evaluado . Para un anlisis ms detallado y
discusin sobre el tratamiento de las series de tiempo , as como una ilustracin grfica de
ellos , por favor refirase a las secciones 2 y 3 y la figura 4, respectivamente, del
manuscrito a continuacin.
Para los propsitos de manipulacin , los datos se organizan en carpetas once , cada uno
que contiene el nmero de mediciones por identidad de clase qumica y concentracin
nominal indicado anteriormente y se describe en la Tabla 2 del manuscrito . Por ejemplo la
carpeta denominada Toluene_200 ? significa el nombre de la identidad de gas es
el tolueno , el cual ha sido administrado a dosis de 200 ppmv . Cada carpeta contiene 6
carpetas, cada uno en representacin de la ubicacin de la lnea dentro de la zona de
pruebas del tnel de viento (posicin 1 , L1, al punto 6 , L6 , siendo L1 el punto ms
cercano a la fuente de gas ) del que fuera el conjunto de series de tiempo grabada. En
cada una de estas carpetas hay 300 archivos , cada uno de los cuales corresponden al
nmero de mediciones registradas en cada ubicacin en el tnel . El nombre de cada
archivo contiene la informacin del registro exacto de cada una de las mediciones
realizadas durante todo el experimento , que se organiza de la siguiente manera . Los
primeros 12 dgitos del nombre de archivo (por ejemplo , 201106060617 ) indican la fecha
y la hora en la que se recogi cada medida especfica , a partir del ao , mes , da y hora.
Los 4 ltimos dgitos en las siguientes 19 caracteres del nombre de archivo , ( por ejemplo
, board_setPoint_500V ) , indican el valor fijo de temperatura de funcionamiento ,
representada por un valor de tensin aplicada al elemento de calentamiento empotrado en
el sensor qumico , aplicado a toda la plataforma de deteccin , que puede adoptar valores
nominales de 4 a 6 V con un valor de resolucin de 0,5 V. Nota que el valor de 500V en el
ejemplo es una representacin grfica del valor de 5V aplicado al calentador el
sensora s . Para ms detalles sobre los principios de funcionamiento de los sensores
qumicos utilizados en nuestra plataforma , por favor refirase a la Seccin 2 del
manuscrito. Los 3 ltimos dgitos en los siguientes 16 caracteres del nombre de archivo
(por ejemplo , fan_setPoint_060 ) indica el valor del punto de las velocidades de giro
nominal del extractor de aire con motor de pasos mltiples utilizado para inducir la
velocidad de los flujos de aire artificial distinta en el viento tnel. Slo tres valores se
adoptaron en esta condicin : el valor 000 ? en el nombre de archivo , lo que
indica la velocidad de rotacin ms lenta ( 1.500 rpm) , el valor de 060 ? , lo que
indica el punto medio valor de la velocidad de rotacin del ventilador ( 3900rpm ) , y el
valor de 100 ? ? , que se refiere a la velocidad ms rpida inducida del ventilador,
5.500 rpm. Los ltimos 14 caracteres de la siguiente cadena de 27 caracteres (por ejemplo
, mfc_setPoint_Toluene_200ppm ) describen la identidad del analito y el valor de
concentracin para cada medicin en particular. Por lo tanto , el ejemplo que acabamos de
mencionar representa la clase correspondiente a la identidad del analito qumico
Toluene ? ? dosificado en el valor de la concentracin nominal de 200 ppm .
Finalmente , los ltimos 2 o 3 dgitos en el nombre (por ejemplo , p7 ? ) Describen
la ubicacin del punto de la lnea a la que la plataforma de quimioterapia sensorial se
encuentra en el tnel de viento . Tenga en cuenta que hay un cambio de dos nmeros en
el valor de esta posicin , es decir , el valor P7 en la actualidad representa la ubicacin de
la lnea 4 se ilustra en la Figura 2 de la citada manuscrito . Por ejemplo , en
201106060617_board_setPoint_500V_fan_setPoint_060_mfc_setPoint_Toluene_200ppm
_p7
toda la lnea de texto representa una medicin independiente de la plataforma - quimio
sensorial situado en la ubicacin de la lnea L4 y en respuesta a 200 ppm de tolueno
recogidos el da 06 Junio de 2011, a las 06:17 am (hora del Pacfico ) , con un operativo
tensin aplicada al calentador de 5V y una velocidad de rotacin nominal del ventilador de
escape de 3.900 rpm .

Una vez descrita la configuracin de nomenclatura adoptada en el conjunto de datos


generados , se describe la organizacin de la informacin en cada uno de los archivos
adjuntos del conjunto de datos. El formato de datos adjunta la informacin pertinente para
cada archivo de medidas, que contiene toda la serie histrica se ha indicado anteriormente
( 9 mdulos porttiles - 8 sensores de temperatura y los valores de humedad (oC y %,
respectivamente), extractor de aire de punto de referencia y valores de lectura, de flujo
msico controlador de leer valores reales (%) del valor de consigna y , y el tiempo de
lectura (ms) ) , que se organiza de la siguiente manera :
Tiempo de lectura ( ms) fan_reading fan_set_point * mcf1_setpoint mcf2_setpoint
mcf3_setpoint mcf1_read mcf2_read mcf3_read T RH 1 board1 (A- 8 sensores qumicos )
1 board2 (A- 8 sensores qumicos) 1 .... 1 board9 (A- 8 sensores qumicos )

donde: Reading tiempo (ms) ? es el paso del tiempo para cada grabacin ( en
ms , a una frecuencia de muestreo de 100 Hz), fan_set_point ? y
fan_reading ? , es la puesta a punto y la lectura real del ventilador de escape,
respectivamente, mcf1_setpoint ? mcf3_setpoint ? son los valores de
consigna de grado de apertura dadas a los controladores de flujo de masa de 1-3 durante
el experimento , respectivamente , mcf1_read ? mcf1_read ? son el
grado de apertura medido de los controladores de flujo de masa 1 a 3, respectivamente ,
OETA ? ? y Oera ? son la temperatura y la humedad relativa ( en oC y % ,
respectivamente) durante todo el experimento , y board1 (A- 8 sensores qumicos )
? ? board9 (A- 8 sensores qumicos ) ? ? son la serie 72 veces recoge como una
funcin del tiempo a partir de los sensores de gas 8 (en Ki ) integrar los mdulos del 1 al
9 en cada lugar , respectivamente , cada uno separado por el nmero 1 ? que se
erige como etiqueta indicadora , formando as las 72 series de tiempo respuestas del
sensor qumico que es improbable que el clasificador para la formacin como se describe
en el estudio . Tenga en cuenta que hay un espacio en blanco entre y entre cada columna
en el conjunto de datos.

As, por ejemplo , en

lnea 1 :
22250 0 0 100 100 100 103 103 105 22,22 63,43 1 476 555 803 497 775 885 873 843 1
346 545 635 616 571 552 773 745 1 397 509 660 638 755 744 745 657 1 420 510 525 531
504 650 719 715 1 2.201 449 652 1228 847 654 850 737 1 370 459 650 445 756 773 847
803 1 345 457 587 554 757 704 769 818 1 354 407 499 696 786 686 757 733 1 339 418
547 567 653 573 773 84

El nmero 22250 ? soportes para la grabacin en el momento 22.25s , los dos


nmeros siguientes representan el punto de referencia y el valor medido de la velocidad
del ventilador, los 6 nmeros siguientes indican el valor de consigna (en este caso , 100) y
los valores reales medidos de la MFC ( 103 , 103 , 105 ) , los nmeros de 22.22 ?
? y 63.43 ? presentarse a la temperatura y los valores de humedad en que la
grabacin de tiempo especfico , mientras que los 80 restantes columnas muestran los
valores de la serie de tiempo real para cada grabacin medicin organizado como se
describe ms arriba , y en el que el nmero 1 ? indica el lmite entre cada placa
del mdulo sensor. Las primera y novena tablas corresponden a las posiciones cerca de
las paredes , mientras que la placa 5 se encuentra en la lnea principal ortogonal a la
pluma de gas . Para conocer la ubicacin exacta de cada tarjeta , por favor refirase a la
Figura 2 del Artculo de revista mencionada.
*: Nos enteramos de que el valor de la lectura real del ventilador de escape registrado en
cada archivo no es del todo precisa , mostrando un 0 ? o otros valores aleatorios
para algunas de las grabaciones de medicin . Por favor desechar este valor de la
informacin y utilizar slo la informacin del punto de ajuste para el procesamiento ; El
valor es exacta.
Por ltimo , para que los resultados presentados en el artculo asociado reproducible para
el usuario de este archivo Lame , por favor utilice los valores hiper - parmetros descritos
en el manuscrito de la tarea de formacin.

.Documentos pertinentes:

Proporcionar referencias a los documentos que han citado este conjunto de datos en el
pasado (si los hay).

Cita de pedidos:

Para citar este artculo:


Alejandro Vergara, Jordi Fonollosa, Jonas Mahiques, Marco Trincavelli, Nikolai Rulkov,
Ramn Huerta, en el desempeo de los conjuntos de sensores de gas en sistemas de
muestreo abiertos utilizando mquinas inhibidoras de Vectores Soporte, Sensors and
Actuators B: Chemical, disponible en Internet el 18 de mayo de 2013 ISSN 0925 -4005,
10.1016/j.snb.2013.05.027. ([Web Link])

Gisette Conjunto de datos 2008/02/29


Resumen:
Gisette es un problema de reconocimiento de dgitos escritos a mano. El problema es
separar el '4 dgitos altamente confusible 'y 9 ". Este conjunto de datos es uno de los cinco
conjuntos de datos del desafo de seleccin de caractersticas NIPS 2003.
Caractersticas
Nmero de
del Conjunto de Multivariado 13500 rea: ordenador
instancias:
datos:

Caractersticas del Nmero de Fecha de


Entero 5000 2008/02/29
atributo: atributos: Donacin

Nmero de
Valores
Tareas asociadas: Casificacin N/A accesos 36305
perdidos?
Web:
Fuente :

a . propietarios originales
El conjunto de datos se construye a partir de los datos MNIST que se pone a disposicin
de Yann LeCun y Corinna Cortes en http://yann.lecun.com/exdb/mnist/ .

b . Donantes de base de datos


Esta versin de la base de datos estaba preparado para la variable y la funcin de
seleccin de referencia NIPS 2003 por Isabelle Guyon , 955 Creston Road, Berkeley , CA
94708 , EE.UU. ( isabelle '@' clopinet.com ) .

Datos Conjunto de Informacin :

Los dgitos han sido de tamao normalizado y centrado una imagen de tamao fijo de
28x28 dimensin . Los datos originales fueron modificados para el propsito de la
seleccin de caractersticas desafo . En particular , los pxeles son muestras al azar en la
parte superior central de la entidad que contiene la informacin necesaria para eliminar la
ambigedad de 4 de las 9 y las funciones de orden superior fueron creados como
productos de estos pxeles para sumir el problema en un espacio mayor caracterstica
dimensional. Tambin hemos aadido una serie de caractersticas distractor llamado '
sondas ' que no tienen ningn poder predictivo . El orden de las caractersticas y los
patrones fueron aleatorizados .

Gisette - ex positiva . - Ex Negativo. - Total


Entrenamiento Conjunto - 3000 - 3000 - 6000
Conjunto de validacin - 500 - 500 - 1000
Prueba de Conjunto - 3250 - 3250 - 6500
Todos - 6750 - 6750 - 13500

Nmero de variables / caractersticas / atributos:

Bienes : 2.500
Sondas : 2500
Total: 5000

Este conjunto de datos es uno de los cinco conjuntos de datos utilizados en el desafo de
seleccin de caractersticas NIPS 2003 . Nuestra pgina web [Web Link] est todava
abierto para la presentacin despus de la exposicin . Informacin acerca de otros
problemas conexos se encuentran en: [Web Link] . El paquete CLOP incluye cdigo de
ejemplo para procesar estos datos : [Web Link] .

Todos los detalles sobre la preparacin de los datos se encuentran en nuestro informe
tcnico : Diseo de experimentos para el punto de referencia la variable de seleccin NIPS
2003 , Isabelle Guyon , julio de 2003 , [Web Link] (tambin incluido en el archivo de
conjunto de datos) . Dicha informacin se pondr a disposicin slo despus de la final del
desafo .

Los datos se dividen en entrenamiento , validacin y prueba. Valores objetivo slo se


proporcionan para los 2 primeros sets. Los resultados de rendimiento conjunto de pruebas
se obtienen mediante la presentacin de resultados de la prediccin a: [Web Link] .

Los datos estn en el siguiente formato:


dataname.param : Los parmetros y las estadsticas sobre los datos
dataname.feat : Identidades de las caractersticas ( retenidos , para evitar sesgar la
seleccin de caractersticas ) .
dataname_train.data : conjunto de entrenamiento ( una matriz regular coma delimitada ,
los patrones de lneas , las caractersticas de las columnas ) .
dataname_valid.data : conjunto de validacin .
dataname_test.data : Conjunto de prueba .
dataname_train.labels : Etiquetas (valores de verdad de las clases) para ejemplos de
entrenamiento .
dataname_valid.labels : etiquetas Conjunto de Validacin ( retenidos durante el punto de
referencia , pero proporcionadas ahora ) .
dataname_test.labels : Test establecidos de etiquetas ( retenido , por lo que los datos
todava pueden ser usados como un punto de referencia ) .

Atributo de la informacin:

No proporcionamos informacin de atributos para evitar sesgar el proceso de seleccin de


caractersticas.

Documentos pertinentes:

Los mejores participantes desafo escribieron artculos recogidos en el libro:


Isabelle Guyon , Steve Gunn, Masoud Nikravesh , Lofti Zadeh ( Eds. ) , extraccin de
caractersticas , fundamentos y aplicaciones . Los estudios en Tolerancia y Soft Computing
. Physica- Verlag, Springer. [Web Link]

Ver tambin :
Isabelle Guyon , et al, 2007 . Mtodos de referencia competitivos establece nuevas
normas para la seleccin de caractersticas de referencia NIPS 2003 . Pattern Recognition
Letters 28 (2007) 1438 ? 1444 .
y el informe tcnico correspondiente:
Isabelle Guyon , et al . 2006 . La seleccin de caractersticas con el paquete CLOP .
Informe Tcnico. [Web Link] .

Cita de pedidos:

Isabelle Guyon , Steve R. Gunn , Asa Ben- Hur , Gideon Dror , 2004 . Resultado anlisis
del desafo de seleccin de caractersticas NIPS 2003 . En : NIPS . [Web Link] .
Sistema de cristal de los 1987/09/01
datos de identificacin
Resumen:
Desde EE.UU. Servicio de Ciencias Forenses; 6 tipos de vidrio; definida en trminos de su
contenido de xido (es decir, Na, Fe, K, etc.).
Caractersticas del
Nmero de
Conjunto de Multivariado 214 rea: Fsico
instancias:
datos:

Caractersticas del Nmero de Fecha de


Real 10 1987/09/01
atributo: atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin No accesos 99111
perdidos?
Web:

Fuente :

Creador:

B. alemn
Establecimiento Central de Investigacin
Servicio de Ciencias Forenses del Ministerio del Interior
Aldermaston , Reading, Berkshire RG7 4PN

Donante:

Vina Spiehler , Ph.D., DABFT


Diagnostic Products Corporation
(213) 776-0180 ( Ext. 3014 )

Datos Conjunto de Informacin :

Via realiz una prueba de comparacin de su sistema basado en normas , BEAGLE , el


algoritmo del vecino ms prximo , y el anlisis discriminante. BEAGLE es un producto
disponible a travs de VRS Consulting, Inc.; 4676 Admiralty Way , Suite 206; Marina Del
Ray , CA 90292 (213) 827-7890 y fax: -3189 . Al determinar si el vidrio era un tipo de vidrio
" float " o no, se obtuvieron los siguientes resultados (# respuestas incorrectas ) :

Tipo de muestra - Beagle - NN - DA


Ventanas que se procesa flotador ( 87 ) - 10 - 12-21
Windows que no fueron: ( 76 ) - 19 - 16-22

El estudio de la clasificacin de los tipos de vidrio fue motivada por la investigacin


criminolgica. En la escena del crimen, el cristal izquierdo puede ser utilizado como
prueba... si se identifica correctamente!
Atributo de la informacin:

. 1 nmero Id : 1-214
. 2 RI : ndice de refraccin
3 Na: . Sdico ( unidad de medida : por ciento en peso de xido correspondiente , as
como los atributos 4-10)
. 4 Mg : Magnesio
. 5 Al : Aluminio
. 6 Si: Silicio
. 7 K : Potasio
. 8 Ca : Calcio
9 Ba: . Bario
10 Fe : . Hierro
. 11 Tipo de vidrio : ( atributo de clase )
- 1 building_windows_float_processed
- 2 building_windows_non_float_processed
- 3 vehicle_windows_float_processed
- 4 vehicle_windows_non_float_processed (ninguno en esta base de datos )
- 5 contenedores
- 6 artculos de mesa
- 7 faros

Documentos pertinentes:

Ian W. Evett y Ernest J. Spiehler . Regla de induccin en Ciencias Forenses .


Establecimiento Central de Investigacin. Servicio de Ciencias Forenses del Ministerio del
Interior . Aldermaston , Reading, Berkshire RG7 4PN
[Web Link]

Documentos que citan el Set1 datos:

Ping Zhong y Masao Fukushima. A regularizada no lisas Mtodo de Newton para


Mquinas de Vectores Soporte multi - clase. 2005 . [Ver Contexto ] .

Yuan Jiang y Zhi -Hua Zhou. Edicin de datos Formacin para kNN Clasificadores con
Red Neural Ensemble. ISNN ( 1 ) . 2004 . [Ver Contexto ] .

S. Agustn Su y Jennifer G. Dy . Mezclas jerrquicos automatizados de analizadores


principales componentes probabilsticos . ICML . 2004 . [Ver Contexto ] .

Xiaoli Z. Helecho y Carla Brodley . Solucin de problemas de conjunto clster particionado


grfico bipartito . ICML . 2004 . [Ver Contexto ] .

Vassilis Athitsos y Stan Sclaroff . Impulsar Clasificadores vecino ms cercano para el


Reconocimiento multiclase . Universidad de Boston Computer Tech Ciencia . Informe n ,
2004-006 . 2004 . [Ver Contexto ] .

Francesco Masulli . Un anlisis experimental de la dependencia entre los errores de bit de


palabra de cdigo en las mquinas de aprendizaje de las CEC . y Giorgio Valentini b , c.
2003 . [Ver Contexto ] .

Michail Vlachos y Carlotta Domeniconi y Dimitrios Gunopulos y George Kollios y Nick


Koudas . Tcnicas de reduccin de dimensionalidad no lineales para la clasificacin y
visualizacin . KDD . 2002 . [Ver Contexto ] .
Giorgio Valentini y Francesco Masulli . NEURObjects : una biblioteca orientada a objetos
para el desarrollo de redes neuronales . Neurocomputing , 48. 2002 . [Ver Contexto ] .

Krzysztof Krawiec . Gentica de construccin a base de programacin de funciones para


las tareas de aprendizaje automtico y Descubrimiento de Conocimiento . Instituto de
Ciencias de la Computacin , Universidad Tecnolgica de Poznan . 2002 . [Ver Contexto ]
.

DI SI y Francesco Masulli y Giorgio Valentini y DIS Universit # a di Genova . Dipartimento


di Informatica e Scienze dell ' Informazione . De 2001. [Ver Contexto ] .

Petri Kontkanen y Petri Myllym y Tomi Silander y Henry Tirri y Peter Gr . En las
distribuciones predictivas y las redes bayesianas . Departamento de Ciencias de la
Computacin de la Universidad de Stanford. 2000 . [Ver Contexto ] .

Thierry Denoeux . Un clasificador de red neuronal basada en la teora Dempster -Shafer .


Transacciones de IEEE en Sistemas , Hombre y Ciberntica , Parte A, 30 . 2000 . [Ver
Contexto ] .

Francesco Masulli y Giorgio Valentini . Eficacia de los cdigos correctores de errores de


salida en multiclase Problemas de Aprendizaje . Sistemas Clasificadores mltiples. 2000 .
[Ver Contexto ] .

Nir Friedman y Iftach Najman . Redes de procesos de Gauss. UAI . 2000 . [Ver Contexto ] .

Carlotta Domeniconi y Jing Peng y Dimitrios Gunopulos . Una mquina adaptativa Mtricas
de Clasificacin de patrones . PNI. 2000 . [Ver Contexto ] .

Mark A. Hall. Basados en la correlacin Seleccin de caractersticas para fabricacin


discreta y numrico Aprendizaje Automtico Clase . ICML . 2000 . [Ver Contexto ] .

Kai Ming Ting y Ian H. Witten . Problemas en Stacked generalizacin. J. Artif . Intell . Res. .
( JAIR , 10 . 1999 . [Ver Contexto ] .

Christopher J. Merz . Usando Anlisis de Correspondencia para combinar clasificadores .


Aprendizaje Automtico , 36. 1999 . [Ver Contexto ] .

Eibe Frank y Ian H. Witten . Generando Regla Precisa Establece Sin Optimizacin Global.
ICML . De 1998. [Ver Contexto ] .

Georg Thimm y E. Fiesler . Ajuste ptimo de pesos , tasa de aprendizaje , y Gain.


ESEARCHREPRORTIDIA P. 1997 . [Ver Contexto ] .

Richard Maclin y David W. Opitz . Una evaluacin emprica de embolsado y Impulsar .


AAAI / IAAI . De 1997. [Ver Contexto ] .

Ethem Alpaydin . La votacin sobre mltiples vecinos ms cercanos condensada. Artif .


Intell . Rev , 11 . 1997 . [Ver Contexto ] .

Jan C. Bioch y D. Meer y Rob Potharst . Bivariado rboles de decisin . PKDD . De 1997.
[Ver Contexto ] .

D. Greig y Hava T. Siegelmann y Michael Zibulevsky . Una nueva clase de funciones


sigmoides activacin que no se saturan . De 1997. [Ver Contexto ] .

Christopher J. Merz . Combinando Clasificadores Utilizando el anlisis de


correspondencias . PNI. De 1997. [Ver Contexto ] .
. Seleccin Prototipo para compuestos Clasificadores vecino ms cercano . Departamento
de Informtica Universidad de Massachusetts. De 1997. [Ver Contexto ] .

Ron Kohavi y Mehran Sahami . Basado en un error y Discretizacin basada en la entropa


de caractersticas continuas . KDD . De 1996. [Ver Contexto ] .

Aynur Akkus y H. Altay Gvenir . K ms cercano Clasificacin Vecino en Feature


Proyecciones . ICML . De 1996. [Ver Contexto ] .

Thomas G. Dietterich y Ghulum Bakiri . Solucionar problemas de aprendizaje a travs de


multiclase Cdigos de salida de correccin de errores . CoRR , csAI/9501101 . De 1995.
[Ver Contexto ] .

Jitender S. Deogun y Vijay V. Raghavan y Hayri Sever. Explotando superior Aproximacin


in the Rough Set Metodologa . KDD . De 1995. [Ver Contexto ] .

Erin J. Bredensteiner y Kristin P. Bennett. Clasificacin multicategora por mquinas de


soporte vectorial . Departamento de Matemticas de la Universidad de Evansville. [Ver
Contexto ] .

Pramod Viswanath y M. Narasimha Murty y Shalabh Bhatnagar . Particin Basado Patrn


tcnica de sntesis con algoritmos eficientes para la cercana Clasificacin Vecino .
Departamento de Informtica y Automtica , Instituto Indio de Ciencia . [Ver Contexto ] .

Federico Divina y Elena Marchiori . Manejo de atributos continuos en un Evolutiva


inductivo Learner . Departamento de Ciencias de la Computacin Vrije Universiteit . [Ver
Contexto ] .

James J. Liu y James Estao y Yau Kwok . Un Algoritmo Gentico Induccin Regla
extendido . Departamento de Ciencias de la Universidad de Wuhan ordenador . [Ver
Contexto ] .

Francesco Masulli y Giorgio Valentini . Comparacin de los mtodos de descomposicin


para la Clasificacin . Istituto Nazionale per la Fisica della Materia DISI - Dipartimento di
Scienze e Informatica dell'Informazione . [Ver Contexto ] .

Alexander K. Seewald . Disertacin hacia la comprensin de apilamiento Los estudios de


un general Ensemble Aprendizaje Esquema ausgefuhrt zum Zwecke der Erlangung des
akademischen Grados eines der Doktors technischen Naturwissenschaften . [Ver Contexto
].

H. Altay T uvenir y Aynur Akkus . PONDERADO K MAS CERCANA CLASIFICACIN


VECINO DE PROYECCIONES DE FUNCIONES . Departamento de Ingeniera Informtica
y Ciencias de la Informacin de la Universidad Bilkent . [Ver Contexto ] .

Ron Kohavi y Brian Frasca . Caracterstica til subconjuntos y Rough Set reductos . Tercer
Taller Internacional de Rough Sets y Soft Computing . [Ver Contexto ] .

H. Altay Gvenir . Un algoritmo de aprendizaje de clasificacin robusta de caractersticas


irrelevantes . Universidad de Bilkent , Departamento de Ingeniera Informtica y Ciencias
de la Informacin . [Ver Contexto ] .

Suresh K. Choubey y Jitender S. Deogun y Vijay V. Raghavan y Hayri Sever. Una


comparacin de los algoritmos de seleccin de caractersticas en el contexto de los
clasificadores en bruto . [Ver Contexto ] .
Stefan Aeberhard y Danny Coomans y De Vel . EL RENDIMIENTO DE LOS MTODOS
ESTADSTICOS reconocimiento de patrones en los entornos de alta dimensin .
Universidad James Cook. [Ver Contexto ] .

Chih- Wei Hsu y Cheng -Ru Lin. Una Comparacin de Mtodos para Mquinas de
Vectores Soporte multi - clase. Departamento de Ciencias de la Computacin e Ingeniera
de la Informacin de la Universidad Nacional de Taiwn . [Ver Contexto ] .

C. Tito Brown y Harry W. Bullen y Sean P. Kelly y Robert K. Xiao y Steven G. Satterfield y
John G. Hagedorn y Judith E. Devaney . Visualizacin y Minera de Datos en un inmersivo
entorno 3D : Proyecto de Verano 2003 [Ver Contexto ] . .

. Eectiveness de correccin de errores mtodos de codificacin de salida en conjunto y


mquinas de aprendizaje monolticos. Dipartimento di Informatica , Universitdi Pisa. [Ver
Contexto ] .

Zhi -Hua Zhou y Xu Ying Liu. Formacin de coste razonable para Redes Neuronales con
Mtodos abordar el problema del desequilibrio de clases. [Ver Contexto ] .

Aynur Akku y H. Altay Gvenir . Ponderacin Caractersticas de k Clasificacin de vecinos


ms prximos en Feature Proyecciones . Departamento de Ingeniera Informtica y
Ciencias de la Informacin de la Universidad Bilkent . [Ver Contexto ] .

Francesco Masulli y Giorgio Valentini . Evaluacin cuantitativa de la dependencia entre las


salidas de los clasificadores de las CEC utilizando informacin mutua medidas basadas en
. Universitdi Genova DISI - Dipartimento di Scienze e Informatica dell'Informazione INFM -
Istituto Nazionale per la Fisica della Materia . [Ver Contexto ] .

Rong -En Fan y P. Chen -H y C -J Lin. Conjunto de trabajo de seleccin utilizando la


segunda informacin de la orden para la Formacin SVM . Departamento de Ciencias de
la Computacin e Ingeniera de la Informacin de la Universidad Nacional de Taiwn . [Ver
Contexto ] .

Yin Zhang y W. Nick Street. Embolsado con los gastos de adaptacin . Departamento de
Ciencias de la Administracin de la Universidad de Iowa, Iowa City . [Ver Contexto ] .

Ping Zhong y Masao Fukushima. Segundo Cono Orden Programacin Formulaciones para
Robust Clasificacin de clase mltiple. [Ver Contexto ] .

Karthik Ramakrishnan . UNIVERSIDAD DE MINNESOTA . [Ver Contexto ] .

Pramod Viswanath y M. Narasimha Murty y Shalabh Bhatnagar . Un patrn de sntesis


tcnica para reducir la maldicin de la dimensionalidad efecto . E -mail . [Ver Contexto ] .

Cita de pedidos:

Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine.


La supervivencia del 23/10/2013
conjunto de datos de
Haberman
Resumen:
Conjunto de datos contiene casos de estudio realizados en la supervivencia de los
pacientes que se haban sometido a ciruga para el cncer de mama.
Caractersticas del
Nmero de
Conjunto de Multivariado 306 rea: Vida
instancias:
datos:

Caractersticas del Nmero de Fecha de


Entero 3 1999/03/04
atributo: atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin No accesos 56686
perdidos?
Web:

Fuente :

Donante:

Tjen - Sien Lim ( limt '@' stat.wisc.edu )

Datos Conjunto de Informacin :

El conjunto de datos contiene los casos de un estudio que se realiz entre 1958 y 1970 en
la Universidad del Hospital Billings de Chicago en la supervivencia de los pacientes que se
haban sometido a ciruga para el cncer de mama.

Atributo de la informacin:

1 . Edad del paciente en el momento de la operacin ( numrico )

. 2 aos de la paciente de la operacin ( ao - 1900 , numrico )

3 . Nmero de ganglios axilares positivos detectados ( numrico )

4 . Estado de supervivencia ( atributo de clase )

- 1 = el paciente sobrevivi 5 aos o ms

- 2 = el paciente falleci a 5 aos

Documentos pertinentes:

Haberman , S. J. ( 1976 ) . Residuos generalizadas para los modelos log-lineales , Actas


de la 9 Conferencia Internacional de Biometra , Boston , pp 104-122 .

Landwehr , JM, Pregibon , D., y Shoemaker , AC ( 1984 ) , Modelos Grficos para la


evaluacin de modelos de regresin logstica (con debate), revista de la Asociacin
Americana de Estadstica 79: 61-83 .

Lo, W.-D. ( 1993 ) . Regresin logstica rboles, tesis de doctorado , Departamento de


Estadstica de la Universidad de Wisconsin, Madison, WI .

Documentos que citan el Set1 datos:

Dennis DeCoste . En cualquier momento de consultas Tuned -Machines Kernel a travs


de Factorizacin de Cholesky . SDM . 2003 . [Ver Contexto ] .

Dennis DeCoste . En cualquier momento salidas Intervalo de valor de para Mquinas


Kernel : Apoyo Rapido Clasificacin Vector Machine travs Distancia Geometra. ICML .
2002 . [Ver Contexto ] .

Yin Zhang y W. Nick Street. Embolsado con los gastos de adaptacin . Departamento de
Ciencias de la Administracin de la Universidad de Iowa, Iowa City . [Ver Contexto ] .

Denver Dash y Gregory F. Cooper. Averaging Modelo con Discrete Red bayesiana
clasificadores . Laboratorio de Sistemas de Decisin Inteligente Universidad Sistemas
Programa de Pittsburgh. [Ver Contexto ] .

Cita de pedidos:

Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine

Hayes-Roth Conjunto de 1989/03/01


datos
Resumen:
Tema: los sujetos humanos de estudio.
Caractersticas del
Nmero de
Conjunto de Multivariante 160 rea: Social
instancias:
datos:

Caractersticas del Nmero de Fecha de


Categrico 5 1989/03/01
atributo: atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin No accesos 33821
perdidos?
Web:

Fuente :

Creadores:

Barbara y Frederick Hayes -Roth

Donante:

David W. Aha ( aha '@' ics.uci.edu ) ( 714) 856 a 8779


Datos Conjunto de Informacin :

Esta base de datos contiene 5 atributos numricos de valor . Slo un subconjunto de 3 se


utilizan durante la prueba (el ltimo 3 ) . Adems, slo 2 de los 3 conceptos son " utilizados
" durante la prueba (es decir , aquellos con los prototipos 000 y 111 ) . He mapeado todos
los valores a sus equivalentes cero indexacin.

Algunos ejemplos podran ser colocados en cualquier categora 0 1. He seguido la


sugerencia de los autores, colocarlos en cada categora con la misma probabilidad .

He reemplazado los valores actuales de los atributos ( es decir , aficin tiene valores de
ajedrez , los deportes y los sellos ) con valores numricos . Creo que esta es la forma en
que los autores " hicieron esto al probar los modelos de categorizacin que se describen
en el documento . Me parece injusto. Mientras que los sujetos fueron capaces de llevar el
conocimiento de fondo para influir en los valores de los atributos y sus relaciones, los
algoritmos se proporcionan sin tal conocimiento. Estoy seguro de si los atributos distractor
2 (nombre y mana ) se presentan a los algoritmos de los autores durante la prueba. Sin
embargo, es claro que slo la edad , nivel de educacin , y los atributos de estado civil se
dan durante las pruebas de transferencia de los sujetos humanos .

Atributo de la informacin:

. - 1 Nombre : distinto para cada instancia y representado numricamente


. - 2 aficin : los valores nominales que oscilan entre 1 y 3
. - 3 aos : los valores nominales que oscilan entre 1 y 4
. - 4 nivel educativo : los valores nominales que oscilan entre 1 y 4
. - 5 el estado civil : los valores nominales que oscilan entre 1 y 4
. - 6 clases : valor nominal de entre 1 y 3

Documentos pertinentes:

Hayes - Roth , B. , y Hayes - Roth , F. ( 1977 ) . El aprendizaje de conceptos , el


reconocimiento y clasificacin de ejemplares . Journal of Verbal Learning and Verbal
Behavior , 16, 321-338 .

Anderson , J. R. , y Kline , P. J. ( 1979 ) . Un sistema de aprendizaje y sus implicaciones


psicolgicas. En Actas de la Sexta Conferencia Internacional Conjunta sobre Inteligencia
Artificial (pp. 16-21) . Tokio , Japn : Morgan Kaufmann .

Aha , D.W. ( 1989 ) . Aprendizaje incremental de descripciones independientes ,


superpuestas y escalonadas concepto con un proceso basado en instancias
framework.Manuscript entregada para su publicacin .

Documentos que citan el Set1 datos:

Yuan Jiang y Zhi -Hua Zhou. Edicin de datos Formacin para kNN Clasificadores con
Red Neural Ensemble. ISNN ( 1 ) . 2004 . [Ver Contexto ] .

Bob Ricks y Dan Ventura . El entrenamiento de un red neuronal de Quantum . PNI. 2003 .
[Ver Contexto ] .

Gabor Melli . Un enfoque basado en modelos perezoso en On -Line Clasificacin.


Universidad de la Columbia Britnica. De 1989. [Ver Contexto ] .
Anthony D. Griffiths y el Puente de Derek. Un criterio para la Evaluacin de los
clasificadores basados en la caja . Departamento de Ciencias de la Computacin de la
Universidad de York. [Ver Contexto ] .

Jerome H. Friedman y Ron Kohavi y Youngkeol Yun. Para aparecer en AAAI - 96 rboles
de decisin de Lazy . Departamento de Estadstica y Stanford Linear Accelerator Center
de la Universidad de Stanford. [Ver Contexto ] .

Cita de pedidos:

Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine

Enfermedad del corazn 1988/07/01


Conjunto de datos
Resumen:
4 bases de datos: Cleveland, Hungra, Suiza, y la Administracin de Veteranos en Long
Beach.
Caractersticas
Nmero de
del Conjunto de Multivariado 303 rea: Vida
instancias:
datos:

Caractersticas del Categorico, Nmero de Fecha de


75 1988/07/01
atributo: Entero, Real atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin Si accesos 145093
perdidos?
Web:

Fuente :

Creadores:

1 . Instituto Hngaro de Cardiologa. Budapest: Andras Janosi , M. D.


. 2 Hospital Universitario de Zurich , Suiza: William Steinbrunn , MD
. 3 Hospital Universitario de Basilea , Suiza: Matthias Pfisterer , MD
4 . V.A. Medical Center, Long Beach y Cleveland Clinic Foundation : Robert Detrano , MD ,
Ph.D.

Donante:

David W. Aha ( aha '@' ics.uci.edu ) ( 714) 856 a 8779

Datos Conjunto de Informacin :

Esta base de datos contiene 76 atributos, pero todos los experimentos publicados se
refieren al uso de un subconjunto de 14 de ellos . En particular , la base de datos de
Cleveland es el nico que se ha utilizado por investigadores para ML
esta fecha. El campo " objetivo " se refiere a la presencia de la enfermedad cardaca en el
paciente . Es valor entero de 0 (sin presencia ) a 4. Experimentos con la base de datos de
Cleveland se han concentrado en simplemente intentar distinguir la presencia (valores
1,2,3,4) de ausencia ( valor 0 ) .

Los nombres y nmeros de seguro social de los pacientes fueron retirados recientemente
de la base de datos, reemplazados con valores ficticios .

Un archivo se ha " procesado" , que uno que contiene la base de datos de Cleveland. Los
cuatro archivos no procesados tambin existen en este directorio.

Para ver los costos de prueba ( donados por Peter Turney ) , por favor consulte la carpeta
" Costes"

Atributo de la informacin:

Slo 14 atributos utilizados :


1 . # 3 (edad)
2 . 4 (el sexo)
3 . 9 ( cp )
4 . 10 ( trestbps )
5 . 12 ( chol )
6 . 16 (FBS )
7 . 19 ( restecg )
8 . 32 ( thalach )
9 . 38 ( exang )
10 . # 40 ( oldpeak )
11 . # 41 (pendiente)
12 . # 44 ( bis)
13 . # 51 ( Thal )
14 . # 58 (num ) ( el atributo predicho)

Documentacin atributo completo:


1 id: nmero de identificacin del paciente
2 ccf : nmero de seguro social ( reemplac esto con un valor ficticio de 0)
3 aos de edad : la edad en aos
4 sex : sexo ( 1 = hombre ; 0 = mujer )
5 painloc : la localizacin del dolor en el pecho ( 1 = subesternal ; 0 = otro tipo)
6 painexer ( 1 = provocadas por el esfuerzo ; 0 = otro tipo)
7 relrest ( 1 = aliviados despus de un descanso ; 0 = otro tipo)
8 pncaden (suma de 5 , 6 y 7 )
9 cp : Tipo de dolor en el pecho
- Valor 1: angina tpica
- Valor 2: angina atpica
- Valor 3 : El dolor no anginoso
- Valor 4 : asintomtica
10 trestbps : presin arterial en reposo (en mm Hg al ingreso en el hospital)
11 htn
12 Chol : cholestoral suero en mg / dl
13 Humo : Creo que esto es 1 = s; 0 = no ( que es o no fumador)
14 cigs ( cigarrillos por da )
15 aos ( nmero de aos de fumador )
16 FBS : ( glucemia en ayunas > 120 mg / dl ) ( 1 = true; 0 = false)
17 dm ( 1 = la historia de la diabetes ; 0 = sin antecedentes )
18 famhist : antecedentes familiares de enfermedad de la arteria coronaria ( 1 = s; 0 = no)
19 restecg : descansando resultados electrocardiogrficos
- Valor 0: normal,
- Valor 1: tener ST -T anormalidad de onda ( inversiones de la onda T y / o elevacin del
segmento ST o depresin de > 0,05 mV)
- Valor 2: muestra hipertrofia ventricular izquierda probable o definida por criterios Estes
20 ekgmo ( mes de lectura de ECG de ejercicio)
21 ekgday ( da de la lectura del ECG de ejercicio)
22 ekgyr ( ao de la lectura del ECG de ejercicio)
23 dig (digitalis utilizado furing ECG de esfuerzo : 1 = s; 0 = no)
24 prop ( bloqueador beta usado durante el ejercicio ECG: 1 = s; 0 = no)
25 nitr ( nitratos utilizados durante el ejercicio ECG : 1 = s; 0 = no)
26 pro ( antagonista del calcio usado durante el ejercicio ECG: 1 = s; 0 = no)
27 diurtico ( diurtico utilizado utilizado durante el ejercicio ECG: 1 = s; 0 = no)
28 proto : protocolo de ejercicio
1 = Bruce
2 = Kottus
3 = McHenry
4 = rpido Balke
5 = Balke
6 = Noughton
7 = moto 150 kpa min / min ( No estoy seguro si " kpa min / min" es lo que estaba escrito !)
8 = bicicleta 125 kPa min / min
9 = bicicleta 100 kPa min / min
10 = bicicleta 75 min kPa / min
11 = bicicleta 50 min kPa / min
12 = brazo ergmetro
29 thaldur : la duracin de la prueba de esfuerzo en cuestin de minutos
30 thaltime : momento en el que se observ ST medida la depresin
31 cumplen: mets lograron
32 thalach : frecuencia cardaca mxima alcanzada
33 thalrest : frecuencia cardaca en reposo
34 tpeakbps : pico de presin arterial el ejercicio ( primera de 2 partes )
35 tpeakbpd : pico de presin arterial el ejercicio ( segundo de 2 partes )
36 maniqu
37 trestbpd : presin arterial en reposo
38 exang : angina inducida por el ejercicio ( 1 = s; 0 = no)
39 xhypo : ( 1 = s; 0 = no)
40 oldpeak = ST depresin inducida por el ejercicio en relacin con resto
41 pendiente : la pendiente del segmento ST ejercicio pico
- Valor 1: ascedant
- Valor 2 : plano
- Valor 3 : downsloping
42 rldv5 : altura en reposo
43 rldv5e : altura en el pico
44 ca : nmero de grandes vasos ( 0-3) coloreado por flourosopy
45 restckm : irrelevante
46 exerckm : irrelevante
47 restef : fraccin de eyeccin raidonuclid resto ( sp? )
48 restwm : Pared del resto ( sp? ) Alteracin de la movilidad
0 = ninguno
1 = leve o moderada
2 = moderada o grave
3 = acinesia o dyskmem ( sp? )
49 exeref : fraccin de eyeccin del ejercicio radinalid ( sp? )
50 exerwm : Pared del ejercicio ( sp? ) Movimiento
51 thal : 3 = normal ; 6 = defecto fijo; 7 = defecto reversible
52 thalsev : no se utiliza
53 thalpul : no se utiliza
54 lbulo de la oreja : no se utiliza
55 cmo : mes de cateterismo cardaco ( sp? ) (Tal vez "call" )
56 CDAY : das de cateterismo cardaco ( sp? )
57 cyr : ao de cateterismo cardaco ( sp? )
58 num: diagnstico de las enfermedades del corazn ( estado de la enfermedad
angiogrfica )
- Valor 0: < estrechamiento 50% del dimetro
- Valor 1: > 50 % reduccin dimetro
(en cualquier vaso principal : atributos de 59 a 68 son los barcos )
59 lmt
60 ladprox
61 laddist
62 diag
63 cxmain
64 rama
65 om1
66 OM2
67 rcaprox
68 rcadist
69 lvx1 : no se utiliza
70 lvx2 : no se utiliza
71 lvx3 : no se utiliza
72 lvx4 : no se utiliza
73 LVF : no se utiliza
74 cathef : no se utiliza
75 basura : no se utiliza
76 nombre: apellido del paciente ( reemplac esto con la cadena " nombre " ficticio)

Documentos pertinentes:

Detrano , R. , Janosi , A. , Steinbrunn , W. , Pfisterer , M. , Schmid , J. , Sandhu , S. ,


Guppy , K. , Lee , S. , y Froelicher , V. ( 1989 ) . La solicitud internacional de un nuevo
algoritmo de probabilidad para el diagnstico de la enfermedad de la arteria coronaria .
American Journal of Cardiology , 64 304 - 310.
[Web Link]

David W. Aha & Dennis Kibler . " Prediccin basada en instancia de la presencia de
enfermedades cardiacas con la base de datos de Cleveland. "
[Web Link]

Gennari , J.H. , Langley , P, y Fisher , D. ( 1989 ) . Modelos de formacin de conceptos


incrementales. Inteligencia Artificial , 40, 11-61 .
[Web Link]

Documentos que citan el Set1 datos:

Zhi -Hua Zhou y Jiang Yuan . NeC4.5 : Neural Ensemble Based C4.5 . IEEE Trans .
Conocimiento . Datos Eng, 16 . 2004 . [Ver Contexto ] .

Remco R. Bouckaert y Eibe Frank . La evaluacin de la replicabilidad de las pruebas de


significacin para la comparacin de algoritmos de aprendizaje . PAKDD . 2004 . [Ver
Contexto ] .
Xiaoyong Chai y Li Deng y Qiang Yang y Charles X. Ling . Prueba sensibles a los costes
de clasificacin bayesiano . ICDM . 2004 . [Ver Contexto ] .

Gavin Brown. La diversidad en Neuronales Conjuntos de red. La Universidad de


Birmingham. 2004 . [Ver Contexto ] .

Kaizhu Huang y Yang Haiqin e Irwin Rey y Michael R. Lyu y Laiwan Chan. Sesgo Machine
Probabilidad Minimax para el diagnstico mdico . AMAI . 2004 . [Ver Contexto ] .

Jeroen Eggermont y Joost N. Kok y Walter A. Kosters . Programacin Gentica para la


clasificacin de los datos : la particin del espacio de bsqueda . SAC . 2004 . [Ver
Contexto ] .

David Page y Soumya Ray. Sesgo : una alternativa eficaz a Lookahead de rbol de
decisin de induccin . IJCAI . 2003 . [Ver Contexto ] .

Jinyan Li y Limsoon Wong. Uso de reglas para el Anlisis de Datos Bio- mdica : una
comparacin entre C4.5 y PCL . Waim . 2003 . [Ver Contexto ] .

Yuan Jiang Zhi y Hua Zhou y Zhaoqian Chen. Regla de aprendizaje basado en red
neuronal Ensemble. Actas de la Conferencia Conjunta Internacional sobre Redes
Neuronales . 2002 . [Ver Contexto ] .

Baback Moghaddam y Gregory Shakhnarovich . Impulsado didicas Kernel discriminantes


. PNI. 2002 . [Ver Contexto ] .

. Thomas Melluish y Craig Saunders y Ilia Nouretdinov y Volodia Vovk y Carol S. Saunders
y yo Nouretdinov V. El marco tipicidad : una comparacin con el enfoque bayesiano .
Departamento de Ciencias de la Computacin . De 2001. [Ver Contexto ] .

Robert Burbidge y Matthew Trotter y Bernard F. Buxton y Sean B. Holden. STAR - Sparsity
travs Rechazo automatizado . IWANN ( 1 ) . De 2001. [Ver Contexto ] .

Peter L. Hammer y Alexander Kogan y Bruno Simeone y Sandor Szedm'ak . R u t c o r


Investigacin R e p o r t . Rutgers Centro de Investigacin Operativa de la Universidad de
Rutgers. De 2001. [Ver Contexto ] .

Rudy Setiono y Wee Kheng Leow . Fernn : Un Algoritmo para la extraccin rpida de las
Reglas de las redes neuronales . Appl . Intell , 12 . 2000 . [Ver Contexto ] .

Kristin P. Bennett y Ayhan Demiriz y John Shawe -Taylor . A Columna algoritmo de


generacin para impulsar . ICML . 2000 . [Ver Contexto ] .

Thomas G. Dietterich . Una Comparacin experimental de tres mtodos para construir


Conjuntos de rboles de decisin : El embolsado , Impulsar y aleatorizacin . Aprendizaje
Automtico , 40. 2000 . [Ver Contexto ] .

Lorne Mason y Peter L. Bartlett y Jonathan Baxter. Mejora Generalizacin travs de la


optimizacin explcita de Mrgenes. Aprendizaje Automtico , 38. 2000 . [Ver Contexto ] .

Endre Boros y Peter Hammer y Toshihide Ibaraki y Alexander Kogan y Eddy Mayoraz e
Ilya B. Muchnik . Una Aplicacin del anlisis lgico de datos . IEEE Trans . Conocimiento .
Datos Eng, 12 . 2000 . [Ver Contexto ] .

Petri Kontkanen y Petri Myllym y Tomi Silander y Henry Tirri y Peter Gr . En las
distribuciones predictivas y las redes bayesianas . Departamento de Ciencias de la
Computacin de la Universidad de Stanford. 2000 . [Ver Contexto ] .
Iaki Inza y Pedro Larraaga y Basilio Sierra y Ramn Etxeberria y Jos Antonio Lozano y
Jos Manuel Pea. En representacin del comportamiento de los algoritmos de
aprendizaje de clasificacin supervisada por redes bayesianas . Pattern Recognition
Letters , 20 . 1999 . [Ver Contexto ] .

Yoav Freund y Lorne Mason. La Decisin alterna Algoritmo Learning Tree . ICML . De
1999. [Ver Contexto ] .

Jinyan Li y Zhang Xiuzhen y Guozhu Dong y Kotagiri Ramamohanarao y Qun dom


Eficiente Minero de alta confidience reglas de asociacin sin apoyo Umbrales . PKDD . De
1999. [Ver Contexto ] .

Chun -Nan Hsu y Hilmar Schuschel y Ya- Ting Yang. El Enfoque ANNIGMA - Envoltura
con Redes Neuronales funcin de seleccin de Descubrimiento de Conocimiento y Minera
de Datos . Instituto de Ciencias de la Informacin . De 1999. [Ver Contexto ] .

Kai Ming Ting y Ian H. Witten . Problemas en Stacked generalizacin. J. Artif . Intell . Res. .
( JAIR , 10 . 1999 . [Ver Contexto ] .

Rudy Setiono y Huan Liu. NeuroLinear : De redes neuronales para las reglas de decisin
oblicuos. Neurocomputing , 17 . 1997 . [Ver Contexto ] .

. Seleccin Prototipo para compuestos Clasificadores vecino ms cercano . Departamento


de Informtica Universidad de Massachusetts. De 1997. [Ver Contexto ] .

Igor Kononenko y Edvard Simec y Marko Robnik - Sikonja . La superacin de la miopa de


los algoritmos de aprendizaje inductivo con RELIEFF . Appl . Intell , 7 . 1997 . [Ver
Contexto ] .

Jan C. Bioch y D. Meer y Rob Potharst . Bivariado rboles de decisin . PKDD . De 1997.
[Ver Contexto ] .

D. Randall Wilson y Roel Martinez . Aprendizaje Automtico : Actas de la Conferencia


Internacional Decimocuarta , Morgan. En Fisher. De 1997. [Ver Contexto ] .

Pedro Domingos . Control- Sensible Seleccin de caractersticas para los Estudiantes de


Lazy . Artif . Intell . Rev , 11 . 1997 . [Ver Contexto ] .

Floriana Esposito y Donato Malerba y Giovanni Semeraro . Un Anlisis Comparativo de


Mtodos para podar rboles de decisin . IEEE Trans . Patrn anal . Mach . Intell , 19 .
1997 . [Ver Contexto ] .

Kamal Ali y Michael J. Pazzani . Reduccin de errores a travs del aprendizaje mltiples
descripciones. Aprendizaje Automtico , 24 . 1996 . [Ver Contexto ] .

Ron Kohavi . El poder de las tablas de decisin . ECML . De 1995. [Ver Contexto ] .

Ron Kohavi y Dan Sommerfield . Funcin de seleccin de subconjuntos mediante el


mtodo de Envoltura : Overfitting y bsqueda dinmica espacial de topologa. KDD . De
1995. [Ver Contexto ] .

Peter D. Turney . Clasificacin sensibles al precio: evaluacin emprica de una Decisin


gentica hbrido Tree Induccin algoritmo . CoRR , csAI/9503102 . De 1995. [Ver Contexto
].

Gabor Melli . Un enfoque basado en modelos perezoso en On -Line Clasificacin.


Universidad de la Columbia Britnica. De 1989. [Ver Contexto ] .

Wl odzisl y Rafal Adamczak y Krzysztof Grzegorz Grabczewski y Zal . Un mtodo hbrido


para la extraccin de reglas lgicas de datos . Departamento de Mtodos
Computacionales , Universidad Nicols Coprnico. [Ver Contexto ] .

Wl odzisl / aw Duch y Karol Grudzinski . Buscar y minimizacin global de los mtodos


basados en la similitud. Departamento de Mtodos Computacionales , Universidad Nicols
Coprnico. [Ver Contexto ] .

Rudy Setiono y Wee Kheng Leow . Generacin de reglas de red entrenada utilizando
podas rpido. Escuela de la Universidad Nacional de Computacin de Singapur. [Ver
Contexto ] .

Elena Smirnova e Ida G. Sprinkhuizen - Kuyper y yo Nalbantis y b . ERIM y Universiteit


Rotterdam. La votacin unnime el uso de mquinas de soporte vectorial . IKAT ,
Universiteit Maastricht. [Ver Contexto ] .

Krista Lagus y Esa Alhoniemi y Jeremias Seppa y Antti Honkela y Arno Wagner. ANLISIS
INDEPENDIENTE GRUPO VARIABLE EN APRENDIZAJE REPRESENTACIN
COMPACTOS PARA DATOS . Centro de Investigacin de Redes Neuronales de la
Universidad Tecnolgica de Helsinki. [Ver Contexto ] .

Chiranjib Bhattacharyya y Pannagadatta K. S y Alexander J. Smola . Un segundo orden


Cono Formulacin de Programacin para la clasificacin de datos perdidos .
Departamento de Informtica y el Instituto Indio de Automatizacin de la Ciencia. [Ver
Contexto ] .

Ayhan Demiriz y Kristin P. Bennett. Captulo 1 Aprendizaje Supervisado -


OPTIMIZATIONAPPROACHESTOSEMI . Departamento de Ciencias de la Decisin y
Sistemas de Ingeniera y el Departamento de Ciencias Matemticas , Instituto Politcnico
Rensselaer . [Ver Contexto ] .

Adil M. Bagirov y John Yearwood . Un nuevo algoritmo de optimizacin no lisos para el


agrupamiento. Centro de Informtica y Optimizacin Aplicada de la Facultad de
Informtica y Ciencias Matemticas de la Universidad de Ballarat . [Ver Contexto ] .

Adil M. Bagirov y Alex Rubinov y AN Soukhojak y John Yearwood . Clasificacin de datos


no supervisada y supervisada a travs de no lisos y optimizacin global. Escuela de
Tecnologa de la Informacin y Ciencias Matemticas de la Universidad de Ballarat . [Ver
Contexto ] .

Bruce H. Edmonds . Usando localizadas ` chisme ' a la Estructura de Aprendizaje


Distribuido . Centro de Poltica Modelling. [Ver Contexto ] .

Kristin P. Bennett y Erin J. Bredensteiner . Geometra en el aprendizaje . Departamento de


Ciencias Matemticas del Instituto Politcnico Rensselaer . [Ver Contexto ] .

Rafael S. Parpinelli y Heitor S. Lopes y Alex Alves Freitas . CUARTA PARTE :


OPTIMIZACIN colonia de hormigas e Inmunolgico Captulo X Una colonia de hormigas
algoritmo para la Clasificacin Regla Discovery. CEFET -PR , Curitiba . [Ver Contexto ] .

Wl / odzisl / aw Duch y Karol Grudzinski y Geerd H. F Diercksen . Distancia mnima


mtodos neuronales . Departamento de Mtodos Computacionales , Universidad Nicols
Coprnico. [Ver Contexto ] .

John G. Cleary y Leonard E. Trigg . Las experiencias con el OB 1 , una decisin ptima
Bayes Tree alumno. Departamento de Informtica Universidad de Waikato . [Ver Contexto
].

Glenn Fung y Sathyakama Sandilya y R. Bharat Rao. Regla de extraccin a partir de


Mquinas de Vectores Soporte lineales . Computer- Aided Diagnosis & Therapy , Siemens
Medical Solutions, Inc. [Ver Contexto ] .

Ayhan Demiriz y Kristin P. Bennett y John Shawe y yo Nouretdinov V. . Programacin


Lineal Impulsar a travs de la generacin de columnas . Departamento de Ciencias de la
Decisin y el Ing. . Sistemas , el Instituto Politcnico Rensselaer . [Ver Contexto ] .

Zhi -Hua Zhou y Xu Ying Liu. Formacin de coste razonable para Redes Neuronales con
Mtodos abordar el problema del desequilibrio de clases. [Ver Contexto ] .

Liping Wei y Russ B. Altman. Un sistema automatizado para la generacin de perfiles


comparativo de Enfermedades y hacer diagnsticos . Seccin de Informtica Universidad
de Stanford Escuela de Medicina de Medicina, MSOB X215 . [Ver Contexto ] .

Federico Divina y Elena Marchiori . Manejo de atributos continuos en un Evolutiva


inductivo Learner . Departamento de Ciencias de la Computacin Vrije Universiteit . [Ver
Contexto ] .

Ron Kohavi y George H. John . Seleccin de parmetros automtica mediante la


minimizacin de error estimado . Ciencias de la Universidad de Stanford Dpto. Informtica
. [Ver Contexto ] .

H. -T Lin y C. Lin - J . Un estudio sobre sigmoide Ncleos de SVM y la formacin de los no


- PSD Granos por mtodos de tipo SMO . Departamento de Ciencias de la Computacin e
Ingeniera de la Informacin de la Universidad Nacional de Taiwn . [Ver Contexto ] .

Alexander K. Seewald . Disertacin hacia la comprensin de apilamiento Los estudios de


un general Ensemble Aprendizaje Esquema ausgefuhrt zum Zwecke der Erlangung des
akademischen Grados eines der Doktors technischen Naturwissenschaften . [Ver Contexto
].

Cita de pedidos:

Los autores de las bases de datos han solicitado que todas las publicaciones que resulten
del uso de los datos son los nombres del investigador principal responsable de la
recopilacin de datos en cada institucin . Ellos seran:
1 . Instituto Hngaro de Cardiologa. Budapest: Andras Janosi , M. D.
. 2 Hospital Universitario de Zurich , Suiza: William Steinbrunn , MD
. 3 Hospital Universitario de Basilea , Suiza: Matthias Pfisterer , MD
4 . V.A. Medical Center, Long Beach y Cleveland Clinic Foundation : Robert Detrano , MD ,
Ph.D....
Hepatitis Conjunto de datos 1988/11/01
Resumen:
Desde G.Gong: CMU; Sobre todo booleano o numrico valorado tipos de atributos; Incluye
datos sobre los costos (donado por Peter Turney).
Caractersticas
Nmero de
del Conjunto de Multivariante 155 rea: Vida
instancias:
datos:

Caractersticas del Categorico, Nmero de Fecha de


19 1988/11/01
atributo: Entero, Real atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin Si accesos 67662
perdidos?
Web:

Fuente:

Creador:

desconocido

Donante:

G.Gong (Universidad Carnegie-Mellon) a travs de


Bojan Cestnik
Jozef Stefan Institute
Jamova 39
61000 Ljubljana
Yugoslavia (tel.: (38) (61) 214-399 ext.287)}

Datos Conjunto de Informacin:

Por favor, pregunte Gail Gong para ms informacin sobre esta base de datos.

Atributo de la informacin:

1 clase:. MORIR, EN VIVO


. 2 EDAD: 10, 20, 30, 40, 50, 60, 70, 80
3 SEXO:. Macho, hembra
4 ESTEROIDES:. No, s
5 ANTIVIRALES:. No, s
6 FATIGA:. No, s
7 MALESTAR:. No, s
8 ANOREXIA:. No, s
. 9 BIG HGADO: no, s
. 10 FIRMA DE HGADO: no, s
. 11 PALPABLE BAZO: no, s
12 SPIDERS:. No, s
13 ASCITIS:. No, s
14 VARICES:. No, s
15 BILIRRUBINA:. 0.39, 0.80, 1.20, 2.00, 3.00, 4.00
- Vase la nota siguiente
. 16 FOSFATO ALK: 33, 80, 120, 160, 200, 250
17 SGOT:. 13, 100, 200, 300, 400, 500,
. 18 ALBMINA: 2.1, 3.0, 3.8, 4.5, 5.0, 6.0
. 19 del tiempo de protrombina: 10, 20, 30, 40, 50, 60, 70, 80, 90
20 HISTOLOGA:. No, s

El atributo BILIRRUBINA parece ser continuamente valorada. Comprob esto con el


donater, Bojan Cestnik, quien respondi:

Sobre el problema de la base de datos de la hepatitis y de la bilirrubina me gustara decir


lo siguiente: La bilirrubina es atributo continuo (= el nmero de que es "valores" en el
archivo ASDOHEPA.DAT es negativo); "Valores" se cotizan porque al hablar del atributo
continuo que no hay tal cosa como todos los valores posibles. Sin embargo, representan
los llamados valores "lmite"; de acuerdo con estos valores "lmite" el atributo puede ser
discretizado. Al mismo tiempo, debido a la atributo continuas, se puede realizar alguna
otra prueba ya que se conserva la informacin continua. Espero que estas lneas han al
menos aproximadamente respondido a su pregunta.

Documentos pertinentes:

Diaconis, P. Y Efron, B. (1983). Mtodos ordenador-intensivos en Estadstica. Scientific


American, volumen 248.
[Web Link]

Cestnik, G., Konenenko, I, y Bratko, I. (1987). Asistente-86: Un Conocimiento Elicitation


herramienta para usuarios avanzados. En I.Bratko y N.Lavrac (Eds.) Avances en
Aprendizaje Automtico, 31-45, Sigma Press.
[Web Link]

Documentos que citan el Set1 datos:

Amaury Habrard y Marc Bernard y Marc Sebban. IOS Press Deteccin Subtrees
irrelevantes para mejorar Probabilstico Aprendiendo de datos con estructura de rbol.
Fundamenta Informaticae. 2004. [Ver Contexto].

Jinyan Li y Limsoon Wong. Uso de reglas para el Anlisis de Datos Bio-mdica: una
comparacin entre C4.5 y PCL. Waim. 2003. [Ver Contexto].

Michael L. Raymer y Travis E. Doom y Leslie A. Kuhn y William F. Punch. Descubrimiento


de conocimientos en bases de datos mdicas y biolgicas utilizando un clasificador de
Bayes / algoritmo evolutivo hbrido. Transacciones de IEEE en Sistemas, Hombre y
Ciberntica, Parte B, 33. 2003. [Ver Contexto].

Zhi-Hua Zhou y Jiang Yuan y Shifu Chen. La extraccin de reglas simblicas de conjuntos
de redes neuronales entrenadas. AI Commun, 16. 2003. [Ver Contexto].

Xiaoli Z. Helecho y Carla Brodley. Impulsar rboles de decisin de Lazy. ICML. 2003. [Ver
Contexto].

Takashi Matsuda y Hiroshi Motoda y Tetsuya Yoshida y Takashi Washio. Patrones de


minera de datos estructurados de induccin basado en grafos de haz-Wise. Discovery
Science. 2002. [Ver Contexto].

Wl / odzisl / aw Duch y Karol Grudzinski. Conjuntos de modelos basados en similitud.


Sistemas de Informacin Inteligentes. De 2001. [Ver Contexto].
Gary M. Weiss y Haym Hirsh. Un estudio cuantitativo de Pequeos disyunciones:
Experimentos y Resultados. Departamento de Ciencias de la Universidad de Rutgers
Computer. 2000. [Ver Contexto].

Petri Kontkanen y Petri Myllym y Tomi Silander y Henry Tirri y Peter Gr. En las
distribuciones predictivas y las redes bayesianas. Departamento de Ciencias de la
Computacin de la Universidad de Stanford. 2000. [Ver Contexto].

David W. Opitz y Richard Maclin. Populares Ensemble Mtodos: Un estudio emprico. J.


Artif. Intell. Res.. (JAIR, 11. 1999. [Ver Contexto].

Yk Huhtala y Juha Krkkinen y Pasi Porkka y Hannu Toivonen. Descubrimiento eficiente


de las dependencias funcionales y aproximadas utilizando particiones. ICDE. De 1998.
[Ver Contexto].

. Seleccin Prototipo para compuestos Clasificadores vecino ms cercano. Departamento


de Informtica Universidad de Massachusetts. De 1997. [Ver Contexto].

Floriana Esposito y Donato Malerba y Giovanni Semeraro. Un Anlisis Comparativo de


Mtodos para podar rboles de decisin. IEEE Trans. Patrn anal. Mach. Intell, 19. 1997.
[Ver Contexto].

Ron Kohavi. El poder de las tablas de decisin. ECML. De 1995. [Ver Contexto].

Peter D. Turney. Clasificacin sensibles al precio: evaluacin emprica de una Decisin


gentica hbrido Tree Induccin algoritmo. CoRR, csAI/9503102. De 1995. [Ver Contexto].

Christophe Giraud y Tony Martnez y Christophe G. Giraud-Carrier. Universidad del


Departamento de Ciencias de la Computacin de la ILA Bristol: Combinar inductivo de
aprendizaje con el conocimiento previo y razonamiento. De 1995. [Ver Contexto].

Gabor Melli. Un enfoque basado en modelos perezoso en On-Line Clasificacin.


Universidad de la Columbia Britnica. De 1989. [Ver Contexto].

Zhi-Hua Zhou y Xu Ying Liu. Formacin de coste razonable para Redes Neuronales con
Mtodos abordar el problema del desequilibrio de clases. [Ver Contexto].

Rafael S. Parpinelli y Heitor S. Lopes y Alex Alves Freitas. CUARTA PARTE:


OPTIMIZACIN colonia de hormigas e Inmunolgico Captulo X Una colonia de hormigas
algoritmo para la Clasificacin Regla Discovery. CEFET-PR, Curitiba. [Ver Contexto].

Wl / odzisl / aw Duch y Rafal Adamczak y Geerd H. F Diercksen. Redes Neuronales de


perspectiva basada Similitud. Departamento de Mtodos Computacionales, Universidad
Nicols Coprnico. [Ver Contexto].

Wl / odzisl / aw Duch y Karol Grudzinski y Geerd H. F Diercksen. Distancia mnima


mtodos neuronales. Departamento de Mtodos Computacionales, Universidad Nicols
Coprnico. [Ver Contexto].

Wl odzisl y Rafal Adamczak y Krzysztof Grabczewski. Optimizacin de reglas lgicas


derivadas de procedimientos neuronales. Departamento de Mtodos Computacionales,
Universidad Nicols Coprnico. [Ver Contexto].

Wl / odzisl / aw Duch y Rafal Adamczak y Geerd H. F Diercksen. Clasificacin, Asociacin


y el patrn de finalizacin utilizando neuronales Mtodos basados en la similitud.
Departamento de Mtodos Computacionales, Universidad Nicols Coprnico. [Ver
Contexto].

Elena Smirnova e Ida G. Sprinkhuizen-Kuyper y yo Nalbantis y b. ERIM y Universiteit


Rotterdam. La votacin unnime el uso de mquinas de soporte vectorial. IKAT,
Universiteit Maastricht. [Ver Contexto].

Rafael S. Parpinelli y Heitor S. Lopes y Alex Alves Freitas. Un sistema basado en Colonia
de Hormigas para minera de datos: Aplicaciones a los datos mdicos. CEFET-PR, CPGEI
Av. Sete de Setembro, 3165. [Ver Contexto].

Suresh K. Choubey y Jitender S. Deogun y Vijay V. Raghavan y Hayri Sever. Una


comparacin de los algoritmos de seleccin de caractersticas en el contexto de los
clasificadores en bruto. [Ver Contexto].

Takao Mohri y Hidehiko Tanaka. Una de indexacin ptima Ponderacin Criterio de caso
tanto numrico y atributos simblicos. Informacin Ingeniera Curso de la Facultad de
Ingeniera de la Universidad de Tokio. [Ver Contexto].

Wl / odzisl / aw Duch y Rafal / Adamczak Email: duchraad @ fs. uni. Torun. pl. Mtodos
estadsticos para la construccin de las redes neuronales. Departamento de Mtodos
Computacionales, Universidad Nicols Coprnico. [Ver Contexto].

Chris Drummond y Robert C. Holte. C4.5, desequilibrio de clases, y costo Sensibilidad:


Por qu sub-muestreo late sobremuestreo. Instituto para la Tecnologa de la Informacin,
el Consejo de Investigacin Nacional de Canad. [Ver Contexto].

Alexander K. Seewald. Disertacin hacia la comprensin de apilamiento Los estudios de


un general Ensemble Aprendizaje Esquema ausgefuhrt zum Zwecke der Erlangung des
akademischen Grados eines der Doktors technischen Naturwissenschaften. [Ver
Contexto].

Ida G. Sprinkhuizen-Kuyper y Elena Smirnova y yo Nalbantis. Confiabilidad produce


ganancia de informacin. IKAT, Universiteit Maastricht. [Ver Contexto].

Christophe Giraud y Tony Martnez. RED INCREMENTAL adinmica QUE APRENDE


POR DISCRIMINACIN. AA. [Ver Contexto].

Federico Divina y Elena Marchiori. Manejo de atributos continuos en un Evolutiva inductivo


Learner. Departamento de Ciencias de la Computacin Vrije Universiteit. [Ver Contexto].

Cita de pedidos:

Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine


HIGGS Data Set 02/12/2014
Resumen:
Este es un problema de clasificacin para distinguir entre un proceso de seal que
produce bosones de Higgs y un proceso de fondo que no lo hace.
Caractersticas
Nmero de
del Conjunto de N/A 11000000 rea: Fsico
instancias:
datos:

Caractersticas Nmero de Fecha de


Real 28 02/12/2014
del atributo: atributos: Donacin

Nmero
Tareas Valores de
Clasificacin N/A 6260
asociadas: perdidos? accesos
Web:

Fuente :

Daniel Whiteson daniel '@' uci.edu , Profesor Asistente , Fsica y Astronoma , Universidad
. de California Irvine

Datos Conjunto de Informacin :

Los datos se han producido utilizando simulaciones de Monte Carlo . Los primeros 21
elementos (columnas 2-22 ) son propiedades cinemticas medidos por los detectores de
partculas en el acelerador . Los ltimos siete caractersticas son funciones de las primeras
21 funciones ; estas son las caractersticas de alto nivel procedentes de los fsicos para
ayudar a discriminar entre las dos clases . Hay un inters en el uso de mtodos de
aprendizaje profundas para evitar la necesidad de los fsicos para desarrollar
manualmente dichas caractersticas. Resultados de referencia que utilizan rboles de
decisin bayesiana a partir de un paquete de fsica estndar y las redes neuronales de 5
capas se presentan en el documento original . Los ltimos 500.000 ejemplos se utilizan
como una prueba de conjunto .

Atributo de la informacin:

La primera columna es la etiqueta de clase , seguido de las 28 caractersticas . Para


obtener informacin detallada acerca de cada funcin ver el documento original .

Documentos pertinentes:

Baldi, Sadowski y Whiteson , Bsquedas mejoradas para partculas exticas con tcnicas
de aprendizaje profundo , ( en la presentacin ) .

Cita de pedidos:

Baldi, Sadowski y Whiteson , Bsquedas mejoradas para partculas exticas con tcnicas
de aprendizaje profundo , ( en la presentacin ) .
Hill-Valley Data Set 2008/03/20
Resumen:
Cada registro representa 100 puntos en un grfico bidimensional. Cuando se trazan en
orden (de 1 a 100) como la coordenada Y, los puntos van a crear ya sea un Hill (una
"protuberancia" en el terreno) o un valle (un "inmersin" en el terreno).
Caractersticas del
Nmero de
Conjunto de Secuencial 606 rea: N/A
instancias:
datos:

Caractersticas del Nmero de Fecha de


Real 101
atributo: atributos: Donacin
2008/03/20

Nmero de
Valores
Tareas asociadas: Clasificacin N/A accesos 33045
perdidos?
Web:

Fuente:

Lee Graham (lee '@' stellaralchemy.com)

Franz Oppacher (Oppacher '@' scs.carleton.ca)


Carleton University, Departamento de Ciencias de la Computacin
Unidad de Investigacin en Sistemas Inteligentes
1125 Colonel By Drive, Ottawa, Ontario, Canad, K1S5B6

Datos Conjunto de Informacin:

Cada registro representa 100 puntos en un grfico bidimensional. Cuando se trazan en


orden (de 1 a 100) como la coordenada Y, los puntos van a crear ya sea un Hill (una
"protuberancia" en el terreno) o un valle (un "inmersin" en el terreno).

Hay seis archivos, como sigue:

(A) Hill_Valley_without_noise_Training.data
(B) Hill_Valley_without_noise_Testing.data

Estos dos primeros conjuntos de datos (sin ruido) son un par conjunto de entrenamiento /
prueba donde las colinas o valles tienen una transicin sin problemas.

(C) Hill_Valley_with_noise_Training.data
(D) Hill_Valley_with_noise_Testing.data

Estos prximos dos conjuntos de datos (con ruido) son un par conjunto de entrenamiento /
prueba donde el terreno es desigual, y la colina o valle no es tan evidente cuando se ve de
cerca.

(E) Hill_Valley_sample_arff.text

El archivo de ejemplo ARFF es til para la creacin de experimentos, pero no es


necesario.

(F) Hill_Valley_visual_examples.jpg
Este archivo grfico muestra dos casos de ejemplo de los datos.

Atributo de la informacin:

1-100: Etiquetado "X # #". Valores de punto flotante (numrico)


101: "clase" con etiqueta. Binary {0, 1} {representando valle, colina}

Documentos pertinentes:

1. No publicada. Evaluacin del conjunto de datos por diferentes algoritmos de aprendizaje


en el entorno de Waikato de Anlisis del Conocimiento (WEKA).

Cita de pedidos:

Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine

Caballo clico Conjunto de 1989/08/06


datos
Resumen:
Atributos Bien documentado; 368 casos con 28 atributos (continuos, discretos, y
nominales); 30% de los valores que faltan.
Caractersticas
Nmero de
del Conjunto de Multivariado 368 rea: Vida
instancias:
datos:

Caractersticas del Categorico, Nmero de Fecha de


27 1989/08/06
atributo: Entero, Real atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin Si accesos 36247
perdidos?
Web:

Fuente :

Creadores:

Mara McLeish & Matt Cecile


Departamento de Ciencias de la Computacin
Universidad de Guelph
Guelph , Ontario, Canada N1G 2W1
mdmcleish '@' water.waterloo.edu

Donante:

Will Taylor ( taylor '@' pluto.arc.nasa.gov )

Datos Conjunto de Informacin :

2 archivos de datos :
- Caballos colic.data : 300 casos de formacin
- Caballos colic.test : 68 casos de prueba

Atributos de clase posible: 24 ( si la lesin es quirrgica)


- Los dems son: 23 , 25 , 26 y 27

Muchos tipos de datos: (continua, discreta , y nominal)

Atributo de la informacin:

1 : la ciruga?
1 = S, se someti a una ciruga
2 = Se fue tratado sin ciruga

2 : Edad
1 = caballo adulto
2 = joven ( < 6 meses)

3 : Nmero del Hospital


- Identificacin numrica
- El nmero de caso asignado a caballo ( no puede ser nica si el caballo es tratado > 1
hora )

Temperatura rectal : 4
- lineal
- En grados celsius .
- Una temperatura elevada puede ocurrir debido a la infeccin .
- La temperatura se puede reducir cuando el animal est en estado de shock tarde
- La temperatura normal es de 37,8
- Este parmetro suele cambiar a medida que el problema avanza, por ejemplo . que
puede comenzar normal, entonces se elevan debido a la lesin , pasar de nuevo a travs
del rango normal como el caballo entra en shock
5 : pulso
- lineal
- La frecuencia cardiaca en pulsaciones por minuto
- Es un reflejo de la condicin del corazn : 30 -40 es normal para los adultos
- Raro tener un tipo inferior al de la normalidad , aunque los caballos deportivos pueden
tener una tasa de 20 a 25
- Los animales con lesiones dolorosas o que sufren de shock circulatorio pueden tener un
ritmo cardaco elevado

6 : la frecuencia respiratoria
- lineal
- Tarifa normal es de 8 a 10
- Utilidad es dudosa debido a las grandes fluctuaciones

7 : la temperatura de las extremidades


- Una indicacin subjetiva de la circulacin perifrica
- Valores posibles:
1 = Normal
2 = Warm
3 = fro
4 = Fra
- Cool a extremidades fras indican posibles descargas
- Extremidades calientes deben correlacionar con una temperatura rectal elevada .
8 : pulso perifrico
- subjetiva
- Los valores posibles son :
1 = normal
2 = aumentaron
3 = la reduccin de
4 = ausente
- P.p. normal o aumentada son indicativos de una circulacin adecuada mientras reducida
o ausente indican mala perfusin

9 : membranas mucosas
- Una medicin subjetiva del color
- Los valores posibles son :
1 = rosa normales
2 = rosa brillante
3 = rosa plido
4 = plido ciantica
5 = rojo brillante / inyectado
6 = ciantica oscura
- 1 y 2 probablemente indican una circulacin normal o levemente aumentada
- 03 de mayo producirse una descarga temprana
- 4 y 6 son indicativos de grave compromiso circulatorio
- La figura 5 es ms indicativo de una septicemia

10 : tiempo de llenado capilar


- Un juicio clnico. Cuanto ms larga sea la recarga , el ms pobre de la circulacin
- Los valores posibles
1 = <3 segundos
2 = > = 3 segundos

11 : dolor - un juicio subjetivo del nivel de dolor del caballo


- Valores posibles:
1 = alerta , no hay dolor
2 = deprimido
3 = dolor leve intermitente
4 = dolor intenso intermitente
5 = dolor intenso continuo
- No debe ser tratado como una variable ordenada o discreta !
- En general, el ms doloroso , lo ms probable es que requieren ciruga
- El tratamiento previo de dolor puede enmascarar el nivel de dolor en alguna medida

12 : peristaltismo
- Una indicacin de la actividad en el intestino del caballo. Como el intestino se vuelve ms
distendido o el caballo se vuelve ms txica , la actividad disminuye
- Valores posibles:
1 = hypermotile
2 = normal
3 = hipomotilidad
4 = ausente

13 : distensin abdominal
- Un parmetro importante .
- Los valores posibles
1 = ninguno
2 = leve
3 = moderado
4 = grave
- Un animal con distensin abdominal es probable que sea doloroso y han reducido la
motilidad intestinal .
- Un caballo con distensin abdominal severa es probable que requiera ciruga slo tio
aliviar la presin

14 : sonda nasogstrica
- Esto se refiere a cualquier gas que sale del tubo
- Valores posibles:
1 = ninguno
2 = leve
3 = significativo
- Una tapa de gas grande en el estmago es probable que d el malestar caballo

15 : reflujo nasogstrica
- Los valores posibles
1 = ninguno
2 = > 1 litro
3 = < 1 litro
- La mayor cantidad de reflujo , ms probabilidad de que hay una cierta serio obstculo
para el paso de fluido desde el resto del intestino

16 : nasogstrica PH reflujo
- lineal
- Escala es de 0 a 14 con 7 es neutro
- Valores normales estn en el rango de 3 a 4

17 : examen rectal - heces


- Los valores posibles
1 = normal
2 = aumentaron
3 = disminuyeron
4 = ausente
- Heces ausentes probablemente indica una obstruccin

18 : abdomen
- Los valores posibles
1 = normal
2 = otro
3 = heces firmes en el intestino grueso
4 = distiende el intestino delgado
5 = distiende el intestino grueso
- 3 es probablemente una obstruccin causada por una retencin mecnica y se trata
normalmente de vista mdico
- 4 y 5 indican una lesin quirrgica

19 : hematocrito
- lineal
- El # de clulas rojas en volumen en la sangre
- Rango normal es de 30 a 50 El nivel aumenta a medida que la circulacin se convierte en
peligro o cuando el animal se deshidrata. .

20 : protena total
- lineal
- Los valores normales se encuentran en el rango de 6 a 7,5 ( g / dL)
- Cuanto mayor sea el valor mayor es la deshidratacin

Apariencia abdominocentesis : 21
- Se introduce una aguja en el abdomen y el lquido del caballo se obtiene de
la cavidad abdominal
- Valores posibles:
1 = claro
2 = nublado
3 = serosanguinolento
- Normal de lquido es claro , mientras turbia o serosanguinolento indica un intestino
comprometido

Protena total abdomcentesis : 22


- lineal
- Cuanto mayor sea el nivel de protena ms probable es tener un intestino comprometida.
Los valores estn en g / dl

23 : resultados
- Lo que finalmente sucedi con el caballo?
- Valores posibles:
1 = duracin
2 = murieron
3 = se practic la eutanasia

24 : lesin quirrgica?
- Retrospectivamente , era el problema (lesin) quirrgica?
- Todos los casos se operan ya sea sobre o realiz la autopsia a fin de que este valor y el
tipo de lesin son siempre conocidos
- Valores posibles:
1 = S
2=n

25 , 26, 27 : tipo de lesin


- Primer nmero es el sitio de la lesin
1 = gstrica
2 = SM intestino
3 = lg de colon
4 = lg de colon y el ciego
5 = ciego
6 = colon transverso
7 = retomo / colon descendente
8 = tero
9 = vejiga
11 = todos los sitios intestinales
00 = ninguno
- Segundo nmero es el tipo
1 = fcil
2 = estrangulacin
3 = inflamacin
4 = otro
- Tercer nmero es el subtipo
1 = mecnico
2 = paraltica
0=n/a
- Cuarto nmero es cdigo especfico
1 = la obturacin
2 = intrnseca
3 = extrnseca
4 = adinmica
5 = vlvulo / torsin
6 = intussuption
7 = tromboemblica
8 = hernia
9 = lipoma / encarcelamiento slenic
10 = desplazamiento
0=n/a
28 : cp_data
- Son datos de la patologa presente en este caso?
1 = S
2=n
- Esta variable no es significativo ya que los datos patologa no se incluye o se recoge
para estos casos

Documentos pertinentes:

N/A

Documentos que citan el Set1 datos:

Julie Greensmith . Nuevas fronteras para un sistema inmune artificial . Digital Media
Laboratorio de Sistemas HP Laboratorios Bristol. 2003 . [Ver Contexto ] .

Richard Nock y Marc Sebban y David Bernard . A SIMPLE REGLA LOCAL DE


ADAPTACIN MS CERCANO VECINO CON APLICACIN A LA PREDICCIN DE LA
CONTAMINACIN . Revista Internacional de Reconocimiento de Formas e Inteligencia
Artificial Vol. . 2003 . [Ver Contexto ] .

Huan Liu y Hiroshi Motoda y Lei Yu. Seleccin de caractersticas con Muestreo Selectivo .
ICML . 2002 . [Ver Contexto ] .

Marc Sebban y Richard Nock y Stphane Lallich . Detener Criterio de tcnicas de


reduccin de datos Impulsar basada en : a partir de binario a multiclase problema . Journal
of Machine Learning Research , 3 . 2002 . [Ver Contexto ] .

Mukund Deshpande y George Karypis . El uso conjunto de los valores de los atributos
para la clasificacin. CIKM . 2002 . [Ver Contexto ] .

Mark A. Hall. Departamento de Ciencias de la Computacin Hamilton, Nueva Zelandia


basada en correlacin Seleccin de caractersticas para el Aprendizaje de la mquina .
Doctor en Filosofa en la Universidad de Waikato . De 1999. [Ver Contexto ] .

Kai Ming Ting y Ian H. Witten . Problemas en Stacked generalizacin. J. Artif . Intell . Res. .
( JAIR , 10 . 1999 . [Ver Contexto ] .

Eibe Frank y Ian H. Witten . Generando Regla Precisa Establece Sin Optimizacin Global.
ICML . De 1998. [Ver Contexto ] .

Gabor Melli . Un enfoque basado en modelos perezoso en On -Line Clasificacin.


Universidad de la Columbia Britnica. De 1989. [Ver Contexto ] .

H. Altay T uvenir y Aynur Akkus . PONDERADO K MAS CERCANA CLASIFICACIN


VECINO DE PROYECCIONES DE FUNCIONES . Departamento de Ingeniera Informtica
y Ciencias de la Informacin de la Universidad Bilkent . [Ver Contexto ] .
Kai Ming Ting y Ian H. Witten . Generalizacin Stacked : cuando funciona . Departamento
de Informtica Universidad de Waikato . [Ver Contexto ] .

Alexander K. Seewald . Disertacin hacia la comprensin de apilamiento Los estudios de


un general Ensemble Aprendizaje Esquema ausgefuhrt zum Zwecke der Erlangung des
akademischen Grados eines der Doktors technischen Naturwissenschaften . [Ver Contexto
].

James J. Liu y James Estao y Yau Kwok . Un Algoritmo Gentico Induccin Regla
extendido . Departamento de Ciencias de la Universidad de Wuhan ordenador . [Ver
Contexto ] .

Cita de pedidos:

Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine

Vivienda de conjunto de 1993/07/07


datos
Resumen:
Tomado de la biblioteca StatLib.
Caractersticas del
Nmero de
Conjunto de Multivariado 506 rea: N/A
instancias:
datos:

Caractersticas del Categorico, Nmero de Fecha de


14 1993/07/07
atributo: Entero, Real atributos: Donacin

Nmero de
Valores
Tareas asociadas: Regresin No accesos 97678
perdidos?
Web:

Fuente :

Origen :

Este conjunto de datos fue tomada de la biblioteca StatLib que se mantiene en la


Universidad Carnegie Mellon .

Creador:

Harrison , D. y Rubinfeld , D. L.
' Precios hednicos y la demanda de aire limpio ', J. Environ . Economa y Gestin , vol.5,
81-102 , 1978 .

Datos Conjunto de Informacin :

Preocupaciones valor de la vivienda en los suburbios de Boston .


Atributo de la informacin:

1 CRIM : . Tasa de criminalidad per cpita por municipio


. 2 ZN : proporcin de suelo residencial dividido en zonas para las porciones ms de
25.000 pies cuadrados
. 3 INDUS : proporcin de acres de negocios no minoristas por la ciudad
4 CHAS : . Charles River variable ficticia ( = 1 si los lmites de las vas fluviales; 0 en caso
contrario )
. 5 NOX : concentracin de xidos de nitrgeno ( partes por 10 millones de dlares )
6 RM: . Nmero promedio de habitaciones por vivienda
. 7 EDAD: proporcin de unidades ocupadas por sus propietarios construidas antes de
1940
8 : DIS . Distancias ponderadas a cinco centros de empleo de Boston
9 RAD : . ndice de la accesibilidad a las autopistas radiales
10 DE IMPUESTOS : . Valor total tasa de impuestos sobre bienes por $ 10,000
11 PTRATIO : . Nmero de alumnos por profesor por municipio
12 B: . 1000 ( Bk - 0,63) ^ 2 donde Bk es la proporcin de los negros por la ciudad
13 LSTAT : . Status % inferior de la poblacin
14 MEDV : . Valor mediano de las viviendas ocupadas por sus propietarios en $ 1000

Documentos pertinentes:

Belsley , Kuh y Welsch , ' diagnsticos de regresin : Datos identificativos influyentes y


fuentes de colinealidad ", Wiley , 1980 244-261 . .
[Web Link]

Quinlan , R. ( 1993 ) . Combinando Instancia - con base y basado en modelos de


aprendizaje . En Actas de la Dcima Conferencia Internacional de Aprendizaje Automtico
, 236-243 , Universidad de Massachusetts, Amherst. Morgan Kaufmann .
[Web Link]

Documentos que citan el Set1 datos:

Manuel Oliveira. Biblioteca de formularios de lanzamiento Nombre del Autor : Stanley


Robson de Oliveira Medeiros Ttulo de la tesis: transformacin de datos para la privacidad
- Preservar Data Mining Titulacin: Doctor en Filosofa Ao este ttulo otorgado .
Universidad de Alberta Library . 2005 . [Ver Contexto ] .

Gavin Brown. La diversidad en Neuronales Conjuntos de red. La Universidad de


Birmingham. 2004 . [Ver Contexto ] .

Predrag Radivojac y Zoran Obradovic y A. Keith Dunker y Slobodan Vucetic . Filtros de


seleccin de caractersticas basado en el test de permutacin . ECML . 2004 . [Ver
Contexto ] .

Glenn Fung y M. Murat Dundar y Jinbo Bi y Bharat Rao. Un algoritmo rpido iterativo para
fisher discriminante utilizando ncleos heterogneos. ICML . 2004 . [Ver Contexto ] .

Kristiaan Pelckmans y Jos De Brabanter y JA K Suykens y Bart De Moor y KU Leuven -


ESAT . El Differogram : Ruido No paramtrico de estimacin de varianza y su uso para la
seleccin del modelo . SCDSISTA . 2004 . [Ver Contexto ] .

Bart Hamers y J. A. K Suykens . Junto transductivo Ensemble Aprendizaje de Modelos


Kernel . Bart De Moor . 2003 . [Ver Contexto ] .
Christopher KI Williams y Carl Edward Rasmussen y Anton Schwaighofer y Volker Tresp .
Observaciones sobre el Mtodo Nystrom de Prediccin Proceso de Gauss . Divisin de
Informtica de Gatsby de Neurociencia Computacional de la Universidad de la Universidad
de Edimburgo Unidad College de Londres. 2002 . [Ver Contexto ] .

. Thomas Melluish y Craig Saunders y Ilia Nouretdinov y Volodia Vovk y Carol S. Saunders
y yo Nouretdinov V. El marco tipicidad : una comparacin con el enfoque bayesiano .
Departamento de Ciencias de la Computacin . De 2001. [Ver Contexto ] .

Martin H C Law y James T. Kwok . Aplicando el Marco Evidencia bayesiano para u- Apoyo
Vector de regresin . ECML . De 2001. [Ver Contexto ] .

Peter L. Hammer y Alexander Kogan y Bruno Simeone y Sandor Szedm'ak . R u t c o r


Investigacin R e p o r t . Rutgers Centro de Investigacin Operativa de la Universidad de
Rutgers. De 2001. [Ver Contexto ] .

Zhi -Hua Zhou y Wu Jianping y Weiyu Tang y Zen Chen. Combinando Regresin
Estimadores : Basado -GA selectiva red neuronal Ensemble. Revista Internacional de
Inteligencia Computacional y Aplicaciones, 1 . 2001 . [Ver Contexto ] .

David Hershberger y Hillol Kargupta . Distribuido multivariado de regresin utilizando


basada en ondas de minera de datos colectiva . J. Distrib paralelo . Comput , 61. 2001 .
[Ver Contexto ] .

Nir Friedman y Iftach Najman . Redes de procesos de Gauss. UAI . 2000 . [Ver Contexto ] .

Endre Boros y Peter Hammer y Toshihide Ibaraki y Alexander Kogan y Eddy Mayoraz e
Ilya B. Muchnik . Una Aplicacin del anlisis lgico de datos . IEEE Trans . Conocimiento .
Datos Eng, 12 . 2000 . [Ver Contexto ] .

Rudy Setiono y Huan Liu. Un enfoque conexionista a la generacin de rboles de decisin


oblicuas . Transacciones de IEEE en Sistemas , Hombre y Ciberntica , Parte B, 29 . 1999
. [Ver Contexto ] .

Jinyan Li y Zhang Xiuzhen y Guozhu Dong y Kotagiri Ramamohanarao y Qun dom


Eficiente Minero de alta confidience reglas de asociacin sin apoyo Umbrales . PKDD . De
1999. [Ver Contexto ] .

Christopher J. Merz y Michael J. Pazzani . A Componentes Principales Aproximacin al


combinar las estimaciones de regresin . Aprendizaje Automtico , 36. 1999 . [Ver
Contexto ] .

H. Altay Gvenir y Ilhan Uysal . Regresin en las proyecciones de caractersticas. un


Departamento de Ingeniera Informtica de la Universidad Bilkent . De 1999. [Ver Contexto
].

Ayhan Demiriz y Kristin P. Bennett y Mark J. Embrechts . Clustering semi - supervisado


Usando Algoritmos Genticos . Dept. de 1999. [Ver Contexto ] .

Liu Huan y Rudy Setiono . Caracterstica Transformacin y Decisin multivariado Tree


induccin . Discovery Science . De 1998. [Ver Contexto ] .

Mauro Birattari y Gianluca Bontempi y Hugues Bersini . Lazy Learning Cumple los mnimos
cuadrados recursivos del algoritmo . PNI. De 1998. [Ver Contexto ] .

Sreerama K. Murthy y Simon Kasif y Steven Salzberg . Un Sistema de Induccin de


Oblicua rboles de decisin . Departamento de Ciencias de la Computacin Universidad
Johns Hopkins. De 1994. [Ver Contexto ] .

Ayhan Demiriz y Kristin P. Bennett. Captulo 1 Aprendizaje Supervisado -


OPTIMIZATIONAPPROACHESTOSEMI . Departamento de Ciencias de la Decisin y
Sistemas de Ingeniera y el Departamento de Ciencias Matemticas , Instituto Politcnico
Rensselaer . [Ver Contexto ] .

Luc Hoegaerts y JA K Suykens y J. Vandewalle y Bart De Moor . Mnimos Cuadrados


Subset Basado subespacial Regresin en RKHS . Katholieke Universiteit Departamento de
Ingeniera Elctrica Lovaina, ESAT- SCD- SISTA . [Ver Contexto ] .

S. Sathiya Keerthi . Mejoras en SMO algoritmo SVM para regresin . Autor para la
correspondencia : Prof. [Ver Contexto ] .

Jarkko Tikka . AB HELSINKI Universidad del Departamento de Tecnologa de


Automatizacin y Sistemas de Tecnologa de Jarkko Tikka Aprendizaje rboles de
dependencias lineales de datos multivariantes . Universidad Tecnolgica de Helsinki
Resumen de Departamento tesis de maestra de la Automatizacin y Sistemas de
Tecnologa Autor Fecha . [Ver Contexto ] .

David R. Musicant . MINERA DE DATOS A TRAVS DE PROGRAMACIN


MATEMTICA Y EL APRENDIZAJE DE LA MQUINA . Doctor en Filosofa ( Ciencias de
la Computacin ) UNIVERSIDAD . [Ver Contexto ] .

Ayhan Demiriz y Kristin P. Bennett y John Shawe y yo Nouretdinov V. . Programacin


Lineal Impulsar a travs de la generacin de columnas . Departamento de Ciencias de la
Decisin y el Ing. . Sistemas , el Instituto Politcnico Rensselaer . [Ver Contexto ] .

Jianping Wu y Zhi -Hua Zhou y Chen Cheng- La . Ensemble de GA basa selectiva red
neuronal Conjuntos . Laboratorio Nacional de Novela Software Tecnologa de la
Universidad de Nanjing. [Ver Contexto ] .

C. Tito Brown y Harry W. Bullen y Sean P. Kelly y Robert K. Xiao y Steven G. Satterfield y
John G. Hagedorn y Judith E. Devaney . Visualizacin y Minera de Datos en un inmersivo
entorno 3D : Proyecto de Verano 2003 [Ver Contexto ] . .

David R. Musicant y Alexander Feinberg. Set Active Support Vector de regresin . [Ver
Contexto ] .

Nir Friedman y Daphne Koller ( Koller @ cs . Stanford . Edu. Un enfoque bayesiano para
Estructurar Discovery en redes bayesianas . Facultad de Ciencias de la Computacin y de
Ingeniera Universidad Hebrea . [Ver Contexto ] .
Humano Reconocimiento 2012/12/10
Actividad Usando
Smartphones Conjunto de
datos
Resumen:
Base de datos de reconocimiento de la actividad humana construido a partir de las
grabaciones de los 30 sujetos que realizan actividades de la vida diaria (AVD) en el
ejercicio de un smartphone montado en la cintura con sensores inerciales embebidos.
Caractersticas Multivariado,
Nmero de
del Conjunto de tiempo de 10299 rea: Ordenador
instancias:
datos: serie

Caractersticas Nmero de Fecha de


N/A 561 2012/12/10
del atributo: atributos: Donacin

Nmero de
Tareas Clasificacin, Valores
N/A accesos 72255
asociadas: clustering perdidos?
Web:

Fuente :

Jorge L. Reyes- Ortiz, Davide Anguita , Alessandro Ghio , Luca Oneto .


Smartlab - No Lineal Laboratorio Sistemas Complejos
DITEN - Universit degli Studi di Genova , Gnova I- 16145 , Italia.
activityrecognition "@" smartlab.ws
www.smartlab.ws

Datos Conjunto de Informacin :

Los experimentos se han llevado a cabo con un grupo de 30 voluntarios dentro de una
franja de edad de 19-48 aos . Cada persona lleva a cabo seis actividades (caminar,
WALKING_UPSTAIRS , WALKING_DOWNSTAIRS , sentado, de pie , Acostado ) usando
un telfono inteligente (Samsung Galaxy S II ) en la cintura. Uso de su acelermetro y un
giroscopio integrado , hemos capturado aceleracin lineal 3 - axial y velocidad angular 3 -
axial a una velocidad constante de 50Hz . Los experimentos se han registrado -video para
etiquetar los datos de forma manual . El conjunto de datos obtenidos se ha dividido
aleatoriamente en dos grupos , en los que se seleccion el 70 % de los voluntarios para la
generacin de los datos de entrenamiento y 30% de los datos de prueba.

Las seales del sensor ( acelermetro y giroscopio ) fueron pre - procesados por la
aplicacin de filtros de ruido y luego muestreados en ancho fijo ventanas correderas de
2,56 seg y 50 % de superposicin ( 128 lecturas / ventana) . La seal de aceleracin del
sensor , que tiene componentes de movimiento gravitacionales y corporales , se separ
usando un filtro de paso bajo Butterworth en aceleracin cuerpo y la gravedad . La fuerza
de la gravedad se supone que tiene slo componentes de baja frecuencia, por lo tanto, un
filtro con 0,3 Hz frecuencia de corte se utiliz . Desde cada ventana , un vector de
caractersticas se obtuvo mediante el clculo de las variables de tiempo y el dominio de la
frecuencia .

Consulte el archivo readme.txt para obtener ms detalles sobre este conjunto de datos .
Atributo de la informacin:

Para cada registro en el conjunto de datos que se proporciona :


- La aceleracin triaxial del acelermetro (aceleracin total) y la aceleracin corporal
estimada .
- Triaxial velocidad angular desde el giroscopio .
- Un vector 561- funcin con variables de tiempo y el dominio de la frecuencia .
- Su etiqueta de actividad.
- Un identificador del sujeto que lleva a cabo el experimento.

Documentos pertinentes:

N/A

Cita de pedidos:

[ 1 ] Davide Anguita , Alessandro Ghio , Luca Oneto , Xavier Parra y Jorge L. Reyes- Ortiz.
Actividad Humana Reconocimiento en Smartphones utilizando una mquina Hardware -
Friendly Apoyo Vector multiclase . Taller Internacional de Ambient Assisted Living ( IWAAL
2012). Vitoria- Gasteiz, Espaa . diciembre 2012

ICU Data Set N/A


Resumen:
Conjunto de datos preparado para la utilizacin de los participantes para la AAAI Simposio
de Primavera 1994 en la Inteligencia Artificial en Medicina.
Caractersticas del Multivariado, Nmero de
N/A rea: Vida
Conjunto de datos: tiempo serie instancias:

Caractersticas del Nmero de Fecha de


Real N/A N/A
atributo: atributos: Donacin

Nmero de
Valores
Tareas asociadas: N/A No accesos 24999
perdidos?
Web:

Fuente:

AIM-94 conjunto de datos proporcionado por Isaac Kohane, MD, PhD, del Hospital de
Nios, en Boston, MA

Datos Conjunto de Informacin:

Por favor, consulte la documentacin


Atributo de la informacin:

N/A

Documentos pertinentes:

N/A

Cita de pedidos:

Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine

ILPD (Dataset Paciente 2012/05/21


Hgado india) Conjunto de
datos
Resumen:
Este conjunto de datos contiene 10 variables que son la edad, el gnero, la bilirrubina
total, bilirrubina directa, protenas totales, albmina, de relacin A / G, SGPT, SGOT y
AlkPhos.
Caractersticas del
Nmero de
Conjunto de Multivariado 3583 rea: Vida
instancias:
datos:

Caractersticas del Integral Nmero de Fecha de


10 2012/05/21
atributo: Real atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin N/A accesos 19706
perdidos?
Web:

Fuente :

1 . Bendi Venkata Ramana


ramana.bendi '@' gmail.com
Profesor Asociado ,
Departamento de Tecnologa de la Informacin ,
Aditya Instutute de Tecnologa y Gestin,
Tekkali - 532201 , Andhra Pradesh , India.

2 . Prof. M. Surendra Prasad Babu


drmsprasadbabu '@' yahoo.co.in
Deptartment de Ciencias de la Computacin e Ingeniera de Sistemas ,
Andhra University College de Ingeniera,
Visakhapatnam -530 003 Andhra Pradesh , India.

3.Prof . N. B. Venkateswarlu
venkat_ritch '@' yahoo.com
Departamento de Ciencias de la Computacin e Ingeniera ,
Aditya Instutute de Tecnologa y Gestin,
Tekkali - 532201 , Andhra Pradesh , India.
Datos Conjunto de Informacin :

Este conjunto de datos contiene 416 registros de pacientes hepticos y 167 pacientes
conjunto de datos records.The hgado no se recogi desde el norte al este de Andhra
Pradesh , India. Selector es una etiqueta de clase se utiliza para dividir en grupos (
pacientes heptico o no) . Este conjunto de datos contiene 441 registros de pacientes de
sexo masculino y 142 registros de pacientes de sexo femenino.

Atributo de la informacin:

1 . Edad: Edad del paciente


2 . Gnero El gnero del paciente
3 . TB Bilirrubina Total
4 . DB Bilirrubina Directa
5 . AlkPhos alcalina fosfatasa
6 . SGPT Alamine aminotransferasa
7 . SGOT aspartato aminotransferasa
8 . TP total Protiens
9 . ALB Albmina
10 . A / G Relacin albmina y globulina Ratio
11 . Campo Selector utiliza para dividir los datos en dos sets (sealadas por los expertos)

Documentos pertinentes:

. 1 Bendi Venkata Ramana , Prof. MS Prasad Babu y Prof. NB Venkateswarlu , A


Critical Study comparativo entre pacientes de hgado de EE.UU. e INDIA : Un exploratorio
Analysis , International Journal of Computer Temas cientficos , ISSN :1694 - 0784 ? ,
mayo de 2012.
2 . Bendi Venkata Ramana , Prof. MS Prasad Babu y Prof. NB Venkateswarlu , A
Estudio crtico de los algoritmos de clasificacin seleccionados para Enfermedad Heptica
Diagnosis ? , Revista Internacional de Sistemas de Gestin de Base de Datos ( IJDMS
) , Vol.3 , No. 2 , ISSN : 0975-5705 , PP 101-114 , mayo de 2011 .

Cita de pedidos:

Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine


Imagen Segmentacin de 1990/11/01
conjunto de datos
Resumen:
Los datos de imagen descritos por atributos con valores numricos de alto nivel, 7 clases.
Caractersticas
Nmero de
del Conjunto de Multivariado 2310 rea: N/A
instancias:
datos:

Caractersticas del Nmero de Fecha de


Real 19 1990/11/01
atributo: atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin No accesos 57883
perdidos?
Web:

Fuente:

Creadores:

Vision Group de la Universidad de Massachusetts

Donante:

Vision Group (Carla Brodley, Brodley '@' cs.umass.edu)

Datos Conjunto de Informacin:

Los casos fueron seleccionados al azar a partir de una base de datos de 7 imgenes al
aire libre. Las imgenes fueron handsegmented para crear una clasificacin para cada
pxel.

Cada instancia es una zona de 3x3.

Atributo Informacin:

1. regin centroide-col: La columna del pxel central de la regin.


2. regin centroide fila: la fila del pxel central de la regin.
3. regin pxel de recuento: el nmero de pxeles en una regin = 9.
4. corto-line densidad-5: resultados de un algoritmo extractoin lnea que cuenta cuntas
lneas de longitud 5 (cualquier orientacin) con contraste bajo, inferior o igual a 5, pasa por
la regin.
5. corto-line densidad-2: igual que el corto-line densidad-5, pero cuenta lneas de contraste
alto, superior a 5.
6. Vedge-media: medir el contraste de los pxeles adyacentes horizontalmente en la
regin. Hay 6, se dan la media y la desviacin estndar. Este atributo se utiliza como un
detector de borde vertical.
7. vegde-sd: (ver 6)
8. de cobertura media: mide el contraste de los pxeles adyacentes verticalmente. Utilizado
para la deteccin lnea horizontal.
9. cubrir-sd: (ver 8).
10. intensidad-media: la media de la regin de (R + G + B) / 3
11. mezquino rawred: a la media de la regin del valor R.
12. rawblue-media: La media a lo largo de la regin del valor B.
13. -mean rawgreen: el promedio de la regin del valor de G.
14. -mean EXred: mida el exceso de rojo: (2R - (G + B))
15. exblue-media: medir el exceso de azul: (2B - (G + R))
16. exgreen-media: medir el exceso de verde: (2G - (R + B))
17. valor medio: 3-d de transformacin no lineal de RGB. (Algoritmo se puede encontrar en
Foley y Vandam, Fundamentos de Interactivo Computer Graphics)
18. saturatoin-media: (ver 17)
19. hue-media: (ver 17)

Documentos pertinentes:

N/A

Documentos que citan el Set1 datos:

Anthony K H Tung y Xin Xu y Beng Chin Ooi. CURLER: encontrar y visualizar no lineal
correlacionada Clusters. Conferencia SIGMOD. 2005. [Ver Contexto].

Xiaoli Z. Helecho y Carla Brodley. Conjuntos de clster para alta Clustering Dimensional:
un estudio emprico. Diario de la mquina de aprendizaje de Investigacin n, a. 2004. [Ver
Contexto].

Aristidis Likas y Nikos A. Vlassis y Jakob J. Verbeek. El k-means algoritmo de clustering


mundial. Reconocimiento de Patrones, 36. 2003. [Ver Contexto].

Dash Manoranjan y Huan Liu y Peter Scheuermann y Kian-Lee Tan. Agrupacin jerrquica
Fast y su validacin. Conocimiento de Datos. Eng, 44. 2003. [Ver Contexto].

Amund Tveit. Comparacin emprica de precisin y rendimiento para el clasificador


MIPSVM con clasificadores existentes. Divisin de Intelligent Departamento de Informtica
y Ciencias de la Informacin de la Universidad Noruega de Ciencias y Tecnologa de
Sistemas. [Ver Contexto].

Je Scott y Mahesan Niranjan y Richard W. Prager. Clasificadores realizables: mejora del


funcionamiento operativo de Problemas de costo variable. Cambridge Departamento de
Ingeniera de la Universidad. [Ver Contexto].

C. Tito Brown y Harry W. Bullen y Sean P. Kelly y Robert K Xiao y Steven G. Satterfield y
John G. Hagedorn y Judith E. Devaney. Visualizacin y Minera de Datos en un inmersivo
entorno 3D: Proyecto de Verano de 2003. [Ver Context].

Adil M. Bagirov y Alex Rubinov y AN Soukhojak y Juan Yearwood. Clasificacin de datos


no supervisada y supervisada a travs de no lisos y optimizacin global. Escuela de
Informtica y Ciencias Matemticas de la Universidad de Ballarat. [Ver Contexto].

K. A. J Doherty y Rolf Adams y Neil Davey. Aprendizaje no supervisado con Normalizado


de Datos y no euclidianas Normas. University of Hertfordshire. [Ver Contexto].

Adil M. Bagirov y John Yearwood. Un nuevo algoritmo de optimizacin para el


agrupamiento no lisos. Centro de Informtica y Optimizacin Aplicada de la Facultad de
Informtica y Ciencias Matemticas de la Universidad de Ballarat. [Ver Contexto].

K. A. J Doherty y Rolf Adams y Neil Davey. Los no euclidianas Normas y normalizacin de


datos. Departamento de Ciencias de la Computacin de la Universidad de Hertfordshire,
College Lane. [Ver Contexto].

Michael Lindenbaum y Sal Markovitch y Dmitry Rusakov. Muestreo Selectivo Usando


Random Campo Modelling. [Ver Contexto].

James Estao y Yau Kwok. Moderacin de las salidas de Apoyo Vector Machine
clasificadores. Departamento de Ciencias de la Computacin Hong Kong Baptist University
de Hong Kong. [Ver Context].

BASADO EN EXPLORACIN Thomas T. Osugi y MS APRENDIZAJE MQUINA ACTIVE.


Facultad de El Colegio de Graduados de la Universidad de Nebraska en cumplimiento
parcial de los requisitos. [Ver Context].

Nikos A. Vlassis y Aristidis Likas. Un algoritmo EM vidos de mezcla gaussiana. Sistemas


Inteligentes Autnoma, la NIC. [Ver Contexto].

Cita Solicitud:

Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine

2012/08/30
Cada hogar consumo
elctrico Conjunto de Datos

Resumen:
Las mediciones de consumo de energa elctrica en un hogar con un minuto de intervalo
de muestreo durante un perodo de casi 4 aos. Diferentes magnitudes elctricas y
algunos sub-valores de medicin estn disponibles..
Caractersticas
Multivariado Nmero de
del Conjunto de 2015259 rea: Fsico
tiempo serie instancias:
datos:

Caractersticas Nmero de Fecha de


Real 9 2012/08/30
del atributo: atributos: Donacin

Nmero de
Tareas Regresin, Valores
Si accesos 32382
asociadas: clustering perdidos?
Web:

Fuente :

Georges H brail ( georges.hebrail '@' edf.fr ) , Investigador Senior , EDF I + D, Clamart


, Francia
Alice B rard , TELECOM ParisTech Master of Engineering Internship en EDF I + D,
Clamart , Francia
Datos Conjunto de Informacin :

Este archivo contiene 2075259 mediciones recogidas entre diciembre de 2006 y


noviembre de 2010 (47 meses).
Notas:
1 . ( Global_active_power * 1000 /60 - sub_metering_1 - sub_metering_2 - sub_metering_3
) representa la energa activa consumida cada minuto ( en vatios hora ) en la casa de los
aparatos elctricos que no se miden en las sub- dosificaciones 1 , 2 y 3 .
2.El conjunto de datos contiene algunos valores perdidos en las mediciones ( casi el 1,25
% de las filas) . Todas las marcas de tiempo de calendario estn presentes en el conjunto
de datos , pero para algunas marcas de tiempo , los valores de medicin faltan : un valor
que falta es representada por la ausencia de valor entre dos consecutivos y coma atribuir
separadores. Por ejemplo, el conjunto de datos muestra los valores que faltan el 28 de
abril de 2007.

Atributo de la informacin:

1.Fecha : Fecha en formato dd / mm / aaaa


2.time : el tiempo en formato hh : mm : ss
3.global_active_power : hogares poder global minutos -un promedio de activo ( en
kilovatios )
4.global_reactive_power : hogares poder global minutos promediada reactiva ( en
kilovatios )
5.voltage : Tensin minutos promediada ( en voltios )
6.global_intensity : hogar intensidad global de minutos promediada corriente (en amperios
)
7.sub_metering_1 : energa sub-medicin No. 1 ( en vatios- hora de energa activada).
Corresponde a la cocina, que contiene principalmente un lavavajillas , un horno y un
microondas (platos calientes no son elctricos , pero con motor de gasolina ) .
8.sub_metering_2 : energa sub-medicin N 2 ( en vatios- hora de energa activa ) . Se
corresponde con el cuarto de lavado , que contiene una lavadora , una secadora de pelo,
una nevera y una luz.
9.sub_metering_3 : energa sub-medicin N 3 ( en vatios- hora de energa activa ) .
Corresponde a un calentador de agua elctrico y un acondicionador de aire.

Documentos pertinentes:

N/A

Cita de pedidos:

Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine


ndice de referencia 2000/07/03
Compaa de Seguros (COIL
2000) Conjunto de datos
Resumen:
En este conjunto de datos utilizado en el Desafo CoIL 2000 contiene informacin sobre
los clientes de una compaa de seguros. Los datos consta de 86 variables de e incluye
los datos de uso de productos y datos socio-demogrficos.
Caractersticas
Nmero de
del Conjunto de Multivariado 9000 rea: Social
instancias:
datos:

Caractersticas del Categorico Nmero de Fecha de


86 2000/07/03
atributo: Integral atributos: Donacin

Nmero de
Regresin, Valores
Tareas asociadas: No accesos 37734
descripcin perdidos?
Web:

Fuente :

Propietario original y de los donantes:

Peter van der Putten


Sentient Investigacin Machine
Baarsjesweg 224
1058 AA Amsterdam
Pases Bajos
+31 20 6186927
pvdputten '@' hotmail.com , Putten '@' liacs.nl

Pgina de TIC Benchmark : http://www.liacs.nl/ ~ putten/library/cc2000 /

Datos Conjunto de Informacin :

Informacin acerca de los clientes se compone de 86 variables de , e incluye los datos de


uso de productos y datos socio- demogrficos derivados de los cdigos de rea postal.
Los datos fueron suministrados por la empresa de minera de datos holandesa
Investigacin Machine Sentient y se basa en un verdadero problema de negocios del
mundo . El conjunto de entrenamiento contiene ms de 5.000 descripciones de los
clientes, incluyendo la informacin de si tienen o no una poltica de seguro de la caravana .
Un conjunto de pruebas contiene 4.000 clientes de los cuales slo los organizadores saber
si tienen una pliza de seguro de la caravana .

El diccionario de datos ( [Web Link] ) describe las variables utilizadas y sus valores.

Nota: Todas las variables que comienzan con M son variables de cdigo postal. Ellos dan
informacin sobre la distribucin de esta variable , por ejemplo, Casa de alquiler , en el
rea de cdigo postal del cliente.

Una instancia por lnea con delimitado por tabulaciones campos.


TICDATA2000.txt : Conjunto de datos para entrenar y validar modelos de prediccin y
construir una descripcin ( 5.822 registros de los clientes ) . Cada registro consta de 86
atributos, que contiene datos sociodemogrficos ( atribuir 1-43 ) y propiedad del producto (
atributos 44-86 ) . Los datos sociodemogrficos se deriva de los cdigos postales . Todos
los clientes que viven en reas con el mismo cdigo postal tienen los mismos atributos
sociodemogrficos . Atributo 86 : " CARAVANA : Nmero de polticas de casas mviles ,"
es la variable objetivo .

TICEVAL2000.txt : Conjunto de datos para las predicciones (4000 registros de los clientes
) . Tiene el mismo formato que TICDATA2000.txt , slo el destino no se encuentra. Los
participantes se supone que deben devolver la lista de slo los objetivos previstos. Todos
los conjuntos de datos estn en formato delimitado por tabulador . El significado de los
atributos y valores de atributos es la siguiente.

Objetivos TICTGTS2000.txt para el conjunto de evaluacin.

Atributo de la informacin:

N/A

Documentos pertinentes:

P. van der Putten y M. van Someren ( eds ) . CoIL Desafo 2000 : El caso de la Compaa
de Seguros . Publicado por Research Machine Sentient , Amsterdam . Tambin un
instituto Leiden del Informe Tcnico Ciencias de la Computacin Avanzada 2000-09 . 22
de junio 2000 .
[Web Link]

Documentos que citan el Set1 datos:

Bianca Zadrozny y Charles Elkan . La transformacin de las puntuaciones de clasificador


en estimaciones precisas de probabilidad multiclase . KDD . 2002 . [Ver Contexto ] .

Stephen D. Bay y Dennis F. Kibler y Michael J. Pazzani y Padhraic Smyth. El KDD Archivo
de datos grandes UCI Establece para la Investigacin y Experimentacin para minera de
datos . SIGKDD Exploraciones , 2 . 2000 . [Ver Contexto ] .

Stefan R uping . Un mtodo simple para estimar las probabilidades condicionales para
SVMs . Departamento CS , AI Unidad de la universidad de Dortmund . [Ver Contexto ] .

Cita de pedidos:

Los datos son ( c ) de la mquina Sentient investigacin 2000


Este conjunto de datos es propiedad y est suministrado por la empresa holandesa
datamining Investigacin Machine Sentient , y se basa en los datos de negocio del mundo
real. Se le permite utilizar esta base de datos y la informacin que lo acompaa slo con
fines de investigacin y educacin no comerciales. Es explcitamente no est permitido el
uso de este conjunto de datos para la enseanza comercial o con fines demostrativos.

Para citar este artculo / confirmar :


P. van der Putten y M. van Someren ( eds ) . CoIL Desafo 2000 : El caso de la Compaa
de Seguros . Publicado por Research Machine Sentient , Amsterdam . Tambin un
Instituto Leiden de Informes Tcnicos de la Ciencia de la Computacin Avanzada 2000-09
. 22 de junio 2000 .

Internet Anuncios de 1998/07/01


conjunto de datos
Resumen:
En este conjunto de datos representa un conjunto de posibles anuncios en pginas de
internet.
Caractersticas
Nmero de
del Conjunto de Multivariado 3279 rea: Ordenador
instancias:
datos:

Caractersticas Categrico, Nmero de Fecha de


1558 1998/07/01
del atributo: Integral Real atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin Si accesos 137070
perdidos?
Web:

Fuente :

Creador y de los donantes :

Nicholas Kushmerick <nick '@' ucd.ie>

Datos Conjunto de Informacin :

Este conjunto de datos representa un conjunto de posibles anuncios en las pginas en


Internet . Las caractersticas codifican la geometra de la imagen ( si est disponible ), as
como las frases que ocurren en la URL, la direccin URL de la imagen y el texto
alternativo , el ancla de texto , y las palabras que ocurren cerca del texto del ancla. La
tarea consiste en predecir si una imagen es un anuncio ( " anuncio " ) o no ( " nonad ") .

Atributo de la informacin:

( 3 continuo ; otros binaria, esto es el " estndar de codificacin " mencionada en el [


Kushmerick 99 ] . )

Una o ms de los tres rasgos continuos faltan en 28 % de los casos ; los valores que faltan
se deben interpretar como "desconocido" .
Documentos pertinentes:

N. Kushmerick ( 1999 ) . "Aprender a quitar la publicidad de Internet" , tercera Int. Conf.


agentes Autnomas. Disponible en www.cs.ucd.ie/staff/nick/research/ [Web Link] .
[Web Link]

Documentos que citan el Set1 datos:

Dmitriy Fradkin y David Madigan . Experimentos con proyecciones aleatorias para el


aprendizaje de mquinas. KDD . 2003 . [Ver Contexto ] .

Sergio A. Alvarez y Takeshi Kawato y Carolina Ruiz . La minera sobre fuentes de datos
dbilmente acoplados utilizando expertos neuronales. Informtica Dpto. Boston College.
[Ver Contexto ] .

Shay Cohen y Eytan Ruppin y Gideon Dror . Seleccin de caractersticas basado en el


valor de Shapley . Escuela de las Ciencias de la Computacin Universidad de Tel- Aviv.
[Ver Contexto ] .

Cita de pedidos:

Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine

Uso de Datos en Internet del 1999/06/30


conjunto de datos
Resumen:
Estos datos contienen informacin demogrfica general sobre los usuarios de Internet en
1997.
Caractersticas
Nmero de
del Conjunto de Multivariado 10104 rea: Ordenador
instancias:
datos:

Caractersticas del Integral Nmero de Fecha de


72 1999/06/30
atributo: Real atributos: Donacin

Nmero de
Valores
Tareas asociadas: N/A No accesos 32896
perdidos?
Web:

Fuente :

Propietario original:

Grficos , Visualizacin , & Usability Center


Facultad de Informtica
Geogia Institute of Technology
Atlanta, GA
http://www.gvu.gatech.edu/gvu/user_surveys/survey-1997-10/

Donante:

Dr. Di Cocinar
Departamento de Estadstica
Universidad del Estado de Iowa
http://www.public.iastate.edu/ ~ dicook /

Datos Conjunto de Informacin :

Estos datos proceden de una encuesta realizada por los grficos y Unidad de
Visualizacin de Georgia Tech 10 octubre a 16 noviembre, 1997 Los detalles completos de
la encuesta estn disponibles aqu: . [Web Link]

El subconjunto de la encuesta proporcionada aqu es los " datos demogrficos generales"


de los usuarios de Internet . Los datos han sido recodificada como totalmente numrico ,
con un ndice de los cdigos descritos en el archivo " Codificacin " .

El estudio completo est disponible en el sitio web mencionado anteriormente , junto con
resmenes, tablas y grficos de sus anlisis. Adems, hay informacin sobre otras partes
de la encuesta , incluyendo datos demogrficos de tecnologa y comercio web.

Los datos se almacenan en un archivos ASCII con una observacin por lnea. Espacios
separan campos.

Atributo de la informacin:

N/A

Documentos pertinentes:

Estos datos se usaron en los grficos estadsticos de la Asociacin Americana de


Estadstica e Informtica Secciones 1999 Datos Exposicin.

Cita de pedidos:

Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine


Ionosfera conjunto de datos 1989/01/01
Resumen:
Clasificacin de los ecos de radar de la ionosfera.
Caractersticas del
Nmero de
Conjunto de Multivariado 351 rea: Fsico
instancias:
datos:

Caractersticas del Integral Nmero de Fecha de


34 1989/01/01
atributo: Real atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin No accesos 62080
perdidos?
Web:

Fuente:

Donante:

Vince Sigillito (vgs '@' aplcen.apl.jhu.edu)

Fuente:

Space Physics Group


Laboratorio de fsica aplicada
Universidad Johns Hopkins
Johns Hopkins carretera
Laurel, MD 20723

Datos Conjunto de Informacin:

Estos datos de radar se recogi mediante un sistema en Goose Bay, Labrador. Este
sistema consiste en una red en fase de 16 antenas de alta frecuencia con una potencia
total de transmisin del orden de 6,4 kilovatios. Ver el documento para obtener ms
detalles. Los objetivos eran los electrones libres en la ionosfera. "Good" ecos de radar son
los que muestran evidencia de algn tipo de estructura en la ionosfera. devuelve "malos"
son los que no lo hacen; sus seales pasan a travs de la ionosfera.

Las seales recibidas se procesaron en una funcin de autocorrelacin cuyos argumentos


son el tiempo de un pulso y el nmero de pulsos. Hubo 17 nmeros de impulsos para el
sistema de Goose Bay. Las instancias en este databse se describen por 2 atributos por
nmero de impulsos, que corresponde a los valores complejos devueltos por la funcin
resultante de la seal electromagntica complejo.

Atributo de la informacin:

- Todo 34 son continuas


- El atributo 35a puede ser "bueno" o "malo", segn la definicin resumida anteriormente.
Esta es una tarea de clasificacin binaria.

Documentos pertinentes:
Sigillito, VG, Wing, SP, Hutton, LV, \ & Baker, KB (1989). Clasificacin de radar regresa de
la ionosfera usando redes neuronales. Johns Hopkins APL Tcnica Digest, 10, 262-266.
[Web Link]

Documentos que citan el Set1 datos:

Mikhail Bilenko y sugato Basu y Raymond J. Mooney. La integracin de las limitaciones y


de aprendizaje mtrica en la agrupacin semi-supervisado. ICML. 2004. [Ver Contexto].

Zhi-Hua Zhou y Jiang Yuan. NeC4.5: Neural Ensemble Based C4.5. IEEE Trans.
Conocimiento. Datos Eng, 16. 2004. [Ver Contexto].

HYUNSOO Kim y Se Hyun Park. Reduccin de datos en mquinas de soporte vectorial de


un Modelo de Interaccin Kernelized jnico. SDM. 2004. [Ver Contexto].

Glenn Fung y M. Murat Dundar y Jinbo Bi y Bharat Rao. Un algoritmo rpido iterativo para
fisher discriminante utilizando ncleos heterogneos. ICML. 2004. [Ver Contexto].

Predrag Radivojac y Zoran Obradovic y A. Keith Dunker y Slobodan Vucetic. Filtros de


seleccin de caractersticas basado en el test de permutacin. ECML. 2004. [Ver
Contexto].

Jeroen Eggermont y Joost N. Kok y Walter A. Kosters. Programacin Gentica para la


clasificacin de los datos: la particin del espacio de bsqueda. SAC. 2004. [Ver
Contexto].

Jennifer G. Dy y Carla Brodley. Seleccin de caractersticas para el Aprendizaje No


Supervisado. Journal of Machine Learning Research, 5. 2004. [Ver Contexto].

Michael L. Raymer y Travis E. Doom y Leslie A. Kuhn y William F. Punch. Descubrimiento


de conocimientos en bases de datos mdicas y biolgicas utilizando un clasificador de
Bayes / algoritmo evolutivo hbrido. Transacciones de IEEE en Sistemas, Hombre y
Ciberntica, parte B, de 33 aos. 2003. [Ver Contexto].

Dmitriy Fradkin y David Madigan. Experimentos con proyecciones aleatorias para el


aprendizaje automtico. KDD. 2003. [Ver Contexto].

Marina Skurichina y Ludmila Kuncheva y Robert PW Duin. Embolsado y Impulsar el ms


cercano Mean Clasificador: Efectos del tamao de la muestra sobre la diversidad y
precisin. Sistemas Clasificadores mltiples. 2002. [Ver Contexto].

Robert Burbidge y Matthew Trotter y Bernard F. Buxton y Sean B. Holden. STAR - Sparsity
travs Rechazo automatizado. IWANN (1). 2001. [Ver Contexto].

Marina Skurichina y Robert P W Duin. Impulsar en el anlisis discriminante lineal.


Sistemas Clasificadores mltiples. 2000. [Ver Contexto].

Lorne Mason y Peter L. Bartlett y Jonathan Baxter. Mejora Generalizacin travs de la


optimizacin explcita de Mrgenes. Aprendizaje Automtico, 38. 2000. [Ver Contexto].

Justin Bradley y Kristin P. Bennett y Bennett A. Demiriz. Constreido conglomerados K-


means. Microsoft Research Dept. de Ciencias Matemticas One Microsoft Way Dpto. de
Ciencias de decisin y Eng. Sys. 2000. [Ver Contexto].
Jennifer G. Dy y Carla Brodley. Funcin de seleccin de subconjuntos y Orden de
identificacin de Aprendizaje No Supervisado. ICML. 2000. [Ver Contexto].

P. S y de Bradley K P y Bennett A. Demiriz. Constreido conglomerados K-means.


Microsoft Research Dept. de Ciencias Matemticas One Microsoft Way Departamento de
Ciencias de la Decisin y el Ing.. Sys. 2000. [Ver Contexto].

Juan J. Rodr guez # # y Carlos J. Alonso y Henrik Bostrom. Impulsar basada en intervalos
literales. 2000. [Ver Contexto].

Colin Campbell y Nello Cristianini y Alex J. Smola. Consulta Aprender con grandes
clasificadores de margen. ICML. 2000. [Ver Contexto].

Art B. Owen. Vecinos tubulares para la regresin y clasificacin. La Universidad de


Stanford. 1999. [Ver Contexto].

Chun-Nan Hsu y Hilmar Schuschel y Ya-Ting Yang. El Enfoque ANNIGMA-Envoltura con


Redes Neuronales funcin de seleccin de Descubrimiento de Conocimiento y Minera de
Datos. Instituto de Ciencias de la Informacin. 1999. [Ver Contexto].

Lorne Mason y Jonathan Baxter y Peter L. Bartlett y Marcus Frean. Impulsar Algoritmos
como Gradient Descent. PNI. 1999. [Ver Contexto].

Kai Ming Ting y Ian H. Witten. Problemas en Stacked generalizacin. J. Artif. Intell. Res..
(JAIR, 10. 1999. [Ver Contexto].

Stephen D. Bay. Clasificacin del vecino ms prximo de varios subconjuntos de


caractersticas. Intell. Datos Anal, 3. 1999. [Ver Contexto].

Stavros J. Perantonis y Vassilis Virvilis. Caracterstica de entrada Extractor de mltiples


capas Perceptrones Uso del anlisis de componentes principales supervisada. Neural
Processing Letters, 10. 1999. [Ver Contexto].

David M J Tax y Robert P W Duin. Apoyar descripcin del dominio del vector. Pattern
Recognition Letters, 20. 1999. [Ver Contexto].

Lorne Mason y Peter L. Bartlett y Jonathan Baxter. Optimizacin directo de Mrgenes


Mejora Generalizacin en clasificadores combinados. NIPS. 1998. [Ver Contexto].

Richard Maclin. Impulsar Clasificadores nivel regional. AAAI / IAAI. 1998. [Ver Contexto].

Robert E. Schapire y Yoav Freund y Peter Bartlett y Wee Sun Lee. Los Anales de
Estadstica, en aparecer. Impulsar la Margen: una nueva explicacin para la efectividad de
los mtodos de votacin. Los laboratorios de AT & T. 1998. [Ver Contexto].

Kristin P. Bennett y Erin J. Bredensteiner. Un mtodo paramtrico Optimizacin de


Aprendizaje Automtico. INFORMA Journal on Computing, 9. 1997. [Ver Contexto].

Aynur Akkus y H. Altay Gvenir. K ms cercano Clasificacin Vecino en Feature


Proyecciones. ICML. 1996. [Ver Contexto].

Wl / odzisl / aw Duch y Karol Grudzinski y Geerd H. F Diercksen. Distancia mnima


mtodos neuronales. Departamento de Mtodos Computacionales, Universidad Nicols
Coprnico. [Ver Contexto].

Andrew Watkins y Jon Timmis y Lois C. Boggess. Artificial Sistema Inmune


Reconocimiento (AIRS): Un ImmuneInspired Supervisado algoritmo de aprendizaje.
(Abw5, jt6@kent.ac.uk) Laboratorio de Computacin de la Universidad de Kent. [Ver
Contexto].

Aynur Akku y H. Altay Gvenir. Ponderacin Caractersticas de k Clasificacin de vecinos


ms prximos en Feature Proyecciones. Departamento de Ingeniera Informtica y
Ciencias de la Informacin de la Universidad Bilkent. [Ver Contexto].

Krzysztof Grabczewski y Wl / odzisl / aw Duch. LA SEPARACIN DE CRITERIO VALOR


SPLIT. Departamento de Mtodos Computacionales, Universidad Nicolaus Copernicus.
[Ver Contexto].

Christos Emmanouilidis y A. Hunter y el Dr. J. MacIntyre. A multiobjetivo Evolutiva Ajuste


para Seleccin de caractersticas y un operador de crossover basada en comunalidad.
Centro de Sistemas Adaptativos, Facultad de Informtica, Ingeniera y Tecnologa de la
Universidad de Sunderland. [Ver Contexto].

Chiranjib Bhattacharyya. Clasificacin robusta de datos ruidosos utilizando el enfoque de


programacin Segunda Cono Orden. Dpto. Informtica y Automtica, Instituto Indio de
Ciencia. [Ver Contexto].

Ayhan Demiriz y Kristin P. Bennett. Captulo 1 Aprendizaje Supervisado-


OPTIMIZATIONAPPROACHESTOSEMI. Departamento de Ciencias de la Decisin y
Sistemas de Ingeniera y el Departamento de Ciencias Matemticas, Instituto Politcnico
Rensselaer. [Ver Contexto].

Isabelle lvarez y Stephan Bernard. Clasificacin Casos con rboles de decisin: un


mtodo geomtrico que preserva la inteligibilidad. [Ver Contexto].

Christos Dimitrakakis y Samy Bengioy. Polticas de Adaptacin en lnea para Ensemble


clasificadores. El IDIAP. [Ver Contexto].

Rajesh Parekh y Jihoon Yang y Vasant Honavar. Constructivas algoritmos de aprendizaje


de la red neuronal para Clasificacin de patrones. [Ver Contexto].

Alain Rakotomamonjy. Leave-One-Out errores en Bipartita de clasificacin SVM. PSI


CNRS FRE2645 INSA de Rouen Avenue de l'Universit. [Ver Contexto].

Wl / odzisl / aw Duch y Karol Grudzinski. Meta-learning: la bsqueda en el espacio modelo.


Departamento de Mtodos Computacionales, Universidad Nicols Coprnico. [Ver
Contexto].

Federico Divina y Elena Marchiori. Basada en el Conocimiento Evolutiva Buscar inductivo


Concepto de Aprendizaje. Vrije Universiteit de msterdam. [Ver Contexto].

Charles Campbell y Nello Cristianini. Algoritmos de aprendizaje simples para Mquinas de


Vectores Soporte Entrenamiento. Departamento de Ingeniera Matemtica. [Ver Contexto].

K. A. J Doherty y Rolf Adams y Neil Davey. Aprendizaje no supervisado con Normalizado


de Datos y no euclidianas Normas. Universidad de Hertfordshire. [Ver Contexto].

Michael Lindenbaum y Sal Markovitch y Dmitry Rusakov. Muestreo Selectivo Usando


Random Campo Modelling. [Ver Contexto].

Christos Emmanouilidis y Anthony Hunter. Una comparacin de los operadores de cruce


en la red neuronal de Seleccin de caractersticas con multiobjetivo Algoritmos Evolutivos.
Centre para Adaptive Systems, Facultad de Informtica, Ingeniera y Tecnologa University
of Sunderland. [Ver Contexto].
Chiranjib Bhattacharyya y Pannagadatta K. S y Alexander J. Smola. Un segundo orden
Cono Formulacin de Programacin para la clasificacin de datos perdidos. Departamento
de Informtica y el Instituto Indio de Automatizacin de la Ciencia. [Ver Contexto].

Perry Moerland. Mezclas de modelos variables latentes para la estimacin de la densidad


y la clasificacin. ESEARCHREPRORTIDIAPD alle M olle yo nstitutefor Pe r cep t ua l Una
Inteligencia rtificial. [Ver Contexto].

Markus Breitenbach y Rodney Nielsen y Gregory Z. Grudic. Probabilsticos Random


Forests: Prediccin de puntos de datos especficos Probabilidades de clasificacin
errnea. Departamento de Informtica Universidad de Colorado. [Ver Contexto].

Federico Divina y Elena Marchiori. Manejo de atributos continuos en un Evolutiva inductivo


Learner. Departamento de Ciencias de la Computacin Vrije Universiteit. [Ver Contexto].

Glenn Fung y Sathyakama Sandilya y R. Bharat Rao. Regla de extraccin a partir de


Mquinas de Vectores Soporte lineales. Computer-Aided Diagnosis & Therapy, Siemens
Medical Solutions, Inc. [Ver Contexto].

Karthik Ramakrishnan. UNIVERSIDAD DE MINNESOTA. [Ver Contexto].

Michalis K. Titsias y Aristidis Likas. Modelos Kernel Shared para la Clase estimacin de
densidades condicionales. [Ver Contexto].

Alexander K. Seewald. Disertacin hacia la comprensin de apilamiento Los estudios de


un general Ensemble Aprendizaje Esquema ausgefuhrt zum Zwecke der Erlangung des
akademischen Grados eines der Doktors technischen Naturwissenschaften. [Ver
Contexto].

Cita de pedidos:

Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine


Censo IPUMS Base de datos 1999/11/09
Conjunto de datos
Resumen:
Este conjunto de datos contiene los datos del censo PUMS no ponderados de las reas de
Los Angeles y Long Beach para los aos 1970, 1980 y 1990.
Caractersticas
Nmero de
del Conjunto de Multivariado 256932 rea: Social
instancias:
datos:

Caractersticas Integral Nmero de Fecha de


61 1999/11/09
del atributo: Real atributos: Donacin

Nmero de
Valores
Tareas asociadas: N/A N/A accesos 14001
perdidos?
Web:

Fuente :

Propietario original:

IPUMS
Proyectos Censo histricas
Universidad de Minnesota
614 Ciencias Sociales
267 19th Avenue Sur
Minneapolis, MN 55455
IPUMS '@' hist.umn.edu
http://www.ipums.umn.edu/

Donante:

Stephen Bay
Departamento de Informacin y Ciencias de la Computacin ,
Universidad de California, Irvine
Irvine , CA 92697
SBAY '@' ics.uci.edu

Datos Conjunto de Informacin :

La fuente original de este conjunto de datos es el proyecto IPUMS ( RugglesSobek , 1997


) . El proyecto IPUMS es una gran coleccin de datos del censo federal que ha
estandarizado los esquemas de codificacin para hacer comparaciones a travs del
tiempo fcil.

Los datos son un ponderado de 1 en 100 muestras de las respuestas de la Los Angeles -
Long Beach area para los aos 1970 , 1980 y 1990 . La familia y los registros individuales
se acoplan en una sola mesa y utilizamos todas las variables que estaban disponibles
para los tres aos. Cuando hay ms de una versin de una variable, como para la carrera ,
hemos utilizado la ms general. Para la ocupacin y la industria se utiliz la base de 1950.

Tenga en cuenta que los datos de PUMS se basa en muestras de racimo, es decir,
muestras estn hechas de hogares o viviendas de las que puede haber varias personas .
Las personas de la misma casa ya no son independientes. Ruggles ( 1995 ) considera que
esta cuestin y analiza su efecto (junto con los efectos de la estratificacin ) en los errores
estndar.

El schltype variables parece tener diferentes valores de codificacin a travs de los aos
1970 , 1980 y 1990 .

Hay dos versiones de este conjunto de datos:

1 . El conjunto de datos Pequeo

El conjunto de datos contiene una pequea muestra de 1 en 1000 del rea de Los Angeles
y Long Beach. Fue formado por muestreo del gran conjunto de datos .

2 . El gran conjunto de datos

El gran conjunto de datos contiene una muestra de 1 en 100 de la zona de Los ngeles y
Long Beach.

Atributo de la informacin:

Por favor, consulte ipums.la.names

Documentos pertinentes:

S. Ruggles . ( 1995 ) . "Diseos de la muestra y los errores de muestreo ." Mtodos


Histricos . Volumen 28 . Nmero 1 . Pginas 40-46 .
[Web Link]

Documentos que citan el Set1 datos:

Ke Wang y Zhou Shiyu y Ada Wai Chee - Fu y Jeffrey Xu Yu. Minera Cambios de
Clasificacin por correspondencia Tracing . SDM . 2003 . [Ver Contexto ] .

Stephen D. Bay y Michael J. Pazzani . Diferencias Deteccin Grupo: Conjuntos de


contraste mineras. Dato Min . Conocimiento . Discov , 5 . 2001 . [Ver Contexto ] .

Chris Giannella y Bassem Sayrafi . Una teora de la informacin de histograma individual


Dimensional Selectividad Estimacin . Departamento de Ciencias de la Computacin ,
Universidad de Indiana en Bloomington . [Ver Contexto ] .

Cita de pedidos:

Reproducido aqu es la IPUMS la documentacin original de la citacin y el uso :

Todas las personas se les concede una licencia limitada para usar y distribuir esta
documentacin y los datos adjuntos, con sujecin a las siguientes condiciones:

* No se podr cobrar por el uso o la distribucin.


* Publicaciones e informes de investigacin basados en la base de datos deben citar
adecuadamente. La citacin deber incluir lo siguiente :

Steven Ruggles y Matthew Sobek et . al.


Integrated Public Use Series Microdatos : Versin 2.0
Minneapolis: Proyectos Censo histricos,
Universidad de Minnesota , 1997

Si es posible , las citas deben incluir tambin la direccin del sitio IPUMS : [Web Link] .

Adems , solicitamos que los usuarios nos envan una copia de las publicaciones ,
informes de investigacin , o haciendo uso de material educativo de los datos o la
documentacin. Material impreso debe ser enviada a :

IPUMS
Proyectos Censo histricas
Universidad de Minnesota
614 Ciencias Sociales
267 19th Avenue Sur
Minneapolis, MN 55455
Enviar todo el material electrnico para IPUMS ' @' hist.umn.edu

Iris Conjunto de datos 1988/07/01


Resumen:
Base de datos famoso; de Fisher, 1936.
Caractersticas del
Nmero de
Conjunto de Multivariado 150 rea: Vida
instancias:
datos:

Caractersticas del Nmero de Fecha de


Real 4 1988/07/01
atributo: atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin No accesos 546730
perdidos?
Web:

Fuente :

Creador:

R.A. pescador

Donante:

Michael Marshall ( MARSHALL % PLU '@' io.arc.nasa.gov )

Datos Conjunto de Informacin :


Esta es quizs la base de datos ms conocida que se encuentran en la literatura de
reconocimiento de patrones. Papel de Fisher es un clsico en el campo y se hace
referencia con frecuencia a este da. (Ver Duda y Hart, por ejemplo.) El conjunto de datos
consta de 3 clases de 50 casos cada uno, donde cada clase se refiere a un tipo de planta
de iris. Una clase es linealmente separable de la otra 2 ; Estos ltimos no son linealmente
separables entre s .

Atributo predicho : clase de planta de iris.

Este es un dominio sumamente sencillo .

Este contador se distingue de los datos presentados en el artculo Fishers (identificado por
Steve Chadwick, spchadwick '@' espeedaz.net ) . La muestra de 35 debe ser:
4.9,3.1,1.5,0.2 , "Iris - setosa " donde el error se encuentra en la cuarta funcin. La
muestra 38a : 4.9,3.6,1.4,0.1 , "Iris - setosa " dnde estn los errores en la segunda y
tercera caractersticas.

Atributo de la informacin:

1 . longitud spalo en cm
2 . anchura del spalo en cm
3 . Longitud del ptalo en cm
4 . ancho de ptalo en cm
5 . clase :
- Iris Setosa
- Iris versicolor
- Iris Virginica

Documentos pertinentes:

Fisher , R. A. " El uso de mltiples mediciones en problemas taxonmicos " anual


Eugenesia , 7 , Parte II, 179-188 ( 1936 ); Tambin en " Contribuciones a la Estadstica
Matemtica ( John Wiley , NY , 1950 .)
[Web Link]

Duda , R.O. , y Hart, de educacin fsica ( 1973 ) Clasificacin de patrones y anlisis de la


escena . ( Q327.D83 ) John Wiley & Sons. ISBN 0-471-22361-1 . Consulte la pgina 218 .
[Web Link]

Dasarathy , BV ( 1980 ) " husmeando el Barrio: A Regla Nueva Estructura del Sistema de
Reconocimiento y Clasificacin en entornos parcialmente expuesta " . IEEE Transactions
on Pattern Analysis y la mquina de Inteligencia , vol. PAMI - 2 , N 1 , 67-71 .
[Web Link]

Gates, G.W. ( 1972 ) " La Reduccin de vecinos ms cercanos " . IEEE Transactions on
Information Theory , mayo de 1972, el 431-433 .
[Web Link]

Vea tambin: 1988 MLC Proceedings, 54-64 .

Documentos que citan el Set1 datos:


Manuel Oliveira. Biblioteca de formularios de lanzamiento Nombre del Autor : Stanley
Robson de Oliveira Medeiros Ttulo de la tesis: transformacin de datos para la privacidad
- Preservar Data Mining Titulacin: Doctor en Filosofa Ao este ttulo otorgado .
Universidad de Alberta Library . 2005 . [Ver Contexto ] .

Ping Zhong y Masao Fukushima. A regularizada no lisas Mtodo de Newton para


Mquinas de Vectores Soporte multi - clase. 2005 . [Ver Contexto ] .

Anthony K H Tung y Xin Xu y Beng Chin Ooi . CURLER : encontrar y visualizar no lineal
correlacionada Clusters . Conferencia SIGMOD . 2005 . [Ver Contexto ] .

Igor Fischer y Jan Polonia. Amplificar la estructura de la matriz de bloques para Espectral
Clustering. Laboratorio de Telecomunicaciones . 2005 . [Ver Contexto ] .

Sotiris B. Kotsiantis y Panayiotis E. Pintelas . LogitBoost de simple bayesiano clasificador .


Informatica. 2005 . [Ver Contexto ] .

Qingping Tao Ph. D. HACIENDO algoritmos de aprendizaje EFICIENTES CON


EXPONENCIALMENTE muchas caractersticas. Qingping Tao una disertacin Facultad de
El Colegio de Graduados de la Universidad de Nebraska en cumplimiento parcial de los
requisitos . 2004 . [Ver Contexto ] .

Yuan Jiang y Zhi -Hua Zhou. Edicin de datos Formacin para kNN Clasificadores con
Red Neural Ensemble. ISNN ( 1 ) . 2004 . [Ver Contexto ] .

Sugato Basu . Clustering semi - supervisado con un conocimiento limitado del fondo .
AAAI . 2004 . [Ver Contexto ] .

Judith E. Devaney y Steven G. Satterfield y John G. Hagedorn y John T. Kelso y Adele P.


Peskin y William George y Terence J. Griffin y Howard K. Hung y Ronald D. Kriz . Ciencia
en la velocidad del pensamiento . Inteligencia Ambiental para el descubrimiento cientfico .
2004 . [Ver Contexto ] .

Jennifer G. Dy y Carla Brodley . Seleccin de caractersticas para el Aprendizaje No


Supervisado . Journal of Machine Learning Research , 5 . 2004 . [Ver Contexto ] .

Jeroen Eggermont y Joost N. Kok y Walter A. Kosters . Programacin Gentica para la


clasificacin de los datos : la particin del espacio de bsqueda . SAC . 2004 . [Ver
Contexto ] .

Remco R. Bouckaert y Eibe Frank . La evaluacin de la replicabilidad de las pruebas de


significacin para comparar los algoritmos de aprendizaje . PAKDD . 2004 . [Ver Contexto ]
.

Mikhail Bilenko y sugato Basu y Raymond J. Mooney . La integracin de las limitaciones y


de aprendizaje mtrica en la agrupacin semi - supervisado. ICML . 2004 . [Ver Contexto ]
.

Dash Manoranjan y Huan Liu y Peter Scheuermann y Kian - Lee Tan . Agrupacin
jerrquica Fast y su validacin . Conocimiento de Datos. Eng, 44 . 2003 . [Ver Contexto ] .

Bob Ricks y Dan Ventura . El entrenamiento de un red neuronal de Quantum . PNI. 2003 .
[Ver Contexto ] .

Eibe Frank y Mark Hall. Visualizacin de estimadores de probabilidad Clase. PKDD . 2003
. [Ver Contexto ] .
Ross J. Michaels y Patrick Grother y P. Jonathan Phillips. El marco de evaluacin
HumanID NIST . AVBPA . 2003 . [Ver Contexto ] .

Sugato Basu . Aparece tambin como Informe Tcnico, UT -AI . Propuesta de doctorado.
2003 . [Ver Contexto ] .

Dick de Ridder y Olga Kouropteva y Oleg Okun y Matti Pietikinen y Robert PW Duin .
Supervisado Localmente Lineal incrustacin . ICANN. 2003 . [Ver Contexto ] .

Aristidis Likas y Nikos A. Vlassis y Jakob J. Verbeek . El k-means algoritmo de clustering


mundial . Reconocimiento de Patrones , 36. 2003 . [Ver Contexto ] .

Zhi -Hua Zhou y Jiang Yuan y Shifu Chen. La extraccin de reglas simblicas de conjuntos
de redes neuronales entrenadas . AI Commun , 16 . 2003 . [Ver Contexto ] .

Jeremy Kubica y Andrew Moore. Probabilstico de identificacin ruido y limpieza de datos .


ICDM . 2003 . [Ver Contexto ] .

Julie Greensmith . Nuevas fronteras para un sistema inmune artificial . Digital Media
Laboratorio de Sistemas HP Laboratorios Bristol. 2003 . [Ver Contexto ] .

Geoffrey Holmes y Bernhard Pfahringer y Richard Kirkby y Eibe Frank y Mark A. Hall.
Multiclase rboles de decisin alterna . ECML . 2002 . [Ver Contexto ] .

Inderjit S. Dhillon y Dharmendra S. Modha y W. Scott Spangler . Clase de visualizacin de


datos de alta dimensin con aplicaciones . Departamento de Ciencias de la Computacin
de la Universidad de Texas. 2002 . [Ver Contexto ] .

Manoranjan Dash y Kiseok Choi y Peter Scheuermann y Huan Liu. Seleccin de


caractersticas para Clustering - Una solucin de filtro. ICDM . 2002 . [Ver Contexto ] .

Ayhan Demiriz y Kristin P. Bennett y Mark J. Embrechts . Un enfoque Algoritmo Gentico


para Clustering semi - supervisado . E-business Departamento , Verizon . Inc. 2002 . [Ver
Contexto ] .

Jun Wang y Yu Bin y Les Gasser . Visualizacin Concepto Tree Based Clustering con
sombreados de similitud Matrices . ICDM . 2002 . [Ver Contexto ] .

Michail Vlachos y Carlotta Domeniconi y Dimitrios Gunopulos y George Kollios y Nick


Koudas . Tcnicas de reduccin de dimensionalidad no lineales para la clasificacin y
visualizacin . KDD . 2002 . [Ver Contexto ] .

Wai Lam y Kin Keung y Charles X. Ling . PR 1527. Departamento de Ingeniera de


Sistemas y Gestin de Ingeniera, la Universidad China de Hong Kong. 2001 . [Ver
Contexto ] .

Jinyan Li y Guozhu Dong y Kotagiri Ramamohanarao y Limsoon Wong. Profundidades : un


descubrimiento basada en instancia Nuevo y sistema de clasificacin. Actas de la IV
Conferencia Europea sobre Principios y Prctica de Descubrimiento de Conocimiento en
Bases de Datos . 2001 . [Ver Contexto ] .

David Hershberger y Hillol Kargupta . Distribuido multivariado de regresin utilizando


basada en ondas de minera de datos colectiva . J. Distrib paralelo . Comput , 61. 2001 .
[Ver Contexto ] .

David Horn y A. Gottlieb . El mtodo de Quantum Clustering. PNI. 2001 . [Ver Contexto ] .
Carlotta Domeniconi y Jing Peng y Dimitrios Gunopulos . Una mquina adaptativa Mtricas
de Clasificacin de patrones . PNI. 2000 . [Ver Contexto ] .

Asa Ben- Hur y David Horn y Hava T. Siegelmann y Vladimir Vapnik . A Apoyo Mtodo del
vector para Clustering. PNI. 2000 . [Ver Contexto ] .

Neil Davey y Rod Adams y Mary J. George . La arquitectura y el rendimiento de una


competitiva red de rboles Neural Evolutiva Estocstico. Appl . Intell , 12 . 2000 . [Ver
Contexto ] .

Edgar Acua y Alex Rojas. Conjuntos de clasificadores basados en estimadores de


densidad de Kernel . Departamento de Matemticas de la Universidad de Puerto Rico.
2000 . [Ver Contexto ] .

Manoranjan Dash y Huan Liu. Seleccin de caractersticas para la agrupacin en clster .


PAKDD . 2000 . [Ver Contexto ] .

Ismail Taha y Joydeep Ghosh . Interpretacin simblica de las Redes Neuronales


Artificiales . IEEE Trans . Conocimiento . Datos Eng, 11 . 1999 . [Ver Contexto ] .

David M J Tax y Robert P W Duin . Apoyar descripcin del dominio del vector. Pattern
Recognition Letters , 20 . 1999 . [Ver Contexto ] .

Fomentar J. Provost y Tom Fawcett y Ron Kohavi . El caso contra la precisin de la


estimacin para la comparacin de induccin Algoritmos . ICML . 1998 . [Ver Contexto ] .

Stephen D. Bay. Combinando Clasificadores vecino ms cercano a travs de varios


subconjuntos de caractersticas . ICML . 1998 . [Ver Contexto ] .

Wojciech Kwedlo y Marek Kretowski . Descubrimiento de reglas de decisin de las bases


de datos : un enfoque evolutivo . PKDD . 1998 . [Ver Contexto ] .

Ke Wang y Han Chong Goh . Splits mnimo basado Discretizacin de caractersticas


continuas . IJCAI ( 2 ) . 1997 . [Ver Contexto ] .

Ethem Alpaydin . La votacin sobre mltiples vecinos ms prximos condensada. Artif .


Intell . Rev , 11 . 1997 . [Ver Contexto ] .

Igor Kononenko y Edvard Simec y Marko Robnik - Sikonja . La superacin de la miopa de


los algoritmos de aprendizaje inductivo con RELIEFF . Appl . Intell , 7 . 1997 . [Ver
Contexto ] .

. Seleccin Prototipo para compuestos Clasificadores vecino ms cercano . Departamento


de Informtica Universidad de Massachusetts. 1997 . [Ver Contexto ] .

Daniel C. St y Ralph W. Wilkerson y Cihan H. Dagli . MEDIDAS SET REGLA DE CALIDAD


PARA EL APRENDIZAJE INDUCTIVO algoritmos. actas de las Redes Neuronales
Artificiales En Engineering Conference 1996 ( ANNIE. 1996 . [Ver Contexto ] .

Tapio Elomaa y Juho Rousu . Encontrar Optimal Multi- Splits para Numerical atributos en
la Decisin Learning Tree . Grupo de trabajo ESPRIT en Neural y Computacional de
Aprendizaje. 1996 . [Ver Contexto ] .

Ron Kohavi . Ampliar los efectivos Precisin de Naive - Bayes clasificadores : Un hbrido
de rbol de decisiones . KDD . 1996 . [Ver Contexto ] .

Ron Kohavi . El poder de las tablas de decisin . ECML . 1995 . [Ver Contexto ] .
Ron Kohavi . Un estudio de la validacin cruzada y Bootstrap para la Precisin Estimacin
y seleccin del modelo . IJCAI . 1995 . [Ver Contexto ] .

Zoubin Ghahramani y Michael I. Jordan . Aprender de los datos incompletos. INSTITUTO


TECNOLGICO DE MASSACHUSETTS Laboratorio de Inteligencia Artificial y el Centro
para BIOLGICA Y COMPUTACIONAL DEPARTAMENTO DE APRENDIZAJE DEL
CEREBRO Y Ciencias Cognitivas . 1994 . [Ver Contexto ] .

George H. John y Ron Kohavi y Karl Pfleger . Caractersticas irrelevante y el problema de


la seleccin de subconjuntos . ICML . 1994 . [Ver Contexto ] .

Gabor Melli . Un enfoque basado en modelos perezoso en On -Line Clasificacin.


Universidad de la Columbia Britnica. 1989 . [Ver Contexto ] .

Fran ois Poulet . La cooperacin entre los algoritmos automticos , algoritmos interactivos
y herramientas de visualizacin de Visual Data Mining . ESIEA Recherche . [Ver Contexto ]
.

Takao Mohri y Hidehiko Tanaka. Una de indexacin ptima Ponderacin Criterio de caso
tanto numrico y atributos simblicos . Informacin Ingeniera Curso de la Facultad de
Ingeniera de la Universidad de Tokio . [Ver Contexto ] .

Huan Li y Chen Wenbin . Supervisado Local Alignment Tangente Espacio para la


Clasificacin. I- Fan Shen. [Ver Contexto ] .

Adam H. Cannon y Lenore J. Cowen y Carey E. Priebe . Clasificacin Distancia


aproximada. Departamento de Ciencias Matemticas de la Universidad Johns Hopkins.
[Ver Contexto ] .

A. da Valls y Vicen Torra . Explicando el consenso de opiniones con el vocabulario de los


expertos . Dept. d' Enginyeria i Informtica Matemtiques Universitat Rovira i Virgili . [Ver
Contexto ] .

Wl / odzisl / aw Duch y Rafal Adamczak y Krzysztof Grabczewski . Extraccin de reglas


lgicas y ntidas a travs de redes de retropropagacin restringidos. Departamento de
Mtodos Computacionales , Universidad Nicols Coprnico. [Ver Contexto ] .

Eric P. Kasten y Philip K. McKinley. MESO : Memoria sensorial al apoyar el aprendizaje en


lnea en la adaptacin del software . Actas de la Tercera Conferencia Internacional sobre
el Desarrollo y el Aprendizaje ( ICDL. [Ver Contexto ] .

Karol Grudzi nski y Wl / odzisl / aw Duch. SBL -PM : Un algoritmo simple para la Seleccin
de instancias de referencia en Mtodos basados en la similitud. Departamento de Mtodos
Computacionales , Universidad Nicols Coprnico. [Ver Contexto ] .

Chih- Wei Hsu y Cheng -Ru Lin. Una Comparacin de Mtodos para Mquinas de
Vectores Soporte multi - clase. Departamento de Ciencias de la Computacin e Ingeniera
de la Informacin de la Universidad Nacional de Taiwn . [Ver Contexto ] .

Alexander K. Seewald . Disertacin hacia la comprensin de apilamiento Los estudios de


un general Ensemble Aprendizaje Esquema ausgefuhrt zum Zwecke der Erlangung des
akademischen Grados eines der Doktors technischen Naturwissenschaften . [Ver Contexto
].

Wl odzisl y Rafal Adamczak y Krzysztof Grzegorz Grabczewski y Zal . Un mtodo hbrido


para la extraccin de reglas lgicas de datos . Departamento de Mtodos
Computacionales , Universidad Nicols Coprnico. [Ver Contexto ] .

Wl / odzisl / aw Duch y Rafal Adamczak y Geerd H. F Diercksen . Clasificacin, Asociacin


y el patrn de finalizacin usando Neuronales mtodos basados en similitud .
Departamento de Mtodos Computacionales , Universidad Nicols Coprnico. [Ver
Contexto ] .

Stefan Aeberhard y Danny Coomans y De Vel . EL RENDIMIENTO DE LOS MTODOS


ESTADSTICOS reconocimiento de patrones en los entornos de alta dimensin .
Universidad James Cook. [Ver Contexto ] .

Michael P. Cummings y Daniel S. Myers y Marci Mangelson . La aplicacin de pruebas


Permuation de Modelos Estadsticos basados en los rboles : Ampliar la R rpart paquete .
Centro de Bioinformtica y Biologa Computacional , Instituto de Estudios Avanzados de
Computacin, Universidad de Maryland. [Ver Contexto ] .

Ping Zhong y Masao Fukushima. Segundo Cono Orden Programacin Formulaciones para
Robust Clasificacin de clase mltiple. [Ver Contexto ] .

Wl odzisl / aw Duch y Rafal Adamczak y Norbert Jankowski . La inicializacin de los


parmetros de adaptacin de las redes de densidad. Departamento de Mtodos
Computacionales , Universidad Nicols Coprnico. [Ver Contexto ] .

Aynur Akku y H. Altay Gvenir . Ponderacin Caractersticas de k vecinos ms prximos:


Clasificacin de Feature Proyecciones . Departamento de Ingeniera Informtica y
Ciencias de la Informacin de la Universidad Bilkent . [Ver Contexto ] .

Jun Wang . Visualizacin Clasificacin con Shaded matriz de similitud . Bei Yu Les Gasser
Graduate School of Library and Information Science de la Universidad de Illinois en
Urbana- Champaign. [Ver Contexto ] .

Andrew Watkins y Jon Timmis y Lois C. Boggess . Artificial Sistema Inmune


Reconocimiento (AIRS ) : Un ImmuneInspired Supervisado algoritmo de aprendizaje . (
abw5 , jt6@kent.ac.uk ) Laboratorio de Computacin de la Universidad de Kent. [Ver
Contexto ] .

Gaurav Marwah y Lois C. Boggess . Artificial Sistemas inmunes para la clasificacin:


algunos problemas. Departamento de Ciencias de la Universidad Estatal de Mississippi
ordenador . [Ver Contexto ] .

Igor Kononenko y Edvard Simec . La induccin de rboles de decisin utilizando RELIEFF


. Universidad de Ljubljana, Facultad de Ingeniera e Informtica Ingeniera Elctrica . [Ver
Contexto ] .

Daichi Mochihashi y Gen -ichiro Kikui y Kenji Kita . Aprender no estructural Distancia
mtrica por distorsiones mnimas en Racimo. ATR oral laboratorios de investigacin
Idioma de traduccin . [Ver Contexto ] .

Wl odzisl / aw Duch y Karol Grudzinski . Reglas basadas en prototipos - Una nueva forma
de entender los datos. Departamento de Mtodos Computacionales , Universidad Nicols
Coprnico. [Ver Contexto ] .

H. Altay Gvenir . Un algoritmo de aprendizaje de clasificacin robusta de caractersticas


irrelevantes . Universidad de Bilkent , Departamento de Ingeniera Informtica y Ciencias
de la Informacin . [Ver Contexto ] .

Enes Makalic y Lloyd Allison y David L. Dowe . MML INFERENCIA DE REDES


NEURONALES sola capa . Facultad de Ciencias de la Computacin e Ingeniera de
Software de la Universidad de Monash . [Ver Contexto ] .

Ron Kohavi y Brian Frasca . Caracterstica til subconjuntos y Rough Set reductos . Tercer
Taller Internacional de Rough Sets y Soft Computing . [Ver Contexto ] .

G. Ratsch y B. Scholkopf y Alex Smola y Sebastian Mika y T. Onoda y K. -R Muller.


Robusto Aprendizaje Ensemble for Data Mining. GMD PRIMERA , Kekul # estr . [Ver
Contexto ] .

YongSeog Kim y W. Nick Street y Filippo Menczer . Optimal Ensemble construccin a


travs de Meta- evolutivos Conjuntos . Sistemas de Informacin Empresarial , Universidad
del Estado de Utah. [Ver Contexto ] .

Maria Salamo y Elisabet Golobardes . El anlisis de los mtodos de ponderacin Rough


Sets de Razonamiento Basado en Casos Systems. Enginyeria i Arquitectura La Salle. [Ver
Contexto ] .

Lawrence O. Hall y Nitesh V. Chawla y Kevin W. Bowyer. La combinacin de rboles de


decisin aprendidas en paralelo . Departamento de Ciencias de la Computacin e
Ingeniera , ENB 118 University of South Florida . [Ver Contexto ] .

Anthony Robins y Marcus Frean . El aprendizaje y la generalizacin de una red estable .


Ciencias de la Computacin de la Universidad de Otago . [Ver Contexto ] .

Geoffrey Holmes y Leonard E. Trigg . Una herramienta de diagnstico para Tree Based
Learning Clasificacin Supervisada Algoritmos . Departamento de Informtica Universidad
de Waikato Hamilton Nueva Zelanda. [Ver Contexto ] .

Shlomo Dubnov y Ran Yaniv y El Technion y Yoram Gdalyahu y Elad Schneidman y


Naftali Tishby y Golan Yona . La agrupacin por Friends : A New Nonparametric Pairwise
Distancia basada algoritmo de clsteres . Universidad Ben Gurion . [Ver Contexto ] .

Michael R. Berthold y Klaus - Peter Huber. Desde Radial para Funciones de Base
Rectangular : Un nuevo enfoque para la Regla Aprendiendo de grandes conjuntos de
datos . Institut fur Rechnerentwurf und Fehlertoleranz (Prof. D. Schmid ) Universitat
Karlsruhe. [Ver Contexto ] .

Norbert Jankowski . Encuesta de Funciones de Transferencia Neuronales . Departamento


de Mtodos Computacionales , Universidad Nicols Coprnico. [Ver Contexto ] .

Karthik Ramakrishnan . UNIVERSIDAD DE MINNESOTA . [Ver Contexto ] .

Wl / odzisl / aw Duch y Rafal Adamczak y Geerd H. F Diercksen . Redes Neuronales de


Perspectiva Basada en similitud . Departamento de Mtodos Computacionales ,
Universidad Nicols Coprnico. [Ver Contexto ] .

Fernando helecho # Andez y Pedro Isasi . El diseo de Clasificadores del vecino ms


prximo por la evolucin de una poblacin de prototipos . Universidad Carlos III de Madrid.
[Ver Contexto ] .

Asa Ben- Hur y David Horn y Hava T. Siegelmann y Vladimir Vapnik . A Apoyo Mtodo del
vector para la agrupacin jerrquica . Facultad de IE y Gestin Technion . [Ver Contexto ] .

Lawrence O. Hall y Nitesh V. Chawla y Kevin W. Bowyer. Decisin Learning Tree en


conjuntos muy grandes de datos . Departamento de Ciencias de la Computacin e
Ingeniera , ENB 118 University of South Florida . [Ver Contexto ] .
G. Ratsch y B. Scholkopf y Alex Smola y K. Muller -R y T. Onoda y Sebastian Mika . Arco :
Ensemble de Aprendizaje en la presencia de valores atpicos . GMD PRIMERO. [Ver
Contexto ] .

Wl odzisl / aw Duch y Rudy Setiono y Jacek M. Zurada . Mtodos de inteligencia


computacional para la comprensin de datos basado en normas . [Ver Contexto ] .

H. Altay T uvenir y Aynur Akkus . PONDERADO K MAS CERCANA CLASIFICACIN


VECINO DE PROYECCIONES DE FUNCIONES . Departamento de Ingeniera Informtica
y Ciencias de la Informacin de la Universidad Bilkent . [Ver Contexto ] .

Huan Liu. Una familia de generadores de reglas eficientes . Departamento de Sistemas


Informticos y la Universidad Nacional de Ciencias de la Computacin de Singapur. [Ver
Contexto ] .

Rudy Setiono y Huan Liu. Problema La fragmentacin y la funcin automtica de la


construccin . Escuela de la Universidad Nacional de Computacin de Singapur. [Ver
Contexto ] .

Cita de pedidos:

Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine

[ 1 ] Los documentos fueron cosechadas de forma automtica y se asocian con este


conjunto de datos , en colaboracin con Rexa.info

ESTAMBUL BOLSA Data 2013/06/01


Set
Resumen:
Juegos de datos incluye las devoluciones de Bolsa de Estambul con otros siete ndice
internacional; SP, DAX, FTSE, NIKKEI, BOVESPA, MSCE_EU, MSCI_EM desde junio 5,
2009 a febrero 22, 2011.
Caractersticas del Nmero de
Multivariado 556 rea: Negocios
Conjunto de datos: instancias:

Caractersticas del Integral Nmero de Fecha de


8 2013/06/01
atributo: Real atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin N/A accesos 13557
perdidos?
Web:
Fuente:

Dr.Oguz Akbilgic, oguzakbilgic '@' gmail.com Universidad de Tennessee, Knoxville

Datos Conjunto de Informacin:

Los datos se recogen a partir de imkb.gov.tr y finance.yahoo.com. Los datos se organizan


en lo que respecta a los das de trabajo en la Bolsa de Estambul.

Atributo de la informacin:

Rendimientos burstiles. Estambul bolsa de valores ndice nacional 100, Standard & Poora
s 500 ndice de rendimiento, ndice del mercado de valores de retorno de Alemania,
del mercado de valores de ndice de retorno de Reino Unido, del mercado de valores de
ndice de retorno de Japn, del mercado de valores de ndice de retorno de Brasil, el
ndice MSCI Europea, MSCI ndice de mercados emergentes

Documentos pertinentes:

Papel: Akbilgic, O., Bozdogan, H., Balaban, ME, (2013) Una novela modelo RBF Redes
Neuronales hbrido como pronosticador, Estadstica y Computacin. DOI 10.1007/s11222-
013-9375-7
Tesis: Oguz Akbilgic, (2011) Hibrit Radyal Tabanl Fonksiyon Alar ile
Deiken Se IMI ve Tahminleme: Menkul K ymet Yata ra m Kararlar na
likin Bir Uygulama, Universidad de Estambul

Cita de pedidos:

Papel: Akbilgic, O., Bozdogan, H., Balaban, ME, (2013) Una novela modelo RBF Redes
Neuronales hbrido como pronosticador, Estadstica y Computacin. DOI 10.1007/s11222-
013-9375-7
Tesis: Oguz Akbilgic, (2011) Hibrit Radyal Tabanl Fonksiyon Alar ile
Deiken Se IMI ve Tahminleme: Menkul K ymet Yata ra m Kararlar na
likin Bir Uygulama, Universidad de Estambul
ISOLET Data Set 2012/05/21
Resumen:
Objetivo: Predecir el que se hablaba carta-nombre - una tarea de clasificacin simple.
Caractersticas del
Nmero de
Conjunto de Multivariado 7797 rea: Ordenador
instancias:
datos:

Caractersticas del Integral Nmero de Fecha de


617 2012/05/21
atributo: Real atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin N/A accesos 19706
perdidos?
Web:

Fuente:

Creadores: Ron Cole y Marcos Fanty Department of Computer Science and Engineering, .
Oregon Graduate Institute, Beaverton, OR
97006 cole '@' cse.ogi.edu , fanty'@' cse.ogi.edu Donante: Tom Dietterich Department of
Computer Science Universidad del Estado de Oregon, Corvallis, OR
97331 TGD '@' cs.orst.edu

Datos Conjunto de Informacin:

Este conjunto de datos se gener como sigue. 150 sujetos hablaban el nombre de cada
letra del alfabeto dos veces. De ah, tenemos 52 ejemplos de entrenamiento de cada
altavoz. Las bocinas se agrupan en conjuntos de 30 altavoces cada uno, y se les conoce
como isolet1, isolet2, isolet3, isolet4 y isolet5. Los datos aparecen en isolet1 2 3 4. Datos
en orden secuencial, primero los oradores de isolet1, entonces isolet2, y as
sucesivamente. El equipo de prueba, isolet5, es un archivo independiente. Usted notar
que 3 ejemplos estn desaparecidos. Creo que fueron retirados debido a las dificultades
de grabacin. Creo que esto es un buen dominio para una tarea perceptual
ruidoso. Tambin es un muy buen dominio para probar las capacidades de escala de
algoritmos. Por ejemplo, C4.5 en este dominio es ms lento que el de
retropropagacin! He formateado los datos de C4.5 y proporcionado a los nombres de tipo
C4.5 archivo tambin.

Atributo de la informacin:

Las caractersticas se describen en el artculo de Cole y Fanty antes citada. Las


caractersticas incluyen coeficientes espectrales; caractersticas de nivel, caractersticas
sonorante, caractersticas pre-sonorante y caractersticas post-sonorante. Orden exacto de
aparicin de las caractersticas que no se conoce.
Documentos pertinentes:

Fanty, M., Cole, R. (1991). Reconocimiento de letras hablado. En Lippman, RP, Moody, J.,
y Touretzky, DS (Eds). Los avances en los sistemas de procesamiento de informacin
neuronal 3. San Mateo, CA:. Morgan Kaufmann [Web Link] Dietterich, TG, Bakiri, G.
(1991) de correccin de errores Cdigos de salida del: Un mtodo general para la mejora
de los programas de aprendizaje inductivo multiclase. Actas de la Novena Conferencia
Nacional sobre Inteligencia Artificial (AAAI-91), Anaheim, CA:. AAAI Press [Web
Link] Dietterich, TG, Bakiri, G. (1994) Resolver multiclase Problemas de Aprendizaje a
travs de cdigos de salida de correccin de errores.Disponible como Url: [Web Link] [Web
Link]

Documentos que citan este conjunto de datos 1 :

Jakko Peltonen y Samuel Kaski. discriminativo Componentes de datos . IEEE. 2004. [ Ver
Contexto ]. Vassilis Athitsos y Stan Sclaroff. Impulsar Clasificadores vecino ms cercano
para el Reconocimiento multiclase . Universidad de Boston Computer Tech
Ciencia. Informe n, 2004-006. 2004. [ Ver Contexto ]. Littau David y Daniel Boley.Usando
poca memoria Representaciones con el clster conjuntos muy grandes de
datos . SDM. 2003. [ Ver Contexto ]. Inderjit S. Dhillon y Dharmendra S. Modha y W. Scott
Spangler. visualizacin Clase de datos de alta dimensin con aplicaciones . Departamento
de Ciencias de la Computacin de la Universidad de Texas. 2002. [ Ver Contexto ]. Erin L.
Allwein y Robert E. Schapire y Yoram Singer. Reducir multiclase a binario: un enfoque
unificador para clasificadores de margen . ICML. 2000. [ Ver Contexto ]. Hiroshi
Shimodaira y Jun Okui y Mitsuru Nakai. Modificado Aprendizaje Error La clasificacin
mnima y su aplicacin a las redes neuronales . SSPR / SPR.1998. [ Ver Contexto .] .
Khaled A. Alsabti y Sanjay Ranka y Vineet Singh NUBES: un clasificador rbol de
decisiones para grandes conjuntos de datos . KDD. 1998. [Ver Contexto ]. Thomas G.
Dietterich y Ghulum Bakiri. Resolver multiclase Problemas de Aprendizaje a travs de
cdigos de salida de correccin de errores . CoRR, csAI/9501101. 1995. [ Ver
Contexto ]. Shlomo Dubnov y Ran Yaniv y El Technion y Yoram Gdalyahu y Elad
Schneidman y Naftali Tishby y Golan Yona. Clustering Por Friends: A New Nonparametric
Pairwise Distancia basada algoritmo de clsteres . Universidad Ben Gurin. [ Ver
Contexto ]. Jakub Zavrel. An Empirical reexamen de votacin ponderada de k-
NN . Computational Linguistics. [ Ver Contexto ]. Hiroshi Shimodaira y junio Okui y Mitsuru
Nakai. MEJORA DEL RENDIMIENTO generalizacin del MCE / GPD
APRENDIZAJE . Facultad de Ciencias de la Informacin de Japn Instituto Avanzado de
Ciencia y Tecnologa Tatsunokuchi, Ishikawa. [ Ver Contexto ].

Cita de pedidos:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Crdito japons Screening 1992/03/19
Data Set
Resumen:
Incluye teora del dominio (generado por hablar con expertos en el dominio japons); datos
en Lisp.
Caractersticas del
Nmero de
Conjunto de Multivariado 125 rea: Finanzas
instancias:
datos:

Caractersticas del Integral Nmero de Fecha de


N/A 1992/03/19
atributo: Real atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin N/A accesos 33233
perdidos?
Web:

Fuente:

Creador:

Chiharu Sano

Donante:

Chiharu Sano
csano '@' bonnie.ICS.UCI.EDU

Datos Conjunto de Informacin:

Ejemplos representan instancias positivas y negativas de las personas que fueron y no se


concedi el crdito.

La teora fue generada por hablar con las personas en una empresa japonesa que
concede el crdito.

Atributo de la informacin:

N/A

Documentos pertinentes:

N/A

Documentos que citan el Set1 datos:

Chris Drummond y Robert C. Holte. C4.5, desequilibrio de clases, y costo Sensibilidad:


Por qu sub-muestreo late sobremuestreo. Instituto para la Tecnologa de la Informacin,
el Consejo de Investigacin Nacional de Canad. [Ver Contexto].
Cita de pedidos:

Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine


128.- Japons Vocales Data Set
Resumen : Este conjunto de datos
registra 640 series de tiempo de 12
Conjunto de
coeficientes Multivariado, Nmero de cepstrum LPC
datos 640 rea: N/A
tomadas de nueve Time-Series instancias: oradores
Caractersticas:
masculinos.
Caractersticas Nmero de Fecha
Real 12 N/A
del atributo: atributos: Donado

Nmero
Tareas Valores N/
Clasificacin de Web 32064
asociadas: perdidos? A
Accesos:

Fuente:
Propietario original y los donantes: Mineichi Kudo, Jun Toyama, Masaru Shimbo Laboratorio de Procesamiento de
Informacin de la Divisin de Sistemas e Ingeniera de la Informacin Escuela de Ingeniera de la Universidad de
Hokkaido, Sapporo 060-8628, JAPN {mo, junio, Shimbo} @ main.eng.hokudai.ac . jp

Datos Conjunto de Informacin: Los datos fueron obtenidos del examen de nuestro clasificador de
nuevo desarrollo para las curvas multidimensionales (series de tiempo multidimensional). Nueve oradores masculinos
pronunciadas a los dos vocales japonesas / ae / sucesivamente. Para cada elocucin con parmetros anlisis
descritos continuacin aplicamos 12 grados anlisis prediccin lineal a obtener series tiempo discreto 12 coeficientes
cepstrum LPC. Esto significa que una declaracin de un altavoz se forma una serie de tiempo cuya duracin es en el
rango de 7-29 y cada punto de una serie de tiempo es de 12 funciones (12 coeficientes). El nmero de la serie de
tiempo es de 640 en total. Se utiliz un conjunto de 270 series de tiempo para la formacin y el otro conjunto de 370
series de tiempo para la prueba. Nmero de instancias (enunciados): * Formacin: (.. 30 expresiones de 9 altavoces
Ver archivo 'size_ae.train') 270 * Pruebas : 370 (. 24-88 enunciados por los mismos 9 altavoces en diferentes
oportunidades Ver archivo 'size_ae.test'.) Longitud de series de tiempo: * 7-29 dependiendo de
expresiones parmetros de anlisis: * Frecuencia de muestreo: 10 kHz * Longitud del marco: 25.6 ms * Duracin de
los turnos: 6.4ms * Grado de coeficientes LPC: 12 Archivos: * Archivo Formacin: ae.train * Archivo de prueba:
ae.test Formato: Cada lnea ae.train o ae.test representa 12 coeficientes LPC en el orden creciente separados por
espacios. Esto corresponde a un cuadro de anlisis. Las lneas se organizan en bloques, que son un conjunto de 7-29
lneas separadas por lneas en blanco y corresponde a una sola expresin verbal de / ae / con 7-29 frames. Cada
altavoz es un conjunto de consecutivo bloques. En ae.train hay 30 bloques para cada altavoz. Bloques 1-30
representan altavoz 1, los bloques 31 a 60 representan altavoces de 2, y as sucesivamente hasta el altavoz 9. En
ae.test, altavoces 1-9 tienen el nmero correspondiente de bloques: 31 35 88 44 29 24 40 50 29. As, los bloques 1 a
31 representan altavoz 1 (31 expresiones de / ae /), los bloques 32 a 66 representan el altavoz 2 (35 expresiones de /
ae /), y as sucesivamente.
KDD Copa 1998 Datos Conjunto de Datos
Resumen : Este es el conjunto de datos utilizados para la Segunda Internacional Descubrimiento
de Conocimiento y Minera de Datos Herramientas de la Competencia, que se celebr
conjuntamente con KDD-98

Conjunto de datos Nmero de


Multivariante 191779 rea: N/A
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de Fecha 1998-


481
atributo: Integer atributos: Donado 07-20

Nmero de
Valores
Tareas asociadas: Regresin S Web 23738
perdidos?
Accesos:

Fuente:
Ismail Parsa
Epsilon
50 Cambridge Street
Burlington MA 01803 EE.UU.
TEL: (781) 685 hasta 6734
FAX: (781) 685-0806

Datos Conjunto de Informacin:


Por favor, consulte asociados archivos de texto en la carpeta de descargas.

Atributo de la informacin:
N/A

Documentos pertinentes:
N/A
KDD Cup 1999 el conjunto de datos Datos
Resumen : Este es el conjunto de datos utilizados para la Tercera Internacional
Descubrimiento de Conocimiento y Minera de Datos Herramientas de la
Competencia, que se celebr conjuntamente con KDD-99Tercera
Internacional Descubrimiento de Conocimiento y Minera de Datos Herramientas de
la Competencia, que se celebr conjuntamente con KDD-99
Conjunto de datos Nmero de Ordenado
Multivariante 4000000 rea:
Caractersticas: instancias: r

Caractersticas del Categrico, Nmero de Fecha 1999-01-


42
atributo: Integer atributos: Donado 01

Nmero de
Valores
Tareas asociadas: Clasificacin N/A Web 42069
perdidos?
Accesos:

Fuente:
N/A

Datos Conjunto de Informacin:

Por favor, vea la descripcin de tareas.ver descripcin de la tarea.

Atributo de la informacin:
N/A

Documentos pertinentes:

Salvatore J. Stolfo, Wei Fan, Wenke Lee, Andreas Prodromidis, y Philip K. Chan. Modelado basado
en costos y Evaluacin para la minera de datos con la aplicacin de Fraude y de deteccin de
intrusiones:. Resultados del JAM Project [enlace]Salvatore J. Stolfo, Wei Fan, Wenke Lee, Andreas
Prodromidis, y Philip K. Chan. Modelado basado en costos y Evaluacin para la minera de datos
con la aplicacin de Fraude y de deteccin de intrusiones : Resultados del JAM Project.
KEGG metablico Relacin de red (no dirigida)
Conjunto de Datos
Resumen : KEGG vas metablicas modelados como red de reaccin de la ONU
dirigida. Variedad de caractersticas grficas presentadas.

Conjunto de datos Multivariante, Nmero de


65554 rea: Vida
Caractersticas: univariado, Texto instancias:

Caractersticas del Nmero de Fecha 2011-


Entero, real 29
atributo: atributos: Donado 11-28

La clasificacin, Nmero de
Valores
Tareas asociadas: regresin, S Web 10203
perdidos?
clustering Accesos:

Fuente:

1. Muhammad Naeem, Centro de Investigacin en Ingeniera de Datos (CORDE) y del Departamento


de Ciencias de la Computacin , MAJU Islamabad Pakistn ( naeems.naeem '@' gmail.com ).
2. Sohail Asghar, Director / Profesor Asociado del Instituto Universitario de TI PMAS-ridas de
la Universidad de Agricultura, Rawalpindi Pakistn, Centro de Investigacin en Ingeniera de Datos
(CORDE), ( sohail.asghar '@'gmail.com )

Datos Conjunto de Informacin:

KEGG vas metablicas se pueden realizar en la red. Hay dos tipos de red / grfico se pueden
formar. Estos incluyen Reaccin Red y Relacin Network. En la red de reaccin, el sustrato o
compuesto del producto son considerados como nodos y los genes son tratados como
borde. Mientras que en la red de relaciones, del sustrato y del producto componds son considerados
como los bordes, mientras que los genes de la enzima y se colocan como nodos. Nos
herramienta de gran nmero de las rutas metablicas de KEGG XML. Ellos fueron modelados en el
grfico como se describi anteriormente. Con la ayuda de herramienta Cytoscape, variedad de
funciones de red se compunted.

Atributo de la informacin:

a) Camino de texto
b) de componentes conectados Entero (min: 1, mx: 39)
c) Dimetro Entero (min: 1, mx: 46)
d) Radio Entero (min: 1, mx: 13)
e) Centralizacin Entero (min : 0, max: 1)
f) la ruta ms corta Entero (min: 2, max: 23420)
g) Longitud caracterstica Camino entero (min: 1, [Web Link] )
h) Avg.num.Neighbours real ( [Web Link] , [Web Link] )
i) Densidad real ( [Web Link] , max: 1)
j) La heterogeneidad real (min: 0, [Web Link] )
k) Alejado Nodos Entero (min: 0, max: 3)
l) Nmero de Auto Loops Entero (min: 0, max: 4)
m) Multi-borde de nodo par de enteros (min: 0, max: 220)
n) reales (NeighborhoodConnectivity [Web Link] , [Web link] )
o) NumberOfDirectedEdges reales ( [Web Link] , [Web Link] )
p) Estrs real (min: 0, [Web Link] )
q) SelfLoops real (min: 0, [Web Link] )
r) Socio de MultiEdged NodePairs Entero (min: 0 , max: 3)
s) Grado real (min: 1, [Web Link] )
t) TopologicalCoefficient real (min: 0, max: 1)
u) BetweennessCentrality real (min: 0, [Web Link] )
v) radialidad reales ( [Web Link] , max: 30744573457)
w) real (Excentricidad [Web Link] , [Web Link] )
x) NumberOfUndirectedEdges real (min: 0, [Web Link] )
y) ClosenessCentrality real ( [Web Link] , mx : 1)
z) AverageShortestPathLength real ( [Web Link] , [Web Link] )
aa) ClusteringCoefficient real (min: 0, max: 1)
bb) nodeCount Entero (min: 2, max: 232)
cc) edgeCount Entero (min : 1, max: 444)

Documentos pertinentes:

Shannon, P., Markiel, A., Ozier, O., Baliga, NS, Wang, JT, Ramage, D., Amin, N., Schwikowski, B. y
Ideker, T. (2003) Cytoscape: un entorno de software para los modelos integrados de redes de
interaccin biomolecular.Genome Res., 13, 2498 "2504.

Citas:

Naeem M, Asghar S, Centro de Investigacin en Ingeniera de Datos Islamabad


Pakistn , naeems.naeem '@' gmail.com , sohail.asg '@' gmail.com
KEGG metablico Relacin de red (dirigida)
Conjunto de Datos
Resumen : KEGG vas metablicas modelados como red de relaciones se indica. Variedad de
caractersticas grficas presentadas.

Conjunto de datos Multivariante, Nmero de


53414 rea: Vida
Caractersticas: univariado, Texto instancias:

Caractersticas del Nmero de Fecha 2011-


Entero, real 24
atributo: atributos: Donado 11-28

La clasificacin, Nmero de
Valores
Tareas asociadas: regresin, N/A Web 11257
perdidos?
clustering Accesos:

Fuente:

1. Muhammad Naeem, Centro de Investigacin en Ingeniera de Datos (CORDE) y del


Departamento de Ciencias de la Computacin , MAJU Islamabad Pakistn
( naeems.naeem '@' gmail.com ).
2. Sohail Asghar, Director / Profesor Asociado del Instituto Universitario de TI PMAS-ridas de
la Universidad de Agricultura, Rawalpindi, Pakistn Centro de Investigacin en Ingeniera de Datos
(CORDE), ( sohail.asghar '@'gmail.com )

Datos Conjunto de Informacin:

KEGG vas metablicas se pueden realizar en la red. Hay dos tipos de red / grfico se pueden
formar. Estos incluyen Reaccin Red y Relacin Network. En la red de reaccin, el sustrato o
compuesto del producto son considerados como nodos y los genes son tratados como
borde. Mientras que en la red de relaciones, del sustrato y del producto componds son considerados
como los bordes, mientras que los genes de la enzima y se colocan como nodos. Nos
herramienta de gran nmero de las rutas metablicas de KEGG XML. Ellos fueron modelados en el
grfico como se describi anteriormente. Con la ayuda de herramienta Cytoscape, variedad de
funciones de red se compunted.

Atributo de la informacin:

a) Camino de texto
b) Nodos entero (min: 2, max: 116)
c) Los bordes enteros (min: 1, max: 606)
d) los componentes conectados entero (min: 1, mx: 13)
e) nmero entero Dimetro de red ( min: 1, mx: 30)
f) Red de Radio entero (min: 1, max: 2)
g) nmero entero ruta ms corta (min: 1, max: 3277)
h) Longitud caracterstica Camino real (min: 1, [Web Enlace ] )
i) Avg.num.Neighbours real (min: 1, [Web Link] )
j) Los nodos aislados entero (min: 0, max: 1)
k) nmero de autnomos Loops entero (min: 0, max: 0)
l) Multi-borde Nodo par de enteros (min: 0, mx: 57)
m) NeighborhoodConnectivity real (min: 1, [Web Link] )
n) grado de salida real (min: 0.5, [Web Link] )
o) Estrs real ( min: 0, [Web Link] )
p) SelfLoops entero (min: 0, max: 0)
q) PartnerOfMultiEdgedNodePairs real (min: 0, [Web Link] )
r) EdgeCount real (min: 1, [Web Link] )
s) BetweennessCentrality real (min: 0, [Web Link] )
t) indegree real (min: 0.5, [Web Link] )
u) Excentricidad real ( [Web Link] , [Web Link] )
v) ClosenessCentrality real ( [Web Link] , max: 1)
w) AverageShortestPathLength real ( [Web Link] , [Web Link] )
x) ClusteringCoefficient real (min: 0, [Web Link] )

Documentos pertinentes:

Shannon, P., Markiel, A., Ozier, O., Baliga, NS, Wang, JT, Ramage, D., Amin, N., Schwikowski, B. y
Ideker, T. (2003) Cytoscape: un entorno de software para los modelos integrados de redes de
interaccin biomolecular.Genome Res., 13, 2498 "2504.

Citas:

Naeem M, Asghar S, Centro de Investigacin en Ingeniera de Datos Islamabad


Pakistn , naeems.naeem '@' gmail.com , sohail.asg '@' gmail.com
Relaciones del Trabajo Conjunto de Datos
Resumen : De la crtica de negociacin colectiva

Conjunto de datos Nmero de


Multivariante 57 rea: Social
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de 1988-


16 Fecha Donado
atributo: entero, real atributos: 11-01

Valores Nmero de
Tareas asociadas: N/A No 20960
perdidos? Web Accesos:

Fuente:

Creadores: Colectivo barganing Review, publicacin mensual, as de Trabajo del Canad, de


Relaciones de Trabajo del Servicio de Informacin, Ottawa, Ontario, K1A 0J2, Canada, (819) 997-
3117 Los datos incluyen todos los acuerdos colectivos alcanzados en el sector empresarial y los
servicios personales para los locales con al menos 500 miembros (profesores, enfermeras, personal
de la universidad, la polica, etc) en Canad en 87 y primer trimestre de 88. Donante: Stan
Matwin, Ciencias de la Computacin Departamento de la Universidad de Ottawa , 34
Somerset East, K1N 9B4, ( stan '@' uotcsi2 . bitnet )

Datos Conjunto de Informacin:


Los datos se utiliz para probar 2 niveles con enfoque de aprendizaje a partir de ejemplos positivos
y negativos

Atributo de la informacin:

1. dur: mientras dure el contrato


[1 .. 7]
2 wage1.wage: aumento del salario en el primer ao de contrato
[2,0 .. 7,0]
3 wage2.wage: aumento salarial en el segundo ao de contrato
[2,0 .. 7,0]
4 wage3. salario: aumento salarial en el tercer ao de contrato
[2,0 .. 7,0]
5 cola: costo de la caresta de la vida
[ninguno, tcf, tc]
6 hours.hrs: nmero de horas de trabajo durante la semana
[35 .. 40]
7 de pensiones: los empleadores contribuciones al plan de pensiones
[ninguno, ret_allw, empl_contr]
8 stby_pay: pago en espera
[2 .. 25]
9 shift_diff: Turno diferencial: Suplemento para el trabajo en II y III turno
[1 .. 25]
10 educ_allw.boolean: educacin subsidio
[ true false]
11 festivos: nmero de das feriados
[9 .. 15]
12 vacaciones: nmero de das de vacaciones pagadas
[ba, avg, GNR]
13 lngtrm_disabil.boolean: ayuda del empleador durante los empleados a largo plazo la
discapacidad
[true, false]
14 dntl_ins: empleadores contribucin al plan dental
[ninguno, medio, completo]
15 bereavement.boolean: contribucin financiera de los empleadores hacia la cobertura de los
costes de duelo
[true, false]
16 empl_hplan: contribucin del empleador al del plan de salud
[ninguno, medio, completo]

Documentos pertinentes:
Bergadano, F., Matwin, S. Michalski, R., Zhang, J., La medicin de la calidad de las descripciones
de conceptos, Procs. de la 3 Sesiones de Trabajo Europeo sobre Aprendizaje, Glasgow, octubre
de 1988. [Web Link]Bergadano, F., Matwin, S. Michalski, R., Zhang, J., Representar y adquisicin
imprecisa y conceptos dependientes del contexto en el Conocimiento Los sistemas basados,
Procs. de ISMIS'88, Holanda del Norte, 1988. [Web Link]

Documentos que citan este conjunto de datos :

Rudy Setiono. anticipativo de red neuronal de construccin que usa validacin


cruzada . Neural Computation, 13. 2001. [ Ver Contexto .] . Gary M. Weiss y Haym Hirsh un
estudio cuantitativo de Pequeos disyunciones: Experimentos y Resultados . Departamento de
Ciencias de la Universidad de Rutgers Computer. 2000. [ Ver Contexto ]. Endre Boros y Peter
Hammer y Toshihide Ibaraki y Alexander Kogan y Eddy Mayoraz e Ilya B. Muchnik.Una Aplicacin
del anlisis lgico de datos . IEEE Trans. Conocimiento. Datos Eng, 12. 2000. [ Ver
Contexto ]. Lorne Mason y Jonathan Baxter y Peter L. Bartlett y Marcus Frean. Impulsar
Algoritmos como Gradient Descent .PNI. 1999. [ Ver Contexto ]. Richard Maclin. Impulsar
Clasificadores nivel regional . AAAI / IAAI. 1998. [ Ver Contexto .] . Huan Liu y Rudy Setiono un
enfoque probabilstico a Feature Selection - Una solucin Filtro . ICML. 1996. [Ver
Contexto ]. Oya Ekin y Peter L. Hammer y Alexander Kogan y Pawel Invierno. Mtodos de
clasificacin basado en la distancia . nforme RUTCOR ffl Rutgers Centro de Operaciones de
Investigacin ffl Universidad Rutgers.1996. [ Ver Contexto ]. George H. John y Ron Kohavi y Karl
Pfleger. Caractersticas irrelevante y el problema de la seleccin de
subconjuntos . ICML. 1994. [ Ver Contexto ]. Alexander K. Seewald. Disertacin hacia la
comprensin de apilamiento Los estudios de un general Ensemble Aprendizaje Esquema
ausgefuhrt zum Zwecke der Erlangung des akademischen Grados eines der Doktors
technischen Naturwissenschaften . [ Ver Contexto ].YongSeog Kim y W. Nick Street y Filippo
Menczer. Optimal Ensemble de construccin a travs de Meta-evolutivos
Conjuntos . Business Information Systems, Universidad del Estado de Utah. [ Ver
Contexto ]. Ida G. Sprinkhuizen-Kuyper y Elena Smirnova y yo Nalbantis. Confiabilidad produce
informacin Gain . IKAT, Universiteit Maastricht. [ Ver Contexto ]. Chris Drummond y Robert C.
Holte. C4.5, desequilibrio de clases, y la sensibilidad de costos: Por qu sub-muestreo late
sobremuestreo . Instituto para la Tecnologa de la Informacin , el Consejo de Investigacin
Nacional de Canad. [ Ver Contexto .] . Huan Liu y Rudy Setiono Para aparecer en las Actas de
la IEA-AIE96 SELECCIN FUNCIN Y CLASIFICACIN - UN ENFOQUE DE
ENVOLTURA PROBABILSTICO . Departamento de Sistemas Informticos y Computacin de
la Universidad Nacional de Singapur. [ Ver Contexto ]. John G. Cleary y Leonard E.
Trigg. Experiencias con el OB 1, una decisin ptima Bayes rbol de
Aprendices . Departamento de Informtica Universidad de Waikato. [ Ver Contexto ]. Alexander K.
Seewald. Meta-Learning para la Clasificacin apilada . Instituto Austraco de Investigacin para
la Inteligencia Artificial. [ Ver Contexto ]. Karthik Ramakrishnan. UNIVERSIDAD DE
MINNESOTA . [ Ver Contexto ]. Kohavi Ron y George H. John. seleccin automtica de
parmetros mediante la minimizacin de error estimado . Ciencias de la Universidad de
Stanford Dpto. Informtica. [ Ver Contexto ]

Hoja Conjunto de Datos


Resumen : Este conjunto de datos consiste en un conjunto de forma y textura caractersticas
extradas de las imgenes digitales de especmenes de hojas procedentes de un total de 40
especies de plantas diferentes.imgenes digitales de especmenes de hojas procedentes de
un total de 40 especies de plantas diferentes.

Conjunto de datos Nmero de


Multivariante 340 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de Fecha


Real 16 24/02/2014
atributo: atributos: Donado

Nmero de
Valores N/
Tareas asociadas: Clasificacin Web 361
perdidos? A
Accesos:

Fuente:
Este conjunto de datosfue creada por Pedro FB Silva y Andrs RS Mar al uso de hoja
de especmenes recogidos por Rubim Almeida da Silva en la Facultad de Ciencias,
Universidad de Porto, Portugal.hoja especmenes recogidos por Rubim Almeida da Silva en
la Facultad de Ciencias , Universidad de Porto, Portugal.

Datos Conjunto de Informacin:

Para ms detalles sobre este conjunto de datos y / o sus atributos, por favor lea el archivo
'README.pdf' incluido y / o consultar la tesis "Desarrollo de un Sistema de Reconocimiento
Automtico de Especies de Plantas" del Maestro disponible en [Web Link] .Automtico
Plant Especies reconocimiento 'disponible en

Atributo de la informacin:

1. Clase (Especies)
2. Espcimen Nmero
3. Excentricidad
4. Relacin de aspecto 5. Alargamiento 6. Solidez 7. Convexidad estocstico 8. Factor de
isoperimtrico 9. Mxima profundidad de penetracin 10. Lobedness 11. Intensidad
Media 12. Contrast Media 13. Suavidad 14. Tercer
momento 15. Uniformidad 16. EntropaRelacin de aspecto

Documentos pertinentes:
N/A

Citas:

Los datos incluidos se pueden utilizar solamente para propsitos educativos y de


investigacin. Todas las publicaciones que utilizan este conjunto de datos deben citar el
siguiente documento:
"Evaluacin de las caractersticas de la hoja de la Discriminacin ', Pedro FB Silva, Andre
RS Marcal, Rubim M. Almeida da Silva (2013). Springer Lecture Notes in Computer
Science, vol. 7950, 197-204.Apuntes de Ciencias de la Computacin , vol. 7950, 197-204.
El parentesco Conjunto de Datos
Resumen : conjunto de datos relacional

Conjunto de datos Nmero de


Relacional 104 rea: Social
Caractersticas: instancias:

Caractersticas del Nmero de 1990-


Categrico 12 Fecha Donado
atributo: atributos: 07-01

Relational- Valores Nmero de


Tareas asociadas: No 23632
Learning perdidos? Web Accesos:

Fuente:

Creador: Geoff Hinton Donante: J. Ross Quinlan

Datos Conjunto de Informacin:

Esta base de datos relacional consta de 24 nombres nicos en dos familias (que tienen
estructuras equivalentes). Hinton utiliza una unidad de salida nica para cada persona y
estaba interesado en la prediccin de las siguientes relaciones: esposa, marido, madre, padre,
hija, hijo, hermana, hermano, ta, to, sobrina, sobrino y. Hinton utilizado 104 pares de
vectores de entrada-salida (de un espacio de 12x24 = 288 posibles pares). La tarea de
prediccin es la siguiente: dado un nombre y una relacin, tienen las salidas sean en slo para
aquellos individuos (entre los 24) que satisfacen la relacin. Las salidas para todas las dems
personas deben estar apagados. resultados de Hinton: El uso de 100 vectores como entrada y
4 para las pruebas, sus resultados en dos pases produjeron 7 respuestas correctas de cada
8. Su red de 36 unidades de entrada, 3 capas de unidades ocultas, y 24 unidades de salida
utiliza 500 barridos del conjunto de entrenamiento durante el entrenamiento. resultados de
Quinlan: El uso de papel de aluminio, repiti el experimento 20 veces (en lugar de 2 tiempos
de Hinton). FOIL era correcta 78 de 80 veces en los casos de prueba.

Atributo de la informacin:

- Los nombres de relacin son:


esposa
marido
madre
padre
hija
hijo
hermana
hermano
ta
to
sobrina
sobrino

Documentos pertinentes:

Hinton, GE (1986). Aprender las representaciones distribuidas de conceptos, Actas de las


Ciencias Cognitivas de 1986. [Web Link] Quinlan, JR (1989). Las relaciones de aprendizaje:.
Comparacin de un simblico y un enfoque conexionista [Web Link]

Citas:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin

Pantalla LED de dominio Conjunto de Datos


Resumen : A partir de Clasificacin y Regresin libro Los rboles; Proporcionamos aqu 2
programas en C para generar bases de datos de ejemplo

Conjunto de datos Multivariante, Nmero de N/


rea: Ordenador
Caractersticas: Data-Generator instancias: A

Caractersticas del Nmero de Fecha 1988-11-


Categrico 7
atributo: atributos: Donado 10

Nmero de
Valores
Tareas asociadas: Clasificacin No Web 21994
perdidos?
Accesos:

Fuente:

Fuente original: . Breiman, L. Friedman, JH, Olshen, RA y piedra, CJ (1984) Los rboles de
clasificacin y regresin. Wadsworth International Group: Belmont, California. . (Ver
pginas 43-49) Donante: David Aja
Datos Conjunto de Informacin:

Este simple dominio contiene 7 atributos booleanos y 10 conceptos, el conjunto de dgitos


decimales. Recordemos que el LED muestra contiene 7 diodos emisores de luz - de ah la
razn por 7 atributos. El problema sera fcil si no fuera por la introduccin de ruido. En este
caso, cada valor de atributo tiene el 10% de probabilidad de tener su valor invertido. Es
valioso para conocer la tasa de Bayes ptimo para estas bases de datos. En este caso, la tasa
de errores de clasificacin es 26% (74% de precisin de clasificacin).

Atributo de la informacin:

- Todos los valores de atributo son o bien 0 o 1, de acuerdo a si la luz correspondiente est
encendido o no para el dgito decimal.
- Cada atributo (excluyendo el atributo de clase, que es un nmero entero comprendido entre
0 y 9 inclusive) tiene un 10 % por ciento de posibilidades de ser invertido.

Documentos pertinentes:

Breiman, L. Friedman, JH, Olshen, RA y piedra, Clasificacin CJ y rboles de


regresin. Wadsworth International Group: Belmont, California. 1984. (Ver pginas 43-
49). [Web Link] Quinlan, JR (1987). La simplificacin de rboles de decisin. En Revista
Internacional de Estudios Man-Machine. [Web Link] Tan, M. Y Eshelman, L. (1988). Uso de
redes ponderados para representar Clasificacin sobre el Conocimiento en Noisy
Dominios. En las actas de la 5 Conferencia Internacional sobre Aprendizaje Automtico,
121-134, Ann Arbor, Michigan:. Morgan Kaufmann [Web Link]

Documentos que citan este conjunto de datos 1 :

Joao Gama y Ricardo Rocha y Pedro Medas. rboles de decisiones precisas para la minera
de flujos de datos de alta velocidad . KDD. 2003. [ Ver Contexto ]. Tim Leunig y D. Stott
Parker. comparaciones empricas de los diversos mtodos de votacin en el
embolsado . KDD. 2003. [ Ver Contexto ]. Xavier Llor y David E. Goldberg e Ivn Traus y
Ester Bernad i Mansilla. Precisin, parsimonia, y la generalidad en los sistemas de
aprendizaje evolutivo a travs de Seleccin multiobjetivo . IWLCS. 2002. [ Ver
Contexto ]. Xavier Llor y David E. Goldberg. Error Achievable mnima en el LED . Illinois
Algoritmos Genticos Laboratory de la Universidad de Illinois en Urbana-
Champaign.2002. [ Ver Contexto ]. Huan Liu y Rudy Setiono. Incremental Seleccin de
caractersticas . Appl. Intell, 9. 1998. [ Ver Contexto ]. Kamal Ali y Michael J.
Pazzani. Reduccin de errores a travs del aprendizaje mltiples descripciones . Aprendizaje
Automtico, 24. 1996. [ Ver Contexto ]. Vikas Sindhwani y P. Bhattacharya y Subrata
Rakshit. teora de la informacin de funciones de acreditacin en Mquinas de Vectores
Soporte multiclase . [ Ver Contexto ]. Maria Salamo y Elisabet Golobardes. Analizar Rough
Sets mtodos de ponderacin de Razonamiento Basado en Casos de Sistemas . Enginyeria i
Arquitectura La Salle. [ Ver Contexto ]. Ramn Sangesa y Ulises Corts. posibilista
Condicional de Dependencia, la similitud de la Informacin y Medidas: una aplicacin de
recuperacin de la red causal . Departament de Sistemes i Llenguatges Informtics
Departament de Sistemes i Llenguatges Informtics Universidad Politcnica de Catalua
Universidad Politcnica de Catalua. [ Ver Contexto ].

Citas:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin

Caso Legal Reports Conjunto de Datos


Resumen : Un corpus textual de 4.000 casos legales para la generacin automtica de
resmenes y anlisis de citas. Para cada documento que recopilamos frases, citas,
frases frases citas y clases de citas.casos legalespara el resumen automtico y anlisis
de citas. Para cada documento que recopilamos frases, citas, frases frases citas y clases
de citas.

Conjunto de datos Nmero de N/


Texto rea: N/A
Caractersticas: instancias: A

Caractersticas del Nmero de N/ 2012-


N/A Fecha Donado
atributo: atributos: A 10-19

Valores N/ Nmero de
Tareas asociadas: Clasificacin 12625
perdidos? A Web Accesos:

Fuente:

Filippo Galgani galganif '@' cse.unsw.edu.au Facultad de Ciencias de la Computacin e


Ingeniera de la Univeristy of New South Wales, Australia

Ciencia e Ingeniera
New South Wales, Australia

Datos Conjunto de Informacin:

Este conjunto de datos contiene los casos jurdicos de Australia de la Corte Federal de
Australia (FCA). Los casos fueron descargados de AustLII ( [Web Link] ). Se incluyeron
todos los casos a partir del ao 2006,2007,2008 y 2009. Lo construimos para experimentar
con el resumen automtico y anlisis de citas. Para cada documento se recogieron frases,
citas, frases frases citas y clases de citas. Catchphrases se encuentran en el documento, se
utilizaron las frases son estndar de oro para nuestros experimentos de resumen. Frases citas
se encuentran en casos posteriores que citan el presente caso, utilizamos frases de citacin
para el resumen. Frases de citas son las frases (donde est disponible) de los dos casos
posteriores que citan el caso de autos, y los casos de mayor edad citados por el presente
caso. Clases de citas se indican en el documento, y se refieren al tipo de tratamiento que se da
a los casos citados en el presente caso.resumen automtico y anlisis de citas. Para cada
documento se recogieron frases, citas, frases frases citas y clases de citas. Catchphrases se
encuentran en el documento, se utilizaron las frases son estndar de oro para nuestros
experimentos de resumen. Frases citas se encuentran en casos posteriores que citan el
presente caso, utilizamos frases de citacin para el resumen. Frases de citas son las frases
(donde est disponible) de los dos casos posteriores que citan el caso de autos, y los casos de
mayor edad citados por el presente caso. Clases de citas se indican en el documento, y se
refieren al tipo de tratamiento que se da a los casos citados en el presente caso.

Atributo de la informacin:

Proporcionar informacin acerca de cada atributo del conjunto de datos.

Documentos pertinentes:

[1] F. Galgani, P. Compton, y A. Hoffmann. Resumirla basado Cita de textos legales. En


PRICAI 2012, LNCS volumen 7458, pginas 40 "52. Springer, Heidelberg, 2012.
[2] F. Galgani, P. Compton, y A. Hoffmann. La combinacin de diferentes tcnicas de
resumen para el texto legal. En Actas del Taller sobre Enfoques Innovadores hbrido al
tratamiento de datos textuales, pginas 115a "123, Avignon, Francia, abril de
2012. Asociacin de Lingstica Computacional.
[3] F. Galgani, P. Compton, y A. Hoffmann. La adquisicin de conocimientos para la
categorizacin del caso legal infor-mes. En D. Richards y B. Kang, editores, PKAW 2012,
volumen LNAI 7457, pginas 118 "132. Springer, Heidelberg, 2012.
[4] F. Galgani, P. Compton, y A. Hoffmann. Hacia la generacin automtica de frases de los
informes de casos legales. En la 13 Conferencia Internacional sobre Procesamiento de texto
inteligente y Lingstica Computacional, volumen 7182 de Lecture Notes in Computer
Science, pginas 415a "426, Nueva Delhi, India, 2012. Springer Berlin Heidelberg. [5] F.
Galgani y A. Hoffmann. Lexa: Hacia la clasificacin automtica de la citacin legal. En J. Li,
editor, AI 2010: Avances en Inteligencia Artificial, volumen 6464 de Lecture Notes in
Computer Science, pginas 445 "454. Springer Berlin Heidelberg, 2010.Conferencia
Internacional sobre Procesamiento de texto inteligente y Lingstica Computacional,
volumen 7182 de Lecture Notes in Computer Science, pginas 415a "426, Nueva Delhi,
India, 2012. Springer Berlin Heidelberg.
Inteligencia Artificial , volumen 6464 de Lecture Notes in Computer Science , pginas 445
"454. Springer Berlin Heidelberg, 2010.

Citas:

[1] F. Galgani, P. Compton, y A. Hoffmann. Resumirla basado Cita de textos legales. En


PRICAI 2012, LNCS volumen 7458, pginas 40 "52. Springer, Heidelberg, 2012.
[2] F. Galgani, P. Compton, y A. Hoffmann. La combinacin de diferentes tcnicas de
resumen para el texto legal. En Actas del Taller sobre Enfoques Innovadores hbrido al
tratamiento de datos textuales, pginas 115a "123, Avignon, Francia, abril de
2012. Asociacin de Lingstica Computacional.
[3] F. Galgani, P. Compton, y A. Hoffmann. La adquisicin de conocimientos para la
categorizacin del caso legal infor-mes. En D. Richards y B. Kang, editores, PKAW 2012,
volumen LNAI 7457, pginas 118 "132. Springer, Heidelberg, 2012.
[4] F. Galgani, P. Compton, y A. Hoffmann. Hacia la generacin automtica de frases de los
informes de casos legales. En la 13 Conferencia Internacional sobre Procesamiento de texto
inteligente y Lingstica Computacional, volumen 7182 de Lecture Notes in Computer
Science, pginas 415a "426, Nueva Delhi, India, 2012. Springer Berlin Heidelberg.
[5] F. Galgani y A. Hoffmann. Lexa: Hacia la clasificacin automtica de la citacin
legal. En J. Li, editor, AI 2010: Avances en Inteligencia Artificial, volumen 6464 de Lecture
Notes in Computer Science, pginas 445 "454.Springer Berlin Heidelberg, 2010.
Lentes Conjunto de Datos
Resumen : Base de datos para las lentes de contacto apropiadas

Conjunto de datos Nmero de


Multivariante 24 rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de 1990-


Categrico 4 Fecha Donado
atributo: atributos: 08-01

Valores Nmero de
Tareas asociadas: Clasificacin No 48433
perdidos? Web Accesos:

Fuente:

Fuente original: Cendrowska, J. "PRISM: Un algoritmo para la induccin de reglas


modulares", Revista Internacional de Estudios de Man-Machine, 1987, 27, 349-
370 Donante: Benoit Julien ( Julien '@' ce.cmu.edu )

Datos Conjunto de Informacin:

Los ejemplos son completa y libre de ruidos. Los ejemplos altamente simplificado el
problema. Los atributos no describen plenamente todos los factores que afectan la decisin
de qu tipo, si los hubiere, para que quepa. Notas:-. Esta base de datos est completa (todas
las combinaciones posibles de pares atributo-valor se representan) - Cada instancia se ha
completado y correctas. - 9 reglas cubren el conjunto de entrenamiento.

Atributo de la informacin:

- 3 Clases
1: el paciente debe estar equipado con lentes de contacto duros,
2: el paciente debe estar equipado con lentes de contacto blandas,
3: el paciente no debe estar equipado con lentes de contacto. 1. edad del paciente: (1) joven,
(2) pre-presbicia, (3) presbicia 2. prescripcin espectculo: (1) miope, (2)
hipermtrope 3. astigmtica: (1) no, (2) s 4. romper la velocidad de produccin: (1)
reduccin, (2) la normalidad
Documentos pertinentes:

Witten, IH & MacDonald, BA (1988). Usando el aprendizaje de conceptos de adquisicin de


conocimientos. International Journal of Man-Machine Estudios, 27, (pp. 349-370). [Web
Link]

Documentos que citan este conjunto de datos 1 :

Ke Wang y Zhou Shiyu y Ada Wai Chee-Fu y Jeffrey Xu Yu. Minera Cambios de
Clasificacin por correspondencia Tracing . SDM. 2003. [ Ver Contexto ]. Bob Ricks y Dan
Ventura. El entrenamiento de un red neuronal de Quantum . PNI. 2003. [ Ver
Contexto ]. Jeremy Kubica y Andrew Moore. Probabilstico de identificacin de ruido y
limpieza de datos . ICDM. 2003. [ Ver Contexto ]. Jim Prentzas y Ioannis Hatzilygeroudis y
Athanasios K. Tsakalidis. Actualizacin de una base de reglas hbrido con New Empirical
Fuente del Conocimiento . ICTAI. 2002. [ Ver Contexto ]. Pedro Domingos. Descubrimiento
de Conocimiento a travs de mltiples modelos . Intell. Datos Anal, 2. 1998. [ Ver
Contexto ]. J. Kent Martin y Daniel S. Hirschberg. Pequeos estadsticas de la muestra para
la clasificacin de error Precios I: Error Rate Mediciones . Departamento de Informacin y
Ciencias de la Computacin de la Universidad de California, Irvine. 1996. [ Ver
Contexto ]. Geoffrey I. Webb. OPUS: Un Algoritmo admisible Eficiente para Unordered
Buscar . J. Artif. Intell. Res.. .. (JAIR, 3 1995 [ Ver Contexto .] Christophe Giraud y Tony
Martnez y Christophe G. Giraud-Carrier. Universidad del Departamento de Ciencias de la
Computacin de la ILA Bristol: Combinar inductivo de aprendizaje con el conocimiento
previo y Razonamiento 1995 [.. Ver Contexto ]. Anthony D. Griffiths y el Puente de
Derek. A Criterio para la Evaluacin de los clasificadores basados en la caja . Departamento
de Ciencias de la Computacin de la Universidad de York. [ Ver Contexto ]. Mehmet
Dalkilic y Arijit Sengupta. Un clasificador-Logic terico llamado Crculo . Facultad de
Informtica Centro de Genmica y Bioinformtica de la Universidad de Indiana. [ Ver
Contexto ]. Christophe G. Giraud-Carrier y Tony Martnez.UN MODELO DE
APRENDIZAJE INCREMENTAL DE RAZONAMIENTO sentido comn . Departamento
de Ciencias de la Computacin de la Universidad Brigham Young. [ Ver Contexto ].

Citas:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Carta de Reconocimiento Conjunto de Datos
Resumen : Base de datos de caractersticas de la imagen de personajes, tratar de identificar
a la carta

Conjunto de datos Nmero de


Multivariante 20000 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 1991-01-


Entero 16
atributo: atributos: Donado 01

Nmero de
Valores
Tareas asociadas: Clasificacin No Web 100366
perdidos?
Accesos:

Fuente:

Creador: David J. Pizarra Odesta Corporation; 1890 Maple Ave., Suite 115, Evanston, IL
60201 Donante: David J. Pizarra ( Dave '@' math.nwu.edu ) (708) 491-3867

Datos Conjunto de Informacin:

El objetivo es identificar a cada uno de un gran nmero de pantallas de pxeles rectangulares


en blanco y negro y como una de las 26 letras maysculas en el alfabeto Ingls. Las imgenes
de caracteres se basan en 20 fuentes diferentes y cada letra dentro de estas 20 fuentes se
distorsion al azar para producir un archivo de 20.000 estmulos nicos. Cada estmulo fue
convertido en 16 atributos numricos primitivos (momentos estadsticos y recuentos borde)
que luego se ampliar para ajustarse en un rango de valores enteros entre 0 y 15. Tpicamente
Entrenamos en los primeros 16.000 artculos y luego utilizamos el modelo resultante para
predecir la letra de categora para los restantes 4.000. Vase el artculo citado arriba para ms
detalles.

Atributo de la informacin:

1. lettr letra mayscula (26 valores de la A a la Z)


2. x-box posicin horizontal del cuadro (nmero entero)
3. y-caja de la posicin vertical de la caja (entero)
4. ancho de ancho de caja (entero)
5. alto altura del cuadro (nmero entero)
6. onpix nmero total de pxeles (entero)
7. x-bar significar x de los pxeles en el cuadro (nmero entero)
8. y-bar significa y de pxeles en el cuadro (nmero entero)
9. x2bar significar x varianza (entero)
10. y2bar significar y varianza (entero)
11. xybar significar correlacin xy (nmero entero)
12. x2ybr media de x * x * y (entero)
13. xy2br media de x * y * y (entero)
14. x-ege recuento medio de borde izquierda a derecha (entero)
15. xegvy correlacin de x-ege con y (entero)
16. y-ege significar inferior recuento borde hacia arriba (entero)
17. yegvx correlacin de y-ege con x (nmero entero)

Documentos pertinentes:

PW Frey y DJ Slate. "Carta de Reconocimiento Utilizando estilo Holanda adaptativa


clasificadores". (Vol. Aprendizaje Automtico 6 # 2 de marzo 91) [Web Link]Machine
Learning Vol. 6 # 02 de marzo 91)

Documentos que citan este conjunto de datos 1 :

Xiaoli Z. Helecho y Carla Brodley. Conjuntos de clster para alta Clustering Dimensional:
un estudio emprico . Journal of Machine Learning Investigacin n, a. 2004. [ Ver
Contexto ]. Jaakko Peltonen y Arto Klami y Samuel Kaski.Mejora Aprendizaje de Riemann
Mtricas para el anlisis exploratorio . La mejora del aprendizaje de Riemann Mtricas para
el anlisis exploratorio. Redes Neuronales. 2004. [ Ver Contexto ]. Giorgio
Valentini. mtodos Ensemble basados en prejuicios - anlisis de varianza Tesis Series DISI-
TH-2003 . Dipartimento di Scienze e Informatica dell'Informazione. 2003. [ Ver
Contexto ]. Dmitry Pavlov y Alexandrin Popescul y David M. Pennock y Lyle H.
Ungar.Mezclas de Modelos condicional de mxima entropa . ICML. 2003. [ Ver
Contexto ]. Kristin P. Bennett y Ayhan Demiriz y Richard Maclin. Explotar los datos no
marcados en los mtodos de conjunto . KDD. 2002. [ Ver Contexto]. Stephen D.
Bay. clasificacin vecino ms cercano de varios subconjuntos de
caractersticas . Intell. Datos Anal, 3. 1999. [ Ver Contexto ]. Thomas G. Dietterich. Prueba
estadstica aproximada para la comparacin de clasificacin supervisada algoritmos de
aprendizaje . Neural Computation, 10. 1998. [ Ver Contexto ]. Georgios Paliouras y David S.
Bre. El efecto de las caractersticas numricas sobre la escalabilidad de los programas de
aprendizaje inductivo . ECML. 1995. [ Ver Contexto ]. Thomas G. Dietterich y Ghulum
Bakiri. Resolver multiclase Problemas de Aprendizaje a travs de cdigos de salida de
correccin de errores . CoRR, csAI/9501101. 1995. [Ver Contexto ]. Adil M. Bagirov y
Julien Ugon. Un algoritmo para el clculo de la funcin lineal a trozos que separa dos
sets . CIAO, Escuela de Informtica y Ciencias Matemticas de la Universidad de
Ballarat. [ Ver Contexto ].Miguel Moreira y Alain Hertz y Eddy Mayoraz. binarizacin datos
por eliminacin discriminante . Actas del Taller ICML-99: De Aprendizaje Automtico
para. [ Ver Contexto ]. Arto Klami y Samuel Kaski y Ty n ohjaaja y Janne
Sinkkonen. Universidad Tecnolgica de Helsinki Departamento de Ingeniera Fsica y
Matemticas Arto Klami regularizada discriminativo Clustering . Regularizada
discriminativo Clustering. [ Ver Contexto ]. Shailesh Kumar y Melba Crawford y Joydeep
Ghosh. Un marco verstil para las imgenes de marcar con un gran nmero de
clases . Departamento de Ingeniera Elctrica e Informtica. [ Ver Contexto ]. Amund
Tveit. emprico comparativo de precisin y rendimiento para el clasificador MIPSVM con
clasificadores existentes . Divisin de Intelligent Departamento de Informtica y Ciencias de
la Informacin de la Universidad Noruega de Ciencia y Tecnologa de Sistemas.[ Ver
Contexto ]. Hirotaka Inoue y Hiroyuki Narihisa. Incremental Learning con auto-organizacin
neural Grove . Departamento de Ingeniera Elctrica y Ciencias de la Informacin, Kure
Colegio Nacional de Tecnologa. [ Ver Contexto ]. Jaakko Peltonen y Arto Klami y Samuel
Kaski. Mtrica de Aprendizaje para la Visualizacin de Informacin . Redes Neuronales
Research Centre Helsinki University of Technology. [ Ver Contexto ].

La mejora del aprendizaje de Riemann Mtricas para el anlisis exploratorio. Redes


Neuronales. 2004. [

Escuela de Informacin de Tecnologa y Ciencias Matemticas de la Universidad de


Ballarat. [

Ingeniera Informtica . [

Ciencias de la Informacin , el noruego de la Universidad de Ciencia y Tecnologa. [

Ingeniera Elctrica y Ciencias de la Informacin, Kure Colegio Nacional de Tecnologa. [

Redes Neuronales Research Centre Helsinki University of Technology. [

Citas:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Libras Movimiento Conjunto de Datos
Resumen : El conjunto de datos contiene 15 clases de 24 casos cada uno. Cada referencias
de clase a un tipo de movimiento de la mano en LIBRAS (nombre portugus 'Lingua
Brasileira de Sinais', oficial lengua brasilea de seales).

Conjunto de datos Multivariante, Nmero de


360 rea: N/A
Caractersticas: Secuencial instancias:

Caractersticas del Nmero de Fecha 2009-


Real 91
atributo: atributos: Donado 08-17

Nmero de
Clasificacin, Valores N/
Tareas asociadas: Web 36918
Clustering perdidos? A
Accesos:

Fuente:

Creadores:
Daniel Baptista Dias (Dias, DB)
Sarajane Marques Peres (Peres, SM)
Helton Hideraldo Bscaro (Bscaro. HH)
{danielbdias, heltonhb, sarajane} en usp.br Donante: Universidad de So Paulo - Brasil

Datos Conjunto de Informacin:

El conjunto de datos (movement_libras) contiene 15 clases de 24 casos cada uno, donde


cada referencias de clase a un tipo de movimiento de la mano en LIBRAS. En el vdeo pre-
procesamiento, una normalizacin de tiempo se lleva a cabo la seleccin de 45 imgenes de
cada vdeo, en funcin a un uniforme distribucin . En cada cuadro, los pxeles de los
centroides de los objetos segmentados (la mano) se encuentran, que componen la versin
discreta de la curva F con 45 puntos. Todas las curvas se normalizan en el espacio
unitario. Con el fin de preparar estos movimientos para ser analizados por los algoritmos,
hemos llevado a cabo una operacin de correspondencia, es decir, cada curva F se mapea en
una representacin con 90 caractersticas, con representacin de las coordenadas de
movimiento . Algunos subconjuntos de datos se ofrecen con el fin de apoyar a las
comparaciones de los resultados.
Atributo de la informacin:

90 numrico (doble) y 1 para la clase (entero)

Documentos pertinentes:

DIAS, DB; MADEO, RCB; ROCHA, T.; Biscaro, HH; PERES, SM.
Mano Movimiento Reconocimiento por Brasil el lenguaje de seas : un estudio basado en la
distancia Usando Redes Neuronales .
En: 2009 Conferencia Conjunta Internacional sobre Redes Neuronales, 2009, Atlanta, GA.
Actas del 2009 Conferencia Conjunta Internacional sobre Redes Neuronales. Eau Claire ,
WI, EE.UU.: Documation LLC, 2009. p. 697-704. Objetos Digitales
Identificador 10.1109/IJCNN.2009.5178917

Citas:

Por favor refirase a la mquina de aprendizaje de la poltica de la citacin del repositorio.


Enfermedades del Hgado Conjunto de Datos
Resumen : Base de datos BUPA Medical Research Ltd. donado por Richard S.
ForsythInvestigacin Mdica Ltd. base de datos donado por Richard S. Forsyth

Conjunto de datos Nmero de


Multivariante 345 rea: Vida
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de Fecha 1990-


7
atributo: entero, real atributos: Donado 05-15

Nmero de
Valores
Tareas asociadas: N/A No Web 48869
perdidos?
Accesos:

Fuente:

Creadores: BUPA Medical Research Ltd. Donante: Richard S. Forsyth 8 Grosvenor


Avenida Mapperley Parque Nottingham NG3 5DX 0602 hasta 621.676

Datos Conjunto de Informacin:

Los primeros 5 variables son todos los exmenes de sangre que se cree que son sensibles a
los trastornos del hgado que podran derivarse de un consumo excesivo de alcohol. Cada
lnea en el archivo bupa.data constituye el registro de un solo individuo masculino. Parece
que las bebidas> 5 es una especie de selector en esta base de datos. Consulte la Gua /
Manual del usuario PC BEAGLE para ms informacin.archivo de datos que constituye el
rcord de un solo individuo masculino.

Atributo de la informacin:

1. MCV volumen corpuscular medio


2. AlkPhos alcalina fosfatasa
3. aminotransferasa alanina sgpt
4. aspartato aminotransferasa sgot
5. GammaGT gamma-glutamil transpeptidasa
6. Bebidas nmero de equivalentes de media pinta de bebidas alcohlicas bebido por da
7. selector de campo utilizado para dividir los datos en dos conjuntos
Documentos pertinentes:

Gua del PC / BEAGLE usuario (escrito por Richard S. Forsyth).

Documentos que citan este conjunto de datos 1 :

. Zhi-Hua Zhou y Jiang Yuan NeC4.5: Neural Ensemble Based C4.5 . IEEE
Trans. Conocimiento. Datos Eng, 16. 2004. [ Ver Contexto ]. Yuan Jiang y Zhi-Hua
Zhou. datos de entrenamiento edicin para clasificadores KNN con Red Neural
Ensemble . ISNN (1). 2004. [ Ver Contexto ]. Glenn Fung y M. Murat Dundar y Jinbo Bi y
Bharat Rao. Un algoritmo iterativo rpido para fisher discriminante utilizando ncleos
heterogneos . ICML. 2004. [ Ver Contexto]. Jochen Garcke y Michael
Griebel. Clasificacin con rejillas dispersos mediante funciones de base
simplicial . Intell. Datos Anal, 6. 2002. [ Ver Contexto ]. Michail Vlachos y Carlotta
Domeniconi y Dimitrios Gunopulos y George Kollios y Nick Koudas. tcnicas de reduccin
de dimensionalidad no lineales para la clasificacin y visualizacin . KDD. 2002. [ Ver
Contexto ]. Xavier Llor y David E. Goldberg e Ivn Traus y Ester Bernad i
Mansilla. Precisin, parsimonia, y la generalidad en los sistemas de aprendizaje evolutivo a
travs de Seleccin multiobjetivo . IWLCS. 2002. [ Ver Contexto ]. Jochen Garcke y Michael
Griebel y Michael Tes. Minera de datos con Sparse Grids .Informtica, 67. 2001. [ Ver
Contexto ]. Jochen Garcke y Michael Griebel. La minera de datos con rejillas dispersos
mediante funciones de base simplicial . KDD. 2001. [ Ver Contexto ]. Petri Kontkanen y
Jussi Lahtinen y Petri Myllymki y Henry Tirri. visualizacin bayesiano no supervisado de
los datos de alta dimensin . KDD. 2000. [ Ver Contexto ]. Carlotta Domeniconi y Jing Peng
y Dimitrios Gunopulos. Una mquina adaptativa Mtricas de Clasificacin de
patrones . PNI. 2000. [ Ver Contexto .] . Guido Lindner y Rudi Studer AST: Apoyo a la
seleccin del algoritmo con Enfoque CBR . PKDD. 1999. [ Ver Contexto ]. Iaki Inza y
Pedro Larraaga y Basilio Sierra y Ramn Etxeberria y Jos Antonio Lozano y Jos Manuel
Pea. Representar el comportamiento de los algoritmos de aprendizaje de clasificacin
supervisada por redes bayesianas . Pattern Recognition Letters, 20. 1999. [ Ver
Contexto ]. Kristin P. Bennett y Erin J. Bredensteiner. Un mtodo paramtrico Optimizacin
de Aprendizaje Automtico . INFORMA Journal on Computing, 9. 1997. [ Ver
Contexto ]. Jennifer A. Azul y Kristin P. Bennett. Hybrid Extreme Point Bsqueda
Tab . Departamento de Ciencias Matemticas del Instituto Politcnico
Rensselaer. 1996. [ Ver Contexto ]. Peter D. Turney. sensibles a los costes de clasificacin:
evaluacin emprica de una Decisin gentico hbrido Tree Induccin algoritmo . CoRR,
csAI/9503102. 1995. [ Ver Contexto ]. Gabor Melli. Un enfoque basado en modelos
perezoso en On-Line Clasificacin . Universidad de la Columbia Britnica. 1989. [ Ver
Contexto]. Aynur Akku y H. Altay Gvenir. Ponderacin Caractersticas de k vecinos ms
prximos: Clasificacin en Feature Proyecciones . Departamento de Ingeniera Informtica y
Ciencias de la Informacin de la Universidad Bilkent. [Ver Contexto ]. Greg Ridgeway. El
Estado de Impulso . Departamento de Estadstica de la Universidad de Washington. [ Ver
Contexto ]. Adil M. Bagirov y Alex Rubinov y AN Soukhojak y John
Yearwood. clasificacin de datos no supervisada y supervisada a travs de no lisos y
optimizacin global . Escuela de Tecnologa de la Informacin y Ciencias Matemticas de la
Universidad de Ballarat. [ Ver Contexto ]. Adil M. Bagirov y John Yearwood. Un nuevo
algoritmo de optimizacin no lisos para la agrupacin . Centro de Informtica y
Optimizacin Aplicada de la Facultad de Informtica y Ciencias Matemticas de la
Universidad de Ballarat. [ Ver Contexto ]. H. Altay T uvenir y Aynur Akkus. PONDERADO
K MAS CERCANA CLASIFICACIN VECINO DE PROYECCIONES DE
FUNCIONES . Departamento de Ingeniera Informtica y Ciencias de la Informacin de la
Universidad Bilkent. [ Ver Contexto ]. C. . Tito Brown y Harry W. Bullen y Sean P. Kelly y
Robert K. Xiao y Steven G. Satterfield y John G. Hagedorn y Judith E.
Devaney Visualizacin y Minera de Datos en un inmersivo entorno 3D: Proyecto de Verano
2003 . [ Ver Contexto ]. David R. Musicant. MINERA DE DATOS A TRAVS DE
PROGRAMACIN MATEMTICA Y EL APRENDIZAJE DE LA MQUINA . Doctor en
Filosofa (Ciencias de la Computacin) UNIVERSIDAD. [ Ver Contexto ].

Ingeniera Informtica y Ciencias de la Informacin de la Universidad Bilkent. [

Departamento de Estadstica de la Universidad de Washington . [

Tecnologas de la Informacin y Ciencias Matemticas de la Universidad de Ballarat. [

Citas:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la


citacinMachine Learning Repository

Localizacin de datos para la Persona


Actividad Conjunto de Datos
Resumen : Los datos contiene las grabaciones de cinco personas que realizan diferentes
actividades. Cada persona llevaba cuatro sensores (tags) mientras se realiza el mismo
escenario en cinco ocasiones.sensores (tags) mientras se realiza el mismo escenario en
cinco ocasiones.

Univariante,
Conjunto de datos Nmero de
Secuencial, 164860 rea: Vida
Caractersticas: instancias:
Time-Series

Caractersticas del Nmero de Fecha 2010-


Real 8
atributo: atributos: Donado 11-03

Nmero de
Valores
Tareas asociadas: Clasificacin N/A Web 36612
perdidos?
Accesos:

Fuente:

- Creadores: Mitja Lustrek ( mitja.lustrek '@' ijs.si ), Bostjan Kaluza


( bostjan.kaluza '@' ijs.si ), Rok Piltaver ( rok.piltaver '@' ijs.si ), Jana Krivec ( jana.
Krivec '@' ijs.si ), Vedrana Vidulin ( vedrana.vidulin '@' ijs.si )
- Jozef Stefan Institute, Jamova cesta 39, 1000 Ljubljana, Slovenija
- Donante: Bozidara Cvetkovic ( boza.cvetkovic '@' ijs.siboza . Cvetkovic )
- Jozef Stefan Institute, Jamova cesta 39, 1000 Ljubljana, Slovenija
- Fecha recibido: octubre 2010

Datos Conjunto de Informacin:

La gente utiliza para la grabacin de los datos llevaban cuatro etiquetas (en el tobillo
izquierdo, la derecha en el tobillo, el cinturn y el pecho).
Cada instancia es un dato de localizacin para una de las etiquetas. La etiqueta puede ser
identificado por uno de los atributos.

Atributo de la informacin:

Ejemplo Instancia: A01 ,020-000-033-111, 633790226057226795,27.05.2009


14:03:25:723,4.292500972747803,2.0738532543182373,1.36650812625885, caminando 1)
Nombre de secuencia (Nominal) - A, B, C, D, E = 5 personas2) identificator Tag {010-000-
024-033,020-000-033-111,020-000-032-221,010-000-030-096} (Nominal) - ANKLE_LEFT
= 010-000-024-033 - ANKLE_RIGHT = 010-000-030-096 - PECHO = 020-000-033-111 -
CORREA = 020-000-032-221 3) fecha y hora (Numrico) todos nicos 4) Formato de fecha
= DD.MM.AAAA HH: mm: ss: SSS (Fecha) 5) coordenada x de la etiqueta (Numrico) 6) la
coordenada y de la etiqueta (Numrico) 7) coordenada z de la etiqueta (Numrico) 8)
actividad {caminar, caer, 'acostarse', la mentira, 'sentarse', sentado, "de pie despus de estar
acostado", "a cuatro patas", "sentado en el suelo ',' ponerse de pie despus de estar sentado",
"de pie despus de estar sentado en el suelo '} (Nominal)

timestamp (Numrico) todos nicos


Formato de fecha = DD.MM.AAAA HH: mm: ss: SSS (Fecha)

Documentos pertinentes:

B. Kaluza, V. Mirchevska, E. Dovgan, M. Lustrek, M. Gams, Un enfoque basado en agentes


para cuidar de Vida Independiente, Conferencia Internacional Conjunta sobre Inteligencia
Ambiental (AmI-10), Mlaga, Espaa, en prensaEnfoque basado cuidar de Vida
Independiente , Conferencia Internacional Conjunta sobre Inteligencia Ambiental (AmI-10),
Mlaga, Espaa, en prensa

Citas:

B. Kaluza, V. Mirchevska, E. Dovgan, M. Lustrek, M. Gams, Un enfoque basado en agentes


para cuidar de Vida Independiente, Conferencia Internacional Conjunta sobre Inteligencia
Ambiental (AmI-10), Mlaga, Espaa, en prensaConferencia sobre Inteligencia Ambiental
(AmI-10), Mlaga, Espaa, en prensa
Lgica Terico Conjunto de Datos
Resumen : Todo el cdigo de la lgica Terico

N
Conjunto de datos Domain- Nmero de
/ rea: Ordenador
Caractersticas: Theory instancias:
A

N
Caractersticas del Nmero de
N/A / Fecha Donado N/A
atributo: atributos:
A

N
Valores Nmero de
Tareas asociadas: N/A / 11386
perdidos? Web Accesos:
A

Fuente:

Donado por Paul O'Rorke de (descrito en el aprendizaje de la mquina )

Datos Conjunto de Informacin:

N/A

Atributo de la informacin:

N/A

Documentos pertinentes:

N/A

Citas:

Por favor refirase a la mquina de aprendizaje del Repositorio de la poltica de la citacin


Baja resolucin Espectrmetro de Conjunto
de Datos
Resumen : A partir de IRAS de datos - NASA Ames Research Center

Conjunto de datos Nmero de


Multivariante 531 rea: Fsico
Caractersticas: instancias:

Caractersticas del Nmero de 1988-


Entero, real 102 Fecha Donado
atributo: atributos: 03-01

Valores N/ Nmero de
Tareas asociadas: Clasificacin 17395
perdidos? A Web Accesos:

Fuente:

Originador: Infra-Red Astronoma Proyecto Satlite Database Donante: John Stutz


< STUTZ '@' pluto.arc.nasa.gov > Es posible que uno de los colegas de John siempre
realmente presente a UCI, tal vez Mike Marshall (MARSHALL% PLU '@' io . arc.nasa.gov )

Datos Conjunto de Informacin:

El Satlite Astronmico Infrarrojo (IRAS) fue el primer intento para asignar el total del
cielo en longitudes de onda infrarrojas. Esto no se poda hacer de observatorios de tierra
debido a que grandes porciones del espectro de infrarrojos es absorbida por la atmsfera. El
programa de observacin principal fue la plena alta resolucin cielo mapeo realizado en los
escaneos en 4 frecuencias. El programa de la Resolucin Observacin Bajo (IRAS-LRS)
observ fuentes de alta intensidad durante dos bandas espectrales continuas. Esta base de
datos se deriva de un subconjunto de las observaciones LRS de mayor calidad tomadas entre
12h y 24h ascensin recta. Esta base de datos contiene 531 espectros de alta calidad
derivados de la base de datos de IRAS-LRS. Los datos originales contenan 100 mediciones
espectrales en cada una de las dos bandas superpuestas. De ellos, 44 de la banda azul y 49 de
la banda roja canales contienen mediciones de flujo utilizables. Slo estos se incluyen
aqu. Los valores originales intensidades espectrales se comprimen a 4 dgitos, y cada
espectro incluye 5 parmetros de cambio de escala. Hemos utilizado los LRS especificados
algoritmo para cambiar la escala de stos a las unidades de intensidad espectral
(Janskys). Total de las diferencias de intensidad, han sido eliminados por la normalizacin de
cada espectro con un valor medio de 5000. Esta base de datos se obtuvo originalmente para
su uso en el desarrollo y las pruebas de nuestro sistema AutoClass para la clasificacin
bayesiana. No hemos mantenido ningn resultado de este desarrollo, al haber concentrado
nuestros esfuerzos de una versin 5425 elemento de los mismos datos. Nuestras
clasificaciones se basan en la modelacin simultnea de los 93 intensidades espectrales. Con
la base de datos ms grande que pudimos encontrar clases que corresponden bien con los
tipos espectrales conocidas asociadas con determinados tipos estelares. Tambin
encontramos las clases que coinciden con el espectro esperado de ciertos procesos estelares
bajo investigacin por los astrnomos de Ames. Estas clases han ampliado
considerablemente el conjunto de estrellas que son investigados por los investigadores. datos
originales: La fortran original de archivo de datos se da en los espectros de 2.data. Los
espectros-2.head archivo contiene informacin sobre el contenido. De archivos de datos y
cmo cambiar la escala de las intensidades espectrales comprimido.

Atributo de la informacin:

1. LRS-name: (formato Sospechoso: 5 dgitos, "+" o "-", de 4 dgitos)


2. Clase LRS: integer - Los valores de la clase LRS van 0-99 con dgitos del 10 dando la
clase bsica y el dgito del 1 dando la subclase. Estas clases se basan en caractersticas (picos,
valles y tendencias) de las curvas espectrales.
3. ID-type: integer
4. Haga Ascensin: float - longitud Astronmico. 1h = 15deg
5. Declinacin: flotar - Lattitude Astronmico. -90 <= Dic <= 90
6. Factor de Escala: float - Proporcional a la intensidad de la fuente
7. Base de Azul 1: integer - coeficiente de cambio de escala lineal
8. Base azul 2: integer - coeficiente de cambio de escala lineal
9. Base roja 1: integer - coeficiente de cambio de escala lineal
10. Base roja 2: integer - coeficiente de cambio de escala lineal
11-54: los flujos de las siguientes 44 azul de banda de canal de longitud de onda: (todos dan
como punto flotante nmeros)
- 11. 7.8636
- 12. 8,0485
- 13. 8,2286
- 14. 8.4043
- 15. 8,5758
- 16. 8,7436
- 17. 8,9078
- 18. 9,0686
- 19. 9,2262
- 20. 9,3809
- 21. 9.5328
- 22. 9,6820
- 23. 9.8286
- 24. 9.9728
- 25. 10.1148
- 26. 10.2545
- 27. 10.3922
- 28. 10.5279
- 29. 10.6616
- 30. 10.7935
- 31. 10.9237
- 32. 11.0521
- 33. 11.1790
- 34. 11.3042
- 35. 11.4280
- 36. 11.5503
- 37. 11.6711
- 38. 11.7907
- 39. 11.9089
- 40. 12.0258
- 41. 12.1415
- 42. 12.2560
- 43. 12.3693
- 44. 12.4816
- 45. 12.5927
- 46. 12.7028
- 47. 12.8118
- 48. 12.9199
- 49. 13.0269
- 50. 13.1330
- 51. 13.2382
- 52. 13.3425
- 53. 13.4459
- 54. 13.5485
55-103: los flujos de las siguientes longitudes de onda de canal 49-banda roja: (todos dan
como nmeros en coma flotante)
- 55. 10.9929
- 56. 11.3704
- 57. 11.7357
- 58. 12.0899
- 59. 12.4339
- 60. 12.7687
- 61. 13.0948
- 62. 13.4131
- 63. 13.7239
- 64. 14.0278
- 65. 14.3252
- 66. 14.6166
- 67. 14.9022
- 68. 15.1825
- 69. 15.4576
- 70. 15.7280
- 71. 15.9937
- 72. 16.2551
- 73. 16.5123
- 74. 16.7656
- 75. 17.0151
- 76. 17.2610
- 77. 17.5034
- 78. 17.7425
- 79. 17.9784
- 80. 18.2113
- 81. 18.4412
- 82. 18.6682
- 83. 18.8925
- 84. 19.1142
- 85. 19.3334
- 86. 19.5500
- 87. 19.7643
- 88. 19.9763
- 89. 20.1861
- 90. 20.3937
- 91. 20.5992
- 92. 20.8026
- 93. 21.0041
- 94. 21.2037
- 95. 21.4014
- 96. 21.5973
- 97. 21.7914
- 98. 21.9838
- 99. 22.1745
- 100. 22.3636
- 101. 22.5511
- 102. 22.7371
- 103. 22.9216

Documentos pertinentes:

Un grupo de investigacin de la NASA Ames ocupa de las tareas de aprendizaje no


supervisado puede haber utilizado esta base de datos durante sus estudios empricos de su
algoritmo / sistema (AUTOCLASS II). Vea la 1988 Machine Learning Conference
Proceedings, 54-64, para una descripcin de su algoritmo.

Citas:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
LSVT Voz Rehabilitacin conjunto de datos
Resumen : 126 muestras de 14 participantes, 309 funciones. Objetivo: evaluar si la
voz tratamiento de rehabilitacin llevan a fonaciones considerado "aceptable" o
"inaceptable" (problema de clasificacin de clase binario).

Conjunto de datos Nmero de


Multivariante 126 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de Fecha


Real 309 19/02/2014
atributo: atributos: Donado

Nmero de
Valores N/
Tareas asociadas: Clasificacin Web 157
perdidos? A
Accesos:

Fuente:

El conjunto de datos fue creada por Athanasios Tsanas (tsanasthanasis '@' gmail.com) de
la Universidad de Oxford .

Datos Conjunto de Informacin:

El artculo original demostr que es posible replicar correctamente evaluacin binaria de los
expertos, con aproximadamente 90% de precisin utilizando tanto 10 veces cruzar a la
validacin y dejando uno sujeto Salida validacin.Hemos experimentado con ambos bosques
al azar y mquinas de vectores soporte , utilizando enfoques estndar para optimizar
hiperparmetros de la SVM. Ser interesante si los investigadores pueden mejorar en este
descubrimiento utilizando avanzadas herramientas de aprendizaje automtico. Detalles para
el conjunto de datos se pueden encontrar en el siguiente documento. A. Tsanas, MA Little, C.
Fox, LO Ramig: Objective evaluacin automtica de tratamiento de rehabilitacin del
habla en s de Parkinson disease , IEEE Transactions on?? Sistemas Neuronales e
Ingeniera de Rehabilitacin, vol. 22, pginas 181-190, enero 2014 A preimpresin libre
disposicin se halla disponible en el sitio web del primer autor.

Atributo de la informacin:

Cada atributo (caracterstica) corresponde a la aplicacin de un discurso de procesamiento de


seal de algoritmo que tiene como objetivo caracterizar objetivamente la seal. Estos
algoritmos incluyen mtodos de anlisis de la perturbacin estndar, las caractersticas
basadas en wavelets, caractersticas fundamentales basados en la frecuencia y las
herramientas utilizadas para la mina de series temporales no lineales. Debido a la extensa
serie de atributos que nos referimos a los lectores interesados a los documentos
correspondientes para obtener ms detalles.

Documentos pertinentes:

El conjunto de datos se introdujo en:


A. Tsanas, MA Little, C. Fox, LO Ramig: Objective evaluacin automtica de
tratamiento de rehabilitacin del habla en s de Parkinson disease , IEEE Transactions
on Neural Systems e Ingeniera de Rehabilitacin, Vol.??. 22, pginas 181-190, enero
2014 Ms detalles acerca de los algoritmos de procesamiento de seal de voz se puede
encontrar en: A. Tsanas, telemonitorizacin exacta de la enfermedad de gravedad de los
sntomas de Parkinson s no lineal utilizando el procesamiento de seal de voz y la
estadstica de aprendizaje de mquina , D. Phil. (Ph.D.) de tesis de la Universidad de Oxford,
Reino Unido, 2012 A. Tsanas, MA Little, PE McSharry, LO Ramig:?? Nonlinear
algoritmos de anlisis de voz asignadas a una mtrica estndar logran cuantificar
clnicamente til de la media de los sntomas de la enfermedad de Parkinson s severity
, Journal of the Royal Society Interface, vol. 8, pp 842-855, 2011 A. Tsanas, MA Little, PE
McSharry, LO Ramig:?? marcadores y conocimientos sobre la degradacin de la seal de
voz para el seguimiento efectivo de s de Parkinson sntoma de la enfermedad severity
lineales New, Simposio Internacional sobre Teora no lineal y sus aplicaciones (Nolta),
pp . 457-460, Cracovia, Polonia, 5 a 8 sept 2010 Preprints estn disponibles en el sitio web
del primer autor.

Citas:

Si utiliza este conjunto de datos, por favor, cite el siguiente documento:


A. Tsanas, MA Little, C. Fox, LO Ramig: Objective evaluacin automtica de
tratamiento de rehabilitacin del habla en s de Parkinson disease , IEEE Transactions
on Neural Systems e Ingeniera de Rehabilitacin, Vol.??. 22, pginas 181-190, enero 2014
Cncer de Pulmn Conjunto de Datos
Resumen : Los datos de cncer de pulmn, no hay definiciones de
atributos

Conjunto de datos Nmero de


Multivariante 32 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de 1992-


Entero 56 Fecha Donado
atributo: atributos: 05-01

Valores Nmero de
Tareas asociadas: Clasificacin S 61748
perdidos? Web Accesos:

Fuente:

Los datos fueron publicados en: Hong, ZQ y Yang, JY "Optimal discriminante Plano para un
pequeo nmero de muestras y Diseo Forma de clasificador en el avin", Reconocimiento
de Patrones, vol. 24, No. 4, pp 317-324, 1991. Donante: Stefan
Aeberhard, stefan '@' coral.cs.jcu.edu.au

Datos Conjunto de Informacin:

Estos datos se usaron por Hong y Young para ilustrar el poder del plano discriminante
ptimo incluso en entornos que plantean los malos. La aplicacin del mtodo KNN en el
plano resultante dio 77% de precisin. Sin embargo, estos resultados estn fuertemente
sesgadas (Ver segundo rbitro que Aeberhard. Anterior, o por correo electrnico
a stefan '@' coral.cs.jcu.edu.au ). Resultados obtenidos por Aeberhard et al. son: RDA:
62,5%, 53,1% KNN, Opt. Disco. Plano 59,4% Los datos describen 3 tipos de cnceres
pulmonares patolgicos. Los autores no dan ninguna informacin sobre las variables
individuales, ni en los que se utiliz originalmente los datos. Notas: - En los datos originales
4 valores para el quinto atributo eran -1. Estos valores han sido cambiados
para? (Desconocido). (*) - En el valor original de datos 1 para el atributo 39 era 4. Este valor
se ha cambiado a? (Desconocido). (*)

Atributo de la informacin:

Atributo 1 es la etiqueta de clase. Todos los atributos predictivos son nominales, tomando
valores enteros 0-3

Documentos pertinentes:

Hong, ZQ y Yang, JY "Optimal discriminante Plano para un pequeo nmero de muestras y


Diseo Forma de clasificador en el avin", Reconocimiento de Patrones, vol. 24, No. 4, pp
317-324, 1991. [Web Link] Aeberhard, S., Coomans, D, De Vel, O. "Las comparaciones de
los mtodos de clasificacin en High Ajustes dimensionales", presentado a
Technometrics. Aeberhard, S ., Coomans, D, De Vel, O. "Los peligros de la polarizacin en
High Ajustes dimensionales", presentado al patrn de reconocimiento.

Documentos que citan este conjunto de datos 1 :

Jinyan Li y Limsoon Wong. Uso de reglas para el Anlisis de Datos Bio-mdica: una
comparacin entre C4.5 y PCL . Waim. 2003. [ Ver Contexto ]. Manoranjan Dash y Huan
Liu. Hbrido Bsqueda de subconjuntos de caractersticas . PRICAI. 1998. [ Ver
Contexto ]. Glenn Fung y Sathyakama Sandilya y R. Bharat Rao. regla de extraccin a partir
de Mquinas de Vectores Soporte lineales . Computer-Aided Diagnosis & Therapy, Siemens
Medical Solutions, Inc. [ Ver Contexto ].

Citas:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Linfografa Conjunto de Datos
Resumen : Este dominio linfografa se obtuvo de la University Medical Centre, Instituto
de Oncologa, Ljubljana, Yugoslavia. (Acceso restringido)

Conjunto de datos Nmero de


Multivariante 148 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 1988-


Categrico 18
atributo: atributos: Donado 11-01

Valores Nmero de
Tareas asociadas: Clasificacin No 27599
perdidos? Web Accesos:

Fuente:

Donantes: 1. Igor Kononenko, Universidad E.Kardelj Facultad de ingeniera


elctrica Trzaska 25 61000 Ljubljana (tel.: (38) (61) 265-161 . 2 Bojan Cestnik Instituto
Jozef Stefan Jamova 39 61000 Ljubljana Yugoslavia (tel.: (38) (+ 61) 214-399 ext.287)

Datos Conjunto de Informacin:

Este es uno de los tres dominios proporcionados por el Instituto de Oncologa que ha
aparecido varias veces en el aprendizaje de la mquina literatura. (Ver tambin cncer de
mama y tumor primario.)

Atributo de la informacin:

--- NOTA: Todos los valores de los atributos en la base de datos han sido introducidos
como valores numricos que corresponden a su ndice en la lista de valores de atributos
para ese dominio atributo como se indica a continuacin.
1. clase: hallazgo normal, metstasis, linftico maligno, fibrosis
2. linfticos: normal, en forma de arco, deformados, desplazados
3. bloque de affere: no, s
4. bl. de la linfa. c: no, s
5. bl. de la linfa. s: no, s
6. by pass: no, s
7. extravasa: no, s
8. regeneracin de: no, s
9. temprano en la captacin: no, s
10. lym.nodes dimin: 0-3
11. lym.nodes Enlar: 1-4
12. cambios en linfoma:. frijol, ovalados, redondos
13. defecto en el nodo: no, lacunar, lac. marginal, lac. el centro
14. cambios en el nodo: no, lacunar, lac. margen, lac. el centro
15. cambios en las estru: no, granulada, la cada-como, gruesa, diluida, reticular, pelado,
desmayo,
16. formas especiales: no, clices, vesculas
17. dislocacin de: no, s
18. exclusin de los no: no, s
19. No. de nodos en: 0-9, 10-19, 20-29, 30-39, 40-49, 50-59, 60-69,> = 70

Documentos pertinentes:

Cestnik, G., Konenenko, I, y Bratko, I. (1987). Asistente-86: Un Conocimiento Elicitation


herramienta para usuarios avanzados. En I.Bratko y N.Lavrac (Eds.) Avances en
Aprendizaje Automtico, 31-45, Sigma Press. [Web Link]Clark, P. Y Niblett,
T. (1987). Induccin en Noisy Dominios. En I.Bratko y N.Lavrac (Eds.) Avances en
Aprendizaje Automtico, 11-30, Sigma Press. [Web Link] Michalski, R., Mozetic, I. Hong,
J., y Lavrac, N. (1986). El Multi-Purpose Incremental Learning System AQ15 y sus
aplicaciones de pruebas de los Dominios Mdicos Tres. En Actas de la V Conferencia
Nacional sobre Inteligencia Artificial, 1041-1045. Philadelphia, PA:. Morgan
Kaufmann[Web Link]

Documentos que citan este conjunto de datos 1 :

. Marcus Hutter y Marco Zaffalon Distribucin de Informacin Mutua de datos completas e


incompletas . CoRR, csLG/0403025. 2004. [ Ver Contexto ]. G. Michael
Madden. Evaluacin del Desempeo de la cadena de Markov clasificador bayesiano
Algoritmo . CoRR, csLG/0211003. 2002. [ Ver Contexto ]. Marco Zaffalon y Marcus
Hutter. Caracterstica robusta Seleccin por Mutual Informacin Distribuciones . CoRR,
csAI/0206006. 2002. [ Ver Contexto ]. Thomas G. Dietterich. Una Comparacin
experimental de tres mtodos para construir Conjuntos de rboles de decisin: El
embolsado, Impulsar y aleatorizacin . Aprendizaje Automtico, 40. 2000. [ Ver
Contexto .] . Mark A. Hall y Lloyd A. Smith Seleccin de caractersticas de la mquina de
aprendizaje: Comparacin de un filtro de enfoque de correlacin-base a la
envoltura . Conferencia FLAIRS. 1999. [ Ver Contexto ]. Mark A. Hall.Departamento de
Ciencias de la Computacin Hamilton, Nueva Zelandia basada en correlacin Seleccin de
caractersticas para el Aprendizaje de la mquina . Doctor en Filosofa en la Universidad de
Waikato. 1999. [ Ver Contexto ]. Yk Huhtala y Juha Krkkinen y Pasi Porkka y Hannu
Toivonen . Descubrimiento eficiente de las dependencias funcionales y aproximadas
utilizando particiones . ICDE. 1998. [ Ver Contexto ]. . Seleccin Prototipo para
compuestos Clasificadores vecino ms cercano . Departamento de Informtica
Universidad de Massachusetts. 1997. [ Ver Contexto ]. Pedro Domingos. Control-Sensible
Seleccin de caractersticas para los Estudiantes de Lazy . Artif. Intell. Rev, 11. 1997. [ Ver
Contexto ]. Geoffrey I. Webb. OPUS: Un Algoritmo admisible Eficiente para Unordered
Buscar . J. Artif. Intell. Res.. (JAIR, 3. 1995. [ Ver Contexto ]. MA Galway y Michael G.
Madden.DEPARTAMENTO DE TECNOLOGA DE LA INFORMACIN informe
tcnico NUIG-IT-011002 Evaluacin del Desempeo de la cadena de Markov clasificador
bayesiano Algoritmo . Departamento de Tecnologa de la Informacinde la Universidad
Nacional de Irlanda, Galway. [ Ver Contexto ]. Geoffrey I Webb. Aprender Listas de
decisin anteponiendo Reglas inferidos . Facultad de Informtica y Matemticas de la
Universidad de Deakin. [ Ver Contexto ].

Citas:

Este dominio linfografa se obtuvo del Centro Mdico de la Universidad, Instituto de


Oncologa, Ljubljana, Yugoslavia. Damos las gracias a M. y M. Zwitter Soklic de
proporcionar los datos. Por favor, incluya esta cita si tiene previsto utilizar esta base de
datos.
Genes M. tuberculosis Conjunto de Datos
Resumen : Los datos que da caractersticas de cada uno (gen
potencial) ORF en la bacteria M. tuberculosis. Secuencia,
homologa (similitud con otros genes) y la informacin
estructural y la funcin (si se conoce) se proporcionan

Conjunto de datos Nmero de N/


Relacional rea: Vida
Caractersticas: instancias: A

Caractersticas del Nmero de N/ 2001-


N/A Fecha Donado
atributo: atributos: A 07-14

Valores N/ Nmero de
Tareas asociadas: N/A 11501
perdidos? A Web Accesos:

Fuente:

Ross D. King
Departamento de Ciencias de la Computacin , Universidad de Gales, Aberystwyth, SY23
3DB, Gales rdk '@' aber.ac.uk http://users.aber.ac.uk/rdk

Datos Conjunto de Informacin:

Los datos fueron recolectados de varias fuentes, entre ellas el Centro Sanger ( [Web Link] )
y SWISSPROT ( [Web Link] ). Estructura de prediccin fue hecha por PROF ( [Web
Link] ). La bsqueda de homologas fue hecha por PSI-BLAST ( [Web Link] .) Los datos
estn en formato de registro de datos. Los valores perdidos no son explcitas, pero algunos
genes tienen ms relaciones que otras. Dependencias: M. genes de tuberculosis (ORF) estn
relacionados entre s por el tb_to_tb_evalue predicado (TBNumber, E-valor). Se relacionan
con otros (SWISSPROT) las protenas por el e_val predicado (AccNo, E-valor). Todos los
datos de un solo gen (ORF) se encierra entre delimitadores de la forma: begin (modelo
(TBNumber)). final (modelo (TBNumber)). Otra informacin relevante: Las clases
funcionales de genes estn en una jerarqua. Ver [Web Link] . Hay dos archivos de registro
de datos: tb_data.pl y ecoli_functions.pl 1. tb_functions.pl Enumera las clases y funciones
de la ORF. Las lneas son de la siguiente forma: la clase ([1,0,0,0], "el metabolismo de
pequea molcula"). clase ([1,1,0,0], "Degradacin"). clase ([1,1 , 1,0], "compuestos de
carbono"). Los argumentos son una lista de 4 nmeros (que describen la clase en los 4
niveles diferentes), seguido por una clase de cadena de descripcin. Por ejemplo, la funcin
(tb186, [1,1,1,0], 'bgls "," beta-glucosidasa "). Los argumentos son varios ORF, la lista de
nmeros de clase 4, el nombre de genes (o null si no hay nombre de genes) en comillas
simples , descripcin ORF entre comillas dobles. 2. tb_data.pl de datos para cada ORF
(gen) est delimitada por BEGIN (modelo (X)). final (modelo (X)). donde X es el nmero
de ORF. Otros predicados son los siguientes (ejemplos): tb_protein (X). % X es el nmero
de genes de funcin (2,1,5,0, 'gyrA', 'ADN girasa subunidad A'). % 4 niveles de jerarqua
funcional, gen nombre, descripcin coding_region (7302,9815). % Start,
end. enteros tb_mol_wt (19934). % Nmero entero de acceso (1, e, 20). % Int (posicin),
{e, i, b}, int (longitud) access_exposed (1,20). % Int (posicin), int
(longitud) access_intermediate (26,1). % Int (posicin), int (longitud) access_burried
(1,2). % Int (posicin), int (longitud) access_dist (b, 42.8). % {E, i, b}, float
(porcentaje)sec_struc (1, c, 23). % Int (posicin), {a, b, c}, int (longitud) sec_struc_coil
(1,23). % Int (posicin), int (longitud) sec_struc_alpha (1,15). % Int (posicin), int
(longitud) sec_struc_beta (1,6). % Int (posicin), int (longitud) struc_dist (a, 32.1). % {A, b,
c}, float (porcentaje) sec_struc_conf (78.8). % De flotacin (de
confianza) sec_struc_conf_alpha (88.9). % De flotacin (de confianza) sec_struc_conf_beta
(58.0). % De flotacin (de confianza)sec_struc_conf_coil (77.7). % De flotacin (de
confianza) psi_sequences_found (1,7). % Cuntos encontrado, que
iteracin psi_sequences_found_again (2,7). % Cuntos encontrado, que la
iteracin psi_sequences_found_new (2,0). % Cuntos encontrado, que la
iteracin amino_acid_ratio (a, 11.2). % de aminocidos carta, flotar amino_acid_pair_ratio
(a, c, 0,0). Carta de aminocidos%, carta de aminocidos, float (de 1000, es decir, 2,8 =
0,28%)sequence_length (187). % Nmero entero tb_to_tb_evalue (tb3671, 1.100000e-
01). % Nmero de ORF, e-valor (doble) e_val (p35925, 7.0e-59). % SWISSPROT no la
adhesin, e-valor (dobles) especie (p35925, 'streptomyces_coelicolor'). % SWISSPROT acc
no, cadena de clasificacin (p35925, bacterias). % SWISSPROT acc no, nombre mol_wt
(p35925, 19772). % SWISSPROT acc no, nmero entero de palabras clave (p35925,
'hypothetical_protein'). % SWISSPROT acc no, cadena db_ref (p35925, EMBL, l27063,
g436026, null). % SWISSPROT acc no, Identificacin del db, id primaria, id secundaria, id
estado signalip (c, 35, no). % {C, a, s}, int (pptido seal c / y / s score), s / no signalip (ss,
1,34, no). % Ss, int, int, s / no signalip (escote, 59,60). % Escote, int / null, int /
null hydro_cons (-0.498, -0.474,0.624,3.248,0.278). % Matrimoniales, dobles, dobles,
matrimoniales, dobles gene_name (p41514, 'gyrB'). % SWISSPROT acc no, cadena

Atributo de la informacin:

N/A

Documentos pertinentes:

King, R. y Karwath, A. y Clare, A. y Dehaspe, L. (2000). Escala Genoma Prediccin


Protena clase funcional de secuencia utilizando Data Mining, En Actas de la Sptima
Conferencia Internacional ACM SIGKDD el Descubrimiento de Conocimiento y Minera
de Datos. [Web Link] King, R. y Karwath, A. y Clare, A. y Dehaspe, L. (2000). La
prediccin exacta de la clase funcional de la protena en el M. tuberculosis y E. coli
genomas utilizando la minera de datos, la genmica comparativa y funcional, 17, pp 283 -.
293 [Web Link]

Citas:

Restricciones de uso: Derechos de Autor 2000 por RD King, A. Karwath, A. Clare, L.


Dehaspe No hay restricciones. Estos datos se proporcionan "tal cual" y sin ninguna garanta
expresa o implcita, incluyendo, pero sin limitarse a, las garantas implcitas de
comerciabilidad y adecuacin para un propsito en particular. Las solicitudes de citas: Por
favor, cite el Rey ~ et. al (2000). Agradecimientos: Este trabajo fue apoyado por las
siguientes subvenciones: G78/6609, BIF08765, GR/L62849 y por PharmaDM,
Ambachtenlaan, 54 / D, B-3001 Leuven, Blgica.

Madelon Conjunto de Datos


Resumen : MADELON es un conjunto de datos artificial, que
era parte del desafo de seleccin de caractersticas NIPS
2003. Este es un problema de clasificacin de dos clases con
variables de entrada continuas. La dificultad es que el problema
es multivariante y altamente no lineal.

Conjunto de datos Nmero de


Multivariante 4400 rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2008-


Real 500
atributo: atributos: Donado 02-29

Nmero de
Valores N/
Tareas asociadas: Clasificacin Web 40403
perdidos? A
Accesos:

Fuente:

Isabelle Guyon
Clopinet
955 Creston carretera
Berkeley, CA 90708 isabelle '@' clopinet.com
Datos Conjunto de Informacin:

MADELON es un conjunto de datos artificial que contiene puntos de datos agrupados en 32


grupos colocados en los vrtices de un hipercubo de cinco dimensiones y al azar
etiquetados 1 o -1. Las cinco dimensiones constituyen 5 funciones informativas. Se
aadieron 15 combinaciones lineales de estas caractersticas para formar un conjunto de 20
(redundantes) caractersticas informativas. Sobre la base de esas 20 caractersticas hay que
separar los ejemplos en las 2 clases (que corresponden a los + -1 etiquetas). Hemos aadido
una serie de caractersticas distractor llamado 'sondas' que no tienen ningn poder
predictivo. El orden de las caractersticas y los patrones fueron aleatorizados. MADELON -
ex positiva. - Ex Negativo. - Total de Entrenamiento Conjunto - 1000 - 1000 - 2000
Validacin ajustado - 300 - 300-600 Kit de ensayo - 900 - 900-1800 All - 2200 - 2200 a
4.400 N de variables / caractersticas / atributos: Reales: 20 Sondas: 480 Total: 500 Este
conjunto de datos es uno de los cinco conjuntos de datos utilizados en el desafo de
seleccin de caractersticas NIPS 2003. Nuestra pgina web [Web Link]est todava abierto
para la presentacin despus de la exposicin. Informacin acerca de otros problemas
conexos se encuentran en: [Web Link] . El paquete incluye CLOP cdigo de ejemplo para
procesar estos datos: [Web Link] . Todos los detalles sobre la preparacin de los datos se
encuentran en nuestro informe tcnico : Diseo de experimentos para la seleccin de
variables de referencia, Isabelle Guyon, julio de 2003, NIPS 2003 [Web Link](tambin
incluido en el archivo de conjunto de datos). Dicha informacin se pondr a disposicin
slo despus de la final del desafo. Los datos se dividen en entrenamiento, validacin y
prueba. Valores objetivo slo se proporcionan para los 2 primeros sets. Conjunto de
prueba los resultados de rendimiento se obtienen mediante la presentacin de resultados de
la prediccin a: [Web Link] . Los datos estn en el siguiente formato:dataname.param: Los
parmetros y las estadsticas sobre los datos dataname.feat: Identidades de las
caractersticas (en el orden en que las caractersticas son . se encuentra en los
datos) dataname_train.data: conjunto de entrenamiento (una matriz regular delimitada por
espacios, los patrones de lneas, las caractersticas de las columnas). dataname_valid.data:.
conjunto de validacin dataname_test.data: equipo de prueba. dataname_train.labels:
Etiquetas (la verdad . valores de las clases) para ejemplos de
entrenamiento dataname_valid.labels: Definir etiquetas de Validacin (retenidos durante el
punto de referencia, pero siempre ahora). dataname_test.labels: Test set etiquetas
(retenciones, por lo que los datos todava pueden ser usados como un punto de referencia).

Atributo de la informacin:

No proporcionamos informacin de atributos, para evitar sesgar la funcin de proceso de


seleccin .

Documentos pertinentes:

Los mejores participantes desafo escribieron artculos recogidos en el libro:


Isabelle Guyon, Steve Gunn, Masoud Nikravesh, Lofti Zadeh (Eds.), extraccin de
caractersticas , fundamentos y aplicaciones. Los estudios en Tolerancia y Soft
Computing . . Physica-Verlag, Springer
Ver tambin:
Isabelle Guyon, et al, 2007. Mtodos de referencia competitivos establecen nuevos
estndares para la seleccin de caractersticas de referencia NIPS 2003. Reconocimiento de
Patrones Cartas 28 (2007) 1438-1444.
as como el informe tcnico correspondiente:
Isabelle Guyon, et al. 2006. La seleccin de caractersticas con el paquete CLOP. Informe
Tcnico .

Citas:

Isabelle Guyon, Steve R. Gunn, Asa Ben-Hur, Gideon Dror, 2004. Anlisis de los
resultados del desafo de seleccin de caractersticas NIPS 2003. En:. NIPS .

MAGIA Gamma Telescopio Conjunto de Datos


Resumen : Los datos se generaron MC para simular el registro de
las partculas de alta energa de rayos gamma en un telescopio
Cherenkov atmosfrica

Conjunto de datos Nmero de


Multivariante 19020 rea: Fsico
Caractersticas: instancias:

Caractersticas del Nmero de 2007-


Real 11 Fecha Donado
atributo: atributos: 05-01

Valores Nmero de
Tareas asociadas: Clasificacin No 37670
perdidos? Web Accesos:

Fuente:

Propietario original: RK Bock Major Atmospheric Gamma Imaging Cherenkov proyecto


Telescope
(MAGIA) http://wwwmagic.mppmu.mpg.de rkb '@' mail.cern.ch Donante: P. Savicky Instituto
de Ciencias de la Computacin , AS de CR Repblica Checa savicky '@' cs.cas.cz
Datos Conjunto de Informacin:

Los datos son generados MC (ver ms abajo) para simular el registro de partculas de alta
energa gamma en un telescopio atmosfrica gamma de Cherenkov con base en tierra
utilizando la tcnica de formacin de imgenes.Telescopio gamma de Cherenkov observa
rayos gamma de alta energa, tomando ventaja de la radiacin emitida por las partculas
cargadas producidas en el interior de las duchas electromagnticas iniciadas por los gammas, y
el desarrollo en la atmsfera. Esta radiacin Cherenkov (de visible a longitudes de onda UV)
se filtra a travs de la atmsfera y se graba en el detector, lo que permite la reconstruccin de
los parmetros de la ducha. La informacin disponible se compone de pulsos dejados por los
fotones Cherenkov entrantes en los tubos fotomultiplicadores , dispuestos en un plano, la
cmara. Dependiendo de la energa de la gamma primaria, un total de unos pocos cientos a
unos 10.000 fotones Cherenkov conseguir recoge, en patrones (llamados la imagen ducha), lo
que permite discriminar estadsticamente las causadas por radiaciones gamma primarios
(seal) de las imgenes de duchas hadrnicas inici por los rayos csmicos en la atmsfera
superior (fondo). Tpicamente, la imagen de una ducha despus de algn procesamiento previo
es un racimo alargado. Su eje longitudinal est orientado hacia el centro de la cmara si el eje
de la ducha es paralelo al eje ptico del telescopio, es decir, si el eje del telescopio se dirige
hacia una fuente puntual . Un anlisis de componentes principales se lleva a cabo en el plano
de la cmara, lo que resulta en un eje de correlacin y define una elipse. Si las deposiciones se
distribuyeron como gaussiana bivariante, esto sera una elipse equidensity. Los parmetros
caractersticos de esta elipse (a menudo llamadas parmetros Hilla) son algunos de los
parmetros de imagen que pueden ser utilizados para la discriminacin. Las deposiciones de
energa son tpicamente asimtrica a lo largo del eje mayor, y esta asimetra tambin pueden
ser utilizados en la discriminacin. . Hay, adems, las caractersticas ms exigentes, como la
medida de la agrupacin en el plano de la imagen, o la suma total de deposiciones El conjunto
de datos fue generado por un Monte Carlo programa, Corsika, se describe en: D. Diablos et al.,
Corsika, un cdigo de Monte Carlo para simular amplias duchas de aire, Forschungszentrum
Karlsruhe FZKA 6019 (1998). [Web Link] El programa se ha ejecutado con los parmetros
que permiten observar los acontecimientos con energas hasta por debajo de 50 GeV.

Atributo de la informacin:

1. fLength: continua # eje mayor de la elipse [mm]


2. fWidth: continua # eje menor de la elipse [mm]
3. FSIZE: continua # 10-logaritmo de la suma de los contenidos de todos los pxeles [en
Clasificado con el phot]
4. fConc: # Relacin continua de suma de dos pxeles ms altos ms de FSIZE [relacin]
5. fConc1: # Relacin continua de pixel ms alto sobre FSIZE [relacin]
6. fAsym: # distancia continua de pixel ms alto al jardn central, proyectada sobre el eje
mayor [mm]
7. fM3Long: # continuo tercera raz del tercer momento a lo largo del eje mayor [mm]
8. fM3Trans: # continuo tercera raz del tercer momento a lo largo del eje menor [mm]
9. fAlpha: ngulo # continuo del eje principal con el vector de origen [grados]
10. DISTR.F: # continua de distancia desde el origen hasta el centro de la elipse [mm]
11. clase: g, h # gamma (seal), de hadrones (fondo) g = gamma (seal): 12332 h = hadrones
(fondo): 6688 Por razones tcnicas, el nmero de eventos h se subestima. En los datos reales,
la clase h representa a la mayora de los eventos. El simple precisin de la clasificacin no es
significativa para estos datos, ya que la clasificacin de un caso como seal de fondo es peor
que la clasificacin de un caso de la seal de fondo. Para la comparacin de diferentes
clasificadores una curva ROC tiene que ser utilizado. Los puntos pertinentes en esta curva son
aquellos en los que la probabilidad de aceptar un evento de fondo como la seal est por
debajo de uno de los siguientes umbrales: 0.01, 0.02, 0.05, 0.1, 0.2 en funcin de la calidad
requerida de la muestra de los eventos aceptados para diferentes experimentos.

Documentos pertinentes:

Bock, RK, Chilingarian, A., ind, M., Hakl, F., Hengstebeck, T., Jirina, M., Klaschka, J., Kotrc,
E., Savicky, P., Torres, S., Vaicilius , A., Wittek W. (2004).
Mtodos de clasificacin multidimensional de eventos: un caso de estudio utilizando imgenes
de un telescopio de rayos gamma de Cherenkov.
Nucl.Instr.Meth. A, 516, pp 511-528. P. Savicky, E. Kotrc. Estudio experimental de la hoja de
Confidencias de Random Forest. Actas de COMPSTAT 2004, En: Estadstica
Computacional. (Ed.: Antoch J.) -. Heidelberg, Physica Verlag 2004, pp 1767-1774 J. Dvorak.,
P. Savicky ablandamiento Splits en rboles de decisin de Uso de recocido simulado. Actas de
ICANNGA 2007, Varsovia, (Ed.:. Beliczynski et al), Parte I, LNCS 4431, pp 721-729.

Citas:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Mamogrfica Misa Conjunto de Datos
Resumen : La discriminacin de masas mamogrficas benignos y malignos basado en BI-
RADS atributos y la edad del paciente.

Conjunto de datos Nmero de


Multivariante 961 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2007-


Entero 6
atributo: atributos: Donado 10-29

Valores Nmero de
Tareas asociadas: Clasificacin S 45678
perdidos? Web Accesos:

Fuente:

Matthias Elter Instituto Fraunhofer de Circuitos Integrados (IIS) de procesamiento de


imgenes y el Departamento de Ingeniera Mdica (BMT) Am Wolfsmantel 33 91058
Erlangen, Alemania matthias.elter '@' iis.fraunhofer.de (49) 9131-7767 327 Prof. Dr.
Rdiger Schulz-Wendtland Instituto de Radiologa, Ginecologa Radiologa de la
Universidad de Erlangen-Nuremberg Universittsstrae 21-23 91054 Erlangen, Alemania

Datos Conjunto de Informacin:

La mamografa es el mtodo ms eficaz para la deteccin de cncer de mama


en la actualidad. Sin embargo, el valor predictivo positivo de cncer de mama
biopsia resulta de la interpretacin mamografa lleva a aproximadamente
70% de biopsias innecesarias con resultados benignos. Para reducir el alto
nmero de biopsias de seno innecesarias, varios de diagnstico asistido por ordenador
(CAD) los sistemas se han propuesto en los ltimos sistemas years.These
ayudar a los mdicos en su decisin de realizar una biopsia de mama en una sospechosa
lesin observada en una mamografa o para realizar un seguimiento a corto plazo
el examen en su lugar.
Este conjunto de datos se puede utilizar para predecir la gravedad (benigno o maligno)
de una masa mamogrfica de BI-RADS atributos y la edad del paciente.
Contiene una evaluacin de BI-RADS, la edad del paciente y tres BI-RADS atributos
junto con la realidad sobre el terreno (el campo de gravedad) para 516 benignas y
malignas 445 masas que se han identificado en las mamografas digitales de campo
completo
recogidos en el Instituto de Radiologa de la
Universidad de Erlangen-Nuremberg entre 2003 y 2006.
Cada instancia tiene una evaluacin BI-RADS asociado que va de 1 (definitivamente
benigno)
a 5 (muy sugestivo de malignidad) asignado en un proceso de doble revisin por parte de
los mdicos. Suponiendo que todos los casos con BI-RADS Evaluaciones del mayor o
igual
a un valor dado (que vara de 1 a 5), son malignos y los otros casos benignos,
sensibilidades y especificidades asociadas se pueden calcular. Estos pueden ser una
indicacin de qu tan bien un sistema CAD realiza en comparacin con los
radilogos. Clase Distribucin: benigna: 516; maligna: 445

Atributo de la informacin:

6 Atributos en total (campo objetivo 1, 1, 4 atributos predictivos no


predictivas) 1. Evaluacin de BI-RADS: (! Ordinal, no predictiva) 1-5 2. Edad: la edad del
paciente en aos (nmero entero) 3. Forma: Forma de masas: la vta = 1 = 2 ovalada lobular
= 3 = 4 irregular (nominal) 4. Margen: El margen de masas: circunscrito = 1 microlobulated
= 2 = 3 oscurecido mal definida = 4 espiculada = 5 (nominal) 5. Densidad: la densidad de
masa de alta = 1 = 2 iso baja = 3 que contiene grasa = 4 (ordinal) 6. Gravedad: benignos o
malignos = 0 = 1 (, campo objetivo binominal!) Faltan valores de atributo: - evaluacin de
BI-RADS: 2 - Edad: 5 - Forma: 31 - Margen: 48 - Densidad: 76 - Gravedad: 0

Documentos pertinentes:

M. Elter, R. Schulz-Wendtland y T. Wittenberg (2007)


La prediccin de mama biopsia de cncer de los resultados mediante dos enfoques CAD
que ambos hacen hincapi en una inteligible proceso de decisin . Fsica Mdica 34 (11),
pginas 4164 hasta 4172

Citas:

M. Elter, R. Schulz-Wendtland y T. Wittenberg (2007)


La prediccin de los resultados de la biopsia del cncer de mama utilizando dos enfoques
CAD que ambos hacen hincapi en un proceso de toma inteligible.
Fsica Mdica 34 (11), pginas 4164 hasta 4172
Anlisis mecnico del Conjunto de Datos
Resumen : Diagnstico de fallos problema de los dispositivos electromecnicos; tambin
BOMBAS DE DATOS SET es la versin ms reciente con la teora de dominios y los
resultados

Conjunto de datos Nmero de


Multivariante 209 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de Fecha 1990-06-


8
atributo: entero, real atributos: Donado 01

Nmero de
Valores
Tareas asociadas: Clasificacin No Web 26962
perdidos?
Accesos:

Fuente:

Los propietarios originales de base de datos: 1. F. Bergadano, A. Giordana, L.


Saitta Universidad de Torino, Italia Corso Svizzera 185, Torino - tel. (39) 11 7712002 e-
mail: bergadan '@' itoinfo.bitnet 2. F. Bracadori, D. De MarchiSogesta, Localita
'Crocicchio, Urbino, Italia Donante: Enichem (Eni), Ravenna travs Sogesta (Eni), Urbino.

Datos Conjunto de Informacin:

F. Bergadano suministra esta base de datos. Cada instancia contiene muchos componentes,
cada uno de los cuales tiene 8 atributos. Diferentes casos en esta base de datos tienen
diferentes nmeros de componentes. Era imposible poner un caso en una lnea. l tena
originalmente una instancia por archivo, pero esto hace que sea difcil para ellos ftp
(imagine ftp'ing 222 o menos archivos!). Me liado el conjunto de 209 casos en un
solo archivo de datos , anteponiendo cada uno con la lnea: ===== Instancia nmero 1:
===== donde "n" es un nmero en [1221]. Sin embargo, no lo son, no repetir en orden
secuencial. Doce (12) de los casos han desaparecido. Bergadano suministra estos 12 casos
adicionales (nmeros 8,12,32,33,66,69,73,152,167,194,203,208) en un sub-directorio
"notused". I liada estos con el mismo formato en el archivo "-instances
notused". Un examen rpido de su archivo no revel cul es el propsito de estos doce
casos.
Atributo de la informacin:

0 - dummy (siempre 1) - utilizado para la numeracin - ignore


1 - clase - Clasificacin (1 .. 6, lo mismo para los componentes de un ejemplo)
2 - # - Nmero de componente (entero)
3 - apoyo - apoyo en la mquina en la que medida se tom (1 .. 4)
4 - cpm - Frecuencia de la medida (entero)
5 - MIS - medida (real)
6 - misr - medida anterior (real)
7 - dir - filtro, tipo de la medida y direccin :
{vo =,
va =,
vv =,
= ao,
aa =,
av =,
io =,
ia =,
IV =}
8 - omega - RPM de la mquina (nmero entero, el mismo para los componentes de un
ejemplo)

Documentos pertinentes:

F. Bergadano, A. Giordana, L. Saitta, F. Brancadori, D. De Marchi: " Aprendizaje


Integrado en un verdadero dominio "Proc. VII Conferencia ML, Austin TX, 1990 (pginas
322-329) [Web Link]

Citas:

Por favor, consulte el aprendizaje de la mquina del repositorio poltica de citacin


Los metadatos del Conjunto de Datos
Resumen : Meta-Data se utiliz con el fin de dar consejos sobre qu mtodo de
clasificacin es apropiada para un determinado conjunto de datos (tomados de resultados
de proyecto Statlog).

Conjunto de datos Nmero de


Multivariante 528 rea: N/A
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de Fecha 1996-


22
atributo: entero, real atributos: Donado 03-01

Nmero de
Valores
Tareas asociadas: Clasificacin S Web 23523
perdidos?
Accesos:

Fuente:

Creador: LIACC - Universidad de Porto Alegre R.Campo 823 4150


PORTO Donante: PBBrazdil o J.Gama LIACC, Universidad de Porto Rua Campo Alegre
823 4150 Porto, Portugal . Tel.: 351 600 1672 . Fax: 351 600 3654 E-mail:Statlog-
adm '@' ncc.up.pt

Datos Conjunto de Informacin:

Este conjunto de datos se trata de los resultados de proyectos Statlog. El proyecto realiz un
estudio comparativo entre estadstico, Neural y simblicos de aprendizaje de
algoritmos. Statlog Proyecto (Proyecto Esprit 5170) se ocupaba de los estudios
comparativos de diferentes aprendizaje de mquinas , de los nervios y los algoritmos de
clasificacin estadstica. Cerca de 20 algoritmos diferentes fueron evaluados en ms de 20
conjuntos de datos diferentes. Las pruebas realizadas en el marco del proyecto producen
muchos resultados interesantes. Los resultados de estas pruebas se describen ampliamente
en un libro (D.Michie et.al, 1994).

Atributo de la informacin:

1. Ds_name categrica Nombre del conjunto de datos


2. T continua Nmero de ejemplos de prueba establecido
3. N continua Nmero de ejemplos
4. p continua Nmero de atributos
5. k continua Nmero de clases
6. Bin continua Nmero de binario Atributos
7. Costo El costo continuo (1 = s, 0 = no)
8. SDratio continua desviacin estndar relacin de
9. correl continua correlacin media entre los atributos
10. cancor1 continuo primera correlacin cannica
11. cancor2 correlacin cannica Segundo continua
12. fract1 primer valor propio continua
13. fract2 continua segundo valor propio
14. asimetra media continua de | E (X-Media) | ^ ^ 3/STD 3
15. curtosis media continua de | E (X-Media) | ^ ^ 4/STD 4
16. Hc entropa media continua de atributos
17. Entropa continua Hx de las clases
18. MCx entropa mutuo media continua de la clase y atributos
19. EnAtr nmero equivalente continuo de atributos
20. NSRatio relacin continua Seal-Ruido
21. Alg_Name categrica Nombre del Algoritmo
22. Norm_error Error Normalizado continua (clase continua)

Documentos pertinentes:

"Machine Learning, Neural y Aprendizaje Estadstico ". Eds. D.Michie, DJSpiegelhalter y


C.Taylor Ellis Horwood-1994 P. Brazdil, J.Gama y B.Henery. "Caracterizacin de la
Aplicabilidad de Algoritmos de Clasificacin Usando Meta-Nivel de Aprendizaje",
en Proc . de Aprendizaje Automtico - ECML-94, ed. F.Bergadano y L.de Raedt, LNAI
Vol.784 Springer-Verlag. [Web Link] J.Gama, P.Brazdil. "Caracterizacin de Algoritmos
de Clasificacin", en Proc. de EPIA 95, LNAI Vol.990 Springer-Verlag, 1995 [Web Link]

Citas:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
MicroMass Conjunto de Datos
Resumen : Un conjunto de datos para explorar aprendizaje automtico enfoques para la
identificacin de microorganismos a partir de datos de espectrometra de masas.

Conjunto de datos Nmero de


Multivariante 931 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de Fecha


Real 1300 08/12/2013
atributo: atributos: Donado

Nmero de
Valores N/
Tareas asociadas: Clasificacin Web 6734
perdidos? A
Accesos:

Fuente:

Pierre Mah, pierre.mahe '@' biomerieux.com , bioMrieux


Jean-Baptiste Veyrieras, jean-baptiste.veyrieras '@' biomerieux.com , bioMrieux

Datos Conjunto de Informacin:

Este conjunto de datos MALDI-TOF consiste en:


A) Un panel de referencia de 20 Gram positivas especies bacterianas y negativos que cubre
9 gneros entre los que varias especies se sabe que son difciles de discriminar
por espectrometra de masas (MALDI-TOF). Cada especie se representan por 11 a 60
espectros de masas obtenidos de 7 a 20 cepas bacterianas, constituyendo en conjunto un
conjunto de datos de 571 espectros obtenidos a partir de 213 cepas. Los espectros se
obtuvieron de acuerdo con el estndar de cultivo flujo de trabajo basado utilizado en la
rutina clnica en la que el microorganismo se cultiv primero en una placa de agar durante
24 a 48 horas, antes de que se recogi una porcin de la colonia, manchado sobre un
portaobjetos de MALDI y un espectro de masas fue adquirida.
B) Sobre la base de este panel de referencia, un dedicado in vitro conjunto de datos mezcla
maqueta fue constituido. Para ello se consideraron 10 pares de especies de diversos
proximidad taxonmica:
* 4 mezclas, etiquetados como A, B, C y D, las especies involucradas que pertenecen al
mismo gnero,
* 2 mezclas, E y F etiquetado, las especies que pertenecen a involucrados gneros distintos,
pero para el mismo tipo de Gram,
* 4 mezclas, con la etiqueta G, H, I y J, especies involucradas que pertenecen a tipos
distintos Gram.
Cada mezcla se representa por 2 pares de cepas, que se mezclaron de acuerdo a la siguiente
9 relaciones de concentracin: 01:00, 10:01, 05:01, 02:01, 01:01, 01:02, 01:05, 01:10,
0:1. Dos espectros replicadas fueron adquiridas para cada relacin de concentracin y cada
par de cepas, lo que lleva todo a un conjunto de datos de 360 espectros, entre los cuales 80
son en realidad los espectros de la muestra pura.
Atributo de la informacin:

Proporcionar informacin acerca de cada atributo del conjunto de datos.

Documentos pertinentes:

Mah et al. (2014). La identificacin automtica de huellas dactilares de especies mixtas


bacterianas en una masa de espectro MALDI-TOF. Bioinformtica.
Vervier et al., Un punto de referencia de las mquinas de vectores soporte estrategias para
la identificacin microbiana por los datos de espectrometra de masas, presentado

Citas:

Si usted no tiene ninguna peticin de citas especiales, por favor, deje este campo en blanco.

129-154 Guatemala
http://archive.ics.uci.edu/ml/datasets.html
MiniBooNE datos de identificacin de
partculas Set
Resumen: Este conjunto de datos se toma del experimento MiniBooNE y se utiliza para distinguir
los neutrinos de electrones (seal) de neutrinos mun (fondo).

Conjunto de datos Nmero de


Multivariante 130065 rea: Fsico
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2010-


Real 50
atributo: atributos: Donado 12-13

Nmero de
Valores
Tareas asociadas: Clasificacin N/A Web 18000
perdidos?
Accesos:

Fuente:
Byron Roe ( byronroe '@' umich.edu )
Departamento de Fsica Universidad de Michigan
Ann Arbor, MI 48109

Datos Conjunto de Informacin:


El archivo enviado est configurado de la siguiente manera. En la primera lnea es el nmero de
eventos de seal seguido por el nmero de eventos de fondo. Los eventos de seal vienen
primero, seguido por los eventos de fondo. Cada lnea, despus de la primera lnea tiene las 50
variables de identificacin de partculas para el mismo evento.

Atributo de la informacin:
50 variables (reales) de identificacin de partculas para cada evento.

Documentos pertinentes:
. B. Roe et al, "rboles de decisin potenciados, una alternativa a las Redes Neuronales Artificiales
'< [Web Link] >,
arXiv: physics/0408124, Nucl. Instrum. Meth. A543, 577 (2005).

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Mobile Robots Data Set

Resumen : conceptos de los datos del sensor de un robot mvil Aprendizaje; un conjunto de
conjuntos de datos

N
Conjunto de datos Domain- Nmero de
/ rea: Ordenador
Caractersticas: Theory instancias:
A

N
Caractersticas del Categrico, Nmero de Fecha
/ 07/15/1995
atributo: entero, real atributos: Donado
A

N Nmero de
Valores
Tareas asociadas: N/A / Web 21455
perdidos?
A Accesos:

Fuente:
Donantes: Volker Klingspor, Katharina J. Morik, Anke D. Rieger Informtica Dpto. LS
VIII Universidad de Dortmund, Alemania

Datos Conjunto de Informacin:


Por favor, consulte el archivo de nombres asociado.
Atributo de la informacin:
Tr (Trace) (entero)
T (Time) (entero)
S (Sensor) (entero 0-23)
O (Orientacin) (real 0-360)
Sa (S-Orientacin) (real 0-360)
Gr (Degradado) (real)
Dist (distancia) (real)
Sx, Sy
(Sensor de coordenadas) (real)
Obj (Object) (entero)
E (Edge) (entero)
S_C (Sensorclass) (conjunto de front_side, Morelos:, back_side, left_side. ..)
Mv (Movimiento) (juego de forma paralela, diagonal)
MD (MoveDirection) (conjunto de adelante, atrs, derecha, izquierda)
PD (PerceptionDir.) (grupo de delante, detrs, derecha, izquierda)
Perc (caractersticas perceptivas)

Documentos pertinentes:
Volker Klingspor, Katharina Morik, Anke Rieger. Conceptos de los datos del sensor de un Robot
Mvil Aprender. Machine Learning Journal, 1995. [Web Link]

Documentos que citan este conjunto de datos 1 :


Mohammed Waleed Kadous. Expandir el Alcance del concepto de aprendizaje utilizando
Metafeatures . Facultad de Ciencias de la Computacin e Ingeniera de la Universidad de Nueva
Gales del Sur. [ Ver Contexto ].

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Biologa Molecular (promotor del gen de
Secuencias) Conjunto de datos
Resumen : E. Coli secuencias del gen promotor (ADN) con la teora de dominio parcial

Conjunto de datos Sequential, Nmero de


106 rea: Vida
Caractersticas: dominio-Teora instancias:

Caractersticas del Nmero de 1990-


Categrico 58 Fecha Donado
atributo: atributos: 06-30

Valores Nmero de
Tareas asociadas: Clasificacin No 25781
perdidos? Web Accesos:

Fuente:
Creadores: 1. instancias promotoras: S. Harley ( CHARLEY '@' McMaster.CA ) y R.
Reynolds 2. instancias no promotoras y teora del dominio: M. Noordewier - (sin promotores
derivados del trabajo del laboratorio del Prof. Tom Record, Universidad de Wisconsin Departamento
de Bioqumica) Donante: M. Noordewier y J. Shavlik, {noordewi, Shavlik} @ cs.wisc.edu

Datos Conjunto de Informacin:Este conjunto de datos ha sido desarrollado para


ayudar a evaluar un "hbrido" algoritmo de aprendizaje ("KBANN") que utiliza ejemplos para refinar
inductivamente conocimiento preexistente. Utilizando una metodologa de "dejar uno fuera", los
siguientes errores fueron producidos por diferentes algoritmos ML. (Ver Towell, Shavlik, y
Noordewier, 1990, para ms detalles.) del sistema - Errores - Comentarios ---------------------------- ------
------------------------------ KBANN - 4/106 - un hbrido sistema ML BP - - 8/106 - std Backprop con una
capa oculta O'Neill - 12/106 - tcnica ad hoc de la bio. lit. Near-Relincho - 13/106 - un algoritmo
vecino ms cercano (k = 3) ID3 - 19/106 - de Quinlan rbol de decisiones constructor Tipo de
dominio: no numrico, nominal (uno de A, G , T, C) Nota: los nucletidos del ADN se pueden agrupar
en una jerarqua, como se muestra a continuacin: X (cualquier) / \ (purina) RY (pirimidina) / \ /
\ AGTC Aqu est ese jerarqua en un formato de texto amigable: X (cualquiera) . R (purina) . . A .. T .
Y (pirimidina) . . T .. C
Atributo de la informacin:
1. Uno de {+ / -}, que indica la clase ("+" = promotor).
2. El nombre de instancia (no promotores nombrados por la posicin en la secuencia de nucletidos
de largo 1500 proporcionada por T. Record).
3-59. Los campos restantes 57 son la secuencia, comenzando en la posicin -50 (P-50) y termina en
la posicin 7 (P7). Cada uno de estos campos se llena por una de {a, g, t, c}.

Documentos pertinentes:
Harley, C. y Reynolds, R. 1987. "El anlisis de E. Coli secuencias promotoras." Nucleic Acids
Research, 15:2343-2361. [Web Link] Towell, G., Shavlik, J. y Noordewier, M. 1990. "El
perfeccionamiento de las teoras de dominio aproximados por Redes Neuronales Artificiales Basados
en Conocimiento." En Actas de la Conferencia Nacional de la Octava de la Inteligencia Artificial
(AAAI-90). [Web Link]
Biologa Molecular (estructura secundaria de
protenas) Conjunto de datos
Resumen : A partir de CMU conexionista repositorio de banco; Clasifica estructura secundaria de
ciertas protenas globulares

Conjunto de datos Nmero de


Secuencial 128 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de N/


Categrico Fecha Donado N/A
atributo: atributos: A

Valores N/ Nmero de Web


Tareas asociadas: Clasificacin 18489
perdidos? A Accesos:

Fuente:
El conjunto de datos es una contribucin a la coleccin de referencia en Terry Sejnowski, ahora en
el Instituto Salk y la Universidad de California en San Deigo. El conjunto de datos fue desarrollada
en colaboracin con Ning Qian, de la Universidad Johns Hopkins.

Datos Conjunto de Informacin:


Se trata de un conjunto de datos utilizado por Ning Qian y Terry Sejnowski en su estudio utilizando
una red neuronal para predecir la estructura secundaria de ciertas protenas globulares [1]. La idea
es tomar una secuencia lineal de aminocidos y para predecir, para cada uno de estos aminocidos,
lo que la estructura secundaria es una parte de dentro de la protena. Hay tres opciones: la alfa-
hlice, de lminas beta, y al azar-bobina. El conjunto de datos contiene un gran conjunto de datos
de entrenamiento y un conjunto distinto de datos que pueden ser utilizados para probar la red
resultante. Qian y Sejnowski utilizan un enfoque Nettalk-como y reportan una precisin del 64,3% en
el conjunto de prueba, y se especula que esto es lo mejor que se puede hacer utilizando slo el
contexto local. Hay tambin una teora del dominio en la carpeta, donado y creado por Jude Shavlik
& Rich Maclin

Atributo de la informacin:
N/A

Documentos pertinentes:
Ning Qian y Terrnece J. Sejnowski (1988), "La prediccin de la estructura secundaria de las
protenas globulares Usando modelos de red neuronal", en Journal of Molecular Biology 202, 865-
884. Academic Press.[Web Link]
Biologa Molecular (Splice-unin secuencias
gnicas) Conjunto de datos
Resumen : secuencias de primates de empalme de unin de genes (ADN) con la teora de
dominio imperfecto asociado

Conjunto de datos Sequential, Nmero de


3190 rea: Vida
Caractersticas: dominio-Teora instancias:

Caractersticas del Nmero de Fecha 1992-


Categrico 61
atributo: atributos: Donado 01-01

Nmero de
Valores
Tareas asociadas: Clasificacin No Web 35793
perdidos?
Accesos:

Fuente:
Creadores: 1. Todos los ejemplos tomados de GenBank 64.1 (sitio ftp:
genbank.bio.net) 2. Categoras "ei" y "decir" incluyen todos los "split-gen" para los primates en el
Genbank 64.1 3. ejemplos no empalme tomadas a partir de secuencias conocidas de no incluir un
sitio de corte y empalme donante: G. Towell, M. Noordewier y J. Shavlik, {towell, Shavlik} @
cs.wisc.edu, noordewi '@' cs.rutgers.edu

Datos Conjunto de Informacin:


Descripcin del problema: los cruces de empalme son puntos en una secuencia de ADN a la que se
retira '`ADN superfluo durante el proceso de creacin de protenas en organismos superiores. El
problema planteado en este conjunto de datos es reconocer, dada una secuencia de ADN, los
lmites entre los exones (las partes de la secuencia de ADN conservan despus de empalme) e
intrones (las partes de la secuencia de ADN que se empalman a cabo). Este problema consiste en
dos subtareas: reconociendo lmites exn / intrn (conocidas como sitios de la IE), y reconociendo
los lmites intrn / exn (sitios IE). (En la comunidad biolgica, las fronteras de IE se hace referencia
a un `` aceptantes'' mientras que las fronteras de la IE se conocen como `` donantes''.) Este conjunto
de datos ha sido desarrollado para ayudar a evaluar un "hbrido" algoritmo de aprendizaje (KBANN)
que los usos ejemplos para refinar inductivamente conocimiento preexistente. Utilizando una
metodologa "de diez veces la validacin cruzada" en 1000 ejemplos seleccionados al azar de la
serie completa de 3190, las siguientes tasas de error fueron producidos por diferentes algoritmos ML
(todos los experimentos realizados en la Universidad de Wisconsin, a veces con implementaciones
locales de algoritmos publicados .) del sistema - Ni - IE - IE -------------------------------------- -------------
KBANN - 4.62 - 7,56 a 8,47 Backprop - 5.29 - 5,74 a 10,75 PEBLS - 6.86 - 8,18 a
7,55PERCEPTRON - 3,99 a 16,32 - 17.41 ID3 - 8.84 - 10,58-13,99 TELARAA - 11.80 - 15,04 a
9,46 Near. Vecino - 31.11 - 11,65 a 9,09

Atributo de la informacin:
1. Uno de {n} ei es decir, lo que indica la clase.
2. El nombre de la instancia.
3-62. Los 60 campos restantes son la secuencia, comenzando en la posicin -30 y termina en la
posicin 30. Cada uno de estos campos es casi siempre ocupados por uno de {a, g, t, c}. Otros
caracteres indican la ambigedad entre los caracteres estndar de acuerdo con la siguiente
tabla: carcter: es decir, D: A o G o T N: A o G o C o T S: C o G R: A o G

Documentos pertinentes:MO Noordewier y GG Towell y JW Shavlik, 1991; "Redes


Neuronales basadas en el conocimiento entrenamiento para reconocer genes en secuencias de
ADN". Los avances en la informacin Neural Processing Systems, volumen 3, Morgan
Kaufmann. [Web Link] GG Towell y JW Shavlik y MW Craven, 1991; "Induccin constructiva en
Redes Neuronales del Conocimiento", en Actas de la Octava de Aprendizaje Internacional de
Mquinas Workshop, Morgan Kaufmann. [Web Link] GG Towell, 1991; "El conocimiento simblico y
Redes Neuronales: Insercin, Refinamiento y extraccin.", Tesis doctoral, Universidad de Wisconsin
- Madison [Web Link] GG Towell y JW Shavlik, 1992; "Interpretacin de Redes Neuronales
Artificiales: Mapping basados en el conocimiento Redes Neuronales en reglas", en Advances in
Neural Information Processing Systems, volumen 4, Morgan Kaufmann. [Web Link]
Del MONJE Problemas Data Set
Resumen : Un conjunto de tres campos artificiales durante el mismo espacio de atributos; Se
utiliza para probar una amplia gama de algoritmos de induccin

Conjunto de datos Nmero de


Multivariante 432 rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de 1992-10-


Categrico 7 Fecha Donado
atributo: atributos: 01

Valores Nmero de
Tareas asociadas: Clasificacin No 121713
perdidos? Web Accesos:

Fuente:
Donante: Sebastian Thrun Facultad de Ciencias de la Computacin de la Universidad Carnegie
Mellon de Pittsburgh, PA 15213, EE.UU. Correo electrnico: Thrun '@' cs.cmu.edu
Datos Conjunto de Informacin:
El problema del MONJE fueron la base de una primera comparacin internacional de los algoritmos
de aprendizaje. El resultado de esta comparacin se resume en "Problemas del Monk - una
comparacin de rendimiento de diferentes algoritmos de aprendizaje" por SB Thrun, J. Bala, E.
Bloedorn, I. Bratko, B. Cestnik, J. Cheng, K. De Jong, S. Dzeroski, SE Fahlman, D. Fisher, R.
Hamann, K. Kaufman, S. Keller, I. Kononenko, J. Kreuziger, RS Michalski, T. Mitchell, P. Pachowicz,
Y. Reich H. Vafaie, W . Van de Welde, W. Wenzel, J. Wnek, y J. Zhang ha sido publicado como
Informe Tcnico CS-CMU-91-197 de la Universidad Carnegie Mellon en diciembre de 1991. Una
caracterstica importante de esta comparacin es que se llev a cabo por un conjunto de
investigadores, cada uno de los cuales era un defensor de la tcnica que probaron (a menudo eran
los creadores de los diferentes mtodos). En este sentido, los resultados son menos sesgada que en
las comparaciones realizadas por una sola persona abogar por un mtodo de aprendizaje
especficos, y reflejan con mayor precisin el comportamiento de la generalizacin de las tcnicas de
aprendizaje aplicadas por usuarios expertos. Hay tres problemas de Monk. Los dominios para todos
los problemas de MONJE son los mismos (que se describe ms adelante). Uno de los problemas del
monje ha aadido ruido. Para cada problema, el dominio se ha dividido en un tren y equipo de
prueba.

Atributo de la informacin:
1. clase: 0, 1
2. A1: 1, 2, 3
3. A2: 1, 2, 3
4. A3: 1, 2
5. A4: 1, 2, 3
6. a5: 1, 2, 3, 4
7. A6: 1, 2
8. Id: (Un smbolo nico para cada instancia)

Documentos pertinentes:
Wnek, J., "La induccin constructiva hiptesis impulsada", tesis de doctorado de la Facultad de
Tecnologa de la Informacin e Ingeniera, Repertorio de aprendizaje automtico e Inferencia
Laboratorio, MLI 93-2, Centro para la Inteligencia Artificial, George Mason University, marzo de
1993. [Web Link] Wnek, J. y Michalski, RS, "Comparando Simblico y subsimblica aprendizaje: tres
estudios," en Aprendizaje Automtico: Un enfoque Multiestrategia, vol. .. 4, RS Michalski y G. Tecuci
(Eds.), Morgan Kaufmann, San Mateo, CA, 1993 [Web Link] Ver archivo: thrun.comparison.ps.Z
Moral Reasoner Data Set
Resumen : Modelo de clusula de Horn-que simula cualitativamente razonamiento moral; Teora
incluye literales negados

Conjunto de datos Domain- Nmero de


202 rea: Ordenador
Caractersticas: Theory instancias:

Caractersticas del Nmero de N/ 1994-06-


N/A Fecha Donado
atributo: atributos: A 01

Valores N/ Nmero de
Tareas asociadas: N/A 11760
perdidos? A Web Accesos:

Fuente:
Creadores: TR Shultz y JM Daley donantes: James L. Wogulis Universidad de California,
Irvine Irvine, CA, EE.UU.
Datos Conjunto de Informacin:
Este es un modelo basado en reglas que simula cualitativamente el razonamiento moral. El modelo
fue pensado para simular cmo una persona comn y corriente, hasta cerca de cinco aos de edad,
acerca de las razones. Dao haciendo La teora de cuerno clusula y los casos 202 son los mismos
que se utilizaron en (Wogulis, 1994). El predicado de nivel superior para predecir es culpable /
1. Para obtener ms informacin, por ejemplo, en la generacin de instancias, vea (Wogulis, 1994).

Atributo de la informacin:
N/A

Documentos pertinentes:
Darley, JM & Shultz, TR (1990). Las reglas morales: su contenido y adquisicin. Annual Review of
Psychology, 41, 525-556. Shultz, TR (1990). Un modelo de base de reglas de juzgar dao-hacer. En
Actas de la XII Conferencia Anual de la Sociedad de Ciencias Cognitivas, (pp. 229-236)., Cambridge,
MA. Lawrence Erlbaum. [Web Link] Wogulis, JL (1994). Un acercamiento a la reparacin y
evaluacin de teoras de primer orden que contiene varios conceptos y negacin. Disertacin
Doctoral. Universidad de California, Irvine. [Web Link]

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Movie Set Data
Resumen : Este conjunto de datos contiene una lista de ms de 10.000 pelculas, entre ellas
muchos ms, impares y Pelculas de culto. Hay informacin sobre los actores, los yesos,
directores, productores, estudios, etc

Conjunto de datos Multivariante, Nmero de


10000 rea: N/A
Caractersticas: Relacional instancias:

Caractersticas del Nmero de Fecha 1999-


N/A N/A
atributo: atributos: Donado 07-07

Nmero de
Valores
Tareas asociadas: N/A S Web 42551
perdidos?
Accesos:

Fuente:
Propietario original y donante Gio Wiederhold Universidad de Stanford 650-725-
8363 gio '@' cs.stanford.edu

Datos Conjunto de Informacin:


Los datos se almacenan en forma relacional en varios archivos. El archivo central (MAIN) es una lista
de pelculas, cada uno con un identificador nico. Estos identificadores pueden cambiar en versiones
sucesivas.Los actores (CAST) de esas pelculas se muestran con sus papeles en un archivo
distinto. Ms informacin acerca de los actores individuales (actores) se encuentra en un tercer
archivo. Que todos los consejeros en la MAIN se enumeran en el cuarto fichero (personas), con un
nmero de grandes productores, escritores y directores de fotografa. Un quinto archivo (REMAKES)
Enlaces pelculas que se han copiado de forma sustancial el uno del otro. La sexta archivo
(STUDIOS) proporciona informacin acerca de los estudios mostrados en la principal. La motivacin
original era que los ejercicios de clase de base de datos, para reemplazar el gestor aburrido `de
consultas que el juguete-departamento '. Tenga en cuenta que los elencos, refirindose MAIN y
actores es lgicamente idntico al archivo de inventario refirindose a los proveedores y asambleas
en los problemas de los estndares de listas de materiales. Los intereses personales hicieron que la
base de datos para hacer completa para todas las pelculas de Hitchcock y episodios de
televisin.Pelculas relacionadas por tipo y el actor se aadieron gradualmente. Investigaciones
posteriores en las bases de datos temporales causada campos de fecha (ao solamente) que se
aadirn. Permite a las pruebas, por ejemplo, si las fechas-de-trabajo de un actor coincide con las
fechas de las pelculas ms importante que los shows de relacin CAST. Caractersticas de bases de
datos orientadas a objetos se podran probar con los campos que tiene mltiples y de dos niveles los
valores, tal como se documenta en el DOC. Las entradas se recogen gradualmente durante el
trabajo del curso comenzando alrededor de 1975 y todava estn siendo actualizadas. La mayora de
las entradas eran manuales. El archivo DOC se enumeran algunas de las obras de referencia
utilizados. Las correcciones y adiciones siguen siendo apreciado.Descripciones detalladas de los
campos y sus formatos se proporciona en doc.html. Valores perdidos: Fuera de los campos clave,
los valores no son comunes. Su codificacin se describe en el DOC. A veces los datos parece no
estar disponible, a veces no se ha introducido. Parte de la informacin, como `vivi-con 'es
intrnsecamente incompleto. Censurado datos: actores menores se ignoran. Dependencias: Cada
pelcula principal debe tener un director en la gente. Cerca de 50 nombres del director seudo ahve
sido incluido en la gente a permitir pelculas interesantes que con (todava) directores desconocidos
a ser introducidos. Cada entrada moldes debe referirse a una entrada de cine PRINCIPAL. Cada
actor debe aparecer en alguna entrada moldes, pero no al revs. Ver DOC para obtener informacin
ms tipo. Otra informacin relevante: Las pelculas se enumeran, si se conoce, con su ttulo de
lengua original. Una Alt (T:) Campo ofrece traducciones al ingls, si se conoce. Formato de
datos: Los archivos actuales estn en HTML, para permitir un fcil anlisis a otros formatos. . Se est
considerando una versin XML Los tamaos de archivo aproximados son: DOC .......
50K PRINCIPALES ...... 1 145K 11 400 entradas GENTE .... 355K 3 290 entradasPROYECTA ..... 4
340K 46 000 entradas ACTORES .... 811K 6 800 entradas remakes ... 135K 1 278
entradas STUDIOS ... 26K 200 entradas
Atributo de la informacin:
N/A

Documentos pertinentes:
N/A

MSNBC.com Anonymous Web Data Set Data


Resumen : Esta informacin describe las visitas a las pginas de los usuarios que visitaron
msnbc.com el 28 de septiembre de 1999. Las visitas se registran a nivel de categora de URL
(vase la descripcin) y se registran en orden cronolgico.

Conjunto de datos Nmero de


Secuencial 989818 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de Fecha


Categrico N/A N/A
atributo: atributos: Donado

Valores Nmero de
Tareas asociadas: N/A N/A 25931
perdidos? Web Accesos:

Fuente:
David Heckerman ( heckerma '@' microsoft.com )

Datos Conjunto de Informacin:


Los datos provienen de Internet Information Server (IIS) los registros de msnbc.com y partes
relacionados con noticias de msn.com para todo el da de Septiembre 28, 1999 (Pacific Standard
Time). Cada secuencia en el conjunto de datos corresponde a pginas vistas de un usuario durante
ese periodo de veinticuatro horas. Cada evento en la secuencia corresponde a la solicitud de un
usuario de una pgina. Las solicitudes no se registran en el mejor nivel de detalle --- es decir, a nivel
de URL, sino ms bien, que se registran a nivel de pgina de la categora (segn lo determinado por
la administracin del sitio). Las categoras son "portada", "noticias", "tech", "opinin" "local", "en el
aire", "miscelneos", "tiempo", "salud", "vivo", "business", " deporte "," "," bbs Resumen "(servicio de
tabln de anuncios)," viajar "," msn-noticias ", y" msn-sports ". Cualquier solicitud de pginas servidas
a travs de un mecanismo de almacenamiento en cach no se registraron en los registros del
servidor y, por lo tanto, no est presente en los datos. Otra informacin relevante: * Nmero de
usuarios: 989.818 * Nmero medio de vitis por usuario: 5,7 * Nmero de URLs por categoras : 10 a
5000
Atributo de la informacin:
En cada categora se asocia - en orden - con un entero empezando por "1". Por ejemplo, "frontpage"
se asocia con 1, "noticias", con 2, y "tecnologa" con 3. Cada fila de abajo "% Secuencias:" describe
los xitos - en orden - de un solo usuario. Por ejemplo, el usuario golpea primero "frontpage" dos
veces, y la segunda "noticias" usuario golpea una vez.

Documentos pertinentes:
I. Cadez, D. Heckerman, C. Meek, P. Smyth, S. White, "Visualizacin de los patrones de navegacin
en un sitio Web utilizando clustering basado en modelos", Revista de la minera de datos y
descubrimiento de conocimiento. [Web Link]

Cita de pedidos:
Estos datos est disponible gracias a msnbc.com
Mltiples funciones de datos Fije
Resumen : Este conjunto de datos se compone de caractersticas de los nmeros escritos a mano
(`0 '-` 9') extrados de una coleccin de mapas holandeses de servicios pblicos

Conjunto de datos Nmero de


Multivariante 2000 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de


Entero, real 649 Fecha Donado N/A
atributo: atributos:

Valores Nmero de
Tareas asociadas: Clasificacin No 33212
perdidos? Web Accesos:

Fuente:
Robert PW Duin
Departamento de Fsica Aplicada de la
Universidad Tecnolgica de Delft
PO Box 5046, 2600 GA Delft
Holanda email: duin '@' ph.tn.tudelft.nl http: / / www.ph.tn.tudelft.nl/ ~ duin tel +31 15 2786143

Datos Conjunto de Informacin:


Este conjunto de datos se compone de caractersticas de los nmeros escritos a mano (`0 '-` 9')
extrados de una coleccin de mapas holandeses de servicios pblicos. 200 patrones por clase (para
un total de 2.000 patrones) han sido digitalizados en imgenes binarias. Estos dgitos se representan
en trminos de los siguientes seis conjuntos de caractersticas (archivos): 1. mfeat-fou: 76
coeficientes de Fourier de las formas de los caracteres; 2. mfeat-fac: 216 Fecha de
correlaciones; 3. mfeat-kar: 64 coeficientes Karhunen-Amor; 4. mfeat-pix: 240 promedios de pxeles
en 2 x 3 ventanas; 5. mfeat-zer: 47 Zernike momentos; 6.mfeat-mor:. 6 caracteres morfolgicos en
cada archivo de los patrones de 2000 se almacenan en ASCI en 2.000 lneas. Los primeros 200
modelos son de clase `0 ', seguido por conjuntos de 200 patrones para cada una de las clases` 1' -
`9 '. Patrones correspondientes en diferentes conjuntos de caractersticas (o archivos) se
corresponden con el mismo carcter original. El conjunto de datos de imagen de origen se
pierde.Utilizando el pxel-conjunto de datos (mfeat-pix) versiones muestreadas de las imgenes
originales se pueden obtener (15 x 16 pxeles).

Atributo de la informacin:
6 Archivos:
1. mfeat-fou: 76 coeficientes de Fourier de las formas de los caracteres;
2. mfeat-fac: 216 Fecha de correlaciones;
3. mfeat-kar: 64 coeficientes Karhunen-Amor;
4. mfeat-pix: 240 promedios de pxeles en 2 x 3 ventanas;
5. mfeat-zer 47 Zernike momentos;
6. mfeat-mor: 6 caractersticas morfolgicas.

Documentos pertinentes:
M. van Breukelen, RPW Duin, Impuesto DMJ, y JE den Hartog, Manuscrito reconocimiento de dgitos
por los clasificadores combinados, Kybernetika, vol. 34, no. 4, 1998, 381-386. [Web Link] M. van
Breukelen y RPW Duin, red neuronal de inicializacin por Combined Clasificadores, en: AK Jain, S.
Venkatesh, BC Lovell (eds.), ICPR'98, Proc. 14a Int.. Conferencia sobre el Reconocimiento de
Patrones (Brisbane, Aug. 16-20),AK Jain, RPW Duin, J. Mao, Patrn Statisitcal Reconocimiento: una
revisin, en la preparacin

Mushroom Data Set


Resumen : A partir de la Gua de Campo de la Sociedad Audobon; setas que se describen en
trminos de caractersticas fsicas; Clasificacin: venenosa o comestible

Conjunto de datos Nmero de


Multivariante 8124 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de 1987-


Categrico 22 Fecha Donado
atributo: atributos: 04-27

Valores Nmero de
Tareas asociadas: Clasificacin S 117206
perdidos? Web Accesos:

Fuente:
Origen: registros de hongos procedentes de La Gua de Campo de la Sociedad Audubon de Setas
de Amrica del Norte (1981). GH Lincoff (Pres.), Nueva York: Alfred A. Knopf Donante: Jeff
Schlimmer (Jeffrey.Schlimmer '@' a.gp.cs.cmu.edu )
Datos Conjunto de Informacin:
Este conjunto de datos incluye descripciones de muestras hipotticas correspondientes a 23
especies de setas con aletas en el Agaricus y Lepiota Familia (pp. 500-525). Cada especie se
identifica como sin duda comestible, sin duda venenosa o de comestibilidad desconocida y no se
recomienda. Esta ltima clase se combin con el venenoso. La gua establece claramente que no
existe una regla simple para determinar la comestibilidad de una seta; hay una regla como `` folletos
de tres, que sea'' para Venenoso roble y la hiedra.

Atributo de la informacin:
1. cap-forma: campana = b, c, = cnicas convexas = x, plana = f, knobbed = k, hundidos = s
2. cap-superficie: fibrosa = f, ranuras = g, escamosa = y, = lisos s
3. cap-color: marrn = n, buff = b, c = canela, gris = g, verde = r, rosa = p, prpura = u, rojo = e,
blanco = w, amarillo = y
4. moretones:? contusiones = t, no = f
5. Olor: almendra = a, ans = l, la creosota = c, a pescado = y, falta = f, = mohosos m, ninguno = n,
acre = p, = picantes s
6. gill-apego: adosada = a, descendiente = d, libre = f, con muescas = n
7. gill-spacing: close = c, lleno de gente = w, distante d =
8. gill-size: amplia = b, estrecho = n
9. gill-color: negro = k, marrn = n, buff = b, = h de chocolate, gris = g, verde = r, naranja = o, rosa =
p, prpura = u, rojo = e, blanco = w, amarillo = y
10. acechar-forma: ampliacin = e, estrechndose = t
11. tallo-raz: = b bulbosas, club = c, taza = u, igual = e, rizomorfos = z, enraizada = r, perdido =?
12. tallo tierra-arriba-ring: fibrosa = f, = y escamosa, sedoso = k, = lisos s
13. tallo tierra-abajo-ring: fibrosa = f, = y escamosa, sedoso = k, = lisos s
14. acechar-color-por encima de la junta: marrn = n, buff = b, c = canela, gris = g, naranja = o, rosa
= p, rojo = e, blanco = w, amarillo = y
15. acechar-color-abajo-ring: marrn = n, buff = b, c = canela, gris = g, naranja = o, rosa = p, rojo = e,
blanco = w, amarillo = y
16. de tipo velo: = p, = universales parciales u
17. velo-color: marrn = n, naranja = o, blanco = w, amarillo = y
18. ring-nmero: ninguno = n, uno = o, dos t =
19. tipo anillo: = c telaraas, evanescente = e, la quema = f, grandes = l, ninguno = n, pendiente = p,
envainando = s, zona z =
20. espora-print-color: negro = k, marrn = n, buff = b, = h de chocolate, verde = r, naranja = O,
prpura = u, w = blanco, amarillo = y
21. poblacin: abundante = A, = c, agrupados numerosos = n, = dispersos s, varios = v, = solitarias y
22. hbitat: las hierbas = g, deja = l, prados = m = p, caminos, urbana = u = w, residuos, bosques = d

Documentos pertinentes:
Schlimmer, JS (1987). Concepto adquisicin a travs de representacin de Ajuste (Informe Tcnico
87-19). Disseration Doctoral, Departamento de Informacin y Ciencias de la Computacin de la
Universidad de California, Irvine. [Web Link] Iba, W., Wogulis, J., y Langley, P. (1988). Modificando
los Simplicidad y Cobertura en Incremental Concepto de Aprendizaje. En las actas de la 5
Conferencia Internacional sobre Aprendizaje Automtico, 73-79. Ann Arbor, Michigan: Morgan
Kaufmann. [Web Link] Duch W, Adamczak R, Grabczewski K (1996) Extraccin de reglas lgicas de
datos de entrenamiento que utilizan las redes de retropropagacin, en: Proc. del Taller La primera
lnea de Soft Computing, 19-30.Aug.1996, pp 25-30, [Web Link] [Web Link] Duch W, Adamczak R,
Grabczewski K, Ishikawa M, Ueda H, Extraccin de crujientes reglas lgicas que utilizan las redes de
retropropagacin restringidos - Comparacin de dos nuevos enfoques, en: Proc. del Simposio
Europeo sobre Redes Neuronales Artificiales (ESANN'97), Brujas, Blgica 16-18.4.1997. [Web Link]
Almizcle (Version 1) Conjunto de datos
Resumen : El objetivo es aprender a predecir si las nuevas molculas sern almizcles o no
almizcles

Conjunto de datos Nmero de


Multivariante 476 rea: Fsico
Caractersticas: instancias:

Caractersticas del Nmero de Fecha


Entero 168 09/12/1994
atributo: atributos: Donado

Valores Nmero de
Tareas asociadas: Clasificacin No 22178
perdidos? Web Accesos:

Fuente:
Creadores: Grupo AI a Arris Pharmaceutical Corporation contacto: David Chapman o Ajay Jain Arris
Pharmaceutical Corporation 385 Oyster Point Blvd.. South San Francisco, CA 94080 415-737-
8600 zvona '@'arris.com , jain '@' arris.com Donantes : Tom Dietterich Departamento de Ciencias
de la Computacin de la Universidad Estatal de Oregon en Corvallis, OR 97331 503-737-
5559 TGD '@' cs.orst.edu

Datos Conjunto de Informacin:


Este conjunto de datos describe un conjunto de 92 molculas de las cuales 47 son juzgados por
expertos humanos para ser almizcles y los 45 restantes molculas son juzgados como los no
almizcles. El objetivo es aprender a predecir si las nuevas molculas sern almizcles o no
almizcles. Sin embargo, las 166 caractersticas que describen estas molculas dependen de la
forma exacta, o la conformacin, de la molcula.Debido a que los bonos pueden rotar, una sola
molcula puede adoptar muchas formas diferentes. Para generar este conjunto de datos, se
generaron las conformaciones de baja energa de las molculas y luego se filtra para eliminar
conformaciones muy similares. Esto dej 476 conformaciones. Entonces, un vector de
caractersticas se extrajo que describe cada conformacin. Este de muchos a uno entre los
vectores de caractersticas y las molculas se llama el "problema de mltiples instancias". Al
aprender un clasificador para estos datos, el clasificador debe clasificar una molcula como
"almizcle" Si alguno de sus conformaciones se clasifica como un almizcle. Una molcula debera
ser clasificado como "no almizcle" si ninguno de sus conformaciones se clasifica como un almizcle.

Atributo de la informacin:

molecule_name: Nombre simblico de cada molcula. Almizcles tienen nombres como MUSK-
188. Los no almizcles tienen nombres tales como NO MUSK-JP13.
conformation_name: Nombre simblico de cada conformacin. Estos tienen el formato MOL_ISO +
CONF, donde MOL es el nmero de molculas, la ISO es el nmero estereoismero (generalmente
1), y es el nmero CONF conformacin.
f1 a F162: Estos son "caractersticas" a lo largo de los rayos distancia (vase el documento antes
citado) . Las distancias se miden en centsimas de Angstroms. Las distancias pueden ser negativo
o positivo, ya que en realidad se miden con respecto a un origen colocado a lo largo de cada
rayo. El origen fue definida por una superficie "consenso almizcle" que ya no se utiliza. Por lo tanto,
cualquier experimento con los datos deberan tratar estos valores de caractersticas como la
mentira en una escala continua arbitraria. En particular, el algoritmo no debe hacer ningn uso del
punto cero o el signo de cada caracterstica de valor.
F163: Esta es la distancia del tomo de oxgeno en la molcula a un punto designado en el espacio
de 3 dimensiones. Esto tambin se llama OXY-DIS.
F164: OXY-X:. X-desplazamiento desde el punto designado
F165: OXY-Y:. Y-desplazamiento desde el punto designado
F166: OXY-Z: Z-desplazamiento desde el punto designado.
clase: 0 => no almizcle, 1 => almizcle Por favor, tenga en cuenta que los atributos molecule_name
y conformation_name no deben ser utilizados para predecir la clase.
Documentos pertinentes:

Dietterich, TG, Lathrop, RH, Lozano-Prez, T. Resolver el problema de la doble instancia con
rectngulos de ejes paralelos. Inteligencia Artificial. [Web Link]

Almizcle (Version 2) Conjunto de datos


Resumen : El objetivo es aprender a predecir si las nuevas molculas sern almizcles o no
almizcles

Conjunto de datos Nmero de


Multivariante 6598 rea: Fsico
Caractersticas: instancias:

Caractersticas del Nmero de Fecha


Entero 168 09/12/1994
atributo: atributos: Donado

Valores Nmero de
Tareas asociadas: Clasificacin No 22461
perdidos? Web Accesos:

Fuente:
Creadores: Grupo AI a Arris Pharmaceutical Corporation contacto: David Chapman o Ajay Jain Arris
Pharmaceutical Corporation 385 Oyster Point Blvd.. South San Francisco, CA 94080 415-737-
8600 zvona '@'arris.com , jain '@' arris.com Donantes : Tom Dietterich Departamento de Ciencias de
la Computacin de la Universidad Estatal de Oregon en Corvallis, OR 97331 503-737-
5559 TGD '@' cs.orst.edu
Datos Conjunto de Informacin:
Este conjunto de datos describe un conjunto de 102 molculas de las cuales 39 son juzgados por
expertos humanos para ser almizcles y los 63 restantes molculas son juzgados como los no
almizcles. El objetivo es aprender a predecir si las nuevas molculas sern almizcles o no
almizcles. Sin embargo, las 166 caractersticas que describen estas molculas dependen de la forma
exacta, o la conformacin, de la molcula.Debido a que los bonos pueden rotar, una sola molcula
puede adoptar muchas formas diferentes. Para generar este conjunto de datos, se han generado
todas las conformaciones de baja energa de las molculas para producir 6.598
conformaciones. Entonces, un vector de caractersticas se extrajo que describe cada
conformacin. Este de muchos a uno entre los vectores de caractersticas y las molculas se llama el
"problema de mltiples instancias". Al aprender un clasificador para estos datos, el clasificador debe
clasificar una molcula como "almizcle" Si alguno de sus conformaciones se clasifica como un
almizcle. Una molcula debera ser clasificado como "no almizcle" si ninguno de sus conformaciones
se clasifica como un almizcle.

Atributo de la informacin:molecule_name: Nombre simblico de cada


molcula. Almizcles tienen nombres como MUSK-188. Los no almizcles tienen nombres tales como
NO MUSK-JP13.
conformation_name: Nombre simblico de cada conformacin. Estos tienen el formato MOL_ISO +
CONF, donde MOL es el nmero de molculas, la ISO es el nmero estereoismero (generalmente
1), y es el nmero CONF conformacin.
f1 a F162: Estos son "caractersticas" a lo largo de los rayos distancia (vase el documento antes
citado) . Las distancias se miden en centsimas de Angstroms. Las distancias pueden ser negativo o
positivo, ya que en realidad se miden con respecto a un origen colocado a lo largo de cada rayo. El
origen fue definida por una superficie "consenso almizcle" que ya no se utiliza. Por lo tanto, cualquier
experimento con los datos deberan tratar estos valores de caractersticas como la mentira en una
escala continua arbitraria. En particular, el algoritmo no debe hacer ningn uso del punto cero o el
signo de cada caracterstica de valor.
F163: Esta es la distancia del tomo de oxgeno en la molcula a un punto designado en el espacio
de 3 dimensiones. Esto tambin se llama OXY-DIS.
F164: OXY-X:. X-desplazamiento desde el punto designado
F165: OXY-Y:. Y-desplazamiento desde el punto designado
F166: OXY-Z: Z-desplazamiento desde el punto designado.
clase: 0 => no almizcle, 1 => almizcle Por favor, tenga en cuenta que los atributos molecule_name y
conformation_name no deben ser utilizados para predecir la clase.

Documentos pertinentes:
Dietterich, TG, Jain, A., Lathrop, R., Lozano-Prez, T. (1994). Una comparacin de reposando
dinmica y la distancia tangente para la prediccin de la actividad del frmaco. Los avances en la
informacin Neural Processing Systems, 6. San Mateo, CA: Morgan Kaufmann. . 216-223 [Web
Link] Jain, AN, Dietterich, TG, Lathrop, RH, Chapman, D., Critchlow, RE, Bauer, BE, Webster, TA,
Lozano-Prez, T. Brjula: basa forma-A mquina herramienta de aprendizaje para el diseo de
frmacos. Computer-Aided Molecular Design. [Web Link] Dietterich, TG, Lathrop, RH, Lozano-Prez,
T. Resolver el problema de la doble instancia con rectngulos de ejes paralelos. Inteligencia
Artificial. [Web Link]

Nomao Data Set


Resumen : Nomao recopila datos acerca de los lugares (nombre, telfono, localizacin ...) a partir
de muchas fuentes. La deduplicacin consiste en detectar lo que los datos se refieren al mismo
lugar. Los casos del conjunto de datos se comparan 2 puntos.

Conjunto de datos Nmero de


Univariante 34465 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2012-07-


Real 120
atributo: atributos: Donado 04

Nmero de
Valores
Tareas asociadas: Clasificacin S Web 10803
perdidos?
Accesos:

Fuente:(A) El dueo original de la base de datos (nombre / telfono / direccin caracol / direccin
de correo electrnico)
Nomao / 00 33 5 62 48 33 90/1 avenida Jean Rieux, 31500 Toulouse / desafo '@' nomao.com
(b) Donante de base de datos ( nombre / telfono / direccin caracol / direccin de correo
electrnico)
Laurent Candillier / - / 1 avenida Jean Rieux, 31500 Toulouse / laurent '@' nomao.com
Datos Conjunto de Informacin:
El conjunto de datos se ha enriquecido durante el Nomao Desafo: [Web Link] organizada junto con
el taller ALRA (Aprendizaje Activo en aplicaciones del mundo real): [Web Link] celebrada en la
conferencia ECML-PKDD 2012.
Atributo de la informacin:
120 atributos: 89 continua, 31 nominal (incluida la 'etiqueta' de los atributos y 'id').

Documentos pertinentes:@ inproceedings {nomaochallenge-CELM,


author = {Laurent Candillier y Vincent Lemaire},
title = {El diseo y anlisis del Desafo Nomao - Aprendizaje activo en el mundo real},
booktitle = {Actas de la ALRA: Aprendizaje Activo en Real- Aplicaciones mundo, Taller ECML-PKDD
2012, Viernes, 28 de septiembre 2012, Bristol, Reino Unido},
ao = 2012,
pages = {a aparecer}
}
Cita de pedidos:
Gracias a Nomao laboratorios para la apertura de sus datos: [Web Link]
Northix Data Set
Resumen : Northix est diseado para ser un problema de esquema de referencia correspondiente
para la integracin de datos de dos bases de datos entidad-relacin.

Conjunto de datos Multivariante, Nmero de


115 rea: Ordenador
Caractersticas: univariado, Texto instancias:

Caractersticas del Nmero de Fecha 2012-08-


Entero, real 200
atributo: atributos: Donado 15

Nmero de
Valores N/
Tareas asociadas: Clasificacin Web 9707
perdidos? A
Accesos:

Fuente:
Farid Bourennani de la Universidad de Ontario Institute of Technology, farid.bourennani '@' uoit.ca

Datos Conjunto de Informacin:


Northix est diseado para ser un problema de esquema de referencia correspondiente para la
integracin de datos de dos bases de datos de relacin de entidad. Northix es la coincidencia de
esquema resultante de dos bases de datos de demostracin a saber Northwind y Sakila. Se han
suprimido algunas entidades de base de datos innecesarios (columnas) como multimedia. Se desea
tener al menos alrededor de 200 tuplas por entidad de base de datos; Por lo tanto, las tuplas se
inyectaron al azar, respetando el patrn existente, si el nmero de tuplas fue baja. La coincidencia de
esquema se realiz manualmente. Las entidades ideales coincidentes se agrupan en clases. En
total, hay 115 entidades de base de datos de entrada almacenados respectivamente '. Dat' de la
primera base de datos y como ". Txt" si desde la segunda base de datos. El patrn de nomenclatura
de archivos es attributeName @ ColumnName @ Database. Despus de coincidencia de esquema,
los archivos estn agrupados en 34 clases (carpetas). 33 clases son matchings ideales mientras que
los grupos de la clase 'Unclassed' todos los atributos que son nicos y dona t tienen otro atributo
similar. Los atributos son de diferentes tipos de datos, tales como textos, nmeros enteros, nmeros
reales, fechas y tipos de datos alfanumricos. En total, hay 21.805 fichas. Un smbolo est separado
por espacios y otros caracteres no alfanumricos, como / -, ??. [1]
Microsoft. Northwind. [En lnea] 2005. [Citado:. 06 28, 2009] [Web Link] . [2] MySQL. Sakila. [En
lnea] 2005. [Citado:. 06 28, 2009] [Web Link] .
Atributo de la informacin:
En total, hay 115 entidades de base de datos de entrada almacenados respectivamente '. Dat' de la
primera base de datos y como ". Txt" si desde la segunda base de datos. El patrn de nomenclatura
de archivos es attributeName @ ColumnName @ Database. Despus de coincidencia de esquema,
los archivos estn agrupados en 34 clases (carpetas). 33 clases son matchings ideales mientras que
los grupos de la clase 'Unclassed' todos los atributos que son nicos y dona t tienen otro atributo
similar.

Documentos pertinentes:
Proporcionar referencias a los documentos que han citado este conjunto de datos en el pasado (si
los hay).

Cita de pedidos:
Si usted no tiene ninguna peticin de citas especiales, por favor, deje este campo en blanco.
Premio de Investigacin NSF Abstracts 1990-
2003 Conjunto de Datos
Resumen : Este conjunto de datos se compone de (a) 129 000 resmenes que describen premios
NSF para la investigacin bsica, (b) los archivos de datos de bolsa de palabras extradas de los
resmenes, (c) una lista de palabras que se usan para la indexacin de la palabra bolsa-de-

Conjunto de datos Nmero de


Texto 129000 rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de 2003-


N/A N/A Fecha Donado
atributo: atributos: 11-18

Valores Nmero de Web


Tareas asociadas: N/A N/A 17210
perdidos? Accesos:

Fuente:
Propietario y donante original Abstracts proporcionadas por: Michael J. Pazzani Departamento ICS,
Facultad de Ciencias de la Computacin, UCI, Irvine CA, 92697,
EE.UU. Pazzani '@' ics.uci.edu Bolsa-de-palabra de datos proporcionadas por: Amnn
Meyers Departamento ICS , Facultad de Ciencias de la Computacin, UCI, Irvine CA, 92697,
USA ameyers '@' ics.uci.edu

Datos Conjunto de Informacin:


Los resmenes, uno por cada archivo, obtuvieron de la NSF (National Science Foundation). Un
resumen de la muestra se presenta en la siguiente seccin. Los datos de la bolsa-de-palabra fue
producido por el procesamiento automtico de los resmenes con un analizador de texto llamado
NSFAbst, construido utilizando VisualText. Aunque la mayora de los campos de la salida son muy
precisos, los autores no fueron extrados del Investigador: campo con 100% de precisin, debido a la
gran variabilidad en la materia. La lista de palabras vino de un proceso separado, y pueden no incluir
todas las palabras de inters en los resmenes.

Atributo de la informacin:
N/A

Documentos pertinentes:
N/A

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Nursery Data Set
Resumen : Base de datos Nursery se deriva de un modelo de decisin jerrquica desarrollada
originalmente para clasificar las solicitudes de las escuelas de prvulos.

Conjunto de datos Nmero de


Multivariante 12960 rea: Social
Caractersticas: instancias:

Caractersticas del Nmero de 1997-


Categrico 8 Fecha Donado
atributo: atributos: 06-01

Valores Nmero de
Tareas asociadas: Clasificacin No 57743
perdidos? Web Accesos:

Fuente:
Creador: Vladislav Rajkovic et al. (13 expertos) Donantes: Marko Bohanec
( marko.bohanec '@' ijs.si ) Blaz Zupan ( blaz.zupan '@' ijs.si )

Datos Conjunto de Informacin:


Base de datos Nursery se deriva de un modelo de decisin jerrquica desarrollada originalmente
para clasificar las solicitudes de las escuelas de prvulos. Fue utilizado durante varios aos en la
dcada de 1980 cuando se produjo la inscripcin excesiva a estas escuelas en Ljubljana, Eslovenia,
y las solicitudes rechazadas con frecuencia necesita una explicacin objetiva. La decisin final
depende de tres subproblemas: ocupacin de los padres y la guardera del nio, la estructura familiar
y la situacin financiera, y la imagen social y la salud de la familia. El modelo fue desarrollado dentro
de sistema experto para la toma de decisin de DEX. (M. Bohanec, V. Rajkovic:.. Sistema experto
para la toma de decisiones Sistemica 1 (1), pp 145-157, 1990) El modelo jerrquico se ubica la
guardera aplicaciones de acuerdo a la siguiente estructura concepto: NURSERY Evaluacin de las
solicitudes para las guarderas . EMPLEO El empleo de los padres y la guardera del
nio . . Ocupacin de los padres de los padres . . guardera de has_nurs Nio. Estructura
STRUCT_FINAN Familia y posiciones financieras . . Estructura de la estructura familiar . . . formar
formulario de la familia . . . nios Nmero de nios . . Las condiciones de alojamiento de
viviendas . .financiar situacin financiera de la familia . SOC_HEALTH Social y la imagen de la salud
de la familia . . condiciones sociales Sociales . . Las condiciones de salud Salud atributos de entrada
se imprimen en minsculas. Adems del concepto de destino (VIVERO) el modelo incluye cuatro
conceptos intermedios: contratar, STRUCT_FINAN, ESTRUCTURA, SOC_HEALTH. Cada concepto
est en el modelo original relacionado con sus descendientes nivel inferior por un conjunto de
ejemplos (para estos ejemplos conjuntos ver [Web Link] ). La base de datos Nursery contiene
ejemplos con la informacin estructural eliminado, es decir, se refiere directamente a la entrada
VIVERO ocho atributos:. padres, has_nurs, la forma, los nios, la vivienda, las finanzas, la social, la
salud Debido a la estructura conocida concepto subyacente, esta base de datos puede ser
particularmente til para probar la induccin constructiva y mtodos de descubrimiento de la
estructura.

Atributo de la informacin:
padres: habituales, pretenciosos, great_pret
has_nurs:, less_proper,,, impropio adecuada crtico very_crit
forma: completos, terminados, incompletos, crianza
hijos: 1, 2, 3, ms
vivienda: conveniente, less_conv, crtica
financiamento: conveniente, inconv
sociales: no prob, slightly_prob, problemtica
de la salud: recomendado, prioridad, not_recom
Documentos pertinentes:
M. Olave, V. Rajkovic, M. Bohanec: Una aplicacin para la admisin en los sistemas de escuelas
pblicas. En (I. Th. M. Snellen y WBHJ van de Donk y J.-P. Baquiast, editores) Sistemas Expertos en
Administracin Pblica, pginas 145-160. Elsevier Science Publishers (Holanda del Norte), de
1989. [Web Link] B. Zupan, M. Bohanec, I. Bratko, J. Demsar: Aprendizaje automtico con la funcin
de descomposicin. ICML-97, Nashville, TN. 1997 [Web Link]

NYSK Data Set


Resumen : NYSK (Nueva York contra Strauss-Kahn) es una coleccin de artculos de noticias en
ingls sobre el caso en relacin con las acusaciones de asalto sexual contra el ex director del FMI,
Dominique Strauss-Kahn (mayo de 2011).

Multivariante,
Conjunto de datos Nmero de
Secuencial, 10421 rea: Social
Caractersticas: instancias:
Texto

Caractersticas del Nmero de Fecha


N/A 7 11/10/2013
atributo: atributos: Donado

Nmero de
Valores
Tareas asociadas: Clustering N/A Web 5951
perdidos?
Accesos:

Fuente:
- Aura lien Lauf ( alu '@' amisw.com )
- Leila Khouas ( lkh '@' amisw.com )
- Mohamed Dermouche ( mde '@' amisw.com )

Datos Conjunto de Informacin:


Documentos se obtienen en primer lugar a travs de una bsqueda en Internet usando AMIEI: una
plataforma integrada para la entrega de la inteligencia empresarial, desarrollado por AMI Software
( [Web Link] ) con la siguiente consulta: `` dsk'' o `` Strauss-Kahn'' o `` strauss-khan''. NYSK conjunto
de datos se utiliz para extraer correlacin tema-sentimiento y la evolucin en el tiempo, pero puede
ser utilizado para otras tareas de minera de texto, como la extraccin de tema, anlisis de los
sentimientos, etc

Atributo de la informacin:
Los documentos se filtran y se presentan en formato XML. Todos los campos XML se explica por s
mismo.

Documentos pertinentes:
N/A

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Especies de plantas De cien hojas Conjunto
de datos Conjunto de datos
Resumen : Diecisis muestras de hojas, cada una de las especies de plantas uno a cien. Para
cada muestra, un descriptor de forma, el margen de escala fina y textura histograma se dan.

Conjunto de datos Nmero de


N/A 1600 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de 2012-


Real 64 Fecha Donado
atributo: atributos: 12-03

Valores Nmero de
Tareas asociadas: Clasificacin N/A 14084
perdidos? Web Accesos:

Fuente:
James Cope, Thibaut Beghin, Paolo Remagnino, Sarah Barman.
Las imgenes en color no estn incluidos en esta presentacin.
Las hojas se recogen en el Real Jardn Botnico de Kew, Reino Unido.
email: james.cope '@' kingston.ac.uk

Este conjunto de datos consiste en un trabajo llevado a cabo por James Cope, Charles Mallah, y
James Orwell. . Kingston University London
Donantes de base de datos Charles Mallah: charles.mallah '@' kingston.ac.uk ; James
Cope: james.cope '@' kingston.ac.uk

Datos Conjunto de Informacin:


Para cada funcin, un elemento del vector 64 se da por muestra de hoja. Estos vectores son
tomados como una descriptores contiguas (por la forma) o histogramas (para la textura y el
margen).

Atributo de la informacin:
Para cada funcin, un elemento del vector 64 se da por muestra de hoja. Un archivo para cada uno
de 64 elementos de vectores de caractersticas. Cada fila comienza con la etiqueta de clase. Los
64 elementos restantes es el vector de caractersticas.

Documentos pertinentes:
Este es un nuevo conjunto de datos, el papel provisional: La clasificacin Hoja Planta
Utilizando Probabilstico Integracin de forma, textura y caractersticas de margen "en SPPRA
2013. Autores: Carlos. Mallah, James Cope, y James Orwell o Kingston University London partes
anteriores de la serie de datos relacionados con la extraccin de caractersticas de las hojas
de: J. Cope, P. Remagnino, S. Barman, y P. Wilkin.Plant clasificacin textura usando
cooccurrences gabor. Los avances en computacin visual, pginas 669A "677, 2010. T. Beghin,
J. Cope, P. Remagnino y. S. Barman clasificacin hoja de la planta de forma y textura a
base. En Conceptos avanzados de Sistemas de Visin Inteligente, pginas 345a "353. Springer,
2010.

Cita de pedidos:
Charles Mallah, James Cope, James Orwell. Planta de Clasificacin de la hoja Usando
Probabilstico Integracin de la forma, la textura y el margen de Caractersticas. Procesamiento de
Seales, Reconocimiento de Patrones y Aplicaciones, en prensa. 2013.
Opinosis opinin / revisin del conjunto de
datos
Resumen : Este conjunto de datos contiene frases extradas de opiniones sobre un tema
determinado. Temas de ejemplo se performance de Toyota Camry ? y calidad
sound de ipod Nanoa ?.

Conjunto de datos Nmero de


Texto 51 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de N/ 2010-07-


N/A Fecha Donado
atributo: atributos: A 06

Valores N/ Nmero de Web


Tareas asociadas: N/A 18012
perdidos? A Accesos:

Fuente:
Kavita Ganesan kganes2 '@' illinois.edu http://kavita-ganesan.com/opinosis-opinion-dataset

Datos Conjunto de Informacin:


Este conjunto de datos contiene frases extradas de opiniones sobre un tema determinado. Temas
de ejemplo se performance de Toyota Camry ? y sound calidad de ipod Nanoa ?,
etc En total hay 51 de esos temas con cada tema que tiene aproximadamente 100 frases (como
promedio). Los comentarios fueron obtenidos de diversas fuentes - Tripadvisor (hoteles),
Edmunds.com (coches) y Amazon.com (varios productos electrnicos). El archivo de base de datos
tambin incluye resmenes del patrn oro utilizado por el documento de resumen Opinosis (ver
documentos pertinentes).

Atributo de la informacin:
N/A

Documentos pertinentes:
Kavita Ganesan, Chengxiang Zhai, Jiawei Han. Opinosis: Un Enfoque Basado Grfico de
Abstractive Recapitulacin de Opiniones altamente redundantes. En las actas de la 23
Conferencia Internacional de Lingstica Computacional (Coling 2010). Beijing, China.

Cita de pedidos:
Kavita Ganesan, Chengxiang Zhai, Jiawei Han. Opinosis: Un Enfoque Basado Grfico de

Abstractive Recapitulacin de Opiniones altamente redundantes. En las actas de la 23


Conferencia Internacional de Lingstica Computacional (Coling 2010). Beijing, China.
OpinRank revisin de conjunto de datos
Conjunto de datos
Resumen : Este conjunto de datos contiene opiniones de usuarios de automviles y hoteles y
recogidas de Tripadvisor (~ 259 000 opiniones) y Edmunds (~ 42.230 comentarios).

Conjunto de datos Nmero de N/


Texto rea: Ordenador
Caractersticas: instancias: A

Caractersticas del Nmero de N/ 2011-07-


N/A Fecha Donado
atributo: atributos: A 26

Valores N/ Nmero de Web


Tareas asociadas: N/A 16200
perdidos? A Accesos:

Fuente:
Kavita Ganesan y Chengxiang Zhai
Universidad de Illinois en Urbana Champaign @ http://www.kavita-ganesan.com/entity-ranking-data

Datos Conjunto de Informacin:


Revision de Autos
------------
crticas-lleno de coches de modelo-ao 2007, 2008 y 2009
-Hay alrededor de 140 a 250 coches por cada ao modelo
campos extrados incluyen fechas, nombres de autores, los favoritos y lo textual completa revisin
-Nmero total de comentarios: ~ 42230 del hotel Opiniones -------------- crticas-completa de hoteles
de 10 ciudades diferentes (Dubai, Beijing, Londres, Ciudad de Nueva York, Nueva Delhi, San
Francisco, Shanghai, Montreal, Las Vegas, Chicago) -Hay alrededor de 80 a 700 hoteles en cada
ciudad los campos extrados incluyen fecha, ttulo revisin y la revisin completa nmero total de
opiniones: ~ 259.000

Atributo de la informacin:
N/A

Documentos pertinentes:
'Clasificacin Opinin basada entidad Ganesan, KA, y CX Zhai,, Recuperacin de Informacin,
2011.

Cita de pedidos:
Bibtex de la siguiente manera: @ article {opinrank, title = {Clasificacin Opinin basada
Entidad}, journal = {} Recuperacin de Informacin, ao = {2011}, keywords = {adhoc bsqueda
polifactica, orientada entidad de bsqueda, clasificacin entidad, la recuperacin de la entidad,
producto bsqueda}, doi = {} 10.1007/s10791-011-9174-8, attachments = { [Web Link] }, author =
{Kavita Ganesan y Chengxiang Zhai} }

OPORTUNIDAD Actividad Reconocimiento


Data Set
Resumen : El OPORTUNIDAD Dataset de Reconocimiento actividad humana desde usable, de
objetos, y Ambient Sensor es un conjunto de datos ideado para algoritmos de reconocimiento de la
actividad humana de referencia (clasificacin, segmentacin automtica de datos, fusin de
sensores, extraccin de caractersticas, etc.)

Conjunto de datos Multivariado, Nmero de


2551 rea: Ordenador
Caractersticas: Time-Series instancias:

Caractersticas del Nmero de Fecha 2012-06-


Real 242
atributo: atributos: Donado 09

Nmero de
Valores
Tareas asociadas: Clasificacin S Web 16019
perdidos?
Accesos:

Fuente:
Daniel Roggen, usable Computing Laboratory ETH Zurich, droggen '@' gmail.com
Alberto Calatroni, usable Computing Laboratory ETH Zurich, calatroni.alberto '@' gmail.com
largo Van Nguyen Dinh-, usable Computing Laboratory ETH Zurich
Ricardo Chavarriaga, Presidente en interfaz cerebro-mquina no invasiva,
EPFL, ricardo.chavarriaga '@' epfl.ch
Hesam Sagha, Ctedra de Non-Invasive Brain-Machine Interface, EPFL, hesam.sagha '@' epfl.ch
Sundara Tejaswi Digumarti, Presidente en No Invasiva interfaz cerebro-mquina, EPFL

Datos Conjunto de Informacin:


La oportunidad para el reconocimiento conjunto de datos de actividad humana desde usable, de
objetos, y Ambient Sensor es un conjunto de datos ideado para algoritmos de reconocimiento de la
actividad humana de referencia (clasificacin, segmentacin automtica de datos, fusin de sensores,
extraccin de caractersticas, etc.) Un subconjunto de este conjunto de datos se utiliz para la .
"OPORTUNIDAD Actividad Reconocimiento Challenge" organizado por el IEEE 2011 conf en
Sistemas, Hombre y Ciberntica Taller sobre "tcnicas de aprendizaje automtico robustos para el
reconocimiento actividad humana" El conjunto de datos consta de las lecturas de los sensores de
movimiento grabadas mientras los usuarios ejecutan actividades diarias tpicas: * Cuerpo- sensores de
desgaste: 7 unidades inerciales de medicin, 12 sensores de aceleracin 3D, informacin de
localizacin 3D 4 * Sensores de objeto: 12 objetos con aceleracin 3D y 2D de velocidad de giro *
sensores ambientales: 13 interruptores y sensores de aceleracin 3D 8 * Grabaciones: 4 usuarios, 6
carreras por los usuarios. De estos, 5 son de Actividad diaria carreras vivos caracterizados por una
ejecucin natural de las actividades diarias. La sexta carrera es una carrera "taladro", donde los
usuarios ejecutan una secuencia con guin de actividades. * Anotaciones / clases: las actividades del
usuario en el escenario estn anotados en diferentes niveles: "modos de locomocin" clases;acciones
de bajo nivel relacionadas 13 acciones a 23 objetos; 17 clases de gestos de nivel medio; y 5 clases de
actividad de alto nivel ** escenario de grabacin ** El entorno reconocimiento actividad y el escenario
ha sido diseado para generar muchas primitivas de actividad, sin embargo, de una manera
realista. Los sujetos operados en una habitacin que simula un estudio plana con una tumbona, una
cocina, puertas que dan acceso a la parte exterior, una mquina de caf, una mesa y una
silla. Logramos una ejecucin naturales de las actividades, instruyendo a los usuarios a seguir una
secuencia de comandos de alto nivel pero lo que les deja libre interpretacin como la forma de lograr
los objetivos de alto nivel. Tenemos, adems, les ha animado a realizar lo ms natural posible, con
todas las variaciones que estaban acostumbrados. Para cada tema que grabamos 6 pruebas
diferentes. Cinco de ellos, la actividad denominada de la vida diaria (AVD), seguido de un escenario
determinado, como se detalla a continuacin. El restante, una carrera de perforacin, fue diseado
para generar un gran nmero de instancias de actividad. El plazo ADL consiste en situaciones
temporalmente se desarrollan. En cada situacin (por ejemplo, la preparacin de sndwich), un gran
nmero de primitivas de accin producen (por ejemplo, llegar a por el pan, ir al cortador de pan, opere
el cortador de pan). * run ADL * ADL La carrera consta de las situaciones que se desarrollan
temporalmente: Inicio: tumbado en el tumbona, levntese novio: se mueven en la sala, compruebe que
todos los objetos que estn en los lugares correctos en los cajones y en los estantes Relax: salir a la
calle y dar un paseo alrededor del edificio Preparar caf: preparar un caf con leche y azcar
utilizando el mquina de caf bebida caf: tomar sorbitos del caf, moverse en el entorno Preparar
sndwich: incluir pan, queso y salami, usando la cortadora de pan y varios cuchillos y placas Comer
sndwich Limpieza: poner objetos utilizados para su lugar original o lavavajillas, la limpieza de la
mesa Romper: tumbarse en la hamaca * run Drill * El plazo de perforacin consta de 20 repeticiones
de la siguiente secuencia de actividades: Abrir y cerrar la nevera Abrir y cerrar el lavavajillas abierto a
continuacin, cierre 3 cajones (a diferentes alturas) Abrir y cerrar la puerta 1 Abrir a continuacin,
cierre la puerta 2 Alternar las luces encendidas y luego se apaga Limpie la mesa mientras est de pie
Drink Drink mientras est sentado Anotaciones ** ** Las anotaciones se realizan en cinco 'tracks
'. Una pista contiene modos de locomocin (por ejemplo, sentados, de pie, caminar). Otros dos pistas
indican las acciones de la izquierda y de la derecha (por ejemplo, alcanzar, agarrar, soltar), y al que se
oponen se aplican (por ejemplo, leche, switch, puerta). El cuarto tema indica las actividades de alto
nivel (por ejemplo, preparar sndwich). Las actividades de alto nivel se refieren a las situaciones que
se indican en la descripcin de la ADL es la siguiente (en parntesis el nmero de las situaciones
indicadas ms arriba): descanso (1, 9), por la maana temprano (2, 3), la hora del caf (4, 5), el tiempo
de bocadillo (6, 7), la limpieza (8). Las anotaciones gesto de nivel medio se genera automticamente a
partir de las acciones de la mano de bajo nivel. Comprende ms gruesa caracterizacin de las
actividades del usuario. Por ejemplo, las anotaciones de bajo nivel 'puerta de acceso' y 'puertas
abiertas' se combinan en una sola anotacin de nivel medio de "puertas abiertas". Aqu, las
anotaciones de nivel medio comprenden acciones de la mano izquierda y derecha de forma
indiscriminada. Sin embargo, en la prctica, los usuarios interactan principalmente con el medio
ambiente con la mano derecha. Se recomienda utilizar las anotaciones de nivel medio en los primeros
intentos de utilizar este conjunto de datos. ** Aplicaciones ** Este conjunto de datos ofrece una zona
de juegos rica para evaluar mtodos como, por ejemplo: * La clasificacin, (semi-) supervis la
mquina de aprendizaje de segmentacin * Automatic * Sin Supervisin estructura descubrimiento *
imputacin de datos * fusin de sensores multi-modal * la investigacin de redes de sensores *
Transferencia de aprendizaje, el aprendizaje multitarea * Seleccin Sensor * Extraccin de
caractersticas * Clasificador calibracin y adaptacin * ... ** puntos de referencia de lnea de base
**puntos de referencia de lnea de base para el reconocimiento de actividades OPORTUNIDAD
Desafo subconjunto del conjunto de datos estn disponibles en la referencia [2]. Scripts para replicar
los puntos de referencia se proporcionan en el paquete.

Atributo de la informacin:El conjunto de datos consta de las lecturas de los sensores de


movimiento grabadas mientras los usuarios ejecutan actividades diarias tpicas. El formato detallado
se describe en el paquete. Los atributos corresponden a las lecturas del sensor primas. . Hay un total
de 242 atributos * sensores de uso en el cuerpo (145 atributos) * Los sensores de uso en el cuerpo se
compone de 7 unidades de medicin inercial y 12 sensores de aceleracin 3D. Las unidades de
medicin inercial proporcionan lecturas de: aceleracin 3D, 3D tasa de turno, campo magntico 3D, y
la orientacin del sensor con respecto a un sistema de coordenadas mundo en cuaterniones. Cinco
sensores estn en la parte superior del cuerpo y dos estn montados en los zapatos del usuario. Los
sensores de aceleracin proporcionan aceleracin 3D. Se montan en la parte superior del cuerpo, la
cadera y la pierna. Cuatro etiquetas para un sistema de localizacin de banda ultra ancha se sitan en
el lado izquierdo / derecho frontal / posterior del hombro. * sensores de objeto (60 atributos) * 12
objetos estn instrumentadas con la tecnologa inalmbrica sensores que miden la aceleracin 3D y
2D tasa del turno. Esto permite detectar qu se usan los objetos, y posiblemente tambin el tipo de
uso que se hace de ellos. * sensores ambientales (37 atributos) * sensores ambientales incluyen 13
interruptores y 8 3D sensores de aceleracin en los cajones, aparatos de cocina y puertas. La caa
interruptores se colocan en los tros en la nevera, lavavajillas y 2 cajones y cajn 3. Ellos pueden ser
utilizados para detectar tres estados del elemento de mobiliario: cerrado, medio abierta, y
completamente abierta. Los sensores de aceleracin pueden permitir para evaluar si se utiliza un
elemento de mobiliario, y si pueden ser abiertos o cerrados.

Documentos pertinentes:
** En primer partido **
[1] Daniel Roggen, Alberto Calatroni, Mirco Rossi, Thomas Holleczek, Gerhard Trster, Paul Lukowicz,
Gerald Pirkl, David Bannach, Alois Ferscha, Jakob Doppler, Clemens Holzmann, Marc Kurz, Gerald
Holl, Ricardo Chavarriaga , Hesam Sagha, Hamidreza Bayati, y Jos del R. Milln. "Recopilacin de
los conjuntos de datos de actividades complejas en entornos altamente ricos sensores conectados en
red" en la sptima Conferencia Internacional sobre Networked Sensing Systems (INSS'10), Kassel,
Alemania, 6 de 2010.
[2] Hesam Sagha, Sundara Tejaswi Digumarti, Jos del R. Milln, Ricardo Chavarriaga, Alberto
Calatroni, Daniel Roggen, Gerhard Trster. Evaluacin comparativa de las tcnicas de clasificacin
utilizando el Opportunity actividad humana conjunto de datos. Conferencia Internacional IEEE sobre
Sistemas, Hombre y Ciberntica, Anchorage, AK, EE.UU., 9 a 12 octubre, 2011
[3] El video presenta el conjunto de datos: [Web Link]
[4] R. Chavarriaga et al. Creacin Ensemble y reconfiguracin para el reconocimiento de actividad: una
aproximacin terica informacin. IEEE Conf. Sistemas, Hombre y Ciberntica (SMC), 2011
[5] H. Sagha et al. La deteccin de anomalas para mejorar la clasificacin de rendimiento en una red
de sensores oportunista, sptimo IEEE Taller Internacional de Redes y Sistemas de Pervasive
Computing (PerSens), 2.011 sensores.
[6] A. Calatroni et al., la transferencia automtica de capacidades de reconocimiento de actividad entre
desgastado cuerpo sensores de movimiento: El entrenamiento de los recin llegados a reconocer la
locomocin, la 8 Conferencia Internacional sobre Networked Sensing Systems (INSS), 2011
[7] M. Kurz et al. La cuantificacin dinmica de capacidades de reconocimiento de la actividad en los
Sistemas de oportunistas. IV Jornadas de Concientizacin Contexto para Proactive Systems, 2011
[8] H. Sagha et al. Detectar y rectificar anomalas en redes de sensores oportunistas. Conferencia
Internacional sobre Body Sensor Networks (BSN), 2011
[9] R. Chavarriaga et al. Robusto reconocimiento actividad de las tecnologas de asistencia:. Tcnicas
de Benchmarking ML, Taller de Aprendizaje Automtico para las Tecnologas de Apoyo en la 24
Conferencia Anual sobre Sistemas de procesamiento neural (PNA) de 2010
[10] P. Lukowicz et al. Grabacin de un complejo de varios datos, actividad modal establecidos para su
reconocimiento contexto 1er Taller sobre Context-Systems Diseo, Evaluacin y Optimizacin de
ARCS, 2010, 2010
[11] R. Chavarriaga, H. Sagha, A. Calatroni, S. Digumarti, G. Trster, J. del R. Milln, D. Roggen. El
reto Oportunidad: Una base de datos referente para el cuerpo-el reconocimiento de actividad basada
en sensores, Pattern Recognition Letters, 2013
[12] L.-V. Nguyen Dinh-, D. Roggen, A. Calatroni, G. Trster. Mejorar el reconocimiento de gestos en
lnea con mtodos de correspondencia de plantilla en los datos del acelermetro, Proc 12 Int. Conf.
sobre Sistemas Inteligentes de Diseo y Aplicaciones, 2012 ** terceros ** stos son algunos de los
trabajos por parte de terceros que utilizan el conjunto de datos OPORTUNIDAD: [100] T. Pltz, NY
Hammerla, P. Olivier. Aprendizaje de funciones para el reconocimiento de actividades de la
Computacin Ubicua, IJCAI de 2011 [101] A. Manzoor et al., Identificacin Primitives accin importante
para alto nivel de actividad de reconocimiento, Proc. Conferencia Europea de deteccin inteligente y
contexto (EuroSSC), 2010 [102] T. Ploetz, N. Hammerla, A. Rozga, A. Reavis, N. Call, G.
Abowd. Evaluacin automtica de la conducta problemtica en Individuos con Discapacidades del
Desarrollo. Proc. 14a Int. Conf. sobre Computacin Ubicua, 2012. [103] D. Gordon, J. Czerny, M.
Beigl. Actividad Reconocimiento por criaturas de hbito: Clasificacin Embedded Energy-Efficient
utilizando prediccin. Informtica Personal y ubicua, 2013.

Cita de pedidos:
El uso de este conjunto de datos en las publicaciones debe ser reconocido por referencia a la siguiente
publicacin [1] o [2].
Recomendamos consultar esta base de datos como la "OPORTUNIDAD Actividad reconocimiento
conjunto de datos" en las publicaciones.
Tambin agradeceramos que nos caiga un email ( daniel.roggen '@' ieee.org ) para informarnos de
cualquier publicacin que utiliza este conjunto de datos, por lo que podemos apuntar a su publicacin
en nuestra pgina web. Referencia [1] se detalla el conjunto de datos en general, el escenario, la
multimodalidad y aspectos de redes de sensores la configuracin, mtricas de calidad y mejores
prcticas para el registro de los complejos conjuntos de datos de actividades multimodales. Referencia
[2], prev la realizacin de un sistema de reconocimiento de la actividad de referencia en el conjunto
de datos OPORTUNIDAD, que puede ser utilizado como un rendimiento del ndice de referencia. [1]
Daniel Roggen, Alberto Calatroni, Mirco Rossi, Thomas Holleczek, Gerhard Trster, Paul Lukowicz,
Gerald Pirkl , David Bannach, Alois Ferscha, Jakob Doppler, Clemens Holzmann, Marc Kurz, Gerald
Holl, Ricardo Chavarriaga, Hesam Sagha, Hamidreza Bayati, y Jos del R. Milln. "Recopilacin de los
conjuntos de datos de actividades complejas en entornos altamente ricos sensores conectados en red"
en la sptima Conferencia Internacional sobre Networked Sensing Systems (INSS'10), Kassel,
Alemania, 2010. [2] Ricardo Chavarriaga, Hesam Sagha, Alberto Calatroni, Sundaratejaswi Digumarti,
Gerhard Trster , Jos del R. Milln, Daniel Roggen. "El reto Oportunidad: Una base de datos de
referencia para el cuerpo-el reconocimiento de actividad basado en sensores", Reconocimiento de
Patrones Letters, 2013
Reconocimiento ptico de Dgitos
Manuscritos Data Set
Resumen : Hay dos versiones de esta base de datos disponibles; ver carpeta

Conjunto de datos Nmero de


Multivariante 5620 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 1998-07-


Entero 64
atributo: atributos: Donado 01

Nmero de
Valores
Tareas asociadas: Clasificacin No Web 63052
perdidos?
Accesos:

Fuente:
E. Alpaydin, C. Kaynak
Departamento de Ingeniera Informtica
de la Universidad Bogazici, 80815 Estambul Turqua alpaydin '@' boun.edu.tr

Datos Conjunto de Informacin:


Utilizamos programas de preprocesamiento puestos a disposicin por el NIST para extraer mapas
de bits normalizados de dgitos escritos a mano a partir de un formulario preimpreso. De un total de
43 personas, 30 contribuyeron a la formacin y establecer diferentes 13 para el equipo de
prueba. Mapas de bits de 32x32 se dividen en bloques que no se superponen de 4x4 y el nmero
de pixeles en se cuentan en cada bloque.Esto genera una matriz de entrada de 8x8 donde cada
elemento es un nmero entero en el rango de 0 .. 16. Esto reduce la dimensionalidad y da
invariancia a pequeas distorsiones. Para informacin sobre las rutinas de preprocesamiento NIST,
consulte MD Garris, JL Azul, GT Candela, DL Dimmick, J. Geist, PJ Grother, SA Janet, y CL
Wilson, NIST Form-Based Reconocimiento Huella de mano Sistema, NISTIR 5469, 1994.

Atributo de la informacin:
Todos los atributos de entrada son enteros en el rango de 0 .. 16.
El ltimo atributo es el cdigo de la clase 0 .. 9

Documentos pertinentes:
C. Kaynak (1995) Mtodos de Combinacin de varios clasificadores y sus aplicaciones a Digit
Manuscrita reconocimiento, Tesis de maestra, Instituto de Estudios de Posgrado en Ciencias e
Ingeniera de la Universidad Bogazici. [Web Link] E. Alpaydin, C. Kaynak (1998) Los clasificadores
en cascada, Kybernetika. [Web Link] [Web Link]

Othello dominio Teora de Conjuntos de


Datos
Resumen : Se utiliza en la investigacin para generar caractersticas de un sistema de
aprendizaje inductivo

Conjunto de datos Domain- Nmero de N/


rea: Juego
Caractersticas: Theory instancias: A

Caractersticas del Nmero de N/ 1991-


N/A Fecha Donado
atributo: atributos: A 02-01

Valores Nmero de
Tareas asociadas: N/A No 8822
perdidos? Web Accesos:

Fuente:
Tom Fawcett ( Fawcett '@' cs.umass.edu )
MONEDAS Deptartment, LGRC
Universidad de Massachusetts
Amherst, MA 10373

Datos Conjunto de Informacin:


El Cdigo ("othello.theory") est bien documentada.

Atributo de la informacin:
N/A

Documentos pertinentes:
T. y P. Fawcett Utgoff. "Un mtodo hbrido para la funcin de generacin". VIII Taller Internacional
sobre el aprendizaje de la mquina. Northwestern University, Evanston Illinois. 1991. pp 137-
141 [Web Link] T.Fawcett y P. Utgoff. "Generacin de funciones automticas para la resolucin de
problemas de sistemas". Novena Conferencia Internacional sobre Aprendizaje
Automtico. Aberdeen, Escocia. 1992. pp 144-153.[Web Link]

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Deteccin de nivel de ozono de conjunto de
datos
Resumen: Dos conjuntos de datos a nivel de la capa de ozono del suelo se
incluyen en esta coleccin. Uno de ellos es el conjunto mximo ocho horas
(eighthr.data), el otro es el conjunto pico una hora (onehr.data). Esos datos
fueron recogidos desde 1998 hasta 2004 en el Houston, Galveston y
Brazoria rea.

Multivariante,
Conjunto de datos Nmero de
Secuencial, Time- 2536 rea: Fsico
Caractersticas: instancias:
Series

Caractersticas del Nmero de Fecha 2008-


Real 73
atributo: atributos: Donado 04-21

Nmero de
Valores
Tareas asociadas: Clasificacin S Web 50250
perdidos?
Accesos:

Fuente :
Kun Zhang, zhang.kun05 '@' gmail.com , Departamento de Ciencias de la Computacin ,
Universidad Xavier de Louisiana
Wei Fan , wei.fan '@' gmail.com , IBM TJ Watson de Investigacin
Xiaojing Yuan , xyuan '@' uh.edu , Ingeniera Departamento de Tecnologa de la Facultad de
Tecnologa de la Universidad de Houston

Datos Conjunto de Informacin :


Para obtener una lista de atributos , consulte esos dos archivos de nombres . . Ellos usan la
siguiente convencin de nomenclatura:

Todo el atributo empezar con T significa la temperatura medida en funcin del tiempo
durante todo el da , y esas salidas con SW indica la velocidad del viento en diversos tiempo .

WSR_PK : continuo. velocidad del viento peek - resultante ( es decir, la media de vector de
viento )

WSR_AV : continuo. Velocidad media del viento

T_PK : continuo. Pico T


T_AV : continuo. media T
T85 : continuo. T a 850 hPa (o alrededor de 1500 m de altura )
RH85 : continuo. Humedad relativa del aire a 850 hPa
U85 : continuo. (U viento - de este a oeste direccin del viento a 850 hpa )
V85 : continuo. V viento - N- S direccin del viento a 850
HT85 : continuo. Altura geopotencial a 850 hPa , es casi lo mismo que la altura a baja altura
T70 : continuo. T en 700 hPa (aproximadamente 3.100 m de altura )
RH70 : continuo.
U70 : continuo.
V70 : continuo.
HT70 : continuo.

T50 : continuo. T el nivel de 500 hPa (aproximadamente a 5500 m de altura )

RH50 : continuo.
U50 : continuo.
V50 : continuo.
HT50 : continuo.

KI : continuo. K- Index [Web Link]


TT : continuo. T -Totales [Web Link]
SLP : continuo. Presin a nivel del mar
SLP_ : continuo. SLP cambio del da anterior

Precp : continuo. Precipitacin

Atributo de la informacin:
Las siguientes son las especificaciones para varios atributos ms importantes que son
altamente valorados por la Comisin de Calidad Ambiental de Texas ( TCEQ) . Ms detalles
se pueden encontrar en los dos documentos pertinentes .

O 3 - prediccin pico de ozono Local


Contra el viento - Upwind nivel de fondo de ozono
Factor de emisiones de precursores relacionados - EmFactor
Tmx - Temperatura mxima en F
Tb - Temperatura base donde comienza la produccin neta de ozono ( 50 F)
SRd - total de radiacin solar para el da
WSA - velocidad del viento cerca de la salida del sol (con 09-12 Modo pronstico UTC)
PSA - velocidad del viento medio da (con 15 a 21 modo de previsin UTC)

Por favor, consulte los dos archivos de nombres . .

Documentos pertinentes:
Pronosticar da ozono estocsticos sesgados asimtricos : anlisis , soluciones y ms all , el
Conocimiento y Sistemas de la Informacin, vol. 14 , No. 3, 2008 .
Discute los detalles sobre el conjunto de datos , su uso , as como diversos experimentos
(tanto de validacin cruzada y streaming ) utilizando muchos mtodos del estado de la
tcnica .
Una versin ms corta del papel ( no contiene algunos experimentos detallados como el papel
de diario arriba) se encuentra en :
Pronosticar sesgadas das ozono sesgada estocsticos : Anlisis y Soluciones . ICDM 2006 :
753-764

Cita de pedidos:
Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine.
p53 mutantes Conjunto de datos
Resumen: El objetivo es modelar la actividad transcripcional de p53 mutante
(activo vs inactivo) basado en datos obtenidos de las simulaciones biofsicas.

Conjunto de datos Nmero de


Multivariante 16772 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2010-


Real 5409
atributo: atributos: Donado 02-09

Nmero de
Valores
Tareas asociadas: Clasificacin S Web 33034
perdidos?
Accesos:

Fuente :
Richard H. Lathrop , UC Irvine, http://www.ics.uci.edu/ ~ Rickl

Datos Conjunto de Informacin :


Modelos biofsicos de protenas p53 mutantes producen caractersticas que se pueden utilizar
para predecir la actividad transcripcional de p53 . Todas las etiquetas de clase se determinan
mediante ensayos in vivo .

K8.data - completo conjunto de datos, ' K8 '

Los archivos siguientes se proporcionan con el fin de reconstruir este subconjuntos histricos
de este conjunto de datos:
K8.instance.tags - proporciona la p53 mutante etiqueta precisa para cada caso en el K8.data ,
para su uso con los archivos histricos de definicin :
K1.def - define los casos en conjunto el " K1 " .
K2.def - define los casos en conjunto el " K2 " .
K3.def - define los casos en el conjunto de la ' K3 ' .
K4.def - define los casos en el conjunto de la " K4 " .
K5.def - define los casos en el conjunto de la ' K5 ' .
K6.def - define los casos en el conjunto de la ' K6 ' .
K7.def - define los casos en el conjunto de la ' K7 ' .
K8.def - define las instancias en el ' K8 ' set ( completo).

Atributo de la informacin:
Hay un total de 5.409 atributos por ejemplo .
Atributos 1-4.826 representan caractersticas basadas electrostticas y de superficie 2D.
Atributos 4827-5408 representan caractersticas basadas distancia 3D.
Atributo 5409 es el atributo de la clase , que puede ser activo o inactivo.
Las etiquetas de clase se han de interpretar de la siguiente manera : "activo" representa , p53
activa transcriptonally competente, mientras que la etiqueta de "inactivo" representa
canceroso , p53 inactiva. Etiquetas de clase se determinan experimentalmente.

Se proporciona ms informacin en los documentos pertinentes citadas .


Documentos pertinentes:
Danziger , SA , Baronio , R., Ho , L. Hall, L., Salmon, K., Hatfield , GW , Kaiser , P., y
Lathrop , RH ( 2009 ) Predecir Regiones Rescate cncer p53 positivos utilizando ms
informativa Positivo ( MIP ) Aprendizaje Activo , PLOS Computational Biology , 5 ( 9 ) ,
e1000498

Danziger , SA , Zeng , J. , Wang , Y. , Brachmann , RK y Lathrop , RH ( 2007 ) La eleccin


de dnde buscar siguiente en una secuencia espacio mutacin : Aprendizaje Activo de p53
mutantes de rescate de cncer informativos , Bioinformtica, 23 ( 13 ) , 104-114 .

Danziger , SA , Swamidass , SJ, Zeng , J., Escasez , LR, Lu, P. , Chen, JH, Cheng , J., Hoang
, VP , Saigo , H., Luo , R., Baldi , P., Brachmann , RK y Lathrop , RH ( 2006 ) del censo
funcional de la mutacin espacios de secuencia : el ejemplo de p53 mutantes de rescate
cncer, IEEE / ACM Operaciones en biologa computacional y bioinformtica / IEEE , ACM
, 3, 114-125 .

Cita de pedidos:
Si utiliza este conjunto de datos, por favor, cite los documentos pertinentes anteriormente.
Gracias.
Bloques La clasificacin de conjunto de datos
Resumen: El problema consiste en clasificar todos los bloques del diseo de pgina de un
documento que ha sido detectado por un proceso de segmentacin.

Conjunto de datos Nmero de


Multivariante 5473 rea: Computacion
Caractersticas: instancias:

Caractersticas del Nmero de Fecha


Entero, Real 10 1995-07-01
atributo: atributos: Donado

Nmero de
Valores
Tareas asociadas: Clasificacin No Web 32600
perdidos?
Accesos:

Fuente :
Propietario original:

Donato Malerba
Dipartimento di Informatica
Universidad de Bari
a travs de Orabona 4
70126 Bari - Italia
telfono +39 - 80-5.443.269
Fax: +39 - 80-5.443.196
malerbad '@' vm.csata.it

Donante:

Donato Malerba

Datos Conjunto de Informacin :


Los 5.473 ejemplos provienen de 54 documentos distintos. Cada observacin se refiere a una
cuadra . Todos los atributos son numricos . Los datos estn en un formato legible por C4.5 .

Atributo de la informacin:
altura : entero. | Altura de la cuadra.
Longitud : entero. | Duracin de la manzana.
rea : entero. | Zona del bloque (altura * tamao) ;
ECCEN : continuo. | Excentricidad del bloque (tamao / altura );
p_black : continuo. | Porcentaje de pxeles negros dentro del bloque ( blackpix / rea) ;
p_and : continuo. | Porcentaje de pxeles negros despus de la aplicacin de la longitud de los
tramos el Algoritmo ( RLSA ) ( blackand / rea) ;
mean_tr : continuo. | El nmero medio de transiciones negro- blanco ( blackpix / wb_trans );
blackpix : entero. | Nmero total de pxeles negros en el mapa de bits original del bloque .
blackand : entero. | Nmero total de pxeles negros en el mapa de bits del bloque despus de
la RLSA .
wb_trans : enteros . | Nmero de transiciones negro- blanco en el mapa de bits original del
bloque .
Documentos pertinentes:
Malerba , D., Esposito , F., y Semeraro , G. " Un adicional Comparacin de los mtodos de
simplificacin para la Toma de rbol de induccin ". En D. Fisher y H. Lenz ( Eds. ) , "
Aprender de los datos: la Inteligencia Artificial y Estadstica V " , Lecture Notes in Statistics,
Springer Verlag, Berlin , 1995 .
[Web Link]

Esposito F. , Malerba D., y Semeraro G. Multiestrategia Aprendizaje para el reconocimiento


de documentos. Inteligencia Artificial Aplicada , 8 , pp 33-84 , 1994
[Web Link]

Documentos que citan el Set1 datos:


Steven Eschrich y Nitesh V. Chawla y Lawrence O. Hall. Mtodos de generalizacin en
Bioinformtica . BIOKDD . 2002 . [Ver Contexto ] .

C. Tito Brown y Harry W. Bullen y Sean P. Kelly y Robert K. Xiao y Steven G. Satterfield y
John G. Hagedorn y Judith E. Devaney . Visualizacin y Minera de Datos en un inmersivo
entorno 3D : Proyecto de Verano de 2003. [Ver Contexto ] .

Adil M. Bagirov y Julien Ugon . Un algoritmo para el clculo de la funcin lineal por tramos
que separa dos conjuntos . CIAO , Escuela de Informtica y Ciencias Matemticas de la
Universidad de Ballarat . [Ver Contexto ] .

Cita de pedidos:
Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine.
PAMAP2 Actividad Fsica Monitoreo Conjunto
de datos
Resumen: El PAMAP2 Actividad Fsica Monitoreo conjunto de datos contiene datos de 18
actividades fsicas diferentes, realizadas por 9 sujetos que llevan 3 unidades de medicin
inercial y un monitor de frecuencia cardaca.

Conjunto de
Multivariado, Nmero de
datos 3850505 rea: Ordenador
Time-Series instancias:
Caractersticas:

Caractersticas Nmero de 2012-08-


Real 52 Fecha Donado
del atributo: atributos: 06

Valores Nmero de
Tareas asociadas: Clasificacin S 14821
perdidos? Web Accesos:

Fuente :
Attila Reiss, Departamento Aumentada Vision, DFKI , Alemania, attila.reiss '@' dfki.de
Fecha: agosto de 2012.

Datos Conjunto de Informacin :


El PAMAP2 Actividad Fsica Monitoreo conjunto de datos contiene datos de 18 actividades
fsicas diferentes ( tales como caminar , montar en bicicleta , jugar al ftbol , etc ) ,
interpretadas por 9 sujetos que llevan 3 unidades de medicin inercial y un monitor de
frecuencia cardaca. El conjunto de datos se puede utilizar para el reconocimiento de la
actividad y la estimacin de la intensidad , mientras que el desarrollo y la aplicacin de
algoritmos de procesamiento de datos , la segmentacin , extraccin de caractersticas y
clasificacin .

Sensores ** **
3 unidades Colibri inalmbricas Medicin Inercial (IMU ):
- Frecuencia de muestreo : 100 Hz
- Posicin de los sensores :
- 1 IMU sobre la mueca en el brazo dominante
- 1 IMU en el pecho
- 1 IMU en el tobillo del lado dominante
HR- Monitor :
- Frecuencia de muestreo : ~ 9 Hz

** Protocolo de recogida de datos **


Cada uno de los sujetos tenan que seguir un protocolo , que contiene 12 actividades
diferentes . La carpeta Protocol ? contiene estas grabaciones por temas.
Por otra parte, algunos de los sujetos tambin realizaron algunas actividades opcionales. La
carpeta Optional ? contiene estas grabaciones por temas.

Los archivos de datos ** **


Datos sensoriales primas se encuentran en archivos de texto separados por un espacio ( . Dat)
, 1 archivo de datos por sujeto por sesin ( protocolo u opcional) . Los valores perdidos se
indican con NaN . Una lnea en los archivos de datos se corresponde con una marca de
tiempo y la instancia de la etiqueta de los datos sensoriales. Los archivos de datos contienen
54 columnas : cada lnea se compone de una marca de tiempo , una etiqueta de actividad ( la
verdad de tierra) y 52 atributos de los datos sensoriales en bruto.

Atributo de la informacin:
Las 54 columnas en los archivos de datos estn organizados de la siguiente manera :
1 . marca de tiempo ( s )
2 . activityID ( ver ms abajo para la asignacin a las actividades)
3 . frecuencia cardaca ( latidos por minuto )
4-20 . mano IMU
21-37 . IMU pecho
38-54 . tobillo IMU

Los datos sensoriales IMU contiene las siguientes columnas :


1 . Temperatura ( C )
2-4. Datos 3D de aceleracin ( ms- 2 ) , la escala : 16g , resolucin : 13 bits
5-7. Datos 3D de aceleracin ( ms- 2 ) , la escala : 6 g, resolucin : 13 bits
8-10 . Datos 3D- giroscopio (rad / s )
11-13 . Datos 3D- magnetmetro ( T)
14-17 . orientacin ( no vlida en esta recogida de datos )

Lista de activityIDs y actividades correspondientes :


1 mentira
2 de estar
3 de pie
4 pasos
5 en ejecucin
6 ciclismo
7 Nordic Walking
9 ver la televisin
10 trabajo de la computadora
11 la conduccin de automviles
12 escaleras ascendentes
13 bajar escaleras
16 de limpieza por aspiracin
17 de planchar
18 lavadero plegable
19 limpieza de la casa
20 juego de ftbol
24 cuerda de saltar
0 otras (actividades transitorias )

Documentos pertinentes:
Las dos publicaciones siguientes describen el conjunto de datos y proporcionan un punto de
referencia de lnea de base en diversas tareas de reconocimiento de la actividad fsica y la
intensidad de estimacin :

[ 1 ] A. Reiss y D. Stricker . La introduccin de un nuevo conjunto de datos Equivalente de


Supervisin de la actividad . El 16 Simposio Internacional IEEE sobre Wearable Computers
( ISCA ), 2012 .
[ 2 ] A. Reiss y D. Stricker . Creacin y evaluacin comparativa de un nuevo conjunto de
datos para la supervisin de la actividad fsica . El quinto Taller sobre Afecto y Afn
Comportamiento ( ABRA ), 2012 .
Ms informacin (descripcin detallada del protocolo y de las diversas actividades , las
estadsticas de la base de datos, los temas, etc ) se pueden encontrar en la documentacin
adjunta al conjunto de datos . Por favor, consulte el readme.pdf archivo.

Cita de pedidos:
Este conjunto de datos est disponible gratuitamente para la investigacin acadmica , no hay
restricciones ( legales o de otro tipo ) sobre el uso de los datos con fines cientficos .
Agradeceramos referencia a una de las siguientes publicaciones ( [ 1 ] o [ 2 ] ) si se utiliza
este conjunto de datos.
Si usted tiene alguna pregunta o sugerencia , por favor pngase en contacto con Attila Reiss (
[ Nombre] . [ Apellido ] @ dfki.de ) . Tambin, por favor , hganos saber si usted tiene
cualquier publicacin que utiliza este conjunto de datos .
Recomendamos para referirse a este conjunto de datos como la PAMAP2 Dataset ? o
el PAMAP2 Actividad Fsica Monitoreo Dataset ? .

[ 1 ] A. Reiss y D. Stricker . La introduccin de un nuevo conjunto de datos Equivalente de


Supervisin de la actividad . El 16 Simposio Internacional IEEE sobre Wearable Computers
( ISCA ), 2012 .
[ 2 ] A. Reiss y D. Stricker . Creacin y evaluacin comparativa de un nuevo conjunto de
datos para la supervisin de la actividad fsica . El quinto Taller sobre Afecto y Afn
Comportamiento ( ABRA ), 2012 .
Parfum_data Conjunto de datos
Resumen: Estos datos consisten en los olores de 20 perfumes diferentes. Los datos se
obtuvieron mediante el uso de un medidor de olor de mano (sensor de OMX-GR) por
segundo para el perodo 28 segundos.

Conjunto de datos Univariate, Nmero de


560 rea: Ordenador
Caractersticas: Domain-Theory instancias:

Caractersticas del Nmero de Fecha 2014-03-


Real 20
atributo: atributos: Donado 03

Nmero de
Clasificacin, Valores
Tareas asociadas: No Web 577
Clustering perdidos?
Accesos:

Fuente:
Prof. Dr. Bekir Karlik, bkarlik '@' selcuk.edu.tr , Departamento de Ingeniera Informtica de la
Universidad de Selcuk, Konya-Turqua
Assoc. Prof. Dr. Yousif Al-Bastaki, Departamento de Ciencias de la Computacin de la Universidad
de Bahrein, Reino de Bahrein

Datos Conjunto de Informacin:


El conjunto de los datos recogidos cuando estbamos trabajando en el proyecto para Bahrein
universidad entre 2002 y 2003.

Atributo de la informacin:
Los datos se obtuvieron de 20 perfumes diferentes mediante el uso de un olor medidor de mano
(sensor OMX-GR). Los nombres de estos perfumes son: ajayeb, ajmal, amreaj, DOOA, asgar_ali,
bujur, burberry, dehenalaod, junaid, kausar, rosa, solidmusk, TeaTreeOil, frambuesa, RoseMusk,
fresa, constrected2, carolina_herrera, oudh_ma'alattar, constrected1.

Documentos pertinentes:
1 -? Karlik Bekir, Bastaki Yousif, Real Tiempo Monitoreo Olor Sistema de Deteccin de Uso de
OMX-GR Sensor y Neural Network , WSEAS Transacciones en Electrnica, nmero 2, vol.1,
pp.337-342, de abril de 2004
2 - Temel Turgay y Karlik Bekir, Oean Mejorado Sistema de reconocimiento de olor Usando
Aprendizaje cuantificacin vectorial con un nuevo discriminante Analysis , Neural Network World,
vol??. 17 (4), pp 287-294, 2007
3 -? Karlik Bekir y YUKSEK Kemal Fuzzy Clustering Redes Neuronales para el Real Time
Reconocimiento Olor System , Revista de Mtodos automatizados y Gestin en Qumica,
diciembre de 2007 Id. de artculo 38405 , [Web Link]
4 - AL-Bastaki, Yousif, 'Una basada en Redes Neuronales Artificiales monitoreo en lnea Sistema de
Deteccin de Olor ", Journal of Computer Science, vol. 5, no. 11, pginas 878-882, 2009.

Cita de pedidos:
1 -? Karlik Bekir, Bastaki Yousif, Real Tiempo Monitoreo Olor Sistema de Deteccin de Uso de
OMX-GR Sensor y Neural Network , WSEAS Transacciones en Electrnica, nmero 2, vol.1,
pp.337-342, de abril de 2004
2 - Temel Turgay y Karlik Bekir, Oean Mejorado Sistema de reconocimiento de olor Usando
Aprendizaje cuantificacin vectorial con un nuevo discriminante Analysis , Neural Network World,
vol??. 17 (4), pp 287-294, 2007
3 -? Karlik Bekir y YUKSEK Kemal Fuzzy Clustering Redes Neuronales para el Real Time
Reconocimiento Olor System , Revista de Mtodos automatizados y Gestin en Qumica,
diciembre de 2007 Id. de artculo 38405 , [Web Link] .
Parkinson Data Set
Resumen : La enfermedad de Parkinson Oxford Deteccin
Dataset

Conjunto de datos Nmero de


Multivariante 197 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de 2008-


Real 23 Fecha Donado 06-26
atributo: atributos:

Valores Nmero de
Tareas asociadas: Clasificacin S 67918
perdidos? Web Accesos:

Fuente:
El conjunto de datos fue creada por Max Poco de la Universidad de Oxford, en colaboracin con el
Centro Nacional para la voz y el habla, Denver, Colorado, quien grab las seales de voz. El estudio
original publicado los mtodos de extraccin de caractersticas para trastornos de la voz en general.

Datos Conjunto de Informacin:


Este conjunto de datos se compone de una serie de mediciones de voz biomdicas de 31 personas,
23 con enfermedad de Parkinson (EP). Cada columna de la tabla es una medida de voz en
particular, y cada fila corresponde a uno de 195 grabaciones de voz de estos individuos ("nombre" de
la columna). El objetivo principal de los datos es para discriminar las personas sanas de las personas
con enfermedad de Parkinson, de acuerdo con la columna "Estado", que se establece en 0 para la
sana y 1 para la EP. Los datos estn en formato CSV ASCII. Las filas del archivo CSV contienen una
instancia que corresponde a una grabacin de voz. Hay alrededor de seis grabaciones por paciente,
el nombre del paciente es identificado en la primera column.For ms informacin o para transmitir los
comentarios, pngase en contacto con Max Little (littlem '@' robots.ox.ac.uk). Ms detalles estn
contenida en la siguiente referencia - si se utiliza este conjunto de datos, por favor cite: Max A. Little,
Patrick E. McSharry, Eric J. Hunter, Lorena O. Ramig (2008), 'Adecuacin de las mediciones disfona
para telemonitorizacin de la enfermedad de Parkinson , IEEE Transactions on Biomedical
Engineering (aparezcan).

Atributo de la informacin:
Entradas de la columna Matrix (atributos):
nombre - ASCII nombre del sujeto y nmero de grabacin
MDVP: Fo (Hz) - Media vocal frecuencia fundamental
MDVP: Fhi (Hz) - Mxima vocal frecuencia fundamental
MDVP: Flo (Hz) - vocal frecuencia fundamental mnima
MDVP: Jitter (%), MDVP: Jitter (Abs), MDVP: RAP, MDVP: PPQ, Jitter: DDP - Varias medidas de la
variacin en la frecuencia fundamental
MDVP: Shimmer, MDVP: Shimmer (dB), Shimmer: APQ3, Shimmer: APQ5, MDVP: APQ, Shimmer:
DDA - Varias medidas de la variacin en la amplitud
de NHR, HNR - dos medidas de la relacin entre el ruido de componentes tonales de la voz
de estado - Estado de salud del sujeto (uno) - Parkinson, (cero) - sano
RPDE, D2 - Dos medidas de complejidad dinmicos no lineales
DFA - Seal fractal exponente de escala
Spread1, spread2, PPE - Tres medidas lineales de variacin de frecuencia fundamental

Documentos pertinentes:
N/A

Cita de pedidos:
Si utiliza este conjunto de datos, por favor, cite el siguiente documento: Aprovechamiento lineal
Recurrencia y Fractal Escala Propiedades para la deteccin trastorno de la voz ', Little MA, McSharry
PE, Roberts SJ, Costello DAE, Moroz IM. BioMedical Engineering OnLine, 2007, 06:23 (26 de junio
de 2007)
Parkinson Telemonitoring Data Set
Resumen : La enfermedad de Parkinson Oxford Telemonitoring Dataset

Conjunto de datos Nmero de


Multivariante 5875 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2009-


Entero, real 26
atributo: atributos: Donado 10-29

Nmero de
Valores
Tareas asociadas: Regresin No Web 37997
perdidos?
Accesos:

Fuente:
El conjunto de datos fue creada por Athanasios Tsanas ( tsanasthanasis "@" gmail.com ) y Max
Little ( littlem "@" physics.ox.ac.uk ) de la Universidad de Oxford, en colaboracin con 10 centros
mdicos en los EE.UU. e Intel Corporation quien desarroll el dispositivo de telemonitorizacin para
registrar las seales de voz. El estudio original utiliza una serie de mtodos de regresin lineal y no
lineal para predecir la enfermedad puntuacin de los sntomas de Parkinson del mdico en la escala
UPDRS.

Datos Conjunto de Informacin:


Este conjunto de datos se compone de una serie de mediciones de voz biomdicos a partir de 42
personas con la enfermedad en etapa temprana de Parkinson reclutado a un juicio de seis meses de
un dispositivo de seguimiento a distancia para el control remoto de progresin de los sntomas. Las
grabaciones fueron capturados de forma automtica en los hogares de los pacientes. Las columnas
de la tabla contienen varios sujetos, la edad del sujeto, el gnero objeto, el intervalo de tiempo desde
la fecha de contratacin de referencia, el motor de la UPDRS, UPDRS totales, y 16 medidas de voz
biomdicas. Cada fila corresponde a una de 5875 de grabacin de voz de estas personas. El objetivo
principal de los datos es para predecir el motor y las puntuaciones UPDRS total ('motor_UPDRS' y
'total_UPDRS') de las medidas de voz 16. Los datos estn en formato CSV ASCII. Las filas del
archivo CSV contienen una instancia que corresponde a una grabacin de voz. Hay alrededor de 200
grabaciones por paciente, el nmero de sujetos de la paciente es identificado en la primera
columna. Para ms informacin o para transmitir los comentarios, por favor pngase en contacto con
Athanasios Tsanas ( tsanasthanasis '@' gmail.com ) o Max Little ( littlem '@' physics.ox.ac.uk ). Ms
detalles se encuentran en la siguiente referencia - si se utiliza este conjunto de datos, por favor,
cite: Athanasios Tsanas, Max A. Little, Patrick E. McSharry, Lorena O. Ramig
(2009), 'telemonitorizacin precisa de progresin de la enfermedad de Parkinson por pruebas de
lenguaje no invasivo ", IEEE Transactions on Biomedical Engineering ( . aparecer) ms detalles
sobre las medidas de voz biomdicas se pueden encontrar en: Max A. Little, Patrick E. McSharry,
Eric J. Hunter, Lorena O. Ramig (2009), 'Adecuacin de las mediciones disfona para
telemonitorizacin de la enfermedad de Parkinson , IEEE Transactions on Biomedical Engineering,
56 (4) :1015-1022
Atributo de la informacin:
tema # - Entero que identifica de forma nica cada sujeto
edad - Asunto edad
sexo - Asunto '0 gnero "- macho, '1 '- femenino
test_time - Tiempo desde el reclutamiento en el ensayo. La parte entera es el nmero de das desde
la contratacin.
motor_UPDRS - puntuacin UPDRS motor para mdicos, linealmente interpolados
total_UPDRS - UPDRS totales del Clnico SCORE, interpolados linealmente
Jitter (%), Jitter (ABS), Jitter: RAP, Jitter: PPQ5, Jitter: DDP - Varias medidas de la variacin en la
frecuencia fundamental
Shimmer, Shimmer (dB), Shimmer: APQ3, Shimmer: APQ5, Shimmer: APQ11, Shimmer: DDA -
Varias medidas de la variacin en la amplitud
de NHR, HNR - Dos medidas de la relacin entre el ruido de componentes tonales en la voz
RPDE - Una complejidad dinmica no lineal medir
DFA - Seal fractal exponente de escalamiento
PPE - Una medida no lineal de la variacin de la frecuencia fundamental

Documentos pertinentes:
Poco MA, McSharry PE, Hunter EJ, Ramig LO (2009),
'Adecuacin de las mediciones disfona para telemonitorizacin de la enfermedad de Parkinson ",
IEEE Transactions on Biomedical Engineering, 56 (4) :1015-1022 Poco MA, McSharry PE, Roberts
SJ, Costello DAE, Moroz IM. Aprovechamiento lineal Recurrencia y Fractal Escala Propiedades
para la deteccin trastorno de la voz ', BioMedical Engineering OnLine, 2007, 06:23 (26 junio 2007)

Cita de pedidos:
Si utiliza este conjunto de datos, por favor, cite el siguiente documento:
A Tsanas, MA Little, PE McSharry, LO Ramig (2009)
'telemonitorizacin precisa de la progresin de la enfermedad de Parkinson mediante pruebas de
lenguaje no invasivo ",
IEEE Transactions on Biomedical Engineering (aparezca) .
PEMS-SF Conjunto de Datos
Resumen : 15 meses el valor de los datos diarios (440 registros diarios) que describe la tasa de
ocupacin, entre 0 y 1, de los diferentes carriles de coches de las autopistas de la zona Baha de
San Francisco a travs del tiempo.

Conjunto de datos Multivariado, Nmero de


Time-Series
440 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2011-05-


Real 138672 22
atributo: atributos: Donado

Nmero de
Valores
Tareas asociadas: Clasificacin S Web 18659
perdidos?
Accesos:

Fuente:
Fuente: Departamento de Transporte de California, www.pems.dot.ca.gov
Creador: Marco Cuturi, Universidad de Kyoto, mcuturi '@' i.kyoto-u.ac.jp

Datos Conjunto de Informacin:


Hemos descargado 15 meses por valor de los datos diarios de la web del Departamento de
Transporte PEMS California, [Web Link] , Los datos se describe la ocupacin de
la tasa, entre 0 y 1, de los diferentes carriles de coches de San Francisco autopistas baha. Las
medidas abarcan el perodo comprendido entre 1 de enero 2008 al 30 de marzo 2009 y se toman
muestras cada 10 minutos. Consideramos cada da en esta base de datos como una sola serie de
tiempo de dimensin 963 (el nmero de sensores que funcionaban constantemente durante todo el
perodo estudiado) y duracin de 6 x 24 = 144. Quitamos los das festivos del conjunto de datos, as
como dos das anomalas (8 de marzo de 2009 y 09 de marzo 2008), donde se silenciados todos los
sensores 02:00-03 a.m.. Esto da lugar a una base de datos de 440 series de tiempo. La tarea que
nos proponemos en este conjunto de datos es clasificar cada da se observa como el da correcto de
la semana, de lunes a domingo, por ejemplo, etiqueta con un nmero entero en {1,2,3,
4,5,6,7}. Mantendr copias separadas de esta base de datos en mi sitio web en un formato de
Matlab. Si usa Matlab, que podra ser ms conveniente considerar estos archivos. Estera
directamente. Data-Formato ------------- Hay dos archivos para cada pliegue, el archivo de datos y el
archivo de etiquetas. Hemos dividido la serie 440 de tiempo entre tren y pliegues de la prueba, pero
por supuesto son libres para fusionarlos para considerar un ajuste de la validacin cruzada
diferente. - El archivo de texto PEMS_train tiene 263 lneas. Cada lnea describe una serie de tiempo
proporcionado como una matriz. La sintaxis de la matriz es el de Matlab, por ejemplo, [AB; cd] es la
matriz con vectores fila [AB] y [CD] en ese orden. Cada matriz se describen los diferentes tipos de
Ocupaciones (963 lneas, una para cada estacin / detector) en la muestra cada 10 minutos durante
el da (144 columnas). - El texto PEMS_trainlabel describe, para cada da de las mediciones se ha
descrito anteriormente, el da de la semana en que se tomaron muestras de los datos, es decir, un
nmero entero entre 1 (lunes) y 7 (domingo). - PEMS_test y PEMS_testlabels tienen el formato de la
misma manera, salvo que hay 173 casos de prueba. - La permutacin que he usado para mezclar la
conjunto de datos se da en el archivo randperm. Si necesita reordenar los datos de manera que
sigue el orden natural, que debe combinar el tren y examinar muestras y reordenarlos mediante la
permutacin inversa de randperm.
Atributo de la informacin:
Cada atributo describe la medicin de la tasa de ocupacin (entre 0 y 1) de una ubicacin captor
segn lo registrado por una estacin de medicin, en una marca de tiempo dado en el tiempo
durante el da. El ID de cada estacin se da en el archivo de texto stations_list. Para obtener ms
informacin sobre la ubicacin (GPS, Autopista, Direccin) de cada estacin, por favor consulte la
pgina web PEMS. Hay 963 (estaciones) x 144 (marcas de tiempo) = 138,672 atributos para cada
registro.

Documentos pertinentes:
M. Cuturi, Fast Global Alignment Kernels, Proceedings of the Intern. Conferencia sobre Aprendizaje
Automtico 2011.

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Reconocimiento basado en pluma de
Manuscrito Dgitos del conjunto de datos
Resumen de bases de datos de dgitos de 250 muestras de 44 escritores:

Conjunto de datos Nmero de


Multivariante 10992 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 1998-07-


Entero 16
01
atributo: atributos: Donado

Nmero de
Valores
Tareas asociadas: Clasificacin No Web 49555
perdidos?
Accesos:

Fuente:
E. Alpaydin, Fevzi. Alimoglu
Departamento de Ingeniera Informtica
de la Universidad Bogazici, 80815 Estambul Turqua alpaydin '@' boun.edu.tr

Datos Conjunto de Informacin:


Creamos una base de datos dgitos mediante la recopilacin de 250 muestras de 44 escritores. Las
muestras escritos por 30 escritores se utilizan para entrenamiento, validacin cruzada y pruebas
dependientes escritor, y los dgitos escritos por los otros 14 se utilizan para el escritor de pruebas
independiente. Esta base de datos tambin est disponible en el formato UNIPEN. Utilizamos una
tableta sensible a la presin Wacom PL-100V con una pantalla LCD integrada y un lpiz
inalmbrico. Las reas de entrada y de visualizacin se encuentran en el mismo lugar. Conectado al
puerto serie de un PC basado en Intel 486, que nos permite recoger muestras de escritura. La
tableta enva $ x $ y $ y $ coordenadas de la tableta y los valores de nivel de presin de la pluma a
intervalos de tiempo fijos (frecuencia de muestreo) de 100 milisegundos.Se pidi a estos escritores a
escribir 250 dgitos en orden aleatorio dentro de las cajas de 500 por 500 pxeles de la tableta
resolucin. Sujeto se monitorizan slo durante las primeras pantallas de entrada. Cada pantalla
contiene cinco cajas con los dgitos que se van a escribir que aparece arriba. Los sujetos se les dice
a escribir slo dentro de estas cajas. Si se comete un error o no estn contentos con su escritura, se
les instruye para borrar el contenido de una caja con un botn en la pantalla. Los diez primeros
dgitos son ignorados porque la mayora de los escritores no estn familiarizados con este tipo de
dispositivos de entrada, pero los sujetos no son conscientes de ello. En nuestro estudio, slo
utilizamos ($ x, y $) coordinar la informacin. Se ignoran los valores de nivel de presin de la
aguja. Primero aplicamos la normalizacin para que nuestra representacin invariante a las
traducciones y las distorsiones de escala. Los datos en bruto que capturamos de la tableta consiste
en cualquier nmero entero entre 0 y 500 (resolucin cuadro de entrada de la tableta). Las nuevas
coordenadas son tales que la coordenada que tiene el rango mximo vara entre 0 y 100. Por lo
general, $ x $ se mantiene en este nivel, ya que la mayora de los personajes son ms altos que
anchos. Con el fin de entrenar y probar nuestros clasificadores, tenemos que representar dgitos
como los vectores de caractersticas de longitud constante. Una tcnica muy utilizada que conduce a
buenos resultados se remuestreo los puntos (x_t, y_t). Remuestreo temporal (regularmente puntos
espaciados en el tiempo) o remuestreo espacial (puntos regularmente espaciados en la longitud del
arco) se pueden utilizar aqu. Datos de punto sin procesar ya estn espaciados regularmente en el
tiempo, pero la distancia entre ellos es variable. Investigaciones anteriores mostraron que la
reclasificacin espacial, para obtener un nmero constante de puntos regularmente espaciados
sobre la trayectoria da un rendimiento mucho mejor, ya que proporciona una mejor alineacin entre
los puntos. Nuestro algoritmo de remuestreo utiliza interpolacin lineal simple entre pares de
puntos. Los dgitos resampled se representan como una secuencia de puntos T (x_t, y_t) _ {t = 1} ^
T, regularmente espaciados en la longitud del arco, en comparacin con la secuencia de entrada,
que est espaciado regularmente en el tiempo. As, el vector de entrada tamao es 2 * T, dos veces
el nmero de puntos resampled. Consideramos la reclasificacin espacial a T = 8,12,16 puntos en
nuestros experimentos y encontramos que T = 8 dio el mejor compromiso entre precisin y
complejidad.

Atributo de la informacin:
Todos los atributos de entrada son enteros en el rango 0 .. 100.
El ltimo atributo es el cdigo de la clase 0 .. 9

Documentos pertinentes:
F. Alimoglu (1996) Combinacin de varios clasificadores para Digit Manuscrito base-Pen
Reconocimiento, Tesis de maestra, Instituto de Estudios de Posgrado en Ciencias e Ingeniera de la
Universidad Bogazici. [Web Link]
[Web Link]

F. Alimoglu, E. Alpaydin, "Mtodos de Combinacin de varios clasificadores basados en diferentes


Representaciones de reconocimiento de escritura a base de pluma," Actas de la Quinta Inteligencia
Artificial turco y Redes Neuronales Artificiales Simposio (TAINN 96), junio de 1996, Estambul,
Turqua. [Web Link]
[Web Link]

Documentos que citan este conjunto de datos 1 :

Ken Tang y Ponnuthurai N. Suganthan y Xi Yao y A. Kai Qin. dimensionalityreduction lineal utilizando
LDA relevancia ponderada . Escuela de Ingeniera Elctrica y Electrnica de la Universidad
Tecnolgica de Nanyang. 2005. [ Ver Contexto ]. Mikhail Bilenko y sugato Basu y Raymond J.
Mooney. limitaciones de la integracin y el aprendizaje mtrica en la agrupacin semi-
supervisado . ICML. 2004. [ Ver Contexto ]. Fabian Hoti y Lasse Holmstrm. Un enfoque de
estimacin de densidad semiparamtrico de clasificacin de patrones . Reconocimiento de Patrones,
37. 2004. [ Ver Contexto ]. Thomas Serafini y G. Zanghirati y Del Zanna y T. Serafini y Gaetano
Zanghirati y Luca Zanni. Dipartimento DI MATEMATICA . Mtodos de Proyeccin de la pendiente
para. 2003. [ Ver Contexto ]. Manoranjan Dash y Liu Huan y Peter Scheuermann y Kian-Lee
Tan. agrupacin jerrquica Fast y su validacin . Conocimiento de Datos. Eng, 44. 2003. [ Ver
Contexto ]. Dennis DeCoste. Anytime Mquinas Kernel Query-Tuned mediante factorizacin de
Cholesky . SDM. 2003. [ Ver Contexto ]. Greg Hamerly y Charles Elkan. Aprender la k en k-
medias . PNI. 2003. [Ver Contexto ]. Marina Meila y Michael I. Jordan. Aprender con mezclas de
rboles . Journal of Machine Learning Research, 1. 2000. [ Ver Contexto ]. Ethem
Alpaydin.Combinado 5 x 2 cv Prueba F para comparar clasificacin supervisada algoritmos de
aprendizaje . Neural Computation, 11. 1999. [ Ver Contexto ]. Georg Thimm y Emile Fiesler. IDIAP
informe Tcnico de Alto Orden y Perceptrn multicapa inicializacin . IEEE Transactions. 1994. [ Ver
Contexto ]. Adil M. Bagirov y Julien Ugon. Un algoritmo para el clculo de la funcin lineal a trozos
que separa dos sets . CIAO, Escuela de Informtica y Ciencias Matemticas de la Universidad de
Ballarat. [ Ver Contexto ].Charles Campbell y Nello Cristianini. simple algoritmos de aprendizaje para
las Mquinas de Vectores Soporte Entrenamiento . Departamento de Ingeniera Matemtica. [Ver
Contexto ]. Perry Moerland. Mezclas de modelos de variables latentes para la estimacin de la
densidad y la clasificacin . ESEARCHREPRORTIDIAPD alle M olle yo nstitutefor Pe r cep t ua l Una
Inteligencia rtificial. [ Ver Contexto ]. Luca Zanni. Una mejorada Gradient tcnica de descomposicin
basada Proyeccin de Mquinas de Vectores Soporte . Dipartimento di Matematica, Universitdi
Modena e Reggio Emilia. [ Ver Contexto ]. Adil M. Bagirov y John Yearwood. Un nuevo algoritmo de
optimizacin no lisos para la agrupacin . Centro de Informtica y Optimizacin Aplicada de la
Facultad de Informtica y Ciencias Matemticas de la Universidad de Ballarat. [ Ver
Contexto ]. Ahmed Hussain Khan y Cuidados Intensivos. Multiplicador libres Feedforward
Redes . 174. [ Ver Contexto ]. Adil M. Bagirov y Alex Rubinov y AN Soukhojak y John
Yearwood. clasificacin de datos no supervisada y supervisada a travs de no lisos y optimizacin
global . Escuela de Tecnologa de la Informacin y Ciencias Matemticas de la Universidad de
Ballarat. [ Ver Contexto ]. Georg Thimm y Emile Fiesler. Alto Orden y Perceptrn multicapa
inicializacin . [ Ver Contexto ].

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Propiedades fisicoqumicas de Protena
Estructura Terciaria Data Set
Resumen : Se trata de un conjunto de datos de las propiedades fisicoqumicas de la protena de
estructura terciaria. El conjunto de datos se toma del CASP 5-9. Hay 45730 seuelos y tamao
variables 0-21 Armstrong.

Conjunto de datos Nmero de


Multivariante 45730 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de 2013-


Real 9 Fecha Donado 03-31
atributo: atributos:

Valores Nmero de
Tareas asociadas: Regresin No 2517
perdidos? Web Accesos:

Fuente:
Prashant Singh Rana, psrana '@' gmail.com , ABV - Instituto Indio de Tecnologa de la Informacin y
Gestin, Gwalior, MP, India.

Datos Conjunto de Informacin:


Proporcionar toda la informacin pertinente acerca de su conjunto de datos.

Atributo de la informacin:
RMSD-Tamao del residuo.
F1 -. Superficie total
F2 - no polar rea expuesta.
F3 -. rea fraccionada del residuo no polar expuesto
F4 - rea fraccional de una parte polar no expuesta de residuos.
F5 - Masa molecular rea expuesta ponderado.
F6 - Desviacin media del rea estndar expuesta de residuos.
F7 -. distancia euclidiana
F8 -. pena de estructura secundaria
F9 - limitaciones distribucin espacial (N, K Value).

Documentos pertinentes:
N/A

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin.
Indios Pima Diabetes Data Set
Resumen : Desde el Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales; Incluye
datos sobre los costos (donado por Peter Turney)

Conjunto de datos Nmero de


Multivariante 768 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de 1990-


Entero, real 8 Fecha Donado 05-09
atributo: atributos:

Valores Nmero de
Tareas asociadas: Clasificacin S 108362
perdidos? Web Accesos:

Fuente:
Propietarios Original: Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales de los
donantes de base de datos: Vincent Sigillito ( vgs "@" aplcen.apl.jhu.edu) Centro de Investigacin,
RMI Jefe de Grupo Laboratorio de Fsica Aplicada Johns Hopkins University Johns Hopkins
Ruta Laurel, MD 20707 (301) desde novecientos cincuenta y tres hasta seis mil doscientos treinta y
una

Datos Conjunto de Informacin:


Varias limitaciones se colocaron en la seleccin de estos casos de una base de datos mayor. En
particular, todos los pacientes de aqu son las hembras por lo menos 21 aos de edad del patrimonio
indio Pima. ADAP es una rutina de aprendizaje adaptativo que genera y ejecuta anlogos digitales
de los dispositivos de tipo perceptrn. Se trata de un algoritmo nico, vase el documento para
obtener ms informacin.

Atributo de la informacin:
1. Nmero de veces embarazadas
2. Concentracin de glucosa en plasma a 2 horas en una prueba de tolerancia oral a la glucosa
3. La presin arterial diastlica (mm Hg)
4. Grosor del pliegue cutneo del trceps (mm)
5. Insulina en suero 2 horas (mu U / ml)
6. ndice de masa corporal (peso en kg / (altura en metros) ^ 2)
7. Funcin pedigr Diabetes
8. Edad (aos)
9. Variable de clase (0 1) ** ACTUALIZACIN: 02/28/2011 Hasta esta pgina web indic que no
hubo valores perdidos en el conjunto de datos. Como se ha sealado por un usuario repositorio, esto
no puede ser cierto: hay ceros en lugares donde son biolgicamente imposible, como el atributo de la
presin arterial. Parece muy probable que los valores cero codifican los datos que faltan. Sin
embargo, ya que los donantes de conjuntos de datos efectuado tal declaracin le animamos a que
utilice su mejor juicio y declarar sus suposiciones.

Documentos pertinentes:
Smith, JW, Everhart, JE, Dickson, WC, Knowler, WC, y Johannes, RS (1988). Usando el algoritmo de
aprendizaje ADAP para predecir el inicio de la diabetes mellitus. En Actas del Simposio sobre
aplicaciones informticas y la asistencia mdica} (pp. 261-265). IEEE Computer Society Press. [Web
Link]

Documentos que citan este conjunto de datos 1 :

. Jeroen Eggermont y Joost N. Kok y Walter A. Kosters Programacin Gentica para la clasificacin
de los datos: la particin del espacio de bsqueda . SAC. 2004. [ Ver Contexto ]. Eibe Frank y Mark
Hall. estimadores de probabilidad Visualizacin de clase . PKDD. 2003. [ Ver Contexto ]. Michael L.
Raymer y Travis E. Doom y Leslie A. Kuhn y William F. Punch. Descubrimiento de conocimiento en
bases de datos mdicas y biolgicas utilizando un clasificador de Bayes / algoritmo evolutivo
hbrido .Transacciones de IEEE en Sistemas, Hombre y Ciberntica, parte B, de 33 aos. 2003. [ Ver
Contexto ]. Peter Sykacek y Stephen J. Roberts. Clasificacin de adaptacin por Variational Kalman
filtrado . PNI. 2002. [ Ver Contexto ]. Marina Skurichina y Ludmila Kuncheva y Robert PW
Duin. Embolsado y impulso para el clasificador ms cercano Mean: Efectos del tamao de la muestra
sobre la diversidad y precisin . Sistemas Clasificadores mltiples. 2002. [ Ver Contexto ]. Ilya
Blayvas y Ron Kimmel.multirresolucin Aproximacin para la Clasificacin . CS Dept.
Technion. 2002. [ Ver Contexto ]. Tao Jiang y Art B. Owen. Quasi-regresin para la visualizacin e
interpretacin de las funciones de la caja negra . Departamento de Estadstica de la Universidad de
Stanford. 2002. [ Ver Contexto ]. Jochen Garcke y Michael Griebel y Michael Tes. Minera de datos
con Sparse Grids . Informtica, 67. 2001. [ Ver Contexto ]. Robert Burbidge y Matthew Trotter y
Bernard F. Buxton y Sean B. Holden. STAR - Sparsity travs Rechazo automatizado . IWANN
(1). 2001. [ Ver Contexto ]. Simon Tong y Daphne Koller. Restricted Bayes clasificadores
ptimo . AAAI / IAAI. 2000. [Ver Contexto ]. Stavros J. Perantonis y Vassilis Virvilis. Caracterstica de
entrada Extractor de mltiples capas Perceptrones Usando Anlisis de Componentes Principales
supervisada . Neural Processing Letters, 10. 1999. [ Ver Contexto ]. Huan Liu y Rudy
Setiono. Caracterstica Transformacin y Decisin multivariado rbol de induccin .Discovery
Science. 1998. [ Ver Contexto ]. Thomas G. Dietterich. Prueba estadstica aproximada para la
comparacin de clasificacin supervisada algoritmos de aprendizaje . Neural Computation,
10. 1998. [ Ver Contexto ]. Kristin P. Bennett y Erin J. Bredensteiner. Un mtodo paramtrico
Optimizacin de Aprendizaje Automtico .INFORMA Journal on Computing, 9. 1997. [ Ver
Contexto ]. Jennifer A. Azul y Kristin P. Bennett. Hybrid Extreme Point Bsqueda
Tab . Departamento de Ciencias Matemticas del Instituto Politcnico Rensselaer. 1996. [ Ver
Contexto ]. Peter D. Turney. sensibles a los costes de clasificacin: evaluacin emprica de una
Decisin gentico hbrido Tree Induccin algoritmo . CoRR, csAI/9503102. 1995. [ Ver
Contexto ]. Ilya Blayvas y Ron Kimmel. PAPEL INVITADO Nmero especial sobre el anlisis
multirresolucin Machine Learning a travs de multirresolucin aproximacin . [ Ver Contexto ]. Lois
C. Boggess Andrew Watkins y Jon Timmis y. Sistema Inmune Artificial Reconocimiento (AIRS): Un
ImmuneInspired supervisadas algoritmo de aprendizaje . (Abw5, jt6@kent.ac.uk) Laboratorio de
Computacin de la Universidad de Kent. [ Ver Contexto ]. Ilya Blayvas y Ron Kimmel. Clasificacin
eficiente a travs de multirresolucin Training Set aproximacin . CS Dept. Technion. [ Ver
Contexto ]. Matthias Scherf y W. Brauer. Seleccin de caractersticas por medio de un enfoque de
funciones de ponderacin . GSF - Centro Nacional de Investigacin del Medio Ambiente y de la
Salud. [ Ver Contexto ]. Rudy Setiono y Huan Liu. Selector de funciones neuronales de la
red . Departamento de Sistemas Informticos y la Universidad Nacional de Ciencias de la
Computacin de Singapur. [ Ver Contexto ]. Christopher P. Diehl y Gert Cauwenberghs. SVM
Incremental aprendizaje, adaptacin y optimizacin .Laboratorio de Fsica Aplicada de la Universidad
Johns Hopkins. [ Ver Contexto ]. Wl odzisl / aw Duch y Rudy Setiono y Jacek M. Zurada. mtodos de
inteligencia computacional para la comprensin de datos basado en normas . [ Ver
Contexto ]. Michalis K. Titsias y Aristidis Likas. Modelos Kernel Shared para la Clase estimacin de
densidades condicionales . [ Ver Contexto ]. Lawrence O. Hall y Nitesh V. Chawla y Kevin W.
Bowyer. Combinando rboles de decisin aprendidas en paralelo .Departamento de Ciencias de la
Computacin e Ingeniera, ENB 118 University of South Florida. [ Ver Contexto ]. Charles Campbell y
Nello Cristianini. simple algoritmos de aprendizaje para las Mquinas de Vectores Soporte
Entrenamiento . Departamento de Ingeniera Matemtica. [ Ver Contexto ]. Liping Wei y Russ B.
Altman. y un sistema automatizado para la generacin de perfiles de Enfermedades comparativo
hacer diagnsticos . Seccin de Informtica Universidad de Stanford Escuela de Medicina de
Medicina, MSOB X215. [ Ver Contexto ]. Chotirat Ann y Dimitrios Gunopulos. Ampliacin de la
Ingenuo clasificador bayesiano: Utilizacin de rboles de decisin para la seleccin de
caractersticas . Departamento de Ciencias de la Computacin de la Universidad de California. [ Ver
Contexto ]. Federico Divina y Elena Marchiori. Basada en el Conocimiento Evolutiva Buscar inductivo
Concepto de Aprendizaje . Vrije Universiteit de msterdam. [ Ver Contexto ]. Michael Lindenbaum y
Sal Markovitch y Dmitry Rusakov. Muestreo Selectivo Usando Random Campo Modelado . [ Ver
Contexto ]. Federico Divina y Elena Marchiori. Manejo de atributos continuos en un Evolutiva
inductivo de Aprendices . Departamento de Ciencias de la Computacin Vrije Universiteit. [ Ver
Contexto ].

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin

Pioneer-1 Mobile Robot de datos Conjunto de


datos
Resumen : Este conjunto de datos contiene series temporales lecturas de los sensores del robot
mvil Pioneer-1. Los datos se divide en "experiencias" en el que el robot toma accin para un cierto
perodo de tiempo y las experiencias de un control

Conjunto de datos Multivariado, Nmero de


Time-Series
No rea: Ordenador
Caractersticas: instancias:

Caractersticas del Categrico, el Nmero de Fecha 1999-01-


Real
No 28
atributo: atributos: Donado

Nmero de
Valores
Tareas asociadas: No No Web 12710
perdidos?
Accesos:

Fuente:
Matthew D. Schmill, Paul R. Cohen
Experimental Knowledge Systems Laboratory
del Departamento de Ciencias de la Computacin
Caja 34610
Universidad de Massachusetts, Amherst
Amherst, MA 01003-4610 Schmill '@' cs.umass.edu , cohen '@' cs.umass.edu

Datos Conjunto de Informacin:


Los datos fueron recolectados a travs de una serie de pruebas diseadas especficamente. Nuestra
esperanza era cubrir la mayor parte de los tipos de interacciones sensoriales que un Pioneer que
puede esperarse razonablemente que encuentre: cosas como pasar por los objetos visibles,
empujando objetos visibles, chocando contra las paredes, etc Muchas de estas interacciones se
repiten a lo largo del conjunto de datos. Este se obtuvieron datos que sirva de base para el trabajo
en el aprendizaje y el desarrollo conceptual. Nuestro primer objetivo era ser capaz de tener el cluster
robot estas experiencias por su dinmica por su cuenta en grupos de experiencias con un resultado
comn. Cada archivo de datos contiene datos de series de tiempo en el que cada fila de datos se
corresponde con una nica observacin de que el sensor array.Se incluyen en cada fila son dos
variables adicionales, 'id' y 'Descripcin', que indican el nmero de la experiencia que la observacin
pertenece a, y una descripcin de esa experiencia, respectivamente. Observaciones en una
experiencia se toman cada 100ms. Los datos se almacenan en tres archivos de texto: un archivo
para experiencias en las que el Pioneer se mova en lnea recta, en la que se estaba convirtiendo en
el lugar, y una en la que estaba criando o la reduccin de los puntos de sujecin. La variable
descripcin es una cadena de smbolos. La cadena se desglosa de la siguiente manera: "u" o "O" -
sin obstculos u obstruidas "x.xs" - actividad dur xx segundosactividad - la actividad y velocidad, en
su caso, es decir move100 = mover hacia adelante a 100mm/sec visual - objetos en la matriz visual
se enumeran en secuencia."CAHEAD" indica un objeto visible para el canal C directamente delante
de la Pioneer. [visual.X] - descripciones visuales seguidas de un '.' y uno de los personajes indican
que algo especial sucede con el objeto visible. . V significa que el objeto desaparece de la vista
durante la actividad. . D indica que el objeto es descubierto (se hace visible) durante la actividad. . P
indica que el objeto se inserta. Un ejemplo: "u-3.5s-retr-100-aRIGHT.D" Un retiro sin obstrucciones
(mover) a -100 mm / seg durante 3,5 segundos con un objeto que se descubri en el canal A. Cabe
sealar que, en particular con respecto a los canales visuales, la descripcin puede no ser 100%
exacto. Dado que los canales visuales responden a los colores que se han formado en (a visual =
rojo, b visual = amarillo, Visual C = azul), fue posible, pero poco frecuentes, por algn objeto extrao
en el ambiente genera una respuesta en los canales visuales que No se supona que mostrar la
actividad en un ensayo particular. filas estn separadas por retornos de carro, columnas con comas.

Atributo de la informacin:
TRIAL-ID: categrico, el id de prueba de la experiencia que la observacin pertenece al
DESCRIPCIN: una descripcin simblica de la experiencia de diseo
TIEMPO-SEG: una lectura del reloj interno de la Pioneer, en segundos
BATERA NIVEL: una lectura del nivel de la batera, en voltios
SONAR-0: lectura de profundidad sonar, en mm, de la izquierda (90) sealando sonar
SONAR-1: lectura de profundidad sonar, en mm, de una sonda (15) sealando
SONAR-2: lectura de profundidad sonar, en mm, de un sonar (7.5) apuntando
SONAR-3: Lectura de la profundidad de sonar, en mm, de un delantero (0) apuntando sonar
SONAR-4: Lectura de la profundidad de sonar, en mm, de un (-7,5) apuntando sonar
SONAR-5: sonar lectura de profundidad, en mm, de una (-15) apuntando sonar
SONAR-6: Lectura de la profundidad de sonar, en mm, de un derecho (-90) apuntando sonar
DENOMINACIN: Rbrica lectura, en grados, a partir de "norte verdadero" del robot
R RUEDAS-VEL: velocidad de la rueda derecha, en mm / seg
L-WHEEL-VEL: velocidad de la rueda izquierda, en mm / seg
TRANS-VEL: velocidad de traslacin, mm / seg
ROT-VEL: velocidad de rotacin, mm / seg
R-BLOQUEO : sensor de atascamiento de la rueda derecha, binaria (0/1)
L-PARADA: sensor de la rueda izquierda la parada, binaria (0/1)
ROBOT-STATUS: Estado robot, 2.0 = parado, 3,0 = mover
GRIP-ESTADO: pinza estado
GRIP-FRONT -BEAM: haz pausa pinza, binario, 1.0 = roto
GRIP-REAR-BEAM: haz pausa pinza, binario, 1.0 = roto
GRIP-BUMPER: pinza parachoques, binario, 1.0 = en contacto
VIS-A-AREA: rea del visible dominante objeto para el canal A, en pxeles
VIS-AX: X ubicacin del objeto en el canal A en plano de la imagen, -140 ... 140
VIS-AY: Y la ubicacin del canal A en el plano de la imagen
VIS-AH: altura del objeto en el canal A en el plano, en pxeles
VIS-AW: anchura del objeto en A el plano de la imagen, en pxeles
VIS-A-DIST: distancia al objeto en el canal A, en mm
VIS-B-AREA: rea del objeto visible dominante para el canal B, en pxeles
VIS-BX: X ubicacin del objeto en el canal B en el plano de la imagen, -140 ... 140
VIS-BY: Y la ubicacin del canal B en el plano de la imagen
VIS-BH: altura del objeto en el canal B en el plano, en pxeles
VIS-BW: anchura del objeto en B el plano de la imagen, en pxeles
VIS-B-DIST: distancia al objeto en el canal B, en mm
VIS-C-AREA: rea del objeto visible dominante para el canal C, en pxeles
VIS-CX : X ubicacin del objeto en el canal C en plano de la imagen, -140 ... 140
VIS-CY: Y la ubicacin del canal C en la imagen del avin
VIS-CH: altura del objeto en C el plano de la imagen, en pxeles
VIS-CW: Ancho del objeto en C en plano de la imagen, en pxeles
VIS-C-DIST: distancia al objeto en el canal C, en mm Para las variables visuales, cuando no hay
ningn objeto visible, width = 0, height = 0, area = 0, la distancia = 10000.0, Y = 0, X = 140,0. Los
sonares reportan 5,201.0 como su distancia mxima.

Documentos pertinentes:
Oates, Tim; Schmill, Matthew D. y Cohen, Paul R. Identificar experiencias cualitativamente
diferentes:. Experimentos con un Robot Mvil [Web Link] Schmill, Matthew D.; Oates, Tim, y Cohen,
Paul R. Learned Modelos para Continuo Planificacin. VII Taller Internacional sobre Inteligencia
Artificial y Estadstica. [Web Link]

Cita de pedidos:
El trabajo representado aqu fue financiado por DARPA contrae F49620-97-1-0485 y N66001-96-C-
8504. Para uso exclusivo en investigacin.

Pittsburgh Puentes Data Set


Resumen : Base de datos Puentes que tiene conjuntos de datos
originales y numricos discretos

Conjunto de datos Nmero de


Multivariante 108 rea: No
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de 1990-


Integer
13 Fecha Donado 08-01
atributo: atributos:

Valores Nmero de
Tareas asociadas: Clasificacin S 29375
perdidos? Web Accesos:

Fuente:
Creadores: Yoram Reich y Steven J. Fenves Departamento de Ingeniera Civil y de Ingeniera de
Diseo del Centro de Investigacin de la Universidad Carnegie Mellon de Pittsburgh, PA
15213 Recopilado de diversas fuentes. Donante: Yoram Reich ( yoram.reich '@' cs.cmu.edu )

Datos Conjunto de Informacin:


Hay dos versiones de la base de datos:
- V1 contiene los ejemplos originales y
- V2 contiene descripciones despus de discretizar propiedades numricas. No hay clases ``'' en el
dominio. Ms bien se trata de un dominio de diseo en el que 5 propiedades (descripcin del diseo)
deben ser predicho basado en 7 propiedades de especificacin.

Atributo de la informacin:
El estado de campo de tipo si una propiedad es continua / entero (c) o nominal (n). Para las
propiedades con c, n tipo, el rango de nmeros continuos se da primero y los posibles valores de la
nominal seguir el punto y coma. Nombre / Tipo / Posibles valores / Comentarios 1. IDENTIF / - / - /
identificador de los ejemplos 2. RO / n / A, M, O / - 3. UBICACIN / n / 1 a 52 / - 4. ERIGIDO / c, n /
1818-1986; ARTESANA, EMERGENTES, MADURO, MODERNO / - 5. FIN / n / WALK,
ACUEDUCTO, RR, CARRETERA / - 6. LONGITUD / c, n / 804-4558; CORTO, MEDIO, LARGO / -
7. CARRILES / C, N / 1, 2, 4, 6; 1, 2, 4, 6 / - 8. CLEAR-G / N / N, G / - 9. T-OR-D / n / TRAVS DE
LA CUBIERTA / - 10. MATERIAL / n / MADERA, hierro, acero / - 11. SPAN / n / CORTO, MEDUIM,
LONG / - 12. REL-L / N / S, SF, F / - 13. TIPO / n / MADERA, suspensiones, SIMPLE-T, ARCH,
CANTILEV, CONT-T / -

Documentos pertinentes:
Reich & Fenves (1989). Aprendizaje incremental para capturar Diseo Expertise. Informe tcnico:
EDRC 12-34-89, Diseo de Ingeniera Centro de Investigacin de la Universidad Carnegie Mellon,
Pittsburgh, PA. Reich (1989). La convergencia de `` Ideal'' Diseo Conocimiento por aprendizaje,
Actas del Primer Taller Internacional de Mtodos Formales en Ingeniera de Diseo, pp:. 330-349,
Colorado Springs, CO, 01 1990 [Web Link] Reich (1989) Combinando nominal y Propiedades
continuas en un sistema de aprendizaje incremental para el diseo. Informe tcnico:. EDRC 12-33-
89 Reich (1989) Incremental Concepto Formacin con tipos de propiedad mixta.Manuscrito indito.

Documentos que citan este conjunto de datos 1 :

Ljupco Todorovski y Saso Dzeroski. Los experimentos en aprendizaje a nivel de Meta con
ILP . PKDD. 1999. [ Ver Contexto ]. Paul D. Wilson y Tony R. Martnez.Combinar la validacin
cruzada y confianza para medir la aptitud . corporacin fonix la Universidad Brigham Young. [ Ver
Contexto ].

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin

Planificacin Relax Set de Datos


Resumen : Las preocupaciones del conjunto de datos con la clasificacin de las dos etapas
mentales a partir de seales de EEG registrados: Planificacin (en la imaginacin del acto motor) y
Relax estado.

Conjunto de datos Nmero de


Univariante 182 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2012-07-


Real 13 17
atributo: atributos: Donado

Nmero de
Tareas asociadas: Clasificacin Valores perdidos? No Web 13372
Accesos:

Fuente:
Rajen Bhatt, rajen.bhatt '@' gmail.com , IIT Delhi

Datos Conjunto de Informacin:


Registro EEG contiene muchas oscilaciones regulares, que se cree que reflejan la actividad rtmica
sincronizada en un grupo de neuronas. La mayora de los patrones de EEG de actividad relacionada
ocurren dentro de las siguientes bandas de frecuencia. Delta (0.5 "4 Hz.), Theta (4 " 8 Hz),
Alpha (8 "13 Hz), Beta (13 " 22 Hz) y Gamma (30 "40 Hz ). Las olas con la frecuencia de 7
"13 Hz en las reas de procesamiento de motor se llaman mu ritmo y refleja la actividad del
ralent en reas motoras. Es ms pronunciado cuando los sujetos estn en reposo y por lo menos un
segundo antes de sujetos inician los movimientos voluntarios, la actividad mu sobre el hemisferio
contralateral a la regin se traslad muestra una disminucin de la amplitud y se llama Evento
desincronizacin relacionada (ERD).
Para el actual estudio, los datos de EEG se recogi por 5 veces en varios das de un sujeto sano
diestro de 25 aos de edad. Los datos se registraron en un Medelec Perfil electroencefalgrafo
digital. Los ajustes de alta frecuencia del filtro 50 Hz, filtro de baja frecuencia de 1,6 Hz, filtro de
muesca 50 Hz, sensibilidad 70 micro voltios / mm, y una velocidad de muestreo de 256 Hz se
utilizaron para el procesamiento bsico de la seal.
Ocho electrodos de EEG (C3, C4, P3, P4, F3, F4, T3, y T4) se colocaron de acuerdo con el sistema
internacional estndar 10-20 de colocacin de los electrodos. Bipolar y unipolar EEG se registr a
partir de ocho electrodos del cuero cabelludo de Ag / AgCI, que se colocaron 2,5 cm anterior y
posterior a los electrodos central y C3 C4 (lado derecho del hemisferio izquierdo y). A1 y A2 son
electrodos de referencia. Los electrodos de referencia se colocan en los odos izquierdo y derecho y
el electrodo de tierra en la frente. EOG (electrooculograma) ser un artefacto de ruido, se deriva a
partir de dos electrodos, colocados en el exterior de firmus ojo izquierdo y derecho con el fin de
detectar el movimiento del ojo. Estas seales EOG se utilizan para eliminar los artefactos de
movimiento de los ojos.
Se pidi al sujeto a tumbarse cmodamente en una posicin relajada con los ojos cerrados y
aconseja reducir al mnimo los movimientos oculares. El EEG se registr en el estado relajado
durante 5 minutos. Despus de esto, un pitido de audio de 60 dB y 0,91 seg. duracin se le dio en el
comienzo y el final de una segunda poca 5 en el que se pide al sujeto que planear mentalmente
levantamiento del pulgar de la mano derecha. Esta actividad se recoge como un 5 Datos segunda
poca correspondientes a ~ estado de movimiento imagery . Tras un lapso de 5 minutos, la
misma seal se da a repetir el experimento. Todo el experimento dura aproximadamente 30 minutos,
recogida de datos para 5 ensayos de 5 segundos cada poca para el estado normal relajada y 5
ensayos de 5 segundos cada poca para el movimiento de las imgenes. No hay movimiento real se
realiza durante la sesin. Todos los conjuntos de datos se comprobaron visualmente en busca de
artefactos antes de la seleccin final.
Atributo de la informacin:
Transformada wavelet se ha aplicado para la extraccin de caractersticas para la clasificacin
EEG. Sin embargo, wavelet transforma trabajo algoritmo piramidal slo en los coeficientes de
aproximacin. Por lo tanto, no puede identificar la banda de frecuencia 7-13 Hz. Hemos ampliado la
metodologa mediante la aplicacin de anlisis de paquetes de ondas, que tambin se descomponen
coeficientes de detalle. Anlisis de paquetes de Wavelet se ha usado para la descomposicin de la
seal con ancho de banda igual frecuencia en cada nivel de descomposicin, lo que conduce a un
nmero igual de los coeficientes de aproximacin y detalle. Mediante la aplicacin de anlisis de
paquetes de ondas de la seal original, hemos obtenido doce coeficientes de onda en la banda de
frecuencia Hz 7-13 en el nodo de nivel 6 (6,2). La seal se reconstruye en el nodo (6,2) y su trama
de FFT dio la banda de frecuencia 7-13 Hz como la ms exigente, en conjuncin con los Daubechies
wavelet # 6 (DB6).

Documentos pertinentes:
1. Rajen B. y M. Gopal Bhatt, 2008, FRCT: Clasificacin Fuzzy-Rough Treesa , Pattern
Analysis and Applications, 11 (1), pp 73-88??.
2. Shweta Sahu y Rajen B. Bhatt, una clasificacin Automatic de Seales Electroencefalografa
utilizando Wavelet anlisis de paquetes y la Decisin Fuzzy Treesa ?, En Proc. de 28 Conferencia
Nacional de Sistemas (NSC-2004), Dic. 16-18, Vellore, India.
3. Rajen Bhatt, "Enfoque Fuzzy-Rough de Clasificacin de patrones: Algoritmos hbridos y
Optimizacin ', Ph.D. Tesis, IIT Delhi, 2006.

Cita de pedidos:
Rajen Bhatt, "Planificacin-Relax conjunto de datos para la clasificacin automtica de seales de
EEG ', UCI Machine Learning Repositorio

Plantas Data Set


Resumen : Los datos se han extrado de la base de datos de
plantas del USDA. Contiene todas las plantas (especies y
gneros) en la base de datos y de los estados de EE.UU. y
Canad, donde se producen.

Conjunto de datos Nmero de


Multivariante 22632 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2008-


Categrico 70
atributo: atributos: Donado 12-31

Valores Nmero de
Tareas asociadas: Clustering S 57651
perdidos? Web Accesos:

Fuente:

Fuente original:
USDA base de datos de las plantas: http://plants.usda.gov/index.html

. Extrado y codificada por W. Hmlinen, Departamento de Ciencias de la Computacin de la


Universidad de Helsinki, Finlandia whamalai '@' cs.helsinki.fi

Datos Conjunto de Informacin:

Los datos estn en la forma transaccional. Contiene los nombres latinos (especie o gnero) y
abreviaturas del estado.

Atributo de la informacin:

Cada fila contiene un nombre latino (especie o gnero) y una lista de abreviaturas de estado.

Documentos pertinentes:

Hmlinen, W. y Nyknen, M.: descubrimiento eficiente de reglas de asociacin estadsticamente


significativas. Actas de la 8 Conferencia Internacional IEEE sobre Minera de Datos (ICDM 2008),
pp 203-212. IEEE Computer Society 2008.

Cita de pedidos:

Incluso si se procesan los datos, es bueno dar una referencia a la fuente original:
USDA, NRCS. 2008. La base de datos PLANTAS ( [Web Link] , 31 de diciembre de 2008). Nacional
Plant Data Center, Baton Rouge, LA 70874-4490 EE.UU..

Poker Hand Set Data


Resumen : El propsito es predecir las manos de pquer

Conjunto de datos Nmero de


Multivariante 1025010 rea: Juego
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de Fecha 2007-


11
atributo: Integer atributos: Donado 01-01

Nmero de
Valores
Tareas asociadas: Clasificacin No Web 178002
perdidos?
Accesos:

Fuente:
Creadores: Robert CATTRAL ( Cattral '@' gmail.com ) Franz Oppacher
( Oppacher '@' scs.carleton.ca ) Carleton University, Departamento de Ciencias de la
ComputacinUnidad de Investigacin en Sistemas Inteligentes 1125 Colonel By Drive, Ottawa,
Ontario, Canad, K1S5B6

Datos Conjunto de Informacin:


Cada registro es un ejemplo de una mano con cinco cartas procedentes de una baraja de 52. Cada
carta se describe el uso de dos atributos (traje y de la fila), para un total de 10 atributos de
prediccin. Hay un atributo de clase que describe el "Poker Hand". El orden de las cartas es
importante, por lo que hay 480 posibles manos Royal Flush, en comparacin con 4 (uno para cada
palo - se explica en [Web Link] ).

Atributo de la informacin:
1) S1 "Juego de la tarjeta # 1"
ordinal (1-4), que representa {corazones, picas, diamantes, clubs} 2) C1 "Posicin de la tarjeta #
1" numrica (1-13) que representa (As, 2, 3, ..., reina, rey) 3) S2 "Juego de la tarjeta # 2" ordinal (1-
4), que representa {corazones, picas, diamantes, clubs} 4) C2 "Posicin de la tarjeta # 2" numrica
(1-13) que representa (As, 2, 3, ..., reina, rey) 5) S3 "Juego de la tarjeta # 3" ordinal (1-4) representan
{corazones, espadas, diamantes, clubs} 6) C3 "Posicin de la tarjeta # 3 " numrica (1-13) que
representa (As, 2, 3, ..., reina, rey) 7) S4 "Juego de la tarjeta # 4" ordinal (1-4), que representa
{corazones, picas, diamantes, clubs} 8) C4 "Posicin de la tarjeta # 4" numrica (1-13) que
representa (As, 2, 3, ..., reina, rey) 9) S5 "Juego de la tarjeta # 5" ordinal (1-4), que representa {
corazones, picas, diamantes, clubs} 10) C5 "Rango de tarjetas 5" numrica (1-13) que representa
(As, 2, 3, ..., reina, rey) 11) Clase de "Poker Hand" Ordinal (0 - 9) 0: No hay nada en la mano, no una
mano de pquer reconocido 1: Un par; un par de filas iguales dentro de cinco cartas 2: Dos pares,
dos pares de filas iguales dentro de cinco tarjetas 3: Tres de una clase, tres filas iguales dentro cinco
tarjetas 4: Recta; cinco cartas, secuencialmente clasificados sin brechas 5: Flush, cinco cartas del
mismo palo 6: Construccin completa, par + diferente rango tres de una clase 7: Cuatro de una
clase, cuatro filas iguales dentro de cinco cartas 8: Escalera de color; recta + ras 9: Escalera real;
{As, Rey, Reina, Jota, Diez} + flush

Documentos pertinentes:
R. Cattral, F. Oppacher, D. Deugo. Evolutiva de minera de datos con Automatic Regla
Generalizacin. . Avances recientes en Informtica, Informtica y Comunicaciones, pp.296-300,
WSEAS Press, 2002
Nota: Este fue un conjunto de datos ligeramente diferente que tena ms clases, y era mucho ms
difcil.

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin

Post-operatorio del paciente Conjunto de


Datos
Resumen : Conjunto de datos de las caractersticas del paciente

Conjunto de datos Nmero de


Multivariante 90 rea: Vida
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de 1993-


Integer
8 Fecha Donado 06-01
atributo: atributos:

Valores Nmero de
Tareas asociadas: Clasificacin S 31775
perdidos? Web Accesos:

Fuente:
Creadores: Sharon Summers, la Escuela de Enfermera de la Universidad de Kansas Medical
Center, Kansas City, KS 66160 Linda Woolery, Escuela de Enfermera de la Universidad de
Missouri, Columbia, MO 65211 Donante: Jerzy W. Grzymala-Busse ( jerzy '@' cs. ukans.edu ) (913)
864-4488

Datos Conjunto de Informacin:


La tarea de clasificacin de esta base de datos es determinar que los pacientes en un rea de
recuperacin postoperatoria deben ser enviados a la siguiente. Debido a que la hipotermia es una
preocupacin significativa despus de la ciruga (.. Woolery, L. et al 1991), los atributos
corresponden aproximadamente a las mediciones de la temperatura corporal. Resultados: - LERS
(LEM2): 48% de precisin

Atributo de la informacin:
1. L-CORE (temperatura del paciente interno en C):
alta (> 37), media (> = 36 y <= 37), baja (<36)
2. L-SURF (temperatura de la superficie del paciente en C):
alta (> 36,5), medio (> = 36,5 y <= 35), baja (<35)
3. L-O2 (saturacin de oxgeno en%):
excelente (> = 98), buena (> = 90 y <98),
justo (> = 80 y <90), mala (<80)
4. L-BP (ltima medicin de la presin arterial):
alta (> 130/90), medio (<= 130/90 y> = 90/70), baja (<90/70)
5. SURF-STBL (estabilidad de la temperatura de la superficie del paciente):
estable-mod estable, inestable
6. CORE-STBL (estabilidad de la temperatura central del paciente)
estable-mod estable, inestable
7. BP-STBL (estabilidad de la presin arterial del paciente)
estable-mod estable, inestable
8. COMFORT (confort del paciente percibida al momento del alta, medida como
un entero entre 0 y 20)
9. decisin ADM-DECS (decisin del alta):
I (paciente enviado a la Unidad de Cuidados Intensivos),
S (paciente preparado para volver a casa),
A (paciente enviado a planta de hospitalizacin general)

Documentos pertinentes:
A. Budihardjo, J. Grzymala-Busse, L. Woolery (1991). Programa LERS_LB 2.5 como una
herramienta para la adquisicin del conocimiento en enfermera, Actas de la cuarta
internacional. Conferencia sobre Ingeniera Industrial y Aplicaciones de la IA y sistemas expertos, pp
735-740. [Web Link] L. Woolery, J. Grzymala-Busse, S. Summers, A. Budihardjo (1991). El uso del
programa de aprendizaje automtico LERS_LB 2,5 en la adquisicin de conocimientos para el
desarrollo de sistemas expertos en enfermera. Informtica en Enfermera 9, pp 227-234.

Documentos que citan este conjunto de datos 1 :

Petri Kontkanen y Jussi Lahtinen y Petri Myllymki y Henry Tirri. visualizacin bayesiano no
supervisado de los datos de alta dimensin . KDD. 2000. [ Ver Contexto ]. Art B. Owen. vecinos
tubulares para la regresin y clasificacin . La Universidad de Stanford. 1999. [ Ver Contexto ]. Glenn
Fung y Sathyakama Sandilya y R. Bharat Rao.regla de extraccin a partir de Mquinas de Vectores
Soporte lineales . Computer-Aided Diagnosis & Therapy, Siemens Medical Solutions, Inc. [ Ver
Contexto ].

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Predecir las actividades de las palabras clave
en una lnea de comunicacin social
Conjunto de Datos
Resumen : Los datos de Twitter se recogieron durante 360 das consecutivos. Lo hizo mediante la
consulta de 1497 palabras clave en ingls de la muestra de Wikipedia.Se propone este conjunto de
datos en un aprendizaje para clasificar ajuste.

Multivariante,
Conjunto de datos Nmero de
Secuencial, 51 rea: Ordenador
Caractersticas: Time-Series instancias:

Caractersticas del Nmero de Fecha


Entero, Real 35 12/12/2013
atributo: atributos: Donado

Nmero de
Valores
Tareas asociadas: No No Web 4968
perdidos?
Accesos:

Fuente:
Franois Kawala (1,2) Ahlame Douzal (1) Eric Gaussier (1) Eustache Diemert (2)
Instituciones:
(1) Universidad Joseph Fourier (Grenoble I) - Laboratoire d'Informatique de Grenoble (LIG) - Equipe
AMA
(2) TechMediaNetwork - www.techmedianetwork.com Correspondencia: Franois
Kawala: francois.kawala '@' imag.fr / fkawala '@' techmedianetwork.com

Datos Conjunto de Informacin:


Ver archivos y / o [Web Link]

Atributo de la informacin:
Ver archivos y / o [Web Link]

Documentos pertinentes:
Apprentissage d'ordonnancement et influencia de l'ambigut pour la prdiction d'activit sur les
rseaux sociaux (F. Kawala, A. Douzal-Chouakria, E. Gaussier, E. Dimert), en Actes de la
Confrence en Recherche d'infomations et Aplicaciones (CORIA), pp 22, 2014.

Cita de pedidos:
Apprentissage d'ordonnancement et influencia de l'ambigut pour la prdiction d'activit sur les
rseaux sociaux (F. Kawala, A. Douzal-Chouakria, E. Gaussier, E. Dimert), en Actes de la
Confrence en Recherche d'infomations et Aplicaciones (CORIA), pp 22, 2014.
Tumor primario Data Set
Resumen : Desde Ljubljana Instituto de Oncologa

Conjunto de datos Nmero de


Multivariante 339 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de 1988-


Categrico 17 Fecha Donado 11-01
atributo: atributos:

Valores Nmero de
Tareas asociadas: Clasificacin S 33382
perdidos? Web Accesos:

Fuente:

Donantes: 1. Igor Kononenko, Universidad E.Kardelj Facultad de ingeniera elctrica Trzaska


25 61000 Ljubljana (tel.: (38) (61) 265-161 . 2 Bojan Cestnik Instituto Jozef Stefan Jamova 39 61000
Ljubljana Yugoslavia (tel.: (38) (+ 61) 214-399 ext.287)

Datos Conjunto de Informacin:

Este es uno de los tres dominios previstos por la Oncologa Institutenthat ha aparecido
repetidamente en la literatura de aprendizaje de mquina. (Vase tambin el cncer de mama y
linfografa.)

Atributo de la informacin:

--- NOTA: Todos los valores de los atributos en la base de datos han sido introducidos como valores
numricos que corresponden a su ndice en la lista de valores de atributos para ese dominio atributo
como se indica a continuacin.
1. clase: de pulmn, cabeza y cuello, esophasus, tiroides, estmago, duoden y sm.int, colon, recto,
ano, las glndulas salivales, pncreas, vescula biliar, hgado, rin, vejiga, testculos, prstata,
ovario, cuerpo de tero, cuello del tero , la vagina, mama
2. edad: <30, 30-59,> = 60
3. sexo: masculino, femenino
4. tipo histolgico: epidermoide, adenocarcinoma, anaplsico
5. grados de dife: bien, bastante, poco
6. hueso: s, no
7. de mdula sea: s, no
8. pulmn: s, no
9. pleura: s, no
10. peritoneo: s, no
11. hgado: s, no
12. cerebro: s, no
13. la piel: si, no
14. cuello: s, no
15. supraclavicular: s, no
16. axilar: s, no
17. mediastino: s, no
18. abdominal: s, no
Documentos pertinentes:

Cestnik, G., Konenenko, I, y Bratko, I. (1987). Asistente-86: Un Conocimiento Elicitation herramienta


para usuarios avanzados. En I.Bratko y N.Lavrac (Eds.) Avances en Aprendizaje Automtico, 31-45,
Sigma Press. [Web Link] Clark, P. Y Niblett, T. (1987). Induccin en Noisy Dominios. En I.Bratko y
N.Lavrac (Eds.) Avances en Aprendizaje Automtico, 11-30, Sigma Press. [Web Link] Michalski, R.,
Mozetic, I. Hong, J., y Lavrac, N. (1986). El Multi-Purpose Incremental Learning System AQ15 y sus
aplicaciones de pruebas de los Dominios Mdicos Tres. En Actas de la V Conferencia Nacional
sobre Inteligencia Artificial, 1041-1045. Philadelphia, PA:. Morgan Kaufmann [Web Link]

Documentos que citan este conjunto de datos 1 :

Xavier Llor y David E. Goldberg e Ivn Traus y Ester Bernad i Mansilla. Precisin, parsimonia, y la
generalidad en los sistemas de aprendizaje evolutivo a travs de Seleccin
multiobjetivo . IWLCS. 2002. [ Ver Contexto ]. Remco R. Bouckaert. Precisin limita para conjuntos
bajo 0 {1 derrota . Xtal Montaa Tecnologa de la Informacin y Departamento de Ciencias de la
Computacin de la Universidad de Waikato. 2002. [ Ver Contexto ]. Igor Kononenko y Edvard Simec
y Marko Robnik-Sikonja. Superacin de la miopa de los algoritmos de aprendizaje inductivo con
RELIEFF . Appl. Intell, 7. 1997. [ Ver Contexto ]. Pedro Domingos. Control-Sensible Seleccin de
caractersticas para los Estudiantes de Lazy . Artif. Intell. Rev, 11. 1997. [ Ver Contexto ]. Kamal Ali y
Michael J. Pazzani. Reduccin de errores a travs del aprendizaje mltiples
descripciones . Aprendizaje Automtico, 24. 1996. [ Ver Contexto ]. Geoffrey I. Webb. OPUS: Un
Algoritmo admisible Eficiente para Unordered Buscar . J. Artif.Intell. Res.. (JAIR, 3. 1995. [ Ver
Contexto ]. Alexander K. Seewald. Disertacin hacia la comprensin de apilamiento Los estudios de
un general Ensemble Aprendizaje Esquema ausgefuhrt zum Zwecke der Erlangung des
akademischen Grados eines der Doktors technischen Naturwissenschaften . [ Ver
Contexto ]. Geoffrey I Webb .Aprender Listas de decisin anteponiendo Reglas inferidos . Facultad
de Informtica y Matemticas de la Universidad de Deakin. [ Ver Contexto ].

Cita de pedidos:

Este dominio tumor primario se obtuvo del Centro Mdico de la Universidad, Instituto de Oncologa,
Ljubljana, Yugoslavia. Damos las gracias a M. y M. Zwitter Soklic de proporcionar los datos. Por
favor, incluya esta cita si tiene previsto utilizar esta base de datos.
Prodigy Data Set
Resumen : dominios variados como blocksworld, eightpuzzle y schedworld.

Conjunto de datos Domain- Nmero de


Theory
N/A rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de Fecha


N/A N/A N/A
atributo: atributos: Donado

Nmero de
Valores
Tareas asociadas: N/A N/A Web 10221
perdidos?
Accesos:

Fuente:
N/A

Datos Conjunto de Informacin:


He aqu un resumen de los dominios que se pueden utilizar en la actualidad con Prodigy. Cada uno
se describe brevemente. Para obtener ms informacin en cualquiera de ellos, lea el archivo
README en el directorio correspondiente al dominio. * stripsworld: Hay varios directorios
relacionados con el momento: - stripsworld:. del dominio para los STRIPS - tiras extendidas: una
extensin de . Las tiras de dominio donde las puertas se pueden bloquear y hay llaves para las
cerraduras - multirobot: el dominio STRIPS con dos o ms robots. * blocksworld: Hay varios
directorios relacionados con el momento: - blocksworld: el dominio como fue construido
inicialmente. - frozenblocksworld: una versin estable. Se utiliza para el manual. - extended-pc: una
extensin de blocksworld que trata sobre el peso y la ubicacin de los bloques.(Vase tambin
GridWorld) * eightpuzzle: un dominio para resolver el rompecabezas de ocho. * gramtica: una
gramtica sencilla. * GridWorld: una versin 3-D de blocksworld. * jupiter: Prodigy interacta con un
mundo externo, a travs de la modeladores Mundial. * lgica: un dominio de lgica
simple. eliminacin de Gauss en matrices: * matriz de lgebra. r1 *: dominio de configuracin VAX (
una simplificacin de R1). * cohetes:. dominio cohete chino * schedworld:. un dominio de la
programacin de la tienda de mquina * telescopio: un dominio de espejos edificio del telescopio.

Atributo de la informacin:
N/A

Documentos pertinentes:
N/A

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin.
Protein Data Set Data
Resumen : Indocumentados

Conjunto de datos Nmero de


N/A N/A rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de Fecha


N/A N/A N/A
atributo: atributos: Donado

Nmero de
Tareas asociadas: N/A Valores perdidos? N/A Web 21455
Accesos:

Fuente:
N/A

Datos Conjunto de Informacin:


N/A

Atributo de la informacin:
N/A

Documentos pertinentes:
N/A
Documentos que citan este conjunto de datos 1 :

Mikhail Bilenko y sugato Basu y Raymond J. Mooney. Integracin de las limitaciones y de


aprendizaje mtrica en la agrupacin semi-supervisado . ICML. 2004. [ Ver Contexto ]. Qingping Tao
y Stephen Scott y NV Vinodchandran y Thomas T. Osugi. generalizadas de aprendizaje a travs de
la caja de conteo aproximado mltiple instancia basado en SVM . ICML. 2004. [ Ver
Contexto ]. Qingping Tao Ph. D. HACIENDO algoritmos de aprendizaje eficiente con
EXPONENCIALMENTE muchas caractersticas . Qingping Tao una disertacin Facultad de El
Colegio de Graduados de la Universidad de Nebraska en cumplimiento parcial de los
requisitos. 2004. [ Ver Contexto ]. Michihiro Kuramochi y George Karypis. Encontrar patrones
frecuentes en un grfico minimalista grande . SDM. 2004. [ Ver Contexto ]. Aik Choon Tan y David
Gilbert. An Empirical Comparacin de las tcnicas de aprendizaje automtico supervisado en
Bioinformtica . APBC. 2003. [ Ver Contexto ]. Michael L. Raymer y Travis E. Doom y Leslie A. Kuhn
y William F. Punch. Descubrimiento de conocimiento en bases de datos mdicas y biolgicas
utilizando un clasificador de Bayes / algoritmo evolutivo hbrido . Transacciones de IEEE en
Sistemas, Hombre y Ciberntica, parte B, de 33 aos. 2003. [ Ver Contexto ]. Jianbin Tan y David L.
Dowe. MML Inferencia de la Decisin Grficos con varias vas uniones y los atributos
dinmicos . Conferencia australiana sobre Inteligencia Artificial. 2003. [ Ver Contexto ]. Steven
Eschrich y Nitesh V. Chawla y Lawrence O. Hall. Mtodos de generalizacin en
Bioinformtica . BIOKDD. 2002. [ Ver Contexto ]. Mukund Deshpande y George Karypis. Evaluacin
de Tcnicas para la clasificacin de secuencias biolgicas . PAKDD. 2002. [ Ver Contexto ]. Andreas
L. Prodromidis. Sobre la Gestin de Aprendizaje Distribuido Agentes Ph.D. Propuesta de Tesis
CUCS-032-97 . Departamento de Ciencias de la Universidad de Columbia por ordenador. 1998. [ Ver
Contexto ]. Kai Ming Ting y Boon Toh baja.Combinacin de modelo en el Multiple-Data-Lotes
Escenario . ECML. 1997. [ Ver Contexto ]. Daichi Mochihashi y Gen-ichiro Kikui y Kenji Kita. Learning
no estructural Distancia mtrica por distorsiones mnimas en Racimo . ATR oral laboratorios de
investigacin Idioma de traduccin. [ Ver Contexto ]. Mehmet Dalkilic y Arijit Sengupta. Un
clasificador-Logic terico llamado Crculo . Escuela de Informtica Centro de Genmica y
Bioinformtica de la Universidad de Indiana. [ Ver Contexto ]. Kuan-ming Lin y Chih-Jen Lin. Estudio
sobre Reduccin de Mquinas de Vectores Soporte . Departamento de Ciencias de la Computacin
e Ingeniera de la Informacin de la Universidad Nacional de Taiwn. [ Ver Contexto ]. Kai Ming Ting
y Boon Toh baja. Teora de combinacin: una alternativa a la combinacin de datos . Universidad de
Waikato. [ Ver Contexto ]. Zoran Obradovic y Slobodan Vucetic. Desafos en Scientific Data Mining:
muestras heterogneas, sesgadas, y grandes . Centro de Informacin de Ciencia y Tecnologa de la
Universidad de Temple. [ Ver Contexto ].

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Pseudo Peridico sinttico de serie temporal
de Conjunto de Datos
Resumen : Este conjunto de datos se ha diseado para los sistemas
de pruebas de indexacin en bases de datos de series de tiempo. Los
datos aparecen altamente peridica, pero nunca se repite exactamente
en s.

Conjunto de datos Univariante, Nmero de


Time-Series
100000 rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 1999-


N/A N/A
atributo: atributos: Donado 02-08

Nmero de
Valores
Tareas asociadas: N/A N/A Web 14544
perdidos?
Accesos:

Fuente:
Eamonn J. Keogh y Michael J. Pazzani
Departamento de Informacin y Ciencias de la Computacin
de la Universidad de California, Irvine, California 92697
EE.UU. eamonn '@' ics.uci.edu , Pazzani '@' ics.uci.edu

Datos Conjunto de Informacin:


Este conjunto de datos se ha diseado para los sistemas de pruebas de indexacin en bases de
datos de series de tiempo. Se trata de un conjunto de datos mucho ms grande que se ha utilizado
en ningn estudio publicado (que actualmente estamos conscientes de). Contiene un milln de
puntos de datos. Los datos se ha dividido en 10 secciones para facilitar las pruebas (vase a
continuacin). Se recomienda construir el ndice con 9 de las secciones 100.000 datapoint, y
extrayendo al azar una forma de consulta a partir de la 10 seccin. (Algunos trabajos publicados
con anterioridad parece haber utilizado las consultas que tambin se utilizaron para construir la
estructura de indexacin. Esto producir resultados optimistas) Los datos son interesantes porque
tienen estructura en diferentes resoluciones. Cada una de las 10 secciones en las generadas por las
invocaciones independientes de la funcin: (ver equation.gif) . Dnde rand (x) produce un entero
aleatorio entre cero y x Los datos aparecen altamente peridica, pero nunca se repite exactamente
en s. Esta caracterstica est diseada para desafiar la estructura de indexacin. Las series
temporales se complotados aqu: (ts1-5.gif), (ts6-10.gif)
Atributo de la informacin:
Los datos se almacenan en un archivo ASCII. Hay 10 columnas, 100.000 filas. Todos los puntos de
datos se encuentran en el rango de -0.5 a +0.5. filas estn separadas por retornos de carro,
columnas por espacios.

Documentos pertinentes:
Eamonn J. Keogh, Michael J. Pazzani: (1999). Un esquema de indexacin de bsqueda de similitud
en grandes bases de datos de series de tiempo. La 11 Conferencia Internacional sobre Gestin de
Base de Datos de la Ciencia y de Estadstica. Cleveland, Ohio. [Web Link] Sanghyun Park, Dongwon
Lee, y Wesley W. Chu. "Recuperacin rpida de subsecuencias similares en larga secuencia de
bases de datos", en el tercero IEEE Conocimiento e Ingeniera Taller de Intercambio de Datos
(KDEX), Chicago, IL, EE.UU., noviembre de 1999 [Web Link]

Cita de pedidos:
Disponible de forma gratuita para su uso en investigacin.
PubChem Bioensayo de datos Conjunto de
datos
Resumen : Estos conjuntos de datos de bioensayo altamente desequilibrados son de los diferentes
tipos de evaluacin que se pueden realizar con la tecnologa HTS. 21 conjuntos de datos se crean
a partir de 12 bioensayos.

Conjunto de datos Nmero de


Multivariante N/A rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2011-


Entero, real N/A
atributo: atributos: Donado 03-29

Nmero de
Valores
Tareas asociadas: Clasificacin N/A Web 13790
perdidos?
Accesos:

Fuente:
Virtual de Bioensayo datos
Amanda C Schierz, Centro de Investigacin de Tecnologa Inteligente de la Universidad de
Bournemouth, Talbot Campus, Poole, Dorset, BH12 5BB, Reino Unido
Journal of Quimioinformtica 2009, uno y veintin doi: 10.1186/1758-2946-1-21

Datos Conjunto de Informacin:


21 conjuntos de datos de bioensayo generados a partir de PubChem. Ambos bioensayos primarios y
confirmatorias (12 bioensayos, 21 mezclas) Los datos se proporcionan en la misma divisin tren /
prueba como el documento original. Los identificadores compuestos se han proporcionado en
archivos independientes en el caso de personas desean generar su propia representacin
molecular. El orden del compuesto Ids es lo mismo que los archivos de datos. AID362 detalla
los resultados de un bioensayo de cribado primario de Formylpeptide receptor de unin de ligando de
la Universidad del Centro de Nuevo Mxico para Discovery Molecular. Es un relativamente pequeo
conjunto de datos con 4.279 compuestos y con una relacin de 1 a 70 activo compuestos inactivos
(1,4% clase minoritaria). Los compuestos fueron seleccionados sobre la base de cribado virtual
preliminar de aproximadamente 480.000 molculas pequeas de tipo frmaco de diversidad qumica
Laboratorios. AID456 es un ensayo de cribado primario del Centro de Burnham de Qumica
Genmica para la inhibicin de la inducida por TNFa de superficie celular de VCAM-1 expresin y
consiste en 9982 compuestos con una proporcin de 1 compuesto activo a 368 compuestos inactivos
(0,27% minoritarios). Los compuestos se han seleccionado por sus propiedades similares a las
drogas conocidas y 9431 cumplen con la regla de 5 [19]. AID688 es el resultado de una
pantalla principal para eIF2B levadura del Centro Penn para Discovery Molecular y contiene
informacin sobre la actividad de 27.198 compuestos con una proporcin de 1 compuesto activo a
108 compuestos inactivos (0,91% minoritarios). La pantalla es un reportero de ensayo-gen y 25.656
de los compuestos han conocido las propiedades similares a los medicamentos. AID604 es un
bioensayo de cribado primario de 2 inhibidores de la Rho quinasa del Instituto de Investigacin
Scripps Molecular Centro de Revisin. El bioensayo contiene la informacin de actividad de 59.788
compuestos con una proporcin de 1 compuesto activo a 281 compuestos inactivos (1,4%). 57.546
de los compuestos han conocido las propiedades similares a los medicamentos. AID373 es una
pantalla principal del Instituto de Investigacin Scripps Molecular Centro de Revisin para la
diferenciacin endotelial, el receptor de los esfingolpidos de la protena G-acoplada, 3. 59.788
compuestos se rastrearon con una relacin de 1 compuesto activo a 963 compuestos inactivos
(0,1%). 57.546 de los compuestos examinados se haban conocido las propiedades similares a los
medicamentos. AID746 es una pantalla principal del Instituto de Investigacin Scripps
Molecular Centro de Deteccin del activada por mitgenos protena quinasa. 59.788 compuestos se
rastrearon con una relacin de 1 compuesto activo a 162 compuestos inactivos (0,61%). 57.546 de
los compuestos examinados se haban conocido las propiedades similares a los medicamentos.
AID687 es el resultado de una pantalla principal de factor de coagulacin XI del Centro Penn para
Discovery Molecular y contiene informacin sobre la actividad de 33.067 compuestos con una
proporcin de 1 compuesto activo al 350 compuestos inactivos (0,28% minoritarios). 30.353 de los
compuestos examinados se haban conocido las propiedades similares a los medicamentos.
AID1608 es un tipo diferente de ensayo de seleccin que se utiliz para identificar los compuestos
que previenen la muerte celular inducida por HttQ103. Instituto Nacional de Trastornos Neurolgicos
y Accidentes Cerebrovasculares Aprobado Programa de Medicamentos.Los compuestos que
impiden una liberacin de un determinado producto qumico en el medio de crecimiento se etiquetan
como activo y los compuestos restantes estn etiquetados como que tiene actividad
concluyentes. AID1608 es un pequeo conjunto de datos con 1.033 compuestos y una relacin de 1
a 14 compuestos activos no concluyentes (6,58% de la clase minoritaria). AID644 pantalla de
confirmacin de AID604 AID1284 pantalla de confirmacin de AID746 AID439 pantalla de
confirmacin de AID373 pantalla de confirmacin AID721 de AID746

Atributo de la informacin:
Cada atributo se ha descrito completamente en la publicacin de acceso abierto. Los datos son una
mezcla de boolean, integer y valores reales. Slo 2 de clase - activa e inactiva. Altamente
desequilibrada.

Documentos pertinentes:
Citaciones para papel: El uso de rboles de clasificacin para la bioinformtica Xiang Chen, Minghui
Wang, Zhang Heping: 6 JAN 2011 DOI: 10.1002/widm.14 modelo de consenso para la identificacin
de nuevos inhibidores de PI3K en gran biblioteca qumica Chin Yee Liew, Xiao Hua Ma y Chun Wei
Yap Journal of Computer-Aided Molecular Design Volumen 24, Nmero 2, 131-141, DOI:
10.1007/s10822-010-9321-0 gentica del algoritmo de red neuronal-(GANN): un estudio de las
funciones de activacin de redes neuronales y la profundidad de Bsqueda algoritmo gentico
aplicado a la seleccin de funcin Dong Ling Tong y Robert Mintram Revista Internacional de
Aprendizaje Automtico y Ciberntica Volumen 1, Nmeros 1-4, 75-87, DOI: 10.1007/s13042-010-
0004-x

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
QSAR biodegradacin Data Set
Resumen : Conjunto de datos que contiene los valores para 41 atributos (descriptores
moleculares) que se utiliza para clasificar los 1.055 productos qumicos en 2 clases (listos y no
listos biodegradable).

Conjunto de datos Nmero de


Multivariante 1055 rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de Fecha


Entero, real 41 21/06/2013
atributo: atributos: Donado

Nmero de
Valores
Tareas asociadas: Clasificacin N/A Web 3702
perdidos?
Accesos:

Fuente:
Kamel Mansouri, Tine Ringsted, Davide Ballabio ( davide.ballabio '@' unimib.it ), Roberto Todeschini,
Viviana Consonni, Milano Quimiometra y QSAR Research Group
(http://michem.disat.unimib.it/chm/ ), Universitt degli Studi Milano "Bicocca, Milano (Italia)

Datos Conjunto de Informacin:


La biodegradacin de datos QSAR fue construido en el Milano Quimiometra y QSAR Research
Group (Universit degli Studi Milano "Bicocca, Milano, Italia). La investigacin que lleva a estos
resultados ha recibido financiacin de la Europea Community s Sptimo Programa Marco
[FP7/2007-2013] en virtud de Convenio de subvencin n. 238701 de Marie Curie ITN
Quimioinformtica ambientales del proyecto (ECO).
Los datos se han utilizado para desarrollar QSAR (relaciones cuantitativas estructura-actividad)
Modelos para el estudio de las relaciones entre la estructura qumica y la biodegradacin de
molculas. Valores experimentales de biodegradacin de 1.055 productos qumicos se obtuvieron de
la pgina web del Instituto Nacional de Tecnologa y Evaluacin de Japn (NITE). Se desarrollaron
modelos de clasificacin con el fin de discriminar listos (356) y no estn listos (699) molculas
biodegradables mediante tres mtodos de modelado diferentes: k vecinos ms cercanos, por
mnimos cuadrados parciales Anlisis discriminante y Mquinas de Vectores Soporte. Los detalles
sobre los atributos (descriptores moleculares) seleccionados en cada modelo se puede encontrar en
la referencia citada: Mansouri, K., Ringsted, T., Ballabio, D., Todeschini, R., Consonni, V.
(2013). Estructura Cuantitativa - modelos de actividad Relacin de biodegradabilidad de las
sustancias qumicas. Journal of Chemical Information and Modeling, 53, 867-878.

Atributo de la informacin:
41 descriptores moleculares y 1 clase experimental:
1) SpMax_L: Leading valor propio de la matriz de Laplace
2) J_Dz (e): Balaban-como ndice de matriz Barysz ponderado por Sanderson electronegatividad
3) NHM: El nmero de tomos pesados
4) F01 [NN]: Frecuencia de NN a la distancia topolgica 1
5) F04 [CN]: Frecuencia de CN en la distancia topolgica 4
6) NssssC: Nmero de tomos de tipo ssssC
7) NCB-: Nmero de benceno sustituido C (sp2)
8) C%: Porcentaje de tomos de C
9) NCP: Nmero de primaria C terminal (sp3)
10) nO: El nmero de tomos de oxgeno
11) F03 [CN]: Frecuencia de CN en la distancia topolgica 3
12) SdssC: Suma de DSSC E-estados
13) HyWi_B (m): ndice de Hyper-Wiener-like (funcin de registro) de la matriz de la carga ponderada
por la masa
14) LOC: Poda ndice centric
15) SM6_L: Momento espectral de orden 6 de la matriz de Laplace
16) F03 [CO]: Frecuencia de C - O a una distancia topolgica 3
17) Yo: electronegatividad Sanderson atmica (escalado en el tomo de carbono) Media
18) Mi: primer potencial de ionizacin media (escalado en el tomo de carbono)
19) nN-N: Nmero de N Hidracinas
20) nArNO2: Nmero de nitro grupos (aromtico)
21) nCRX3: Nmero de CRX3
22) SpPosA_B (p): Normalizado suma positiva espectral de la matriz de la carga ponderada por
polarizabilidad
23) nCIR: Nmero de circuitos
24) B01 [C-Br]: Presencia / ausencia de C - Br en la distancia topolgica 1
25) B03 [C-Cl]: Presencia / ausencia de C - Cl a distancia topolgica 3
26) N-073:.. Ar2NH / Ar3N / Ar2N-Al / R. N. R
27) SpMax_A: Liderando valor propio de la matriz de adyacencia (ndice Lovasz-Pelikan)
28) Psi_i_1d: ndice pseudoconnectivity estado Intrinsic - Tipo de 1d
29) B04 [C-Br]: Presencia / ausencia de C - Br en la distancia topolgica 4
30) SDO: Suma de E -dice
31) TI2_L: ndice Segundo Mohar de matriz de Laplace
32) CNRT: Nmero de anillo de C terciario (sp3)
33) C-026: R - CX - R
34) F02 [CN]: Frecuencia de C - N a distancia topolgica 2
35) nHDon: Nmero de tomos donadores de enlaces de H (N y O)
36) SpMax_B (m): A la vanguardia de valores propios de la matriz de la carga ponderada por la
masa
37) Psi_i_A: ndice pseudoconnectivity estado Intrinsic - Tipo S promedio
38) nN : El nmero de tomos de nitrgeno
39) SM6_B (m): Momento espectral de orden 6 de la matriz de la carga ponderada por la masa
40) nArCOOR: Nmero de steres (aromtico)
41) NX: Nmero de tomos de halgeno
42) clase experimental: listo biodegradable (RB ) y no est listo biodegradable (NRB)

Documentos pertinentes:
Mansouri, K., Ringsted, T., Ballabio, D., Todeschini, R., Consonni, V. (2013). Estructura Cuantitativa -
modelos de actividad Relacin de biodegradabilidad de las sustancias qumicas. Journal of Chemical
Information and Modeling, 53, 867-878

Cita de pedidos:
Por favor, cite el siguiente documento si publica los resultados basados en la biodegradacin de
datos QSAR: Mansouri, K., Ringsted, T., Ballabio, D., Todeschini, R. consonni, V. (2013). Estructura
Cuantitativa - modelos de actividad Relacin de biodegradabilidad de las sustancias
qumicas. Journal of Chemical Information and Modeling, 53, 867-878
QtyT40I10D100K Data Set
Resumen : Ya que no hay flujo de datos secuencial numrico disponible en los conjuntos de datos
estndar, este conjunto de datos se genera a partir del conjunto de datos original, T40I10D100K

Conjunto de datos Nmero de


Secuencial 3960456 rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de 2012-


Entero 4 Fecha Donado 10-21
atributo: atributos:

Valores Nmero de
Tareas asociadas: N/A N/A 10868
perdidos? Web Accesos:

Fuente:
Omid Shakeri, M.Sc omid.shakeri '@' tmu.ac.ir ; omid.shakeri '@' gmail.com . Laboratorio de Minera
de Datos, Informtica Departamento de Ingeniera de la Universidad Kharazmi, Karaj / Tehern,
Irn Mir Mohsen Pedram, Ph. D Pedram '@' tmu.ac.ir Lab para minera de datos., Informtica
Departamento de Ingeniera de la Universidad Kharazmi, Karaj / Tehern, Irn

Datos Conjunto de Informacin:


Este conjunto de datos se genera a partir del conjunto de datos T40I10D100K original, a los patrones
secuenciales difusos minas ms corrientes cuantitativas. Mientras que el T40I10D100K original se
genera a partir del generador de datos sinttica descrita en el REA. Agrawal, R. Srikant,
algoritmos rpidos para la minera de reglas de asociacin, 20a Internacional. Conf. en bases de
datos muy grandes (VLDB 94), pp 487-499. 1994a ??.
El conjunto de datos es una base de datos SQL Server 2008, que se puede conectar a una instancia
de SQL Server para utilizar

Atributo de la informacin:
CustomerID: el ID del cliente que ha realizado la transaccin (generado aleatoriamente [1 100])
Tiempo: el tiempo en que la transaccin se ha realizado
la transaccin: la operacin que se ha realizado
Cantidad: el valor de la cantidad de cada transaccin (generado aleatoriamente [ 1 10])

Documentos pertinentes:
Los trabajos que utilizan este conjunto de datos estn siendo revisados por rbitros.

Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
QtyT40I10D100K Conjunto de datos
Resumen: Ya que no hay flujo de datos secuencial numrico disponible en los conjuntos de datos
estndar, este conjunto de datos se genera a partir del conjunto de datos original, T40I10D100K

Conjunto de datos Nmero de


Secuencial 3960456 rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de 2012-


Entero 4 Fecha Donado
atributo: atributos: 10-21

Valores Nmero de Web


Tareas asociadas: N/A N/A 10937
perdidos? Accesos:

Fuente:
Omid Shakeri, M.Sc
omid.shakeri '@' tmu.ac.ir; omid.shakeri '@' gmail.com
Laboratorio de minera de datos., Computadora Departamento de Ingeniera de la Universidad Kharazmi,
Karaj / Tehern, Irn

Mir Mohsen Pedram, Ph.D


Pedram '@' tmu.ac.ir
Laboratorio de minera de datos., Computadora Departamento de Ingeniera de la Universidad Kharazmi,
Karaj / Tehern, Irn

Datos Conjunto de Informacin:


Este conjunto de datos se genera a partir del conjunto de datos T40I10D100K original, a los patrones
secuenciales difusos minas ms corrientes cuantitativas. Mientras que el T40I10D100K original se genera
a partir del generador de datos sinttica descrita en el REA. Agrawal, R. Srikant, algoritmos rpidos
para la minera de reglas de asociacin, 20a Internacional. Conf. en bases de datos muy grandes (VLDB
94), pp 487-499. 1994a .
El conjunto de datos es una base de datos SQL Server 2008, que se puede conectar a una instancia de
SQL Server para utilizar

Atributo de la informacin:
CustomerID: el ID del cliente que ha realizado la transaccin (generado aleatoriamente [1 100])
Tiempo: el tiempo en que la transaccin se ha realizado
Transaccin: la operacin que se ha realizado
Cantidad: el valor de la cantidad de cada transaccin (generado al azar [1 10])

Documentos pertinentes:
Los trabajos que utilizan este conjunto de datos estn siendo revisados por rbitros.
Cuadrpedos mamferos Conjunto
de datos
Resumen: El animals.c archivo es un generador de datos de instancias
estructuradas que representan animales cuadrpedos

Conjunto de datos Multivariante, Data- Nmero de N/


rea: Vida
Caractersticas: Generator instancias: A

Caractersticas del Nmero de 1992-


Real 72 Fecha Donado
atributo: atributos: 08-25

Valores Nmero de Web


Tareas asociadas: Clasificacin No 21131
perdidos? Accesos:

Fuente:
Origen:

Gennari, J. ~ H., Langley, P, \ & Fisher, D. (1989).


Modelos de formacin de conceptos incrementales. {\ It Inteligencia Artificial \ /}, {\ it 40 \ /}, 11-61.

Donante:

John H. Gennari (gennari '@' camis.stanford.edu 8/1992)

Datos Conjunto de Informacin:


El animals.c archivo es un generador de datos de instancias estructuradas que representan animales
cuadrpedos y usadas por Gennari, Langley, y Fisher (1989) para evaluar el algoritmo de aprendizaje no
supervisado CLASSIT. Los casos tienen 8 componentes: el cuello, cuatro piernas, el torso, la cabeza y la
cola. Cada componente se representa como un cilindro simplificado / generalizada (es decir, inspirado en
la obra de David Marr en "Visin: Una Investigacin Computacional Into the Representacin humana y
Procesamiento de la Informacin Visual", publicado por Freeman en 1982). Cada cilindro est en s
descrito por 9 atributos: ubicacin x 3, eje x 3, altura, radio, y la textura. Este cdigo genera instancias de
una de cuatro clases: perros, gatos, caballos y jirafas. El programa genera casos mediante la seleccin
de una clase de acuerdo con una distribucin determinada por rand4 funcin (). Cada clase tiene un
prototipo; el prototipo de la clase seleccionada es perturbado de acuerdo a una distribucin descrita en el
cdigo de las cuatro clases (es decir, medios parametrizados con distribuciones Guassian se utilizan para
representar los prototipos y las distribuciones de perturbacin, donde se utilizan los medios para distinguir
las cuatro clases).

De Juan Gennari: (1990)

Las nicas notas que tengo al respecto es que yo no uso el formato de datos que crea ms. Para cambiar
esto, modificar "printpart ()". Tambin, se utiliza una aproximacin muy spera para una distribucin en
forma de campana. Actualmente, yo uso un generador de nmeros aleatorios mucho ms
sofisticado. Para solucionarlo, basta con sustituir "bellrand ()" con una distribucin en forma de campana
real.
Atributo de la informacin:
A. Ocho componentes por instancias / animal:
1. Cabeza
2. Cola
3. 4 patas
4. torso
5. cuello
B. Nueve atributos por componente:
1. Ubicacin 1
2. Ubicacin 2
3. Ubicacin 3
4. Eje 1
5. Eje 2
6. Eje 3
7. Altura
8. Radio
9. Textura

Cualitativa Estructura Actividad Relaciones Data


Set
Se presentan dos conjuntos de datos:: Abstracto pirimidinas y triazinas

Conjunto de datos Domain- Nmero de N/


rea: Fsico
Caractersticas: Theory instancias: A

Caractersticas del Nmero de N/


N/A Fecha Donado N/A
atributo: atributos: A

Valores N/ Nmero de Web


Tareas asociadas: N/A 8186
perdidos? A Accesos:

Fuente:
Ross D. King
Modelizacin Biomolecular Laboratorio
Imperial Cancer Research Fund
PO Box 123
Inn Fields 44 de Lincoln
Londres WC2A 3PX
Reino Unido
+44-71-242-0200 X3023
rd_king '@' icrf.ac.uk

Qualitative_Bankruptcy Conjunto de datos


Resumen: Predecir la Bancarrota de los parmetros cualitativos de expertos.

Conjunto de datos Nmero de


Multivariante 250 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de


N/A 7 Fecha Donado 09/02/2014
atributo: atributos:

Valores N/ Nmero de Web


Tareas asociadas: Clasificacin 3754
perdidos? A Accesos:

Fuente:
Fuente de informacin
- Creador: Mr.A.Martin (jayamartin '@' yahoo.com)
Mr.J.Uthayakumar (uthayakumar17691 '@' gmail.com)
Mr.M.Nadarajan (nadaraj.muthuvel '@' gmail.com)
- Guided By: Dr.V.Prasanna Venkatesan
- Institucin: Sri Manakula Vinayagar Facultad de Ingeniera y la Universidad de Pondicherry
- Pas: India
- Fecha: febrero 2014

Datos Conjunto de Informacin:


Los parmetros que hemos utilizado para la recogida del conjunto de datos se conoce a partir del
documento "El descubrimiento de reglas de decisin experts a partir de datos de bancarrota
cualitativos utilizando algoritmos genticos" por Myoung-Jong Kim *, Ingoo Han.

Atributo de la informacin:
Atributo Informacin: (P = Positivo, A-Normal, N-negativo, B-Bancarrota, NB-No-Quiebra)

1. Riesgo industrial: {P, A, N}


2. Gestin de Riesgos: {P, A, N}
3. Flexibilidad financiera: {P, A, N}
4. Credibilidad: {P, A, N}
5. Competitividad: {P, A, N}
6. Riesgo Operacional: {P, A, N}
7. Clase: {B, NB}

Documentos pertinentes:
Los parmetros que hemos utilizado para la recogida del conjunto de datos se conoce a partir del
documento "El descubrimiento de reglas de decisin experts a partir de datos de bancarrota
cualitativos utilizando algoritmos genticos" por Myoung-Jong Kim *, Ingoo Han.

Patrones de acoplamiento de registro de la


comparacin de datos Set
Resumen: Elemento-sabia comparacin de registros con datos personales de un ajuste de
relacionamiento. La tarea es decidir a partir de un patrn de comparacin si los registros subyacentes
pertenecen a una persona.

Conjunto de datos Nmero de


Multivariante 5749132 rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de 2011-


Real 12 Fecha Donado
atributo: atributos: 03-10

Valores Nmero de Web


Tareas asociadas: Clasificacin S 21410
perdidos? Accesos:

Fuente:
Los registros subyacentes se derivan del registro de cncer epidemiolgico de la
Estado alemn de Renania del Norte-Westfalia (NRW Epidemiologisches Krebsregister,
http://www.krebsregister.nrw.de ). Creacin de patrones de comparacin y
asignacin de estado de coincidencia se llevaron a cabo por miembros del personal de
el Instituto de Medicina Bioestadstica, Epidemiologa e Informtica (IMBEI)
en el Centro Mdico de la Universidad de la Universidad Johannes Gutenberg en Mainz,
Alemania ( http://www.imbei.uni-mainz.de ).

Datos Conjunto de Informacin:


Los registros representan los datos individuales, incluyendo primero y apellido, sexo, fecha de nacimiento
y el cdigo postal, que se recogieron a travs de inserciones iterativos en el transcurso de varios
aos. Los patrones de comparacin en este conjunto de datos se basan en una muestra de 100.000
registros que datan de 2005 a 2008. Pares de datos se clasificaron como "partido" o "no-match" durante
una extensa revisin manual donde participaron varios documentalistas. La clasificacin resultante sirvi
de base para la evaluacin de la calidad de la
propia s registry record procedimiento de vinculacin.

Con el fin de limitar la cantidad de patrones, se aplic un procedimiento de bloqueo,


que slo se seleccionan pares de registros que cumplen las condiciones de los acuerdos especficos. La
resultados de los siguientes seis iteraciones de bloqueo se fusionaron:

1. Igualdad fontica del nombre y apellido, la igualdad de la fecha de nacimiento.


2. Igualdad fontica del nombre de pila, la igualdad de los das del nacimiento.
3. Igualdad fontica del nombre de pila, la igualdad de mes de nacimiento.
4. Igualdad fontica del nombre de pila, la igualdad de los aos de nacimiento.
5. La igualdad de la fecha de nacimiento completa.
6. Igualdad fontica del nombre de la familia, la igualdad de sexo.

Este procedimiento dio lugar a 5.749.132 pares de registros, de los cuales 20.931 son partidos.

El conjunto de datos se divide en 10 bloques de (aproximadamente) el tamao y proporcin igual


de los partidos a los no partidos.

El frequencies.csv archivo independiente para cada atributo contiene predictivo


el nmero promedio de los valores en los registros subyacentes. Estos valores pueden, por ejemplo,
puede utilizar como u-probabilidades en relacionamiento basado en el peso despus de la
marco de Fellegi y Sunter.
Atributo de la informacin:
1. id_1: identificador interno del primer registro.
2. ID_2: identificador interno del segundo registro.
3. cmp_fname_c1: acuerdo del nombre, primer componente
4. cmp_fname_c2: acuerdo del nombre de pila, segundo componente
5. cmp_lname_c1: acuerdo del apellido, primer componente
6. cmp_lname_c2: acuerdo del apellido, segundo componente
7. cmp_sex: Acuerdo sexo
8. cmp_bd: acuerdo de fecha de nacimiento, componente das
9. cmp_bm: acuerdo de fecha de nacimiento, componente meses
10. cmp_by: acuerdo de fecha de nacimiento, componente aos
11. cmp_plz: acuerdo de cdigo postal
12. is_match: estado de coincidencia (TRUE para los partidos, FALSO para los no partidos)

El acuerdo de los componentes del nombre se mide como un nmero real en el intervalo [0,1], donde 0
indica desacuerdo mxima y 1 la igualdad de los valores subyacentes. Para las dems comparaciones,
slo se utilizan los valores de 0 (no iguales) y 1 (igual).

is_match es la variable de resultado. id_1 y ID_2 no se utilizan para la prediccin, pero podra ser
utilizado para construir los componentes conectados de las coincidencias encontradas.

Documentos pertinentes:
1. Irene Schmidtmann, Gael Hammer, Murat Sariyar, Aslihan Gerhold-Ay:
Evaluacin des Krebsregisters NRW Schwerpunkt Record Vinculacin. Tcnico
Informe, IMBEI 2009.
[Web Link]
- Describe la evaluacin externa de la vinculacin de registros del Registro
procedimientos.
- Los patrones de comparacin en este conjunto de datos se crearon en el transcurso del
esta evaluacin.

2. Murat Sariyar, Andreas Borg, Klaus Pommerening:


El control de las tasas de los partidos falsos en la vinculacin de registros utilizando la teora del valor
extremo.
Journal of Biomedical Informatics, 2011 (en prensa).
- Atributo del preparado: estado ecolgico deseado (boolean).
- Resultados:
- Un nuevo enfoque para la estimacin de la tasa de falsa coincidencia en el registro
vinculacin con los mtodos de Teora del Valor Extremo (EVT).
- El modelo elimina la necesidad de la etiqueta mientras que los datos de entrenamiento
lograr slo leve menor precisin en comparacin con un procedimiento
que tiene conocimiento sobre el estado de coincidencia.

Ubicacin relativa de cortes de TC axial en el eje


del conjunto de datos
Resumen: El conjunto de datos consta de 384 caractersticas extradas de las imgenes de TC. La
variable de clase es numrico y indica la localizacin relativa de la rebanada CT en el eje axial del
cuerpo humano.

Conjunto de datos Domain- Nmero de


53500 rea: Ordenador
Caractersticas: Theory instancias:

Caractersticas del Nmero de 2011-07-


Real 386 Fecha Donado
atributo: atributos: 07

Valores Nmero de Web


Tareas asociadas: Regresin N/A 14097
perdidos? Accesos:

Fuente:
F. Graf, H.-P. Kriegel, M. Schubert, S. Poelsterl, A. Cavallaro

Ludwig-Maximilians-Universitt de Mnich
Base de datos del Grupo de Sistemas
Oettingenstrae 67
80538 Munich, Alemania

Datos Conjunto de Informacin:


Los datos se recuperan de un conjunto de 53.500 imgenes de TC de 74 diferentes
pacientes (43 varones, 31 mujeres).

Cada slice CT es descrito por dos histogramas en el espacio polar.


La primera histograma describe la ubicacin de las estructuras seas en la imagen,
la segunda la ubicacin de las inclusiones de aire en el interior del cuerpo.
Ambos histogramas se concatenan para formar el vector de caracterstica final.
Bins que estn fuera de la imagen estn marcadas con el valor -0.25.

La variable de clase (ubicacin relativa de una imagen en el eje axial) era


construido por anotar manualmente hasta 10 puntos de referencia distintos en diferentes
Cada volumen CT con ubicacin conocida. La ubicacin de las rebanadas en entre
puntos de referencia fue interpolada.

Atributo de la informacin:
1. PatientID: Cada ID identifica un paciente diferente
2. - 241:. Histograma que describe estructuras seas
242. - 385:. Histograma que describe inclusiones de aire
386. Referencia: ubicacin relativa de la imagen en el eje axial (clase
valor). Los valores estn en el intervalo [0; 180], donde 0 denota
la parte superior de la cabeza y 180 las plantas de los pies.

Documentos pertinentes:
1. F. Graf, H.-P. Kriegel, M. Schubert, S. Poelsterl, A. Cavallaro
Registro de imgenes 2D en imgenes computarizadas que utilizan radiales Descriptores
Imagen
En Informtica de Imgenes Mdicas e Intervencin Asistida por Ordenador (MICCAI),
Toronto, Canada, 2011.

Los datos se utiliz para predecir la ubicacin relativa de cortes de TC en


el eje axial mediante la bsqueda del vecino k-ms cercano.

2. F. Graf, H.-P. Kriegel, lsterl S. P , M. Schubert, A. Cavallaro


Posicin Prediccin en Scans Volumen CT
En Actas de la 28 Conferencia Internacional sobre la mquina
Learning (ICML) Taller de Aprendizaje para los desafos mundiales,
Bellevue, Washington, WA, 2011.

Aqu, se utilizaron los datos para aplicar combinaciones ponderadas de la imagen


caractersticas para la localizacin de pequeos volmenes sub en tomografas computarizadas.

3. Cheng Ming-Yen, y Hau-tieng Wu. "Local de regresin lineal sobre Colectores y su


interpretacin geomtrica." arXiv preimpresin (2012).

Restaurant & consumidor Set Datos


Resumen: El conjunto de datos se obtuvo a partir de un prototipo de sistema de recomendacin. La
tarea consista en generar una lista top-n de restaurantes de acuerdo a las preferencias de los
consumidores.

Conjunto de datos Nmero de


Multivariante 138 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de 2012-08-


N/A 47 Fecha Donado
atributo: atributos: 04

Valores Nmero de Web


Tareas asociadas: N/A S 29079
perdidos? Accesos:

Fuente:
Creadores:
Rafael Ponce Medelln y Juan Gabriel Gonzlez Serna
rafaponce '@' cenidet.edu.mx, gabriel '@' cenidet.edu.mx
Departamento de Ciencias de la Computacin.
Centro Nacional para la Investigacin y el Desarrollo Tecnolgico CENIDET, M xico
Los donantes de la base de datos:
Blanca Vargas-Govea y Juan Gabriel Gonzlez Serna
blanca.vargas '@' cenidet.edu. mx / blanca.vg @ gmail.com, gabriel '@' cenidet.edu.mx
Departamento de Ciencias de la Computacin.
Centro Nacional para la Investigacin y el Desarrollo Tecnolgico CENIDET, M xico

Datos Conjunto de Informacin:


Se probaron dos mtodos: una tcnica de filtro de colaboracin y un enfoque contextual.
(I) La tcnica de filtrado colaborativo utilizado slo un ejemplo de archivo, rating_final.csv que comprende
los atributos de usuario, elementos y clasificacin.
(Ii) El enfoque contextual generado las recomendaciones utilizando los ocho archivos de datos restantes.

Atributo de la informacin:
Los archivos, las instancias y atributos
Nmero de archivos: 9

Restaurantes
1 chefmozaccepts.csv
2 chefmozcuisine.csv
3 chefmozhours4.csv
4 chefmozparking.csv
5 geoplaces2.csv

Consumidores
6 usercuisine.csv
7 userpayment.csv
8 userprofile.csv

Usuario-Item-Clasificacin
9 rating_final.csv

% --- Formato Descripcin


Nombre de archivo
Nmero de casos
Nmero de atributos
atributo: tipo, nmero de valores perdidos (si los hay), Nmero de valores [lista de valores]
% ---

1 chefmozaccepts.csv
Instancias: 1314
Atributos: 2
placeID: Nominal
Rpayment: Nominal, 12 [cash,VISA,MasterCard-
Eurocard,American_Express,bank_debit_cards,checks,Discover,Carte_Blanche,Diners_Club,Visa,Japan_
Credit_Bureau,gift_certificates]

2 chefmozcuisine.csv
Instancias: 916
Atributos: 2
placeID: Nominal
Rcuisine: Nominal,
59 [Afghan,African,American,Armenian,Asian,Bagels,Bakery,Bar,Bar_Pub_Brewery,Barbecue,Brazilian,Br
eakfast-Brunch,Burgers,Cafe-Coffee_Shop,
Cafeteria,California,Caribbean,Chinese,Contemporary,Continental-European,Deli-Sandwiches,Dessert-
Ice_Cream,Diner,Dutch-
Belgian,Eastern_European,Ethiopian,Family,Fast_Food,Fine_Dining,French,,Game,German,Greek,Hot_D
ogs,
International,Italian,Japanese,Juice,Korean,Latin_American,Mediterranean,Mexican,Mongolian,Organic-
Healthy,Persian,
Pizzeria,Polish,Regional,Seafood,Soup,Southern,Southwestern,Spanish,Steaks,Sushi,Thai,Turkish,Veget
arian,Vietnamese]

3 chefmozhours4.csv
Instancias: 2339
Atributos: 3
placeID: Nominal
hora:, Rango :00:00-23 nominal: 30
da: nominales, 7 [lun, mar, mi, jue, vie, sb, dom]

4 chefmozparking.csv
Instancias: 702
Atributos: 2
placeID: Nominal
parking_lot: Nominal, 7 [pblica, ninguno, s, valet_parking, libre, calle, validated_parking]

5 geoplaces2.csv
Instancias: 130
Atributos: 21
placeID: Nominal
latitud: Numrico
longitud: Numrico
the_geom_meter: Nominal (Geospatial)
Nombre: Nominal
Direccin: Nominal, Missing: 27
ciudad: Nominal, Missing: 18
Estado: Nominal, Missing: 18
pas: Nominal, Missing: 28
fax: Numrico, donde desapareci: 130
zip: Nominal, Missing: 74
alcohol: Nominal, Valores: 3 [No_Alcohol_Served, Wine_Beer, Full_Bar]
smoking_area: Nominal, 5 [ninguno, only_at_bar, permitido, seccin, not_permitted]
dress_code: Nominal, 3 [informal, casual, formal]
accesibilidad: Nominal, 3 [no_accessibility, por completo, parcialmente]
precio: Nominal, 3 [media, baja, alta]
url: Nominal, Missing: 116
Rambience: Nominal, 2 [familiar, tranquilo]
franquicia: Nominal, 2 [e, f]
rea: Nominal, 2 [abierto, cerrado]
other_services: Nominal, 3 [ninguno, internet, la variedad]

6 rating_final.csv
Instancias: 1161
Atributos: 5
ID de usuario: Nominal
placeID: Nominal
Evaluacin: Numrico, 3 [0,1,2]
food_rating: Numrico, 3 [0,1,2]
service_rating: Numrico, 3 [0,1,2]
7 usercuisine.csv
Instancias: 330
Atributos: 2
ID de usuario: Nominal
Rcuisine: nominal,
103 [Afghan,African,American,Armenian,Asian,Australian,Austrian,Bagels,Bakery,Bar,Bar_Pub_Brewery,
Barbecue,Basque,Brazilian,Breakfast-Brunch,British,Burgers,Burmese,Cafe-
Coffee_Shop,Cafeteria,Cajun-
Creole,California,Cambodian,Canadian,Caribbean,Chilean,Chinese,Contemporary,Continental-
European,Cuban,Deli-Sandwiches,Dessert-Ice_Cream,Dim_Sum,Diner,Doughnuts,Dutch-
Belgian,Eastern_European,Eclectic,Ethiopian,Family,Fast_Food,Filipino,Fine_Dining,French,Fusion,Gam
e,German,Greek,Hawaiian,Hot_Dogs,Hungarian,Indian-
Pakistani,Indigenous,Indonesian,International,Irish,Israeli,Italian,Jamaican,Japanese,Juice,Korean,Kosher
,Latin_American,Lebanese,Malaysian,Mediterranean,Mexican,Middle_Eastern,Mongolian,Moroccan,North
_African,Organic-
Healthy,Pacific_Northwest,Pacific_Rim,Persian,Peruvian,Pizzeria,Polish,Polynesian,Portuguese,Regional,
Romanian,Russian-
Ukrainian,Scandinavian,Seafood,Soup,Southeast_Asian,Southern,Southwestern,Spanish,Steaks,Sushi,S
wiss,Tapas,Tea_House,Tex-Mex,Thai,Tibetan,Tunisian,Turkish,Vegetarian,Vietnamese]

8 userpayment.csv
Instancias: 177
Atributos: 2
ID de usuario: Nominal
Upayment: Nominal, 5 [efectivo, bank_debit_cards, MasterCard, Eurocard, VISA, American_Express]

9 userprofile
Instancias: 138
Atributos: 19
ID de usuario: Nominal
latitud: Numrico
longitud: Numrico
the_geom_meter: Nominal (Geospatial)
Hbitos: Nominal, donde desapareci: 3, 2 [false, true]
drink_level: Nominal, 3 [abstemia, bebedor social, bebedor ocasional]
dress_preference: Nominal, donde desapareci: 5, 4 [informal, formal, sin preferencia, elegante]
ambiente: Nominal, donde desapareci: 6, 3 [de la familia, los amigos, solitario]
transporte: Nominal, donde desapareci: 7, 3 [a pie, pblico, propietario del vehculo]
estado_civil: Nominal, donde desapareci: 4, 3 [soltero, casado, viudo]
Hijos: Nominal, donde desapareci: 11, 3 [independientes, nios, dependiente]
birth_year: Nominal
inters: nominal, 5 [variedad, tecnologa, nadie, retro, respetuoso del medio ambiente]
personalidad: Nominal, 4 [ahorrativa-protector, cazador ostentoso, duro trabajador, conformista]
religin: Nominal, 5 [ninguno, catlica, cristiana, mormona, juda]
actividad: Nominal, donde desapareci: 7, 4 [estudiante, profesional, desempleados, la clase obrera]
color: Nominal, 8 [negro, rojo, azul, verde, morado, naranja, amarillo, blanco]
peso: Numrico
Presupuesto: Nominal, donde desapareci: 7, 3 [media, baja, alta]
altura: Numrico

Documentos pertinentes:
Blanca Vargas-Govea, Juan Gabriel Gonzlez-Serna, Rafael Ponce-Medelln. Efectos de las
caractersticas contextuales relevantes en el funcionamiento de un sistema de recomendacin de
restaurantes. En RecSys 11: Taller sobre Context Aware Sistemas de Recomendacin (CARS-
2011), Chicago, IL, EE.UU., 23 de octubre de 2011.
Reuters RCV1 RCV2 multilinge, Multiview
Categorizacin Texto coleccin de prueba de
conjunto de datos
Resumen: Esta coleccin de prueba contiene caractersticas funcionales que ofrece documentos
escritos originalmente en cinco idiomas diferentes y sus traducciones, sobre un conjunto comn de 6
categoras.

Conjunto de datos Nmero de


Multivariante 111740 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de


Real N/A Fecha Donado 09/06/2013
atributo: atributos:

Valores Nmero de Web


Tareas asociadas: Clasificacin N/A 5938
perdidos? Accesos:

Fuente:
Massih-Reza Amini
Universit Joseph Fourier
Laboratoire d'Informatique de Grenoble
Email: Massih-Reza.Amini '@' imag.fr

Cyril Goutte
Consejo de Investigacin Nacional de Canad
Grupo de Tecnologa Interactiva Idioma
Email: Cyril.Goutte '@' nrc.ca

Datos Conjunto de Informacin:


Rcv1rcv2aminigoutte.tar.bz2 Descompresin crear un directorio que contiene subdirectorios 5 ES, FR,
GR, IT y SP, que corresponde a los 5 idiomas. Cada subdirectorio {ES, FR, GR, IT, SP} contiene 5
archivos, cada uno con ndices de los documentos escritos o traducidos en ese idioma. Por ejemplo, ES
contiene archivos:
- Index_EN-ES: documentos originales en ingls
- Index_FR-ES: documentos franceses traducidos al Ingls
- Index_GR-ES: documentos alemanes traducidos al Ingls
- Index_IT-ES: documentos italianos traducidos al Ingls
- Index_SP-ES: documentos espaoles traducidos al Ingls

Y lo mismo para los otros 4 idiomas.

Cada archivo contiene un documento indexado por lnea, en un formato similar al SVM_light. Cada lnea
es de la forma: : : Donde ... es la etiqueta de categora, es decir, uno de C15, CCAT, E21, ECAT, GCAT o
M11. : es la caracterstica, par de valores, en orden ascendente del ndice de funcin.

El orden de los documentos se mantiene en archivos correspondientes, por ejemplo, FR / Index_EN-FR y


ES / Index_EN-ES tienen el mismo nmero de documentos (y por lo tanto el mismo nmero de lneas), en
el mismo orden.
Atributo de la informacin:
Nos centramos en seis categoras relativamente populosos: C15, CCAT, E21, ECAT, GCAT, M11. Para
cada lengua y cada clase, tomamos muestras de hasta 5.000 documentos de la RCV1 (para Ingls) o
RCV2 (para otros idiomas). Documentos pertenecientes a ms de una de nuestras 6 clases se les asign
la etiqueta de su clase ms pequea. Esto dio lugar a los documentos 12-30K por idioma, y los
documentos 11-34K por clase. La distribucin de documentos a travs de las lenguas y las clases son:

Nmero de vocabulario
El tamao de los documentos de Idiomas porcentaje
**********************************************
Ingls 18.758 16,78 21.531
Francs 26.648 23,45 24.893
German 29.953 26,80 34.279
Italian 24.039 21,51 15.506
Espaol 12.342 11.46 11.547
-------
Total 111.740

La distribucin de las clases en toda la coleccin es


Nmero de
Documentos Clase porcentaje
*******************************
C15 18816 16.84
CCAT 21426 19.17
E21 13701 12.26
ECAT 19198 17.18
GCAT 19178 17.16
M11 19421 17.39

En los experimentos que realizamos en cite {} Aug09, consideramos cada documento disponible en un
idioma determinado como la vista observada para un ejemplo y todos los documentos traducidos se
utilizaron como los otros puntos de vista para que el ejemplo, generado utilizando la traduccin
automtica. Los resultados mostrados en este estudio fueron en promedio ms de 10 muestras al azar de
10 ejemplos etiquetados por vista para la formacin, y el 20% de la coleccin para la prueba.

Documentos pertinentes:
Massih-Reza Amini, Nicolas Usunier y Cyril Goutte. Aprender de mltiples vistas parcialmente
observados - una aplicacin para que Categorizacin textos en varios idiomas. Los avances en los
sistemas neuronales de procesamiento de informacin 22, pp 28-36, 2009

Massih-Reza Amini y Cyril Goutte. Un enfoque de clasificacin para el aprendizaje a partir de corpus
multilinge. Aprendizaje Automtico Diario Springer, 79 (1-2) :105-121, 2010

Abhishek Kumar, Hal Dauma III. Un enfoque de co-formacin para mltiples vistas clustering
espectral. Conferencia Internacional sobre Aprendizaje Automtico, pp 393-400. 2011

Cita de pedidos:
Si publica los resultados sobre la base de este conjunto de datos, por favor, mencione su uso, al hacer
referencia a:

M.-R. Amini, N. Usunier, C. Goutte. Aprender de mltiples vistas parcialmente observados - una
aplicacin para que Categorizacin textos en varios idiomas. Los avances en los sistemas de
procesamiento de informacin neural 22, p. 28-36, 2009

Reuters Transcrito subconjunto del conjunto de


datos
Resumen: Este conjunto de datos se crea mediante la lectura de 200 archivos de los 10 ms grandes
clases de Reuters y el uso de un sistema de reconocimiento automtico de voz para crear
transcripciones correspondientes.

Conjunto de datos Nmero de


Texto 200 rea: Negocios
Caractersticas: instancias:

Caractersticas del Nmero de N/ 2008-03-


N/A Fecha Donado
atributo: atributos: A 08

Valores N/ Nmero de Web


Tareas asociadas: Clasificacin 24720
perdidos? A Accesos:

Fuente:
Shourya Roy
shourya.roy '@' gmail.com
y
Shantanu Godbole
shantanu '@' godbole.net

Datos Conjunto de Informacin:


Caractersticas de los datos:
--------------------
Estos datos se cre mediante la seleccin de 20 archivos cada una de las 10 clases ms grandes
en la coleccin Reuters-21578
( [Web Link] ).
Los archivos fueron ledos por 3 altavoces de la India y una de voz automtico
Se utiliz Reconocimiento sistema (ASR) para generar las transcripciones. Ms sobre el
Sistema de ASR se puede encontrar en [1]. Tal conjunto de datos va a ser muy til para
estudiar el efecto del ruido de reconocimiento de voz en los algoritmos de minera de texto.
La primera obra que refiri a esta base de datos estaba en clasificacin de texto ruidoso [2].

Formato de datos:
----------
Hay 10 directorios etiquetados con el nombre del tema.
Cada uno contiene 20 archivos de transcripciones.

Referencias:
----------
[1] LR Bahl, S. Balakrishnan-Aiyer, J. Bellegarda, M. Franz,
P. Gopalakrishnan, D. Nahamoo, M. Novak, M. Padmanabhan,
M. Picheny y S. Roukos,
Rendimiento del vocabulario amplio sistema de reconocimiento de habla continua IBM en
la tarea Wall Street Journal ARPA.
En Proc. de ICASSP '95,
pginas 41-44, Detroit, MI, 1995.
[2] S. Agarwal, S. Godbole, D. Punjani y S. Roy,
Cunto ruido es demasiado: Un estudio en clasificacin automtica de texto ',
En Proc. de ICDM 2007

Atributo de la informacin:
Proporcionar informacin acerca de cada atributo del conjunto de datos.

Documentos pertinentes:
'"Cunto ruido en texto es demasiado: A Study in Clasificacin automtico de documentos", ICDM 2007,
Sumeet Agarwal, Shantanu Godbole, Diwakar Punjani y Shourya Roy

Reuters-21578 Texto Categorizacin Coleccin


de conjunto de datos
Resumen: Se trata de una coleccin de documentos que apareci en Reuters de noticias en 1987. Los
documentos fueron reunidos y se indexan con categoras.

Conjunto de datos Nmero de


Texto 21578 rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de 1997-


Categrico 5 Fecha Donado
atributo: atributos: 09-26

Valores Nmero de Web


Tareas asociadas: Clasificacin N/A 43526
perdidos? Accesos:

Fuente:
David D. Lewis
AT & T Labs. - Investigacin
lewis '@' research.att.com

Documentos vinieron de Reuters de noticias en 1987.

Datos Conjunto de Informacin:


Desde el archivo readme originales (consultar para ms informacin):
-------------------------
Los documentos de la coleccin Reuters-21578 aparecieron en la agencia de noticias Reuters en
1987. Los documentos fueron reunidos y se indexan con categoras por personal de Reuters Ltd. (Sam
Dobbins, Mike Topliss, Steve Weinstein) y Carnegie Group, Inc. (Peggy Andersen, Monica Cellio, Phil
Hayes, Laura Knecht, Irene Nirenburg) en 1987.

En 1990, se pusieron a disposicin los documentos por Reuters y CGI con fines de investigacin en el
Laboratorio de Recuperacin de Informacin (W. Bruce Croft, Director) del Departamento de Informtica y
Ciencias de la Informacin en la Universidad de Massachusetts en Amherst. Formato de los documentos
y de la produccin de archivos de datos asociados se hizo en 1990 por David D. Lewis y Stephen Harding
en el Laboratorio de Recuperacin de la Informacin.

Adems el formato de archivo de datos y la produccin se hizo en 1991 y 1992 por David D. Lewis y
Peter Zapatero en el Centro de Estudios de Idiomas de la Informacin y de la Universidad de
Chicago. Esta versin de los datos se hizo disponible para FTP annimo como "Reuters-22173,
Distribucin 1.0" en enero de 1993. Desde 1993 hasta 1996, Distribucin 1.0 fue alojado en una sucesin
de sitios FTP que mantiene el Centro de Recuperacin de Informacin Inteligente (W. Bruce Croft,
Director) del Departamento de Ciencias de la Computacin en la Universidad de Massachusetts en
Amherst.

En la conferencia ACM SIGIR '96 en agosto de 1996 un grupo de investigadores de categorizacin de


texto discute cmo los resultados publicados sobre Reuters-22173 podran ser ms comparables entre
los estudios. Se decidi que una nueva versin de la coleccin debe ser producido con un formato menos
ambigua, y que incluye la documentacin explicando cuidadosamente los mtodos estndar de uso de la
coleccin. La oportunidad tambin se utiliza para corregir una variedad de errores tipogrficos y otros en
la categorizacin y el formato de la coleccin.

Steve Finch y David D. Lewis hizo esta limpieza de la coleccin de septiembre a noviembre de 1996, la
fuerte dependencia de la versin de etiquetado SGML de Finch de la coleccin de un estudio
anterior. Uno de los resultados de la revisin de la coleccin fue la eliminacin de 595 documentos que
eran rplicas exactas (basada en la identidad de las marcas de tiempo hasta el segundo) de otros
documentos de la coleccin. Por ello, la nueva coleccin tiene slo 21.578 documentos, y as se llama la
coleccin Reuters-21578. Este README describe la versin 1.0 de esta nueva coleccin, la cual nos
referimos como "Reuters-21578, Distribucin 1.0".

En la preparacin de la reunin y la documentacin que nos hemos beneficiado de las discusiones con
Eric Brown, William Cohen, Fred Damerau, Yoram Cantante, Amit Singhal, y Yiming Yang, entre muchos
otros.

Agradecemos a todas las personas y organizaciones que se enumeran ms arriba por su esfuerzo y
apoyo, sin el cual no existira esta coleccin.

Atributo de la informacin:
Reuters-21578, Distribucin 1.0 incluye cinco archivos (todos-los intercambios-strings.lc.txt, todo-orgs-
strings.lc.txt, de todo el pueblo-strings.lc.txt, todo-lugares-strings.lc.txt, y todo-temas-strings.lc.txt) que
enumeran los nombres de * todas las categoras legales * en cada juego. Un sexto archivo, cat-
descriptions_120396.txt da alguna informacin adicional sobre los conjuntos de categoras.
Documentos pertinentes:
Chidanand Apt, Fred Damerau, Sholom M. Weiss. "Automated Learning de Reglas de decisin para la
Categorizacin de texto." Transacciones de ACM en Sistemas de Informacin, 1994.
[Web Link]

Chidanand Apt, Fred Damerau, Sholom M. Weiss, "Hacia el aprendizaje de idiomas Automatizado
Independiente de modelos de categorizacin de texto." SIGIR 1994.
[Web Link]

Philip J. Hayes, Peggy M. Anderson, rene B. Nirenburg, Linda M. Schmandt. "TCS: A Shell para
contenido basado en texto Categorizacin". IEEE Conferencia sobre Aplicaciones de Inteligencia Artificial,
1990.
[Web Link]

Philip J. Hayes y Steven P. Weinstein. "Interpretar / TIS: Un sistema para contenido basado en la
indizacin de una base de datos de News Stories". Segunda Conferencia Anual de Aplicaciones
innovadoras de la Inteligencia Artificial, 1990.
[Web Link]

Documentos que citan este conjunto de datos 1:

. Manuel Oliveira Biblioteca Release Form Nombre del Autor: Stanley Robson de Oliveira Medeiros Ttulo
de la tesis: transformacin de datos para la privacidad-Preservar Data Mining Titulacin: Doctor en
Filosofa Ao este ttulo otorgado . Universidad de Alberta Library. 2005. [ Ver Contexto ].

David Littau y Daniel Boley. Usando poca memoria Representaciones con el clster conjuntos muy
grandes de datos . SDM. 2003. [ Ver Contexto ].

Bianca Zadrozny y Charles Elkan. Transformacin de las puntuaciones de clasificador en estimaciones


precisas de probabilidad multiclase . KDD. 2002. [ Ver Contexto ].

Vijay S. Iyengar y Chidanand Apt y Tong Zhang. aprendizaje activo utilizando remuestreo
adaptativo . KDD. 2000. [ Ver Contexto ].

Dmitry Pavlov y Jianchang Mao y Byron Dom. Mquinas de Vectores Soporte Scaling-Up Uso Impulsar
Algoritmo . ICPR. 2000. [ Ver Contexto ].

Daphne Koller y Mehran Sahami. Hacia ptima Seleccin de caractersticas . ICML. 1996. [ Ver
Contexto ].

. Omid Madani y David M. Pennock y Gary William Flake Co-validacin: El uso de modelos Desacuerdo
para validar algoritmos de clasificacin . Yahoo! Research Labs. [Ver Contexto ].

Thomas T. Osugi y MS BASADO EN LA EXPLORACIN DE APRENDIZAJE MQUINA


ACTIVE . Facultad de El Colegio de Graduados de la Universidad de Nebraska en cumplimiento parcial
de los requisitos. [ Ver Contexto ].

Vikas Sindhwani y P. Bhattacharya y Subrata Rakshit. teora de la informacin de funciones de


Acreditacin en Mquinas de Vectores Soporte multiclase . [ Ver Contexto ].

Cita de pedidos:
El copyright del texto de los artculos de noticias y anotaciones de Reuters en la coleccin Reuters-21578
reside con Reuters Ltd. Reuters Ltd. y Carnegie Group, Inc. han acordado permitir la distribucin gratuita
de estos datos para fines de investigacin * solamente *.

Si publica los resultados sobre la base de este conjunto de datos, por favor, mencione su uso, consulte el
conjunto de datos con el nombre "Reuters-21578, Distribucin 1.0", e informar a sus lectores de la
ubicacin actual del conjunto de datos (vase "Disponibilidad y Preguntas ").

Reuter_50_50 Conjunto de datos


Resumen: El conjunto de datos se utiliza para la identificacin de la autora en lnea Writeprint que es un
nuevo campo de investigacin de reconocimiento de patrones.

Conjunto de datos Multivariante, Texto, Nmero de


2500 rea: Ordenador
Caractersticas: Domain-Theory instancias:

Caractersticas del Nmero de 2011-09-


Real 10000 Fecha Donado
atributo: atributos: 08

Clasificacin, Valores Nmero de


Tareas asociadas: N/A 11984
Clustering perdidos? Web Accesos:

Fuente:
Creador de conjunto de datos y donante: ZhiLiu, e-mail: liuzhi8673 '@' gmail.com, institucin: Centro de
Investigacin de Ingeniera Nacional de E-Learning de Hubei, Wuhan, China

Datos Conjunto de Informacin:


El conjunto de datos es el subconjunto de RCV1. Estos corpus ya se ha utilizado en experimentos de
identificacin de autor. En los 50 primeros autores (con respecto al tamao total de artculos) fueron
seleccionados. 50 autores de los textos marcados con al menos un subtema de la CCAT clase
(empresarial / industrial) estaban muy por selected.That, se intenta reducir al mnimo el factor de tema en
la distincin entre los textos. El corpus de entrenamiento consta de 2.500 textos (50 por autor) y el corpus
de prueba incluye otros 2.500 textos (50 por autor) no se solapan con los textos de formacin.

Atributo de la informacin:
Los atributos del conjunto de datos son de carcter n-gramas (n = 1-5)

Documentos pertinentes:
J. Houvardas, E. Stamatatos, Feature Oen-grama de seleccin para la autora de identificacin,
en Proc. de la 12 Int.. Conf. sobre Inteligencia Artificial: Metodologa, Sistemas, Aplicaciones, vol. 4183,
pp.77-86, (2006) 12-15 septiembre; Varna, Bulgaria.
E. Stamatatos, Author identificacin Usando desequilibrada y Limited Textos de capacitacin,
En Proc. del 4 Taller Internacional sobre Recuperacin de Informacin basado en texto, (2007) 3 a 7
septiembre; Regensburg, Alemania.

Las fallas de ejecucin Robot Data


Set
Resumen: Este conjunto de datos contiene las medidas de fuerza y par
motor en un robot despus de la deteccin de fallos. Cada fracaso se
caracteriza por las muestras 15 fuerza / par recogidos a intervalos de tiempo
regulares

Conjunto de datos Multivariado, Nmero de


463 rea: Fsico
Caractersticas: Time-Series instancias:

Caractersticas del Nmero de 1999-


Entero 90 Fecha Donado
atributo: atributos: 04-23

Valores N/ Nmero de Web


Tareas asociadas: Clasificacin 27705
perdidos? A Accesos:

Fuente:
Propietario original y de los donantes:

Luis Seabra Lopes y Luis M. Camarinha-Matos


Universidade Nova de Lisboa,
Monte da Caparica, Portugal

Datos Conjunto de Informacin:


La donacin incluye 5 conjuntos de datos, cada uno de ellos la definicin de un problema de aprendizaje
diferente:

* LP1: fallos en el enfoque para captar la posicin


* LP2: fallas en la transferencia de una parte
* LP3: posicin de la pieza despus de un error de transferencia
* LP4: fallos en el enfoque de inasible posicin
* LP5: fallos en movimiento con la parte

Con el fin de mejorar la precisin de la clasificacin, un conjunto de cinco estrategias de transformacin


de caractersticas (en base a las caractersticas de resumen estadstico, transformada discreta de
Fourier, etc) ha sido definido y evaluado. Esto permiti una mejora promedio de 20% en la precisin. La
referencia ms accesible es [Seabra Lopes y Camarinha-Matos, 1998].

Atributo de la informacin:
Todas las caractersticas son numricos, aunque se entero valoran solamente. Cada caracterstica
representa una fuerza o un par medido despus de la deteccin de fallos; cada caso de fallo se
caracteriza en trminos de muestras 15 fuerza / par recogidos a intervalos de tiempo regulares
comenzando inmediatamente despus de la deteccin de fallos; La ventana de observacin total para
cada instancia de fracaso fue de 315 ms.

Cada ejemplo se describe como sigue:

clase
Fx1 Fy1 Fz1 Tx1 Ty1 TZ1
Fx2 Fy2 FZ2 Tx2 Ty2 tz2
......
FX15 FY15 FZ15 TX15 Ty15 TZ15

donde Fx1 ... FX15 es la evolucin de la fuerza Fx en la ventana de observacin, lo mismo para Fy, Fz y
los pares; hay un total de 90 funciones.

Documentos pertinentes:
Seabra Lopes, L. (1997) "El aprendizaje del robot en el nivel de tarea: un estudio en el dominio de la
Asamblea", Ph.D. tesis, Universidade Nova de Lisboa, Portugal.
[Web Link]

Seabra Lopes, L. y LM Camarinha-Matos (1998) Estrategias de funciones de transformacin para un


Aprendizaje Problema Robot ", extraccin de caractersticas, Construccin y Seleccin. Una Perspectiva
de minera de datos", H. Liu y H. Motoda (edrs.), Kluwer Academic Editores.
[Web Link]

Camarinha-Matos, LM, L. Seabra Lopes, y J. Barata (1996) La integracin y el aprendizaje en la


supervisin de los sistemas de montaje flexibles, "IEEE Transactions on Robotics and Automation", 12
(2), 202-219.
[Web Link]

SECOM Conjunto de datos


Resumen: Los datos de un proceso de fabricacin de semiconductores

Conjunto de datos Nmero de


Multivariante 1567 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de 2008-11-


Real 591 Fecha Donado
atributo: atributos: 19

Tareas asociadas: Clasificacin, Valores S Nmero de 22084


causal-Discovery perdidos? Web Accesos:

Fuente:
Autores: Michael McCann, Adrian Johnston

Datos Conjunto de Informacin:


Un complejo proceso de fabricacin de semiconductores moderno es normalmente bajo la vigilancia
constante a travs de la monitorizacin de seales / variables recogidas de los sensores y los puntos de
medicin o proceso. Sin embargo, no todas estas seales son igualmente valiosas en un sistema de
control especfico. Las seales medidas contienen una combinacin de informacin til, informacin
irrelevante, as como el ruido. A menudo es el caso que la informacin til est enterrado en los dos
ltimos. Ingenieros tpicamente tienen un nmero mucho mayor de las seales que se requiere
realmente. Si consideramos cada tipo de seal como una caracterstica, a continuacin, la seleccin de
caractersticas se puede aplicar para identificar las seales ms relevantes. Los ingenieros de procesos
pueden entonces usar estas seales para determinar los factores clave que contribuyen a producir
excursiones aguas abajo en el proceso. Esto permitir un incremento en el rendimiento del proceso,
disminucin del tiempo de aprendizaje y reducir los costos por unidad de produccin.

Para mejorar las tcnicas de mejora de negocio actuales se est investigando la aplicacin de seleccin
de caractersticas como tcnica de sistemas inteligentes.

El conjunto de datos presentados en este caso representa una seleccin de estas caractersticas, donde
cada ejemplo representa una sola entidad de produccin con caractersticas asociadas medida y las
etiquetas de representar una sencilla rendimiento pasa / no pasa en las pruebas internas de lnea, figura
2, y la fecha asociada sello de tiempo. Dnde -1 corresponde a un paso y 1 corresponde a un error y el
sello de tiempo de datos es para ese punto especfico de examen.

El uso de tcnicas de seleccin de funcin que se desea clasificar caractersticas de acuerdo a su


impacto en el rendimiento global del producto, relaciones causales tambin pueden ser considerados con
el fin de identificar las caractersticas clave.

Los resultados pueden ser presentados en trminos de relevancia para la funcin de la previsibilidad
utilizando las tasas de error como nuestras mtricas de evaluacin.Se sugiere que se aplique la
validacin cruzada para generar estos resultados. Algunos resultados de referencia se muestran a
continuacin para las tcnicas bsicas de seleccin de caractersticas utilizando un sencillo clasificador
cresta ncleo y 10 veces la validacin cruzada.

Resultados iniciales: objetos de pre-procesamiento se aplican al conjunto de datos simplemente para


estandarizar los datos y eliminar las constantes y luego se aplicaron una serie de diferentes objetos de
seleccin de funcin de seleccionar 40 funciones de ms alto rango con un simple clasificador para lograr
algunos resultados iniciales. 10 veces la validacin cruzada se utiliz y la tasa de error equilibrado (*
BER) genera como nuestra mtrica de rendimiento inicial para ayudar a investigar este conjunto de
datos.
SECOM Dataset: 1.567 ejemplos 591 caractersticas, 104 falla

FSmethod (40 funciones) BER% Verdadero +% Verdadero -%


S2N (seal a ruido) 34,5 + -2,6 57,8 -5,3 73,1 + 2,1
Ttest 33,7 + -2,1 59,6 -4,7 73,0 + -1,8 +
Alivio de 40,1 + -2,8 48,3 -5,9 71,6 + -3,2 +
Pearson 34,1 + -2,0 57,4 -4,3 74,4 + -4,9 +
Prueba F 33,5 + -2,2 59,1 -4,8 73,8 + -1,8 +
Gram Schmidt 35,6 + -2,4 51,2 -11,8 + 77,5 + -2,3

Atributo de la informacin:
Datos clave: Estructura de datos: Los datos se compone de 2 archivos de la SECOM archivo de conjunto
de datos que consta de 1.567 ejemplos, cada uno con 591 cuenta con una matriz de 1567 x 591 y un
archivo que contiene las etiquetas de las clasificaciones y fecha de sello de tiempo para cada ejemplo.

Al igual que en cualquier situacin de la vida real de datos de estos datos contiene valores nulos que
varan en intensidad dependiendo de las caractersticas de los individuos. Esto debe ser tenido en cuenta
en la investigacin de los datos, ya sea a travs de pre-procesamiento o dentro de la tcnica aplicada.

Los datos se representan en un archivo de texto sin formato de cada lnea representa un ejemplo
individual y las caractersticas separados por espacios. Los valores nulos son representados por el valor
de "NaN" segn MatLab.

semillas del conjunto de datos


Resumen: Las mediciones de las propiedades geomtricas de los ncleos pertenecientes a tres
diferentes variedades de trigo. Un paquete de la tcnica y los granos de rayos X blandos se utiliza para
construir las siete, los atributos con valores reales.

Conjunto de datos Nmero de


Multivariante 210 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de 2012-


Real 7 Fecha Donado
atributo: atributos: 09-29

Clasificacin, Valores N/ Nmero de Web


Tareas asociadas: 36872
Clustering perdidos? A Accesos:

Fuente:
Maa, gorzata Charytanowicz, Jerzy Niewczas
Instituto de Matemticas y Ciencias de la Computacin,
La Universidad Catlica Juan Pablo II de Lublin, Konstantyn w 1 H,
PL 20-708 Lublin, Polonia
e-mail: {mchmat, jniewczas} @ kul.lublin.pl

Piotr Kulczycki, Piotr A. Kowalski, Szymon Lukasik, Slawomir Zak


Departamento de Automtica y Tecnologa de la Informacin,
Cracow University of Technology, Warszawska 24, PL 31-155 Cracovia, Polonia
y
Instituto de Investigacin de Sistemas de la Academia Polaca de Ciencias, Newelska 6,
PL 01-447 Varsovia, Polonia
e-mail: {Kulczycki, pakowal, slukasik, slzak} @ ibspan.waw.pl

Datos Conjunto de Informacin:


El grupo examin compone ncleos pertenecientes a tres diferentes variedades de trigo: Kama, Rosa y
canadienses, 70 elementos cada uno, seleccionados al azar para
el experimento. Visualizacin de alta calidad de la estructura interna del ncleo se detect utilizando una
tcnica de rayos X blandos. Es no-destructiva y considerablemente ms barato que otras tcnicas de
imagen ms sofisticadas, como la microscopa de barrido o la tecnologa lser. Las imgenes fueron
registradas en las placas de rayos X Kodak 13x18 cm. Los estudios se llevaron a cabo utilizando la
cosechadora cosecha de trigo de grano procedentes de campos experimentales, exploradas en el
Instituto de Agrophysics de la Academia Polaca de Ciencias en Lublin.

El conjunto de datos se puede utilizar para las tareas de clasificacin y anlisis de conglomerados.

Atributo de la informacin:
Para construir los datos, se midieron siete parmetros geomtricos de los granos de trigo:
1. rea A,
2. permetro P,
3. compacidad C = 4 * pi * A / P ^ 2,
4. longitud del ncleo,
5. anchura del ncleo,
6. coeficiente de asimetra
7. la longitud de la ranura del ncleo.
Todos estos parmetros eran reales-valorado continuo.

Documentos pertinentes:
M. Charytanowicz, J. Niewczas, P. Kulczycki, PA Kowalski, S. Lukasik, S. Zak, "un algoritmo de
agrupamiento Gradient completo para funciones de anlisis de imgenes de rayos X", en: Tecnologas de
la Informacin en Biomedicina, Ewa Pietka, Jacek Kawa (eds.), Springer-Verlag, Berlin-Heidelberg, 2010,
pp 15-24.

Cita de pedidos:
Colaboradores agradecen el apoyo de su trabajo por el Instituto de Agrophysics de la Academia Polaca
de Ciencias en Lublin.
ssmicas de gallina Data Set
Resumen: Los datos describen el problema de la alta energa (mayor que 10 ^ 4 J) golpes ssmicos
previsin en una mina de carbn. Los datos provienen de dos de tajos largos situados en una mina de
carbn de Polonia.

Conjunto de datos Nmero de


Multivariante 2584 rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de


Real 19 Fecha Donado 04/03/2013
atributo: atributos:

Valores Nmero de Web


Tareas asociadas: Clasificacin N/A 3539
perdidos? Accesos:

Fuente:
Proporcionar los nombres, direcciones de correo electrnico, las instituciones, y otra informacin de
contacto de los donantes y los creadores de la serie de datos.

Marek Sikora ^ {1,2} (marek.sikora '@' polsl.pl), Lukasz Wrobel ^ {1} (lukasz.wrobel '@' polsl.pl)
(1) Instituto de Ciencias de la Computacin, Universidad Tecnolgica de Silesia, 44-100 Gliwice, Polonia
(2) Instituto de Innovative Technologies EMAG, 40-189 Katowice, Polonia

Datos Conjunto de Informacin:


La actividad minera fue y siempre est conectado con la aparicin de peligros que son comnmente
llamados
peligros mineras. Un caso especial de tal amenaza es una amenaza ssmica que ocurre con frecuencia
en muchos
minas subterrneas. El peligro ssmico es el ms difcil detectables y predecibles de los riesgos naturales
y en
este respecto, es comparable a un terremoto. Ms y ms avanzados ssmica y seismoacoustic
sistemas de monitoreo permiten una mejor comprensin de los procesos del macizo rocoso y la definicin
de la amenaza ssmica
mtodos de prediccin. Precisin de los mtodos hasta ahora creados es sin embargo lejos de ser
perfecto. Complejidad del
procesos ssmicos y gran desproporcin entre el nmero de eventos ssmicos de baja energa y el
nmero
de los fenmenos de alta energa (por ejemplo,> 10 ^ 4J) hace que las tcnicas estadsticas son
insuficientes para predecir
amenaza ssmica. Por lo tanto, es esencial para la bsqueda de nuevas oportunidades de una mejor
prediccin de peligros,
tambin utilizando mtodos de aprendizaje automtico. En peligro ssmico tcnicas de agrupamiento de
datos de evaluacin pueden ser
aplicada (Lesniak A., Isakow Z.: agrupacin espacio-temporal de los eventos ssmicos y evaluacin de los
peligros de la
Mina de carbn Zabrze-Bielszowice, Polonia. Int. Diario de Mecnica de Rocas y las Ciencias de la
explotacin minera, 46 (5), 2009,
918-928), y para la prediccin de temblores ssmicos redes neuronales artificiales se utilizan (Kabiesz, J.:
Efecto
de la forma de los datos sobre la calidad de la mina de la previsin de riesgos temblores usando redes
neuronales.
Geotcnico e Ingeniera Geolgica, 24 (5), 2005, 1131-1147). En la mayora de las aplicaciones, la
resultados obtenidos por los mtodos mencionados se presentan en forma de dos estados que se
interpreta como
'Peligrosos' y 'no peligrosos'. Distribucin desequilibrada de positivo ("estado peligroso") y negativo
("Estado no peligrosos) ejemplos es un problema grave en la prediccin del riesgo ssmico. Actualmente
se utiliza
mtodos son todava insuficientes para lograr una buena sensibilidad y especificidad de las
predicciones. En el documento de
(Bukowska M.: La probabilidad de ocurrencia rockburst en el rea de la Cuenca del Carbn Alta Silesia
dependientes
condiciones de la minera naturales. Revista de Ciencias de la explotacin minera, 42 (6), 2006, 570-577)
una serie de factores que tienen
Se propuso un efecto sobre la ocurrencia de riesgo ssmico, entre otros factores, la aparicin de
temblores con
energa> 10 ^ 4J fue incluido. La tarea de la prediccin ssmica se puede definir de diferentes maneras,
pero el principal
objetivo de todos los mtodos de evaluacin de riesgos ssmicos es predecir (con una precisin dada en
relacin con el tiempo y
fecha) de aumento de la actividad ssmica que puede causar un rockburst. En el conjunto de datos de
cada fila contiene un
resumen sobre la actividad ssmica en el macizo rocoso en un turno (8 horas). Si la decisin
atributo tiene el valor 1, a continuacin, en el prximo turno de cualquier golpe ssmico con una energa
superior a 10 ^ 4 J era
registrado. Esa tarea de Peligros de prediccin bases sobre la relacin entre la energa de grabado
temblores y actividad seismoacoustic con la posibilidad de ocurrencia rockburst. Por lo tanto, tal peligro
el pronstico no est conectado con la prediccin rockburst exacta. Por otra parte, con la informacin
sobre la
posibilidad de ocurrencia peligrosa situacin, el servicio de supervisin adecuada puede reducir el riesgo
de
rockburst (por ejemplo, mediante disparos angustiante) o retirar los trabajadores de las zonas
amenazadas. Buena prediccin
por lo tanto, de aumento de la actividad ssmica es un asunto de gran importancia prctica. Los datos
presentados
conjunto se caracteriza por una distribucin desequilibrada de los ejemplos positivos y negativos. En el
conjunto de datos no
estn a slo 170 ejemplos positivos que representan la clase 1.

Atributo de la informacin:
Atributo informacin:
1. ssmica: resultado del cambio de la evaluacin del peligro ssmico en la mina de trabajo obtenido por la
ssmica
mtodo (a - la falta de peligro, b - peligro bajo, c - alta peligrosidad, d - estado de peligro);
2. seismoacoustic: resultado del cambio de la evaluacin del peligro ssmico en la mina de trabajo
obtenido por el
mtodo seismoacoustic;
3. Turno: informacin sobre el tipo de cambio (W - carbn-que consigue, cambio de N-preparacin);
4. Genergy: energa ssmica registrada en turno anterior por el gefono ms activo (GMax) de
gefonos monitoreo del tajo largo;
5. gpuls: un nmero de impulsos registrados en turno anterior por GMax;
6. gdenergy: una desviacin de la energa registrada en turno anterior por GMax de energa promedio
registrado
durante ocho turnos anteriores;
7. gdpuls: una desviacin de un nmero de impulsos registrados dentro de turno anterior por GMax de
nmero promedio
de pulsos registrados durante ocho cambios anteriores;
8. ghazard: resultado del cambio de la evaluacin del peligro ssmico en la mina de trabajo obtenido por
el
mtodo seismoacoustic basado en formulario de inscripcin que viene slo GMax;
9. nbumps: el nmero de golpes ssmicos registrados en turno anterior;
10. nbumps2: el nmero de golpes ssmicos (en el rango de energa [10 ^ 2,10 ^ 3)) registrado en turno
anterior;
11. nbumps3: el nmero de golpes ssmicos (en el rango de energa [10 ^ 3,10 ^ 4)) registrado en turno
anterior;
12. nbumps4: el nmero de golpes ssmicos (en el rango de energa [10 ^ 4,10 ^ 5)) registrado en turno
anterior;
13. nbumps5: el nmero de golpes ssmicos (en el rango de energa [10 ^ 5,10 ^ 6)) registrada en el
ltimo turno;
14. nbumps6: el nmero de golpes ssmicos (en el rango de energa [10 ^ 6,10 ^ 7)) registrado en turno
anterior;
15. nbumps7: el nmero de golpes ssmicos (en el rango de energa [10 ^ 7,10 ^ 8)) registrado en turno
anterior;
16. nbumps89: el nmero de golpes ssmicos (en el rango de energa [10 ^ 8,10 ^ 10)) registrado en turno
anterior;
17. energa: la energa total de golpes ssmicos registrados en turno anterior;
18. maxenergy: la energa mxima de los golpes ssmicos registrados en turno anterior;
19. clase: el atributo de decisin - '1 'significa que la alta energa golpe ssmico se produjo en el siguiente
turno
("Estado peligroso"), '0 'significa que no hay golpes ssmicos de alta energa se produjeron en el siguiente
turno
("Estado no peligrosos).

Cita de pedidos:
Solicitud de cita
Sikora M., Wrobel L.: La aplicacin de algoritmos de induccin de reglas para el anlisis de los datos
recogidos por ssmica
sistemas de vigilancia de los peligros de las minas de carbn. Archivos de Ciencias de la Minera, 55 (1),
2010, 91-114.
Semeion Digit manuscritas de la serie de
datos
Resumen: 1.593 dgitos escritos a mano de alrededor de 80 personas fueron escaneados, se
extenda en una caja rectangular de 16x16 en una escala de grises de 256 valores.

Conjunto de datos Nmero de


Multivariante 1593 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de 2008-11-


Entero 256 Fecha Donado
atributo: atributos: 11

Valores Nmero de Web


Tareas asociadas: Clasificacin N/A 35662
perdidos? Accesos:

Fuente:
El conjunto de datos fue creada por Tactile Srl, Brescia, Italia ( http://www.tattile.it ) y don en 1994 al
Centro de Investigacin Semeion de Ciencias de la Comunicacin, Roma, Italia ( http://www.semeion.it ),
para la investigacin de aprendizaje automtico.

Para cualquier duda, e-mail Massimo Buscema (m.buscema '@' semeion.it) o Stefano
Terzi (s.terzi '@' semeion.it)

Datos Conjunto de Informacin:


1593 dgitos escritos a mano de alrededor de 80 personas fueron escaneados, se extenda en una caja
rectangular de 16x16 en una escala de grises de 256 values.Then cada pxel de cada imagen se redujo
en un bolean (1/0) valor con un umbral fijo.

Cada persona escribe en un papel todos los dgitos del 0 al 9, en dos ocasiones. El compromiso era
escribir el dgito de la primera vez en la forma normal (intentar escribir cada dgito con precisin) y el
segundo tiempo de una manera rpida (con ninguna precisin).

El mejor protocolo de validacin para este conjunto de datos parece ser un 5x2CV, 50% Tune (Tren +
Test) y completamente ciego 50% Validacin

Atributo de la informacin:
Este conjunto de datos consta de 1593 registros (filas) y 256 atributos (columnas).

Cada registro representa un dgito manuscrito, originalmente digitalizada con una resolucin de 256
escala de grises (28).

Cada pxel de la imagen de cada original escaneado se estir primero, y despus a escala entre 0 y 1
(puesta a 0 todos los pxeles cuyo valor estaba bajo tha valor 127 de la escala de grises (127 incluido) y
ajustando en 1 cada pxel cuyo valor orinal en la escala de grises estaba sobre 127).

Por ltimo, cada imagen binaria se redujo de nuevo en una caja cuadrada de 16x16 (los ltimos 256
atributos binarios).
Documentos pertinentes:
M Buscema, Metanet: La Teora de jueces independientes, en el uso de sustancias y mal uso 33 (2)
1998, pp 439-461.

Cita de pedidos:
Centro de Investigacin Semeion de Ciencias de la Comunicacin, a travs de Sersale 117, 00128 Roma,
Italia
Tattile Via Gaetano Donizetti, 1-3-5,25030 Mairano (Brescia), Italia.

Ser Conocimiento Modelado de datos (Niveles


de conocimiento de los estudiantes en las
mquinas elctricas de corriente continua)
Conjunto de datos
Resumen: El conjunto de datos es acerca de las actividades de aprendizaje de los usuarios y los niveles
de conocimiento sobre temas de Mquinas elctricas de corriente continua. El conjunto de datos se
haban obtenido de web-cursos en lnea y publicado en mi doctorado Tesis.

Conjunto de datos Nmero de


Multivariante 403 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de


Real 5 Fecha Donado 06/20/2013
atributo: atributos:

Valores N/ Nmero de Web


Tareas asociadas: Clasificacin 2350
perdidos? A Accesos:

Fuente:
- Creadores: Hamdi Tolga Kahraman, Ilhami Colak, Seref Sagiroglu
- Institucin: Facultad de Tecnologa, Departamento de Ingeniera de Software de la Universidad Tcnica
de Karadeniz, Trabzon, Turkiye
- Donantes: Estudiantes del Departamento de Educacin Elctrica de la Universidad de Gazi
- Fecha: octubre de 2009
Kahraman, HT (2009). Diseo y Aplicacin de la adaptacin del Sistema Educativo Inteligente basado en
Web. Universidad Gazi Tesis Doctoral, Turqua, 1-156.

Datos Conjunto de Informacin:


- La clase de conocimiento de los usuarios fueron clasificados por los autores
utilizando clasificador conocimiento intuitivo (una tcnica hbrida de ML k-NN y meta-heursticas explorar
mtodos), el algoritmo de k-vecino ms cercano.
Ver artculo para ms detalles sobre cmo se recogi y se evaluaron por el servidor de modelado de
usuario de datos de los usuarios.

Kahraman, HT, Sagiroglu, S., Colak, I., Desarrollo clasificador conocimiento intuitivo y el modelado de
datos dependientes de dominio de los usuarios en la web,
Sistemas basados en el conocimiento, vol. 37, pp 283-295, 2013.

Kahraman, HT (2009). Diseo y Aplicacin de la adaptacin del Sistema Educativo Inteligente basado en
Web. Universidad Gazi Tesis Doctoral, Turqua, 1-156.

Atributo de la informacin:

STG (El grado de tiempo de estudio para materails objeto gol), (valor de entrada)
SCG (El grado de repeticin de nmero de usuario para materails objeto meta) (valor de entrada)
STR (El grado de tiempo de estudio de usuario para los objetos relacionados con el objeto meta) (valor
de entrada)
LPR (El rendimiento en los exmenes de usuario para los objetos relacionados con el objeto meta) (valor
de entrada)
PEG (El rendimiento en los exmenes de usuario para los objetos meta) (valor de entrada)
UNS (el nivel de conocimiento del usuario) (valor objetivo)

Clase de distribucin: el valor de la clase (UNS).


Muy baja: 50
Baja: 129
Medio: 122
alta 130

Documentos pertinentes:
Kahraman, HT, Sagiroglu, S., Colak, I., Desarrollo clasificador conocimiento intuitivo y el modelado de
datos dependientes de dominio de los usuarios en la web,
Sistemas basados en el conocimiento, vol. 37, pp 283-295, 2013.

Cita de pedidos:
NOTA: La reutilizacin de esta base de datos es ilimitada con la citacin para
Dr. Hamdi Tolga KAHRAMAN y et. otros, el siguiente artculo publicado:

Kahraman, HT, Sagiroglu, S., Colak, I., Desarrollo clasificador conocimiento intuitivo y el modelado de
datos dependientes de dominio de los usuarios en la web,
Sistemas basados en el conocimiento, vol. 37, pp 283-295, 2013.

Servo Conjunto de datos


Resumen: Los datos era de una simulacin de un sistema servo

Conjunto de datos Nmero de


Multivariante 167 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de 4 Fecha Donado 1993-05-


atributo: Integer atributos: 01

Valores Nmero de Web


Tareas asociadas: Regresin No 28432
perdidos? Accesos:

Fuente:
Creador:

Karl Ulrich (MIT)

Donante:

Ross Quinlan

Datos Conjunto de Informacin:


Ross Quinlan:

Esta informacin fue dada a m por Karl Ulrich en el MIT en 1986. Yo no grabo su descripcin en el
momento, pero aqu est su posterior (1992) recuerdo:

"Creo recordar que los datos eran de una simulacin de un sistema servo implica un servoamplificador,
un motor, un tornillo de avance / tuerca, y un carro deslizante de algn tipo. Puede haber sido el de los
ejes de traslacin de un robot en el noveno piso del laboratorio de IA. En cualquier caso, el valor de
salida es casi seguro que un tiempo de subida, o el tiempo necesario para que el sistema responda a un
cambio de paso en un punto de referencia de la posicin ".

(Quinlan, ML'93)

"Se trata de una interesante coleccin de los datos proporcionados por Karl Ulrich Cubre un fenmeno
extremadamente no lineal -. Predecir el tiempo de subida de un servomecanismo en trminos de dos
ajustes (continuos) de ganancia y dos (discretas) opciones de conexiones mecnicas."

Atributo de la informacin:
1. del motor: A, B, C, D, E
2. tornillo: A, B, C, D, E
3. PGain: 3,4,5,6
4. vgain: 1,2,3,4,5
5. clase: 0,13-7,10

Documentos pertinentes:
Quinlan, JR, "Aprender con clases continuas", Proc. 5 Conferencia Conjunta de Australia el AI (eds A.
Adams y L. Sterling), Singapore: World Scientific, 1992
[Web Link]

Quinlan, JR, "La combinacin de aprendizaje y basado en modelos basados en instancia", Proc. ML'93
(ed. PE Utgoff), San Mateo: Morgan Kaufmann 1993
[Web Link]
Shuttle Landing Configuracin de
Control de Datos
Resumen: base de datos de Tiny; todos los valores nominales

Conjunto de datos Nmero de


Multivariante 15 rea: Fsico
Caractersticas: instancias:

Caractersticas del Nmero de 1988-11-


Categrico 6 Fecha Donado
atributo: atributos: 01

Valores Nmero de Web


Tareas asociadas: Clasificacin No 31778
perdidos? Accesos:

Fuente:
Fuente original:

desconocido
NASA: equipo de diseo autolander del Sr. Roger Burke

Donante:

Bojan Cestnik
Jozef Stefan Institute
Jamova 39
61000 Ljubljana
Yugoslavia (tel.: (38) (61) 214-399 ext.287)

Datos Conjunto de Informacin:


Se trata de una base de datos pequea. Michie informa que el grupo de Burke utiliza RULEMASTER para
generar reglas comprehendable para determinar las condiciones bajo las cuales un Autolanding sera
preferible el control manual de la nave espacial.

Atributo de la informacin:
1. Clase: noauto, auto
- Es decir, aconsejar el uso de control manual / automtico
2. ESTABILIDAD: pualada, xstab
3. ERROR: XL, LX, MM, SS
4. SIGN: pp, nn
5. VIENTO: cabeza, cola
6. MAGNITUD: Bajo, Medio, Fuerte, OutOfRange
7. VISIBILIDAD: s, no

Documentos pertinentes:
Michie, D. (1988). Gap Unbridged del Quinta Generacin. En Rolf Herken (Ed.) La mquina universal de
Turing: A mitad del siglo Survey, 466-489, Oxford University Press.

SkillCraft1 Tabla maestra de conjunto de datos


Conjunto de datos
Resumen: Estos datos se usaron en Thompson et al. (2013). Una lista de posibles acciones de juego se
discute en Thompson, Blair, Chen, y Henrey (2013).

Conjunto de datos Nmero de


Multivariante 3395 rea: Juego
Caractersticas: instancias:

Caractersticas del Nmero de


Entero, real 20 Fecha Donado 22/10/2013
atributo: atributos:

Valores Nmero de Web


Tareas asociadas: Regresin S 8441
perdidos? Accesos:

Fuente:
- Creadores: Mark Blair, Joe Thompson, Andrew Henrey, Bill Chen
- Marcos Blair: Departamento de Psicologa; Simon Fraser University; Burnaby;
8888 University Drive; mblair '@' sfu.ca)
- Fecha: Septiembre 20, 2013

Datos Conjunto de Informacin:


- Nos Agregamos movimientos de pantalla en pantalla-fijaciones utilizando un Salvucci y Goldberg (2000)
algoritmo de dispersin-umbral, y ciclos de accin Percepcin definidos (PACs) como fijaciones con al
menos una accin.
- El tiempo se registra en trminos de marcas de tiempo en la reproduccin del archivo de StarCraft
2. Cuando el juego se juega en 'ms rpido', 1 segundo de tiempo real es equivalente a
aproximadamente 88.5 marcas de tiempo.
- Lista de posibles acciones de juego se discute en Thompson, Blair, Chen, y Henrey (2013)

Atributo de la informacin:
1. GameID: nmero de identificacin nico para cada juego (entero)
2. LeagueIndex: Bronce, Plata, Oro, Platino, Diamante, Maestro, el Gran Maestro, y las ligas
profesionales codificado 1-8 (ordinal)
3. Edad: Edad de cada jugador (entero)
4. HoursPerWeek: Reportado horas dedicado a jugar a la semana (entero)
5. Totalhours: Notificado el total de horas dedicado a jugar (entero)
6. APM: Accin por minuto (continua)
7. SelectByHotkeys: Nmero de unidad o edificio selecciones hechas usando teclas de acceso rpido por
marca de tiempo (continuo)
8. AssignToHotkeys: Nmero de unidades o edificios asignados a teclas de acceso rpido por marca de
tiempo (continuo)
9. UniqueHotkeys: Nmero de teclas de acceso rpido nicos utilizados por marca de tiempo (continuo)
10. MinimapAttacks: Nmero de acciones de ataque sobre el minimapa por marca de tiempo (continuo)
11. MinimapRightClicks: nmero de clic derecho en el minimapa por marca de tiempo (continuo)
12. NumberOfPACs: Nmero de PACs por marca de tiempo (continuo)
13. GapBetweenPACs: La duracin media en milisegundos entre PACs (continua)
14. ActionLatency: latencia promedio desde el inicio de un PACS a su primera accin en milisegundos
(continua)
15. ActionsInPAC: La media de nmero de acciones dentro de cada PAC (continua)
16. TotalMapExplored: El nmero de juego de 24x24 cuadrculas de coordenadas vistos por el jugador
por marca de tiempo (continuo)
17. WorkersMade: Nmero de SCV, aviones teledirigidos, y sondas entrenados por marca de tiempo
(continuo)
18. UniqueUnitsMade: une nicas hechas por marca de tiempo (continuo)
19. ComplexUnitsMade: Nmero de fantasmas, Infestors y altos templarios entrenados por marca de
tiempo (continuo)
20. ComplexAbilitiesUsed: Capacidades que requieran instrucciones de focalizacin especficos utilizados
por marca de tiempo (continuo)

Documentos pertinentes:
1. Thompson JJ, Blair MR, Chen L, Henrey AJ (2013) Videojuego de telemetra como una herramienta
fundamental en el estudio del aprendizaje Habilidad Complex. PLoS ONE 8 (9):. E75129 [Web Link]
- Resultados:
- Liga Saltar clasificacin forestal inferencia condicional (Bronce-Gold, Silver-Platino, Oro-Diamond,
Platinum-Masters; Diamond-Profesional) mostraron cambios en los patrones de importancia variable con
habilidad.
- Atributo del preparado: Liga (ordinal)

Cita de pedidos:
Usted es libre de copiar, distribuir y comunicar pblicamente esta obra bajo las siguientes condiciones:
Deben conceder la atribucin de la obra (pero no de una manera que sugiere que el autor que usted o su
uso de la obra refrenda); Usted no puede utilizar esta obra para fines comerciales; No se puede alterar,
transformar o ampliar este trabajo. Cualquier uso adicionales requieren el permiso del titular de los
derechos (o el autor si no titular de los derechos est en la lista). Estos derechos se basan en el
reconocimiento-NoComercial-NoDerivatives licencia de Creative Commons.

Segmentacin de la piel Set de Datos


Resumen: El conjunto de datos de segmentacin de la piel se construye sobre B, G, R espacio de
color. Tema y extracutneos conjunto de datos se genera utilizando texturas de la piel de imgenes de
rostros de la diversidad de la edad, el gnero, la raza y la gente.

Conjunto de datos Nmero de


Univariante 245057 rea: Ordenador
Caractersticas: instancias:
Caractersticas del Nmero de 2012-07-
Real 4 Fecha Donado
atributo: atributos: 17

Valores Nmero de Web


Tareas asociadas: Clasificacin N/A 25107
perdidos? Accesos:

Fuente:
Rajen Bhatt, Abhinav Dhall, rajen.bhatt '@' gmail.com, IIT Delhi.

Datos Conjunto de Informacin:


El conjunto de datos de la piel es recogida por muestreo aleatorio B, G, R valores de imgenes de caras
de diferentes grupos de edad (jvenes, de mediana y edad), grupos de raza (blanco, negro y asitico), y
gneros obtenidos de la base de datos y base de datos FERET PAL . Tamao de la muestra total de
aprendizaje es 245.057;de los cuales 50.859 es las muestras de piel y 194.198 se muestras no la
piel. Color FERET Image Base de datos: [Web Link] , PAL Cara Base de datos del Laboratorio de
Envejecimiento Productivo, de la Universidad de Texas en Dallas: [Web Link] .

Atributo de la informacin:
Este conjunto de datos es de la dimensin 245057 * 4, donde las tres primeras columnas son los valores
B, G, R (x1, x2, x3 y caractersticas) y la cuarta columna es una de las etiquetas de clase (variable de
decisin y).

Documentos pertinentes:
1. Rajen B. Bhatt, Gaurav Sharma, Abhinav Dhall, Santanu Chaudhury, Efficient regin de la piel
mediante la segmentacin de baja complejidad borrosa rbol de decisin MODELA , IEEE-Indicon 2009,
16 al 18 diciembre, Ahmedabad, India, pp 1-4.
2. Abhinav Dhall, Gaurav Sharma, Rajen Bhatt, Ghulam Mohiuddin Khan, Adaptive digital Makeup
, en Proc. del Simposio Internacional de Computacin Visual (ISVC) 2009, 30 de noviembre "02 de
diciembre de Las Vegas, Nevada, EE.UU., Lecture Notes in Computer Science, vol. 5876, pp 728-736.

SML2010 Conjunto de datos


Resumen: Este conjunto de datos se obtiene de un sistema de monitores montados en una casa
domtica. Se corresponde con unos 40 das de datos de seguimiento.

Multivariante,
Conjunto de datos Nmero de
Secuencial, Time- 4137 rea: Ordenador
Caractersticas: instancias:
Series, Texto

Caractersticas del Nmero de Fecha


Real 24 01/09/2014
atributo: atributos: Donado

Nmero de
Valores
Tareas asociadas: Regresin S Web 5001
perdidos?
Accesos:
Fuente:
Dr. Francisco Zamora-Martnez, Pablo Romeu-Guallart, el Dr. Juan Pardo.
francisco.zamora "@" uch.ceu.es
Sistemas Embebidos y de Inteligencia Artificial (ESAI) grupo de investigacin
Dep. de Ciencias Fsicas, Matema ticas y de la Computacin n
Universidad CEU Cardenal Herrera

Datos Conjunto de Informacin:


El conjunto de datos podra contener valores perdidos. Los datos se tomaron muestras de cada minuto, la
computacin y subirlo suavizan con medios de 15 minutos. El encabezado del archivo de datos es un
comentario (comienza con #), que indica que los datos se almacenan en la que la columna (en
espaol). Los datos son informacin de tiempo est en la hora UTC.

Atributo de la informacin:
Los atributos son:

1. Fecha: UTC.
2. Tiempo: UTC.
3. Temperatura interior (sala-comedor), en C.
4. Temperatura interior (habitacin), en C.
5. Tiempo temperatura pronstico, en A C.
6. El dixido de carbono en ppm (comedor).
7. El dixido de carbono en ppm (habitacin).
8. Humedad relativa (comedor), en%.
9. Humedad relativa (habitacin), en%.
10. Iluminacin (comedor), en Lux.
11. Iluminacin (habitacin), en Lux.
12. La lluvia, la proporcin de los ltimos 15 minutos donde se detect la lluvia (un valor en el rango
[0,1]).
13. Atardecer dom.
14. Viento, en m / s.
15. La luz del sol en la fachada oeste, en Lux.
16. La luz del sol en el este de la fachada, en Lux.
17. La luz del sol en la fachada sur, en Lux.
18. Sun irradiancia en W/m2.
19. Entlpico motor 1, 0 o 1 (on-off).
20. Motor entlpico 2, 0 o 1 (on-off).
21. Turbo motor entlpico, 0 o 1 (on-off).
22. Temperatura exterior, en A C.
23. Humedad relativa en el exterior, en%.
24. Da de la semana (calculado a partir de la fecha), 1 = lunes, 7 = Domingo.
SMS Spam Coleccin de conjunto de datos
Resumen: El spam Coleccin SMS es un sistema pblico de mensajes SMS marcados que se han
recogido para la investigacin de spam mvil.

Conjunto de datos Multivariante, Texto, Nmero de


5574 rea: Ordenador
Caractersticas: Domain-Theory instancias:

Caractersticas del Nmero de 2012-06-


Real N/A Fecha Donado
atributo: atributos: 22

Clasificacin, Valores Nmero de


Tareas asociadas: N/A 23614
Clustering perdidos? Web Accesos:

Fuente:
Tiago A. Almeida (talmeida ufscar.br)
Departamento de Ciencias de la Computacin
Universidad Federal de Sao Carlos (UFSCar)
Sorocaba, Sao Paulo - Brasil

Jos Mara G mez Hidalgo (jmgomezh yahoo.es)


R & D Department Optenet
Las Rozas, Madrid Espaa

Datos Conjunto de Informacin:


Este corpus se ha recogido de forma gratuita o libre para las fuentes de investigacin en el Internet:

-> Una coleccin de 425 mensajes de spam de SMS se extrajo manualmente desde el sitio Web
Grumbletext. Este es un foro de Reino Unido en la que los usuarios de telfonos celulares hacen
declaraciones pblicas acerca de los mensajes de spam de SMS, la mayora de ellos sin reportar el
mensaje muy Spam recibidas. La identificacin del texto de los mensajes de spam en las reivindicaciones
es una tarea muy difcil y requiere mucho tiempo, y se trataba con cuidado escanear cientos de pginas
web. El sitio Web es Grumbletext: [Web Link] .
-> Un subconjunto de 3.375 SMS elegido al azar mensajes de jamn de la NUS SMS Corpus (NSC), que
es un conjunto de datos de cerca de 10.000 mensajes legtimos recogidos para la investigacin en el
Departamento de Ciencias de la Computacin en la Universidad Nacional de Singapur. Los mensajes se
originan en gran parte de los habitantes de Singapur, y la mayora de los estudiantes que asisten a la
Universidad. Estos mensajes fueron recogidos de los voluntarios que se hicieron conscientes de que sus
contribuciones iban a ser puestos a disposicin del pblico. El NUS SMS Corpus similares Libre en: [Web
Link] .
- A lista de 450 mensajes SMS jamn recogidos de la tesis doctoral de Caroline Tag disponible en [Web
Link] .
-> Por ltimo, hemos incorporado el SMS Spam Corpus v.0.1 Grande. Cuenta con 1.002 mensajes SMS
de jamn y 322 mensajes de spam y es pblico disponible en:[Web Link] . Este corpus se ha utilizado en
las siguientes investigaciones acadmicas:

[1] Gmez Hidalgo, JM, Cajigas Bringas, G., Puertas Sanz, E. Carrero Garca, SMS F. Content Based
filtrado de spam. Actas del Simposio ACM 2006 en Ingeniera de documentos (ACM DOCENG'06),
Amsterdam, Pases Bajos, 10-13, 2006.

[2] Cormack, GV, Gmez Hidalgo, JM, y Puertas S nz, E. Caracterstica de ingeniera para (SMS) de
filtrado de spam mvil. Actas de la 30 Conferencia Anual Internacional ACM sobre Investigacin y
Desarrollo en Recuperacin de Informacin (ACM SIGIR'07), Nueva York, NY, 871-872, 2007.
[3] Cormack, GV, Gmez Hidalgo, JM, y Puertas S nz, filtrado de spam E. para los mensajes
cortos. Actas de la 16 Conferencia ACM sobre la Informacin y la Gestin del Conocimiento (ACM
CIKM'07). Lisboa, Portugal, 313-320, 2007.

Atributo de la informacin:
La coleccin est compuesta por un solo archivo de texto, donde cada lnea tiene la clase correcta
seguido del mensaje de crudo. Ofrecemos algunos ejemplos a continuacin:

Jamn Qu haces? cmo ests?


jamn Ok lar ... Bromas WIF u oni ...
jamn dun decir hor tan temprano ... U C ya continuacin, dicen ...
jamn MI NO. En Luton 0125698789 ANILLO DE M SI UR ALREDEDOR! H *
jamn Siva est en albergue aha: -.
jamn Cos yo estaba de compras fuera darren WIF jus ahora ni lo llamaban 2 preguntarle wat actualidad
wan lor. Luego empez a adivinar quin era yo WIF n que finalmente supuso darren lor.
FreeMsg spam: Txt: Llamado a la N : 86.888 y reclamar su recompensa de 3 horas de tiempo de
conversacin de usar desde el telfono ahora mismo! ubscribe6GBP / mnth inc 3 horas? txtStop 16
parada
Spam Sol Quiz! Gana un sper Sony grabadora de DVD si canname la capital de Australia? MQUIZ texto
a 82277. B
Spam URGENTE! Tu mvil Sin 07808726822 recibi una L2, Premio de llamadas 000 Bono en
02/09/03! Este es nuestro segundo intento de ponerse en contacto con usted! Llame 0871-872-9758
BOX95QU

Nota: los mensajes no se ordenan cronolgicamente.

Documentos pertinentes:
Ofrecemos un amplio estudio de este corpus en el siguiente documento. Este trabajo presenta una serie
de estadsticas, estudios y resultados de lnea de base para varios mtodos de aprendizaje automtico.

Almeida, TA, Gmez Hidalgo, JM, Yamakami, A. Contribuciones al estudio de los SMS Spam Filtrado:
Nueva Coleccin y Resultados. Actas de la ACM Symposium 2011 en Ingeniera de documentos
(DOCENG'11), Mountain View, CA, EE.UU., 2011.

Solar Flare conjunto de datos


Resumen: Cada atributo de clase cuenta el nmero de llamaradas solares
de cierta clase que ocurren en un periodo de 24 horas

Conjunto de datos Nmero de


Multivariante 1389 rea: Fsico
Caractersticas: instancias:

Caractersticas del Nmero de 1989-03-


Categrico 10 Fecha Donado
atributo: atributos: 01

Tareas asociadas: Regresin Valores No Nmero de Web 41916


perdidos? Accesos:

Fuente:
Donante:

Gary Bradshaw <gbradshaw '@' clipr.colorado.EDU>

Datos Conjunto de Informacin:


Notas:

- La base de datos consta de 3 clases posibles, una para el nmero de veces que un determinado tipo de
erupcin solar se produjo en un perodo de 24 horas.
- Cada instancia representa caractersticas capturadas durante 1 regin activa en el sol.
- Los datos se dividen en dos secciones. La segunda seccin (flare.data2) ha tenido mucho ms la
correccin de error aplicada a la que, en consecuencia, se ha tratado como ms fiables.

Atributo de la informacin:
1. Cdigo para la clase (clase Zurich modificada) (A, B, C, D, E, F, H)
2. Cdigo para el mayor tamao de punto (X, R, S, A, H, K)
3. Cdigo para la distribucin puntual (X, O, I, C)
4. Actividad (1 = reducida, 2 = sin cambios)
5. Evolucin (1 = decaimiento, 2 = sin crecimiento, 3 = crecimiento)
6. Anterior 24 horas cdigo de actividad de la antorcha (1 = nada tan grande como un M1, 2 = un M1, 3 =
ms actividad que uno M1)
7. Histricamente complejo (1 = S, 2 = No)
8. Hizo regin se convierta histricamente compleja en este paso a travs del disco solar (1 = s, 2 = no)
9. Superficie (1 = pequeo, 2 = grande)
10. rea de la mancha ms grande (1 = <= 5, 2 => 5)

De todos estos predictores tres clases de bengalas se predicen, que estn representados en las tres
ltimas columnas.

11. Llamaradas de clase C la produccin en esta regin en las 24 horas siguientes (brotes
comunes); Nmero
12. Llamaradas de clase M de produccin en esta regin en las 24 horas siguientes (brotes
moderados); Nmero
13. Llamaradas de clase X de produccin en esta regin en las siguientes 24 horas (brotes
graves); Nmero

Documentos pertinentes:
N/A

Documentos que citan este conjunto de datos 1:

. Jinyan Li y Dong Guozhu y Kotagiri Ramamohanarao y Limsoon Wong profundidades: un


descubrimiento basada en instancia Nuevo y Sistema de Clasificacin . Actas de la IV Conferencia
Europea sobre Principios y Prctica de Descubrimiento de Conocimiento en Bases de Datos. 2001. [ Ver
Contexto ].

Jinyan Li y Guozhu Dong y Kotagiri Ramamohanarao. Clasificacin basada en instancia por los patrones
emergentes . PKDD. 2000. [ Ver Contexto ].

Sally A. Goldman y Yan Zhou. Mejora de aprendizaje supervisado con datos sin
etiqueta . ICML. 2000. [ Ver Contexto ].

Nir Friedman y Daphne Koller. Ser bayesiano sobre Estructura de red . UAI. 2000. [ Ver Contexto ].

Christophe G. Giraud-Carrier y Tony R. Martnez. Marco integrado para el Aprendizaje y


Razonamiento . J. Artif. Intell. Res.. (JAIR, 3. 1995. [ Ver Contexto ].

. C. Tito Brown y Harry W. Bullen y Sean P. Kelly y Robert K. Xiao y Steven G. Satterfield y John G.
Hagedorn y Judith E. Devaney Visualizacin y Minera de Datos en un inmersivo entorno 3D: Proyecto de
Verano 2003 . [ Ver Contexto ].

Nir Friedman y Daphne Koller (Koller @ cs. Stanford. Edu. Un enfoque bayesiano para Estructurar
Discovery en redes bayesianas . Facultad de Ciencias de la Computacin y de Ingeniera Universidad
Hebrea. [ Ver Contexto ].

Soja (Large) Conjunto de datos


Resumen: famosa base de datos de enfermedades de soja de Michalski

Conjunto de datos Nmero de


Multivariante 307 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de 1988-07-


Categrico 35 Fecha Donado
atributo: atributos: 11

Valores Nmero de Web


Tareas asociadas: Clasificacin S 36478
perdidos? Accesos:

Fuente:
Origen:

RS Michalski y RL Chilausky
"Aprender de que nos dijeron y Aprender de ejemplos: Una Comparacin experimental de los Mtodos
Dos de Adquisicin de Conocimiento en el contexto del desarrollo de un sistema experto para la
enfermedad de la soja Diagnstico",
Revista Internacional de Anlisis de Polticas y Sistemas de Informacin, vol. 4, N 2, 1980.

Donante:

Ming Tan & Jeff Schlimmer (Jeff.Schlimmer% cs.cmu.edu)

Datos Conjunto de Informacin:


Hay 19 clases, slo el primero 15 de los cuales han sido utilizados en el trabajo anterior. El folklore
parece ser que los ltimos cuatro clases no estn justificadas por los datos, ya que tienen tan pocos
ejemplos. Hay 35 atributos categricos, algunas nominal y algunos orden. El valor de "dna medios'' no
se aplica. Los valores de los atributos se codifican numricamente, con el primer valor codificado como"
0'', el segundo como "1'', y as sucesivamente. Se valores desconocidos se codifica como"? ''.

Atributo de la informacin:
- 19 clases
Diaporthe-tallo-cancro, carbn-rot, rhizoctonia-root-rot,
phytophthora-rot, marrn-madre-rot, polvo-moho,
velloso-moho, marrn terreno, bacteriana-tizn,
bacteriana-pstula, prpura de la semilla-la mancha, la antracnosis,
Phyllosticta hojas terreno, alternarialeaf terreno,
-ojo de rana hoja terreno, Diaporthe-pod-&-tallo-tizn,
quiste-nematodo, 2-4-D-lesin, los herbicidas de la lesin.

1. Fecha: abril, mayo, junio, julio, agosto, septiembre, octubre,?.


2. planta de stand: normal,-lt normal?.
3. precipitacin: lt-norma, norma, gt-norma,?.
4. temp: lt-norma, norma, gt-norma,?.
5. granizo: s, no,?.
6. crop-hist:-diff-lst aos, mismo lst-ao, del mismo lst y dos aos,
misma-lst-sev-aos,?.
7. dispersas, bajas, zonas de reas superiores, todo-terreno,: Superficie daada?.
8. severidad: leve, severa-pot, grave?.
9. semillas TMT: ninguno, fungicidas, otros,?.
10. germinacin: 90 a 100% ,80-89%, lt-80%,?.
11. crecimiento de las plantas: norma, abnorm,?.
12. Hojas: norma, abnorm.
13. manchas foliares-halo:, amarillo-halos ausentes, no hay-amarillo-halos,?.
14. manchas foliares-marg: ws-marg, no-ws-marg, dna,?.
15. mancha foliar-size: lt-1/8, gt-1/8, dna,?.
16. leaf-shread: ausente, presente?.
17. leaf-malf: ausente, presente?.
18. hoja de leve: ausente,-surf superior, inferior-surf,?.
19. madre: norma, abnorm,?.
20. Alojamiento: s, no,?.
21. madre-chancros: ausentes, por debajo del suelo, por encima del suelo, por encima de la sec-nde,?.
22. cancro de la lesin: dna, marrn,-dk marrn-negro, marrn,?.
23. fructificacin-cuerpos: ausente, presente?.
24. decaimiento externa: ausente, firme y seco, acuosa,?.
25. micelio: ausente, presente?.
26. int-discolor: ninguno, marrn, negro,?.
27. esclerocios: ausente, presente?.
28. frutas-pods: norma, enferma,-pocos presentes, dna,?.
29. manchas de fruta: brown-w/blk-specks ausentes, colores,, distorsionar, dna,?.
30. semilla: norma, abnorm,?.
31. molde de crecimiento: ausente, presente?.
32. semillas discolor: ausente, presente?.
33. semilla-size: norma, lt-norma,?.
34. shriveling: ausente, presente?.
35. races: norma, se pudran, agallas-quistes,?.

Documentos pertinentes:
Tan, M., y Eshelman, L. (1988). El uso de redes ponderados para representar el conocimiento
clasificacin en dominios ruidosos. Actas de la Quinta Conferencia Internacional sobre Aprendizaje
Automtico (pp. 121-134). Ann Arbor, Michigan: Morgan Kaufmann.
[Web Link]

Fisher, DH y Schlimmer, JC (1988). Simplificacin Concepto y predictivo Precisin. Actas de la Quinta


Conferencia Internacional sobre Aprendizaje Automtico (pp. 22-28). Ann Arbor, Michigan: Morgan
Kaufmann.
[Web Link]

Soja (Small) Conjunto de datos


Resumen: famosa base de datos de enfermedades de soja de Michalski

Conjunto de datos Nmero de


Multivariante 47 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de 1987-01-


Categrico 35 Fecha Donado
atributo: atributos: 01

Valores Nmero de Web


Tareas asociadas: Clasificacin No 26805
perdidos? Accesos:

Fuente:
Origen:

Michalski, RS
El aprendizaje por ser dicho y el aprendizaje a partir de ejemplos: una comparacin experimental de los
dos metodos de adquisicin de conocimientos en el contexto del desarrollo de un sistema experto para
diagnoiss desease soja ",
Revista Internacional de Anlisis de Polticas y Sistemas de Informacin, 1980, 4 (2), 125-161.

Donante:

Doug Fisher (dfisher% vUtilice '@' uunet.uucp)

Datos Conjunto de Informacin:


Un pequeo subconjunto de la base de datos original de soja. Consulte la referencia de Fisher y
Schlimmer en soja-large.names para ms informacin.

Steven Souders escribi:

> Figura 15 en el documento Michalski y Stepp (PAMI-82) dice que el


> valores discriminatorios para la condicin de atributo de las vainas de la fruta por la
> Clases Rhizoctonia Root Rot y Phytophthora Rot son "pocos o ninguno"
> E "irrelevante", respectivamente. Sin embargo, en el conjunto de datos-SOJA PEQUEO
> Que recib de la UCI, el valor de este atributo es "dna" (no se aplica)
> Para ambas clases. Muestro los datos reales por debajo de los casos D3
> (Rhizoctonia Root Rot) y D4 (Phytophthora Rot). De acuerdo con la
> Atribuyen nombres dados en la soja-large.names, FRUTAS-PODS es atributo
> # 28. Si nos fijamos en la columna 28 en los siguientes datos (marcados con flechas)
> Te dars cuenta de que todos los casos de D3 y D4 tienen el mismo valor. Por lo tanto,
> El conjunto de datos-SOJA PEQUEO de UCI no podra haber producido los resultados
> En el documento Michalski y Stepp.

Yo no tengo ese papel, pero he encontrado lo que probablemente es una variacin ms tarde de esa cifra
en la disertacin de Stepp, que muestra el valor "normal" para los primeros 2 clases y "irrelevante" para
los ltimos 2 clases. Creo que "irrelevante" se utiliza aqu como sinnimo de "no-aplicable", "dna", y "no-
no-se aplican". Yo creo que hay una impresin errnea en la figura que ley en su artculo PAMI-83.

He comprobado sobre cada valor del atributo en esta base de datos. Esto corresponde exactamente a los
ejemplares que figuran en las tesis tanto de Stepp y Fisher de.

Atributo de la informacin:
1. Fecha: abril, mayo, junio, julio, agosto, septiembre, octubre,?.
2. planta de stand: normal,-lt normal?.
3. precipitacin: lt-norma, norma, gt-norma,?.
4. temp: lt-norma, norma, gt-norma,?.
5. granizo: s, no,?.
6. crop-hist:-diff-lst aos, mismo lst-ao, del mismo lst y dos aos,
misma-lst-sev-aos,?.
7. dispersas, bajas, zonas de reas superiores, todo-terreno,: Superficie daada?.
8. severidad: leve, severa-pot, grave?.
9. semillas TMT: ninguno, fungicidas, otros,?.
10. germinacin: 90 a 100% ,80-89%, lt-80%,?.
11. crecimiento de las plantas: norma, abnorm,?.
12. Hojas: norma, abnorm.
13. manchas foliares-halo:, amarillo-halos ausentes, no hay-amarillo-halos,?.
14. manchas foliares-marg: ws-marg, no-ws-marg, dna,?.
15. mancha foliar-size: lt-1/8, gt-1/8, dna,?.
16. leaf-shread: ausente, presente?.
17. leaf-malf: ausente, presente?.
18. hoja de leve: ausente,-surf superior, inferior-surf,?.
19. madre: norma, abnorm,?.
20. Alojamiento: s, no,?.
21. madre-chancros: ausentes, por debajo del suelo, por encima del suelo, por encima de la sec-nde,?.
22. cancro de la lesin: dna, marrn,-dk marrn-negro, marrn,?.
23. fructificacin-cuerpos: ausente, presente?.
24. decaimiento externa: ausente, firme y seco, acuosa,?.
25. micelio: ausente, presente?.
26. int-discolor: ninguno, marrn, negro,?.
27. esclerocios: ausente, presente?.
28. frutas-pods: norma, enferma,-pocos presentes, dna,?.
29. manchas de fruta: brown-w/blk-specks ausentes, colores,, distorsionar, dna,?.
30. semilla: norma, abnorm,?.
31. molde de crecimiento: ausente, presente?.
32. semillas discolor: ausente, presente?.
33. semilla-size: norma, lt-norma,?.
34. shriveling: ausente, presente?.
35. races: norma, se pudran, agallas-quistes,?.

Documentos pertinentes:
Tan, M., y Eshelman, L. (1988). El uso de redes ponderados para representar el conocimiento
clasificacin en dominios ruidosos. Actas de la Quinta Conferencia Internacional sobre Aprendizaje
Automtico (pp. 121-134). Ann Arbor, Michigan: Morgan Kaufmann.
[Web Link]

Fisher, DH y Schlimmer, JC (1988). Simplificacin Concepto y predictivo Precisin. Actas de la Quinta


Conferencia Internacional sobre Aprendizaje Automtico (pp. 22-28). Ann Arbor, Michigan: Morgan
Kaufmann.
[Web Link]
Soybean (Small) Data Set 1987-01-01
Resumen: Famosa Base de Datos de enfermedades derivadas de la soya de Michalski

Caractersticas del Nmero de


Multivariante 47 rea: Salud
Conjunto de datos: instancias:

Caractersticas del Nmero de Fecha de


Categrico 35 01-01-1987
atributo: atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin No accesos 26776
perdidos?
Web:

Fuente:
Origen:
Michalski, R.S. Aprendizaje por que se le diga y aprendizaje de ejemplos: una comparacin experimental de
los dos mtodos de adquisicin de conocimientos en el contexto del desarrollo de un sistema experto para el
diagnstico de enfermedades de soya, la revista internacional de anlisis de polticas y sistemas de
informacin, 1980, 4.
Donador:
Doug Fisher (dfisher%vuse@unnet.uucp)

Informacin del Conjunto de datos:


Un pequeo subconjunto de la Base de Datos de Soya. Ver la diferencia para Fisher y Schilmer para mayor
informacin.
Steven Souders escribi:
La figura 15 en el artculo de Michalski y Stepp (PAMI-82) dice que los valores discriminantes para el
atributo CONDITION OF FRUIT PODS para la clase Rhizoctonia Root Rot y Phytophthora Rot son
pocas o ninguna e irrelevantes respectivamente. Como sea, en el pequeo conjunto de datos
SOTBEAN-SMALL que consegu de UCI, el valor para este atributo es dna (no aplica) para ambas
clases. Demuestro los datos actuales a continuacin para los casos D3 (Rhizoctonia Root Rot) y D4
(Phytophthora Rot). De acuerdo con los nombres de los atributos dados in soybean-large.names,
FRUIT-PODS es el atributo #28. Si miras en la columna 28 en los datos mostrados ms adelante
(marcados con flechas), notars que los casos de D3 y D4 tienen el mismo valor, Entonces, el
dataset SOYBEAN-SMALL de UCI no podra tener los resultados producidos en el artculo de
Michalski y Stepp.
No tengo ese artculo, pero he encontrado que es probable una variacin posterior de esa figura en el trabajo
de Stepp, el cual lista los valores normal para las dos primeras clases e irrelevant para las dos ltimas
clases. Creo que irrelevant es usado como un sinnimo para not-applicable, dna y does-not-apply.
Creo que hay un error en la impresin de la figura que ley en su artculo PAMI-83.
He verificado cada valor de los atributos en esta BD. Esto corresponde exactamente a los ejemplares
listados en los trabajos de Stepp y Fisher.

Informacin de los Atributos:


1. date: april,may,june,july,august,september,october,?.
2. plant-stand: normal,lt-normal,?.
3. precip: lt-norm,norm,gt-norm,?.
4. temp: lt-norm,norm,gt-norm,?.
5. hail: yes,no,?.
6. crop-hist: diff-lst-year,same-lst-yr,same-lst-two-yrs,
same-lst-sev-yrs,?.
7. area-damaged: scattered,low-areas,upper-areas,whole-field,?.
8. severity: minor,pot-severe,severe,?.
9. seed-tmt: none,fungicide,other,?.
10. germination: 90-100%,80-89%,lt-80%,?.
11. plant-growth: norm,abnorm,?.
12. leaves: norm,abnorm.
13. leafspots-halo: absent,yellow-halos,no-yellow-halos,?.
14. leafspots-marg: w-s-marg,no-w-s-marg,dna,?.
15. leafspot-size: lt-1/8,gt-1/8,dna,?.
16. leaf-shread: absent,present,?.
17. leaf-malf: absent,present,?.
18. leaf-mild: absent,upper-surf,lower-surf,?.
19. stem: norm,abnorm,?.
20. lodging: yes,no,?.
21. stem-cankers: absent,below-soil,above-soil,above-sec-nde,?.
22. canker-lesion: dna,brown,dk-brown-blk,tan,?.
23. fruiting-bodies: absent,present,?.
24. external decay: absent,firm-and-dry,watery,?.
25. mycelium: absent,present,?.
26. int-discolor: none,brown,black,?.
27. sclerotia: absent,present,?.
28. fruit-pods: norm,diseased,few-present,dna,?.
29. fruit spots: absent,colored,brown-w/blk-specks,distort,dna,?.
30. seed: norm,abnorm,?.
31. mold-growth: absent,present,?.
32. seed-discolor: absent,present,?.
33. seed-size: norm,lt-norm,?.
34. shriveling: absent,present,?.
35. roots: norm,rotted,galls-cysts,?.

Documentos relevantes:
Tan, M., & Eshelman, L. (1988). Usando redes ponderadas para representar conocimiento de clasificacin
en dominios ruidosos. Procede de las quinta conferencia internacional sobre Aprendizaje de Mquinas (pp.
121-134). Ann Arbor, Michigan: Morgan Kauffman.
Fisher,D.H. & Schlimmer,J.C. (1988). Simplificacin de conceptos y Presicin predictiva. Procedente de la
quinta conferencia internacional sobre Aprendizaje de Mquinas (pp. 22-28). Ann Arbor, Michigan: Morgan
Kauffman.

Citas:

Yuan Jiang and Zhi-Hua Zhou. Editing Training Data for kNN Classifiers with Neural Network Ensemble.
ISNN (1). 2004.

Rich Caruana and Alexandru Niculescu-Mizil. An Empirical Evaluation of Supervised Learning for ROC Area.
ROCAI. 2004.

Prem Melville and Raymond J. Mooney. Diverse ensembles for active learning. ICML. 2004.

Rich Caruana and Alexandru Niculescu-Mizil and Geoff Crew and Alex Ksikes. Ensemble selection from
libraries of models. ICML. 2004.

Rich Caruana and Alexandru Niculescu-Mizil. Data Mining in Metric Space: An Empirical Analysis of
Supervised Learning Performance Criteria. ROCAI. 2004.

Vassilis Athitsos and Stan Sclaroff. Boosting Nearest Neighbor Classifiers for Multiclass Recognition. Boston
University Computer Science Tech. Report No, 2004-006. 2004.

Geoffrey Holmes and Bernhard Pfahringer and Richard Kirkby and Eibe Frank and Mark A. Hall. Multiclass
Alternating Decision Trees. ECML. 2002.

Subramani Mani and Marco Porta and Suzanne McDermott. Building Bayesian Network Models in Medicine:
the MENTOR Experience. Center for Biomedical Informatics University of Pittsburgh. 2002.

Marco Porta and Subramani Mani and Suzanne McDermott. MENTOR: Building Bayesian Network Models in
Medicine CSCE Technical Report TR-2002-016. Department of Computer Science and Engineering
University of South Carolina. 2002.

Bianca Zadrozny. Reducing multiclass to binary by coupling probability estimates. NIPS. 2001.

Rudy Setiono. Feedforward Neural Network Construction Using Cross Validation. Neural Computation, 13.
2001.

Nikunj C. Oza and Stuart J. Russell. Experimental comparisons of online and batch versions of bagging and
boosting. KDD. 2001.

Kiri Wagstaff and Claire Cardie. Clustering with Instance-level Constraints. ICML. 2000.

Kai Ming Ting and Ian H. Witten. Issues in Stacked Generalization. J. Artif. Intell. Res. (JAIR, 10. 1999.
Mark A. Hall. Department of Computer Science Hamilton, NewZealand Correlation-based Feature Selection
for Machine Learning. Doctor of Philosophy at The University of Waikato. 1999.

Manoranjan Dash and Huan Liu. Hybrid Search of Feature Subsets. PRICAI. 1998.

Huan Liu and Rudy Setiono. Incremental Feature Selection. Appl. Intell, 9. 1998.

Hendrik Blockeel and Luc De Raedt and Jan Ramon. Top-Down Induction of Clustering Trees. ICML. 1998.

Igor Kononenko and Edvard Simec and Marko Robnik-Sikonja. Overcoming the Myopia of Inductive Learning
Algorithms with RELIEFF. Appl. Intell, 7. 1997.

Nir Friedman and Dan Geiger and Moiss Goldszmidt. Bayesian Network Classifiers. Machine Learning, 29.
1997.

Prototype Selection for Composite Nearest Neighbor Classifiers. Department of Computer Science University
of Massachusetts. 1997.

Guszti Bartfai. VICTORIA UNIVERSITY OF WELLINGTON Te Whare Wananga o te Upoko o te Ika a Maui.
Department of Computer Science PO Box 600. 1996.

Kamal Ali and Michael J. Pazzani. Error Reduction through Learning Multiple Descriptions. Machine
Learning, 24. 1996.

Christophe Giraud and Tony Martinez and Christophe G. Giraud-Carrier. University of Bristol Department of
Computer Science ILA: Combining Inductive Learning with Prior Knowledge and Reasoning. 1995.

Jitender S. Deogun and Vijay V. Raghavan and Hayri Sever. Exploiting Upper Approximation in the Rough
Set Methodology. KDD. 1995.

Ron Kohavi. The Power of Decision Tables. ECML. 1995.

Geoffrey I. Webb. OPUS: An Efficient Admissible Algorithm for Unordered Search. J. Artif. Intell. Res. (JAIR,
3. 1995.

Ron Kohavi. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection. IJCAI.
1995.

Thomas G. Dietterich and Ghulum Bakiri. Solving Multiclass Learning Problems via Error-Correcting Output
Codes. CoRR, csAI/9501101. 1995.

Geoffrey I. Webb. OPUS: A systematic search algorithm and its application to categorical attribute-value
datadriven machine learning. School of Computing and Mathematics, Deakin University. 1993.

Perry Moerland. Mixtures of latent variable models for density estimation and classification. E S E A R C H R
E P R O R T I D I A P D a l l e M o l l e I n s t i t u t e f o r Pe r cep t ua l A r t i f i c i a l Intelligence.

Suresh K. Choubey and Jitender S. Deogun and Vijay V. Raghavan and Hayri Sever. A comparison of
feature selection algorithms in the context of rough classifiers.

Takao Mohri and Hidehiko Tanaka. An Optimal Weighting Criterion of Case Indexing for Both Numeric and
Symbolic Attributes. Information Engineering Course, Faculty of Engineering The University of Tokyo.

Nikunj C. Oza and Stuart J. Russell. Online Bagging and Boosting. Computer Science Division University of
California.

Perry Moerland. A Comparison of Mixture Models for Density Estimation. IDIAP.

Zhi-Hua Zhou and Yang Yu. Ensembling Local Learners Through Multimodal Perturbation.

Geoffrey I Webb. Generality is more significant than complexity: Toward an alternative to Occam's Razor.
School of Computing and Mathematics Deakin University.

Sherrie L. W and Zijian Zheng. A BENCHMARK FOR CLASSIFIER LEARNING. Basser Department of
Computer Science The University of Sydney.
Alexander K. Seewald. Dissertation Towards Understanding Stacking Studies of a General Ensemble
Learning Scheme ausgefuhrt zum Zwecke der Erlangung des akademischen Grades eines Doktors der
technischen Naturwissenschaften.

Chotirat Ann and Dimitrios Gunopulos. Scaling up the Naive Bayesian Classifier: Using Decision Trees for
Feature Selection. Computer Science Department University of California.

Zhi-Hua Zhou and Xu-Ying Liu. Training Cost-Sensitive Neural Networks with Methods Addressing the Class
Imbalance Problem.

Prem Melville and Raymond J. Mooney. Proceedings of the 21st International Conference on Machine
Learning. Department of Computer Sciences.

Jarinee Chattratichart and John Darlington and Moustafa Ghanem and Yang Guo and Harold Huning and
Martin Kohler and Janjao Sutiwaraphun and Hing Wing and Dan Yang. Large Scale Data Mining: The
Challenges and The Solutions. Department of Computing.

Daichi Mochihashi and Gen-ichiro Kikui and Kenji Kita. Learning Nonstructural Distance Metric by Minimum
Cluster Distortions. ATR Spoken Language Translation research laboratories.

Miguel Moreira and Alain Hertz and Eddy Mayoraz. Data binarization by discriminant elimination.
Proceedings of the ICML-99 Workshop: From Machine Learning to.

Igor Kononenko and Edvard Simec. Induction of decision trees using RELIEFF. University of Ljubljana,
Faculty of electrical engineering & computer science.

BayesianClassifi552 Pat Langley and Wayne Iba. In Proceedings of the Tenth National
ConferenceonArtifi256 Intelligence (42840. Lambda Kevin Thompson.

YongSeog Kim and W. Nick Street and Filippo Menczer. Optimal Ensemble Construction via Meta-
Evolutionary Ensembles. Business Information Systems, Utah State University.

Iaki Inza and Pedro Larraaga and Basilio Sierra. Bayesian networks for feature subset selection.
Department of Computer Sciences and Artificial Intelligence.
Soybean (Small) Data Set 1999-07-01
Resumen: Clasificacin de e-mail como Spam o No

Caractersticas del
Nmero de
Conjunto de Multivariante 4601 rea: Computacin
instancias:
datos:

Caractersticas del Nmero de Fecha de


Entero, Real 57 01-07-1999
atributo: atributos: Donacin

Nmero
Valores de
Tareas asociadas: Clasificacin S 99840
perdidos? accesos
Web:

Fuente:
Creadores:
Mark Hopkings, Erik Reeber, George Forman, Jaap Suermondt.
Hewlett-Packard Labs, 1501 Page Mill Rd., Palo Palto, CA 94304

Donador:
George Forman (gforman en nospam hpl.hp.com) 650-857-7835

Informacin del Conjunto de datos:


El concepto de spam es diverso: publicidad para sitios de productos/web, esquemas de
hacer dinero rpido, cadena de cartas, pornografa
Nuestra Coleccin de e-mails spam proviene de nuestro administrador de correros e
individuos quienes han archivado spam. Nuestra coleccin de e-mails no spam proviene
de trabajo archivado e e-mail personales, y por lo tanto, la palabra george y el cdigo de
rea 650 son indicadores de no spam. Esto es til cuando se construye un filtro
personalizado de spam. Uno podra bien tener que cegar estos indicadores u obtener una
muy amplia coleccin de no spam para generar un filtro de spam de uso general.

Para informacin sobre spam:

Cranor, Lorrie F., LaMacchia, Brian A. Spam!


Communications of the ACM, 41(8): 74-83, 1998.

(a) Hewlett-Packard International-Only Technical Report. External forthcoming).


(b) Determinar cundo un e-mail dado es Spam o no.
(c) ~7% error de clasificacin. Positivos falsos (marcando un e-mail bueno como spam),
son muy indeseables. Si insistimos sobre cero positivos falsos en el conjunto de
entrenamiento/pruebas, 20-25% del spam pasa a travs del filtro.

Informacin de los Atributos:


La ltima columna de spambase.data muestra cundo el e-mail ha sido considerado
spam (1) o no 0), es decir, e-mail comerciales no solicitados. La mayora de los atributos
indican cuando una palabra en particular o carcter se frecuenta en el e-mail. Los el
recorrido de la longitud de un atributo (55-57) mide la longitud de secuencias de letras
capitales consecutivas. Para las medidas estticas de cada atributo, consulta el final de
este archivo. Aqu est la definicin de los atributos:

48 atributos reales continuos [0-100] de tipo Word_freq_WORD


= porcentaje de palabras en el e-mail que se conjuga WORD, es decir, 100*(nmero de
veces que WORD aparece en el e-mail)/nmero total de palabras en el e-mail. Una
palabra en este caso es cualquier cadena de caracteres alfanumricos delimitados por
caracteres no alfanumricos o el final de la cadena.

6 atributos reales continuos [0-100] de tipo char_freq_CHAR


= porcentaje de caracteres en el e-mail que son similares a CHAR, es decir, 100*(nmero
de ocurrencias de CHAR)/total de caracteres en el e-mail.

1 atributo real continuo [1,] de tipo capital_run_length_average


= longitud promedio de secuencias ininterrumpidas de letras maysculas.

1 atributo entero continuo [1,] de tipo capital_run_length_longest


= longitud de la secuencia ininterrumpida ms grande de lestras maysculas.

1 atributo entero continuo [1,] de tipo capital_run_length_total


= suma de la longitud de las secuencias ininterrumpidas de letras maysculas.
= nmero total de letras maysculas en el e-mail.

1 atributo clase nominal {0,1} de tipo spam


= denota cuando el e-mail es considerado spam (1) o no (2), es decir, e-mail comercial no
solicitado.

Documentos relevantes:
N/A

Citas:

Don R. Hush and Clint Scovel and Ingo Steinwart. Los Alamos National Laboratory
Stability of Unstable Learning Algorithms. Modeling, Algorithms and Informatics Group,
CCS-3. 2003.

Yongmei Wang and Ian H. Witten. Modeling for Optimal Probability Prediction. ICML. 2002.

Christos Dimitrakakis and Samy Bengioy. Online Policy Adaptation for Ensemble
Classifiers. IDIAP.

C. Titus Brown and Harry W. Bullen and Sean P. Kelly and Robert K. Xiao and Steven G.
Satterfield and John G. Hagedorn and Judith E. Devaney. Visualization and Data Mining in
an 3D Immersive Environment: Summer Project 2003.
SPECT Heart Data Set 2001-10-01
Resumen: Los datos sobre imgenes de Tomografa cardiaca Computarizada por
Emisin de Protn (SPECT). Cada paciente clasificado dentro de dos categoras: normal y
anormal.

Caractersticas del Nmero de


Multivariante 267 rea: Salud
Conjunto de datos: instancias:

Caractersticas del Nmero de Fecha de 01-10-


Categrico 22
atributo: atributos: Donacin 2001

Nmero de
Valores
Tareas asociadas: Clasificacin No accesos 98012
perdidos?
Web:

Fuente:
Dueos originales:
Krzysztof J. Cios, Lukasz A. Kurgan
Universidad de Colorado en Denver, Denver, CO 80217, E.U.A.
Krys.Cios @ cudenver.edu
Lucy S. Goodenday
Colegio Mdico de Ohio, OH, E.U.A.

Donantes:
Lukasz A. Kurgan Krzysztof J. Cios

Informacin del Conjunto de datos:


La base de datos de 267 conjuntos de imgenes SPECT (pacientes) fue procesada para
extraer caractersticas que resuman las imgenes SPECT originales. Como resultado, se
crearon 44 patrones de caractersticas continuas para cada paciente. El patrn fue,
adems, procesado para obtener 22 patrones de caractersticas binarios. El algoritmo
CLIP3 fue usado para generar reglas de clasificacin a partir de estos patrones. El
algoritmo CLIP3 gener reglas que eran 84% precisas (en comparacin con el diagnostico
del cardilogo).

Informacin de los Atributos:

1. OVERALL_DIAGNOSIS: 0,1 (atributo clase, binario)


2. F1: 0,1 (el diagnostico parcial 1, binario)
3. F2: 0,1 (el diagnostico parcial 2, binario)
4. F3: 0,1 (el diagnostico parcial 3, binario)
5. F4: 0,1 (el diagnostico parcial, binario)
6. F5: 0,1 (el diagnostico parcial 5, binario)
7. F6: 0,1 (el diagnostico parcial 6, binario)
8. F7: 0,1 (el diagnostico parcial 7, binario)
9. F8: 0,1 (el diagnostico parcial 8, binario)
10. F9: 0,1 (el diagnostico parcial 9, binario)
11. F10: 0,1 (el diagnostico parcial 10, binario)
12. F11: 0,1 (el diagnostico parcial 11, binario)
13. F12: 0,1 (el diagnostico parcial 12, binario)
14. F13: 0,1 (el diagnostico parcial 13, binario)
15. F14: 0,1 (el diagnostico parcial 14, binario)
16. F15: 0,1 (el diagnostico parcial 15, binario)
17. F16: 0,1 (el diagnostico parcial 16, binario)
18. F17: 0,1 (el diagnostico parcial 17, binario)
19. F18: 0,1 (el diagnostico parcial 18, binario)
20. F19: 0,1 (el diagnostico parcial 19, binario)
21. F20: 0,1 (el diagnostico parcial 20, binario)
22. F21: 0,1 (el diagnostico parcial 21, binario)
23. F22: 0,1 (el diagnostico parcial 22, binario)
- el dataset se divide en:
-- datos de entrenamiento ("SPECT.train" 80 instancias)
-- datos de pruebas ("SPECT.test" 187 instancias)

Documentos relevantes:

Kurgan, L.A., Cios, K.J., Tadeusiewicz, R., Ogiela, M. & Goodenday, L.S. "Knowledge
Discovery Approach to Automated Cardiac SPECT Diagnosis" Artificial Intelligence in
Medicine, vol. 23:2, pp 149-169, Oct 2001.

Cios, K.J., Wedding, D.K. & Liu, N. CLIP3: cover learning using integer programming.
Kybernetes, 26:4-5, pp 513-536, 1997.

Cios K. J. & Kurgan L. Hybrid Inductive Machine Learning: An Overview of CLIP


Algorithms, In: Jain L.C., and Kacprzyk J. (Eds). New Learning Paradigms in Soft
Computing, Physica-Verlag (Springer), 2001.

Citas:

Rich Caruana and Alexandru Niculescu-Mizil. An Empirical Evaluation of Supervised


Learning for ROC Area. ROCAI. 2004.

Lukasz A. Kurgan and Waldemar Swiercz and Krzysztof J. Cios. Semantic Mapping of
XML Tags Using Inductive Machine Learning. ICMLA. 2002.

Michael G. Madden. Evaluation of the Performance of the Markov Blanket Bayesian


Classifier Algorithm. CoRR, csLG/0211003. 2002.

M. A. Galway and Michael G. Madden. DEPARTMENT OF INFORMATION


TECHNOLOGY technical report NUIG-IT-011002 Evaluation of the Performance of the
Markov Blanket Bayesian Classifier Algorithm. Department of Information Technology
National University of Ireland, Galway.
Spoken Arabic Digit Data Set 2010-09-13
Resumen: Este dataset contiene series de tiempo de coeficientes cepstrales de
frecuencia mel (MFCCs) correspondientes a los dgitos Arbicos hablados. Incluye datos
de 44 hombres y 44 mujeres hablantes nativos de rabe.

Multivariante,
Caractersticas del Nmero de
Seties de 8800 rea: N/A
Conjunto de datos: instancias:
tiempo

Caractersticas del Nmero de Fecha de 13-09-


Real 13
atributo: atributos: Donacin 2010

Nmero de
Valores
Tareas asociadas: Clasificacin No accesos 27513
perdidos?
Web:

Fuente:
Datos recolectados por el laboratorio de automtizacin y seales.
Universidad de Badji-Mokhtar
Annaba, Algeria

Direccin: Prof. Mouldi Bedda


Participantes: H. Dahmani, C. Snani, M.C. Amara Korba, S. Atoui
Adaptado y pre-procesado por:
Nacereddine Hammami y Mouldi Bedda
Facultad de Ingeniera, Universidad de Al-Jouf Kingdom de Arabia Saudita
e-mail: nacereccine.hammami@yahoo.fr; mouldi_bedda@yahoo.fr
Fecha: Octubre de 2008

Informacin del Conjunto de datos:


Dataset de 8800 series de tiempo de 13 MFCCs (10 dgitos x 10 repeticiones x 88
hablantes), han sido tomados de 44 hombres y 44 mujeres hablantes nativos de rabe
entre 18 y 40 aos de edad para representar 10 dgitos arbicos hablados.

Informacin de los Atributos:


Cada lnea en la base de datos representa 13 coeficientes MFCCs en orden creciente
separados por espacios. Esto corresponde a un marco de anlisis. Los 13 cpeficientes
MFCCs son computados con las siguientes condiciones:
Frecuencia de muestreo: 11025 Hz, 16 bits
Ventana aplicada: hamming

Documentos relevantes:

[1] N. Hammami, M. Bedda ,"Improved Tree model for Arabic Speech Recognition", Proc.
IEEE ICCSIT10 Conference, 2010.

[2] N. Hammami, M. Sellami ,"Tree distribution classifier for automatic spoken Arabic digit
recognition", Proc. IEEE ICITST09 Conference, 2009 , PP 1-4.
Sponge Data Set N/A
Resumen: Datos sobre esponjas; atributos en espaol

Caractersticas del Nmero de


Multivariante 76 rea: Salud
Conjunto de datos: instancias:

Caractersticas del Categrico, Nmero de Fecha de


45 N/A
atributo: entero atributos: Donacin

Nmero de
Valores
Tareas asociadas: Agrupamiento S accesos 32525
perdidos?
Web:

Fuente:
Creadores:
Iosune Uriz y Marta Domingo
CSIC

Donador:
Javier Bjar y Ulises Corts (bejar@lsi.upc.es)
Departamento de lenguajes y sistemas informticos
Universidad Politcnica de Catalunya, Barcelona, Espaa

Informacin del Conjunto de datos:


Estas son esponjas marinas atlnticas-mediterrneas que pertenecen a O. Hadromerida
(Desmospongiae Porifera).

Informacin de los Atributos:


27 atributos son no numricos y nominales.
15 atributos son bolanos y toman los valores (No,S)
3 atributos son numricos y toman los nmeros naturales

Documentos relevantes:
Domingo, M. "Aplicaci\'o de t\`ecniques de I.A. (LINNEO) a la classificaci\'o sistem\`atica:
O.Hadromerida (Demospongiae.Porifera). Master Thesis. Departament d'ecologia.
Universitat de Barcelona.

Martin, M and Sanguesa, R. and Cor\'es "Biasing induction with previous knowledge for
knowledge acquisition in imprecise domains''. Les syst\`emes experts et leus applications.
Onzi\'emes Journ\'ees Internationales. Avignon'91. Vol 1. pp. 359-370. Avignon, France.
1991.

Martin, M. and Sanguesa, R. and Cort\'es U. "Knowledge acquisition combining analytical


and empirical techniques''. Proceedings of the Eighth International Workshop of Machine
Learning. ML 91. pp 657-661. Evanston, Illinois, USA 1991.

Bejar, J. and Cort\'es, U. "LINNEO+: Herramienta para la adquisicion de conocimiento y


generacion de reglas de clasificaci\'on en dominios poco estructurados''. Proceedings del
III Congreso Iberoamericano de Inteligencia Artificial. IBERAMIA 92. pp 471-482. La
Habana (Cuba).
Statlog (Australian Credit Approval) Data Set N/A
Resumen: El cometido de este archivo son las aplicaciones de las tarjetas de crdito.
Este dataset existe en otros lugares en el repositorio en una forma ligeramente diferente
(Base de datos de deteccin de crdito).

Caractersticas del Nmero de


Multivariante 690 rea: Financiera
Conjunto de datos: instancias:

Caractersticas del Categrico, Nmero de Fecha de


14 N/A
atributo: entero, real atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin S accesos 46158
perdidos?
Web:

Fuente:
(Confidencial)
Enviado por quinlan@cs.su.oz.au

Informacin del Conjunto de datos:


Todos los nombres y valores de los atributos han sido cambiados por smbolos sin sentido
para proteger la confidencialidad de los datos.
Este dataset es interesante debido a que hay una buena mezcla de atributos, continuos,
nominales con pequeos nmeros de valores y nominales con nmeros grandes de
valores. Hay tambin unos pocos valores faltantes.

Informacin de los Atributos:


Hay 6 atributos numricos y 8 categricos. Las etiquetas han sido cambiadas para la
conveniencia de los algoritmos estticos. Por ejemplo, el atributo 4 originalmente tiene 3
etiquetas p, g, gg y estas etiquetas han sido cambiadas a etiquetas 1, 2, 3.

A1: 0,1 CATEGORICA (anteriormente: a,b)


A2: continua.
A3: continua.
A4: 1,2,3 CATEGORICA (anteriormente: p,g,gg)
A5: 1, 2,3,4,5, 6,7,8,9,10,11,12,13,14 CATEGORICA (anteriormente:: ff,d,i,k,j,aa,m,c,w, e,
q, r,cc, x)
A6: 1, 2,3, 4,5,6,7,8,9 CATEGORICA (anteriormente: ff,dd,j,bb,v,n,o,h,z)
A7: continua.
A8: 1, 0 CATEGORICA (anteriormente:: t, f)
A9: 1, 0 CATEGORICA (anteriormente: t, f)
A10: continua.
A11: 1, 0 CATEGORICA (anteriormente: t, f)
A12: 1, 2, 3 CATEGORICA (anteriormente: s, g, p)
A13: continua.
A14: continua.
A15: 1,2 atributo clase (anteriormente:: +,-)

Documentos relevantes:
Ross Quinlan. "Simplifying decision trees", Int J Man-Machine Studies 27, Dec 1987, pp.
221-234.

Ross Quinlan. "C4.5: Programs for Machine Learning", Morgan Kaufmann, Oct 1992.
Citas:

Jeroen Eggermont and Joost N. Kok and Walter A. Kosters. Genetic Programming for data
classification: partitioning the search space. SAC. 2004.

Bart Hamers and J. A. K Suykens. Coupled Transductive Ensemble Learning of Kernel


Models. Bart De Moor. 2003.

Xiaoming Huo. FBP: A Frontier-Based Tree-Pruning Algorithm. Seoung Bum Kim. 2002.

Endre Boros and Peter Hammer and Toshihide Ibaraki and Alexander Kogan and Eddy
Mayoraz and Ilya B. Muchnik. An Implementation of Logical Analysis of Data. IEEE Trans.
Knowl. Data Eng, 12. 2000.

Mark A. Hall. Department of Computer Science Hamilton, NewZealand Correlation-based


Feature Selection for Machine Learning. Doctor of Philosophy at The University of Waikato.
1999.

Rudy Setiono and Huan Liu. NeuroLinear: From neural networks to oblique decision rules.
Neurocomputing, 17. 1997.

Krzysztof Grabczewski and Wl/odzisl/aw Duch. THE SEPARABILITY OF SPLIT VALUE


CRITERION. Department of Computer Methods, Nicolaus Copernicus University.

Bart Baesens and Stijn Viaene and Tony Van Gestel and J. A. K Suykens and Guido
Dedene and Bart De Moor and Jan Vanthienen and Katholieke Universiteit Leuven. An
Empirical Assessment of Kernel Type Performance for Least Squares Support Vector
Machine Classifiers. Dept. Applied Economic Sciences.

Adil M. Bagirov and Alex Rubinov and A. N. Soukhojak and John Yearwood. Unsupervised
and supervised data classification via nonsmooth and global optimization. School of
Information Technology and Mathematical Sciences, The University of Ballarat.

Wl/odzisl/aw Duch and Karol Grudzi nski and Grzegorz Stawski. SYMBOLIC FEATURES
IN NEURAL NETWORKS. Department of Computer Methods, Nicolaus Copernicus
University.

Hussein A. Abbass. Pareto Neuro-Evolution: Constructing Ensemble of Neural Networks


Using Multi-objective Optimization. Artificial Life and Adaptive Robotics (A.L.A.R.) Lab,
School of Information Technology and Electrical Engineering, Australian Defence Force
Academy.
Statlog (German Credit Data) Data Set 1994-11-17
Resumen: Este dataset clasifica las personas descritas por un conjunto de atributos como
buenos o malos riesgos de crdito.

Caractersticas del Nmero de


Multivariante 1000 rea: Financiera
Conjunto de datos: instancias:

Caractersticas del Categrico, Nmero de Fecha de


20 17-11-1994
atributo: entero atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin N/A accesos 100122
perdidos?
Web:

Fuente:
Profesor Dr. Hans Hofmann
Instituto de Estadsticas y Econometra
Universidad de Hamburgo
Departamento de Economa
Von-Melle-Park 5
2000 Hamburg 13

Informacin del Conjunto de datos:


Dos datasets son proporcionados, el original dataset, en forma proporcionado por el Prof.
Hofmann, contiene atributos categricos/simblicos y est en el archivo German.data.
Para algoritmos que necesitan atributos numricos, la Universidad de Strathclyde produce el
archivo German.data.numeric. Este archivo ha sido editado y se han aadido varias
variables indicadoras para hacerlo idneo para algoritmos los cuales no pueden enfrentarse
con variables categricas. Muchos atributos que han sido ordenados categricamente, han
sido codificados como enteros. Esta fue la forma utilizada por StatLog.

Este dataset requiere el uso de una matriz de coste:


.....1 2
----------------------------
101
-----------------------
250

(1 = bien, 2 = malo)

Las filas representan la clasificacin actual y las columnas la clasificacin predictiva.

Es peor para clasificar un cliente como bueno cuando son malos (5), tanto lo es para
clasificar un cliente como malo cuando son buenos (1).

Informacin de los Atributos:

Atributo 1: (cualitativo)
Estado de cuenta de cheques existente
A11: ... <0 DM
A12: 0 <= ... <200 DM
A13: ...> = 200 asignaciones de DM / a salarios de al menos 1 ao
A14: no cuenta de cheques

Atributo 2: (numrico)
Duracin en meses
Atributo 3: (cualitativo)
Historial de crdito
A30: no hay crditos tomados / todos los crditos pagados de vuelta debidamente
A31: los crditos de este banco pagados debidamente
A32: crditos existentes pagados debidamente hasta ahora
A33 : retraso en el pago de en el pasado
A34: cuentas crticas / otros crditos existentes (no en este banco)

Atributo 4: (cualitativo)
Propsito
A40: coche (nuevo)
A41: Coche (utilizado)
A42: muebles / equipos
A43: Radio / televisin
A44: electrodomsticos
A45: reparaciones
A46: educacin
A47: (vacaciones - no existe?)
A48: reconversin
A49: business
A410: otros

Atributo 5: (numrico)
Monto del crdito

Atributo 6: (cualitativo)
Cuenta de ahorros / bonos
A61: ... <100 DM
A62: 100 <= ... <500 DM
A63: 500 <= ... <1.000 DM
A64: ..> = 1.000 DM
A65: desconocido / ninguna cuenta de ahorro

Atributo 7: (cualitativo)
Presente empleo desde
A71: desempleados
A72: ... <1 ao
A73: 1 <= ... <4 aos
A74: 4 <= ... <7 aos
A75: ..> = 7 aos

8 Atributo: (numrico)
Tasa en porcentaje de la renta disponible

Atributo 9: (cualitativo)
El estatuto personal y del sexo
A91: masculino: divorciado / separado
A92: femenino: divorciado / separado / casado
A93: masculino: soltero
A94: masculino: Casado / viudo
A95: femenino: soltero

Atributo 10: (cualitativo)


Otros deudores / garantes
A101: ninguno
A102: co-solicitante
A103: garante
Atributo 11: (numrico)
Residencia actual desde

Atributo 12: (cualitativo)


Propiedad
A121: inmobiliaria
A122: si no A121: Acuerdo ahorro sociedad de crdito hipotecario / seguro de vida
A123: si no A121/A122: coche u otro, no en el atributo 6
A124: desconocida / no propiedad

Atributo 13: (numrico)


Edad en aos

Atributo 14: (cualitativo)


Otros planes de pago
A141: banco
A142: almacenado
A143 : ninguna

Atributo 15: (cualitativo)


Vivienda
A151: alquiler
A152: propia
A153: gratis

Atributo 16: (numrico)


Nmero de crditos existentes en este banco

Atributo 17: (cualitativo)


Empleo
A171: desempleados / no calificada - no residente
A172: no calificada residente
A173: experto empleado / oficial
A174: Gestin / autnomos / empleado altamente cualificado / funcionario

Atributo 18: (numrico)


Nmero de personas que sean responsables de proporcionar mantenimiento durante

Atributo 19: (cualitativo)


Telfono
A191: ninguno
A192: s , registrado bajo el nombre del cliente

Atributo 20: (cualitativo)


trabajador extranjero
A201: s
A202: no

Documentos relevantes:
N/A

Citas:

Jeroen Eggermont and Joost N. Kok and Walter A. Kosters. Genetic Programming for data
classification: partitioning the search space. SAC. 2004.
Ke Wang and Shiyu Zhou and Ada Wai-Chee Fu and Jeffrey Xu Yu. Mining Changes of
Classification by Correspondence Tracing. SDM. 2003.

Avelino J. Gonzalez and Lawrence B. Holder and Diane J. Cook. Graph-Based Concept
Learning. FLAIRS Conference. 2001.

Oya Ekin and Peter L. Hammer and Alexander Kogan and Pawel Winter. Distance-Based
Classification Methods. e p o r t RUTCOR ffl Rutgers Center for Operations Research ffl
Rutgers University. 1996.

Paul O' Dea and Josephine Griffith and Colm O' Riordan. Combining Feature Selection and
Neural Networks for Solving Classification Problems. Information Technology Department,
National University of Ireland.

Chotirat Ann and Dimitrios Gunopulos. Scaling up the Naive Bayesian Classifier: Using
Decision Trees for Feature Selection. Computer Science Department University of California.

Paul O' Dea and David Griffith and Colm O' Riordan. DEPARTMENT OF INFORMATION
TECHNOLOGY. P. O'Dea (NUI).
Statlog (Heart) Data Set N/A
Resumen: Este dataset es una BD de enfermedades del corazn similar a una BD ya
presente en el repositorio (Heart Disease databases), pero en una forma ligeramente
diferente.

Caractersticas del Nmero de


Multivariante 270 rea: Salud
Conjunto de datos: instancias:

Caractersticas del Categrico, Nmero de Fecha de


13 N/A
atributo: real atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin No accesos 49281
perdidos?
Web:

Fuente:
N/A

Informacin del Conjunto de datos:


Matriz de coste

_______ ause pres


ausencia 0 1
presencia 5 0

Donde las filas representan los valores reales y las columnas los predecidos.

Informacin de los Atributos:


-. 1 Edad
-. 2 Sexo
-. 3 Tipo de dolor de pecho (4 valores)
-. 4 presin arterial en reposo
-. 5 colesterol suero en mg / dl
-. 6 glucemia en ayunas> 120 mg / dl
-. 7 resultados de electrocardiograma en reposo (valores 0,1,2)
-. 8 frecuencia cardaca mxima alcanzada
-. 9 angina inducida por el ejercicio
- 10 oldpeak = ST depresin inducida por el ejercicio en relacin a descansar.
- 11 la pendiente del segmento ST ejercicio mximo.
- 12 nmero de vasos principales (0-3) coloreado por fluoroscopia.
. - 13 thal: 3 = normal; 6 = defecto arreglado; 7 = defecto reversible

Tipos de atributos
-----------------

Real: 1,4,5,8,10,12
Ordenado: 11,
Binarop: 2,6,9
Nominal:7,3,13

Variable a ser prevista


------------------------
Ausencia (1) o presencia (2) de enfermedad del corazn
Documentos relevantes:
N/A

Citas:

Gavin Brown. Diversity in Neural Network Ensembles. The University of Birmingham. 2004.

Igor Kononenko and Edvard Simec and Marko Robnik-Sikonja. Overcoming the Myopia of
Inductive Learning Algorithms with RELIEFF. Appl. Intell, 7. 1997.

Elena Smirnova and Ida G. Sprinkhuizen-Kuyper and I. Nalbantis and b. ERIM and
Universiteit Rotterdam. Unanimous Voting using Support Vector Machines. IKAT,
Universiteit Maastricht.

Alexander K. Seewald. Dissertation Towards Understanding Stacking Studies of a General


Ensemble Learning Scheme ausgefuhrt zum Zwecke der Erlangung des akademischen
Grades eines Doktors der technischen Naturwissenschaften.
Statlog (Image Segmentation) Data Set 1990-11-01
Resumen: Este dataset es una BD de segmentaciones de imgenes similar a una BD que
ya est presente en el repositorio (Image sefmentation database) con una ligera diferencia.

Caractersticas del Nmero de


Multivariante 2310 rea: N/A
Conjunto de datos: instancias:

Caractersticas del Nmero de Fecha de


Real 19 01-11-1990
atributo: atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin No accesos 23399
perdidos?
Web:

Fuente:
Creadores:
Vision Group, Universidad de Massachusetts

Donante:
Vision Group (Carla Brodley@cs.umass.edu)

Informacin del Conjunto de datos:


Las instancias fueron seleccionadas al azar a partir de una base de datos de 7 imgenes al
aire libre. Las imgenes fueron segmentadas a mano para crear una clasificacin para cada
pxel.
Cada instancia es una regin de 3x3.

Informacin de los Atributos:


1. region centroid-col: la columna del pxel central de la regin.
2. region-centroid-row: la fila del pxel central de la regin.
3. regin-pixel-count: el nmero de pxeles en una regin = 9.
4. short-line density-5: los resultados de un algoritmo de extraccin que cuenta el nmero de
lneas de longitud 5 (cualquier orientacin) con bajo contraste, menor o igual a 5, pasan por
la regin.
5. short-line-density-2: igual que el short-line-density-5, pero cuenta lneas de alto contraste,
mayor que 5.
6. vedge-mean: mide el contraste de los pxeles adyacentes horizontalmente en la
regin. Hay 6, se dan la media y la desviacin estndar. Este atributo se utiliza como un
detector de borde vertical.
7. vegde-sd: (ver 6)
8. hedge-mean: mide el contraste de los pxeles adyacentes verticalmente. Usado para la
deteccin de la lnea horizontal.
9. hedge-sd: (ver 8).
10. intensity-mean: la media de la regin de (R + G + B) / 3
11. rawred-mean: la media de la regin del valor R.
12. rawblue-mean: el promedio en el rango del valor B.
13. rawgreen-mean: la media de la regin del valor de G.
14. exred -mean: medir el exceso de rojo: (2R - (G + B))
15. exblue-mean: medir el exceso de azul: (2B - (G + R))
16. exgreen-mean: medir el exceso de verde: (2G - (R + B))
17. Vaue-mean: 3-d de transformacin no lineal de RGB. (Algoritmo se puede encontrar en
Foley y VanDam, Fundamentos de Informtica Grfica Interactiva)
18. saturation-mean: (ver 17)
19. hue-mean: (ver 17)
Clases:
1 = brickface,
2 = sky,
3 = foliage,
4 = cement,
5 = window,
6 = path,
7 = grass.

Documentos relevantes:
N/A

Citas:

Anthony K H Tung and Xin Xu and Beng Chin Ooi. CURLER: Finding and Visualizing
Nonlinear Correlated Clusters. SIGMOD Conference. 2005.

Xiaoli Z. Fern and Carla Brodley. Cluster Ensembles for High Dimensional Clustering: An
Empirical Study. Journal of Machine Learning Research n, a. 2004.

Aristidis Likas and Nikos A. Vlassis and Jakob J. Verbeek. The global k-means clustering
algorithm. Pattern Recognition, 36. 2003.

Manoranjan Dash and Huan Liu and Peter Scheuermann and Kian-Lee Tan. Fast
hierarchical clustering and its validation. Data Knowl. Eng, 44.

Amund Tveit. Empirical Comparison of Accuracy and Performance for the MIPSVM classifier
with Existing Classifiers. Division of Intelligent Systems Department of Computer and
Information Science, Norwegian University of Science and Technology.

Je Scott and Mahesan Niranjan and Richard W. Prager. Realisable Classifiers: Improving
Operating Performance on Variable Cost Problems. Cambridge University Department of
Engineering.

C. Titus Brown and Harry W. Bullen and Sean P. Kelly and Robert K. Xiao and Steven G.
Satterfield and John G. Hagedorn and Judith E. Devaney. Visualization and Data Mining in
an 3D Immersive Environment: Summer Project 2003.

Adil M. Bagirov and Alex Rubinov and A. N. Soukhojak and John Yearwood. Unsupervised
and supervised data classification via nonsmooth and global optimization. School of
Information Technology and Mathematical Sciences, The University of Ballarat.

K. A. J Doherty and Rolf Adams and Neil Davey. Unsupervised Learning with Normalised
Data and Non-Euclidean Norms. University of Hertfordshire.

Adil M. Bagirov and John Yearwood. A new nonsmooth optimization algorithm for clustering.
Centre for Informatics and Applied Optimization, School of Information Technology and
Mathematical Sciences, University of Ballarat.

K. A. J Doherty and Rolf Adams and Neil Davey. Non-Euclidean Norms and Data
Normalisation. Department of Computer Science, University of Hertfordshire, College Lane.

Michael Lindenbaum and Shaul Markovitch and Dmitry Rusakov. Selective Sampling Using
Random Field Modelling.
James Tin and Yau Kwok. Moderating the Outputs of Support Vector Machine Classifiers.
Department of Computer Science Hong Kong Baptist University Hong Kong.

Thomas T. Osugi and M. S. EXPLORATION-BASED ACTIVE MACHINE LEARNING. Faculty


of The Graduate College at the University of Nebraska In Partial Fulfillment of Requirements.

Nikos A. Vlassis and Aristidis Likas. A greedy EM algorithm for Gaussian mixture. Intelligent
Autonomous Systems, IAS.
Statlog (Landsat Satellite) Data Set 1993-02-13
Resumen: Valores multi-espectrales de pxeles en sectores de 3x3 en una imagen de
satlite, y la clasificacin asociada con el pxel central en cada sector

Caractersticas del Nmero de


Multivariante 6435 rea: Fsico
Conjunto de datos: instancias:

Caractersticas del Nmero de Fecha de


Entero 36 13-02-1993
atributo: atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin N/A accesos 39739
perdidos?
Web:

Fuente:
Ashwin Srinivasan
Direccin general de estadstica y modelado de datos
Universidad de Stratchlyde
Glasgow, Escocia, Reino Unido
Ross@uk.ac.turing

Los datos de Landsat originales para esta base de datos se ha generado a partir de datos
adquiridos de la NASA por el Centro Australiano de Percepcin Remota, y se utilizan para la
investigacin en: El Centro de Teledeteccin de la Universidad de Nueva Gales del
Sur, Kensington, PO Box 1 NSW 2.033 Australia.

La base de datos de muestra se gener tomando una pequea seccin (82 filas y 100
columnas) de los datos originales. Los valores binarios se convirtieron a su forma ASCII por
Ashwin Srinivasan. La clasificacin para cada pxel se realiz a base de una visita al lugar
real por la Sra. Karen Hall, cuando trabajaba para el profesor John A. Richards, en el Centro
de Percepcin Remota en la Universidad de New South Wales, Australia. La conversin a
sectores de 3x3 y la divisin en unidades de prueba y de capacitacin se llev a cabo por
Alistair Sutherland.

Informacin del Conjunto de datos:


La base de datos consta de los valores multiespectrales de pxeles en sectores de 3x3 en
una imagen de satlite, y la clasificacin asociada con el pxel central en cada sector. El
objetivo es predecir esta clasificacin, dados los valores multiespectrales. En la base de
datos de ejemplo, la clase de un pxel se codifica como un nmero.
Los datos del satlite Landsat son una de las muchas fuentes de informacin disponibles
para una escena. Se espera que la interpretacin de una escena mediante la integracin de
los datos espaciales de diversos tipos y de las resoluciones que incluyen datos
multiespectrales y de radar, mapas indicando un uso topografa, la tierra, etc. a asumir una
importancia significativa con el inicio de una era caracterizada por enfoques integradores
para la deteccin remota (por ejemplo), Sistema de Observacin de la Tierra de la NASA
comenzar esta dcada). Mtodos estadsticos existentes estn mal equipados para manejar
este tipo de tipos de datos diversos. Tenga en cuenta que esto no es cierto para los datos de
Landsat MSS considerados de manera aislada (como en esta base de datos de
muestra). Estos datos satisfacen los requisitos importantes de ser numricos y en una sola
resolucin, y la clasificacin estndar de mxima verosimilitud se desempea muy bien. En
consecuencia, para estos datos, debe ser interesante comparar el rendimiento de otros
mtodos contra el enfoque estadstico.
Un fotograma de las imgenes Landsat MSS consta de cuatro imgenes digitales de la
misma escena en diferentes bandas espectrales. Dos de estos son en la regin visible (que
corresponde aproximadamente a las regiones verde y roja del espectro visible) y dos estn
en el (cerca) infrarrojo. Cada pixel es una palabra binaria de 8 bits, con 0 correspondiente a
negro y 255 a blanco. La resolucin espacial de un pxel es de aproximadamente 80m x
80m. Cada imagen contiene 2340 x 3380 pxeles tales.
La base de datos es una (pequea) sub-rea de una escena, que consta de 82 x 100
pxeles. Cada lnea de datos corresponde a un sector cuadrado 3x3 de pxeles
completamente contenidos dentro de la sub-rea de 82x100. Cada lnea contiene los valores
de pxeles en las cuatro bandas espectrales (convertido a ASCII) de cada uno de los 9
pxeles en la zona de 3x3 y un nmero que indica la etiqueta de clasificacin del pxel
central. El nmero es un cdigo para las siguientes clases:

Nmero de clase
1 red soil
2 cotton crop
3 grey soil
4 damp grey soil
5 soil with vegetation stubble
6 mixture class (all types present)
7 very damp grey soil

NB. No hay ejemplos con la clase 6, en este conjunto de datos.

Los datos se dan en orden aleatorio y ciertas lneas de datos se han eliminado de manera
que no se puede reconstruir la imagen original de este conjunto de datos.
En cada lnea de datos de los cuatro valores espectrales de la parte superior- pixel izquierdo
se da primero, seguido de los cuatro valores espectrales para el pxel superior central y
luego los del pixel superior derecha, y as sucesivamente con los pxeles ledos en
secuencia de izquierda a derecha y de arriba a abajo. Por lo tanto, los cuatro valores
espectrales para el pxel central se dan por atributos 17, 18, 19 y 20. Si lo desea, puede
utilizar slo estos cuatro atributos, haciendo caso omiso de los dems. Esto evita el
problema que surge cuando un sector 3x3 extiende a ambos lados de un lmite.

Informacin de los Atributos:


Los atributos son numricos, en el rango 0-255.

Documentos relevantes:
N/A

Citas:

Ken Tang and Ponnuthurai N. Suganthan and Xi Yao and A. Kai Qin. Linear
dimensionalityreduction using relevance weighted LDA. School of Electrical and Electronic
Engineering Nanyang Technological University. 2005.

Jaakko Peltonen and Arto Klami and Samuel Kaski. Improved Learning of Riemannian
Metrics for Exploratory Analysis. Improved Learning of Riemannian Metrics for Exploratory
Analysis. Neural Networks. 2004.

Fabian Hoti and Lasse Holmstrm. A semiparametric density estimation approach to pattern
classification. Pattern Recognition, 37. 2004.

Giorgio Valentini. Random Aggregated and Bagged Ensembles of SVMs: An Empirical


Bias?Variance Analysis. Multiple Classifier Systems. 2004.

Xiaoli Z. Fern and Carla Brodley. Cluster Ensembles for High Dimensional Clustering: An
Empirical Study. Journal of Machine Learning Research n, a. 2004.
Jaakko Peltonen and Samuel Kaski. Discriminative Components of Data. IEEE. 2004.

S. Augustine Su and Jennifer G. Dy. Automated hierarchical mixtures of probabilistic principal


component analyzers. ICML. 2004.

Giorgio Valentini and Thomas G. Dietterich. Low Bias Bagged Support Vector Machines.
ICML. 2003.

Zoubin Ghahramani and Hyun-Chul Kim. Bayesian Classifier Combination. Gatsby


Computational Neuroscience Unit University College London. 2003.

Giorgio Valentini. Ensemble methods based on bias--variance analysis Theses Series DISI-
TH-2003. Dipartimento di Informatica e Scienze dell'Informazione. 2003.

Peter Sykacek and Stephen J. Roberts. Adaptive Classification by Variational Kalman


Filtering. NIPS. 2002.

Igor V. Tetko. Associative Neural Network. Neural Processing Letters, 16. 2002.

Jaakko Peltonen and Arto Klami and Samuel Kaski. Learning More Accurate Metrics for Self-
Organizing Maps. ICANN. 2002.

Stephen D. Bay. Multivariate Discretization for Set Mining. Knowl. Inf. Syst, 3. 2001.

Kagan Tumer and Joydeep Ghosh. Robust Combining of Disparate Classifiers through Order
Statistics. CoRR, csLG/9905013. 1999.

Kagan Tumer and Nikunj C. Oza. Decimated Input Ensembles for Improved Generalization.
NASA Ames Research Center. 1999.

Xavier Giannakopoulos and Juha Karhunen and Erkki Oja. An Experimental Comparison of
Neural Algorithms for Independent Component Analysis and Blind Separation. Int. J. Neural
Syst, 9. 1999.

Cesar Guerra-Salcedo and L. Darrell Whitley. Genetic Approach to Feature Selection for
Ensemble Creation. GECCO. 1999.

Robert E. Schapire and Yoav Freund and Peter Bartlett and Wee Sun Lee. The Annals of
Statistics, to appear. Boosting the Margin: A New Explanation for the Effectiveness of Voting
Methods. AT&T Labs. 1998.

Je Scott and Mahesan Niranjan and Richard W. Prager. Realisable Classifiers: Improving
Operating Performance on Variable Cost Problems. Cambridge University Department of
Engineering.

Vikas Sindhwani and P. Bhattacharya and Subrata Rakshit. Information Theoretic Feature
Crediting in Multiclass Support Vector Machines.

Jaakko Peltonen and Arto Klami and Samuel Kaski. Learning Metrics for Information
Visualization. Neural Networks Research Centre Helsinki University of Technology.

C. esar and Cesar Guerra-Salcedo and Darrell Whitley. Feature Selection Mechanisms for
Ensemble Creation: A Genetic Search Perspective. Department of Computer Science
Colorado State University.

Grigorios Tsoumakas and Ioannis P. Vlahavas. Fuzzy Meta-Learning: Preliminary Results.


Greek Secretariat for Research and Technology.
Xavier Giannakopoulos and Juha Karhunen and Erkki Oja. A COMPARISON OF NEURAL
ICA ALGORITHMS USING REAL-WORLD DATA. IDSIA.

Adil M. Bagirov and Julien Ugon. An algorithm for computation of piecewise linear function
separating two sets. CIAO, School of Information Technology and Mathematical Sciences,
The University of Ballarat.

Giorgio Valentini. An experimental bias--variance analysis of SVM ensembles based on


resampling techniques.

Cesar Guerra-Salcedo and Stephen Chen and Darrell Whitley and Sarah Smith. Fast and
Accurate Feature Selection Using Hybrid Genetic Strategies. Department of Computer
Science Colorado State University.
Statlog (Shuttle) Data Set N/A
Resumen: El conjunto de datos de transporte contiene 9 atributos todos los cuales son de
tipo numrico. Aproximadamente el 80% de los datos pertenecen a la clase 1

Caractersticas del Nmero de


Multivariante 58000 rea: Fsico
Conjunto de datos: instancias:

Caractersticas del Nmero de Fecha de


Entero 9 N/A
atributo: atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin N/A accesos 41355
perdidos?
Web:

Fuente:
Jason Catlett
Departamento de Ciencias de la Computacin de Basser
Universidad de Sydney, N.S.W., Australia

Informacin del Conjunto de datos:


Aproximadamente el 80% de los datos pertenecen a la clase 1. Por lo tanto, la exactitud
predeterminada es de aproximadamente 80%. El objetivo es obtener una precisin de 99 -.
99,9%.
Los ejemplos en el conjunto de datos original estaban en el orden del tiempo, y este orden
de tiempo presumiblemente podra ser relevante en la clasificacin. Sin embargo, esto no se
ha considerado relevante para los propsitos de Statlog, por lo que el orden de los ejemplos
en el conjunto de datos original fue aleatorio, y una parte de la base de datos original fue
eliminada por motivos de validacin.

Informacin de los Atributos:


El conjunto de datos de transporte contiene 9 atributos todos los cuales son de tipo
numrico. El primero es el tiempo. La ltima columna es la clase que ha sido codificado de la
siguiente manera:
1 Rad Flow
2 Fpv Close
3 Fpv Open
4 High
5 Bypass
6 Bpv Close
7 Bpv Open

Documentos relevantes:
N/A

Citas:

Ira Cohen and Fabio Gagliardi Cozman and Nicu Sebe and Marcelo Cesar Cirelo and
Thomas S. Huang.Semisupervised Learning of Classifiers: Theory, Algorithms, and Their
Application to Human-Computer Interaction. IEEE Trans. Pattern Anal. Mach. Intell, 26. 2004.

Richard Nock. Inducing Interpretable Voting Classifiers without Trading Accuracy for
Simplicity: Theoretical Results, Approximation Algorithms, and Experiments. J. Artif. Intell.
Res. (JAIR, 17. 2002.
Grigorios Tsoumakas and Ioannis P. Vlahavas. Effective Stacking of Distributed Classifiers.
ECAI. 2002.

Jun Wang and Bin Yu and Les Gasser. Concept Tree Based Clustering Visualization with
Shaded Similarity Matrices. ICDM. 2002.

Jochen Garcke and Michael Griebel and Michael Thess. Data Mining with Sparse Grids.
Computing, 67. 2001.

Stephen D. Bay. Multivariate Discretization for Set Mining. Knowl. Inf. Syst, 3. 2001.

Haixun Wang and Carlo Zaniolo. CMP: A Fast Decision Tree Classifier Using Multivariate
Predictions. ICDE. 2000.

Khaled A. Alsabti and Sanjay Ranka and Vineet Singh. CLOUDS: A Decision Tree Classifier
for Large Datasets. KDD. 1998.

Ron Kohavi. Scaling Up the Accuracy of Naive-Bayes Classifiers: A Decision-Tree Hybrid.


KDD. 1996.

Pedro Domingos. Linear-Time Rule Induction. KDD. 1996.

Nir Friedman and Moiss Goldszmidt. Discretizing Continuous Attributes While Learning
Bayesian Networks. ICML. 1996.

Ron Kohavi. The Power of Decision Tables. ECML. 1995.

Ron Kohavi. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model
Selection. IJCAI. 1995.

Wl odzisl and Rafal Adamczak and Krzysztof Grabczewski. Optimization of Logical Rules
Derived by Neural Procedures. Department of Computer Methods, Nicholas Copernicus
University.

Chih-Wei Hsu and Cheng-Ru Lin. A Comparison of Methods for Multi-class Support Vector
Machines. Department of Computer Science and Information Engineering National Taiwan
University.

Jeffrey P. Bradford and Clayton Kunz and Ron Kohavi and Clifford Brunk and Carla
Brodley. Appears in ECML-98 as a research note Pruning Decision Trees with
Misclassification Costs. School of Electrical Engineering.

Jun Wang. Classification Visualization with Shaded Similarity Matrix. Bei Yu Les Gasser
Graduate School of Library and Information Science University of Illinois at Urbana-
Champaign.

Krzysztof Grabczewski and Wl/odzisl/aw Duch. THE SEPARABILITY OF SPLIT VALUE


CRITERION. Department of Computer Methods, Nicolaus Copernicus University.

Mohammed Waleed Kadous and Claude Sammut. The University of New South Wales
School of Computer Science and Engineering Temporal Classification: Extending the
Classification Paradigm to Multivariate Time Series.

Adil M. Bagirov and Julien Ugon. An algorithm for computation of piecewise linear function
separating two sets. CIAO, School of Information Technology and Mathematical Sciences,
The University of Ballarat.
Ron Kohavi and George H. John. Automatic Parameter Selection by Minimizing Estimated
Error. Computer Science Dept. Stanford University.

Wl odzisl/aw Duch and Rudy Setiono and Jacek M. Zurada. Computational intelligence
methods for rule-based data understanding.

Chris Giannella and Bassem Sayrafi. An Information Theoretic Histogram for Single
Dimensional Selectivity Estimation. Department of Computer Science, Indiana University
Bloomington.
Christophe Giraud and Tony Martinez. ADYNAMIC INCREMENTAL NETWORK THAT
LEARNS BY DISCRIMINATION. AA.
Statlog (Vehicle Silhouettes) Data Set N/A
Resumen: objetos 3D dentro de una imagen 2D mediante la aplicacin de un conjunto de
extractores de caractersticas de formas para las siluetas 2D de los objetos.

Caractersticas del Nmero de


Multivariante 946 rea: N/A
Conjunto de datos: instancias:

Caractersticas del Nmero de Fecha de


Entero 18 N/A
atributo: atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin N/A accesos 39938
perdidos?
Web:

Fuente:
Drs.Pete Mowforth y Barry Shepherd
Instituto Turing
George House
36 North Hanover St.
Glasgow G1 2AD
Alistair Sutherland
Departamento de Estadsticas
Universidad Strathclyde
Livingstone Tower
26 Richmond St
GLASGOW G1 1XH
Gran Bretaa
Tel.: 041 552 4400 x3033
Fax: 041 552 4711
e-mail: Alistair"@" uk.ac.strathclyde.stams

Informacin del Conjunto de datos:


El objetivo es clasificar una silueta dada como uno de los cuatro tipos de vehculos, usando
un conjunto de caractersticas extradas de la silueta. El vehculo puede ser visto desde uno
de los muchos ngulos diferentes.
Esta informacin fue originalmente reunida en la TI en 1986-1987 por JP Siebert. Fue
financiado parcialmente por Barr y Stroud Ltd. El propsito original era encontrar un mtodo
para distinguir los objetos 3D en una imagen 2D mediante la aplicacin de un conjunto de
extractores de caractersticas de formas de las siluetas 2D de los objetos. Medidas de
funciones de formas extradas de ejemplos de siluetas de objetos para ser discriminadas se
utilizaron para generar un rbol de reglas de clasificacin a travs de la induccin de la
computadora.
Esta estrategia de reconocimiento de objetos se utiliz con xito para discriminar entre las
siluetas de los modelos de coches, furgonetas y autobuses vistos desde una altura
restringida pero todos los ngulos de rotacin. El rendimiento de clasificacin del rbol de
reglas comparado favorablemente con MDC (clasificador de distancia mnima) y k-NN (k-
vecino ms cercano) clasificadores estadsticos en trminos de tasa de error y la eficiencia
computacional. Una investigacin de estos rboles de reglas generadas por ejemplo indic
que la estructura de rbol fue fuertemente influenciado por la orientacin de los objetos, y
agrupa vistas de objetos similares en las decisiones individuales.
Las caractersticas fueron extradas de las siluetas por el HIPS (Sistema de Procesamiento
de Imgenes jerrquica) de extensin BINATTS, que extrae una combinacin de
caractersticas independientes de escala utilizando ambos momentos clsicos de medidas
basadas tales como variacin a escala, la asimetra y la curtosis sobre lps mayores /
menores ejes y medidas heursticas tales como huecos, circularidad, ortogonalidad y la
compacidad.
Cuatro modelos "Corgie" vehculos fueron utilizados para el experimento: un autobs de dos
pisos, Cheverolet furgoneta, Saab 9000 y un Opel Manta 400. Esta combinacin particular
de vehculos fue elegida con la expectativa de que el autobs, camioneta, o bien uno de los
coches seran fcilmente distinguibles, pero sera ms difcil distinguir entre los coches.
Las imgenes fueron adquiridas con una cmara que mira hacia abajo en el modelo vehculo
desde un ngulo fijo de elevacin (34,2 grados con la horizontal). Los vehculos fueron
colocados sobre una superficie con retroiluminacin difusa (caja de luz). Los vehculos
fueron pintados de negro mate para minimizar reflejos. Las imgenes fueron capturadas
utilizando un Framestore CRS4000 conectado a un VAX 750. Todas las imgenes fueron
capturadas con una resolucin espacial de 128x128 pxeles cuantificada a 64
greylevels. Estas imgenes fueron thresholded para producir binarios siluetas de vehculos,
negados (para cumplir con los requisitos de procesamiento de BINATTS) y posteriormente
sometidos a encogerse-expandir-ampliar contraccin mdulos HIPS para eliminar el ruido de
imagen "sal y pimienta".
Los vehculos fueron rotados y su ngulo de orientacin se midi utilizando una retcula
radial debajo del vehculo. 0 y 180 grados corresponden a "la cabeza sobre los" puntos de
vista "y traseras", respectivamente, mientras que el 90 y 270 corresponden a perfiles en
direcciones opuestas. Dos series de 60 imgenes, cada conjunto que abarca una rotacin
completa de 360 grados, fueron capturados por cada vehculo. El vehculo se hizo girar en
un ngulo fijo entre las imgenes. Estos conjuntos de datos se conocen como E2 y E3,
respectivamente.
Otros dos conjuntos de imgenes, e4 y e5, fueron capturadas con la cmara en las
elevaciones de 37.5 y 30.8 degs degs respectivamente. Estos conjuntos tambin contienen
60 imgenes por vehculo aparte de e4.van que contiene slo 46 debido a la dificultad de
contener la furgoneta en la imagen en algunas orientaciones.

Informacin de los Atributos:


COMPACTNESS (average perim)**2/area
CIRCULARITY (average radius)**2/area
DISTANCE CIRCULARITY area/(av.distance from border)**2
RADIUS RATIO (max.rad-min.rad)/av.radius
PR.AXIS ASPECT RATIO (minor axis)/(major axis)
MAX.LENGTH ASPECT RATIO (length perp. max length)/(max length)
SCATTER RATIO (inertia about minor axis)/(inertia about major axis)
ELONGATEDNESS area/(shrink width)**2
PR.AXIS RECTANGULARITY area/(pr.axis length*pr.axis width)
MAX.LENGTH RECTANGULARITY area/(max.length*length perp. to this)
SCALED VARIANCE (2nd order moment about minor axis)/area
ALONG MAJOR AXIS
SCALED VARIANCE (2nd order moment about major axis)/area
ALONG MINOR AXIS
SCALED RADIUS OF GYRATION (mavar+mivar)/area
SKEWNESS ABOUT (3rd order moment about major axis)/sigma_min**3
MAJOR AXIS
SKEWNESS ABOUT (3rd order moment about minor axis)/sigma_maj**3
MINOR AXIS
KURTOSIS ABOUT (4th order moment about major axis)/sigma_min**4
MINOR AXIS
KURTOSIS ABOUT (4th order moment about minor axis)/sigma_maj**4
MAJOR AXIS
HOLLOWS RATIO (area of hollows)/(area of bounding polygon)

Donde sigma_maj ** 2 es la varianza a lo largo del eje mayor y sigma_min ** 2 es la varianza


a lo largo del eje menor, y el rea de huecos = rea de delimitacin poli-rea del objeto.
El rea de delimitacin del polgono se encuentra como un lado a consecuencia del cmputo
para calcular la longitud mxima. Cada clculo de la longitud obtiene un par de pinzas para
el orientado a objetos en cada 5 grados. El objeto se propaga en una imagen que contiene la
unin de estas pinzas para obtener una imagen de la delimitacin del polgono.

NMERO DE CLASES
4 OPEL, SAAB, BUS, VAN

Documentos relevantes:
Turing Institute Research Memorandum TIRM-87-018 "Vehicle Recognition Using Rule
Based Methods" by Siebert,JP (March 1987)

Citas:

Ping Zhong and Masao Fukushima. A Regularized Nonsmooth Newton Method for Multi-
class Support Vector Machines. 2005.

Ken Tang and Ponnuthurai N. Suganthan and Xi Yao and A. Kai Qin. Linear
dimensionalityreduction using relevance weighted LDA. School of Electrical and Electronic
Engineering Nanyang Technological University. 2005.

Remco R. Bouckaert and Eibe Frank. Evaluating the Replicability of Significance Tests for
Comparing Learning Algorithms. PAKDD. 2004.

Dmitry Pavlov and Alexandrin Popescul and David M. Pennock and Lyle H. Ungar. Mixtures
of Conditional Maximum Entropy Models. ICML. 2003.

James Bailey and Thomas Manoukian and Kotagiri Ramamohanarao. Fast Algorithms for
Mining Emerging Patterns. PKDD. 2002.

Gisele L. Pappa and Alex Alves Freitas and Celso A A Kaestner. Attribute Selection with a
Multi-objective Genetic Algorithm. SBIA. 2002.

Robi Polikar and L. Upda and S. S. Upda and Vasant Honavar. Learn++: an incremental
learning algorithm for supervised neural networks. IEEE Transactions on Systems, Man, and
Cybernetics, Part C, 31. 2001.

Thierry Denoeux. A neural network classifier based on Dempster-Shafer theory. IEEE


Transactions on Systems, Man, and Cybernetics, Part A, 30. 2000.

Thomas G. Dietterich. An Experimental Comparison of Three Methods for Constructing


Ensembles of Decision Trees: Bagging, Boosting, and Randomization. Machine Learning, 40.
2000.

Richard Maclin. Boosting Classifiers Regionally. AAAI/IAAI. 1998.

Robert E. Schapire and Yoav Freund and Peter Bartlett and Wee Sun Lee. The Annals of
Statistics, to appear. Boosting the Margin: A New Explanation for the Effectiveness of Voting
Methods. AT&T Labs. 1998.

Ron Kohavi and Mehran Sahami. Error-Based and Entropy-Based Discretization of


Continuous Features. KDD. 1996.

Ron Kohavi. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model
Selection. IJCAI. 1995.

Maria Salamo and Elisabet Golobardes. Analysing Rough Sets weighting methods for Case-
Based Reasoning Systems. Enginyeria i Arquitectura La Salle.
Ronaldo C. Prati and Peter A. Flach. ROCCER: an Algorithm for Rule Learning Based on
ROC Analysis. Institute of Mathematics and Computer Science University of S~ ao Paulo.

Jeffrey P. Bradford and Clayton Kunz and Ron Kohavi and Clifford Brunk and Carla
Brodley. Appears in ECML-98 as a research note Pruning Decision Trees with
Misclassification Costs. School of Electrical Engineering.

Gisele L. Pappa and Alex Alves Freitas and Celso A A Kaestner. AMultiobjective Genetic
Algorithm for Attribute Selection. Computing Laboratory Pontificia Universidade Catolica do
Parana University of Kent at Canterbury.

Chih-Wei Hsu and Cheng-Ru Lin. A Comparison of Methods for Multi-class Support Vector
Machines. Department of Computer Science and Information Engineering National Taiwan
University.

Yin Zhang and W. Nick Street. Bagging with Adaptive Costs. Management Sciences
Department University of Iowa Iowa City.

H. Altay Guvenir. A Classification Learning Algorithm Robust to Irrelevant Features. Bilkent


University, Department of Computer Engineering and Information Science.

Alexander K. Seewald. Dissertation Towards Understanding Stacking Studies of a General


Ensemble Learning Scheme ausgefuhrt zum Zwecke der Erlangung des akademischen
Grades eines Doktors der technischen Naturwissenschaften.

Adil M. Bagirov and Alex Rubinov and A. N. Soukhojak and John Yearwood. Unsupervised
and supervised data classification via nonsmooth and global optimization. School of
Information Technology and Mathematical Sciences, The University of Ballarat.

Ron Kohavi and George H. John. Automatic Parameter Selection by Minimizing Estimated
Error. Computer Science Dept. Stanford University.

Rajesh Parekh and Jihoon Yang and Vasant Honavar. Constructive Neural-Network Learning
Algorithms for Pattern Classification.

Vikas Sindhwani and P. Bhattacharya and Subrata Rakshit. Information Theoretic Feature
Crediting in Multiclass Support Vector Machines.
Statlog Project Data Set 1992-10-01
Resumen: Varias bases de datos: Vehicle silhouttes, Landsat Sattelite, Shuttle, Australian
Credit Approval, Heart Disease, Image Segmentation, German Credit

Caractersticas del Nmero de


N/A N/A rea: N/A
Conjunto de datos: instancias:

Caractersticas del Nmero de Fecha de


N/A N/A 01-10-1992
atributo: atributos: Donacin

Nmero de
Valores
Tareas asociadas: N/A N/A accesos N/A
perdidos?
Web:

Fuente:
Las bases de datos de Statlog son un subconjunto de los conjuntos de datos utilizados en el
proyecto europeo de Statlog.
Donante:
Ross D. King
Departamento de Estadstica y modelado de Ciencias
Universidad de Strathclyde
Glasgow G1 1XH
Escocia, Reino Unido
+44 41 552-4400 x 3033
Fax +44 41 552-4711
ross '@' turing.uk.ac

Informacin del Conjunto de datos:


Las bases de datos estn disponibles aqu estaban en uso en el proyecto europeo Statlog,
que consiste en comparar las prestaciones de la mquina de aprendizaje, estadstica y
algoritmos de redes neuronales en los conjuntos de datos de las reas industriales del
mundo real, incluyendo la medicina, finanzas, anlisis de imgenes, y el diseo de
ingeniera. No todas las bases de datos utilizadas en el proyecto estn disponibles en este
repositorio.

Bases de datos:

(a) Siluetas de Vehculos:


El propsito original era encontrar un mtodo para distinguir los objetos 3D en una imagen
2D mediante la aplicacin de un conjunto de extractores de caractersticas de formas a las
siluetas en 2D de los objetos.
(b) Satlite Landsat:
La base de datos consta de los valores multiespectrales de pxeles en los sectores de 3x3
en una imagen de satlite, y la clasificacin asociada con el pxel central en cada sector. El
objetivo es predecir esta clasificacin dados los valores multiespectrales. En la base de
datos de ejemplo, la clase de un pxel se codifica como un nmero.
(c) Transporte:
El conjunto de datos de transporte contiene 9 atributos todos los cuales son de tipo
numrico. Aproximadamente el 80% de los datos pertenecen a la clase 1.
(d)Aprobacin de Crdito Australiano:
Esta aplicacin refiere aplicaciones de tarjetas de crdito. Todos los nombres y valores de
los atributos se han cambiado a smbolos sin sentido para proteger la confidencialidad de los
datos. Esta base de datos existe en el repositorio (Credit Screening Database) en una forma
ligeramente diferente.
(e) Enfermedades del corazn:
Este conjunto de datos es una base de datos de las enfermedades del corazn similar a una
base de datos ya presente en el repositorio (Heart Disease databases), pero en un poco
diferente formulario. Esta base de datos contiene 13 atributos (que han sido extrados de un
conjunto mayor de 75).
(f) Segmentacin de imgenes:
Este conjunto de datos es una base de datos de segmentacin de imgenes similar a una
base de datos ya est presente en el repositorio (base de datos de segmentacin de
imagenImage segmentation database), pero un poco diferente. Los casos fueron
seleccionados al azar a partir de una base de datos de 7 imgenes al aire libre. Las
imgenes fueron segmentadas manualmente para crear una clasificacin para cada
pxel. Cada instancia es una regin de 3x3.
(g) Crdito Alemn: Este conjunto de datos clasifica a las personas descritas por un conjunto
de atributos como buenos o malos riesgos de crdito. Viene en dos formatos (uno todos
numricos). Tambin viene con una matriz de costos.

Informacin de los Atributos:


N/A

Documentos relevantes:
Feng,C., Sutherland,A., King,S., Muggleton,S. & Henery,R. (1993). Comparison of Machine
Learning Classifiers to Statistics and Neural Networks. AI & Stats Conf. 93.

Citas:

Jeroen Eggermont and Joost N. Kok and Walter A. Kosters. Genetic Programming for data
classification: partitioning the search space. SAC. 2004.

Wei-Chun Kao and Kai-Min Chung and Lucas Assun and Chih-Jen Lin. Decomposition
Methods for Linear Support Vector Machines. Neural Computation, 16. 2004.

Xiaoli Z. Fern and Carla Brodley. Cluster Ensembles for High Dimensional Clustering: An
Empirical Study. Journal of Machine Learning Research n, a. 2004.

Gavin Brown. Diversity in Neural Network Ensembles. The University of Birmingham. 2004.

Zoubin Ghahramani and Hyun-Chul Kim. Bayesian Classifier Combination. Gatsby


Computational Neuroscience Unit University College London. 2003.

Bart Hamers and J. A. K Suykens. Coupled Transductive Ensemble Learning of Kernel


Models. Bart De Moor. 2003.

Jun Wang and Bin Yu and Les Gasser. Concept Tree Based Clustering Visualization with
Shaded Similarity Matrices. ICDM. 2002.

Ramesh Natarajan and Edwin P D Pednault. Segmented Regression Estimators for Massive
Data Sets. SDM. 2002.

Avelino J. Gonzalez and Lawrence B. Holder and Diane J. Cook. Graph-Based Concept
Learning. FLAIRS Conference. 2001.

Jochen Garcke and Michael Griebel and Michael Thess. Data Mining with Sparse Grids.
Computing, 67. 2001.

Edgar Acuna and Alex Rojas. Ensembles of classifiers based on Kernel density estimators.
Department of Mathematics University of Puerto Rico. 2000.
Haixun Wang and Carlo Zaniolo. CMP: A Fast Decision Tree Classifier Using Multivariate
Predictions. ICDE. 2000.

Cesar Guerra-Salcedo and L. Darrell Whitley. Genetic Approach to Feature Selection for
Ensemble Creation. GECCO. 1999.

Guido Lindner and Rudi Studer. AST: Support for Algorithm Selection with a CBR Approach.
PKDD. 1999.

Ljupco Todorovski and Saso Dzeroski. Experiments in Meta-level Learning with ILP. PKDD.
1999.

Art B. Owen. Tubular neighbors for regression and classification. Stanford University. 1999.

Robert E. Schapire and Yoav Freund and Peter Bartlett and Wee Sun Lee. The Annals of
Statistics, to appear. Boosting the Margin: A New Explanation for the Effectiveness of Voting
Methods. AT&T Labs. 1998.

Khaled A. Alsabti and Sanjay Ranka and Vineet Singh. CLOUDS: A Decision Tree Classifier
for Large Datasets. KDD. 1998.

Igor Kononenko and Edvard Simec and Marko Robnik-Sikonja. Overcoming the Myopia of
Inductive Learning Algorithms with RELIEFF. Appl. Intell, 7. 1997.

Oya Ekin and Peter L. Hammer and Alexander Kogan and Pawel Winter. Distance-Based
Classification Methods. e p o r t RUTCOR ffl Rutgers Center for Operations Research ffl
Rutgers University. 1996.

Georgios Paliouras and David S. Bre. The Effect of Numeric Features on the Scalability of
Inductive Learning Programs. ECML. 1995.

Ron Kohavi. The Power of Decision Tables. ECML. 1995.

Ron Kohavi and George H. John and Richard Long and David Manley and Karl
Pfleger. MLC++: A Machine Learning Library in C. ICTAI. 1994.

Ron Kohavi and George John and Richard Long and David Manley and Karl
Pfleger. Appears in Tools with AI '94. Computer Science Department Stanford University.

H. -T Lin and C. -J Lin. A Study on Sigmoid Kernels for SVM and the Training of non-PSD
Kernels by SMO-type Methods. Department of Computer Science and Information
Engineering National Taiwan University.

Jun Wang. Classification Visualization with Shaded Similarity Matrix. Bei Yu Les Gasser
Graduate School of Library and Information Science University of Illinois at Urbana-
Champaign.

Rong-En Fan and P. -H Chen and C. -J Lin. Working Set Selection Using the Second Order
Information for Training SVM. Department of Computer Science and Information Engineering
National Taiwan University.

Wl odzisl/aw Duch and Karol Grudzinski. Search and global minimization in similarity-based
methods. Department of Computer Methods, Nicholas Copernicus University.

Wl odzisl and aw Duch. Committees of Undemocratic Competent Models. School of


Computer Engineering Nanyang Technological University.
Krzysztof Grabczewski and Wl/odzisl/aw Duch. THE SEPARABILITY OF SPLIT VALUE
CRITERION. Department of Computer Methods, Nicolaus Copernicus University.

C. esar and Cesar Guerra-Salcedo and Darrell Whitley. Feature Selection Mechanisms for
Ensemble Creation : A Genetic Search Perspective. Department of Computer Science
Colorado State University.

Elena Smirnova and Ida G. Sprinkhuizen-Kuyper and I. Nalbantis and b. ERIM and
Universiteit Rotterdam.Unanimous Voting using Support Vector Machines. IKAT, Universiteit
Maastricht.

Ron Kohavi and Barry G. Becker and Dan Sommerfield. Improving Simple Bayes. Data
Mining and Visualization Group Silicon Graphics, Inc.

Wl odzisl and aw Duch. Control and Cybernetics. Department of Computer Methods,


Nicholas Copernicus University.

Wl odzisl/aw Duch and Rudy Setiono and Jacek M. Zurada. Computational intelligence
methods for rule-based data understanding.

Wl/odzisl/aw Duch and Rafal/ Adamczak Email:duchraad@phys. uni. torun. pl. Statistical
methods for construction of neural networks. Department of Computer Methods, Nicholas
Copernicus University.

Chih-Wei Hsu and Cheng-Ru Lin. A Comparison of Methods for Multi-class Support Vector
Machines. Department of Computer Science and Information Engineering National Taiwan
University.

Alexander K. Seewald. Dissertation Towards Understanding Stacking Studies of a General


Ensemble Learning Scheme ausgefuhrt zum Zwecke der Erlangung des akademischen
Grades eines Doktors der technischen Naturwissenschaften.

Wl/odzisl/aw Duch. Support Vector Neural Training. Index Terms--.

Alexander K. Seewald. Meta-Learning for Stacked Classification. Austrian Research Institute


for Artificial Intelligence.

Wl/odzisl/aw Duch and Karol Grudzinski. Meta-learning: searching in the model space.
Department of Computer Methods, Nicholas Copernicus University.

Kuan-ming Lin and Chih-Jen Lin. A Study on Reduced Support Vector Machines. Department
of Computer Science and Information Engineering National Taiwan University.

Je Scott and Mahesan Niranjan and Richard W. Prager. Realisable Classifiers: Improving
Operating Performance on Variable Cost Problems. Cambridge University Department of
Engineering.

Yishay Mansour. Pessimistic decision tree pruning based on tree size. Computer Science
Dept. Tel-Aviv University.

Guido Lindner and Rudi Studer. Algorithm Selection Support for Classification.
DaimlerChrysler AG, Research & Technology FT3/KL.

Ron Kohavi and George H. John. Automatic Parameter Selection by Minimizing Estimated
Error. Computer Science Dept. Stanford University.
Steel Plates Faults Data Set 2010-10-26
Resumen: Un conjunto de datos de defectos en placas de acero, que se clasifica en 7 tipos
diferentes. El objetivo era formar a la mquina de aprendizaje para el reconocimiento
automtico de patrones.

Caractersticas del Nmero de


Multivariante 1941 rea: Material
Conjunto de datos: instancias:

Caractersticas del Nmero de Fecha de


Entero, Rela 27 26-10-2010
atributo: atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin N/A accesos 23963
perdidos?
Web:

Fuente:
Semeion, Centro de Investigacin de Ciencias de la Comunicacin, Via Sersale 117, 00128,
Roma, Italia.
www.semeion.it

Informacin del Conjunto de datos:


Tipos de variables dependientes (7 tipos de fallas de placas de acero):

1.Pastry
2.Z_Scratch
3.K_Scatch
4.Stains
5.Dirtiness
6.Bumps
7.Other_Faults

Informacin de los Atributos:


27 variables independientes:
X_Minimum
X_Maximum
Y_Minimum
Y_Maximum
Pixels_Areas
X_Perimeter
Y_Perimeter
Sum_of_Luminosity
Minimum_of_Luminosity
Maximum_of_Luminosity
Length_of_Conveyer
TypeOfSteel_A300
TypeOfSteel_A400
Steel_Plate_Thickness
Edges_Index
Empty_Index
Square_Index
Outside_X_Index
Edges_X_Index
Edges_Y_Index
Outside_Global_Index
LogOfAreas
Log_X_Index
Log_Y_Index
Orientation_Index
Luminosity_Index
SigmoidOfAreas

Documentos relevantes:
1.M Buscema, S Terzi, W Tastle, A New Meta-Classifier,in NAFIPS 2010, Toronto
(CANADA),26-28 July 2010, 978-1-4244-7858-6/10 2010 IEEE
2.M Buscema, MetaNet: The Theory of Independent Judges, in Substance Use & Misuse,
33(2), 439-461,1998
Student Loan Relational Data Set 1993-01-01
Resumen: Prstamos Estudiantiles dominio relacional

Caractersticas del Dominio- Nmero de


1000 rea: Social
Conjunto de datos: Teora instancias:

Caractersticas del Nmero de Fecha de


N/A N/A 01-01-1993
atributo: atributos: Donacin

Nmero de
Valores
Tareas asociadas: N/A N/A accesos 19338
perdidos?
Web:

Fuente:
Michael J. Pazzani
Universitdad de California, Irvine
Irvine, CA EUA

Informacin del Conjunto de datos:


El predicado no_pago_debido / 1 es vlido para aquellas personas que no estn obligados a
pagar un prstamo estudiantil. Las relaciones auxiliares se pueden utilizar para discriminar
totalmente casos positivos de negativos de no_pago_debido / 1. La suposicin de mundo
cerrado se aplica a todas las relaciones auxiliares.

Informacin de los Atributos:


N/A

Documentos relevantes:
Pazzani, M., & Brunk, C. (1991). Detecting and correcting errors in rule-based expert
systems: an integration of empirical and explanation-based learning. Knowledge Acquisition,
3, 157-173.
SUSY Data Set 2014-02-12
Resumen: Este es un problema de clasificacin para distinguir entre un proceso de seal
que produce partculas supersimtricas y un proceso en segundo plano que no lo hace.

Caractersticas del
Nmero de
Conjunto de N/A 5000000 rea: Fsica
instancias:
datos:

Caractersticas del Nmero de Fecha de 23-02-


Real 18
atributo: atributos: Donacin 2014

Nmero de
Valores
Tareas asociadas: Clasificacin N/A accesos 3436
perdidos?
Web:

Fuente:
Daniel Whiteson daniel '@' uci.edu, Profesor assistente, Fsica y Astronoma, Universidad de
California Irvine

Informacin del Conjunto de datos:


Proporciona toda la informacin relevante. Los datos han sido producidos utilizando
simulaciones de Monte Carlo. Las primeras 8 caractersticas son propiedades cinemticas
medidas por los detectores de partculas en el acelerador. Las ltimas diez caractersticas
son funciones de las primeras 8 funciones; estas son las caractersticas de alto nivel
procedentes de los fsicos para ayudar a discriminar entre las dos clases. Hay un inters en
el uso de mtodos de aprendizaje profundo para evitar la necesidad de los fsicos para
desarrollar manualmente dichas caractersticas. Resultados de referencia que utilizan
rboles de decisin bayesiana a partir de un paquete de fsica estndar y las redes
neuronales de 5 capas y el algoritmo de desercin se presentan en el documento
original. Los ltimos 500.000 ejemplos se utilizan como una prueba acerca de su conjunto de
datos.

Informacin de los Atributos:


La primera columna es la etiqueta de la clase, seguido de las 18 caractersticas. Para
obtener informacin detallada acerca de cada funcin ver el documento original

Documentos relevantes:
Baldi, Sadowski, Whiteson, Improved Searches for Exotic Particles with Deep Learning
Techniques, (in submission).
Synthetic Control Chart Time Series Data Set 1999-06-08
Resumen: Esta informacin consta de los grficos de control generados sintticamente.

Caractersticas del Series de Nmero de


600 rea: N/A
Conjunto de datos: tiempo instancias:

Caractersticas del Nmero de Fecha de


Real N/A 08-06-1999
atributo: atributos: Donacin

Nmero de
Clasificacin, Valores
Tareas asociadas: No accesos 31979
Agrupamiento perdidos?
Web:

Fuente:
Dr. Robert Alcock rob '@' skyblue.csd.auth.gr

Informacin del Conjunto de datos:


Este conjunto de datos contiene 600 ejemplos de grficos de control sintticamente
generados por el proceso de Alcock y Manolopoulos (1999). Hay seis clases diferentes de
grficas de control:
1. Normal
2. Cyclic
3. Increasing trend
4. Decreasing trend
5. Upward shift
6. Downward shift

La siguiente imagen muestra diez ejemplos de cada clase: data.jpeg, donde (A) Tendencia a
la baja. (B) cclico. (C) normal. (D) de desplazamiento hacia arriba. (E) Tendencia al alza. (F)
desplazamiento a la baja.

Informacin de los Atributos:


Los datos se almacenan en un archivo ASCII, 600 filas, 60 columnas, con un solo grfico por
lnea. Las clases se organizan de la siguiente manera:
1-100 Normal
101-200 Cyclic
201-300 Increasing trend
301-400 Decreasing trend
401-500 Upward shift
501-600 Downward shift

Documentos relevantes:
Alcock R.J. and Manolopoulos Y. Time-Series Similarity Queries Employing a Feature-Based
Approach. 7th Hellenic Conference on Informatics. August 27-29. Ioannina,Greece 1999.

D.T. Pham and A.B. Chan "Control Chart Pattern Recognition using a New Type of Self
Organizing Neural Network" Proc. Instn, Mech, Engrs. Vol 212, No 1, pp 115-127 1998.
Syskill and Webert Web Page Ratings Data Set 1998-10-20
Resumen: Esta informacin consta de los grficos de control generados sintticamente.

Caractersticas del Multivariante, Nmero de


332 rea: Computacin
Conjunto de datos: Texto instancias:

Caractersticas del Nmero de Fecha de


Categrico 5 20-10-1998
atributo: atributos: Donacin

Nmero de
Valores
Tareas asociadas: Clasificacin N/A accesos 24083
perdidos?
Web:

Fuente:
Michael Pazzani
Departamento de informacin y ciencias de la computacin
Universidad de California, Irvine
Irvine, CA 92697-3425
pazzani '@' ics.uci.edu
http://www.ics.uci.edu/~pazzani

Informacin del Conjunto de datos:


Se indica el cdigo fuente HTML de una pgina web. Los usuarios observaron cada pgina
web e inidicaron en una escala de 3 puntos (fro medio caliente) 50-100 pginas por
dominio. Sin embargo, esto es realista, porque queremos aprender los perfiles de usuario
desde tan pocos ejemplos como sea posible para que los usuarios tengan una incentivo para
clasificar las pginas.

Informacin de los Atributos:


Cada sujeto se encuentra en un directorio independiente. Dentro de cada directorio, hay un
archivo llamado "ndex". El ndice contiene informacin sobre los dems archivos. Cada
entrada es una lnea de la forma:

file-name | rating | url | fecha de valoracin | ttulo

donde file-name es el nombre de un archivo (por lo general un nmero entero), est caliente,
medio o fro. Los otros campos no se utilizan en el aprendizaje, sino que son recogidos por
la interfaz para otros fines. Son la url de la fuente del HTML, la fecha de clasificacin y el
ttulo de la OAGE web.

Documentos relevantes:
Pazzani M., Billsus, D. (1997). Learning and Revising User Profiles: The identification of
interesting web sites. Machine Learning 27, 313-331

Pazzani, M., Muramatsu J., Billsus, D. (1996). Syskill & Webert: Identifying interesting web
sites. Proceedings of the National Conference on Artificial Intelligence, Portland, OR. PDF

Citas:

Stephen D. Bay and Dennis F. Kibler and Michael J. Pazzani and Padhraic Smyth. The UCI
KDD Archive of Large Data Sets for Data Mining Research and Experimentation. SIGKDD
Explorations, 2. 2000.
Electrificacin Tamilnadu por Horas Lecturas Data Set 22/12/2013
Resumen: Estos datos se pueden producir con eficacia el resultado a menos de
parmetros del perfil de carga se puede reducir en la base de datos
Conjunto de datos Nmero de
Multivariante 45781 rea: Vida
Caractersticas: instancias:

Caractersticas Nmero de Fecha


Real 5 22/12/2013
del atributo: atributos: Donado

La
Nmero
clasificacin, Valores
Tareas asociadas: N/A de Web 257
regresin, perdidos?
Accesos:
clustering

Fuente:

K.Kalyani, kkalyanims "@" gmail.com , TUK Arts College, Karanthai, Thanjavur.

Datos Conjunto de Informacin:

Recoge las lecturas en tiempo real para aplicaciones residenciales, comerciales,


industriales, agriculure, para encontrar el consumo de precisin en Tamil Nadu Alrededor
Thanajvur

Atributo de la informacin:

forkva, forkw, el tipo, el sector, el servicio

Documentos pertinentes:

Eficiente Electricidad Utilizacin Por IHBMO

Cita de pedidos:

Si usted no tiene ninguna peticin de citas especiales, por favor, deje este campo en
blanco.
Ayudante de Evaluacin Conjunto de Datos 07/06/1997
Resumen: Los datos consisten en evaluaciones de desempeo docente, las
puntuaciones son de "bajo", "medio" o "alto"
Conjunto de datos Nmero de
Multivariante 151 rea: N/A
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de Fecha


5 07/06/1997
atributo: Integer atributos: Donado

Nmero de
Valores
Tareas asociadas: Clasificacin No Web 42337
perdidos?
Accesos:

Fuente:

Collector: Wei-Yin Loh (Departamento de Estadstica, Universidad de Wisconsin-


Madison) Donante: Tjen-Sien Lim ( limt '@' stat.wisc.edu )

Datos Conjunto de Informacin:

Los datos consisten en evaluaciones de desempeo docente en tres semestres regulares


y dos semestres de verano de 151 asistentes de enseanza (TA) asignaciones en el
Departamento de la Universidad de Wisconsin-Madison Estadstica. Las puntuaciones
fueron divididas en 3 categoras ms o menos del mismo tamao ("bajos", "medianos" y
"alto") para formar la variable de clase.

Atributo de la informacin:

1. Ya sea de la TA no es un hablante nativo de Ingls (binario); 1 = altavoz Ingls, 2 = no


Ingls altavoz
2. El instructor del curso (categricos, 25 categoras)
3. Curso (categrica, 26 categoras)
4. Verano o semestre regular (binario) 1 = Verano, 2 = Regular
5. Tamao de la clase (numrico)
6. Atributo Class (categrica) 1 = bajo, 2 = medio, 3 = Alto

Documentos pertinentes:

Loh, W.-Y. Y Shih, Y.-S. (1997). Dividir Mtodos de seleccin de rboles de clasificacin,
Statistica Snica 7:. 815-840 [Web Link] Lim, T.-S., Loh, W.-Y. Y Shih, Y.-S.(1999). Una
comparacin de la exactitud de prediccin, complejidad y tiempo de formacin de los
Treinta y tres del Antiguo y Nuevo Clasificacin Algoritmos. Aprendizaje
Automtico. ( [Web Link] o [Web Link] ) [Web Link]

Cita de pedidos:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Ciruga Torcica de datos Conjunto de datos 11/13/2013
Resumen: Los datos se dedica a la clasificacin relativa a la esperanza de vida despus
de la operacin en los pacientes con cncer de pulmn problema: Clase 1 - muerte
dentro de un ao despus de la ciruga, clase 2 - supervivencia.
Conjunto de datos Nmero de
Multivariante 470 rea: Vida
Caractersticas: instancias:

Caractersticas del Nmero de Fecha


Entero, real 17 11/13/2013
atributo: atributos: Donado

Nmero de
Valores N/
Tareas asociadas: Clasificacin Web 4931
perdidos? A
Accesos:

Fuente:

Creadores: Marek Lubicz (1), Konrad Pawelczyk (2), Adam Rzechonek (2), Jerzy Kolodziej
(2)
- (1) Universidad Tecnolgica de Wroclaw, Wybrzeze Wyspianskiego 27, 50-370,
Breslavia, Polonia
- (2 ) Mdico de la Universidad de Wroclaw, Wybrzeze L. Pasteura 1, 50-367 Wroclaw,
Polonia Donante: Maciej Zieba ( maciej.zieba '@' pwr.wroc.pl ), Jakub M. Tomczak
( jakub.tomczak '@' pwr.wroc. j ), (48) 71 320 44 53 Fecha: noviembre de 2013

Datos Conjunto de Informacin:

Los datos se recogieron de forma retrospectiva en el Centro de Ciruga Torcica Wroclaw


para los pacientes que se sometieron a resecciones pulmonares para el cncer primario
de pulmn en el ao 2007a "2011. El Centro est asociado con el Departamento de
Ciruga Torcica de la Universidad Mdica de Wroclaw y Baja-Silesia Centro de
Enfermedades Pulmonares, Polonia, mientras que la base de datos de la investigacin
constituye una parte del Registro Nacional de Cncer de Pulmn, administrado por el
Instituto de la Tuberculosis y Enfermedades Pulmonares en Varsovia, Polonia

Atributo de la informacin:

1. DGN: Diagnstico - combinacin especfica de cdigos CIE-10 para los tumores, as


mltiples primarios y secundarios en su caso (DGN3, DGN2, DGN4, DGN6, DGN5, DGN8,
DGN1)
2. PRE4: capacidad vital forzada - FVC (numrico)
3. Pre5: volumen que se ha exhalado al final de la primera segundo de la espiracin
forzada - FEV1 (numrico)
4. Pre6: Estado funcional - escala Zubrod (PRZ2, PRZ1, PRZ0)
5. Pre7: dolor antes de la ciruga (T, F)
6. Pre8: Hemoptisis antes de la ciruga (T, F)
7. Pre9: Disnea antes de la ciruga (T, F)
8. Pre10: Tos antes de la ciruga (T, F)
9. Pre11: Debilidad antes de la ciruga (T, F)
10. PRE14: T en TNM clnico - tamao del tumor original, desde OC11 (el ms pequeo) a
OC14 (grande) (OC11, OC14, OC12, OC13)
11. PRE17: DM tipo 2 - la diabetes mellitus (T, F)
12. PRE19: MI hasta 6 meses (t, f)
13. PRE25: PAD - enfermedades arteriales perifricas (t, f)
14. PRE30: Fumar (T, F)
15. PRE32: Asma (T, F)
16. EDAD: La edad de la ciruga (numrico)
17. Risk1Y: perodo de supervivencia 1 ao - (T) Valor rue si muerto (T, F) Clase de
distribucin:. el valor de la clase (Risk1Y) es binaria valorado Risk1Y Valor: Nmero de
instancias: T 70 N 400 Estadsticos de resumen: Binary atributos de distribucin: pre7
Valor: Nmero de instancias: T 31 N 439 pre8 Valor: Nmero de instancias: T 68 N
402 pre9 Valor: Nmero de instancias: T 31 N 439 pre10 Valor: Nmero de instancias: T
323 N 147 pre11 Valor: Nmero de instancias : T 78 N 392 PRE17 Valor: Nmero de
instancias: T 35 N 435 PRE19 Valor: Nmero de instancias: T 2 N 468 PRE25 Valor:
Nmero de instancias: T 8 N 462 PRE30 Valor: Nmero de instancias: T 386 N 84 PRE32
Valor: Nmero de instancias: T 368 N 2 Atributos nominales de distribucin: DGN valor:
nmero de instancias: DGN3 349 DGN2 52 DGN4 47 DGN6 4 DGN5 15DGN8 2 DGN1 1
pre6 Valor: Nmero de instancias: PRZ2 27 PRZ1 313 PRZ0 130 PRE14 Valor : Nmero
de instancias: OC11 177 OC14 17 OC12 257 OC13 19Numrico atributos Estadsticas:
Min Max Promedio DE PRE4: 1.4 6.3 3.3 0.9 pre5: 0,96 86,3 4,6 11,8 EDAD: 21 87 52,5
8,7

Documentos pertinentes:

Ba Zia , M., Tomczak, JM, Lubicz, M., y wi ... tek, J. (2013). Impulsado SVM para la
extraccin de reglas a partir de los datos de desequilibrio en la aplicacin a la prediccin
de la esperanza de vida despus de la operacin en los pacientes con cncer de
pulmn. Applied Soft Computing. [Web Link]
- Resultados:
- Impulsado por SVM para datos desequilibrados obtuvo el valor Gmean igual 0.657,
- Las reglas de decisin inducidas utilizando Impulsado SVM como orculo ganaron el
valor Gmean igual 0,648.

Cita de pedidos:

Ba Zia , M., Tomczak, JM, Lubicz, M., y wi ... tek, J. (2013). Impulsado SVM para la
extraccin de reglas a partir de los datos de desequilibrio en la aplicacin a la prediccin
de la esperanza de vida despus de la operacin en los pacientes con cncer de pulmn. .
Applied Soft Computing [Web Link]

BibTeX: @ article {zieba2013boosted, title = {Impulsado SVM para la extraccin de reglas


a partir de los datos de desequilibrio en la aplicacin a la prediccin de la esperanza de
vida despus de la operacin en los pacientes con cncer de pulmn}, author = {Zi {k {e}}
ba, Maciej y Tomczak, Jakub M y Lubicz, Marek y {'S} wi {k {a}} tek, Jerzy}, journal =
{Applied Soft Computing}, ao = {2013}, publisher = { Elsevier}, doi = { [Web Link] } }
Enfermedad de la tiroides Data Set 1987-01-01
Resumen : 10 bases de datos independientes de Garavan Instituto
Conjunto de datos Multivariante, Nmero de
7200 rea: Vida
Caractersticas: Domain-Theory instancias:

Caractersticas del Categrico, el Nmero de Fecha 1987-


21
atributo: Real atributos: Donado 01-01

Nmero de
Valores
Tareas asociadas: Clasificacin N / A Web 54696
perdidos?
Accesos:

Fuente:

Ross Quinlan

Datos Conjunto de Informacin:

# De Garavan Instituto
# Documentacin: segn lo dado por Ross Quinlan
# 6 bases de datos del Instituto Garavan en Sydney, Australia
# Aproximadamente lo siguiente para cada base de datos: ** 2800 la formacin (datos)
casos y 972 casos de prueba ** Un montn de datos que faltan * * 29 o ms atributos, ya
sea de Boole o continuamente valorada # 2 bases de datos adicionales, tambin de Ross
Quinlan, estn tambin aqu ** Hypothyroid.data y enfermo-euthyroid.data ** Quinlan
considera que estas bases de datos se han corrompido ** Su formato es muy similar a la
de otras bases de datos # 1 ms base de datos de 9.172 casos que cubren 20 clases y
una relacionada con la teora de dominio # Otra base de datos de la tiroides de Stefan
Aeberhard ** 3 clases, 215 casos, 5 atributos** No hay valores perdidos # base de datos
Una tiroides adecuado para formacin RNAs ** 3 clases ** 3772 instancias de
capacitacin, 3.428 instancias de prueba ** Incluye los datos de costes (donado por Peter
Turney)

Atributo de la informacin:

N/A

Documentos pertinentes:

Quinlan, JR, Compton, PJ, Horn, KA, y Lazurus, L. (1986). Adquisicin de conocimiento
inductivo: Un estudio de caso. En Actas de la Segunda Conferencia Australiana sobre
Aplicaciones de Sistemas Expertos. Sydney, Australia. [Web Link] Quinlan, JR (1986). La
induccin de rboles de decisin. Aprendizaje Automtico, 1, 81 -. 106[Web Link]

Documentos que citan este conjunto de datos 1 :

Ken Tang y Ponnuthurai N. Suganthan y Xi Yao y A. Kai Qin. dimensionalityreduction lineal


utilizando LDA relevancia ponderada . Escuela de Ingeniera Elctrica y Electrnica de la
Universidad Tecnolgica de Nanyang. 2005. [ Ver Contexto ]. Zhi-Hua Zhou y Jiang
Yuan. NeC4.5: Neural Ensemble Based C4.5 . IEEE Trans.Conocimiento. Datos Eng,
16. 2004. [ Ver Contexto ]. Xiaoyong Chai y Li Deng y Qiang Yang y Charles X.
Ling. Prueba sensibles al coste Clasificacin Naive Bayes .ICDM. 2004. [ Ver
Contexto ]. Vassilis Athitsos y Stan Sclaroff. Impulsar Clasificadores vecino ms cercano
para el Reconocimiento multiclase . Universidad de Boston Computer Tech
Ciencia. Informe n, 2004-006. 2004. [ Ver Contexto ]. Michael L. Raymer y Travis E. Doom
y Leslie A. Kuhn y William F. Punch. Descubrimiento de conocimiento en bases de datos
mdicas y biolgicas utilizando un clasificador de Bayes / algoritmo evolutivo
hbrido . Transacciones de IEEE en Sistemas, Hombre y Ciberntica, parte B, de 33
aos. 2003. [ Ver Contexto ]. Lukasz A. Kurgan y Waldemar Swiercz y Krzysztof J.
Cios. Mapping Semntica de etiquetas XML Usando inductivo Machine
Learning . ICMLA. 2002. [ Ver Contexto ]. Qiang Yang y Wu Jing. Aumento de la eficacia
de razonamiento basado en casos interactivos con la agrupacin y de decisin
Bosques . Appl. Intell, 14. 2001. [ Ver Contexto ]. Petri Kontkanen y Jussi Lahtinen y Petri
Myllymki y Henry Tirri. visualizacin bayesiano no supervisado de los datos de alta
dimensin . KDD. 2000. [ Ver Contexto ]. Erin L. Allwein y Robert E. Schapire y Yoram
Singer. Reducir multiclase a binario: un enfoque unificador para clasificadores de
margen . ICML. 2000. [ Ver Contexto ]. Andreas L. Prodromidis. Sobre la Gestin de
Aprendizaje Distribuido Agentes Ph.D. Propuesta de Tesis CUCS-032-97 . Departamento
de Ciencias de la Universidad de Columbia por ordenador. 1998. [ Ver Contexto ]. Ethem
Alpaydin. Votacin sobre varios vecinos ms cercanos Condensados . Artif. Intell. Rev,
11. 1997. [ Ver Contexto ]. Kai Ming Ting y Boon Toh baja. Combinacin de modelo en el
Multiple-Data-Lotes Escenario .ECML. 1997. [ Ver Contexto ]. Salvatore J. Stolfo y
Andreas L. Prodromidis y Shelley Tselepis y Wenke Lee y David W. Fan y Philip K.
Chan. JAM: Agentes de Java para Meta-Learning sobre bases de datos
distribuidas . KDD. 1997. [ Ver Contexto ]. Peter D. Turney. sensibles a los costes de
clasificacin: evaluacin emprica de una Decisin gentico hbrido Tree Induccin
algoritmo . CoRR, csAI/9503102. 1995. [ Ver Contexto ]. George H. John y Ron Kohavi y
Karl Pfleger. Caractersticas irrelevante y el problema de la seleccin de
subconjuntos . ICML. 1994. [ Ver Contexto ]. H. Altay Gvenir. A Clasificacin algoritmo de
aprendizaje robusto de caractersticas irrelevantes . Universidad de Bilkent, Departamento
de Ingeniera en Computacin e Informtica. [ Ver Contexto ]. Kai Ming Ting y Boon Toh
baja. Teora de combinacin: una alternativa a la combinacin de datos . Universidad de
Waikato. [ Ver Contexto ]. Michael L. Raymer y William F. Punch y Erik D. Goodman y
Leslie A. Kuhn y Anil K. Jain. Documentos breves . [ Ver Contexto ]. Andrew I. Schein y
Lyle H. Ungar. A-optimalidad para el Aprendizaje Activo de regresin logstica de los
clasificadores .Departamento de Informtica y Ciencias de la Informacin Levine Hall. [ Ver
Contexto ]. Wl / odzisl / aw Duch y Rafal Adamczak y Krzysztof Grabczewski. Extraccin
de reglas lgicas y ntidas de los conjuntos de datos mdicos . Departamento de Mtodos
Computacionales, Universidad Nicols Coprnico. [ Ver Contexto ]. Sherrie L. W y Zijian
Zheng. UN REFERENTE PARA EL APRENDIZAJE CLASIFICADOR . Departamento
Basser de Ciencias de la Computacin de la Universidad de Sydney. [ Ver
Contexto ]. Pramod Viswanath y M. Narasimha Murty y Shalabh Bhatnagar. Particin
Basado Patrn tcnica de sntesis con algoritmos eficientes para la cercana Clasificacin
Vecino . Departamento de Informtica y Automtica, Instituto Indio de Ciencia. [ Ver
Contexto .] Wl / odzisl / aw Duch y Rafal / Adamczak Email: duchraad @
fs. uni. Torun. pl. Mtodos estadsticos para la construccin de las redes
neuronales . Departamento de Mtodos Computacionales, Universidad Nicols
Coprnico. [Ver Contexto ]. Wl odzisl / aw Duch y Rudy Setiono y Jacek M.
Zurada. mtodos de inteligencia computacional para la comprensin de datos basado en
normas . [ Ver Contexto .] . Je Scott y Mahesan Niranjan y Richard W.
Prager Clasificadores realizables: Mejora del rendimiento operativo de Problemas de costo
variable . Cambridge Departamento de Ingeniera de la Universidad. [ Ver
Contexto ]. Pramod Viswanath y M. Narasimha Murty y Shalabh Bhatnagar. Una tcnica
de sntesis patrn para reducir la maldicin de la dimensionalidad efecto . E-mail. [ Ver
Contexto ].
Tic-Tac-Toe Endgame Data Set 1991-08-19
Resumen : tarea de clasificacin binaria sobre las posibles
configuraciones de juego de tic-tac-dedo del pie

Conjunto de datos Nmero de


Multivariante 958 rea: Juego
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 1991-


Categrico 9
atributo: atributos: Donado 08-19

Nmero de
Valores
Tareas asociadas: Clasificacin No Web 67978
perdidos?
Accesos:

Fuente:

Creador: David W. Aha ( aha '@' cs.jhu.edu ) Donante: David W. Aha


( aha '@' cs.jhu.edu )

Datos Conjunto de Informacin:

Esta base de datos codifica el conjunto completo de posibles configuraciones de mesa al


final de los juegos de tic-tac-dedo del pie, donde "x" se supone que ha jugado primero. El
concepto objetivo es "ganar para x" (es decir, cierto cuando "x" tiene una de las 8 formas
posibles para crear un "tres-en-uno-fila"). Curiosamente, esta base de datos en bruto da
un algoritmo de rbol de decisin despojada (por ejemplo, ID3) encaja. Sin embargo, el
algoritmo basado en reglas CN2, el simple IB1 algoritmo de aprendizaje basada en
instancia, y la decisin de algoritmo de rbol de caractersticas-la construccin de CITRE
desempean bien en l.

Atributo de la informacin:

1. superior izquierda cuadrados: {x, o, b}


2. -Mejor Medio plaza: {x, o, b}
3. arriba a la derecha-cuadrado: {x, o, b}
4. medio-izquierdo cuadrado: {x, o, b}
5. media-media plaza: {x, o, b}
6. medio-derecha-square: {x, o, b}
7. inferior izquierda cuadrados: {x, o, b}
8. -bottom medio cuadrados: {x, o, b}
9. inferior derecha cuadrados: {x, o, b}
10. Clase: {positivo, negativo}

Documentos pertinentes:

Matheus, CJ, y Rendell, LA (1989). Induccin constructiva en los rboles de decisin. En


Actas de la Conferencia Internacional Conjunta Undcimo Inteligencia Artificial.(Pp. 645-
650). Detroit, MI:. Morgan Kaufmann [Web Link] Matheus, CJ (1990). Adicin de
conocimiento del dominio a travs de la construccin SBL caracterstica. En Actas de la
Conferencia Nacional de la Octava de la Inteligencia Artificial (pp. 803-808). Boston, MA:.
AAAI Press [Web Link] Aha, DW (1991). Incremental induccin constructiva: Un enfoque
basado en instancia. En Actas del Taller Internacional Octavo en Aprendizaje Automtico
(pp. 117-121). Evanston, ILL:. Morgan Kaufmann [Web Link]

Documentos que citan este conjunto de datos 1 :

Saher Esmeir y Sal Markovitch. algoritmos basados en Lookahead para cualquier


momento de la induccin de rboles de decisin . ICML. 2004. [ Ver Contexto ]. Bart
Hamers y JA K Suykens. Acoplado transductivo Ensemble Aprendizaje de Modelos
Kernel . Bart De Moor. 2003. [ Ver Contexto ]. Michael Bain. Caractersticas estructurados
desde el concepto Enrejados de Aprendizaje No Supervisado y Clasificacin . Australiana
Conferencia Conjunta sobre Inteligencia Artificial. 2002. [ Ver Contexto ]. Jochen Garcke y
Michael Griebel y Michael Tes. Minera de datos con Sparse Grids . Informtica,
67. 2001. [ Ver Contexto ]. Jinyan Li y Kotagiri Ramamohanarao y Guozhu
Dong. Combinando la fuerza del patrn de frecuencia y distancia para la
Clasificacin . PAKDD. 2001. [ Ver Contexto ]. Stephen D. Bay.clasificacin vecino ms
cercano de varios subconjuntos de caractersticas . Intell. Datos Anal, 3. 1999. [ Ver
Contexto ]. Alexey Tsymbal y Seppo Puuronen y Vagan Y. Terziyan. Arbiter Meta-Learning
con seleccin dinmica de clasificadores y su investigacin
experimental . ADBIS. 1999. [ Ver Contexto ]. Stephen D. Bay. Combinando Clasificadores
vecino ms cercano a travs de varios subconjuntos de caractersticas . ICML. 1998. [ Ver
Contexto ]. Ron Kohavi. El poder de las tablas de decisin .ECML. 1995. [ Ver
Contexto ]. Masahiro Terabe y Takashi Washio y Hiroshi Motoda. El efecto de
submuestreo de Cambio on S 3 Embolsado de rendimiento . Instituto de Investigacin de
Mitsubishi. [ Ver Contexto ]. David R. Musicant. MINERA DE DATOS A TRAVS DE
PROGRAMACIN MATEMTICA Y EL APRENDIZAJE DE LA MQUINA . Doctor en
Filosofa (Ciencias de la Computacin) UNIVERSIDAD. [ Ver Contexto ]. C. . Tito Brown y
Harry W. Bullen y Sean P. Kelly y Robert K. Xiao y Steven G. Satterfield y John G.
Hagedorn y Judith E. Devaney Visualizacin y Minera de Datos en un inmersivo entorno
3D: Proyecto de Verano 2003 . [ Ver Contexto ].Ron Kohavi y Brian Frasca. tiles
subconjuntos de caractersticas y Rough Set reductos . Tercer Taller Internacional de
Rough Sets y Soft Computing. [ Ver Contexto ].Shi Zhong y Weiyu Tang y Taghi M.
Khoshgoftaar. Impulsado filtros de ruido para identificar Mislabeled datos . Departamento
de Ciencias de la Computacin e Ingeniera de la Universidad Atlntica de la Florida. [ Ver
Contexto ]. Jerome H. Friedman y Ron Kohavi y Youngkeol Yun. Comparecer en AAAI-96
rboles de decisin de Lazy .Departamento de Estadstica y Stanford Linear Accelerator
Center de la Universidad de Stanford. [ Ver Contexto ]. Christophe G. Giraud-Carrier y
Tony Martnez. UN MODELO DE APRENDIZAJE INCREMENTAL DE RAZONAMIENTO
sentido comn . Departamento de Ciencias de la Computacin de la Universidad Brigham
Young. [Ver Contexto ]. Rafael S. Parpinelli y Heitor S. Lopes y Alex Alves
Freitas. CUARTA PARTE: OPTIMIZACIN colonia de hormigas e Inmunolgico Captulo X
Una colonia de hormigas algoritmo para la Clasificacin Regla Descubrimiento . CEFET-
PR, Curitiba. [ Ver Contexto ]. Kohavi Ron y George H. John. seleccin automtica de
parmetros mediante la minimizacin de error estimado . Ciencias de la Universidad de
Stanford Dpto. Informtica. [ Ver Contexto ]. Jinyan Li y Kotagiri Ramamohanarao y
Guozhu Dong. ICML2000 El espacio de los patrones de salto emergente y su
mantenimiento incremental Algoritmos . Departamento de Ciencias de la Computacin e
Ingeniera de Software de la Universidad de Melbourne, Parkville. [ Ver Contexto ].

Cita de pedidos:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Trenes Conjunto de Datos 1994-06-24
Resumen : 2 formatos de datos (estructurados, de una sola
instancia por lnea)

Conjunto de datos Nmero de


Multivariante 10 rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 1994-


Categrico 32
atributo: atributos: Donado 06-24

Nmero de
Valores N/
Tareas asociadas: Clasificacin Web 38976
perdidos? A
Accesos:

Fuente:

Propietarios Original: Ryszard S. Michalski ( michalski '@' aic.gmu.edu ) y Robert


Stepp donantes: GMU, Centro para la Inteligencia Artificial, Software bibliotecario, Eric E.
Bloedorn ( Bloedorn '@' aic.gmu.edu )

Datos Conjunto de Informacin:

Notas: - "fondo" conocimiento adicional se facilita esta proporciona una ordenacin parcial
de algunos de los valores de los atributos. - Estamos ofreciendo este conjunto de datos,
tanto en su forma original y en una forma similar a los conjuntos de datos proposicionales
ms tpicos en nuestro repositorio. Dado que el conjunto de datos trenes registra las
relaciones entre atributos, esta transformacin fue algo difcil. Sin embargo, puede arrojar
un poco de conocimiento sobre este problema para las personas que estn ms
familiarizados con el formato simple de una sola instancia por lnea de datos. Jerarqua de
valores: if (cshape es uno de {openrect, opentrap, en forma de U, dblopnrect} entonces
cshape es tragante abierto if (cshape es uno de {hexgono, elipse, closedrect, jaggedtop,
slopetop, motor} entonces cshape closedtoptarea Prediccin: Determinar las reglas de
decisin concisas que distinguen los trenes que viajan hacia el este desde los que viajan
al oeste.

Atributo de la informacin:

El siguiente formato se utiliza para la representacin de datos "transformado" como se


encuentra en trains.transformed.data (una instancia por lnea): 1. Number_of_cars (entero
en [3-5]) 2. Number_of_different_loads (entero en [1-4]) 3-22: 5 atributos para cada uno de
los coches de 2 a 5: (20 atributos en total) - num_wheels (entero en [2-3]) - Longitud (corta
o larga) - la forma ( closedrect, dblopnrect, elipse, motor, hexgono, jaggedtop, openrect,
opentrap, slopetop, en forma de U) - num_loads (entero en [0-3]) - load_shape (circlelod,
hexagonlod, rectanglod, trianglod) 23-32: 10 Atributos booleanos describiendo si 2 tipos de
cargas estn en los coches adyacentes del tren- Rectangle_next_to_rectangle (0 si es
falso, 1 si es verdadero) - Rectangle_next_to_triangle (0 si es falso, 1 si es verdadero) -
Rectangle_next_to_hexagon (0 si es falso, 1 si es verdadero) - Rectangle_next_to_circle
(0 si falso, 1 si es verdadero) - Triangle_next_to_triangle (0 si es falso, 1 si es verdadero) -
Triangle_next_to_hexagon (0 si es falso, 1 si es verdadero) - Triangle_next_to_circle (0 si
es falso, 1 si es verdadero) - Hexagon_next_to_hexagon (0 si es falso, 1 si es verdadero) -
Hexagon_next_to_circle (0 si es falso, 1 si es verdadero) - Circle_next_to_circle (0 si es
falso, 1 si es verdadero) 33. Atributo Class (este u oeste) El nmero de automviles varan
entre 3 y 5. Por lo tanto, los atributos se refiere a las propiedades de los coches que no
existen (como las 5 attriubutes para el coche "quinta" cuando el tren tiene menos de 5
coches) se les asigna un valor de "-".

Documentos pertinentes:

RS Michalski y JB Larson "Inferencia Inductiva de reglas de decisin VL" En Actas del


Taller de Patrn-Directed Inferencia Systems, Hawaii, mayo de 1977. [Web] EnlaceStepp,
RE y Michalski, RS "Clustering Conceptual: Inventar Clasificaciones orientado a los
objetivos de Objetos estructurados "En RS Michalski, JG Carbonell, y TM Mitchell (Eds.)"
Machine Learning: Un enfoque de Inteligencia Artificial, Volumen II ". Los Altos, Ca:.
Morgan Kaufmann [Web Link]

Documentos que citan este conjunto de datos 1 :

Daan Fierens y Jan Hendrik Ramn y Blockeel y Maurice Bruynooghe. Comparacin de


los enfoques de aprendizaje rboles de probabilidad . Departamento de Ciencias de la
Computacin. [ Ver Contexto ].

Cita de pedidos:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Evaluacin Turkiye Student Data Set 2013-09-01

Resumen: Este conjunto de datos contiene un total de 5,820 puntajes de evaluacin


proporcionados por los estudiantes de la Universidad de Gazi en Ankara (Turqua). Hay
un total de 28 preguntas especficas y por supuesto 5 atributos adicionales.
Conjunto de datos Nmero de
Multivariante 5820 rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2013-


N/A 33
atributo: atributos: Donado 09-01

Nmero de
Clasificacin, Valores
Tareas asociadas: N/A Web 7614
Clustering perdidos?
Accesos:

Fuente:

Ernest Fokoue
Centro de Calidad y Estadstica Aplicada
del Instituto de Tecnologa de Rochester
98 Lomb Memorial Drive
Rochester, NY 14623, EE.UU.
EmaA l: epfeqa '@' rit.edu

Necla Gunduz
Departamento de Estadstica
de la Facultad de Ciencias, Universidad de Gazi
Teknikokullar, 06500 Ankara, Turqua
eMail: ngunduz '@' gazi.edu.tr
gunduznecla '@' yahoo.com

Datos Conjunto de Informacin:

N/A

Atributo de la informacin:

instr: identificador del instructor; valores tomados de {1,2,3}


class: Cdigo del curso (descriptor); valores tomados de {1-13}
repetir: Nmero de veces que el estudiante est tomando este curso; valores tomados de
{0,1,2,3, ...}
asistencia: Cdigo del nivel de asistencia; valores de {0, 1, 2, 3, 4}
dificultad: Nivel de dificultad del curso segn la percepcin de los estudiantes; valores
tomados de {1,2,3,4,5}
P1: El contenido del curso semestral, el mtodo de enseanza y el sistema de evaluacin
fueron proporcionados en la salida.
Q2: Los fines y objetivos del curso fueron claramente establecidos al comienzo del
perodo.
Q3 : El curso fue digno de la cantidad del crdito asignado a la misma.
P4: El curso fue impartido de acuerdo con el programa anunciado en el primer da de
clase.
P5: Las discusiones en clase, tareas, aplicaciones y estudios fueron satisfactorios.
P6: El libro de texto y otros recursos de los cursos eran suficientes y actualizados.
Q7: El curso permite el trabajo de campo, las aplicaciones de laboratorio, anlisis y otros
estudios.
Q8: Los cuestionarios, tareas, proyectos y exmenes contribuy a ayudar al aprendizaje.
P9: Yo disfrut enormemente la clase y estaba ansioso por participar activamente en las
conferencias.
P10: Mis expectativas iniciales sobre el curso se cumplieron al final del perodo o
ejercicio.
P11: El curso fue relevante y beneficioso para mi desarrollo profesional.
P12: El curso me ayud a mirar en la vida y el mundo con una nueva perspectiva.
P13: El conocimiento del instructor era relevante y actualizada.
P14: El Instructor vino preparado para las clases.
P15: El instructor ensea de acuerdo con el plan de la leccin anunciado.
P16: El Instructor se cometi al curso y era comprensible.
P17: El instructor lleg a tiempo para las clases.
P18: El instructor tiene una suave y fcil de seguir entrega / discurso.
Q19:. El instructor hizo uso efectivo de horas de clase
P20: El instructor explic el curso y estaba dispuesto a ser de ayuda a los estudiantes.
P21: El instructor demostr un enfoque positivo a los estudiantes.
P22: El instructor estaba abierto y respetuoso de las opiniones de los estudiantes sobre el
curso.
P23:. El Instructor alent la participacin en el curso
P24: La Instructor dio tareas escolares / proyectos pertinentes, y ayudado / estudiantes
guiadas.
P25: El Instructor respondi a las preguntas sobre el curso, dentro y fuera del curso.
P26: El sistema del Instructor de evaluacin (preguntas de medio trmino y finales,
proyectos, tareas, etc) medido con eficacia los objetivos del curso.
P27: El instructor proporciona soluciones a los exmenes y los discuti con los
estudiantes.
Q28:. El instructor trat a todos los estudiantes de derecho y de manera objetiva Q1-Q28
son todos de tipo Likert, lo que significa que los valores se toman de {1,2,3,4,5}

Documentos pertinentes:

N/A

Cita de pedidos:

Si publicas material basado en bases de datos obtenidos a partir de este repositorio,


entonces, en sus agradecimientos, tenga en cuenta la ayuda que ha recibido a travs de
este repositorio. Esto ayudar a los dems a obtener los mismos conjuntos de datos y
replicar sus experimentos. Sugerimos el siguiente formato de referencia pseudo-APA para
referirse a este repositorio: Gunduz, G. & Fokoue, E. (2013). UCI Machine Learning
Repositorio [ [Web Link] ]. Irvine, CA:. Universidad de California, Escuela de Informacin y
Ciencias de la Computacin Aqu hay una cita BiBTeX as: @ misc {GunduzFokoue:
2013, author = 'Gunduz, N. y Fokoue, E.', ao = '2013 ', title = '{} UCI Machine Learning
Repositorio ", url = ' [Web Link] ', institucin = 'Universidad de California, Irvine, Escuela de
Informacin y Ciencias de la Computacin'}
Veinte grupos de noticias Data Set 1999-09-09

Resumen: Este conjunto de datos consta de 20000 mensajes tomados de 20 grupos de


noticias.
Conjunto de datos Nmero de
Texto 20000 rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de 1999-


N/A N/A Fecha Donado
atributo: atributos: 09-09

Valores Nmero de
Tareas asociadas: N/A No 22499
perdidos? Web Accesos:

Fuente:

Propietario original y los donantes: Tom Mitchell Escuela de Ciencias de la


Computacin de la Universidad Carnegie
Mellon tom.mitchell '@' cmu.edu http://www.cs.cmu.edu/ ~ tom /

Datos Conjunto de Informacin:

N/A

Atributo de la informacin:

N/A

Documentos pertinentes:

T. Mitchell. Aprendizaje Automtico, McGraw Hill, 1997. T. Joachims (1996). Un anlisis


probabilstico del algoritmo Rocchio con TFIDF para texto categorizacin, Ciencias de la
Computacin Informe Tcnico CMU-CS-96-118.Universidad Carnegie Mellon. [Web Link]

Cita de pedidos:

Usted puede utilizar este material de forma gratuita para cualquier propsito educativo,
siempre y atribucin se da en cualquier conferencias o publicaciones que hacen uso de
este material.
Personajes UJI Pen Set Data 2007-06-01

Resumen : Los datos se compone de caracteres escritos en un


formato UNIPEN similar

Conjunto de datos Multivariante, Nmero de


1364 rea: Ordenador
Caractersticas: Secuencial instancias:

Caractersticas del Nmero de Fecha 2007-06-


Entero N/A
atributo: atributos: Donado 01

Nmero de
Valores
Tareas asociadas: Clasificacin No Web 32048
perdidos?
Accesos:

Fuente:

D. Llorens, F. Prat, A. Marzal, JM Vilar


Departamento de Lenguajes y Sistemas Informticos
de la Universitat Jaume I, 12071 Castelln (ESPAA) fprat '@' lsi.uji.es

Datos Conjunto de Informacin:

Creamos una base de datos de caracteres mediante la recopilacin de muestras de 11


escritores. Cada escritor contribuy con letras (maysculas y minsculas), nmeros y otros
caracteres (diacrticos espaoles y signos de puntuacin) que no hemos empleado en
nuestros experimentos, y no se incluyen en esta versin de base de datos. Dos muestras
han sido recogidas por cada par escritor / personaje, por lo que el nmero total de
muestras en esta versin de base de datos es 1364: 11 escritores x 2 repeticiones x (2x26
cartas + 10 dgitos) La tarea propuesta es un escritor independiente que consta de 11
dejando uno-escritor de ensayos, por lo que el tamao del conjunto de entrenamiento
eficaz (para cada una de las muestras de ensayo 1364) es 1240: 10 escritores x 2
repeticiones x (2x26 cartas + 10 dgitos) Por otra parte, esta tarea de clasificacin es un 35
- una clase porque no se ha considerado una clase diferente para cada personaje
diferente: cada una de las 26 cartas se considera como una clase independiente del caso,
hay 9 Clases adicionales para que no sean cero dgitos y el cero est incluido en la misma
clase como o de. Esta base de datos est disponible en un formato UNIPEN similar,
tratando de imitar la base de datos original Pendigits. Dos versiones de la base de datos
estn disponibles; ver carpeta: [Web Link]La distribucin de nuestra base de datos consta
de 12 archivos: uji.names Un archivo "UJIpenchars-w NN "por el escritor, cuando NN =
"01", "02" ... "11" Las muestras de escritura se recogieron en un Toshiba Portg M400
Tablet PC con su lpiz inalmbrico. Cada uno de los 11 escritores completaron 2 sesiones
no consecutivas. En cada sesin, se le pregunt al escritor correspondiente a escribir un
ejemplar para cada carcter en un conjunto fijo incluyendo letras minsculas, maysculas,
queridos y dgitos, junto con otros personajes omitidos en esta versin de base de
datos. El programa de adquisicin muestra un conjunto de cuadros en la pantalla, uno
diferente para cada personaje requerido, y los escritores se les dice a escribir slo dentro
de esas cajas. Si se comete un error o no estn contentos con una escritura de caracteres,
se les instruye para borrar el contenido de la casilla correspondiente mediante el uso de un
botn en la pantalla y vuelva a intentarlo. Los sujetos se supervise slo al escribir sus
primeros ejemplares y cada muestra considerada bien por su autor fue aceptado como
tal. Slo coordenadas X e Y se registr la informacin a lo largo de los trazos por el
programa de adquisicin, sin que, por ejemplo, los valores de nivel de presin o la
informacin de tiempo. As, en las muestras de varios trazos, ninguna informacin en
absoluto se registr entre los golpes; Sin embargo, en esta versin de base de datos se ha
incluido una lnea "DT 100." en los archivos de ejemplo despus de cada golpe, siguiendo
el criterio de la base de datos Pendigits. Hemos observado que corre de puntos
consecutivos con coordenadas idnticas fueron adquiridas con frecuencia dentro de
trazos; dichas pruebas se conservan en esta versin de base de datos, por lo que cada
usuario de la base deben decidir si evitarlos por una etapa de pre-procesamiento
apropiado o no.

Atributo de la informacin:

Para cada muestra, se encuentran: a. El personaje que representa. b. La clase a la que


pertenece. c. La secuencia de golpes consiste. Al probar, slo se le permite leer la
secuencia de golpes de una muestra con el fin de predecir su clase. Para cada
atributo: Como dije antes, esta base de datos est disponible en un formato UNIPEN-
como, tratando de imitar la base de datos original Pendigits. Una definicin de formato
UNIPEN puede encontrarse en [Web Link] En cuanto a los atributos de una muestra, se
puede encontrar en el formato de archivo de la siguiente manera: a. Nombre del
personaje: Cada muestra comienza con una lnea "SEGMENTO.". El ltimo componente
de esta lnea muestra el nombre del personaje, uno de cada 62 posibilidades. El conjunto
completo de posibilidades se muestra en la primera lnea de cada archivo, a ". LEXICON"
lnea. Estas posibilidades se repiten aqu: "A" "B" "C" "d" "e" "f" "g" "h" "i" "j" "k" "l" "m" "n"
"o "" p "" q "" r "" s "" t "" u "" v "" w "" x "" y "" z " "A" "B" "C" "D" "E" " F "" G "" H "" I "" J "" K
"" L "" M " "N" "O" "P" "Q" "R" "S" "T" "U" "V" "W" "X" "Y" "Z" "0" "1" "2" "3" "4" "5" "6" "7" "8"
"9" b. Nombre de clase: El nombre de clase de una muestra aparece en la lnea que sigue
su lnea de "comentarios". "SEGMENTO.". Este nombre es una de las 35 posibilidades. En
cada archivo, se muestra el conjunto completo de posibilidades ". Comentario" lneas entre
el ". LEXICON" lnea y una ". JERARQUA" uno. Esas definiciones de clase se repiten
aqu: [A] = {"a", "A"} [B] = {"b", "B"} [C] = {"c", "C"} [D] = {"d", "D"}[E] = {"e", "E"} [F] = {"f",
"F"} [G] = {"g", "G"} [H ] = {"h", "H"} [I] = {"i", "I"} [J] = {"j", "J"} [K] = {"k", "K"} [L] = {"l",
"L"} [M] = {"m", "M"} [N] = {"n", "N"} [O] = {"o", "O "," 0 "} [P] = {"p", "P"} [Q] = {"q", "Q"} [R] =
{"r", "R"} [S] = { "s", "S"} [T] = {"t", "T"} [U] = {"u", "U"} [V] = {"v", "V"} [W] = {"w", "W"} [X] =
{"x", "X"} [Y] = {"y", "Y"} [Z] = {"z", "Z"} [ 1] = {"1"} [2] = {"2"} [3] = {"3"} [4] = {"4"} [5] =
{"5"} [6] = {" 6 "} [7] = {"7"} [8] = {""} 8 [9] = {"9"} c. Secuencia de golpes: "Comentario".
Despus de los ". SEGMENTO" y las lneas de una muestra, una secuencia de uno o ms
golpes sigue hasta el comienzo de una nueva muestra o el final del archivo. Cada trazo
comienza con una lnea y termina con una secuencia ", PEN_DOWN." "PEN_UP." "DT
100."; en el medio, una secuencia de lneas, cada uno en representacin de coordenadas
X e Y de un punto, donde X crece de izquierda a derecha e Y crece hacia abajo. Las
coordenadas son nmeros enteros.

Documentos pertinentes:

R. Ramos-Garijo, S. Martn, A. Marzal, F. Prat, JM Vilar y D. Llorens:


"Un panel de entrada y motor de reconocimiento de On-Line Manuscrito Reconocimiento
de Texto"
Investigacin en Inteligencia Artificial y el Desarrollo, pp 223 -232, IOS Press,
2007. F. Prat, A. Marzal, S. Martn, y R. Ramos-Garijo: "Un motor de reconocimiento
basado en la plantilla de dos etapas para caracteres On-Line Manuscrito" Actas de la
Taller de Asia y el Pacfico 2007 sobre Procesamiento de la Informacin Visual, pp 77 -82,
2007. D. Llorens et al:. "La base de datos UJIpenchars: Una base de datos basada en el
lpiz de caracteres manuscritos aislados" Proc. de la 6 Conferencia Internacional sobre
Recursos Lingsticos y Evaluacin. 2008.

Cita de pedidos:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
UJI Pen Personajes (Versin 2) Conjunto de datos 2009-01-22

Resumen: Una base de datos basada en el lpiz con ms de 11k


caracteres manuscritos aislados

Conjunto de datos Multivariante, Nmero de


11640 rea: Ordenador
Caractersticas: Secuencial instancias:

Caractersticas Nmero de Fecha 2009-01-


Entero N/A
del atributo: atributos: Donado 22

Nmero
Valores
Tareas asociadas: Clasificacin N/A de Web 26991
perdidos?
Accesos:

Fuente:

F. Prat (*), MJ Castro (+), D. Llorens (*), A. Marzal (*), y JM Vilar (*) * Departamento de
Lenguajes y Sistemas Informticos de la Universitat Jaume I (UJI), 12071 Castelln,
ESPAA + Departamento de Sistemas Informticos y Computacin de la Universidad
Politcnica de Valencia (UPV), 46071 Valencia, ESPAA fprat '@' lsi.uji.es diciembre
2008

Datos Conjunto de Informacin:

Hemos creado la base de datos de carcter UJIpenchars2 recogiendo muestras de 60


escritores en dos sitios diferentes en dos fases:

Primera fase, 11 escritores, llevado a cabo en la UJI.


Segunda fase, 49 escritores, llevado a cabo en la UPV (44 escritores) y la UJI (5).

Cada escritor contribuy con letras, dgitos y otros caracteres y se recogieron dos
muestras para cada par escritor / personaje. El lxico completo es el siguiente:

66 letras (33 por caja):


o Las 52 letras ASCII.
o Los 14 espaoles caracteres no ASCII:
Carta n con tilde (2 caracteres).
Las vocales con acento agudo (10 caracteres).
Carta u con diresis (2 caracteres).
Los 10 dgitos.
Otros 21 caracteres:
o Los 16 los ASCII se muestran en la siguiente lnea:
. ,; :? ! '' ()% - @ $ <>
o 5 los no-ASCII:
Pregunta invertida y un signo de exclamacin (2 caracteres).
Indicadores ordinales masculinos y femeninos (2 caracteres).
El smbolo del euro (1 carcter).
As que el nmero total de muestras en esta base de datos es 11 640: 60 escritores x (66
10 21) caracteres x 2 repeticiones UJIpenchars es un subconjunto de UJIpenchars2 con
slo 1.364 muestras: las letras ASCII y cifras recogidas en la UJI durante la fase de
adquisicin de primera . Nosotros no hemos definido una tarea estndar para
UJIpenchars2, pero dividido el conjunto escritor en dos subconjuntos disjuntos con el fin
de facilitar la definicin de escritor tareas independientes:

40 escritores trn ':


o Los 11 primera fase escritores de la UJI.
o 29 escritores de la UPV.
20 'tst' escritores:
o Los 5 escritores UJI segunda fase.
o 15 escritores de la UPV.

La distribucin de nuestra base de datos consta de 2 archivos:

Este 'uji2.names'.
El archivo 'ujipenchars2.txt' contiene todas las muestras en un formato que se
describe ms adelante.

Las muestras de escritura se recogieron en un Toshiba Portg M400 Tablet PC con su


lpiz inalmbrico. Cada uno de los 60 escritores completaron 2 sesiones no
consecutivas. En cada sesin, se le pregunt al escritor correspondiente a escribir un
ejemplar para cada carcter en el lxico. El programa de adquisicin muestra un conjunto
de cuadros en la pantalla, una para cada carcter deseado, y los escritores se les dice a
escribir slo dentro de esas cajas. Cada caja adquisicin es de aproximadamente 13,6
milmetros de ancho y 20,4 milmetros de alto y contais dos guas horizontales en las
distancias aproximadas de 7,5 y 12,7 milmetros de alto, respectivamente.Escritores
recibieron instrucciones para borrar el contenido de la casilla correspondiente mediante
un botn en la pantalla y vuelva a intentarlo cuando han cometido un error o no estaban
contentos con la escritura de cualquier carcter. Los sujetos fueron monitoreados slo al
escribir sus primeros ejemplares y fue aceptado cada muestra considerada bien por su
autor, aun cuando algunos de sus puntos de distribucin de la caja de adquisicin
correspondiente. Slo coordenadas X e Y se registr la informacin a lo largo de los
trazos por el programa de adquisicin, sin, por ejemplo, valores de nivel de presin o la
informacin de temporizacin. As, en las muestras de varios trazos, ninguna informacin
en absoluto se registr entre los golpes. Ambas coordenadas se expresan como
unidades de tinta enteros, con el origen yace en la esquina superior izquierda del cuadro
de adquisicin correspondiente. Valores X crecen de izquierda a derecha y de los valores
de Y crecen hacia abajo. Aunque hemos empleado el mismo programa de adquisicin de
hardware idntico en la UJI y la UPV, se ha observado que los archivos de adquisicin
parecen demostrar que las muestras de la UPV se han recopilado utilizando cajas de
adquisicin de ms de los UJI. Esto es debido a un valor del parmetro de configuracin
diferente que, en la UPV, hace que el programa de adquisicin de traducir 1 milmetro en
152 unidades de tinta, en lugar de utilizar la relacin estndar UJI: 100 unidades de tinta
por milmetro. Si se necesita cuadro de homogeneizacin, se puede lograr fcilmente, por
ejemplo, dividiendo la UPV valores de coordenadas por 1,52. Tambin hemos observado
que carreras de puntos consecutivos con coordenadas idnticas fueron adquiridas con
frecuencia dentro de trazos; dichas pruebas se conservan en esta base de datos, por lo
que depende de sus usuarios para decidir si se debe evitarlos por una etapa de pre-
procesamiento apropiado o no. Aunque es un documento dedicado principalmente a
UJIpenchars, D. Llorens et al:. 'La base de datos UJIpenchars: Una base de datos
basada en el lpiz de aislados caracteres escritos a mano " Proc. de la 6
Conferencia Internacional sobre Recursos Lingsticos y Evaluacin. 2008. contiene
informacin til sobre UJIpenchars2. Se puede encontrar en [Web Link] .

Atributo de la informacin:

El archivo 'ujipenchars2.txt' es un texto que tiene un formato sencillo, donde estn


representadas todas las muestras de la base de datos. Debido a que se necesitan
algunos caracteres no ASCII, se utiliza codificacin UTF-8.Con el fin de describir cmo se
representan los atributos en 'ujipenchars2.txt', vale la pena explicar la sintaxis general del
archivo primero. Desde el punto de vista de nivel superior, este archivo se compone de
lneas de comentario y las representaciones de la muestra. Una lnea de comentario es
una que comienza con dos barras. En 'ujipenchars2.txt', hemos empleado las lneas de
comentarios para dos propsitos:

Antes de la serie de muestras correspondientes a cada sitio, a comment acta


como un recordatorio de que el nmero de unidades de tinta por unidad de
longitud en la pantalla del Tablet PC, por lo que estos dos comentarios se pueden
encontrar en 'ujipenchars2.txt':
/ / UJI: 100 unidades por milmetro

/ / UPV: 152 unidades por milmetro

Antes de cada representacin de la muestra, un comentario ASCII que le dice que


el personaje que representa. Para los caracteres ASCII (por ejemplo, una u
mayscula), los comentarios pueden tener este aspecto:

/ / Char ASCII: U

Para los caracteres no ASCII (por ejemplo, una o minscula con acento agudo), la
identidad de caracteres se representan a travs de su nombre de la entidad
HTML:

Caracteres / / Non-ASCII: oacute


Una representacin de la muestra se compone de una lnea de cabecera, seguido de la
representacin de su secuencia * de golpes *, donde la lnea de cabecera se compone de
tres elementos separados: en blanco la palabra "palabra", la representacin de la
identidad * carcter *, y la * identificador de sesin *. Por ejemplo, una representacin de
la muestra y coma puede tener este aspecto:

WORD; trn_UJI_W03-01

NUMSTROKES 2

PUNTOS 9 541 1.001 541 1.001 540 987 540 987 530
977 530 977 530 977 530 977 530 977
PUNTOS 8 # 518 1227 500 1257 480 1291 470 1309 465
1318 458 1330 458 1330 471 1312

Una descripcin detallada de cmo se representa la informacin acerca de cada atributo


'ujipenchars2.txt' sigue:

1. La identidad del personaje: Est representado por el propio carcter (';' en el


ejemplo anterior), una de cada 97 posibilidades. Recuerde que codificacin UTF-8
se utiliza, por lo que los caracteres no ASCII necesita ms de un byte para
codificar.

2. Identificador de la sesin: Se compone de un identificador largo escritor


('trn_UJI_W03' en el ejemplo anterior) y un nmero de repeticin ('01 'o '02')
separados por un guin, donde un identificador escritor de largo consta de tres
elementos separados por guiones bajos :
o Un identificador de conjunto de escritor, 'trn' (escritores de formacin) o "tst"
(escritores de la prueba).
o Un identificador de sitios, 'UJI' o 'UPV'.
o Un identificador escritor corto, como 'W03' en el ejemplo anterior. Los
escritores estn numeradas del 1 al 60.

3. Secuencia de golpes: Su representacin se compone de una serie de lneas en las


que los elementos individuales estn separadas por espacios en blanco. Los
elementos de la primera lnea son la palabra 'NUMSTROKES' y un entero sin
signo que representa el nmero de golpes en la muestra. Este nmero vara de 1 a
5 en 'ujipenchars2.txt'. Y, para cada trazo, una lnea representa sus puntos con los
siguientes elementos:
o La palabra "puntos".
o Un entero sin signo que representa el nmero de puntos en el accidente
cerebrovascular.
o Un carcter almohadilla.
o Para cada punto de la carrera, dos nmeros enteros que representan la
coordenadas X e Y en unidades de tinta. Recuerde que los valores de X
crecen de izquierda a derecha, los valores de Y crecen hacia abajo, y la
relacin entre la longitud y unidades de tinta vara de un sitio a otro. Por otra
parte, hemos observado algunos valores de las coordenadas negativas en
'ujipenchars2.txt'.

Documentos pertinentes:

D. Llorens et al, "El UJIpenchars Base de datos: una base de datos basada en el lpiz de
aislados caracteres escritos a mano.
Proc. de la 6 Conferencia Internacional sobre Recursos Lingsticos y Evaluacin. 2008.

Cita de pedidos:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Indocumentado Data Set N/A
Resumen: Varios conjuntos de datos sin la documentacin (no dude en explorar!)
Conjunto de datos N/ Nmero de N/
rea: N/A
Caractersticas: A instancias: A

Caractersticas del N/ Nmero de N/


Fecha Donado N/A
atributo: A atributos: A

N/ Valores N/ Nmero de Web


Tareas asociadas: 8987
A perdidos? A Accesos:

Fuente:

N/A

Datos Conjunto de Informacin:

N/A

Atributo de la informacin:

N/A

Documentos pertinentes:

N/A

Cita de pedidos:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Universidad Data Set 1988-07-01

Resumen : Los datos de la forma original (LISP legible)

Conjunto de datos Nmero de


Multivariante 285 rea: N/A
Caractersticas: instancias:

Caractersticas del Categrico, Nmero de Fecha 1988-


17
atributo: Integer atributos: Donado 07-01

Nmero de
Valores
Tareas asociadas: Clasificacin S Web 57130
perdidos?
Accesos:

Fuente:

Propietario original: desconocido Donante: Steve Souders < souders de '@' ads.com >

Datos Conjunto de Informacin:

Formato: Cada observacin se refiere a una universidad. En algunos casos, se


proporciona ms informacin acerca del atributo (por ejemplo, unidades o dominio). En
algunos casos hay duplicados y una sola observacin puede tener ms de un valor para
un atributo dado (especialmente nfasis acadmico). Parece que varios atributos podran
servir como un atributo de clase distinguida de esta base de datos. El archivo de datos
permanece en el estado como se nos da por Steve Souders. Es un archivo legible LISP
con algunas funciones pertinentes al final del archivo de datos. La informacin sobre los
valores de datos faltantes no han sido calculados. Esperamos llegar a esto en el futuro.

Atributo de la informacin:

1. Universidad-nombre
2. Estado
3. ubicacin
4. Control de
5. nmero-de-alumnos
6. masculino: femenino (ratio)
7. estudiante: profesores (ratio)
8. sb verbal
9. sat-matemticas
10. gastos
11. ciento-de ayuda financiera
12. nmero-de-solicitantes
13. ciento-entrada
14. ciento a inscribir
15. acadmicos
16. sociales
17. la calidad de vida
18. acadmico-nfasis

Documentos pertinentes:
Lebowitz M. "Concepto de aprendizaje en un rico dominio de entrada: memoria basada en
la generalizacin." Aprendizaje Automtico, Vol. 2, n 2, septiembre de 1987. [Web Link]

Cita de pedidos:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
UNIX datos de usuario Conjunto de Datos N/A

Resumen: Este archivo contiene 9 juegos de datos de usuario


desinfectados extrados de las historias de mando de 8 usuarios
de computadoras UNIX en Purdue en el transcurso de hasta 2
aos.
N
Conjunto de datos Texto, Nmero de
/ rea: Ordenador
Caractersticas: Secuencial instancias:
A

N
Caractersticas del Nmero de Fecha
N/A / N/A
atributo: atributos: Donado
A

N Nmero de
Valores
Tareas asociadas: N/A / Web 19461
perdidos?
A Accesos:

Fuente:

Terran Lane: terran '@' ecn.purdue.edu

Datos Conjunto de Informacin:

Este archivo contiene 9 juegos de datos de usuario desinfectados extrados de las


historias de mando de 8 usuarios de computadoras UNIX en Purdue en el transcurso
de hasta 2 aos (USER0 y user1 se generaron por la misma persona,
que trabaja en diferentes plataformas y los diferentes proyectos). Los datos se
extrae de tcsh (1) archivos de la historia y ha sido analizado y desinfectado para
eliminar los nombres de archivos, nombres de usuario, estructuras de directorios,
direcciones web,
nombres de host, y otros artculos posiblemente identificacin. Nombres de comandos,
banderas y metacaracteres de shell se han conservado. Adems,
** SOF ** y ** EOF ** fichas se han insertado en el inicio y el final de
las sesiones de la cscara, respectivamente. Las sesiones se concatenan por orden de
fecha
y fichas aparecen en la orden emitida en la sesin del shell, pero no hay
marcas de tiempo se incluyen en estos datos. Por ejemplo, las dos sesiones:

# Iniciar sesin 1

cd ~ / private / docs

ls-LAF | ms

gato foo.txt bar.txt zorch.txt> algn lugar

de salida

de sesin # 1 End
sesin # Start 2
cd ~ / juegos /
xquake y
fg
vi scores.txt
mailx john_doe '@' somewhere.com salida
sesin # 2 Fin

estara representada por la corriente de contadores

SOF ** **

cd

<1> # un "nombre de archivo" argumento

ls

-LAF

ms

gato

"archivo" <3> # tres argumentos

>

<1>

exit

** EOF **

** ** SOF

cd

<1>

xquake

fg

vi

<1>

mailx

<1>

exit
** EOF **

Atributo de la informacin:

N/A

Documentos pertinentes:

N/A

Documentos que citan este conjunto de datos 1 :

Stefan Aeberhard y Danny Coomans y De Vel. LA EJECUCIN DEL DISEO


ESTADSTICO mtodos de reconocimiento en los entornos de alta
dimensin . Universidad James Cook. [ Ver Contexto ].

Cita de pedidos:

Estos datos estn disponibles en condiciones de anonimato para los usuarios que
contribuyen y puede ser utilizado slo para fines de investigacin. Los resmenes y
resultados de investigacin que emplean estos datos pueden ser publicados, pero tokens
literales o secuencias simblicas de los datos no pueden ser publicados, excepto con el
consentimiento expreso de los autores de los datos. Ninguna parte de esta informacin
puede ser divulgada con o incluido en un producto comercial, ni ninguna parte de estos
datos puede vender o redistribuir con fines de lucro o como parte de un esfuerzo de lucro.
URL Reputacin Data Set 2009-10-15
Resumen: annimos de 120 das
subconjunto de los datos de URL
ICML-09 que contienen 2,4 millones
de ejemplos y 3,2 millones de
caractersticas.

Conjunto de
Multivariado, Nmero de
datos 2396130 rea: Ordenador
Time-Series instancias:
Caractersticas:

Caractersticas Nmero de Fecha 2009-10-


Entero, real 3231961
del atributo: atributos: Donado 15

Nmero
Tareas Valores
Clasificacin N/A de Web 52357
asociadas: perdidos?
Accesos:

Fuente:

"La identificacin de URL maliciosas: una aplicacin de gran escala el Aprendizaje en


Lnea '(ICML-09)
Justin Ma, Lawrence K. Sal, Stefan Savage, Geoffrey M. Voelker favor visite
[ http://sysnet.ucsd.edu/projects/url / ] para ms informacin.

Datos Conjunto de Informacin:

Descomprimir el archivo url_svmlight.tar.gz producir una url_svmlight directorio / que


contiene los siguientes archivos:
* FeatureTypes --- Una lista de archivos de texto de los ndices de caractersticas que
corresponden a las funciones con valores reales.
* DayX.svm (donde X es un nmero entero de 0 a 120) --- Los datos para el da X en
formato SVM-luz. Una etiqueta de 1 corresponde a una URL maliciosa y -1 corresponde
a una URL benigno.

Atributo de la informacin:

Los atributos son annimos, sino que corresponden al lxico y caractersticas basadas
en host recopilados para cada URL.

Documentos pertinentes:

N/A

Cita de pedidos: Si utiliza este conjunto de trabajos publicados de datos, por favor, cite
el documento ICML-09 en el que se introdujo por primera vez y describi: Justin Ma,
Lawrence K. Sal, Stefan Savage, y Geoffrey M. Voelker, Identificar URLs sospechosas:
una aplicacin de a gran escala de aprendizaje en lnea Actas de la Conferencia
Internacional sobre Aprendizaje Automtico (ICML), pginas 681 a 688, Montreal,
Quebec, junio de 2009.
Los datos del Censo de EE.UU. (1990) Conjunto de datos N/A

Resumen: El conjunto de datos USCensus1990raw contiene


una muestra de uno por ciento de las muestras de Uso Pblico
(PUMS) Microdatos registros de personas procedentes de toda
la muestra del censo de 1990.

Conjunto de datos Nmero de


Multivariante 2458285 rea: Social
Caractersticas: instancias:

Caractersticas del Nmero de Fecha


Categrico 68 N/A
atributo: atributos: Donado

Nmero de
Valores
Tareas asociadas: Clustering N/A Web 47163
perdidos?
Accesos:

Fuente:

El conjunto de datos USCensus1990raw se obtuvo de la pgina web (Departamento de


Comercio de EE.UU.) Oficina del Censo mediante el sistema de extraccin de
datos. Este sistema se puede encontrar
en http://dataferrett.census.gov/ . Donantes: Chris Meek,
Microsoft, mansos '@' microsoft.com Bo Thiesson,
Microsoft, Thiesson '@' microsoft.com David Heckerman, Microsoft, heckerma ' @
' microsoft.com

Datos Conjunto de Informacin:

Los datos fueron recolectados como parte del censo de 1990. Hay 68 atributos
categricos. Este conjunto de datos se obtuvo a partir del conjunto de datos
USCensus1990raw. Los atributos se enumeran en la USCensus1990.attributes.txt
archivo (repetido a continuacin) y la codificacin de los valores se describen a
continuacin. Muchos de los atributos menos tiles en el conjunto de datos original se
han cado, las pocas variables continuas se han discretizado y las pocas variables
discretas que tienen un gran nmero de posibles valores se han derrumbado a tener
menos valores posibles. Ms especficamente, el conjunto de datos USCensus1990 se
obtuvo a partir de los datos USCensus1990raw fijados por la siguiente secuencia de
operaciones; - La asignacin al azar:. El orden de los casos en los datos originales
USCensus1990raw establecidos fueron permutada al azar - Seleccin de atributos: Los
68 atributos incluidos en el conjunto de datos se dan a continuacin. En el conjunto de
datos USCensus1990 hemos aadido una sola letra prefijo al nombre original. Aadimos
la letra i para indicar que los valores de los atributos originales se utilizan y 'd' para
indicar que los valores de los atributos originales para cada caso han sido asignadas a
los nuevos valores (el mapeo preciso se describe ms adelante).Jerarquas de los
valores estn dentro de la USCensus1990raw.coding.htm archivo y las funciones de
asignacin utilizado para transformar la USCensus1990raw a los conjuntos de datos
USCensus1990 estn dando en el archivo USCensus1990.mapping.sql. Los datos estn
contenidos en un archivo llamado USCensus1990.data.txt. La primera fila contiene la
lista de atributos. El primer atributo es un caseID y debera ser ignorado durante el
anlisis. Los datos estn delimitados por comas con un caso por cada fila.
Atributo de la informacin:

-------------------------------------------------- ------------
Antigua Nueva Variable Variable
---------------------------------- ----------------------------
Edad dage
Ancstry1 dAncstry1
Ancstry2 dAncstry2
Disponibilidad iAvail
Citizen iCitizen
Clase iClass
Salir dDepart
Disabl1 iDisabl1
Disabl2 iDisabl2
Ingls iEnglish
Feb55 iFeb55
Fertil iFertil
hispana dHispanic
Hour89 dHour89
Horas dHours
inmigr iImmigr
renta1 dIncome1
ingresos2 dIncome2
ingresos3 dIncome3
Income4 dIncome4
Income5 dIncome5
Income6 dIncome6
Income7 dIncome7
Income8 dIncome8
Industria dIndustry
Corea iKorean
Lang1 iLang1
Looking iLooking
civil iMarital
May75880 iMay75880
Medios iMeans
Militar iMilitary
Movilidad iMobility
Mobillim iMobillim
Occup dOccup
Othrserv iOthrserv
Perscare iPerscare
POB dPOB
Pobreza dPoverty
Pwgt1 dPwgt1
Ragechld iRagechld
Rearning dRearning
Relat1 iRelat1
Relat2 iRelat2
Remplpar iRemplpar
Riders iRiders
Rlabor iRlabor
Rownchld iRownchld
Rpincome dRpincome
rpoB iRPOB
Rrelchld iRrelchld
Rspouse iRspouse
Rvetserv iRvetserv
School iSchool
Sept80 iSept80
Sexo ISEX
Subfam1 iSubfam1
Subfam2 iSubfam2
Tmpabsnt iTmpabsnt
Travtime dTravtime
Vietnam iVietnam
Week89 dWeek89
Work89 iWork89
Worklwk iWorklwk
WWII iWWII
Yearsch iYearsch
Yearwrk iYearwrk
Yrsserv dYrsserv Mapping: En este paso hacemos un mapa de todos los viejos valores
para las variables con el prefijo 'd' a los nuevos valores. Las asignaciones para las
variables dAncstry1, dAncstry2, dHispanic, dIndustry, dOccup, dPOB fueron diseados
para corresponder a un engrosamiento natural de los valores originales, basadas en la
informacin en el coding.htm archivo. El resto de variables son variables valoradas
continuos y la asignacin para estas variables fue elegido para hacer que las variables
que fueron distribuidos de manera bastante uniforme a travs de los Estados
(cuantiles). Las asignaciones precisas se especifican en el archivo
USCensus1990.mapping.sql. Este archivo contiene todos los procedimientos de T-SQL
que se utilizan para asignar las variables. Estos procedimientos se pueden utilizar
directamente en SQL Server para asignar los valores originales o traducida a otra
lengua. ------------------------------ -------------------------------- Procedimiento Variable ------------
---- ---------------------------------------------- dage discAge dAncstry1 discAncstry1 dAncstry2
discAncstry2 dHispanic discHispanic dHour89 discHour89 dHours discHours dIncome1
discIncome1 dIncome2 discIncome2to8 dIncome3 discIncome2to8 dIncome4
discIncome2to8 dIncome5 discIncome2to8 dIncome6 discIncome2to8 dIncome7
discIncome2to8 dIncome8 discIncome2to8 dIndustry discIndustry dOccup
discOccup dPOB discPOB dPoverty discPoverty dPwgt1 discPwgt1 dRearning
discRearning dRpincome discRpincome dTravtime discTravtime dWeek89
discWeek89 dYrsserv discYrsserv

Documentos pertinentes:

. Meek, Thiesson y Heckerman (2001), "The Learning Curve mtodo aplicado a la


agrupacin", que aparecer en la revista Journal of Machine Learning Research [Web
Link] Ver tambin: [Web Link]

Documentos que citan este conjunto de datos 1 :

Zhiyuan Chen y Johannes Gehrke y Flip Korn. Optimizacin de consultas en los


sistemas de base de datos comprimida . Conferencia SIGMOD. 2001. [ Ver
Contexto ]. David R. Musicant. MINERA DE DATOS A TRAVS DE PROGRAMACIN
MATEMTICA Y EL APRENDIZAJE DE LA MQUINA . Doctor en Filosofa (Ciencias de
la Computacin) UNIVERSIDAD. [ Ver Contexto ]. Chris Giannella y Bassem
Sayrafi. Una teora de la informacin de histograma individual Dimensional Selectividad
Estimacin . Departamento de Ciencias de la Computacin, Universidad de Indiana en
Bloomington. [ Ver Contexto ]. David R. Musicant y Alexander Feinberg. Ajuste activo de
apoyo vector de regresin . [ Ver Contexto ].

Cita de pedidos:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Identificacin del usuario de caminar Actividad Data Set 02/03/2014
Resumen: El conjunto de datos recoge datos de un smartphone Android colocado en
el bolsillo del pecho de 22 participantes que caminan en la naturaleza a travs de una
ruta predefinida.
Univariante, N
Conjunto de datos Nmero de
Secuencial, / rea: N/A
Caractersticas: instancias:
Time-Series A

N
Caractersticas del Nmero de Fecha
Real / 02/03/2014
atributo: atributos: Donado
A

N Nmero de
Clasificacin, Valores
Tareas asociadas: / Web 629
Clustering perdidos?
A Accesos:

Fuente:

Pierluigi Casale, Computer Vision Center, Barcelona,


Espaa. Email: plcasale '@' ieee.org

Datos Conjunto de Informacin:

El conjunto de datos recoge datos de un smartphone Android colocado en el bolsillo en


el pecho. Acelermetro Se recogen datos de 22 participantes que caminan en la
naturaleza a travs de una ruta predefinida. El conjunto de datos est prevista para fines
de investigacin de reconocimiento de la actividad. Proporciona desafos para la
identificacin y autenticacin de personas que utilizan los patrones de movimiento.
--- Frecuencia de muestreo del acelermetro: DELAY_FASTEST con conexiones de red
deshabilitado
--- Nmero de participantes: 22
Formato --- de datos: CSV

Atributo de la informacin:

--- Los datos estn separados por participante


--- Cada archivo contiene la siguiente informacin
---- paso de tiempo, x aceleracin, y la aceleracin, aceleracin z

Documentos pertinentes:

--- Casale, P. Pujol, O. y Radeva, P.


"La personalizacin y verificacin del usuario en sistemas porttiles que utilizan los
patrones de caminar biomtricos '
Personal y Computacin Ubicua, 16 (5), 563-580, 2012

Cita de pedidos:

--- Casale, P. Pujol, O. y Radeva, P.


"La personalizacin y verificacin del usuario en sistemas porttiles que utilizan los
patrones de caminar biomtricos '
Personal y Computacin Ubicua, 16 (5), 563-580, 2012
Usuario Conocimiento de modelado de conjunto de datos 06/26/2013
Resumen: Es el conjunto de datos reales sobre el estado de los conocimientos de los
alumnos sobre el tema de las mquinas elctricas de corriente continua. El conjunto de
datos se haba obtenido a partir de doctorado Tesis.
Conjunto de datos Nmero de
Multivariante 403 rea: Ordenador
Caractersticas: instancias:

Caractersticas del Nmero de Fecha


Entero 5 06/26/2013
atributo: atributos: Donado

Nmero de
Clasificacin, Valores N/
Tareas asociadas: Web 12883
Clustering perdidos? A
Accesos:

Fuente:

- Creadores: Hamdi Tolga Kahraman ( htolgakahraman '@' yahoo.com )


- Institucin: Facultad de Tecnologa, Departamento de Ingeniera de Software de la
Universidad Tcnica de Karadeniz, Trabzon, Turkiye
- Creadores: Ilhami Colak ( icolak '@' gazi.edu . tr )
- Institucin: Facultad de Tecnologa, Departamento de Ingeniera Elctrica y Electrnica
de la Universidad de Gazi, en Ankara, Turkiye
- Creadores: Seref Sagiroglu ( ss '@' gazi.edu.tr )
- Institucin: Facultad de Tecnologa, Departamento de Ingeniera Informtica de la
Universidad de Gazi, en Ankara, Turkiye - Donante: estudiantes de pregrado de la
Secretara de Educacin Elctrica de la Universidad de Gazi en el semestre 2009 -
Fecha: octubre de 2009

Datos Conjunto de Informacin:

- Los usuarios de 'class conocimiento fueron clasificados por los autores


utilizando clasificador conocimiento intuitivo (una tcnica hbrida de ML k-NN y los
mtodos de exploracin de meta-heurstica), el algoritmo de k-vecino ms cercano.
Ver el artculo para ms detalles sobre cmo los datos de los usuarios fue recogido y
evaluado por el servidor de modelado de usuario. HT Kahraman, Sagiroglu, S., Colak, I.,
Desarrollo clasificador conocimiento intuitivo y el modelado de datos dependientes de
dominio de los usuarios en la web, Sistemas Basados en el Conocimiento, vol. 37, pp
283-295, 2013.

Atributo de la informacin:

STG (El grado de tiempo de estudio para materails objeto gol), (valor de entrada)
SCG (El grado de repeticin de nmero de usuario para materails objeto meta) (valor de
entrada)
STR (El grado de tiempo de estudio de usuario para los objetos relacionados con el
objeto meta ) (valor de entrada)
LPR (El rendimiento en los exmenes de usuario para los objetos relacionados con el
objeto meta) (valor de entrada)
PEG (El rendimiento en los exmenes de usuario para los objetos meta) (valor de
entrada)
UNS (el nivel de conocimiento del usuario) (valor objetivo)
Muy baja: 50
Baja: 129
Media: 122
Alto 130

Documentos pertinentes:

1. HT Kahraman, Sagiroglu, S., Colak, I., Desarrollo clasificador conocimiento intuitivo y


el modelado de datos dependientes de dominio de los usuarios en la web,
Sistemas Basados en el Conocimiento, vol. De 37 aos, pp 283-295, 2013.
2. Kahraman, HT (2009). Diseo y Aplicacin de la adaptacin del Sistema Educativo
Inteligente basado en Web. Universidad Gazi Tesis Doctoral, Turqua, 1-156.

Cita de pedidos:

HT Kahraman, Sagiroglu, S., Colak, I., Desarrollo clasificador conocimiento intuitivo y el


modelado de datos dependientes de dominio de los usuarios en la web,
Sistemas Basados en el Conocimiento, vol. 37, pp 283-295, 2013.
USPTO Algoritmo Challenge, dirigido por la NASA en Harvard Torneo 10/13/2013
Lab y TopCoder Problema: Pat Data Set
Resumen : Los datos utilizados para la USPTO Algoritmo Competencia. Contiene
pginas de dibujo de las patentes de Estados Unidos con etiquetas de las figuras y
piezas etiquetadas de forma manual.
Conjunto de datos Domain- Nmero de
306 rea: N/A
Caractersticas: Theory instancias:

Caractersticas del Nmero de Fecha


Entero 5 10/13/2013
atributo: atributos: Donado

Nmero de
Valores N/
Tareas asociadas: Clasificacin Web 4059
perdidos? A
Accesos:

Fuente:

- Creador: TopCoder, Inc.


- Publicado bajo Apache License, Version 2.0 http://www.apache.org/licenses/LICENSE-
2.0.html

Datos Conjunto de Informacin:

USPTO Algoritmo Challenge, dirigido por la NASA Harvard-Tournament Lab y


TopCoder
Problema: Etiquetado de Patentes

Atributo de la informacin:

Informacin de conjunto de datos:


- Esta carpeta contiene 4 grupos de imgenes patentes USPTO incluyendo informacin
realidad del terreno.
- Los 4 grupos son 'train1', 'TRAIN2', 'prueba', 'Evaluacin'.
- 'train1', 'test' , "evaluacin" contiene datos en el original 'USPTO Algoritmo Challenge'
para la formacin, pruebas y evaluacin final, respectivamente.
- '. USPTO Algoritmo Seguimiento Challenge' 'TRAIN2 "contiene los datos adicionales
que se utiliz en la
Nota que 'TRAIN2' incluye algunas imgenes de las portadas de documentos de patente
que no est incluido en otros grupos. - En cada grupo, hay dos carpetas contienen
imgenes originales y las informaciones correspondientes terreno la verdad. - Las
imgenes originales estn en formato "jpeg". - Hay dos tipos de terreno la verdad:. cifra
etiqueta terreno la verdad y parte etiqueta terreno la verdad - Los archivos de la realidad
del suelo son archivos de texto con extensin 'ans.'. - La estructura de los archivos de la
realidad del suelo se describe de la siguiente manera: - El primero lnea es un nmero
que indique cuntas instancias existe en la imagen correspondiente - Las siguientes
lneas son las coordenadas del polgono y los correspondientes contenidos de la
etiqueta, cada lnea corresponde a una etiqueta figura la etiqueta o en parte, en forma 'N
x1 y1 x2 y2 | xN yN x1 contenido y1 '. - En cada una de esas lneas, el primer
nmero N indica el nmero de vrtices del polgono se registran en instancia actual. -
Los siguientes nmeros son coordenadas x, y de los vrtices. - La ltima palabra en
cada lnea es el contenido de la figura etiqueta o parte de la etiqueta.
- Cada nmero o palabra est separada por un espacio en blanco.
- Para el grupo 'TRAIN2', slo hay verdad terreno referencia de etiquetas disponibles.
- Tambin relevamos el cdigo fuente de la 5 solucin superior que gana. Ver archivo de
almacenamiento adicional.

Documentos pertinentes:

Ninguno

Cita de pedidos:

Christoph Riedl, Richard Zanibbi, Mart A. Hearst, Siyu Zhu, Michael Minetti, Kevin J.
Boudreau, Jason Crusan, Ivan Metelsky, y Karim R. Lakhani, "Deteccin de figuras y
etiquetas de la parte de Patentes: Una
Competencia Desarrollo Basado de Imagen Procesamiento de Algoritmos, papel 'de
trabajo.
Columna vertebral del conjunto de datos 2011-08-09
Resumen: El conjunto de datos que contiene los valores de seis caractersticas
biomecnicas utilizadas para clasificar a los pacientes ortopdicos en 3 clases (, hernia
de disco normal o spondilolysthesis) o 2 clases (normal o anormal).
Conjunto de datos Nmero de
Multivariante 310 rea: N/A
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 2011-


Real 6
atributo: atributos: Donado 08-09

Nmero de
Valores N/
Tareas asociadas: Clasificacin Web 41874
perdidos? A
Accesos:

Fuente:

Guilherme de Alencar Barreto ( guilherme '@' deti.ufc.br ) y Ajalmar R van da Rocha


Neto ( ajalmar '@' ifce.edu.br ), Departamento de Ingeniera Teleinformtica de la
Universidad Federal de Cear, Fortaleza, Cear, Brasil . Antonio Henrique Fonseca da
Mota Filho (hdamota '@' gmail.com ), Hospital Monte Klinikum, Fortaleza, Cear, Brasil.

Datos Conjunto de Informacin:

Conjunto de datos biomdica integrada por el Dr. Henrique da Mota, durante un perodo
de residencia mdica en el Grupo de Investigacin Aplicada en Ortopedia (GARO) del
Centro M dico-Quirrgica de R adaptacin des Massues, Lyon, Francia. Los
datos se han organizado en dos tareas de clasificacin diferentes, pero relacionados. La
primera tarea consiste en clasificar a los pacientes como pertenecientes a una de tres
categoras: Normal (100 pacientes), Hernia de Disco (60 pacientes) o espondilolistesis
(150 pacientes).Para la segunda tarea, las categoras de disco Hernia y
Espondilolistesis se fusionaron en una sola categora denominada como "anormal". Por
lo tanto, la segunda tarea consiste en clasificar a los pacientes como pertenecientes a
una de dos categoras: Normal (100 pacientes) o anormales (210
pacientes). Proporcionamos archivos tambin para su uso en el entorno WEKA.

Atributo de la informacin:

A cada paciente se representa en el conjunto de datos por seis atributos biomecnicos


derivados de la forma y la orientacin de la pelvis y la columna lumbar (en este orden):
incidencia de la pelvis, la inclinacin de la pelvis, el ngulo de la lordosis lumbar, sacra
pendiente, radio plvico y grado de espondilolistesis. La siguiente convencin se utiliza
para las etiquetas de clase: DH (Hernia de Disco), espondilolistesis (SL), Normal (NO) y
anormales (AB).

Documentos pertinentes:

(1) Berthonnaud, E., Dimnet, J., Roussouly, P. & Labelle, H. (2005). 'Anlisis del
equilibrio sagital de la columna y la pelvis utilizando parmetros de forma y orientacin',
Revista de Trastornos y Tcnicas de la Columna Vertebral, 18 (1): 40 "47. (2) Rocha
Neto, AR & Barreto, GA (2009). 'En la Aplicacin de Conjuntos de Clasificadores al
diagnstico de patologas de la columna vertebral: un anlisis comparativo ".,
Transacciones IEEE Amrica Latina, 7 (4) :487-496 (3) Rocha Neto, AR, Sousa, R.,
Barreto, GA y Cardoso, JS (2011)."Diagnstico de Patologa de la Columna Vertebral
con Embedded Rechazar Optiona ?, Actas de la quinta Conferencia Ibrica de
Reconocimiento de Formas y Anlisis de Imgenes (IbPRIA'2011), Gran Canaria,
Espaa, Lecture Notes en Ciencias de la Computacin, vol. 6669, p. 588-595.

Cita de pedidos:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Vicon Set Datos de accin fsica Conjunto de Datos 2011-07-27
Resumen: El Conjunto de Datos accin fsica incluye 10 normales y 10 acciones
fsicas agresivas que miden la actividad humana. Los datos han sido recogidos por 10
sujetos usando el tracker Vicon 3D.
Conjunto de datos Series de Nmero de
3000 rea: Fsico
Caractersticas: Tiempo instancias:

Caractersticas del Nmero de Fecha 2011-


Real 27
atributo: atributos: Donado 07-27

Nmero de
Valores
Tareas asociadas: Clasificacin N / A Web 18483
perdidos?
Accesos:

Fuente:

Theo Theodoridis
Facultad de Ciencias de la Computacin e Ingeniera Electrnica
de la Universidad de Essex
Wivenhoe Park, Colchester, 3SQ CO4, Reino
Unido ttheod '@' gmail.com http://sites.google.com/site/ttheod/

Datos Conjunto de Informacin:

1. Protocolo:
Siete hombres y tres mujeres sujetos (de 25 aos y el 30), que han sufrido la agresin
en escenarios tales
como peleas fsicas, particip en el experimento. A lo largo de 20 experimentos
individuales, cada sujeto
tena que realizar diez normal y diez actividades agresivas. En cuanto a los derechos de
los sujetos involucrados,
regulaciones ticas se han seguido basndose en el cdigo de tica de la Sociedad
Britnica de Psicologa,
que explica las legislaciones ticas para llevar a cabo experimentos estadsticos
utilizando sujetos humanos. Para la seguridad
cuestiones de precaucin, abrigos de la mano del boxeo se han dado a los sujetos, y
para el calentamiento de los sujetos
fueron instruidos para familiarizarse con la bolsa por tener un nmero de ejecuciones de
prueba. Los sujetos eran conscientes de que
, ya que su participacin en esta serie de experimentos fue voluntaria, se dej en claro
que podan
retirarse en cualquier momento del estudio. 2. Instrumentacin: La arena robtico Essex
fue la principal sala experimental donde la recoleccin de datos se llev a cabo. Con
rea de 4x5.5m, los diez sujetos expresaron actividades fsicas normales y agresivos en
lugares al azar. Para las acciones normales, un compaero humano se ha utilizado
como un objetivo de enfoque atraer la atencin de los sujetos con el fin de realizar la
actividad ms realista. Para las acciones agresivas, los sujetos hicieron uso de un
profesional de la bolsa de pie kick-boxing, 1.75m de altura, con una figura humana
dibujada en su cuerpo. La bolsa tiene forma cilndrica hecha de material blando, lo que
podra rebotar cuando es golpeado. Todas las actividades se han registrado de
azar posiciones de partida de modo que para tener una variedad de datos 3D
espaciales. El rendimiento subjects ha sido registrado por nueve cmaras
omnipresentes del s Vicona, interfaces actividad humana con coordenadas
espaciales puntos. En base a este contexto, el proceso de adquisicin de datos implic
cuatro marcadores reflectable colocados en los antebrazos (codos y muecas), cuatro
en las patas delanteras (rodillas y tobillos), y uno en la parte superior de la
cabeza. 3. Configuracin de datos: Cada ensayo experimental se ha tomado por
separado para cada actividad fsica. La duracin de cada accin fue de
aproximadamente ~ 10 segundos por sujeto, lo que corresponde a una serie de tiempo
de ~ 3000 muestras, con frecuencia de muestreo de 200Hz. Dentro de este tiempo de
funcionamiento, aproximadamente 15 trayectorias de accin fueron extrados de conteo
en promedio 15 normal (ej: establecimiento de conexin), y 15 agresivos: acciones (ex
perforacin).

Atributo de la informacin:

Cada archivo en el conjunto de datos contiene 28 columnas en total (el primero es un


contador), y est organizado de la Segmento | Director | L-Arm | R-Arm | L-Leg | R-
Leg Marker | m1 | m2 | m3 | m4 | m5 | m6 | m7 | m8 | m9 | | Coordenadas | xyz | xyz | xyz
| xyz | xyz | xyz | xyz | xyz | xyz | | columna | 1,2,3 | 4.5.6 | 7.8.9 | 10,11,12 | 13,14,15 |
16,17,18 | 19,20,21 | 22,23,24 | 25,26,27 Un segmento se define un segmento del
cuerpo o de las extremidades. - Jefe - Brazo izquierdo (L-Arm) - El brazo derecho (R-
Arm) - Barra izquierda (L-Leg) - Barra derecha (R-Leg) Marcador: Un par de marcadores
( excepto la cabeza) se une en cada segmento del cuerpo para la adquisicin de datos
3D. - marcadores de brazo: la mueca (WRS), el codo (ELB) - marcadores de tobillo de
la pierna: (ANK), rodilla (KNE)Coordenadas: Los 3 coordenadas (x, y , z) definen la
posicin 3D de cada marcador en el espacio. - x: La coordenada x - y: La coordenada -
z: La coordenada z

Documentos pertinentes:

1. T. Theodoridis y H. Hu, clasificacin de las acciones agresivas de los modelos 3D


humanos utilizando
Dinmica RNAs para Mvil Robot Vigilancia, Conferencia Internacional IEEE de
Robtica
y biomimtica (Robio-2007), 15 a 18 diciembre, 2007, pp 371-376. 2. T. Theodoridis, A.
Agapitos, H. Hu y SM Lucas, ubicuas Robtica en Physical Human Recognition Accin:
Una comparacin entre las RNA dinmicos y GP, IEEE Internacional Conferencia de
Robtica y Automatizacin (ICRA-2008), May 19-23, 2008, pp desde 3064 hasta
3069. 3. T. Theodoridis y H. Hu, A Fuzzy-convolucin Modelo de Accin Fsica y
Comportamiento Reconocimiento de Patrones de la serie Time 3D, IEEE
Int.. Conferencia de Robtica y biomimtica (Robio-2008), 21 a 26 febrero 2009, pp 407-
412. 4. T. Theodoridis, A. Agapitos, H. Hu y SM Lucas, Montaje Mecnico Atributos
para Modelado y Clasificacin de patrones de Actividades Fsicas, IEEE Conferencia
Internacional de Informacin y Automatizacin (ICIA-2009), 22 a 24 junio, 2009, pp 528-
533. 5. T. Theodoridis, A. Agapitos, H. Hu y SM Lucas, Un Modelo Fuzzy QA-TSK frente
evolutivos rboles de decisin Hacia patrn no lineal de accin de reconocimiento, IEEE
Conferencia Internacional deInformacin y Automatizacin (ICIA-2010), 20 al 23 junio,
2010, pp 1813-1818. 6. T. Theodoridis, P. Theodorakopoulos y H. Hu, La evolucin de
modelos biomecnicos agresivos con la programacin gentica, IEEE / RSJ Conferencia
Internacional de Robots y Sistemas Inteligentes, (IROS-2010), 18 hasta 22 octubre
2010, pp 2495 - 2500. 7. T. Theodoridis, A. Agapitos y H. Hu, A Gauss groundplan
Modelo rea de proyeccin para Evolving Probabilstico Clasificadores, GECCO
Gentica y Evolutiva Conferencia Computacin (GECCO-2011), 12 a 16 julio, 2011, pp
1339-1346.

Cita de pedidos:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Los volcanes en Venus - JARtool experimento Conjunto de datos N/A
Resumen: El proyecto JARtool fue un esfuerzo pionero para
desarrollar un sistema automtico para la catalogacin de los
pequeos volcanes en el amplio conjunto de imgenes Venus
devueltos por la nave espacial Magallanes.

Conjunto de datos Nmero de N/


Imagen rea: Fsico
Caractersticas: instancias: A

Caractersticas del Nmero de N/ Fecha


N/A N/A
atributo: atributos: A Donado

Nmero de
Valores
Tareas asociadas: Clasificacin S Web 15093
perdidos?
Accesos:

Fuente:

Michael C. Burl
MS 126-347, JPL
4800 Oak Grove Drive
Pasadena, CA 91109
(818) 393-5345 Michael.C.Burl '@' jpl.nasa.gov http://www-aig.jpl.nasa.gov / mls / home
/ burl /

Datos Conjunto de Informacin:

Los datos fueron recogidos por la nave espacial Magallanes durante un perodo de
aproximadamente cuatro anual de 1990 - 1994. El objetivo de la misin era obtener la
cartografa global de la superficie de Venus utilizando un radar de apertura sinttica
(SAR). Un anlisis ms detallado de la misin y objetivos se encuentra disponible en la
pgina web de Magellan del JPL. Existen algunas dependencias espaciales. Por
ejemplo, los parches de fondo con una imagen nica es probable que sean ms
similares que los parches de fondo tomadas a travs de diferentes imgenes. Adems
de las imgenes, hay archivos "verdad terreno" que especifican la ubicacin de los
volcanes en las imgenes. Las comillas en "verdad terreno" pretenden ser un
recordatorio de que no hay verdad absoluta del suelo para este conjunto de datos. Nadie
ha sido la de Venus y la calidad de la imagen no permite el 100%, la identificacin
inequvoca de los volcanes, incluso para los expertos humanos. Hay etiquetas que
proporcionan cierto grado de incertidumbre subjetiva (1 = definitivamente un volcn, 2 =
probablemente, 3 = posiblemente, 4 = slo un pozo es visible). Vase la referencia
[Smyth95] para ms informacin sobre el problema de la incertidumbre de
etiquetado. Tambin hay archivos que especifican el conjunto exacto de experimentos
utilizando en las evaluaciones publicadas del sistema JARtool. Los archivos de
imgenes se encuentran en un formato llamado VIEW. Este formato consta de dos
archivos, un archivo binario con la extensin. Sdt (los datos de imagen) y un archivo
ASCII con extensin. Spr (informacin de la cabecera). Hay una funcin de utilidad de
MATLAB incluido en el paquete de datos que se puede utilizar para leer los datos. Si
quieres usar algo distinto al Matlab, ests por tu cuenta, pero el formato es bastante
sencillo y pueda ser comprendido por mirar el cdigo Matlab. Los archivos de etiquetado
se presentan en dos formas. Los archivos lxyr. Son simples ASCII que contiene la
etiqueta separada por espacios, x-ubicacin del centro, y-ubicacin del centro y el radio.
Atributo de la informacin:

Las imgenes son 1024X1024 pxeles. Los valores de pxeles estn en el rango
[0255]. El valor de pxel est relacionada con la cantidad de energa retrodispersada al
radar desde una ubicacin espacial dada. Valores de los pxeles ms altos indican una
mayor retrodispersin. Valores de pxel ms bajos indican menor retrodispersin. Tanto
la topografa y la rugosidad de la superficie en relacin con la longitud de onda de radar
afectan la cantidad de retrodispersin.

Documentos pertinentes:

GH Pettengill, PG Ford, WTK Johnson, RK Raney, LA Soderblom, "Magellan:


Performance Radar y Productos de Datos"., Science, 252:260-265 (1991) [Web Link] RS
Saunders, AJ Lanza, PC Allin, RS Austin, AL Berman, RC Chandlee, J. Clark, AV
Decharon, EM Dejong, "Magellan Misin Resumen", J. of Geophysical Research
Planets, 97 (E8) :13067-13090, (1992). [Web Link] MC Burl , L. Asker, P. Smyth, U.
Fayyad, P. Perona, L. Crumpler, y J. Aubele, "Aprender a reconocer los Volcanes de
Venus", la mquina de aprendizaje, (marzo de 1998). [Web Link] P. Smyth, MC Burl, UM
Fayyad, y P. Perona, Captulo: "Descubrimiento de Conocimiento en grandes bases de
datos de la imagen: Lidiar con incertidumbres en Ground Truth", en Advances in
Descubrimiento de Conocimiento y Minera de Datos, AAAI / MIT Press, Menlo Park,
CA, (1995). [Web Link]

Cita de pedidos:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Wall-Tras Robot navegacin Conjunto de datos Datos 2010-08-04
Resumen: Los datos se recogieron como el robot G5 SCITOS navega a travs de la
sala siguiendo la pared hacia la derecha, para 4 rondas, con 24 sensores de
ultrasonidos dispuestas circularmente alrededor de su cintura.
Conjunto de datos Multivariante, Nmero de
5456 rea: Ordenador
Caractersticas: Secuencial instancias:

Caractersticas Nmero de Fecha 2010-08-


Real 24
del atributo: atributos: Donado 04

Nmero
Valores
Tareas asociadas: Clasificacin N/A de Web 20502
perdidos?
Accesos:

Fuente:

(A) Creadores: Ananda Freire, Marcus Veloso y Guilherme Barreto Departamento de


Ingeniera Teleinformtica de la Universidad Federal de Cear Fortaleza, Cear,
Brasil (b) Los donantes de base de datos: Ananda Freire
( anandalf '@' gmail.com ) Guilherme Barreto (guilherme '@' deti.ufc.br )

Datos Conjunto de Informacin:

Los archivos proporcionados comprenden tres conjuntos de datos diferentes. El primero


contiene los valores brutos de las mediciones
de los 24 sensores de ultrasonidos y la etiqueta de la clase correspondiente (vase la
seccin 7). Las lecturas del sensor se muestrean a una
tasa de 9 muestras por segundo. El segundo contiene cuatro lecturas de los sensores
denominados 'distancias simplificados y de la etiqueta de la clase correspondiente (ver
seccin 7). Estas distancias simplificados se refieren como la "distancia frente",
"distancia a la izquierda", "distancia adecuada" y "distancia de vuelta '. Se componen,
respectivamente, de las lecturas de los sensores mnimas entre aquellos dentro de los
60 arcos de grado en la parte delantera, a la izquierda, piezas adecuadas y la espalda
del robot. El tercero incluye solamente la distancia simplificados e izquierdo y la etiqueta
de la clase correspondiente. Es Cabe mencionar que los 24 lecturas de ultrasonido y las
distancias simplificados fueron recolectados en el mismo intervalo de tiempo, por lo que
cada archivo tiene el mismo nmero de filas (una para cada paso de tiempo de
muestreo). La reunin de trabajo y los datos en la pared siguiente fueron diseados para
probar la hiptesis de que esta tarea aparentemente sencilla navegacin es sin duda
una tarea no linealmente separable clasificacin. Por lo tanto, los clasificadores lineales,
como la red Perceptrn, no son capaces de aprender la tarea y comandar el robot
alrededor de la habitacin sin colisiones. Clasificadores neuronales no lineales, tales
como la red de MLP, son capaces de aprender la tarea y ordenar al robot con xito sin
colisiones. Si se proporciona algn tipo de mecanismo de la memoria a corto plazo a los
clasificadores de los nervios, sus actuaciones se mejoran en general. Por ejemplo, si las
entradas anteriores se proporcionan junto con las lecturas actuales del sensor, incluso el
Perceptrn se convierte en capaz de aprender la tarea y comandar el robot con xito. Si
una red neuronal recurrente, como la red de Elman, se utiliza para aprender la tarea, el
clasificador dinmico resultante es capaz de aprender la tarea con menos neuronas
ocultas de la red MLP. Archivos con diferente nmero de lecturas de los sensores fueron
construidos con el fin de evaluar el desempeo de los clasificadores con respecto al
nmero de entradas.

Atributo de la informacin:
Nmero de Atributos
- sensor_readings_24.data: 24 atributos numricos y la clase.
- sensor_readings_4.data:. 4 atributos numricos y la clase
. - sensor_readings_2.data: 2 atributos numricos y la clase para cada atributo: -
sensor_readings_24 archivo . datos: 1. US1: sensor de ultrasonido en la parte delantera
del robot (ngulo de referencia: 180 ) - (numrico: real) 2. US2: Ecografa lectura
(ngulo de referencia:-165A ) - (numrico: real) 3. US3: Ecografa lectura (ngulo de
referencia:-150 ) - (numrico: real) 4. US4: Ecografa lectura (ngulo de referencia:-
135A ) - (numrico: real) 5. US5: Ecografa lectura (ngulo de referencia:-120A ) -
(numrico: real) 6. US6: Ecografa lectura (ngulo de referencia:-105 ) - (numrico:
real) 7. US7: (ngulo referencia: 90 ) ultrasonido leyendo - (numrico Bienes) 8. US8:
(ngulo de referencia:-75 ) ultrasonido lectura - (numrico: real) 9. US9: Ecografa
lectura (ngulo de referencia:-60 ) - (numrico: real) 10. US10: Ecografa lectura
(ngulo de referencia: -45 ) - (numrico: real) 11. US11: Ecografa lectura (ngulo de
Referencia:-30 ) - (numrico: real) 12. US12: Ecografa lectura (ngulo de referencia:-
15 ) - (numrico: real) 13. US13: lectura del sensor de ultrasonidos situados en la
parte trasera del robot (ngulo de referencia: 0 ) - (numrico: real) 14. US14: ecografa
lectura (ngulo de referencia: 15 ) - (numrico: real) 15. US15: Ecografa lectura
(ngulo de referencia: 30 ) - (numrico: real) 16. US16: Ecografa lectura (ngulo de
referencia: 45 ) - (numrico: real) 17. US17: Ecografa lectura (ngulo de referencia:
60 ) - (numrico: real) 18. US18: ecografa lectura (ngulo de referencia: 75 ) -
(numrico: real) 19. US19: Ecografa lectura (ngulo de referencia: 90 ) - (numrico:
real) 20. US20: Ecografa lectura (ngulo de referencia: 105 ) - (numrico:
real) 21. US21: Ecografa lectura (ngulo de referencia: visin 120 ) - (numrico:
real) 22. US22: Ecografa lectura (ngulo de referencia: 135A ) - (numrico:
real) 23. US23: Ecografa lectura (ngulo de referencia: 150 ) - (numrico:
real) 24. US24: Ecografa lectura (ngulo de referencia: 165A ) - (numrico:
real) 25. Clase: - Mover-Forward - Ligero-Derecha-Turn - Sharp-Derecha-Turn - Ligero-
Izquierda-Turn - sensor_readings_4.data archivo: 1. SD_front: Sensor mnima lectura
dentro de un arco de 60 grados en la parte delantera del robot - (numrico:
real) 2. SD_left: Sensor mnima lectura dentro de un arco de 60 grados situado a la
izquierda del robot - (numrico: real) 3. SD_right: Sensor mnima lectura dentro de un
arco de 60 grados situado a la derecha del robot - (numrico: real) 4. SD_back: Sensor
mnima lectura dentro de un arco de 60 grados en la parte posterior del robot -
(numrico: real) 5. Clase: - Mover-Forward - Ligero-Derecha-Turn - Sharp-Derecha-
Turn - Ligero-Izquierda-Turn - sensor_readings_2.data archivo: 1. SD_front: Sensor
mnima lectura dentro de un arco de 60 grados en la parte delantera del robot -
(numrico: real) 2. SD_left: Sensor mnima lectura dentro de un arco de 60 grados
situado a la izquierda del robot - (numrico: real) 3. Clase: - Mover-Forward - Ligero-
Derecha-Turn - Sharp-Derecha-Turn - Ligero-Izquierda-Turn

Documentos pertinentes:

Ananda L. Freire, Guilherme A. Barreto, Marco Antonio Veloso y T. Varela (2009),


"memoria a corto plazo los mecanismos de red neuronal de aprendizaje de Robot de
Navegacin
Tareas: Un Estudio de Caso ". Actas de la sexta Robtica Simposio Latinoamericano
(LARS'2009),
Valparaso-Chile, pginas 1-6, DOI: 10.1109/LARS.2009.5418323

Cita de pedidos:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Tratamiento de Aguas Planta de conjunto de datos 1993-06-01
Resumen : Varias clases predicen estado de la central
Conjunto de datos Nmero de
Multivariante 527 rea: Fsico
Caractersticas: instancias:

Caractersticas del Nmero de Fecha 1993-


Entero, real 38
atributo: atributos: Donado 06-01

Nmero de
Valores N/
Tareas asociadas: Clustering Web 44121
perdidos? A
Accesos:

Fuente:

Creadores: Manel Poch ( igte2 '@' cc.uab.es ) Unitat d'Enginyeria Qumica Universitat
Autnoma de Barcelona. Bellaterra. De Barcelona; Espaa Donante: Javier Bjar y
Ulises Corts ( bejar '@' lsi.upc.es ) Dept. Llenguatges i Sistemes
Informatics, Universitat Politcnica de Catalunya. De Barcelona; Espaa

Datos Conjunto de Informacin:

Este conjunto de datos proviene de las medidas diarias de sensores en una planta de
tratamiento de aguas residuales urbanas. El objetivo es clasificar el estado de
funcionamiento de la planta con el fin de predecir fallos a travs de las variables de
estado de la planta a cada una de las etapas del proceso de tratamiento. Este dominio
ha sido declarado como un dominio mal estructurado.

Atributo de la informacin:

Todos los Atrributes son numricos y continuo N. Atributo. 1 QE (flujo de entrada a la


planta) 2 ZN-E (de entrada a la planta de zinc) 3 PH-E (pH de entrada a la planta) 4
DBO-E (entrada de demanda biolgica de oxgeno a la planta) 5 DQO-E (insumo
qumico la demanda de oxgeno a la planta) 6 SS-E (de entrada de slidos en
suspensin a la planta) 7 SSV-E (de entrada de slidos voltiles supended a planta) 8
SED-E (sedimentos de entrada a la planta) 9 COND-E (conductividad de entrada para
sembrar) 10 PH-P (pH de entrada al sedimentador primario) 11 DBO-P (entrada de
demanda biolgica de oxgeno al sedimentador primario) 12 SS-P (entrada de slidos en
suspensin al sedimentador primario) 13 SSV-P (entrada de slidos voltiles supended
a sedimentador primario) 14 SED-P (sedimentos de entrada al sedimentador
primario) 15 COND-P (conductividad de entrada al sedimentador primario) 16 PH-D (pH
de entrada al decantador secundario) 17 DBO-D (entrada de demanda biolgica de
oxgeno al decantador secundario) 18 DQO-D (demanda qumica de entrada de oxgeno
al decantador secundario) 19 SS-D (entrada de slidos en suspensin al decantador
secundario) 20 SSV-D (de entrada de slidos voltiles supended a decantador
secundario) 21 SED-D (sedimentos de entrada al decantador secundario)22 COND-D
(conductividad de entrada al decantador secundario) 23 PH-S (pH salida) 24 DBO-S
(salida de la demanda biolgica de oxgeno) 25-S DQO (demanda qumica de la
produccin de oxgeno) 26 SS-S (salida de slidos en suspensin) 27 SSV-S (salida de
slidos voltiles supended) 28 SED-S (sedimentos de salida) 29 COND-S (conductividad
de salida) 30 RD-DBO-P (entrada comportamiento de la demanda biolgica de oxgeno
en sedimentador primario) 31 RD-SS-P (entrada desempeo slidos en suspensin al
sedimentador primario) 32 RD-SED-P (sedimentos de entrada desempeo a
sedimentador primario) 33 RD-DBO-S (entrada comportamiento de la demanda
biolgica de oxgeno al decantador secundario) 34 RD-DQO-S (demanda qumica de
entrada desempeo de oxgeno a secundaria colono) 35 RD-DBO-G (entrada de
performance global de la demanda biolgica de oxgeno) 36 RD-DQO-G (rendimiento
global de la demanda qumica de entrada de oxgeno) 37 RD-SS-G (entrada de slidos
en suspensin de rendimiento global) 38 RD-SED- G (sedimentos de entrada de
rendimiento global)

Documentos pertinentes:

J. De Gracia. `` Avaluaci de tecnicas de classificacio per a la gestio de Bioprocessos:


aplicaci un reactor sin dE colmillos activats'' Tesis de Maestra. Dept. de
Qumica. Unitat d'Enginyeria Qumica. Universitat Autnoma de Barcelona. Bellaterra
(Barcelona). 1993. J.Bejar, U. Cort \ 'es y M. Poch. "LINNEO +: Una Metodologa de
Clasificacin para dominios estructurados Ill'' Informe de investigacin RT-93-10-R Dept.
Llenguatges i Sistemes Informtica de Barcelona de 1993..... [Web Link] Ll Belanche, U.
de Corts y M. S. \ `anchez." Un sistema basado en el conocimiento para el diagnstico
de la planta de tratamiento de aguas residuales''. Actas de la conferencia internacional
quinto de aplicaciones industriales y de ingeniera de la IA y sistemas expertos IEA/AIE-
92. Ed. Springer-Verlag.Paderborn, Alemania, junio 92. [Web Link]

Cita de pedidos:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Generador de forma de onda de base de datos (versin 1) 1988-11-10
Conjunto de datos
Resumen dominios de forma de onda del carro del libro:
Conjunto de datos Multivariante, Nmero de
5000 rea: Fsico
Caractersticas: Data-Generator instancias:

Caractersticas del Nmero de Fecha 1988-


Real 21
atributo: atributos: Donado 11-10

Nmero de
Valores
Tareas asociadas: Clasificacin No Web 25621
perdidos?
Accesos:

Fuente:

Propietarios Original: . Breiman, L. Friedman, JH, Olshen, RA, y piedra, CJ (1984) Los
rboles de clasificacin y regresin. Wadsworth Internacional Grupo: Belmont,
California. . (Ver pginas 43-49) Donante: David Aja

Datos Conjunto de Informacin:

Notas:
- 3 clases de ondas
- 21 atributos, todos los cuales incluyen el ruido
- Ver el libro para obtener ms informacin (49-55, 169)
- waveform.data.Z contiene 5.000 casos

Atributo de la informacin:

- Cada clase se genera a partir de una combinacin de 2 de 3 ondas de "base"


- se genera Cada instancia f ruido aadido (media 0, varianza 1) en cada atributo
- Ver el libro para obtener ms informacin (49-55, 169)

Documentos pertinentes:

Leo Breiman, Jerome H. Friedman, Adam Olshen, Jonathan Stone. "Los rboles de
clasificacin y regresin." De 1984. [Web Link]

Documentos que citan este conjunto de datos 1 :

. Giorgio Valentini Random agregados y embolsados Conjuntos de SVM: un anlisis de


varianza emprica Blas? . Sistemas Clasificadores mltiples. 2004. [ Ver Contexto ]. Zhi-
Hua Zhou y WD Wei y Li Gang y Honghua Dai. del tamao del Conjunto de
Entrenamiento y el Beneficio de Ensemble . PAKDD. 2004. [ Ver Contexto ]. Giorgio
Valentini y Thomas G. Dietterich. Mquinas de Vectores Soporte embolsados sesgo
bajo . ICML. 2003. [ Ver Contexto ]. Joao Gama y Ricardo Rocha y Pedro
Medas. rboles de decisiones precisas para la minera de flujos de datos de alta
velocidad . KDD. 2003. [ Ver Contexto ]. Giorgio Valentini. mtodos Ensemble basados
en prejuicios - anlisis de varianza Tesis Series DISI-TH-2003 . Dipartimento di Scienze
e Informatica dell'Informazione. 2003. [ Ver Contexto]. Eibe Frank y Mark Hall y
Bernhard Pfahringer. localmente ponderada Naive Bayes . UAI. 2003. [ Ver
Contexto ]. James Bailey y Thomas Manoukian y Kotagiri Ramamohanarao. Algoritmos
rpidos para Minera patrones emergentes . PKDD. 2002. [ Ver Contexto ]. S.Sathiya
Keerthi y Kaibo Duan y Shirish Krishnaj Shevade y Aun Neow Poo. Un Algoritmo Dual
Fast para Kernel de regresin logstica . ICML. 2002. [ Ver Contexto ]. Juan J. Rodr guez
# # y Carlos J. Alonso. Aplicacin de Impulso a la similitud literales para Time
Clasificacin Series . Departamento de Informtica de la Universidad de Valladolid,
Espaa. 2000. [ Ver Contexto ]. Juan J Rodrguez Diez y Carlos Alonso Gonzlez y
Henrik Bostrm. Clasificadores de Aprendizaje lgica de primer orden de series
temporales: Reglas y Impulsar . PKDD. 2000. [ Ver Contexto ]. Juan J. Rodr guez # # y
Carlos J. Alonso y Henrik Bostrom. Impulsar basada en intervalos literales . 2000. [ Ver
Contexto ]. . Beda Liu y Mingzeng Hu y Wynne Hsu organizacin multinivel y resumen
de las reglas descubiertas .KDD. 2000. [ Ver Contexto ]. Thomas G. Dietterich. Una
Comparacin experimental de tres mtodos para construir Conjuntos de rboles de
decisin: El embolsado, Impulsar y aleatorizacin . Aprendizaje Automtico,
40. 2000. [ Ver Contexto ]. Kai Ming Ting y Ian H. Witten. Problemas en Stacked
Generalizacin . J. Artif. Intell. Res.. (JAIR, 10 de 1999 [.. Ver Contexto ]. Khaled A.
Alsabti y Sanjay Ranka y Vineet Singh. NUBES: Un rbol de decisin clasificador para
grandes conjuntos de datos ... KDD 1998 [ Ver Contexto .] Kai Ming Ting y Boon Toh
baja. Combinacin de modelo en el Multiple-Data-Lotes Escenario .. ECML 1997. [ Ver
Contexto ]. Nir Friedman y Moiss Goldszmidt. discretizar atributos continuos mientras
aprenden redes bayesianas .. ICML 1996. [ Ver Contexto ]. Ron Kohavi.Ampliar los
efectivos Precisin de Naive-Bayes clasificadores: Un hbrido de rbol de decisiones ...
KDD 1996 [ Ver Contexto .] . Tapio Elomaa y Juho Rousu Encontrar Optimal Multi-Splits
para Numerical Atributos en la Decisin Learning Tree grupo de trabajo ESPRIT en
Neural y Computacional Learning 1996.. . [ Ver Contexto .] . Dietrich Wettschereck y
David W. Aha Caractersticas de ponderacin ... ICCBR 1995 [ Ver Contexto .] . Kai
Ming Ting y Boon Toh Baja Teora de combinacin: una alternativa a la combinacin de
datos de la Universidad de Waikato [.. Ver Contexto ]. Matthias Scherf y W.
Brauer. Seleccin de caractersticas por medio de un enfoque de funciones de
ponderacin . GSF - Centro Nacional de Investigacin del Medio Ambiente y de la
Salud. [ Ver Contexto ]. Zhi-Hua Zhou y Xu Ying Liu. Entrenamiento de coste razonable
para redes neuronales con los mtodos de abordar el problema del desequilibrio de
clase . [ Ver Contexto ]. Giorgio Valentini. Un sesgo experimental - anlisis de la
varianza de los conjuntos SVM basado en tcnicas de remuestreo . [ Ver
Contexto ]. Juan J. Rodr guez y Diez y Carlos J. Alonso. Learning Clasificacin RBF
Redes de Impulso . Lenguajes y Sistemas Inform # aticos. [ Ver Contexto ]. Zoran
Obradovic y Slobodan Vucetic. Desafos en Scientific Data Mining: muestras
heterogneas, sesgadas, y grandes . Centro de Informacin de Ciencia y Tecnologa de
la Universidad de Temple. [ Ver Contexto ]. Carlos J. Alonso Gonzlez y Juan J. Rodr
iguez y Diez. Tiempo Clasificacin Series by Impulsar basada en intervalos
literales . Grupo de Sistemas Inteligentes Departamento de Informatica de la
Universidad de Valladolid. [ Ver Contexto ]. Juan J. Rodr guez # # y Carlos J. Alonso y
Henrik Bostrom. aprendizaje de primer orden Lgica Series de tiempo Clasificadores:
Reglas y Impulsar . Grupo de Sistemas Inteligentes, Departamento de Inform atica #
Universidad de Valladolid, Espaa. [ Ver Contexto .] . Kai Ming Ting y Ian H.
Witten Generalizacin Stacked: cuando funciona . Departamento de Informtica
Universidad de Waikato. [ Ver Contexto ]. Amund Tveit. emprico comparativo de
precisin y rendimiento para el clasificador MIPSVM con clasificadores
existentes . Divisin de Intelligent Departamento de Informtica y Ciencias de la
Informacin de la Universidad Noruega de Ciencia y Tecnologa de Sistemas. [ Ver
Contexto ]. Vikas Sindhwani y P. Bhattacharya y Subrata Rakshit. teora de la
informacin de funciones de acreditacin en Mquinas de Vectores Soporte
multiclase . [ Ver Contexto ]. Mohammed Waleed Kadous. Expandir el Alcance del
concepto de aprendizaje utilizando Metafeatures. Facultad de Ciencias de la
Computacin e Ingeniera de la Universidad de Nueva Gales del Sur. [ Ver
Contexto ]. Thomas T. Osugi y MS BASADO EN LA EXPLORACIN DE APRENDIZAJE
MQUINA ACTIVE . Facultad de El Colegio de Graduados de la Universidad de
Nebraska en cumplimiento parcial de los requisitos. [ Ver Contexto ]. Pierre
Geurts. rboles extremadamente aleatorios . Informe tcnico 06 2003 Universidad de Li
# Departamento de Ingeniera Elctrica y Ciencias de la Computacin Institut Monte #
mineral ege. [Ver Contexto ]. Iaki Inza y Pedro Larraaga y Ramn Etxeberria y Basilio
Sierra. funcin de seleccin de subconjuntos de redes bayesianas optimizacin
basada . Departamento de Ciencias de la Computacin e Inteligencia
Artificial. Universidad del Pas Vasco. [ Ver Contexto ]

Cita de pedidos:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Generador de forma de onda de base de datos (versin 2) 1988-11-10
Conjunto de datos
Resumen: dominios de forma de onda del carro del libro:
Conjunto de datos Multivariante, Nmero de
5000 rea: Fsico
Caractersticas: Data-Generator instancias:

Caractersticas del Nmero de Fecha 1988-


Real 40
atributo: atributos: Donado 11-10

Nmero de
Valores
Tareas asociadas: Clasificacin No Web 20408
perdidos?
Accesos:

Fuente:

Propietarios Original: . Breiman, L. Friedman, JH, Olshen, RA, y piedra, CJ (1984) Los
rboles de clasificacin y regresin. Wadsworth Internacional Grupo: Belmont,
California. . (Ver pginas 43-49) Donante: David Aja

Datos Conjunto de Informacin:

Notas:
- 3 clases de ondas
- 40 atributos, todos los cuales incluyen el ruido
- Los ltimos 19 atributos son todos los atributos de ruido con media 0 y varianza 1
- Ver el libro para obtener ms informacin (49-55, 169)
- forma de onda-+ noise.data.Z contiene 5.000 casos

Atributo de la informacin:

- Cada clase se genera a partir de una combinacin de 2 de 3 ondas de "base"


- se genera Cada instancia f ruido aadido (media 0, varianza 1) en cada atributo
- Ver el libro para obtener ms informacin (49-55, 169)

Documentos pertinentes:

Leo Breiman, Jerome H. Friedman, Adam Olshen, Jonathan Stone. "Los rboles de
clasificacin y regresin." De 1984. [Web Link]

Documentos que citan este conjunto de datos 1 :

. Giorgio Valentini Random agregados y embolsados Conjuntos de SVM: un anlisis de


varianza emprica Blas? . Sistemas Clasificadores mltiples. 2004. [ Ver Contexto ]. Zhi-
Hua Zhou y WD Wei y Li Gang y Honghua Dai. del tamao del Conjunto de
Entrenamiento y el Beneficio de Ensemble . PAKDD. 2004. [ Ver Contexto ]. Giorgio
Valentini y Thomas G. Dietterich. Mquinas de Vectores Soporte embolsados sesgo
bajo . ICML. 2003. [ Ver Contexto ]. Joao Gama y Ricardo Rocha y Pedro
Medas. rboles de decisiones precisas para la minera de flujos de datos de alta
velocidad . KDD. 2003. [ Ver Contexto ]. Giorgio Valentini. mtodos Ensemble basados
en prejuicios - anlisis de varianza Tesis Series DISI-TH-2003 . Dipartimento di Scienze
e Informatica dell'Informazione. 2003. [ Ver Contexto]. Eibe Frank y Mark Hall y
Bernhard Pfahringer. localmente ponderada Naive Bayes . UAI. 2003. [ Ver
Contexto ]. James Bailey y Thomas Manoukian y Kotagiri Ramamohanarao. Algoritmos
rpidos para Minera patrones emergentes . PKDD. 2002. [ Ver Contexto ]. S.Sathiya
Keerthi y Kaibo Duan y Shirish Krishnaj Shevade y Aun Neow Poo. Un Algoritmo Dual
Fast para Kernel de regresin logstica . ICML. 2002. [ Ver Contexto ]. Juan J. Rodr guez
# # y Carlos J. Alonso. Aplicacin de Impulso a la similitud literales para Time
Clasificacin Series . Departamento de Informtica de la Universidad de Valladolid,
Espaa. 2000. [ Ver Contexto ]. Juan J Rodrguez Diez y Carlos Alonso Gonzlez y
Henrik Bostrm. Clasificadores de Aprendizaje lgica de primer orden de series
temporales: Reglas y Impulsar . PKDD. 2000. [ Ver Contexto ]. Juan J. Rodr guez # # y
Carlos J. Alonso y Henrik Bostrom. Impulsar basada en intervalos literales . 2000. [ Ver
Contexto ]. . Beda Liu y Mingzeng Hu y Wynne Hsu organizacin multinivel y resumen
de las reglas descubiertas .KDD. 2000. [ Ver Contexto ]. Thomas G. Dietterich. Una
Comparacin experimental de tres mtodos para construir Conjuntos de rboles de
decisin: El embolsado, Impulsar y aleatorizacin . Aprendizaje Automtico,
40. 2000. [ Ver Contexto ]. Kai Ming Ting y Ian H. Witten. Problemas en Stacked
Generalizacin . J. Artif. Intell. Res.. (JAIR, 10 de 1999 [.. Ver Contexto ]. Khaled A.
Alsabti y Sanjay Ranka y Vineet Singh. NUBES: Un rbol de decisin clasificador para
grandes conjuntos de datos ... KDD 1998 [ Ver Contexto .] Kai Ming Ting y Boon Toh
baja. Combinacin de modelo en el Multiple-Data-Lotes Escenario .. ECML 1997. [ Ver
Contexto ]. Nir Friedman y Moiss Goldszmidt. discretizar atributos continuos mientras
aprenden redes bayesianas .. ICML 1996. [ Ver Contexto ]. Ron Kohavi.Ampliar los
efectivos Precisin de Naive-Bayes clasificadores: Un hbrido de rbol de decisiones ...
KDD 1996 [ Ver Contexto .] . Tapio Elomaa y Juho Rousu Encontrar Optimal Multi-Splits
para Numerical Atributos en la Decisin Learning Tree grupo de trabajo ESPRIT en
Neural y Computacional Learning 1996.. . [ Ver Contexto .] . Dietrich Wettschereck y
David W. Aha Caractersticas de ponderacin ... ICCBR 1995 [ Ver Contexto .] . Kai
Ming Ting y Boon Toh Baja Teora de combinacin: una alternativa a la combinacin de
datos de la Universidad de Waikato [.. Ver Contexto ]. Matthias Scherf y W.
Brauer. Seleccin de caractersticas por medio de un enfoque de funciones de
ponderacin . GSF - Centro Nacional de Investigacin del Medio Ambiente y de la
Salud. [ Ver Contexto ]. Zhi-Hua Zhou y Xu Ying Liu. Entrenamiento de coste razonable
para redes neuronales con los mtodos de abordar el problema del desequilibrio de
clase . [ Ver Contexto ]. Giorgio Valentini. Un sesgo experimental - anlisis de la
varianza de los conjuntos SVM basado en tcnicas de remuestreo . [ Ver
Contexto ]. Juan J. Rodr guez y Diez y Carlos J. Alonso. Learning Clasificacin RBF
Redes de Impulso . Lenguajes y Sistemas Inform # aticos. [ Ver Contexto ]. Zoran
Obradovic y Slobodan Vucetic. Desafos en Scientific Data Mining: muestras
heterogneas, sesgadas, y grandes . Centro de Informacin de Ciencia y Tecnologa de
la Universidad de Temple. [ Ver Contexto ]. Carlos J. Alonso Gonzlez y Juan J. Rodr
iguez y Diez. Tiempo Clasificacin Series by Impulsar basada en intervalos
literales . Grupo de Sistemas Inteligentes Departamento de Informatica de la
Universidad de Valladolid. [ Ver Contexto ]. Juan J. Rodr guez # # y Carlos J. Alonso y
Henrik Bostrom. aprendizaje de primer orden Lgica Series de tiempo Clasificadores:
Reglas y Impulsar . Grupo de Sistemas Inteligentes, Departamento de Inform atica #
Universidad de Valladolid, Espaa. [ Ver Contexto .] . Kai Ming Ting y Ian H.
Witten Generalizacin Stacked: cuando funciona . Departamento de Informtica
Universidad de Waikato. [ Ver Contexto ]. Amund Tveit. emprico comparativo de
precisin y rendimiento para el clasificador MIPSVM con clasificadores
existentes . Divisin de Intelligent Departamento de Informtica y Ciencias de la
Informacin de la Universidad Noruega de Ciencia y Tecnologa de Sistemas. [ Ver
Contexto ]. Vikas Sindhwani y P. Bhattacharya y Subrata Rakshit. teora de la
informacin de funciones de acreditacin en Mquinas de Vectores Soporte
multiclase . [ Ver Contexto ]. Mohammed Waleed Kadous. Expandir el Alcance del
concepto de aprendizaje utilizando Metafeatures. Facultad de Ciencias de la
Computacin e Ingeniera de la Universidad de Nueva Gales del Sur. [ Ver
Contexto ]. Thomas T. Osugi y MS BASADO EN LA EXPLORACIN DE APRENDIZAJE
MQUINA ACTIVE . Facultad de El Colegio de Graduados de la Universidad de
Nebraska en cumplimiento parcial de los requisitos. [ Ver Contexto ]. Pierre
Geurts. rboles extremadamente aleatorios . Informe tcnico 06 2003 Universidad de Li
# Departamento de Ingeniera Elctrica y Ciencias de la Computacin Institut Monte #
mineral ege. [Ver Contexto ]. Iaki Inza y Pedro Larraaga y Ramn Etxeberria y Basilio
Sierra. funcin de seleccin de subconjuntos de redes bayesianas optimizacin
basada . Departamento de Ciencias de la Computacin e Inteligencia
Artificial. Universidad del Pas Vasco. [ Ver Contexto ].

Cita de pedidos:

Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Wearable Computing: Clasificacin de las posturas del cuerpo y 09/04/2013
los movimientos (PUC-Rio) Conjunto de datos
Resumen: Un conjunto de datos con 5 clases (sentado-abajo, de pie plano, pie,
caminar y sentarse) recolectadas en 8 horas de actividades de 4 sujetos
sanos. Tambin establecimos un ndice de rendimiento de referencia.
Conjunto de
Nmero de
datos Secuencial 165632 rea: Ordenador
instancias:
Caractersticas:

Caractersticas Nmero de Fecha


Entero, real 18 09/04/2013
del atributo: atributos: Donado

Nmero
Valores
Tareas asociadas: Clasificacin N/A de Web 5804
perdidos?
Accesos:

Fuente:

Pontificia Universidad Catlica de Ro de Janeiro (PUC-Rio)


Grupo de investigacin: Groupware @ LES
Contacto: wugulino '@' inf.puc-rio.br
http://groupware.les.inf.puc-rio.br/har

Datos Conjunto de Informacin:

IMPORTANTE: tenemos un menor rendimiento en las pruebas de 'licencia-un-sujeto-


hacia fuera'. El ndice de referencia de rendimiento que establecimos es que de 10
veces las pruebas de validacin cruzada. Por lo tanto, hay mucho ms espacio para la
optimizacin en sujetos pruebas independientes. Si necesita ms informacin, por favor
envenos un e-mail. Licencias: Usted es libre de utilizar este conjunto de datos para
cualquier propsito. Este conjunto de datos est disponible bajo la licencia Creative
Commons (CC BY-SA). El CC BY-SA significa que usted puede entremezclar, ajustar y
ampliar este trabajo, incluso para fines comerciales, siempre y cuando se le d crdito a
los autores de la obra original y que la licencia de sus nuevas creaciones bajo los
mismos trminos que obtiene licencia para usted. Esta licencia es a menudo comparado
con las licencias de software de cdigo libre y abierto 'copyleft'. Todas las nuevas obras
basadas en este conjunto de datos llevarn la misma licencia, por lo que cualquier
derivado tambin permitirn el uso comercial.

Atributo de la informacin:

La informacin detallada en: [Web Link]


usuario (texto)
gnero (texto)
edad (entero)
how_tall_in_meters (real)
de peso (int)
body_mass_index (real)
x1 (tipo int, contiene el valor de lectura del eje 'x' de la primera acelermetro, montado
en la cintura)
y1 (tipo int, contiene el valor de lectura del eje 'y' de la primera acelermetro, montado
en la cintura)
z1 (tipo int, contiene el valor ledo del eje 'z' de la primera acelermetro, montado en la
cintura)
x2 (tipo int, contiene el valor de lectura del eje 'x' del segundo acelermetro montado en
el muslo izquierdo)
y2 (tipo int, contiene el valor de lectura del eje 'y' del segundo acelermetro, montado en
el muslo izquierdo)
z2 (tipo int, contiene el valor de lectura del eje 'z' del segundo acelermetro montado en
el muslo izquierdo)
x3 (tipo int, contiene el valor ledo del eje 'x' de la tercera acelermetro, montado en el
tobillo derecho)
y3 (tipo int, contiene el valor de lectura del eje 'y' de la tercera acelermetro montado en
el tobillo derecho)
z3 (tipo int, contiene el valor ledo del eje 'z' de la tercera acelermetro montado en el
tobillo derecho)
x4 (tipo int, contiene el valor de lectura del eje 'x' de la cuarta acelermetro, montado en
la parte superior del brazo) derecho
y4 (tipo int, contiene el valor ledo del eje 'y' de la cuarta acelermetro, montado en la
parte superior del brazo) derecho
z4 (tipo int, contiene el valor de lectura del eje 'z' de la cuarta acelermetro, montado en
la parte superior del brazo derecho)

Documentos pertinentes:

Ugulino, W.; Cardador, D.; Vega, K.; Velloso, E.; MILIDIU, R.; Fuks, H. Wearable
Computing: Clasificacin de Datos de posturas corporales y movimientos
acelermetros. Actas del Simposio Brasileo 21a en Inteligencia Artificial. Los avances
en inteligencia artificial - EISB 2012. En: Lecture Notes in Computer Science. , Pp 52-
61. Curitiba, PR: Springer Berlin / Heidelberg, 2012. ISBN 978-3-642-34458-9. DOI:
10.1007/978-3-642-34459-6_6.
Disponible en: [Web Link]

Cita de pedidos:

Si utiliza este conjunto de datos, por favor, cite el documento anterior (Wearable
Computing: Clasificacin de Datos Acelermetros "de las posturas del cuerpo y
movimientos). Tambin podemos ofrecer ms informacin si usted necesita, apenas nos
cae una lnea (wugulino 'a' "punto" PUC-Rio "punto" inf ancho).

You might also like