Datasets UCI-Descripcion de Archivos

RESMENES DE DATASETS
REPOSITORIO DE LA UCI
UNIDAD ACADMICA DE CIENCIAS Y

TECNOLOGAS DE LA INFORMACIN
PROFESOR: M.C. ARTURO DE LEN CHAPA

GRUPO: 601
ACAPULCO, GRO., A 09 DE ABRIL DE 2014

Red Vial 3D (Jutlandia del Norte, Dinamarca) Conjunto de datos
Resumen : la red de carreteras en 3D con informacin muy precisa elevacin (+-20cm) de
Dinamarca usado en algoritmos eco-enrutamiento y enrutamiento fuel/Co2-estimation.
Conjunto de datos Secuencial, Nmero de

434874 rea: Ordenador
Caractersticas: Texto instancias:
Caractersticas del Nmero de Fecha

Real 4 16/04/2013
atributo: atributos: Donado
Nmero de
Regresin, Valores
Tareas asociadas: N/A Web 11743
Clustering perdidos?
Accesos:
Fuente:
Manohar Kaul, Departamento de Ciencias de la Computacin de la Universidad de Aarhus,
Dinamarca ( mkaul '@' cs.au.dk )
Datos Conjunto de Informacin:

Este conjunto de datos se calcul aadiendo informacin de elevacin a una red de carreteras en
2D en el norte de Jutlandia, Dinamarca (que cubre una regin de 185 x 135 kilometros ^ 2). Los
valores de elevacin donde extraen de una disposicin del pblico masivo Nube Laser Scan Point
para Dinamarca (disponible en: [Web Link] (Bottom-ms conjunto de datos)). Esta red de carreteras
en 3D lleg a ser utilizado para la evaluacin comparativa varios algoritmos de estimacin de
combustible y CO2. Este conjunto de datos puede ser utilizado por todas las aplicaciones que
requieren saber muy
informacin de elevacin precisa de una red de carreteras para realizar el enrutamiento ms
precisa para el eco-rutas, rutas ciclistas, etc Para la comunidad de minera de datos y aprendizaje
automtico, este conjunto de datos se puede utilizar como ' realidad sobre el terreno de validacin
"en tcnicas de minera espaciales y procesamiento de imgenes de satlite. No tiene ninguna
clase de etiquetas, pero se puede utilizar en el aprendizaje no supervisado y regresin de adivinar
alguna informacin de elevacin que falta para algunos puntos en el camino.
El trabajo fue apoyado por el proyecto de Reduccin que es financiado por la Comisin Europea
como FP7-ICT-2011- 7 PEIF proyecto nmero 288254.
Atributo de la informacin:
1. OSM_ID: ID OpenStreetMap para cada segmento de carretera o borde en el grfico.
2. LONGITUD: Web Mercaptor (formato de Google) de longitud
3. LATITUD: Web Mercaptor (formato de Google) latitud
4. ALTITUD:. Altura en metros Nota: OSM_ID es el identificador asignado por OpenStreetMaps
( [Web de enlace] ) para los segmentos de carretera. Cada (largo, lat, altitud) apuntan en un
segmento de carretera (con ID nico OSM) se ordena en el mismo orden en que aparecen en el
camino. As que una polilnea 3D se puede dibujar uniendo los puntos de cada fila para cada
segmento de carretera OSM_ID.
Documentos pertinentes:
[1] Chenjuan Guo Yu Ma, Bin Yang, Christian S. Jensen, Manohar Kaul: EcoMark: evaluacin de
modelos de impacto ambiental vehicular. SIGSPATIAL / GIS 2012: 269-278
Cita de pedidos:
El uso de este conjunto de datos en las publicaciones debe ser reconocido por referencia a la
siguiente publicacin: Construyendo Redes espaciales precisos en 3D para permitir a la prxima
generacin de sistemas de transporte inteligentes (Aceptado y que se publicar en junio) Actas de
la Conferencia Internacional sobre la Gestin de Datos Mviles (IEEE MDM), junio 3-6 de 2013,
Miln, Italia
Abuln Data Set

Resumen : Predecir la edad de abuln de las mediciones fsicas
Conjunto de datos Nmero de

Multivariante 4177 rea: Vida
Caractersticas: instancias:
Caractersticas del Categrico, Nmero de Fecha 1995-

8
atributo: entero, real atributos: Donado 12-01
Nmero de
Valores
Tareas asociadas: Clasificacin No Web 213047
perdidos?
Accesos:
Fuente:
Los datos provienen de un estudio original (no-mquina-learning):
Warwick J Nash, Tracy L Sellers, Simon R Talbot, Andrew J Cawthorn y Wes B Ford (1994)
. "La Biologa de Poblacin de Abuln (especie _Haliotis_) en Tasmania I . Blacklip Abuln (rubra_
_H.) de la Costa Norte y las Islas del Estrecho de Bass ",
Divisin de Pesca Martima, el Informe Tcnico N 48 (ISSN 1034-3288) Los propietarios
originales de base de datos: Recursos Marinos Divisin Marine Research Laboratories -
Taroona Departamento de Primaria Industria y Pesca, Tasmania GPO Box 619F, Hobart, Tasmania
7001, Australia (contacto: Warwick Nash +61 02 277277, wnash '@' dpi.tas.gov.au ) Donantes de
base de datos: Sam Waugh ( Sam.Waugh '@' cs.utas.edu.au )Departamento de Ciencias de la
Computacin de la Universidad de Tasmania GPO Box 252C, Hobart, Tasmania 7001, Australia

La prediccin de la edad de abuln de las mediciones fsicas. La edad de orejas de mar se
determina mediante la reduccin de la carcasa a travs del cono, la tincin, y contando el nmero
de anillos a travs de un microscopio - una tarea aburrida y consume mucho tiempo. Otras
medidas, que son ms fciles de obtener, se utilizan para predecir la edad. Para ms informacin,
por ejemplo, los patrones climticos y la ubicacin (por lo tanto la disponibilidad de alimentos)
puede ser necesaria para resolver el problema. A partir de los ejemplos de datos originales se
retiraron con valores perdidos (la mayora con los desaparecidos valor predicho), y los rangos de
los valores continuos tener sido escalado para uso con una RNA (dividiendo por 200).
Teniendo en cuenta es el nombre del atributo, el tipo, la unidad de medida y una breve descripcin
de atributos. El nmero de anillos es el valor de predecir:. Sea como un valor continuo o como un
problema de clasificacinNombre / Tipo de datos / unidad de medida / Descripcin -------------------- -
-------- Sexo / nominal / - / M, F y I (beb) Longitud / continua / mm / shell Mayor medicin Dimetro
/ continua / mm / perpendicular a la longitud de la altura / continua / mm / con carne en shell Peso
entero / / g / conjunto de abuln continua sin concha: peso / / g / peso continuo de carne
de vsceras peso / peso continua / gramos / intestino (despus de la hemorragia) peso Shell /
continua / gramos / despus de ser secado Anillos / entero / - - / 1.5 da la edad en aos El archivo
Lame contiene estadsticas de atributos.
Sam Waugh (1995) "La extensin y la evaluacin comparativa de Cascade-Correlacin", tesis de
doctorado, Departamento de Informtica de la Universidad de Tasmania. [Web Link] David Clark,
Zoltan Schreter, Anthony Adams "Comparacin cuantitativa de Dystal y backpropagation",
presentado a la Conferencia australiana sobre Redes Neuronales (ACNN'96).
cido abscsico sealizacin del conjunto de datos de red
Resumen : El objetivo es determinar el conjunto de reglas booleanas que describen las
interacciones de los nodos de esta red de sealizacin de la planta. El conjunto de datos incluye
300 simulaciones pseudodynamic booleanas separadas utilizando un esquema de actualizacin
asncrona.

Caractersticas del Nmero de 2008-

Entero 43 Fecha Donado
atributo: atributos: 04-03
Causal- Valores N/ Nmero de

Tareas asociadas: 23029
Discovery perdidos? A Web Accesos:
Fuente:
Jerry W. Jenkins, Ph.D.
Biologa de Sistemas y Bioinformations Group
CFD Research Corporation
215 Wynn Drive
Huntsville, AL 35805
email: TcJ '@' cfdrc.com
Abhishek Soni, de doctorado

de Biologa de Sistemas y Bioinformations Group
CFD Research Corporation
215 Wynn Drive
Huntsville, AL 35805
email: AXS '@' cfdrc.com
El objetivo es determinar el conjunto de reglas booleanas que describen las interacciones de los
nodos dentro de esta red de sealizacin de la planta. El conjunto de datos incluye 300
simulaciones pseudodynamic booleanas separadas de las reglas verdaderas, utilizando un
esquema de actualizacin asncrona. Cada una de las 300 simulaciones comienzan con una
condicin inicial generado al azar, con el fin de garantizar un muestreo de todos los estados
estacionarios del sistema. Hay un total de 43 nodos en este conjunto de datos, con 5 nno ser
constantes. Los resultados de 300 simulaciones independientes se incluyen en el conjunto de
datos. Cada simulacin consiste en una matriz de 0 y de 1 de, con 21 filas y 43 columnas. La
primera fila es la condicin inicial generado aleatoriamente para la simulacin en particular, con los
prximos 20 filas siendo la salida de la simulacin pseudodynamics booleanos. Cada una de las 43
columnas representan la respuesta transitoria de un nodo particular. Los nombres nodales se
identifican en la parte superior del archivo de datos. Una lnea de asteriscos se utiliza para separar
las simulaciones el uno del otro. Un ejemplo conjunto de datos se incluyen
Actividades de la Vida Diaria (AVD) Reconocimiento Utilizando Sensores

Binary Data Set
Resumen : Este conjunto de datos incluye informacin sobre las actividades cotidianas
realizadas por dos usuarios a diario en sus propios hogares.
Multivariante,
Secuencial, 2747 rea: Ordenador
Time-Series

N/A N/A 10/28/2013
Nmero de
Clasificacin, Valores
Accesos:
Fuente:
Francisco Javier Orda ez, Universidad Carlos III de Madrid, fordonez '@' inf.uc3m.es

Este conjunto de datos incluye informacin sobre las actividades cotidianas realizadas por dos
usuarios a diario en sus
propios hogares. Este conjunto de datos se compone de dos instancias de datos, cada uno
correspondiente a un diferente
usuario y sumando hasta 35 das de datos correctamente rotulados. Cada instancia del conjunto de
datos se describe mediante
tres archivos de texto, a saber:. descripcin, eventos sensores (caractersticas), actividades de la
vida diaria (las etiquetas)
eventos del sensor se registraron utilizando una red de sensores inalmbricos y los datos fueron
etiquetados manualmente.
Las caractersticas son los eventos de sensor capturados por la red de sensores inalmbrica
correspondiente.
N/A
Cita de pedidos:
Orda ez, FJ; de Toledo, P.; Sanchis, A. Actividad Reconocimiento Usando hbridos
generativos / Modelos discriminativas en Inicio entornos utilizando binarios Sensores. Sensores de
2013, 13, 5460 a 5477
Actividad Reconocimiento de Single Chest-Mounted Acelermetro Data
Set
Resumen : El conjunto de datos recoge datos a partir de un acelermetro porttil montado en el
pecho. El conjunto de datos est prevista para fines de investigacin de reconocimiento de la
actividad.
Univariante, N
Secuencial, Time- / rea: N/A
Series A
N
Real / 02/03/2014
A
N Nmero de
Tareas asociadas: / Web 593
A Accesos:
Fuente:
Sin calibrar datos del acelermetro se recogen de 15 Participantes que realizan 7 actividades. El
conjunto de datos proporciona desafos para la identificacin y autenticacin de personas que
utilizan los patrones de movimiento.

--- El conjunto de datos recoge datos de un acelermetro porttil montado en el pecho
--- Frecuencia de muestreo del acelermetro: 52 Hz
--- Acelermetro datos son sRGB
--- Nmero de participantes: 15
--- Nmero de Actividades: 7
- - Formato de datos: CSV
--- Los datos estn separados por participante
--- Cada archivo contiene la siguiente informacin
---- nmero secuencial, x aceleracin, la aceleracin y la aceleracin z, etiqueta
--- Las etiquetas estn codificadas por nmeros
--- 1: Trabajo en el ordenador
--- 2: de pie, caminar y el ir escaleras UpDown
--- 3: De pie
--- 4: Caminar
--- 5: Going UpDown Escaleras
--- 6: caminar y hablar con alguien
--- 7: mientras se habla De pie
--- Casale, P. Pujol, O. y Radeva, P.
'BeaStreamer-v0.1: una nueva plataforma para mltiples sensores de adquisicin de datos en
aplicaciones Wearable Computing',
CVCRD09, ISBN: 978-84-937261-1 - 9, 2009
disponible en [Web Link]

'Human reconocimiento actividad a partir de datos del acelermetro utilizando un dispositivo porttil
",
IbPRIA'11, 289-296, Springer-Verlag, 2011

"La personalizacin y verificacin del usuario en sistemas porttiles que utilizan los patrones de
caminar biomtricos '
Personal y Computacin Ubicua, 16 (5), 563-580, 2012
Cita de pedidos:
Casale, P. Pujol, O. y Radeva, P.
"La personalizacin y verificacin del usuario en sistemas porttiles que utilizan los patrones de
caminar biomtricos '
Conjunto de datos inflamaciones agudas
Resumen : Los datos fue creada por un experto mdico como un conjunto de datos para poner a
prueba el sistema experto, que llevar a cabo el diagnstico presuntivo de dos enfermedades del
sistema urinario.

Caractersticas del Categrico, Nmero de 2009-

6 Fecha Donado
atributo: Integer atributos: 02-11
Valores Nmero de
Tareas asociadas: Clasificacin No 49522
perdidos? Web Accesos:
Fuente:
Jacek Czerniak, Ph.D., profesor adjunto
del Instituto de Investigacin de Sistemas
de la Academia Polaca de Ciencias
Laboratorio de Sistemas Inteligentes
ul. Newelska 6, Room 218
01-447 Warszawa, Polonia
e-mail: jacek.czerniak '@' ibspan.waw.pl o jczerniak '@' ukw.edu.pl

La idea principal de este conjunto de datos es preparar el algoritmo del sistema experto, que
llevar a cabo el diagnstico presuntivo de dos enfermedades del aparato urinario. Ser
el ejemplo de diagnstico de las inflamaciones agudas de la vejiga urinaria y agudas
nephritises. Para una mejor comprensin del problema vamos a considerar las definiciones de
ambas enfermedades dadas por los mdicos. La inflamacin aguda de la vejiga urinaria se
caracteriza
por la aparicin repentina de dolor en la regin del abdomen y el orinar en forma de
orina constante empujando, dolores de miccin ya veces la falta de mantenimiento de la orina.
Temperatura del cuerpo va en aumento, sin embargo, muy a menudo no por encima de 38C. La
excreta
la orina es turbia y, a veces con sangre. En el tratamiento adecuado, los sntomas generalmente se
desintegran
dentro de varios das. Sin embargo, existe la inclinacin a la rentabilidad. En las personas con
aguda
inflamacin de la vejiga urinaria, debemos esperar que la enfermedad se convierta en
forma prolongada. nefritis aguda de origen pelvis renal se produce mucho ms a menudo en las
mujeres que en los hombres. Comienza con fiebre repentina, que alcanza ya veces excede
40C. La fiebre se acompaa de escalofros y uno-o ambos-secundarios dolores lumbares, que a
veces son muy fuertes. Los sntomas de la inflamacin aguda de la vejiga urinaria aparecen muy a
menudo. Absolutamente no poca frecuencia hay nuseas y vmitos y se extendi dolores de todo
el abdomen. Los datos fue creada por un experto mdico como un conjunto de datos para poner a
prueba el sistema experto, que llevar a cabo el diagnstico presuntivo de dos enfermedades del
aparato urinario. La base para la deteccin de las reglas era Rough Sets Theory. Cada instancia
representa un paciente potencial. Los datos estn en un archivo ASCII. Los atributos estn
separados por TAB.Cada lnea del archivo de datos comienza con un dgito que indica la
temperatura del paciente. - lneas Categoras: Por ejemplo, '35, 9 no no s s s s no ' Donde: '35 9 '
Temperatura del paciente Ocurrencia 'no' de la nusea "no" dolor lumbar "s" Orina de empuje
(continua necesidad de orinar) 's' miccin dolores Burning 's' de la uretra, picor, hinchazn de la
salida de la uretra "s" decisin: Inflamacin de vejiga urinaria 'no' decisin: Nefritis de origen pelvis
a1 Temperatura del paciente {35C-42C}
a2 La aparicin de nuseas {s, no}
a3 dolor lumbar {s, no}
a4 orina empuje (continua necesidad de orinar) {s, no}
miccin a5 dolores {s, no}
a6 Ardientes de uretra, picor, hinchazn de la salida de la uretra {s, no}
decisin d1: Inflamacin de la vejiga urinaria {s, no}
decisin d2: Nefritis de origen pelvis renal {s, no}
J.Czerniak, H.Zarzycki, Aplicacin de los conjuntos aproximados en el diagnstico presuntivo de
las enfermedades del sistema urinario,
Artificial Inteligence y Seguridad en Sistemas de Informtica, ACS'2002 noveno actas de congresos
internacionales,
Kluwer Academic Publishers, 2003, pp 41-51
Cita de pedidos:
Para citar este artculo: J.Czerniak, H.Zarzycki, Aplicacin de los conjuntos aproximados en el
diagnstico presuntivo de las enfermedades del sistema urinario, Artificial Inteligence y Seguridad
en Sistemas de Informtica, ACS'2002 noveno Actas del Congreso Internacional, Kluwer Academic
Publishers, 2003, pp 41 - 51
Adultos Data Set
Resumen : Predecir si el ingreso es superior a $ 50K/yr basado en los datos del censo. Tambin
conocido como conjunto de datos "Resultado del Censo".

Multivariante 48842 rea: Social

14
atributo: Integer atributos: Donado 05-01
Nmero de
Valores
Tareas asociadas: Clasificacin S Web 383122
perdidos?
Accesos:
Fuente:
Donante: Ronny Kohavi y Barry Becker de minera de datos y visualizacin . Silicon Graphics e-
mail: ronnyk '@' live.com para preguntas.
La extraccin se realiza por Barry Becker, de la base de datos del Censo de 1994. Un conjunto de
registros razonablemente limpias fue extrado por medio de las siguientes condiciones: ((AAGE>
16) && (AGI> 100) && (AFNLWGT> 1) && (HRSWK> 0)) Prediccin tarea es determinar si una
persona hace ms de 50 mil al aos.
Listado de atributos: .> 50K, <= 50K edad:. continua workclass: Privada, Auto-emp-no-inc, Auto-
emp-inc, Federal-gov, Local-gov, Estado-gov, sin sueldo, nunca .-trabajado fnlwgt:
continuo. Diploma, Some-universidad, 11, HS-graduado, el profesor de la escuela, Assoc-ACDM,
Assoc-voc, 9, 7 -8 , 12 , Masters, primera a cuarta, dcima, Doctorado ., 5to-6to,
Preschool educacin-num:. continuo civil-Estado civil: Casado-civ-cnyuge, Divorciado, Nunca se
ha casado-, Separado, Viudo, Casado-cnyuge ausente, Casado-AF-cnyuge. ocupacin: Tech-
apoyo , para naves de reparacin, y de servicio, ventas,, Prof-especialidad, Manipuladores
limpiadores Exec-gerenciales, Machine-op-Inspct, Adm-clerical, Agricultura pesca, de transporte y
de movimiento, Priv-casa-serv, protector-serv , Fuerzas Armadas-. relacin: Esposa, propia e hijos,
marido, no-en-familia,-Otro pariente, soltera. raza: blanca, de Asia y el Pac-Islander, Amer-Indian-
esquimal, Otros, Negro. Sexo: Mujer ., Hombre de capital-ganancia:. continua prdida de capital:.
continua hora-por-semana:. continua nativo-Pas: Estados Unidos-, Camboya, Inglaterra, Puerto-
Rico, Canad, Alemania, Outlying-US (Guam-Islas Vrgenes -etc), India, Japn, Grecia, Sur, China,
Cuba, Irn, Honduras, Filipinas, Italia, Polonia, Jamaica, Vietnam, Mxico, Portugal, Irlanda,
Francia, Repblica Dominicana-, Laos, Ecuador, Taiwn, Hait, Columbia, Hungra, Guatemala,
Nicaragua, Escocia, Tailandia, Yugoslavia, El-Salvador, Trinadad y Tobago, Per, Hong, Holand-
Pases Bajos.
Ron Kohavi, "Ampliar los efectivos Precisin de Naive-Bayes clasificadores: un hbrido de rbol de
decisiones", Actas de la Segunda Conferencia Internacional de Descubrimiento de Conocimiento y
Minera de Datos, 1996 [Web Link]
Airfoil ruido propio conjunto de datos

Resumen : conjunto de datos de la NASA, que se obtiene a partir de una serie de pruebas
aerodinmicas y acsticas de dos secciones de la pala y de perfil aerodinmico tridimensionales
realizadas en un tnel de viento anecoica.

Multivariante 1503 rea: Fsico

Real 6 03/04/2014
Nmero de
Valores
Tareas asociadas: Regresin N/A Web 970
perdidos?
Accesos:
Fuente:
Proporcionar los nombres, direcciones de correo electrnico, instituciones y otros datos de contacto
de los donantes y los creadores de la serie de datos.
Donante:
Dr. Roberto Lpez robertolopez '@' intelnics.com Intelnics Creadores: Thomas F. Brooks, D. Stuart
Papa y Michael A . Marcolini NASA

El conjunto de datos de la NASA cuenta con diferentes perfiles aerodinmicos NACA tamao de
0012 a varias velocidades en tnel de viento y los ngulos de ataque. El lapso de la superficie de
sustentacin y la posicin del observador fueron los mismos en todos los experimentos.
Este problema tiene las siguientes entradas:
1. Frecuencia, en hertzs.
2. El ngulo de ataque, en grados.
3. Longitud de la cuerda, en metros.
4. Velocidad gratuito-stream, en metros por segundo.
5. . Espesor de desplazamiento lateral de aspiracin, en metros La nica salida es: 6. Scaled nivel
de presin acstica, en decibelios.
TF Brooks, DS Papa, y AM Marcolini.
Airfoil ruido propio y prediccin.
Memoria tcnica, la NASA RP-1218, julio de 1989. K. Lau. A neural enfoque de redes para la
prediccin del ruido aerodinmico. tesis s ster, Departamento de Aeronutica. Colegio Imperial
de Ciencia, Tecnologa y Medicina (Londres, Reino Unido), 2006. R. Lpez. Redes Neuronales
para los problemas variacionales en Ingeniera. Tesis doctoral, Universidad Politcnica de
Catalua, 2008.
Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin
Muestras Amazon Access Data Set
Resumen : InfoSec de Amazon se vuelven ms inteligentes acerca de la forma de datos de
Access est apalancada. Esta es una muestra annima de acceso provisionado en la empresa.
Conjunto de datos Time-Series, Nmero de

30000 rea: Negocios
Caractersticas: Domain-Theory instancias:
Caractersticas del Nmero de Fecha 2011-09-

N/A 20000
atributo: atributos: Donado 13
Regresin,
Nmero de
Clustering, Valores
causal- perdidos?
Accesos:
Discovery
Fuente:
Creador de conjunto de datos y donante: Ken Montaez email: kenmonta [at] cal.berkeley.edu
institucin: Seguridad de la Informacin, Amazon Corp.

Este es un conjunto de datos escasos, menos de 10% de los atributos se utilizan para cada
muestra. El vnculo es a un archivo '* tgz. ", Que contiene dos archivos:
[amzn-anon-access-muestras-2.0.csv] Este archivo contiene el acceso a los usuarios
[amzn-anon-access-muestras-historia-2.0.csv ] Este archivo contiene el historial de acceso de un
usuario determinado
_amzn-anon-access-muestras-2.0.csv__
trata de un conjunto de datos dispersos que contiene los usuarios y su acceso asignado. El archivo
contiene 4 categoras de atributos.
1) [PERSON_ {ATRIBUTO}] Esta categora describe el "usuario" que se le dio acceso. El
[PERSON_ID] columna es la columna de clave principal para el archivo. Hay una fila por cada
usuario.
PERSON_ID: id del usuario
PERSON_MGR_ID: Identificacin de administrador del usuario
PERSON_ROLLUP_1: agrupacin de usuarios Identificacin
PERSON_DEPTNAME: desciption departamento Identificacin
PERSON_LOCATION: ID de la regin
PERSON_BUSINESS_TITLE: ttulo de id
PERSON_BUSINESS_TITLE_DETAIL: Descripcin Identificacin
PERSON_JOB_CODE: Cdigo de Identificacin del Aviso
Identificacin compaa: PERSON_COMPANY
PERSON_JOB_FAMILY: id familia de puestos 2) [RESOURCE_ {ID}] Esta categora de atributos
son los recursos que un usuario puede posiblemente tener acceso. Un usuario tendr un 1 en esta
columna si el acceso a ella de lo contrario ser 0. 3) [GROUP_ {ID}] - Esta categora de atributos
son los grupos que un usuario puede posiblemente tener acceso. Un usuario tendr un 1 en esta
columna si el acceso a ella de lo contrario ser 0. 4) [SYSTEM_SUPPORT_ {ID}] - Esta categora
de atributos son el sistema que un usuario puede posiblemente apoyar. Un usuario tendr un 1 en
esta columna si el haber posiblemente puede ser que lo apoyan, de lo contrario ser 0. __amzn-
anon-access-muestras-historia-2.0.csv__ datos de series de tiempo Permisos. He aqu una breve
descripcin de las columnas: ACCIN: o 'remove_access' o 'add_access' target_name: o bien el
id_recurso {} o {} group_id LOGIN: el id del usuario que va a obtener o perder el
acceso REQUEST_DATE: AAAA-MM-DD HH: MM: SS AUTHORIZATION_DATE: AAAA-MM-DD
HH: MM: SS
N/A
Cita de pedidos:
Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine.
Amazon Commerce reseas establecen Data Set

Resumen : El conjunto de datos se utiliza para la identificacin de la autora en lnea Writeprint
que es un nuevo campo de investigacin de reconocimiento de patrones.
Multivariante,
Texto, Domain- 1500 rea: Fsico
Theory
Caractersticas del Nmero de Fecha 2011-

Real 10000
atributo: atributos: Donado 06-11
Nmero de
Valores
Tareas asociadas: Clasificacin N/A Web 43780
perdidos?
Accesos:
Fuente:
Creador de conjunto de datos y donante: ZhiLiu, e-mail: liuzhi8673 '@' gmail.com , institucin:
Centro de Investigacin de Ingeniera Nacional de E-Learning de Hubei, Wuhan, China

conjunto de datos se derivan de las revisiones customers en Amazon sitio Web de comercio
para la identificacin de la autora. La mayora de los estudios previos realizados los experimentos
de identificacin de dos a diez autores. Pero en el contexto en lnea, revisiones ser identificado por
lo general tienen ms autores potenciales, y normalmente algoritmos de clasificacin no se
adaptan a gran nmero de clases objetivo. Para examinar la robustez de los algoritmos de
clasificacin, se identificaron 50 de los usuarios ms activos (representados por un nico ID y
nombre de usuario) que frecuentemente publican comentarios en estos grupos de noticias. El
nmero de comentarios se recogieron para cada autor es de 30.
atribucin incluye 'estilo LINGSTICA, como el uso de dgitos, puntuacion, palabras y oraciones'
autores longitud y frecuencia de uso de las palabras y as sucesivamen
Sanya Liu, Liu Zhi, Jianwen Sun, Lin Liu, 'Aplicacin de Synergetic red neuronal en lnea Writeprint
Identificacin', JDCTA: Revista Internacional de la tecnologa digital de contenidos y sus
Aplicaciones, vol. 5, No. 3, pp 126 ~ 135, 2011
Jianwen Sun, Zongkai Yang, Wang Pei, Sanya Liu, 'Longitud de caracteres Enfoque N-Gram
variable para Online Writeprint Identificacin,' minas, pp.486-490, Conferencia Internacional 2010
de Informacin Multimedia Networking y Seguridad, 2010
Cita de pedidos:
Recocido Data Set
Resumen de datos de recocido de acero:

Caractersticas del Categrico, Nmero de

38 Fecha Donado N/A
atributo: entero, real atributos:
Valores Nmero de
Tareas asociadas: Clasificacin S 46335
Fuente:
Donantes: David Sterling y Wray Buntine

N/A
Atributo de listado:
1. familia: -, GB, GK, GS, TN, ZA, ZF, ZH, ZM, ZS
2. tipo de producto: C, H, G
3. Acero: -, R, A, U, K, M, S, W, V
4. carbono: continua
5. dureza: continua
6. temper_rolling: -, T
7. condiciones: -, S, A, X
8. conformabilidad: -, 1,2,3,4,5
9. fuerza: continua
10. no envejece: -, N
11. acabado superficial: P, M, -
12. calidad de superficie: -, D, E, F, G
13. enamelability: -, 1,2,3,4,5
14. bc: Y, -
15. bf: Y, -
16. bt: Y, -
17. pc / me: B, M, -
18. bl: Y, -
19. m: Y, -
20. chrom: C, -
21. phos: P, -
22. cbond: Y, -
23. marvi: Y, -
24. exptl: Y, -
25. ferro: Y, -
26. corr: Y, -
27. azul / brillante / varn / limpia: B, R, V, C, -
28. brillo: Y, -
29. jurofm: Y, -
30. s: Y, -
31. p: Y, -
32. forma: BOBINA, HOJA
33. de espesor: continua
34. anchura: continua
35. len: continua
36. aceite: -, Y, N
37. dimetro: 0000,0500,0600,0760
38. embalaje: -, 1,2,3
clases: 1,2,3,4,5, U - La '-' los valores son en realidad los valores de los not_applicable 'en vez de'
missing_values '(y por lo que se pueden tratar como valores legales discretas en lugar de como
muestra la ausencia de un valor discreto).
N/A
Anonymous Microsoft Data Web Data Set
Resumen : Registro de usuarios annimos de www.microsoft.com; predecir las reas del sitio
web de una persona visit en base a datos de otras reas que el usuario visit.

N/A 37711 rea: Ordenador

Categrico 294
Nmero de
Recommender- Valores
Systems perdidos?
Accesos:
Fuente:
Creadores: Jack S. Breese, David Heckerman, Carl M. Kadie Microsoft Research, Redmond, WA,
98052-6399,
EE.UU. breese '@' microsoft.com , heckerma '@' microsoft.com , carlk '@' microsoft.com Donantes
: Breese:, Heckerman, y Kadie

Creamos los datos mediante el muestreo y el procesamiento de los registros de
www.microsoft.com. Los datos registra el uso de www.microsoft.com por 38000 usuarios annimos,
seleccionados al azar. Para cada usuario, los datos se enumeran todas las reas del sitio web
(races virtuales) que el usuario visit en una semana de plazo. Los usuarios se identifican
nicamente con un nmero secuencial, por ejemplo, usuario # 14988, # 14989 del usuario, etc El
archivo no contiene ninguna informacin de identificacin personal. Las 294 races virtuales son
identificados por su ttulo (por ejemplo, "NetShow para PowerPoint") y la URL (por ejemplo, "/
stream"). Los datos provienen de una semana, en febrero de 1998.
Cada atributo es un rea ("vroot") del sitio web www.microsoft.com. El registro de datos que cada
usuario vroots visitado en un plazo de una semana en de Feburary de 1998.
J. Breese, D. Heckerman., C. Kadie _Empirical Anlisis de Algoritmos de prediccin para la
prestacin conjunta Filtering_ Actas de la XIV Conferencia sobre la Incertidumbre en Inteligencia
Artificial, Madison, WI, julio de 1998.[Web Link] Por otra parte, se expandi como Microsoft
Investigacin Tcnica Informe MSR-TR-98-12, Los documentos estn disponibles en lnea
en: [Web Link]
Arcene Data Set

Resumen : La tarea de Arcene es distinguir el cncer en comparacin con los patrones normales
de datos de espectrometra de masas. Este es un problema de clasificacin de dos clases con
variables de entrada continuas. Este conjunto de datos es uno de los conjuntos de datos 5 del
desafo de la seleccin de caractersticas NIPS 2003.


Real 10000 Fecha Donado
Valores Nmero de
Tareas asociadas: Clasificacin N/A 47068
Fuente:
una. Propietarios originales
Los datos se obtuvieron a partir de dos fuentes: el Instituto Nacional del Cncer (NCI) y la Escuela
de Medicina de Virginia Oriental (EVMS). Todos los datos consisten en masa espectros obtenidos
con la tcnica de SELDI. Las muestras incluyen a los pacientes con cncer (ovario o cncer de
prstata), y pacientes sanos o control. b. Donante de base de datos Esta versin de la base de
datos estaba preparado para la variable y la funcin de seleccin de referencia NIPS 2003 por
Isabelle Guyon, 955 Creston Road, Berkeley, CA 94708, EE.UU. ( isabelle '@' clopinet.com ).

Arcene se obtuvo mediante la fusin de tres conjuntos de datos de espectrometra de masas para
obtener suficiente entrenamiento y datos de prueba para un punto de referencia. Las
caractersticas originales indican la abundancia de protenas en el suero humano que tiene un valor
de masa dada. Sobre la base de esas caractersticas se debe separar a los pacientes de cncer de
pacientes sanos. Hemos aadido una serie de caractersticas distractor llamado 'sondas' que no
tienen ningn poder predictivo. El orden de las caractersticas y los patrones fueron
aleatorizados. Arcene - ex positiva. - Ex Negativo. - Total de Entrenamiento Conjunto - 44 - 56-
100 Validacin set - 44 - 56-100 Kit de ensayo - 310 - 390-700 All - 398 - 502-900 N de variables /
caractersticas / atributos: real: 7000 Sondas: 3.000 Total: 10.000 Este conjunto de datos es uno de
los cinco conjuntos de datos utilizados en el desafo de seleccin de caractersticas NIPS
2003. Nuestra pgina web [Web Link] est todava abierto para la presentacin despus de la
exposicin. Informacin acerca de otros problemas conexos se encuentran en: [Web Link] . El
paquete CLOP incluye cdigo de ejemplo para procesar estos datos: [Web Link] . Todos los
detalles sobre la preparacin de los datos se encuentran en nuestro informe tcnico: Diseo de
experimentos para la seleccin de variables de referencia, Isabelle Guyon, julio de 2003, NIPS
2003 [Web Link] (tambin incluido en el archivo de conjunto de datos). Dicha informacin se
pondr a disposicin slo despus de la final del desafo. Los datos se dividen en entrenamiento,
validacin y prueba. Valores objetivo slo se proporcionan para los 2 primeros sets. Los resultados
de rendimiento conjunto de pruebas se obtienen mediante la presentacin de resultados de la
prediccin a: [Web Link] . Los datos estn en el siguiente formato: dataname.param: Los
parmetros y las estadsticas sobre los datos dataname.feat: Identidades de las caractersticas
(retenidos, para evitar sesgar funcin . seleccin) dataname_train.data: conjunto de entrenamiento
(coma delimitada matriz regular, los patrones de lneas, las caractersticas de las
columnas). dataname_valid.data:. conjunto de validacin dataname_test.data: Conjunto de
prueba. dataname_train.labels: Etiquetas (valores de verdad de las clases ) para ejemplos de
formacin. dataname_valid.labels: etiquetas conjunto de validacin (retenidos durante el referente,
pero siempre ahora).dataname_test.labels: Test establecidos de etiquetas (retenciones, por lo que
los datos todava pueden ser usados como un punto de referencia).
No proporcionamos informacin de atributos para evitar sesgar el proceso de seleccin de
caractersticas.
Los mejores participantes desafo escribieron artculos recogidos en el libro:
Isabelle Guyon, Steve Gunn, Masoud Nikravesh, Lofti Zadeh (Eds.), extraccin de caractersticas,
fundamentos y aplicaciones. Los estudios en Tolerancia y Soft Computing. . Physica-Verlag,
Springer [Web Link]
Ver tambin:
Isabelle Guyon, et al, 2007. Mtodos de referencia competitivos establecen nuevas normas para la
seleccin de caractersticas de referencia NIPS 2003. Pattern Recognition Letters 28 (2007) 1438
1444?.
y el informe tcnico correspondiente:
Isabelle Guyon, et al. 2006. La seleccin de caractersticas con el paquete CLOP. Informe
Tcnico. [Web Link] .
Cita de pedidos:
Isabelle Guyon, Steve R. Gunn, Asa Ben-Hur, Gideon Dror, 2004. Anlisis de los resultados del
desafo de seleccin de caractersticas NIPS 2003. En:. NIPS [Web Link] .
Arritmia Data Set

Resumen : Distinguir entre la presencia y ausencia de la arritmia
cardiaca y clasificarlo en uno de los 16 grupos.


279
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Los propietarios originales de base de datos: 1. H. Altay Gvenir, PhD,. Bilkent
University, Departamento de Ingeniera Informtica y Ciencias de la Informacin, 06533 Ankara,
Turqua Telfono: +90 (312) 266 4133 Email: Gvenir'@' cs.bilkent.edu.tr 2. Burak Acar,
MS, Universidad de Bilkent, EE Eng. Dept. 06533 Ankara,
Turqua Email: buraka '@' ee.bilkent.edu.tr 3. Haldun Muderrisoglu, MD, Ph.D., de la Universidad
Baskent, Facultad de MedicinaAnkara, Turqua Donante: H. Altay Gvenir Universidad
Bilkent, Departamento de Ingeniera Informtica y Ciencias de la Informacin, 06533 Ankara,
Turqua Telfono: +90 (312) 266 4133 Email: Gvenir '@' cs.bilkent.edu.tr

Esta base de datos contiene 279 atributos, 206 de las cuales son valoradas lineal y el resto son
nominales. En cuanto al estudio de H. Altay Gvenir: "El objetivo es distinguir entre la presencia y
ausencia de la arritmia cardiaca y clasificarlo en uno de los 16 grupos. Clase 01 se refiere a las
clases "normales" de ECG 02-15 se refiere a las diferentes clases de arritmias y la clase 16 se
refiere al resto de los no clasificados. Por el momento, no existe un programa de computadora que
hace que tal clasificacin. Sin embargo, hay diferencias entre los aos CardioLog y la clasificacin
de los programas. Tomando los aos CardioLog como estndar de oro nuestro objetivo es
minimizar esta diferencia por medio de herramientas de aprendizaje automtico. " Los nombres y
nmeros de identificacin de los pacientes que se retiraron recientemente de la base de datos.
- La documentacin completa de atributos:
1 Edad: Edad en aos, lineal
2 Sexo: El sexo (0 = hombre, 1 = mujer), nominal
3 Altura: Altura en centmetros, lineal
4 Peso: Peso en kilogramos, lineal
duracin 5 QRS: Promedio de la duracin del QRS en milisegundos, lineal.
6 Intervalo PR:. Duracin promedio entre la aparicin de las ondas P y Q en ms, lineal
7 intervalo QT:. Duracin promedio entre el inicio de Q y el desplazamiento de las ondas T en ms,
lineal
8 T intervalo: . Duracin media de la onda T en ms, lineal
9 P intervalo:. Duracin media de la onda P en ms, lineales
ngulos vectoriales en grados en plano frontal: lineales,
10 QRS
11 T
12 P
13 QRST
14 J 15 La frecuencia cardaca: Nmero latidos del corazn por minuto, lineal de DI canal: .
Anchura media, en milisegundos, de: lineal de ondas Q 16 17 onda R 18 S de la onda 19 R 'onda,
pequeo pico justo despus de R 20 S 'wave 21 Nmero de desviaciones intrnsecas, lineal 22
Existencia de onda R desigual, nominal 23 Existencia de derivacin bifsica de la onda R,
nominal 24 Existencia de onda P desigual, nominal 25 Existencia de derivacin bifsica de la onda
P, nominal 26 Existencia de la onda T desigual, nominal 27 Existencia de derivacin difsica de la
onda T, nominal de DII canal: 28 .. 39 (similar a 16 .. 27 de canal DI) de los canales de DIII: 40 ..
51 De AVR canal: 52 .. 63 de canal AVL: 64 .. 75 de canal FAV: 76 .. 87 Por V1 canal: 88 .. 99 Por
V2 canal: 100 .. 111 De V3 canal: 112 .. 123 De V4 canal: 124 .. 135 De V5 canal: 136 .. 147 De V6
canal: 148 .. 159 de DI canal: Amplitud, * 0,1 milivoltios, de 160 ola JJ, lineal de ondas Q 161,
linear onda 162 R, lineal S wave 163, lineal 164 R 'onda, lineal 165 S 'onda, lineal de ondas P 166 ,
lineal 167 de la onda T, lineal 168 QRSA, Suma de las reas de todos los segmentos divididos por
10, (rea = ancho * altura / 2), lineal 169 QRSTA = QRSA + 0,5 * ancho de la onda T * 0,1 * altura
de la onda T. (Si T es bifsica entonces se considera el segmento ms grande), lineal de DII
canal: 170 .. 179 De DIII canal: 180 .. 189 De AVR canal: 190 .. 199 de canal AVL: 200 .. 209 de
canal FAV: 210 .. 219 de V1 canal: 220 .. 229 V2 de canal: 230 .. 239 De V3 canal: 240 .. 249 De
V4 canal: 250 .. 259 De V5 canal: 260 .. 269De V6 canal: 270. . 279
H. Altay Gvenir, Burak Acar, Gulsen Demiroz, Ayhan Cekin "Un algoritmo de aprendizaje
automtico supervisado para el Anlisis de Arritmia". Actas de los Ordenadores en Cardiologa
Conferencia, Lund, Suecia, 1997. [Web Enlace]
Personajes Artificiales Conjunto de Datos
Resumen : Conjunto de datos generados artificialmente mediante el uso de teora de primer

orden que describe la estructura de diez letras maysculas del alfabeto Ingls

Multivariante 6000 rea: Ordenador
Caractersticas del Categrico, Nmero de Fecha 1992-07-

7
atributo: entero, real atributos: Donado 01
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Los propietarios originales de base de datos: 1. H. Altay Gvenir, PhD,. Bilkent
University, Departamento de Ingeniera Informtica y Ciencias de la Informacin, 06533 Ankara,
Turqua Telfono: +90 (312) 266 4133 Email: Gvenir'@' cs.bilkent.edu.tr 2. Burak Acar,
MS, Universidad de Bilkent, EE Eng. Dept. 06533 Ankara,
Turqua Email: buraka '@' ee.bilkent.edu.tr 3. Haldun Muderrisoglu, MD, Ph.D., de la Universidad
Baskent, Facultad de MedicinaAnkara, Turqua Donante: H. Altay Gvenir Universidad
Bilkent, Departamento de Ingeniera Informtica y Ciencias de la Informacin, 06533 Ankara,
Turqua Telfono: +90 (312) 266 4133 Email: Gvenir '@' cs.bilkent.edu.tr

Esta base de datos ha sido generada artificialmente mediante el uso de una teora de primer orden
que describe la estructura de diez letras maysculas del alfabeto Ingls y un demostrador de
teoremas eleccin aleatoria que representa el etherogeneity en las instancias. Las maysculas
representadas son las siguientes: A, C, D, E, F, G, H, L, P, R. Cada instancia est estructurado y
es descrito por un conjunto de segmentos (lneas) que se asemejan a la forma en que un programa
automtico hara segmento una imagen. Cada instancia se almacena en un archivo independiente
cuyo formato es el siguiente: TIPO DE CLASE OBJNUM YY1 XX1 XX2 YY2 TAMAO DIAG donde
clase es un nmero entero que indica la clase como se describe a continuacin, OBJNUM es un
identificador entero de un segmento (comenzando por 0) en la instancia y el resto de columnas
representan los valores de los atributos. Para ms detalles, pngase en contacto con el autor.
TIPO: el primer atributo describe el tipo de segmento y se establece siempre en la "lnea"
cadena. Su tipo de lenguaje C es de tipo char. XX1, YY1, XX2, YY2: estos atributos contienen las
coordenadas iniciales y finales de un segmento en un plano cartesiano. Su tipo de lenguaje C es
int. TAMAO: esta es la longitud de un segmento, calculado utilizando la distancia geomtrica
entre dos puntos A (X1, Y1) y B (X2, Y2). Su tipo de lenguaje C es flotador. DIAG: esta es la
longitud de la diagonal del rectngulo ms pequeo que incluye la imagen del carcter. El valor de
este atributo es la misma en cada objeto. Su tipo de lenguaje C es float.
M. Botta, A. Giordana, L. Saitta: "Aprender las definiciones de conceptos difusos", IEEE-Fuzzy
Conferencia de 1993. [Web Link] M. Botta, A. Giordana:. "Aprender Caracterstica cuantitativa en
un entorno simblico", LNAI 542, 1991, pp 296-305 [Web Link]
Audiologa (Original) Conjunto de datos

Resumen : Nominal conjunto de datos audiologa de Baylor

Caractersticas del Nmero de N/ Fecha

Categrico 12/03/1987
atributo: atributos: A Donado
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Propietario original: Profesor Jergen en el Colegio Baylor de Medicina Donante: Bruce Porter
( Porter '@' fall.cs.utexas.EDU )

Esta base de datos no utiliza un conjunto estndar de atributos por ejemplo. Contact Ray Bareiss
( rbareiss '@' uunet.uucp ?) para obtener ms informacin. experto de dominio: El profesor Craig
Wier de la Universidad de Texas, Austin.
(Todos los atributos son valoradas nominalmente)
1. identificador de caso.
2. clasificacin (24 clases)
3. Lista de las caractersticas del caso
- Formato: forma f (v) debe leerse como "funcin f tiene un valor v"
Bareiss, E. Ray, & Porter, Bruce (1987). Protos: Un aprendiz Aprendizaje Basado Ejemplar. En las
Actas de la 4 Taller Internacional sobre Aprendizaje Automtico, 12-23, Irvine, CA:. Morgan
Kaufmann [Web Link]
Audiologa (Estandarizado) Conjunto de datos
Resumen : La versin estandarizada de la base de datos original de audiologa


Categrico 69 Fecha Donado
Valores Nmero de
Fuente:
Versin original: (a) Propietario original: Profesor Jergen en el Colegio Baylor de Medicina (b)
Donante: Bruce Porter ( Porter '@' fall.cs.utexas.EDU ) Estandarizado Versin: (a) Donante: Ross
Quinlan

Esta base de datos es una versin estandarizada de la base de datos de audiologa original (vase
la audiologa. * En este directorio). El conjunto no estndar de atributos se han convertido a un
conjunto estndar de atributos de acuerdo a las reglas que siguen. * Cada propiedad que aparece
en cualquier lugar de la original. datos o. archivo de prueba se ha representado como un atributo
independiente en este archivo. * Una propiedad tales como age_gt_60 se representa como un
atributo booleano con los valores de F yt. * En la mayora de los casos, una propiedad de la forma
x (y) se representa como un atributo discreto x () cuyos valores posibles son los diversos y de;de
aire () es un ejemplo. Hay dos excepciones: ** cuando slo un valor de y aparece en cualquier
lugar, por ejemplo, esttica (normal). En este caso, x_y aparece como un atributo booleano. **
cuando un caso puede tener dos o ms valores de x, por ejemplo, la historia (..). Todos los valores
posibles de la historia se tratan como atributos booleanos separadas. * Desde atributos booleanos
slo aparecen como condiciones positivas, cada atributo booleano se asume que es falso a menos
que se indique lo cierto. A menos que se especifique un valor El valor de los atributos discretos
mltiples valores tomados como desconocido ("?"). * Las identificaciones de casos originales, p1 a
p200 en el archivo de datos. y t1 a t26 en el archivo de prueba., se han aadido como . un atributo
nico identificador . [Nota: en el archivo de datos original, p165 tiene una especificacin repetida de
o_ar_c (normal); P166 ha repetido la especificacin del lenguaje (normal) y valores en conflicto aire
(moderada) y el aire (leve). No se observaron otros problemas con los datos originales.]
age_gt_60: f, t.
aire ():. leve, moderada, severa, normal, profundo
airBoneGap:. f, t
ar_c (): normal, elevado, ausente.
ar_u (): ausente normal, elevado.
seo (): leve, moderado, normal, no medida.
boneAbnormal:. f, t
BSER ():. normal de degradado,
history_buzzing: f, t.
history_dizziness: f, t.
history_fluctuating:. f, t
history_fullness:. f, t
history_heredity: f, . t
history_nausea:. f, t
history_noise: f, t.
history_recruitment:. f, t
history_ringing: f, t.
history_roaring:. f, t
history_vomiting:. f, t
late_wave_poor:. f, t
m_at_2k: f, t.
m_cond_lt_1k:. f, t
m_gt_1k: f, t.
m_m_gt_2k:. f, t
m_m_sn:. f, t
m_m_sn_gt_1k:. f, t
m_m_sn_gt_2k:. f, t
m_m_sn_gt_500:. f, t
m_p_sn_gt_2k: f, t.
m_s_gt_500: f, t.
m_s_sn: f, t.
m_s_sn_gt_1k: f, t.
m_s_sn_gt_2k:. f, t
m_s_sn_gt_3k:. f, t
m_s_sn_gt_4k:. f, t
m_sn_2_3k: f, t.
m_sn_gt_1k:. f, t
m_sn_gt_2k: f, . t
m_sn_gt_3k:. f, t
m_sn_gt_4k:. f, t
m_sn_gt_500: f, t.
m_sn_gt_6k:. f, t
m_sn_lt_1k:. f, t
m_sn_lt_2k: f, t.
m_sn_lt_3k:. f, t
middle_wave_poor: f, t.
mod_gt_4k:. f, t
mod_mixed:. f, t
mod_s_mixed:. f, t
mod_s_sn_gt_500: f, t.
mod_sn:. f, t
mod_sn_gt_1k:. f, t
mod_sn_gt_2k: f, t.
mod_sn_gt_3k:. f, t
mod_sn_gt_4k: f, t.
mod_sn_gt_500: f, t.
notch_4k:. f, t
notch_at_4k:. f, t
o_ar_c (): normal, elevado, ausente.
o_ar_u ():. normalidad ausente, elevado,
s_sn_gt_1k:. f, t
s_sn_gt_2k: f, t.
s_sn_gt_4k:. f, t
discurso (): normal, bueno, very_good, very_poor, pobre, no medida.
static_normal:. f, t
timpa (): a, como, b, ad, c.
viith_nerve_signs: f, t.
wave_V_delayed: f, t.
waveform_ItoV_prolonged:. f, t
indentifier (nico para cada
instance) class: cochlear_unknown,mixed_cochlear_age_fixation,poss_central mixed_cochlear_ag
e_otitis_media,mixed_poss_noise_om,cochlear_age,normal_ear,cochlear_poss_noise,cochlear_ag
e_and_noise, acoustic_neuroma,mixed_cochlear_unk_ser_om,conductive_discontinuity, retrocochl
ear_unknown,conductive_fixation,bells_palsy,cochlear_noise_and_heredity,mixed_cochlear_unk_fi
xation, otitis_media,possible_menieres,possible_brainstem_disorder, cochlear_age_plus_poss_me
nieres,mixed_cochlear_age_s_om,mixed_cochlear_unk_discontinuity,mixed_poss_central_om
Bareiss, E. Ray, & Porter, Bruce (1987). Protos: Un aprendiz Aprendizaje Basado Ejemplar. En las
Actas de la 4 Taller Internacional sobre Aprendizaje Automtico, 12-23, Irvine, CA:. Morgan
Kaufmann [Web Link]
Australia Lengua de Signos firma Data Set

Resumen : Esta informacin consta de muestra de Auslan (Australian Sign Language)
signos. Ejemplos de 95 signos se obtuvieron de cinco firmantes de un total de 6.650 muestras de
signos.
Conjunto de datos Multivariado, Nmero de

6650 rea: N/A
Caractersticas: Time-Series instancias:
Caractersticas del Categrico, el Nmero de Fecha 1999-

15
atributo: Real atributos: Donado 04-20
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Propietario original y los donantes: Mohammed Waleed Kadous Facultad de Ciencias de la
Computacin de Ingeniera de la Universidad de Nueva Gales del Sur Sydney NSW 2052
Australia waleed '@' cse.unsw.edu.au

La fuente de los datos es de las mediciones en bruto de una Nintendo PowerGlove. Se
interconecta a travs de una interfaz serial PowerGlove a una estacin de trabajo Silicon Graphics
4D/35G. Este guante definitivamente entra en la categora de "barato y desagradable". La
informacin de posicin se calcula sobre la base de las emisiones de ultrasonido de emisores del
guante para un 3-micrfono "L-Bar" que se sienta encima de un monitor. Hay dos emisores en el
guante; y tres receptores. Esto permite el clculo de 4 piezas de informacin: x (izquierda /
derecha), y (arriba / abajo), z (atrs / adelante), y balanceo (es la palma apuntando hacia arriba o
hacia abajo?). x, y y z se miden con una precisin de 8 bits. "X, y, z" no debe ser tomada a ser la
base ortogonal de 3 dimensiones normales. En particular, 1 unidad en la direccin z no es de
similar distancia a 1 unidad en X o Y.. Estas x, y, z son las posiciones con relacin a un punto de
calibracin que es cuando la palma est descansando en el muslo de la persona que firma
asentada. Rollo es de 4 bits. Los datos son susceptibles a los "picos" ocasionales causadas por el
ruido de ultrasonido al azar. La mediana de filtros se han encontrado para ser beneficioso en la
resolucin de este problema. doblar el dedo se genera por los sensores de plegado conductoras en
los primero cuatro dedos. Los valores varan entre 0 (recta) y 3 (totalmente doblada). La precisin
es de 2 bits. Los guantes se aplican automticamente un filtro de histresis de estos sensores de
flexin. A lo sumo, estas mediciones deben ser tratados con escepticismo. Ver uso en el pasado
para una discusin ms detallada sobre la metodologa de recopilacin de datos. Los datos fueron
recogidos a partir de cinco firmantes: Signer - Descripcin - Sesiones - Total de muestras /
firman Adam - Inscripcin lingista - Doctorado complet en el rea. - 2 - 8 Andrew - firmante
Natural - la firma ya la juventud - 3 - 8 John - Profesional Auslan intrprete - 5-18 Stephen -
Profesional Auslan intrprete - 4 - 16 Waleed - El investigador . Firmante de principiante - 4 -
20 Cada sesin fue tomada en un momento diferente, despus de un descanso, etc El conjunto de
datos "adam" se tomaron muestras en un orden fijo - esto significa que estn sujetos a los efectos
de la fatiga, etc Todos los dems conjuntos de datos fueron muestreados en orden aleatorio. Los
"waleed" y conjuntos de datos "stephen" contienen signos que comienzan con "cal-". Estos fueron
considerados como un medio de calibracin, pero no funcion muy bien. Los datos que se
presentan son los datos crudos sin filtracin. abandonos ocasionales en x, y, z valores. Estos
pueden ser fijados fcilmente usando un filtro de mediana. Promedio del nmero de cuadros por
ejemplo es 51, sino que vara desde 30 hasta 102. Los datos estn en un archivo separado por
comas que contiene todos los atributos mencionados anteriormente. Cada muestra de seal se
almacena en un nico archivo. La jerarqua de directorios es la siguiente: -Cada firmante est en
un directorio independiente. -Cada sesin del firmante se encuentra en un subdirectorio. Cada
sesin se indica mediante un nmero. -Cada muestra se encuentra en un archivo llamado por la
muestra se adjunta con el nmero de la muestra de ese signo. Los nombres de archivo indican la
clase.
x:
- Continua.
- Descripcin: x posicin entre -1 y 1. Las unidades son * metros aproximadamente *.
y:
- Continua.
- Descripcin: posicin y entre -1 y 1. Las unidades son aproximadamente metros.
z:
- Continua.
- Descripcin: posicin z entre -1 y 1. Las unidades no son metros.
Este espacio no debe ser tratado como realmente lineal, aunque es seguro que
lo tratan como montona creciente.
rodar:
- Continua.
- Descripcin: Rodillo con el 0 significa "palma hacia abajo", que gira clcokwise hasta un mximo
de 1 (no incluido), que es tambin "la palma hacia abajo."
pitch:
- Tiene un valor de -1, lo que indica que no se dispone de estos datos.
deben ser ignorados.
guiada:
- Tiene un valor de -1, lo que indica que que no est disponible para estos datos.
deben ser ignorados.
pulgar:
- Continua.
- Descripcin: Curva del pulgar. tiene un valor de 0 (recta) a 1 (totalmente doblada).
plano:
-. Continuo
- Descripcin: ndice curva. tiene un valor de 0 (recta) a 1 (totalmente doblada).
ndice:
-. Continuo
- Descripcin: El dedo ndice de curvatura. tiene un valor de 0 (recta) a 1 (totalmente doblada).
anillo:
-. Continuo
- Descripcin: finger curva Anillo. tiene un valor de 0 (recta) a 1 (totalmente doblada).
poco:
- En este caso, se trata de una copia de la curva del anillo. En caso de ser ignorado.
keycode:
- Indica que se ha pulsado en el guante. En caso de ser ignorado.
GS1:
- Estado guante 1 debe ser ignorada.
gs2:
- Estado guante 2 debe ser ignorada.
valores del receptor:
- Determina si todos los receptores reciben los valores de todos los transmisores. Un valor 0x3F
indica todos los receptores recibieron informacin de todos los transmisores. Otros valores indican
que esto no es el caso.
MW Kadous, GRASP:. Reconocimiento de la Lengua de Signos Australiana usando guantes
instrumentados, con honores tesis, Escuela de Ciencias de la Computacin e Ingeniera de la
Universidad de Nueva Gales del Sur, 1995[Web Link]
Signos de Lengua de Signos de Australia (High Quality) Conjunto de

datos
Resumen : Esta informacin consta de muestra de Auslan (Australian Sign Language) signos. 27
ejemplos de cada uno de los 95 signos Auslan fueron capturados por un firmante nativo usando
rastreadores de posicin de alta calidad

2565 rea: N/A

Real 22
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Propietario original y los donantes: Mohammed Waleed Kadous Facultad de Ciencias de la
Computacin de Ingeniera de la Universidad de Nueva Gales del Sur Sydney NSW 2052
Australia Tel.: 61 2 9385 6922 waleed '@'cse.unsw.edu.au

Los datos fueron capturados utilizando una configuracin que consisti en: - Dos tecnologas de
quinta dimensin (5DT) guantes, uno derecho y otro izquierdo - dos trackers Ascensin Flock-de-
aves de posicin magntico, uno conectado a cada lado - Una tarjeta de serie de cuatro puertos
para hacer frente a cuatro fuentes de datos - Un PC (RAM 128MB, 266MHz Intel Pentium II) se
utiliz en trminos de la calidad de los datos, el sistema Flock era muy superior a la consola
Nintendo tambin disponible del mismo donante. En primer lugar, se trataba de un sistema de dos
manos. En segundo lugar, cada seguidor de posicin proporciona 6 grados de libertad - es decir,
balance, cabeceo y guiada, as como x, y, z. Los guantes tambin proporcionaron un total de
cinco dedos de los datos. Pero las grandes mejoras fueron en la resolucin - tanto la precisin y
temporal. Posicin y orientacin se definieron para la precisin de 14 bits, dando informacin de
posicin con un error tpico posicional menos de un centmetro de error y el ngulo de menos de
una mitad de un grado. Doblar el dedo se midi con 8 bits por el dedo, de la que, probablemente, 6
trozos eran utilizables una vez que se calibr el guante. La frecuencia de actualizacin de todo el
sistema estaba cerca de 100 imgenes por segundo; y todas las seales tenan significativamente
menos ruido que los datos de Nintendo. muestras de un solo firmante (uno de los firmantes nativa
Auslan) fueron recogidos durante un perodo de nueve semanas. En total, se recogieron 27
muestras por seas, y un total de 2.565 signos. La duracin media de cada signo fue de
aproximadamente 57 marcos. Los datos fueron obtenidos de un nativo voluntario Auslan
firmante todos los datos son los datos en bruto sin filtracin. El archivo consta de 9 subdirectorios
tctodd1-9. Cada directorio se compone de 3 muestras de cada signo, capturados en un da
diferente. En total hay 95 signos diferentes, con 27 muestras por seal. Signos fueron
proporcionados por un voluntario firmante nativa. Cada archivo consta de una secuencia de
lneas. Cada lnea se compone de 22 nmeros separados por espacios en blanco que representan
a los 22 canales de informacin. La lista de canales se puede encontrar en el archivo de
descripcin de dominio. Tambin enumera las clases. Ms informacin se puede encontrar
aqu: [Web Link] .
Los siguientes datos fueron registrados para cada mano: * x posicin expresada con relacin a un
punto de ajuste ligeramente por debajo de la barbilla cero. Expresado en metros. * posicin y,
expresado con relacin a un punto de ajuste ligeramente por debajo de la barbilla cero. Expresado
en metros. * posicin z expresa en relacin a un punto de ajuste ligeramente por debajo de la
barbilla cero. Expresado en metros. * rollo expresado como un valor entre -0,5 y 0,5, siendo 0 la
palma hacia abajo. Positivo significa la palma se rueda en sentido horario desde la perspectiva de
la persona que firma. Para obtener grados, multiplquelo por 180. * pitch expresado como un valor
entre -0,5 y 0,5, siendo 0 la palma plana (horizontal). Positivo significa la palma apunte hacia
arriba. Para obtener un ttulo, multiplquelo por 180. * guiada expresa un valor entre -1,0 y 1,0,
siendo 0 la palma hacia el frente desde la perspectiva de la persona que firma. Medios positivos
hacia la derecha desde la perspectiva arriba firmante. Para obtener grados, multiplquelo por 180. *
medida bend Pulgar entre 0 y 1. 0 significa totalmente plana, 1 es totalmente doblada. Sin
embargo, las mediciones de doblar el dedo no son muy exacta. * medida curva dedo ndice entre 0
y 1. 0 significa totalmente plana, 1 significa totalmente doblada. Sin embargo, los mediciones
doblar el dedo no son muy exacta. * medida doblar el dedo medio entre 0 y 1. 0 significa totalmente
plana, 1 es totalmente doblada. Sin embargo, las mediciones de doblar el dedo no son muy
exacta. * medida de curvatura dedo anular entre 0 y 1. 0 significa totalmente plana, 1 es totalmente
doblada. Sin embargo, las mediciones de doblar el dedo no son muy exacta. * Poco medida curva
dedo entre 0 y 1. 0 significa totalmente plana, 1 es totalmente doblada.Sin embargo, las
mediciones de doblar el dedo no son muy exacta.
Kadous, MW, "Clasificacin temporal: Ampliacin de la Clasificacin Paradigma para multivariante
de series temporales", Tesis de Doctorado (borrador), Facultad de Ciencias de la Computacin e
Ingeniera de la Universidad de Nueva Gales del Sur, 2002. [Web Link] Tambin disponible
en: [Web Enlace ]
Auto MPG Data Set

Resumen : Se ha revisado de la biblioteca de CMU StatLib, los datos se refiere a consumo de
combustible, ciclo de la ciudad

Multivariante 398 rea: N/A

8
Valores Nmero de
Tareas asociadas: Regresin S 101000
Fuente:
Este conjunto de datos fue tomada de la biblioteca StatLib que se mantiene en la Universidad
Carnegie Mellon. El conjunto de datos se utiliza en el 1983 Asociacin Americana de Estadstica
Exposicin.

Este conjunto de datos es una versin ligeramente modificada del conjunto de datos proporcionado
en la biblioteca StatLib. En lnea con el uso por Ross Quinlan (1993) para predecir el atributo
"mpg", 8 de los casos originales fueron retirados porque tenan valores desconocidos para el
atributo "mpg". El conjunto de datos original est disponible en el archivo "auto-mpg.data
originales". "Las preocupaciones de datos de consumo de combustible de ciclo de la ciudad en
millas por galn, para ser pronosticada en funcin de varios valores discretos 3 y 5 atributos
continuos." (Quinlan, 1993)
1. mpg: continua
2. cilindros: varios valores discretos
3. desplazamiento: continua
4. caballos de fuerza: continua
5. peso: continua
6. aceleracin: continua
7. Ao de construccin: varios valores discretos
8. origen: varios valores discretos
9. nombre del coche: string (nico para cada instancia)
Quinlan, R. (1993). Combinando Instancia-con base y basado en modelos de aprendizaje. En
Actas de la Dcima Conferencia Internacional de Aprendizaje Automtico, 236-243, Universidad de
Massachusetts, Amherst. Morgan Kaufmann. [Web Link]
Automvil Data Set

Resumen : A partir de 1985 de Ward Automotive Yearbook


26
Nmero de
Valores
Tareas asociadas: Regresin S Web 85130
perdidos?
Accesos:
Fuente:
Creador / Donante: Jeffrey C. Schlimmer ( Jeffrey.Schlimmer '@' a.gp.cs.cmu.edu ) Fuentes: 1.)
Modelo 1985 Importacin de coches y camiones Especificaciones, 1985 de Ward Automotive
Yearbook 2) Personal Auto Manuales, Servicios de aseguramiento Oficina, 160 Water Street,
Nueva York, NY 10038 3) Seguro Reportar colisin, Instituto de Seguros para Seguridad en las
Carreteras, Watergate 600, Washington, DC 20037

Este conjunto de datos se compone de tres tipos de entidades: (a) la especificacin de un auto en
trminos de varias caractersticas, (b) su calificacin de riesgo de seguro asignado, (c) sus
prdidas normalizadas de uso en comparacin con otros coches. La segunda clasificacin se
corresponde con el grado en que el auto es ms arriesgado que su precio indica. Coches se
asignan inicialmente un smbolo factor de riesgo asociado con su precio.Entonces, si es ms
riesgoso (o menos), este smbolo se ajusta moviendo hacia arriba (o hacia abajo) de la
escala. Actuarians llaman a este proceso "symboling". Un valor de 3 indica que el auto es
arriesgado, -3 que es probablemente bastante seguro. El tercer factor es el pago promedio de
prdida en relacin al ao del vehculo asegurado. Este valor est normalizado para todos los
autos dentro de una clasificacin por tamao en particular (de dos puertas pequeas, camionetas,
deportes / especialidad, etc ..), y representa la prdida media por vehculo y por ao. Nota: Varios
de los atributos en la base de datos podra ser utilizado como un atributo "class".
Atributo: Rango Atributo 1. symboling: -3, -2, -1, 0, 1, 2, 3. 2. normalizados-prdidas: continua 65-
256. 3. hacer: alfa-romero, audi, bmw, chevrolet, dodge, honda, isuzu, jaguar, Mazda, Mercedes-
Benz, el mercurio, mitsubishi, nissan, Peugeot, plymouth, porsche, renault, saab, subaru, toyota,
volkswagen, volvo 4 . tipo de combustible: disel, gas. 5. aspiracin: std, turbo. 6. num-de-puertas:
cuatro, dos. 7. al estilo de cuerpo: techo duro, carro, sedn, hatchback, convertible. 8. drive-ruedas:
4wd, fwd, rwd. 9. motor ubicacin: delantero, trasero. 10. distancia entre ejes: continuo desde 86.6
120.9. 11. longitud: continua 141,1-208,1. 12. anchura: continua 60,3-72,3. 13. altura: continua
47,8-59,8. 14. frenar peso: continua 1.488-4066. 15. -Tipo de motor: DOHC, dohcv, l, OHC,
tamaos grandes, ohcv, rotor. 16. num-of-cilindros: ocho, cinco, cuatro, seis, tres, doce,
dos. 17. motor-size: continua 61-326.18. combustible-sistema:. 1BBL, 2bbl, 4bbl, idi, mfi, mpfi,
SPDI, ISPS 19. dimetro: continua 2,54-3,94. 20. Carrera: continua 2,07-4,17. 21. compresin-
razn: continua del 7 al 23. 22. caballos de fuerza: continua 48-288. 23. pico rpm: continua desde
4150 hasta 6600. 24. ciudad-mpg: continua 13 a 49. 25. autopista de mpg: continua 16-
54. 26. precio: continua 5.118-45.400.
Kibler, D., Aha, DW, y Albert, M. (1989). Prediccin basada en instancia de atributos con valores
reales. Inteligencia Computacional, Vol. 5, 51 - 57. [Web Link]
AutoUniv Data Set
Resumen : AutoUniv es un generador avanzado de datos para tareas de clasificaciones. El
objetivo es reflejar los matices y la heterogeneidad de los datos reales. Los datos pueden ser
generados en. Csv, ARFF o formatos C4.5.
N
Multivariante / rea: N/A
A
N
/ Fecha Donado
atributo: entero, real atributos: 11-03
A
N
Valores Nmero de
Tareas asociadas: Clasificacin / 21946
A
Fuente:
AutoUniv fue desarrollado por Ray. J. Hickey. Email: ray.j.hickey '@' gmail.com
AutoUniv web-site: http://sites.google.com/site/autouniv/

. El usuario crea primero un modelo de clasificacin y luego genera ejemplos de anuncios de ella
Para crear un modelo, el siguiente se especifican: el nmero de atributos (hasta 1000) y su tipo
(discreto o continuo), el nmero de clases (hasta 10), la complejidad de las reglas subyacentes y el
nivel de ruido. AutoUniv produce entonces un modelo a travs de un proceso de bsqueda
aleatorios limitados para satisfacer las necesidades del usuario. Un modelo puede tener un
mximo de 3.000 reglas. Modelos de clase raras pueden ser diseados. Una secuencia de
modelos puede ser diseado para reflejar el concepto y / o desplazamiento de la
poblacin. AutoUniv crea tres archivos de texto para un modelo: una especificacin Prolog del
modelo utilizado para generar ejemplos (. aupl); una declaracin de uso fcil de las reglas de
clasificacin en un 'si ... entonces' formato (aurules.); un resumen estadstico de las principales
propiedades del modelo, incluyendo su tasa de Bayes (. auprops).
Los atributos pueden ser discretos con un mximo de 10 valores o continua. Un atributo discreto
puede ser nominal con valores v1, v2, v3 ... o enteros con valores 0, 1, 2, ....
Marrs, G, Hickey, RJ y Negro, MM (2010) Modelacin del ciclo de vida de ejemplo, en un
estudiante de la clasificacin en lnea. En Actas de HaCDAIS 2010:. Taller Internacional sobre
Manejo Concepto Drift Adaptive Information Systems [Web Link] # proc. Marrs, G, Hickey, RJ y
Negro, MM (2010) El impacto de la latencia en el aprendizaje de Clasificacin Online con Concept
Drift. En Y. Bi y MA Williams (Eds.): KSEM 2010, LNAI 6291, Springer-Verlag, Berlin, pp 459A
"469. Hickey, RJ (2007) Estructura y clases mayoritarias en la Decisin Learning Tree. Journal of
Machine Learning Research, 8, pp 1747-1768.
Bach Corales Data Set

Resumen : Los datos de series de tiempo sobre la base de corales; reto es aprender la
gramtica generativa; datos en Lisp
Conjunto de datos Univariante, Nmero de

100 rea: N/A

6 Fecha Donado N/A
atributo: Integer atributos:
Valores Nmero de
Tareas asociadas: N/A No 39308
Fuente:
Corales: Mainous y Ottman edition.Mainous, Frank D. y Robert W. Ottman, eds. 1966.
Los 371 Corales de Bach. . Holt, Rinehart and Winston, Nueva York propietarios originales de base
de datos: Darrell Conklin ZymoGenetics Inc. 1201 Eastlake Avenue East Seattle WA,
98102 conklin '@' zgi.com Donantes de base de datos: Igual que el propietario. Ann Blombach de
la Universidad Estatal de Ohio me suministr originalmente con codificaciones de 4 voces de 100
corales. La actual base de datos es la lnea de soprano, convertida en formato Lisp legible y
ampliamente corregida.

Secuencial (series de tiempo) de dominio. Melodas de una sola lnea de 100 corales de Bach
(originalmente 4 voces). La lnea de la meloda puede ser estudiado independientemente de otras
voces. El gran reto es aprender una gramtica generativa de corales estilsticamente vlidos (ver
referencias y discusin en "Viewpoint Systems mltiples para Music Prediccin").
Nmero de Atributos: 6 (nominal) por evento (a) puesta en el tiempo, medido en notas 16a de
principio coral (tiempo 0) (b) de paso, nmero de MIDI (60 = C4, 61 = C # 4, 72 = C5, etc) (c) la
duracin, medida en notas 16o (d) firma de clave, nmero de sostenidos o bemoles, positivo si
firma dominante tiene sostenidos, negativo si firma dominante tiene pisos (e) de comps, en las
notas de 16o por barra (f ) caldern, verdadero o falso dependiendo de si est en un evento
fermata dominios Atributo (todos los enteros): (a) {0,1,2, ...} (b) {60, ..., 75} (c) {1, ..., 16} (d) {-4, ...,
4} (e) {12,16} (f) {0,1}
Conklin, Darrell y Witten, Ian. 1995. Viewpoint Systems mltiples para Music Prediccin. Diario de
Nueva Music Research. 24 (1) :51-73. [Web Link]
Insignias conjunto de datos
Resumen : Insignias marcadas con un "+" o "-" en funcin del nombre de una persona

294 rea: N/A

N/A 1 Fecha Donado
Valores Nmero de
Fuente:
Creador: Haym Hirsh, despus de una idea de Rob Schapire Donante: Haym Hirsh
( hirsh '@' cs.rutgers.edu )

Parte del problema en el uso de un programa automatizado para descubrir la funcin de destino
desconocido es decidir cmo codificar nombres de tal manera que el programa puede ser
utilizado. Los datos se muestran a continuacin se presentan en forma de un + / - etiqueta seguido
del nombre de la persona. Es responsabilidad del usuario-sistema de aprendizaje para decidir
cmo convertir estos datos en algo utilizable por el sistema (por ejemplo, lo que atribuye a usar si
su alumno favorito requiere datos de funciones vectoriales).
N/A
N/A
Bag of Words Data Set 2008-03-12
Resumen:Este conjunto de datoscontiene cincocolecciones de textosenforma de bolsas-

de-palabras.
Caractersticas N/A
Nmero de
del Conjunto Texto 8000000 rea:
instancias:
de datos:
2008-03-12
Caractersticas Nmero de Fecha de
Entero 100000
del atributo: atributos: Donacin
122589
Tareas Valores Nmero de
Clustering N/A
asociadas: perdidos? accesos Web:
Fuente:
David Newman newman'@' uci.edu University of California, Irvine
Informacin del Conjunto de datos:

Para cada coleccin de texto , D es el nmero de documentos , W es el
nmero de palabras en el vocabulario , y N es el nmero total de palabras
en la coleccin (por debajo de , NNZ es el nmero de recuentos distintos de cero en el
bolsa - de - palabras). Despus de tokenizacin y la eliminacin de palabras vacas , el
vocabulario de palabras nicas se trunc por slo mantener las palabras que
producido ms de diez veces . Nombres de los documentos individuales ( es decir, una
identificador para cada docID ) no se proporcionan por motivos de copyright .
Estos conjuntos de datos no tienen etiquetas de clase , y por razones de derechos de autor
no
nombres de archivo u otros metadatos a nivel de documento. Estos conjuntos de datos son
ideales
Para la agrupacin y tema experimentos de modelado.
Para cada coleccin de textos que ofrecemos docword . * . Txt( la bolsa de palabras
presentar en formato escasa) y vocabulario . * . txt ( archivo de vocabulario ) .
Los correos electrnicos de Enron :

fuente orig : www.cs.cmu.edu/ ~ Enron
D = 39861
W = 28102
N = 6.400.000 (aprox. )
NIPS trabajos completos :

fuente orig : books.nips.cc
D = 1500
W = 12419
N = 1.900.000 (aprox. )
KOS Entradas de blog :

fuente orig : dailykos.com
D = 3430
W = 6906
N = 467 714
NYTimes noticias :
fuente orig : ldc.upenn.edu
D = 300000
W = 102660
N = 100 000 000 ( aprox )
PubMed resmenes:
fuente orig : www.pubmed.gov
D = 8200000
W = 141043
N = 730 000 000 ( aprox )
Informacin de los Atributos:

El formato de ladocword. *. Txtes de 3lneas de encabezado, seguido de
NNZtriplica:
---
D
W
NNZ
docIDwordIDconteo
docIDwordIDconteo
docIDwordIDconteo
docIDwordIDconteo
...
docIDwordIDconteo
docIDwordIDconteo
docIDwordIDconteo
---
El formato delvocabulario. *. Txteslnea contienewordID= n.
Documentos relevantes:
N/A
Citas:
Por favor,consulte elRepositoriode polticascitacinAprendizaje Automtico
Balance Scale Data Set 1994-04-22
Resumen:El pesoyla distanciabase de datos deBalance de

la escala
Caractersticas Social
Nmero de
del Conjunto de Multivariado 625 rea:
instancias:
datos:

Categrico 4 1994-04-22
Nmero
70436
Valores de
Tareas asociadas: Clasificacin No
perdidos? accesos
Web:
Fuente:
Generadopara modelarexperimentos psicolgicosreportados porSiegler, RS (1976).
Tresaspectos del desarrollocognitivo. Psicologa Cognitiva, 8, 481-520.
Donante:
TimHume(Hume '@'ics.uci.edu)

Este conjunto de datosse generpara modelarlos resultados
experimentalespsicolgicos.Cada ejemplose clasifica comola puntabalanzahacia la
derecha, la punta hacia la izquierda,oser equilibrado.Los atributosson el pesoizquierda,
ladistancia de la izquierda, el peso correcto, yla distancia correcta. La forma correcta
deencontrar la clasees el mayor entre(a la izquierdadistancia*pesode la
izquierda)y(derechadistancia*derechade peso). Si son iguales, es equilibrada
.
1. Clase Nombre: 3 (L, B, R)
2. Peso hacia la izquierda: 5 (1, 2, 3, 4, 5)
3. Distancia a la izquierda: 5 (1, 2, 3, 4, 5)
4. Peso hacia la derecha: 5 (1, 2, 3, 4, 5)
5. Distancia a la derecha: 5 (1, 2, 3, 4, 5)
Klahr, D., &Siegler, R.S. (1978). The Representation of Children's Knowledge. In H. W.
Reese & L. P. Lipsitt (Eds.), Advances in Child Development and Behavior, pp. 61-116.
New York: Academic Press
Langley,P. (1987). A General Theory of Discrimination Learning. In D. Klahr, P. Langley, &

R. Neches (Eds.), Production System Models of Learning and Development, pp. 99-161.
Cambridge, MA: MIT Press
Newell, A. (1990). Unified Theories of Cognition. Cambridge, MA: Harvard University Press
McClelland, J.L. (1988). Parallel Distibuted Processing: Implications for Cognition and
Development. Technical Report AIP-47, Department of Psychology, Carnegie-Mellon
University
Shultz, T., Mareschal, D., & Schmidt, W. (1994). Modeling Cognitive Development on
Balance Scale Phenomena. Machine Learning, Vol. 16, pp. 59-88.
Documentos que citan este conjunto de Datos:
Zhi-Hua Zhou and Yuan Jiang and Shifu Chen. Extracting symbolic rules from trained
neural network ensembles. AI Commun, 16. 2003.
Jianbin Tan and David L. Dowe. MML Inference of Decision Graphs with Multi-way Joins
and Dynamic Attributes. Australian Conference on Artificial Intelligence. 2003.
Peter Sykacek and Stephen J. Roberts. Adaptive Classification by VariationalKalman

Filtering. NIPS. 2002.
Remco R. Bouckaert. Accuracy bounds for ensembles under 0 { 1 loss. Xtal Mountain
Information Technology & Computer Science Department, University of Waikato. 2002.
Nir Friedman and MoissGoldszmidt and Thomas J. Lee. Bayesian Network Classification
with Continuous Attributes: Getting the Best of Both Discretization and Parametric Fitting.
ICML. 1998.
Hirotaka Inoue and Hiroyuki Narihisa. Experiments with an Ensemble Self-Generating

Neural Network. Okayama University of Science.
Alexander K. Seewald. Meta-Learning for Stacked Classification. Austrian Research

Institute for Artificial Intelligence. [View Context].
Alexander K. Seewald. Dissertation Towards Understanding Stacking Studies of a General

Ensemble Learning Scheme ausgefuhrtzumZwecke der Erlangung des akademischen
Grades einesDoktors der technischenNaturwissenschaften
Citas:
Balloons Data Set
Resumen: Los datos utilizadospreviamente enexperimento de psicologacognitiva,
4conjuntos de datosrepresentan diferentescondicionesde un experimento
Social
Caractersticas del Nmero de
Multivariado 16 rea:
Conjunto de datos: instancias:
N/A
Caractersticas del Nmero de Fecha de
Categrico 4
atributo: atributos: Donacin
70430
Valores Nmero de
perdidos? accesos Web:
Fuente:
Michael Pazzani (pazzani'@' ics.uci.edu)

Hay cuatroconjuntos de datosque representandiferentescondicionesdeun experimento.
Todos tienenlos mismos atributos.
a. adultostretch.datainfladoes ciertosi la edadadultao=act =tramo
b. adulto +stretch.datainfladoescierto sila edadadulta y=act =tramo
c. pequeayellow.datainfladoes cierto si(color=amarillo ysize =pequeo)o
d.pequeaamarilla+adultostretch.datainfladoes verdadera si(color=amarillo ysize

=pequeo) o (= edadadulta yact =estiramiento)

(ClasesinfladoT oF)
Color:amarillo, morado
Tamao: grande, pequeo
acto: estiramiento, inmersin
edad:adulto, nio
inflado: T, F
Documentosrelevantes:
Pazzani, M. (1991). The influence of prior knowledge on concept acquisition: Experimental

and computational results. Journal of Experimental Psychology: Learning,
Memory&Cognition, 17, 3, 416-432.
Documentos que citan este conjunto de datos:
Ron Kohavi and George H. John and Richard Long and David Manley and Karl Pfleger.
MLC++: A Machine Learning Library in C. ICTAI. 1994.
Citas:
Bank Marketing Data Set
Resumen: Los datos serelacionacon las campaasde marketing directo(llamadas
telefnicas) deuna institucin bancariaportuguesa.El objetivode clasificacines predecirsi
elcliente va asuscribirun depsito a plazo(variabley). datos utilizadospreviamente
enexperimento de psicologacognitiva, 4conjuntos de datosrepresentan
diferentescondicionesde un experimento
Caractersticas del 45211 Negocios
Nmero de
Conjunto de Multivariado rea:
instancias:
datos:
2012-02-
14
Real 17
Nmero de 73510
Valores
Tareas asociadas: Clasificacin N/A accesos
perdidos?
Web:
Fuente:
[Moro et al., 2011] S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct
Marketing: An Application of the CRISP-DM Methodology. In P. Novais et al. (Eds.),
Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-
121, Guimaraes, Portugal, October, 2011. EUROSIS (http://hdl.handle.net/1822/14838)

Los datos serelacionacon las campaasde marketing directodeuna institucin
bancariaportuguesa.Lascampaas de marketingsebasan enllamadas telefnicas.A
menudo,serequierems de un contactoaun mismo cliente, con el fin deaccedersi el
producto(depsito a plazo del banco) sera (o no) suscrito.
Hay dosconjuntos de datos:

1) bancofull.csvcontodos los ejemplos,por fecha(entre mayo de 2008 noviembre de 2010).
2) bank.csvcon un 10%de losejemplos (4521), seleccionados aleatoriamente de
bancofull.csv.
El conjunto de datosms pequeose ofrecepara probaralgoritmos de aprendizaje
automticomsexigentescomputacionalmente(por ejemploSVM).
El objetivode clasificacines predecirsi elcliente va asuscribirun depsito a
plazo(variabley).

Para obtener ms informacin, lea [ Moro et al. , 2011 ] .
Las variables de entrada :

# Datos de clientes del banco :
1 - edad ( numrico)
2 - Trabajo: tipo de trabajo ( categrica : "admin . " , "Desconocido" , "gestin" '
desempleados ', ' sirvienta ', ' empresario ', ' estudiante ' ,
' cuello azul ', ' autnomos ', ' retirado ' , , 'servicios' "tcnico" )
3 - Estado civil : estado civil ( categrica : ' casado ', ' divorciada ' , 'single' , cuenta: '
divorciada ' significa divorciado o viudo )
4 - Educacin ( categrica : "desconocido" , "secundaria" , "primario" , " terciaria" )
5 - por defecto: tiene crdito en mora ? ( binario: 's ', ' no')
6 - equilibrio : balance de promedio anual , en euros (numrico )
7 - vivienda : tiene crdito de vivienda ? ( binario: 's ', ' no')
8 - Prstamo : tiene un prstamo personal ? ( binario: 's ', ' no')
# Relacionada con el ltimo contacto de la campaa actual :
9 - contacto: tipo de contacto de comunicacin ( categrica : "desconocido" , "telfono" , "
celular " )
10 - das : ltimo da de contacto del mes (numrico )
11 - mes : ltimo contacto meses del ao ( categrica : ' enero ', ' febrero ', ' mar' , ..., '
noviembre ', ' diciembre ' )
12 - duracin : ltima duracin de contacto, en el segundo (numrico )
# Otros atributos:
13 - Campaa : nmero de contactos realizados durante esta campaa y para este cliente
(numrico , incluye ltimo contacto )
14 - pdays : nmero de das que pasaron despus de que el cliente fue la ltima en
contacto de una campaa anterior (numrico , -1 significa cliente no se contact
previamente )
15 - anterior : nmero de contactos realizados antes de esta campaa y para este cliente (
numrica)
16 - poutcome : resultado de la campaa de comercializacin anterior ( categrica :
"desconocido" , "otro" , "fracaso" , el "xito" )
Magnitud de salida ( objetivo deseado ) :

17 - y - el cliente ha suscrito un depsito a plazo ? ( binario: 's ', ' no')
El conjunto de datos completos fue descrito y analizado en:

S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An
Application of the CRISP-DM Methodology. In P. Novais et al. (Eds.), Proceedings of the
European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimaraes,
Portugal, October, 2011. EUROSIS.
Citas:
Este conjunto de datoses pblicadisponibles para la investigacin. Losdetalles se
describen en[Moro et al., 2011].
Por favor, incluyaesta citasitiene previsto utilizaresta base de datos:
[Moro etal., 2011] S.Moro, R. y P.LaureanoCortez. El uso dela minera de datospara

BankMarketing Directo: una aplicacin de la metodologaCRISP-DM.
En P.Novaisetal.(Eds.),Actas de laConferenciade SimulacinEuropeayModelado-
ESM'2011, pp117-121, Guimares, Portugal,octubre de 2011. Eurosis
banknote authentication Data Set 2013-04-16
Resumen:
Los datos se obtuvieron a partir de imgenes que fueron tomadas para la evaluacin de un
procedimiento de autenticacin para los billetes de banco.
Caractersticas del Computacin
Nmero de
Conjunto de Multivariable 1372 rea:
instancias:
datos:
2013-04-16
Real 5
Nmero
8049
Valores de
Tareas asociadas: Clasificacin N/A
perdidos? accesos
Web:
Fuente: Propietario de la base de datos: Volker Lohweg (Universidad de Ciencias

Aplicadas Ostwestfalen-Lippe, volker.lohweg '@' hs-owl.de)
Donante de la base de datos: Helene D rksen (Universidad de Ciencias Aplicadas,
Ostwestfalen-Lippe, helene.doerksen '@' hs-owl.de)
Fecha de recepcin: agosto de 2012
Informacin del Conjunto de datos: Los datos fueron obtenidos a partir de imgenes
que fueron tomadas de genuino y forjaron especmenes de billetes similares. Para la
digitalizacin, se utiliz una cmara industrial por lo general utilizados para la inspeccin
de impresin. Las imgenes finales tienen 400x 400 pxeles. Debido a se ganaron la lente
objetivo y la distancia a los objetos de las imgenes en escala de grises investigados con
una resolucin de unos 660 dpi. Wavelet Transform herramienta se utiliza para extraer las
caractersticas de las imgenes.

1. imagen varianza de Wavelet Transformado (continua)
2. imagen asimetra de Wavelet Transformado (continua)
3. imagen curtosis de Wavelet Transformado (continua)
4. entropa de la imagen (continua)
5. clase (entero)
documento presentado (informacin ser subido lo antes posible)
Citas:
Por favor refirase a la poltica de la citacin del Aprendizaje Repositorio Machine
BLOGGER Data Set 2013-07-06

Resumen:
En este trabajo, se busca reconocer las causas de los usuarios tienden a espacio
ciberntico en Kohkiloye y Boyer Ahmad provincia en Irn.
Computacin
Multivariable 100 rea:
2013-07-06
N/A 6
Nmero
9950
Valores de
perdidos? accesos
Web:
Fuente: http://www.ijcaonline.org/archives/volume47/number18/7291-0509

En este trabajo, se busca reconocer las causas de los usuarios tienden al espacio
ciberntico en Kohkiloye y Boyer Ahmad en Provincia Irn. La recogida de informacin
para formar la base de datos se realiza mediante
cuestionario. Este cuestionario se proporciona como oral, escrita as como la
programacin de un sitio web que incluye un servicio de internet cuestionario y los
usuarios pueden responder a las preguntas, ya que
desee. Entraron en sus sitios web utilizados, blogs y sociales redes durante el da.
Despus de recoger los cuestionarios, las direcciones son casados reunida para obtener
los resultados esperados. Y, por ltimo, su confianza se comprueba mediante el anlisis
de sus pginas web utilizadas. Como los resultados eran iguales, para conseguir una
mejor respuesta y silencioso, se puesto en la base de datos.

Se consideraron los siguientes parmetros como preguntas : edad , la educacin, las
actitudes polticas , tema del blog , y el tipo de la identidad en Internet , la influencia de
managers ineficiencia en tendencia , el efecto de los medios de comunicacin
ineficiente en tendencia , los efectos de las condiciones sociales y polticas en tendencia y
finalmente, el efecto de la pobreza en la provincia de tendencia . la
datos ruidosos o demasiado detallados en la base de datos nos hace lejos de conseguir
respuestas apropiadas y adecuadas de algoritmos [ 8 ] . Nos preprocesado los datos y
eliminar algunos datos que no son relevantes .
Finalmente los siguientes son considerados como los principales mbitos que incluyen: la
educacin , el capricho poltico , temas , medios de comunicacin locales, volumen de
negocios ( LMT) y espacio local , poltica y social ( LPSS ) .
Los datos recogidos se muestran en la Tabla 1 .Con el fin de obtener la respuesta correcta
, clasificamos a los bloggers a dos grupos: los bloggers profesionales y de temporada
(temporal ) bloggers . Bloggers profesionales son aquellos que adoptan blog como un
medio digital de efectivo e interesados en la escritura digital en intervalos de tiempo
continuo. Los bloggers de temporada (temporal) Arena t profesional y seguir los blogs
en tiempo discret perodos . En este estudio, se revisan los factores de tendencia
considerando si estas personas se encuentran entre profesionales bloggers ( bloggers pro
, PB ) y, a continuacin , considerar al otro factores de acuerdo con ella.
FS GHAREHCHOPOGH, SRKHAZE, 'Aplicacin de minera de datos para la Tendencia
Cyber Space en la escritura de blog: A Case Studya , Revista Internacional de
Aplicaciones Informticas (IJCA), vol:?? 47, n 18, pp: 40-46 de Julio del 2012 .
Citas: Si usted no tiene ninguna peticin de citas especiales, por favor, deje este campo
en blanco.
Bike Sharing Dataset Data Set 2013-12-20
Resumen:
Este conjunto de datos contiene el nmero de hora y da de alquiler de bicicletas entre los
aos 2011 y 2012 en el sistema de Bikeshare capital con el clima y la informacin
correspondiente de temporada.
Social
Univariante 17389 rea:
2013-12-20
Caractersticas del Entero, Nmero de Fecha de
16
atributo: Real atributos: Donacin
Nmero
8789
Valores de
Tareas asociadas: Regresin N/A
perdidos? accesos
Web:
Fuente:
Laboratorio de Inteligencia Artificial y Apoyo de Decisiones (LIAAD), Universidad de Porto
INESC Porto, Campus da FEUP
Rua Dr. Roberto Fras, 378
4200 - 465 Oporto, Portugal
Fuente original: http://capitalbikeshare.com/system-data

Informacin del tiempo: http://www.freemeteo.com
Calendario de vacaciones: http://dchr.dc.gov/page/holiday-schedule

Sistemas de intercambio de bicicletas son la nueva generacin de renta de bicicletas
tradicionales, donde todo el proceso de la pertenencia , de alquiler y volver ha convertido
en automtica. A travs de estos sistemas , el usuario es capaz de alquilar fcilmente una
bicicleta en una posicin determinada y volver en otra posicin . En la actualidad, hay
alrededor de ms de 500 programas de intercambio de bicicletas en todo el mundo , que
se compone de ms de 500 mil bicicletas. Hoy en da , existe un gran inters en estos
sistemas debido a su importante papel en el trfico, los problemas ambientales y de salud.
Adems de interesantes aplicaciones del mundo real de los sistemas de intercambio de

bicicletas , las caractersticas de los datos que estn siendo generados por estos sistemas
los hacen atractivos para la investigacin. A diferencia de otros servicios de transporte
como el autobs o el metro , la duracin de los viajes , la posicin de salida y llegada se
registra explcitamente en estos sistemas. Esta caracterstica resulta sistema de
intercambio de bicicletas en una red de sensor virtual que puede ser utilizado para
detectar la movilidad en la ciudad . Por lo tanto , se espera que la mayora de los eventos
importantes de la ciudad se pudo detectar a travs de seguimiento de estos datos .

Tanto hour.csv y day.csv tienen los siguientes campos , excepto hr que no est disponible
en day.csv
- Instantnea : ndice de registro

- Dteday : Fecha
- Temporada : Temporada ( 1 : saltador, 2 : verano, 3 : cada , 4: invierno)
- Ao : ao ( 0 : 2011, 1:2012 )
- Mnth : mes (1 a 12 )
- Hr: horas (0 a 23)
- Vacaciones : da de tiempo es la fiesta o no ( extrado de [Web Link] )
- Da de la semana : das de la semana
- Jornada de trabajo : si el da no es ni fin de semana ni vacaciones es 1 , de lo contrario
es 0 .
+ Weathersit :
- 1 : Claro, pocas nubes , Soleado, Parcialmente nublado
- 2 : Bruma + nublado , Bruma + Cielo nuboso , Neblina + Escasas nubes , niebla
- 3 : Soleado , Nublado + Tormenta nubes + dispersas , lluvia ligera nubes dispersas +
- 4 : Heavy Rain + Ice Pallets + + Tormenta Niebla , Nieve + Fog
- Temperatura : la temperatura normalizada en Celsius. Los valores se dividen al 41 ( max)
- Atemp : temperatura de sensacin normalizada en grados Celsius . Los valores se
dividen al 50 ( max)
- Hum : Humedad normalizado . Los valores se dividen al 100 ( max)
- Velocidad del viento : velocidad del viento normalizada . Los valores se dividen al 67 (
max)
- Informal : la cuenta de los usuarios ocasionales
- Registrada : recuento de usuarios registrados
- Cnt : Conteo de las bicicletas de alquiler total , incluyendo tanto casual y registrado
Fanaee-T, Hadi, y Gama, Joao, etiquetado Evento combinando detectores de conjunto y
el conocimiento de fondo", Avances en Inteligencia Artificial (2013): pp 1-15, Springer
Berlin Heidelberg
Citas:
Fanaee-T, Hadi, y Gama, Joao, etiquetado Evento combinando detectores de conjunto y
el conocimiento de fondo", Avances en Inteligencia Artificial (2013): pp 1-15, Springer
Berlin Heidelberg, [Web Link].
@ article {
ao = {2013},
ISSN = {2192-6352},
journal = {Avances en Inteligencia Artificial},
doi = {} 10.1007/s13748-013-0040-3,
title = {etiquetado Evento combinando detectores de conjunto y el conocimiento de fondo},
url = {[Web Link]},
publisher = {} Springer Berlin Heidelberg,
keywords = {etiquetado de eventos, deteccin de eventos, el aprendizaje Ensemble;
Conocimientos previos},
author = {Fanaee-T, Hadi y Gama, Joao},
pages = {1-15}
}
Blood Transfusion Service Center 2008-10-03
Data Set
Resumen:
Datos tomados del Centro de Transfusin de Sangre de servicios en Hsin-Chu City en
Taiwn - se trata de un problema de clasificacin..
Negocios
2008-10-03
Real 5
Nmero
71382
Valores de
perdidos? accesos
Web:
Fuente:
Propietario original y Donantes
Prof. I-Cheng Yeh
Departamento de Gestin de la Informacin
Chung-Hua Universidad,
Hsin Chu, Taiwn 30067, R.O.C.
e-mail: Icyeh '@' chu.edu.tw
TEL :886-3-5186511
Fecha donado: 03 de octubre 2008
Informacin del Conjunto de datos: Para demostrar el modelo de comercializacin

RFMTC (una versin modificada de RFM), este estudio adopt la base de datos de
donantes de sangre del Centro de Transfusin de servicio en Hsin-Chu City en Taiwn. El
centro de sus pases de bus de servicios de transfusin de sangre a una universidad en
Hsin-Chu City para recoger las donaciones de sangre cada tres meses. Para construir un
modelo FRMTC, se seleccionaron 748 donantes al azar de la base de datos de donantes.
Estos datos del donante 748, cada uno incluido R (actualidad - meses desde la ltima
donacin), F (Frecuencia - nmero total de la donacin), M (Monetario - total de la sangre
donada en cc), T (Tiempo - mes desde la primera donacin), y una variable binaria que
representa si l / ella don sangre en marzo de 2007 (1 soporte para la donacin de
sangre, 0 para no donar sangre).
Informacin de los Atributos: Teniendo en cuenta es el nombre de la variable , tipo de

variable , la unidad de medida y una breve descripcin . El " Centro de Servicio de
Transfusin de Sangre " es un problema de clasificacin . El fin de este anuncio
corresponde con el orden de los nmeros a lo largo de las filas de la base de datos .
R (actualidad - meses desde la ltima donacin) ,

F ( Frecuencia - nmero total de la donacin ) ,
M ( monetaria - total de la sangre donada en C.C. ) ,
T ( Time - meses desde la primera donacin) , y
una variable binaria que representa si l / ella don sangre en marzo de 2007 ( 1 soporte
para la donacin de sangre, 0 para no donar sangre ) .
La Tabla 1 muestra la estadstica descriptiva de los datos. Hemos seleccionado los datos
500 al azar como el conjunto de entrenamiento , y el resto 248 como el conjunto de
pruebas .
Tabla 1 . Estadstica descriptiva de los datos
Variable Tipo de datos Descripcin Medida min max significa std

Fecha reciente Meses cuantitativos de entrada 0,03 74,4 9,74 8,07
Frecuencia tiempos cuantitativos Entrada 1 50 5.51 5.84
C.C. cuantitativa Monetario Entrada de sangre 250 12500 1,378.68 1,459.83
Tiempo Meses cuantitativos de entrada 2,27 98,3 34,42 24,32
Si l / ella don sangre 03 2007 binario 1 = si 0 = no hay salida 0 1 1 ( 24 % ) 0 ( 76 %)
Documentos relevantes: Yeh, I-Cheng, Yang, King-Jang, y Ting, Tao-Ming,

"Descubrimiento de conocimiento en el modelo RFM utilizando la secuencia de Bernoulli,"
Expert Systems with Applications, 2008.
Citas:
NOTE: Reuse of this database is unlimited with retention of copyright notice for Prof. I-
Cheng Yeh and the following published paper:
Yeh, I-Cheng, Yang, King-Jang, and Ting, Tao-Ming, "Knowledge discovery on RFM model
using Bernoulli sequence, "Expert Systems with Applications, 2008,
1988-07-11
Breast Cancer Data Set

Resumen:
Datos tomados del Centro de Transfusin de Sangre de servicios en Hsin-Chu City en
Taiwn - se trata de un problema de clasificacin..
Vida
1988-07-11
Categricos 9
Nmero
108124
Valores de
Tareas asociadas: Clasificacin Yes
perdidos? accesos
Web:
Fuente:
Creadores:
Matjaz Zwitter & Milan Soklic (mdicos)

Instituto de Oncologa
University Medical Center
Ljubljana, Yugoslavia
donantes:
Ming Tan y Jeff Schlimmer (Jeffrey.Schlimmer '@' a.gp.cs.cmu.edu)
Informacin del Conjunto de datos: Este es uno de los tres dominios proporcionados
por el Instituto de Oncologa que ha aparecido repetidamente en la literatura de
aprendizaje de mquina. (Ver tambin la linfografa y-tumor primario.)
Este conjunto de datos incluye 201 casos de una clase y 85 casos de otra clase. Los
casos son descritos por 9 atributos, algunos de los cuales son lineales y algunos son
nominales.

1. Clase: sin recurrencia: eventos, eventos de recurrencia
2. edad: 10-19, 20-29, 30-39, 40-49, 50-59, 60-69, 70-79, 80-89, 90-99.
3. menopausia: LT40, GE40, premenopusicas.
4. tumor de tamao: 0-4, 5-9, 10-14, 15-19, 20-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-
54, 55 - 59.
5. INV-nodos: 0-2, 3-5, 6-8, 9-11, 12-14, 15-17, 18-20, 21-23, 24-26, 27-29, 30-32, 33 - 35,
36-39.
6. node-caps: s, no.
7. -grados malignidad: 1, 2, 3.
8. pecho: izquierda, derecha.
9. dando de quad: izquierda-arriba, izquierda-baja, a la derecha-arriba, derecha baja,
central.
10. irradiados: s, no.
Michalski , R. S. , Mozetic , I., Hong , J., y Lavrac , N. ( 1986 ) . El Multi -Purpose
Incremental Learning System AQ15 y su Aplicacin de pruebas de tres dominios de
Medicina . En Actas de la V Conferencia Nacional sobre Inteligencia Artificial , 1041-1045 ,
Philadelphia , PA : Morgan Kaufmann .
Clark , P. Y Niblett , T. ( 1987 ) . Induccin en Noisy Dominios . En curso de aprendizaje de
la mquina (de las Actas de la 2 Sesin europea de Trabajo sobre el Aprendizaje ) , 11-
30 , Bled , Yugoslavia : Sigma Press.
Tan, M., y Eshelman , L. ( 1988 ) . El uso de redes ponderados para representar el
conocimiento clasificacin en dominios ruidosos. Actas de la Quinta Conferencia
Internacional sobre Aprendizaje Automtico , 121-134 , Ann Arbor , MI .
Cestnik , G., Konenenko , I, y Bratko , I. ( 1987 ) . Asistente -86 : Un Conocimiento
Elicitation herramienta para usuarios avanzados . En I.Bratko y N.Lavrac ( Eds. ) Avances
en Aprendizaje Automtico , 31-45 , Sigma Press.
Documentos que citan este conjunto de datos.
Igor Fischer y Jan Polonia. Amplificar la estructura de la matriz de bloques para Espectral
Clustering. Laboratorio de Telecomunicaciones . 2005 . [Ver Contexto ] .
Saher Esmeir y Sal Markovitch . Algoritmos basados en la bsqueda hacia delante para
en cualquier momento de la induccin de rboles de decisin . ICML . 2004 . [Ver Contexto
].
Gavin Brown. La diversidad en Neuronales Conjuntos de red. La Universidad de

Birmingham. 2004 . [Ver Contexto ] .
Kaizhu Huang y Yang Haiqin e Irwin Rey y Michael R. Lyu y Laiwan Chan. Sesgo Machine
Probabilidad Minimax para el diagnstico mdico . AMAI . 2004 . [Ver Contexto ] .
Qingping Tao Ph. D. HACIENDO algoritmos de aprendizaje EFICIENTES CON

EXPONENCIALMENTE muchas caractersticas. Qingping Tao una disertacin Facultad de
El Colegio de Graduados de la Universidad de Nebraska en cumplimiento parcial de los
requisitos . 2004 . [Ver Contexto ] .
Krzysztof Grabczewski y Wl / odzisl / aw Duch. Los bosques heterogneos de rboles de

decisin . ICANN. 2002 . [Ver Contexto ] .
Hussein A. Abbass . Un enfoque de redes neuronales artificiales evolutivo para el

diagnstico del cncer de mama. Inteligencia Artificial en Medicina , 25 . 2002 . [Ver
Contexto ] .
Fei Sha y Lawrence K. Sal y Daniel D. Lee. Actualizaciones multiplicativos para

programacin cuadrtica Nonnegative en Mquinas de Vectores Soporte. PNI. 2002 . [Ver
Contexto ] .
Kristin P. Bennett y Ayhan Demiriz y Richard Maclin . La explotacin de los datos no

marcados en los mtodos del conjunto. KDD . 2002 . [Ver Contexto ] .
Baback Moghaddam y Gregory Shakhnarovich . Impulsado didicas Kernel discriminantes

. PNI. 2002 . [Ver Contexto ] .
Andrs Antos y Balzs Kgl y Tams Linder y Gbor Lugosi . Generalizacin basada
margin- dependiente de los datos limita para la clasificacin. Journal of Machine Learning
Research , 3 . 2002 . [Ver Contexto ] .
Michael G. Madden. Evaluacin del Desempeo de la cadena de Markov clasificador
bayesiano Algoritmo . CoRR , csLG/0211003 . 2002 . [Ver Contexto ] .
Yongmei Wang y Ian H. Witten . Modelado de probabilidad de prediccin ptima . ICML .

2002 . [Ver Contexto ] .
Remco R. Bouckaert . Precisin limita para conjuntos bajo 0 { 1 derrota . Xtal Montaa
Tecnologa de la Informacin y Departamento de Ciencias de la Computacin de la
Universidad de Waikato . 2002 . [Ver Contexto ] .
Nikunj C. Oza y Stuart J. Russell. Comparaciones experimentales de las versiones en

lnea y por lotes de embolsado y potenciar . KDD . 2001 . [Ver Contexto ] .
Bernhard Pfahringer y Geoffrey Holmes y Richard Kirkby . Optimizacin de la induccin de

la alternancia de rboles de decisin . PAKDD . 2001 . [Ver Contexto ] .
Robert Burbidge y Matthew Trotter y Bernard F. Buxton y Sean B. Holden. STAR - Sparsity
travs Rechazo automatizado . IWANN ( 1 ) . 2001 . [Ver Contexto ] .
Bernhard Pfahringer y Geoffrey Holmes y Gabi Schmidberger . Envolviendo Boosters

contra ruido . Australiana Conferencia Conjunta sobre Inteligencia Artificial. 2001 . [Ver
Contexto ] .
W. Nick Street y Yoo- Hyon Kim. Un conjunto algoritmo de secuencias ( SEA ) para la
clasificacin de gran escala. KDD . 2001 . [Ver Contexto ] .
Lorne Mason y Peter L. Bartlett y Jonathan Baxter. Mejora Generalizacin travs de la

optimizacin explcita de Mrgenes. Aprendizaje Automtico , 38. 2000 . [Ver Contexto ] .
Endre Boros y Peter Hammer y Toshihide Ibaraki y Alexander Kogan y Eddy Mayoraz e
Ilya B. Muchnik . Una Aplicacin del anlisis lgico de datos . IEEE Trans . Conocimiento .
Datos Eng, 12 . 2000 . [Ver Contexto ] .
P. S y Bradley K. P y Bennett A. Demiriz . Constreido conglomerados K-means .

Microsoft Research Dept. de Ciencias Matemticas One Microsoft Way Departamento de
Ciencias de la Decisin y el Ing. . Sys . 2000 . [Ver Contexto ] .
Sally A. Goldman y Yan Zhou. La mejora de Aprendizaje Supervisado con datos sin
etiqueta . ICML . 2000 . [Ver Contexto ] .
Justin Bradley y Kristin P. Bennett y Bennett A. Demiriz . Constreido conglomerados K-

means . Microsoft Research Dept. de Ciencias Matemticas One Microsoft Way
Departamento de Ciencias de la Decisin y el Ing. . Sys . 2000 . [Ver Contexto ] .
Yuh- Jeng Lee. Alise Mquinas de Vectores Soporte . Propuesta Preliminar Tesis
Computer Sciences Department de la Universidad de Wisconsin. 2000 . [Ver Contexto ] .
Petri Kontkanen y Petri Myllym y Tomi Silander y Henry Tirri y Peter Gr . En las
distribuciones predictivas y las redes bayesianas . Departamento de Ciencias de la
Computacin de la Universidad de Stanford. 2000 . [Ver Contexto ] .
Kristin P. Bennett y Ayhan Demiriz y John Shawe -Taylor . A Columna algoritmo de

generacin para impulsar . ICML . 2000 . [Ver Contexto ] .
Mateo Mullin y Rahul Sukthankar . Validacin cruzada completa para clasificadores vecino
ms cercano . ICML . 2000 . [Ver Contexto ] .
Chun -Nan Hsu y Hilmar Schuschel y Ya- Ting Yang. El Enfoque ANNIGMA - Envoltura
con Redes Neuronales funcin de seleccin de Descubrimiento de Conocimiento y Minera
de Datos . Instituto de Ciencias de la Informacin . 1999 . [Ver Contexto ] .
David M J Tax y Robert P W Duin . Apoyar descripcin del dominio del vector. Pattern
Recognition Letters , 20 . 1999 . [Ver Contexto ] .
Kai Ming Ting y Ian H. Witten . Problemas en Stacked generalizacin. J. Artif . Intell . Res. .
( JAIR , 10 . 1999 . [Ver Contexto ] .
Ismail Taha y Joydeep Ghosh . Interpretacin simblica de las Redes Neuronales

Artificiales . IEEE Trans . Conocimiento . Datos Eng, 11 . 1999 . [Ver Contexto ] .
Lorne Mason y Jonathan Baxter y Peter L. Bartlett y Marcus Frean . Impulsar Algoritmos
como Gradient Descent . PNI. 1999 . [Ver Contexto ] .
Iaki Inza y Pedro Larraaga y Basilio Sierra y Ramn Etxeberria y Jos Antonio Lozano y
Jos Manuel Pea. En representacin del comportamiento de los algoritmos de
aprendizaje de clasificacin supervisada por redes bayesianas . Pattern Recognition
Letters , 20 . 1999 . [Ver Contexto ] .
David W. Opitz y Richard Maclin . Populares Ensemble Mtodos: Un estudio emprico . J.

Artif . Intell . Res. . ( JAIR , 11 . 1999 . [Ver Contexto ] .
Lorne Mason y Peter L. Bartlett y Jonathan Baxter. Optimizacin directo de Mrgenes

Mejora Generalizacin en clasificadores combinados . PNI. 1998 . [Ver Contexto ] .
Richard Maclin . Impulsar Clasificadores nivel regional . AAAI / IAAI . 1998 . [Ver Contexto
].
Huan Liu y Hiroshi Motoda y Manoranjan Dash. A Medida Monotnica ptima Seleccin
de caractersticas. ECML . 1998 . [Ver Contexto ] .
Yk Huhtala y Juha Krkkinen y Pasi Porkka y Hannu Toivonen . Descubrimiento eficiente

de las dependencias funcionales y aproximadas utilizando particiones . ICDE . 1998 . [Ver
Contexto ] .
W. Nick Street. Un modelo de red neuronal para la prediccin pronstica . ICML . 1998 .
[Ver Contexto ] .
Kristin P. Bennett y Erin J. Bredensteiner . Un mtodo paramtrico Optimizacin de

Aprendizaje Automtico . INFORMA Journal on Computing, 9 . 1997 . [Ver Contexto ] .
Pedro Domingos . Control- Sensible Seleccin de caractersticas para los Estudiantes de

Lazy . Artif . Intell . Rev , 11 . 1997 . [Ver Contexto ] .
Rudy Setiono y Huan Liu. NeuroLinear : De redes neuronales para las reglas de decisin
oblicuos. Neurocomputing , 17 . 1997 . [Ver Contexto ] .
. Seleccin Prototipo para compuestos Clasificadores vecino ms cercano . Departamento

de Informtica Universidad de Massachusetts. 1997 . [Ver Contexto ] .
Ismail Taha y Joydeep Ghosh . Caracterizacin de la Wisconsin El cncer de mama base

de datos mediante un sistema simblico - conexionista hbrido . Actas de Annie. 1996 .
[Ver Contexto ] .
Kamal Ali y Michael J. Pazzani . Reduccin de errores a travs del aprendizaje mltiples
descripciones. Aprendizaje Automtico , 24 . 1996 . [Ver Contexto ] .
Jennifer A. Azul y Kristin P. Bennett. Hbrido Extreme Point Bsqueda Tab .

Departamento de Ciencias Matemticas del Instituto Politcnico Rensselaer . 1996 . [Ver
Contexto ] .
Pedro Domingos . Unifying Instancia basada e induccin basada en reglas . Aprendizaje

Automtico , 24 . 1996 . [Ver Contexto ] .
Erin J. Bredensteiner y Kristin P. Bennett. Caracterstica Minimizacin en rboles de

decisin . Fundacin Nacional de Ciencia. 1996 . [Ver Contexto ] .
Geoffrey I. Webb. OPUS : Un Algoritmo admisible Eficiente para Unordered Buscar . J.

Christophe Giraud y Tony Martnez y Christophe G. Giraud -Carrier . Universidad del

Departamento de Ciencias de la Computacin de la ILA Bristol: Combinar inductivo de
aprendizaje con el conocimiento previo y razonamiento . 1995 . [Ver Contexto ] .
Ron Kohavi . Un estudio de la validacin cruzada y Bootstrap para la Precisin Estimacin

y seleccin del modelo . IJCAI . 1995 . [Ver Contexto ] .
Rong -En Fan y P. Chen -H y C -J Lin. Conjunto de trabajo de seleccin utilizando la

segunda informacin de la orden para la Formacin SVM . Departamento de Ciencias de
la Computacin e Ingeniera de la Informacin de la Universidad Nacional de Taiwn . [Ver
Contexto ] .
Rong Jin Yan y Liu y Luo Si y Jaime Carbonell y Alexander G. Hauptmann . Un Nuevo
Impulso algoritmo utilizando regularizador Input- Dependiente. Facultad de Ciencias de la
Computacin , de la Universidad Carnegie Mellon. [Ver Contexto ] .
David Kwartowitz y Sean Brophy y Horace Mann. Sesin S2D Work In Progress : El
establecimiento de mltiples contextos de refinamiento progresivo de los estudiantes de la
minera de datos. [Ver Contexto ] .
Geoffrey I Webb. La generalidad es ms significativa que la complejidad: Hacia una

alternativa a la navaja de Occam . Facultad de Informtica y Matemticas de la
Universidad de Deakin . [Ver Contexto ] .
Karthik Ramakrishnan . UNIVERSIDAD DE MINNESOTA . [Ver Contexto ] .
Geoffrey I Webb. Aprender Listas de decisin anteponiendo Reglas inferidos . Facultad de

Informtica y Matemticas de la Universidad de Deakin . [Ver Contexto ] .
Adil M. Bagirov y Alex Rubinov y AN Soukhojak y John Yearwood . Clasificacin de datos

no supervisada y supervisada a travs de no lisos y optimizacin global. Escuela de
Tecnologa de la Informacin y Ciencias Matemticas de la Universidad de Ballarat . [Ver
Contexto ] .
MV Fidelis y Heitor S. Lopes y Alex Alves Freitas . Descubriendo comprensibles Reglas de

clasificacin con un Algoritmo Gentico . UEPG , CPD CEFET -PR , CPGEI PUC- PR ,
PPGIA Praa Santos Andrade, s / n Av . Sete de Setembro . [Ver Contexto ] .
Chris Drummond y Robert C. Holte . C4.5 , desequilibrio de clases , y costo Sensibilidad:

Por qu sub- muestreo late sobremuestreo . Instituto para la Tecnologa de la
Informacin , el Consejo de Investigacin Nacional de Canad. [Ver Contexto ] .
Wl odzisl / aw Duch y Rudy Setiono y Jacek M. Zurada . Mtodos de inteligencia
computacional para la comprensin de datos basado en normas . [Ver Contexto ] .
Maria Salamo y Elisabet Golobardes . El anlisis de los mtodos de ponderacin Rough

Sets de Razonamiento Basado en Casos Systems. Enginyeria i Arquitectura La Salle. [Ver
Contexto ] .
G. Ratsch y B. Scholkopf y Alex Smola y K. Muller -R y T. Onoda y Sebastian Mika . Arco :

Conjunto de Aprendizaje en la presencia de valores atpicos . GMD PRIMERO. [Ver
Contexto ] .
D. Randall Wilson y Roel Martinez . Mejora Seleccin Center Point para probabilsticos
Redes Neuronales . Actas de la Conferencia Internacional sobre Redes Neuronales
Artificiales y Algoritmos Genticos . [Ver Contexto ] .
Chiranjib Bhattacharyya . Clasificacin robusta de datos ruidosos utilizando el enfoque de

programacin Segunda Cono Orden. Dpto. Informtica y Automtica , Instituto Indio de
Ciencia . [Ver Contexto ] .
K. A. J Doherty y Rolf Adams y Neil Davey . Aprendizaje no supervisado con Normalizado

de Datos y no euclidianas Normas. Universidad de Hertfordshire. [Ver Contexto ] .
Adam H. Cannon y Lenore J. Cowen y Carey E. Priebe . Clasificacin Distancia

aproximada. Departamento de Ciencias Matemticas de la Universidad Johns Hopkins.
[Ver Contexto ] .
G. Ratsch y B. Scholkopf y Alex Smola y Sebastian Mika y T. Onoda y K. -R Muller.

Robusto Aprendizaje Ensemble for Data Mining. GMD PRIMERA , Kekul # estr . [Ver
Contexto ] .
Andrew I. Schein y Lyle H. Ungar . A- optimalidad para el Aprendizaje Activo de regresin

logstica de los clasificadores . Departamento de Informtica y Ciencias de la Informacin
Levine Hall. [Ver Contexto ] .
Huan Liu. Una familia de generadores de reglas eficientes . Departamento de Sistemas

Informticos y la Universidad Nacional de Ciencias de la Computacin de Singapur. [Ver
Contexto ] .
Alexander K. Seewald . Disertacin hacia la comprensin de apilamiento Los estudios de

un general Ensemble Aprendizaje Esquema ausgefuhrt zum Zwecke der Erlangung des
akademischen Grados eines der Doktors technischen Naturwissenschaften . [Ver Contexto
].
Rafael S. Parpinelli y Heitor S. Lopes y Alex Alves Freitas . CUARTA PARTE :

OPTIMIZACIN colonia de hormigas e Inmunolgico Captulo X Una colonia de hormigas
algoritmo para la Clasificacin Regla Discovery. CEFET -PR , Curitiba . [Ver Contexto ] .
Paul D. Wilson y Tony R. Martnez. Combinar la validacin cruzada y Confianza medir la

aptitud . corporacin fonix la Universidad Brigham Young. [Ver Contexto ] .
Charles Campbell y Nello Cristianini . Algoritmos de aprendizaje simples para Mquinas de

Vectores Soporte Entrenamiento. Departamento de Ingeniera Matemtica . [Ver Contexto
].
Nikunj C. Oza y Stuart J. Russell. Embolsado en lnea e impulsar . Divisin de Ciencias de

la Computacin de la Universidad de California. [Ver Contexto ] .
Michael R. Berthold y Klaus - Peter Huber. Desde Radial para Funciones de Base
Rectangular : Un nuevo enfoque para la Regla Aprendiendo de grandes conjuntos de
datos . Institut fur Rechnerentwurf und Fehlertoleranz (Prof. D. Schmid ) Universitat
Karlsruhe. [Ver Contexto ] .
Bart Baesens y Stijn Viaene y Tony Van Gestel y JA K Suykens y Guido Dedene y Bart De
Moor y Jan VANTHIENEN y Universidad Catlica de Lovaina . Estudio emprico de tipo
Kernel Desempeo de Mnimos Cuadrados Apoyo Vector Machine clasificadores . Dept.
Aplicadas Ciencias Econmicas . [Ver Contexto ] .
Rudy Setiono y Huan Liu. Selector de funciones neuronales de la red . Departamento de

Sistemas Informticos y la Universidad Nacional de Ciencias de la Computacin de
Singapur. [Ver Contexto ] .
Rafael S. Parpinelli y Heitor S. Lopes y Alex Alves Freitas . Un sistema basado en Colonia
de Hormigas para minera de datos : Aplicaciones a los datos mdicos . CEFET -PR ,
CPGEI Av . Sete de Setembro, 3165 . [Ver Contexto ] .
Wl odzisl y Rafal Adamczak y Krzysztof Grzegorz Grabczewski y Zal . Un mtodo hbrido

para la extraccin de reglas lgicas de datos . Departamento de Mtodos
Computacionales , Universidad Nicols Coprnico. [Ver Contexto ] .
Jarkko Salojrvi y Samuel Kaski y Janne Sinkkonen . Clustering discriminativo en las

mtricas de Fisher. Redes Neuronales Research Centre Helsinki University of Technology.
[Ver Contexto ] .
Rudy Setiono . La extraccin de M- de -N Normas de Capacitacin de Redes Neuronales .

Escuela de la Universidad Nacional de Computacin de Singapur. [Ver Contexto ] .
Ayhan Demiriz y Kristin P. Bennett y John Shawe y yo Nouretdinov V. . Programacin

Lineal Impulsar a travs de la generacin de columnas . Departamento de Ciencias de la
Decisin y el Ing. . Sistemas , el Instituto Politcnico Rensselaer . [Ver Contexto ] .
Liping Wei y Russ B. Altman. Un sistema automatizado para la generacin de perfiles

comparativo de Enfermedades y hacer diagnsticos . Seccin de Informtica Universidad
de Stanford Escuela de Medicina de Medicina, MSOB X215 . [Ver Contexto ] .
Chotirat Ann y Dimitrios Gunopulos . La ampliacin de la Ingenuo clasificador bayesiano :

Utilizacin de rboles de decisin para la Seleccin de caractersticas. Departamento de
Ciencias de la Computacin de la Universidad de California. [Ver Contexto ] .
Sherrie L. W y Zijian Zheng. UN REFERENTE PARA CLASIFICADOR DE APRENDIZAJE

. Departamento Basser de Ciencias de la Computacin de la Universidad de Sydney. [Ver
Contexto ] .
John W. Chinneck . Heursticos rpidos para el Problema mxima Subsistema factible.

Ingeniera de Sistemas y Computacin, Universidad de Carleton. [Ver Contexto ] .
M. A. Galway y Michael G. Madden. DEPARTAMENTO DE TECNOLOGA DE LA

INFORMACIN informe tcnico NUIG -IT- 011002 Evaluacin del Desempeo de la
cadena de Markov clasificador bayesiano Algoritmo . Departamento de Tecnologa de la
Informacin de la Universidad Nacional de Irlanda, Galway. [Ver Contexto ] .
John G. Cleary y Leonard E. Trigg . Las experiencias con el OB 1 , una decisin ptima
Bayes Tree alumno. Departamento de Informtica Universidad de Waikato . [Ver Contexto
].
Wl / odzisl / aw Duch y Rafal / Adamczak Email: duchraad @ fs . uni . Torun . pl. Mtodos
estadsticos para la construccin de las redes neuronales . Departamento de Mtodos
Computacionales , Universidad Nicols Coprnico
Citas:
Este dominio del cncer de mama se obtuvo del Centro Mdico de la Universidad, Instituto
de Oncologa, Ljubljana, Yugoslavia. Damos las gracias a M. y M. Zwitter Soklic de
proporcionar los datos. Por favor, incluya esta cita si tiene previsto utilizar esta base de
datos.
Breast Cancer Wisconsin (Original) Data Set 1992-07-15
Resumen:
Base de datos Wisconsin Breast Cancer original.
Vida
1992-07-15
Entero 10
Nmero
112739
Valores de
perdidos? accesos
Web:
Fuente:
Creador:
El Dr. William H. Wolberg (mdico)

Universidad de Wisconsin Hospitales
Madison, Wisconsin, EE.UU.
Donante:
Olvi Mangasarian (Mangasarian '@' cs.wisc.edu)

Recibido por David W. Aha (aha '@' cs.jhu.edu)
Informacin del Conjunto de datos: Las muestras llegan peridicamente segn informa
el Dr. Wolberg sus casos clnicos. Por consiguiente, la base de datos refleja esta
agrupacin cronolgica de los datos . Esta informacin de agrupacin aparece
inmediatamente a continuacin , despus de haber sido retirado de los datos en s :
Grupo 1: 367 casos (enero , 1989)

Grupo 2: 70 casos (octubre 1989)
Grupo 3: 31 casos ( febrero de 1990)
Grupo 4: 17 casos ( abril de 1990)
Grupo 5: 48 casos ( agosto de 1990)
Grupo 6: 49 casos ( Actualizado en enero de 1991)
Grupo 7: 31 casos ( junio de 1991)
Grupo 8: 86 casos ( noviembre de 1991)
-----------------------------------------
Total: 699 puntos ( a partir de la datbase donado el 15 de julio de 1992)
Tenga en cuenta que los resultados sealados en uso en el pasado se refieren a un

conjunto de datos de tamao de 369, mientras que el Grupo 1 tiene slo 367 casos . Esto
es debido a que contena originalmente 369 casos ; 2 fueron retirados . Las siguientes
declaraciones resume los cambios en el original conjunto de datos del Grupo 1 :
# # # # # Grupo 1: 367 puntos: 200B 167M (enero de 1989)

# # # # # Revisada 10 de enero 1991 : se ha sustituido cero ncleos desnudos en 1080185
y 1187805
# # # # # Revisado noviembre 22,1991 : Eliminada 765878,4,5,9,7,10,10,10,3,8,1 ningn

registro
# # # # # : Eliminada 484201,2,7,8,8,4,3,10,3,4,1 cero epitelial
# # # # # : Se ha cambiado de 0 a 1 en el campo 6 de la muestra 1219406
# # # # # : Se ha cambiado de 0 a 1 en el campo 8 del siguiente ejemplo :
# # # # #: 1182404,2,3,1,1,1,2,0,1,1,1

1. Nmero de cdigo de la muestra: nmero de identificacin
2. Espesor Macizo: 1 - 10
3. Uniformidad de Tamao de celda: 1 - 10
4. La uniformidad de la forma celular: 1 - 10
5. Adhesin Marginal: 1 - 10
6. Soltero epitelial Tamao de celda: 1 - 10
7. Bare Nucleos: 1 - 10
8. La cromatina de Bland: 1 - 10
9. Nucleolos normal: 1 - 10
10. Mitosis: 1 - 10
11. Clase: (2 para benigna, 4 para maligna)
Wolberg, W. H., y Mangasarian, O.L. (1990). Mtodo MultiSurface de separacin patrn
para el diagnstico mdico aplicado a la citologa de mama. En Actas de la Academia
Nacional de Ciencias, 87, desde 9.193 hasta 9.196.
[Web Link]
Zhang, J. (1992). Seleccin de casos tpicos en el aprendizaje basado en instancias. En

Actas de la Novena Conferencia Internacional de Aprendizaje Automtico (pp. 470-479).
Aberdeen, Escocia: Morgan Kaufmann.
Documentos que citan este conjunto de datos




Contexto ] .


Yuh- Jeng Lee. Alise Mquinas de Vectores Soporte . Propuesta Preliminar Tesis
Computer Sciences Department de la Universidad de Wisconsin. 2000 . [Ver Contexto ] .


P. S y Bradley K. P y Bennett A. Demiriz . Constreido conglomerados K-means .

Ciencias de la Decisin y el Ing. . Sys . 2000 . [Ver Contexto ] .
de Datos . Instituto de Ciencias de la Informacin . 1999 . [Ver Contexto ] .
Huan Liu y Hiroshi Motoda y Manoranjan Dash. A Medida Monotnica ptima Seleccin
de caractersticas. ECML . 1998 . [Ver Contexto ] .

W. Nick Street. Un modelo de red neuronal para la prediccin pronstica . ICML . 1998 .
[Ver Contexto ] .

Contexto ] .



Ismail Taha y Joydeep Ghosh . Caracterizacin de la Wisconsin El cncer de mama base

de datos mediante un sistema simblico - conexionista hbrido . Actas de Annie. 1996 .
[Ver Contexto ] .
Jennifer A. Azul y Kristin P. Bennett. Hbrido Extreme Point Bsqueda Tab .
Departamento de Ciencias Matemticas del Instituto Politcnico Rensselaer . 1996 . [Ver
Contexto ] .
Geoffrey I. Webb. OPUS : Un Algoritmo admisible Eficiente para Unordered Buscar . J.



[Ver Contexto ] .


Contexto ] .


Contexto ] .


[Ver Contexto ] .


Vectores Soporte Entrenamiento. Departamento de Ingeniera Matemtica . [Ver Contexto
].


Citas:
Esta base de datos de cncer de mama se obtuvo de la Universidad de Wisconsin
Hospitales , Madison del Dr. William H. Wolberg . Si publica resultados al utilizar esta base
de datos , a continuacin, por favor incluya esta informacin en sus agradecimientos.
Tambin, por favor, cite uno o ms de :
1 . OL Mangasarian y WH Wolberg : " El diagnstico de cncer a travs de la
programacin lineal " , SIAM News, Volumen 23 , Nmero 5, septiembre de 1990, pp 1 y
18 .
2 . William H. Wolberg y O.L. Mangasarian : " mtodo MultiSurface de separacin patrn
para el diagnstico mdico aplicado a la citologa de mama " , Actas de la Academia
Nacional de Ciencias, EE.UU. , Volumen 87 , diciembre de 1990, pp 9193-9196 .
3 . O. L. Mangasarian , R. Setiono , y W. H. Wolberg : " El reconocimiento de patrones a
travs de la programacin lineal : teora y aplicacin al diagnstico mdico ", en: "La
optimizacin a gran escala numrica " , Thomas F. Coleman y Yuying Li, editores , SIAM
Publicaciones , Philadelphia 1990 , pp 22-30 .
4 . KP Bennett & OL Mangasarian : "discriminacin programacin lineal robusta de dos
conjuntos linealmente inseparables " , Mtodos de Optimizacin y Software 1 , 1992 , 23-
34 (Gordon & Breach Science Publishers ) .
Breast Cancer Wisconsin (Prognostic) Data Set 1995-12-01
Resumen:
Base de datos Wisconsin Cncer de Mama pronstico.
Vida
1995-12-01
Real 34
Nmero
53640
Clasificacin y Valores de
Tareas asociadas: Yes
Regresi perdidos? accesos
Web:
Fuente:
Creadores:
1. Dr. William H. Wolberg, el General Dpto. de Ciruga

Universidad de Wisconsin, Centro de Ciencias Clnicas
Madison, WI 53792
Wolberg '@' eagle.surgery.wisc.edu
2. W. Nick Street, Ciencias de la Informtica Departamento

Universidad de Wisconsin
1210 West Dayton St., Madison, WI 53706
calle '@' cs.wisc.edu 608-262-6619
3. Olvi L. Mangasarian, Ciencias de la Informtica Dept.,

Universidad de Wisconsin
1210 West Dayton St., Madison, WI 53706
Olvi '@' cs.wisc.edu
Donante:
Nick Street
Informacin del Conjunto de datos: Cada registro representa los datos de seguimiento de
un caso de cncer de mama. Se trata de pacientes atendidos de forma consecutiva por el
Dr. Wolberg desde 1984, e incluyen slo aquellos casos que presentan cncer de mama
invasivo y sin evidencia de metstasis a distancia en el momento del diagnstico.
Los primeros 30 elementos se calculan a partir de una imagen digitalizada de un aspirado

con aguja fina ( PAAF ) de una masa en la mama . Se describen las caractersticas de los
ncleos de las clulas presentes en la imagen . Algunas de las imgenes se pueden
encontrar en [Web Link]
La separacin se ha descrito anteriormente se obtuvo utilizando el Mtodo MultiSurface -

Tree ( HSH -T) [ K. P. Bennett, " Decisin Programacin Tree Construccin Va lineal . "
Actas de la cuarta Inteligencia Artificial Midwest and Cognitive Science Society , pp 97-101 ,
1992 ] , un mtodo de clasificacin que utiliza la programacin lineal para construir un rbol
de decisin . Caractersticas relevantes fueron seleccionados mediante una bsqueda
exhaustiva en el espacio de caractersticas y 1-4 1-3 planos de separacin.
El programa lineal real utilizado para obtener el plano de separacin en el espacio 3 -

dimensional es el que se describe en :
[ K. P. Bennett y OL Mangasarian : " Robust Programacin Lineal Discriminacin de dos
conjuntos linealmente Inseparables " , Mtodos de optimizacin y Software 1 , 1992, 23-34 ]
.
El mtodo Recurrencia aproximacin superficial ( RSA) es un modelo de programacin lineal

que predice Tiempo a repetirse utilizando casos recurrentes y no recurrentes tanto . Vanse
las referencias (i) y ( ii) anterior para los detalles del mtodo RSA .
Esta base de datos tambin est disponible a travs del servidor ftp UW CS:
ftp ftp.cs.wisc.edu
cd math-prog/cpo-dataset/machine-learn/WPBC /

1) Nmero de identificacin
2) Resultado (R = recurrente, N = nonrecur)
3) Tiempo (tiempo de recurrencia si el campo 2 = R, el tiempo libre de la enfermedad
si el campo 2 = N)
4-33) Diez funciones con valores reales se calculan para cada ncleo de la clula:
a) radio (media de las distancias de centro a puntos en el permetro)

b) la textura (desviacin estndar de los valores de la escala de grises)
c) permetro
d) rea de
e) la suavidad (variacin local en longitudes de radio)
f) compacidad (permetro ^ 2 / zona - 1,0)
g) concavidad (severidad de las porciones cncavas del contorno)
puntos h) cncavas (nmero de porciones cncavas del contorno)
i) la simetra
j) la dimensin fractal ("aproximacin costa" - 1)
W. N. Street, O. L. Mangasarian y W.H. Wolberg . Un enfoque de aprendizaje inductivo para
la prediccin pronstica. En A. Prieditis y S. Russell, editores , Actas de la duodcima
Conferencia Internacional sobre Aprendizaje Automtico , pginas 522 a 530 , San
Francisco, 1995 . Morgan Kaufmann .
[Web Link]
O.L. Mangasarian , W.N. Street y W. H. Wolberg . Diagnstico de cncer de mama y el

pronstico a travs de la programacin lineal. Operations Research , 43 ( 4 ), pginas 570-
577 , julio- agosto de 1995.
[Web Link]
W.H. Wolberg , W.N. Street, D. M. Heisey y O.L. Mangasarian . Diagnstico de cncer de

mama computarizado y el pronstico de aspirados con aguja fina . Archives of Surgery 1995
; 130:511-516 .
[Web Link]
W.H. Wolberg , W.N. Street, y O.L. Mangasarian . Anlisis de la imagen y de la mquina de

aprendizaje aplicado al diagnstico de cncer de mama y el pronstico. Analtica y
cuantitativa de Citologa e Histologa , vol. 17 N 2 , pginas 77-87 , abril de 1995.
W.H. Wolberg , W.N. Street, D. M. Heisey y O.L. Mangasarian . Computer derivados `` grado
nuclear '' y el pronstico del cncer de mama. Analtica y cuantitativa de Citologa e
Histologa , vol. 17 , pginas 257-264 , 1995 .




Contexto ] .
Baback Moghaddam y Gregory Shakhnarovich . Impulsado didicas Kernel discriminantes .

PNI. 2002 . [Ver Contexto ] .
Nikunj C. Oza y Stuart J. Russell. Comparaciones experimentales de las versiones en lnea

y por lotes de embolsado y potenciar . KDD . 2001 . [Ver Contexto ] .
Yuh- Jeng Lee. Alise Mquinas de Vectores Soporte . Propuesta Preliminar Tesis Computer
Sciences Department de la Universidad de Wisconsin. 2000 . [Ver Contexto ] .


P. S y Bradley K. P y Bennett A. Demiriz . Constreido conglomerados K-means . Microsoft

Research Dept. de Ciencias Matemticas One Microsoft Way Departamento de Ciencias de
la Decisin y el Ing. . Sys . 2000 . [Ver Contexto ] .
Endre Boros y Peter Hammer y Toshihide Ibaraki y Alexander Kogan y Eddy Mayoraz e Ilya
B. Muchnik . Una Aplicacin del anlisis lgico de datos . IEEE Trans . Conocimiento . Datos
Eng, 12 . 2000 . [Ver Contexto ] .
Chun -Nan Hsu y Hilmar Schuschel y Ya- Ting Yang. El Enfoque ANNIGMA - Envoltura con
Redes Neuronales funcin de seleccin de Descubrimiento de Conocimiento y Minera de
Datos . Instituto de Ciencias de la Informacin . 1999 . [Ver Contexto ] .
Huan Liu y Hiroshi Motoda y Manoranjan Dash. A Medida Monotnica ptima Seleccin de
caractersticas. ECML . 1998 . [Ver Contexto ] .
W. Nick Street. Un modelo de red neuronal para la prediccin pronstica . ICML . 1998 . [Ver
Contexto ] .

Contexto ] .



Ismail Taha y Joydeep Ghosh . Caracterizacin de la Wisconsin El cncer de mama base de

datos mediante un sistema simblico - conexionista hbrido . Actas de Annie. 1996 . [Ver
Contexto ] .
Jennifer A. Azul y Kristin P. Bennett. Hbrido Extreme Point Bsqueda Tab . Departamento
de Ciencias Matemticas del Instituto Politcnico Rensselaer . 1996 . [Ver Contexto ] .
Geoffrey I. Webb. OPUS : Un Algoritmo admisible Eficiente para Unordered Buscar . J. Artif .
Intell . Res. . ( JAIR , 3 . 1995 . [Ver Contexto ] .

Adam H. Cannon y Lenore J. Cowen y Carey E. Priebe . Clasificacin Distancia aproximada.

Departamento de Ciencias Matemticas de la Universidad Johns Hopkins. [Ver Contexto ] .

Adil M. Bagirov y Alex Rubinov y AN Soukhojak y John Yearwood . Clasificacin de datos no
supervisada y supervisada a travs de no lisos y optimizacin global. Escuela de Tecnologa
de la Informacin y Ciencias Matemticas de la Universidad de Ballarat . [Ver Contexto ] .


Contexto ] .


[Ver Contexto ] .

para la extraccin de reglas lgicas de datos . Departamento de Mtodos Computacionales ,
Universidad Nicols Coprnico. [Ver Contexto ] .

Vectores Soporte Entrenamiento. Departamento de Ingeniera Matemtica . [Ver Contexto ] .


Citas:
Por favor, consulte el Repositorio de polticas citacin Aprendizaje Automtico
Breast Tissue Data Set 2010-05-10
Resumen:
Conjunto de datos con las mediciones de impedancia elctrica de muestras de tejido
recin extirpadas de la mama.
Vida
2010-05-10
Real 10
Nmero
38869
Valores de
perdidos? accesos
Web:
Fuente:
JP Marqus de S, INEB-Instituto de Engenharia Biomdica, Porto, Portugal; e-mail:
jpmdesa '@' gmail.com
J Jossinet, INSERM, Lyon, Francia

Las mediciones de impedancia se realizaron en las frecuencias: 15.625, 31.25, 62.5, 125,
250, 500, 1000 KHz
Las mediciones de impedancia de tejido de mama recin extirpado se realizaron a las
frecuencias follwoing: 15,625, 31,25, 62,5, 125, 250, 500, 1000 KHz. Estas mediciones
representan grficamente en la (imaginaria, real) avin constituyen el espectro de
impedancia desde donde se calculan las caractersticas del tejido del seno.
El conjunto de datos se puede utilizar para predecir la clasificacin de cualquiera de las 6
clases de originales o de 4 clases por fusionando la fibro-adenoma, mastopata y clases
glandulares cuya discriminacin no es importante (que no se pueden discriminar con
precisin de todos modos).
Informacin de los Atributos: I0 Impedivity (ohmios) en la frecuencia cero

ngulo de fase PA500 a 500 KHz
HFS pendiente de alta frecuencia de ngulo de fase
Distancia impedancia DA entre los extremos del espectro
rea rea bajo el espectro
Un rea / DA normalizado por DA
Mximo MAX IP del espectro
DR distancia entre I0 y parte real del punto de la frecuencia mxima
Longitud P de la curva espectral
Coche Class (carcinoma), FAD (fibro-adenoma), mas (mastopata), gla (glandular), con
(conectivo), adi (adiposo). la
Jossinet J (1996) Variabilidad de impedivity en el tejido normal y patolgico de mama.
Med. Y Biol. Eng. Y Comput, 34: 346-350.
Silva JE, Marqus de S JP, Jossinet J (2000) Clasificacin del tejido mamario mediante
Espectroscopia de Impedancia Elctrica. Med & Bio Eng & Computing, 38:26-30.
Citas: Por favor, consulte el Repositorio de polticas citacin Aprendizaje Automtico
Buzz in social media Data Set 2013-05-27
Resumen:
Este conjunto de datos contiene ejemplos de eventos de moda de dos redes sociales
diferentes: Twitter y Hardware de Tom, una red foro se centra en las nuevas tecnologas
con una dinmica ms conservadoras.
Caractersticas 140000 Computacin
Time-Series., Nmero de
del Conjunto de rea:
Multivariado instancias:
datos:
2013-05-27
Entero, Real 77
Nmero
Tareas Clasificacin Valores de
N/A 13006
asociadas: y Regresin perdidos? accesos
Web:
Fuente:
Creadores:
Franois Kawala (1.2) Ahlame Douzal (1) Eric Gaussier (1) Diemert Eustache (2)
Instituciones:
(1) de la Universidad Joseph Fourier (Grenoble I)
Laboratorio de Informtica de Grenoble (LIG)
(2) Grupo Bestofmedia Red
Donante:
Bestofmedia (ediemert '@' bestofmedia.com)
Informacin del Conjunto de datos: Porfavor ver [Web Link]
Informacin de los Atributos: Porfavor ve [Web Link]
Las predicciones de la actividad en las redes sociales en lnea (F. Kawala, A. Douzal-
Chouakria, E. Gaussier, E. Dimert), En Actas de la Conferencia sobre Modelos y Anlisis
de Redes: Acercamientos Matemticas y Ciencias de la Computacin (Marami), p. 16,
2013.
Citas:
Las predicciones de la actividad en las redes sociales en lnea (F. Kawala, A. Douzal-
Chouakria, E. Gaussier, E. Dimert), En Actas de la Conferencia sobre Modelos y Anlisis
de Redes: Acercamientos Matemticas y Ciencias de la Computacin (Marami), p. 16,
2013.
CalIt2 Building People Counts Data Set 2006-12-01
Resumen:
Estos datos vienen de la puerta principal del edificio de Calit2 en UCI.
Multivariado,
Caractersticas 10080 N/A
Time-Series Nmero de
del Conjunto de rea:
instancias:
datos:
2006-12-01
Caractersticas Entero, Nmero de Fecha de
4
del atributo: Categrico atributos: Donacin
Nmero
19578
Valores de
Tareas asociadas: N/A No
perdidos? accesos
Web:
Fuente:
Creador y Mantenedor:
Jon Hutchins
UCI
johutchi '@' uci.edu
Informacin del Conjunto de datos: Observaciones provienen de 2 flujos de datos (flujo

de personas dentro y fuera del edificio), ms de 15 semanas, 48 segmentos de tiempo por
da (agregados de recuento de media hora).
El objetivo es predecir la presencia de un evento, como una conferencia en el edificio que

se refleja en la gente inusualmente altas que cuenta para ese perodo de da / hora.

1. Flow ID: 7 est fuera del flujo, 9 es en el flujo
2. Fecha: MM / DD / AA
3. Hora: HH: MM: SS
4. Cuenta: Nmero de recuentos reportados para la media hora anterior
Filas: Cada porcin de tiempo media hora est representado por 2 filas: una para el
flujo durante ese perodo de tiempo (ID = 7) y una fila para el flujo durante ese
perodo de tiempo (ID = 9)
Los atributos de. Archivo acontecimientos ("ground truth")

2. Comience hora del evento: HH: MM: SS (militar)
3. Hora del evento de finalizacin: HH: MM: SS (militar)
4. Ttulo del evento (annima)
"La deteccin de eventos de adaptacin a los procesos de Poisson variables en el tiempo"
A. Ihler, J. Hutchins, y P. Smyth
Actas de la 12 Conferencia SIGKDD ACM (KDD-06), agosto de 2006.
Citas:
Por favor refirase a la poltica de la citacin Machine Learning Repository.
1997-06-01
Car Evaluation Data Set

Resumen:
Derivado de lo simple modelo de decisin jerrquica, esta base de datos puede ser til
para probar la induccin constructiva y mtodos de descubrimiento de la estructura..
N/A
Multivariado 1728 rea:
1997-06-01
Categrico 6
Nmero
Valores de
perdidos? accesos
Web:
Fuente:
Creador: Marko Bohanec
Donantes
1. Marko Bohanec (marko.bohanec '@' ijs.si)
2. Blaz Zupan (blaz.zupan '@' ijs.si)
Informacin del Conjunto de datos: Evaluacin Car Base de datos se deriva de un

modelo de decisin jerrquica sencilla desarrollada originalmente para la demostracin de
DEX , M. Bohanec , V. Rajkovic : Sistema experto para la toma de decisiones. Sistemica 1
( 1 ) , pp 145-157 , 1990 . ) . El modelo evala coches de acuerdo con la siguiente
estructura concepto :
Aceptabilidad coche CAR

. PRECIO general de precios
. . compra precio de compra
. . precio maint del mantenimiento
. Caractersticas tcnicas TECH
. . confort cONFORT
. . . Puertas Nmero de puertas
. . . capacidad de las personas en trminos de las personas para llevar a
. . . lug_boot el tamao del maletero
. . seguridad seguridad estimado del coche
Atributos de entrada se imprimen en minsculas. Adems del concepto de destino ( CAR ),

el modelo incluye tres conceptos intermedios : PRECIO , tecnologa, COMFORT. Cada
concepto est en el modelo original relacionado con sus descendientes nivel inferior por
un conjunto de ejemplos ( para estos ejemplos conjuntos ver [Web Link] ) .
La Base de Datos de Evaluacin de Coches contiene ejemplos con la informacin

estructural eliminado , es decir , se relaciona directamente CAR a los seis atributos de
entrada : comprar, mant , puertas, personas , lug_boot , seguridad .
Debido a la estructura conocida concepto subyacente , esta base de datos puede ser
particularmente til para probar la induccin constructiva y mtodos de descubrimiento de
la estructura .

Valores Clase:
UNACC, acc, bueno, vgood
Atributos:
ofertas: En VHIGH, alto, Medio, Bajo.
maint: VHIGH, alto, Medio, Bajo.
puertas: 2, 3, 4, 5more.
personas: 2, 4, ms.
lug_boot: pequeo, med, grande.
seguridad: bajo, Medio, Alto.
M. Bohanec y V. Rajkovic: La adquisicin de conocimientos y la explicacin para la toma
de decisiones con atributos mltiples. En octavo Intl Taller sobre Sistemas Expertos y sus
Aplicaciones, Avignon, Francia. pginas 59-78, 1988.
[Web Link]
B. Zupan, M. Bohanec, I. Bratko, J. Demsar: Aprendizaje automtico con la funcin de

descomposicin. ICML-97, Nashville, TN. 1997 (a aparecer)
[Web Link]

Jianbin Tan y David L. Dowe . MML Inferencia de la Decisin Grficos con varias vas se
une y atributos dinmicos . Conferencia australiana sobre Inteligencia Artificial. 2003 . [Ver
Contexto ] .
Daniel J. Lizotte y Omid Madani y Russell Greiner . Presupuestado Aprendizaje de Naive -

Bayes clasificadores . UAI . 2003 . [Ver Contexto ] .
Marc Sebban y Richard Nock y Stphane Lallich . Detener Criterio de tcnicas de

reduccin de datos Impulsar basada en : a partir de binario a multiclase problema . Journal
of Machine Learning Research , 3 . 2002 . [Ver Contexto ] .

Marc Sebban y Richard Nock y Jean -Hugues Chauchat y Ricco Rakotomalala . Impacto
de la calidad del aprendizaje conjunto y el tamao de las actuaciones de rbol de decisin
. Int . J. Comput . Syst . Seal , 1 . 2000 . [Ver Contexto ] .
Iztok Savnik y Peter A. Flach . Descubrimiento de las dependencias de varios valores de

las relaciones . Intell . Datos Anal, 4 . 2000 . [Ver Contexto ] .
Jie Cheng y Russell Greiner . Comparando red bayesiana clasificadores . UAI . 1999 . [Ver
Contexto ] .
Zhiqiang Yang Sheng y Zhong y Rebecca N. Wright. Privacidad - Preservar Clasificacin
de los datos del cliente y sin prdida de precisin . Departamento de Informtica , Stevens
Institute of Technology. [Ver Contexto ] .
Jos'e L. Balc'azar . Las reglas con Bounded Negaciones y el Plan de Cobertura de

inferencia . Dept. LSI , UPC . [Ver Contexto ] .
Shi Zhong y Weiyu Tang y Taghi M. Khoshgoftaar . Impulsado Filtros de ruido para
identificar Mislabeled Datos. Departamento de Ciencias de la Computacin e Ingeniera de
la Universidad Atlntica de la Florida. [Ver Contexto ] .
Hyunwoo Kim y Wei -Yin Loh . rboles de Clasificacin con modelos bivariados
discriminante lineal nodo. Departamento de Estadstica del Departamento de Estadstica
de la Universidad de la Universidad de Tennessee de Wisconsin. [Ver Contexto ] .
Daniel J. Lizotte . Biblioteca Formulario de Autorizacin Nombre del Autor . Presupuestado

Aprendizaje de Naive Bayes clasificadores . [Ver Contexto ] .

Daniel J. Lizotte y Omid Madani y Russell Greiner . Presupuestado Aprendizaje , Parte II:
El Na # ve- Bayes Case. Departamento de Informtica de la Universidad de Ciencias de
Alberta. [Ver Contexto ] .

Contexto ] .
Citas: Por favor, consulte el Repositorio de polticas citacin Aprendizaje Automtico

Cardiotocography Data Set 2010-09-07
Resumen:
El conjunto de datos consiste en la medicin de la frecuencia cardaca fetal (FCF) y la
contraccin uterina (CU) cuenta en cardiotocograms clasificados por obstetras expertos..
2126 Vida
Multivariable rea:
2010-09-07
Real 23
Nmero
Valores de
perdidos? accesos
Web:
Fuente:
Marqus de S, JP, jpmdesa '@' gmail.com, Instituto de Ingeniera Biomdica, Porto,
Portugal.
Bernardes, J., joaobern '@' med.up.pt, Facultad de Medicina de la Universidad de Oporto,
Portugal.
Ayres de Campos, D., sisporto '@' med.up.pt, Facultad de Medicina de la Universidad de
Oporto, Portugal.

2126 cardiotocograms fetal (CTG) se procesan automticamente y las respectivas
funciones de diagnstico medidos. Los CTG tambin fueron clasificados en tres obstetras
de expertos y una etiqueta de clasificacin de consenso asignado a cada uno de ellos.
Clasificacin era a la vez con respecto a un patrn morfolgico (A, B, C ...) y a un estado
fetal (N, S, P). Por lo tanto el conjunto de datos se puede utilizar tanto para los
experimentos 10 de clase o de clase 3.

LB - FCF basal (latidos por minuto)
AC - # de aceleraciones por segundo
FM - # de movimientos fetales por segundo
UC - # de las contracciones uterinas por segundo
DL - # de desaceleraciones de luz por segundo
DS - # de desaceleraciones severas por segundo
DP - # de desaceleraciones prolongadas de por segundo
ASTV - porcentaje de tiempo con anormal variabilidad a corto plazo
Valor medio de la variabilidad a corto plazo - MSTV
ALTV - porcentaje de tiempo con anormal variabilidad a largo plazo
Valor medio de la variabilidad a largo plazo - MLTV
Ancho - ancho de la FCF histograma
Min - mnimo de la frecuencia cardaca fetal histograma
Max - Mximo de la FCF histograma
Nmax - # de picos del histograma
Nzeros - # de ceros histograma
Modo - Modo de histograma
Mean - histograma media
Mediana histograma - Mediana
Varianza - varianza histograma
Tendencia - tendencia histograma
CLASS - FCF cdigo de clase de patrn (1 a 10)
NSP - fetal cdigo de clase del Estado (N = normal, S = sospechoso; P = patolgico)
Ayres de Campos et al. (2000) SisPorto 2.0 Un Programa para el Anlisis Automatizado de
Cardiotocograms. J Matern Fetal Med. 5:311-318
Citas:
1996-05-01
Census Income Data Set

Resumen:
Predecir si el ingreso es superior a $ 50K/yr basado en los datos del censo. Tambin
conocido como conjunto de datos "adultos".
Caractersticas del Social
Nmero de
Conjunto de Multivariable 48842 rea:
instancias:
datos:
1996-05-01
Caractersticas del Categrico, Nmero de Fecha de
14
atributo: Entero atributos: Donacin
Nmero
77805
Valores de
perdidos? accesos
Web:
Fuente:
Ronny Kohavi y Barry Becker
Minera de Datos y Visualizacin
Silicon Graphics.
e-mail: ronnyk '@' sgi.com para preguntas.
Informacin del Conjunto de datos: La extraccin se realiza por Barry Becker, de la

base de datos del Censo de 1994. Un conjunto de registros razonablemente limpias fue
extrado por medio de las siguientes condiciones: ((AAGE> 16) && (AGI> 100) &&
(AFNLWGT> 1) && (HRSWK> 0))
Prediccin tarea es determinar si una persona hace ms de 50 mil al ao.

Listado de atributos:
> 50K , <= 50K .
edad: continuo.
workclass : Privada, Auto- emp - no -inc , Auto- emp -inc , Federal- gov, Local- gov, Estado
-gov , sin sueldo , de Nunca funcion.
fnlwgt : continuo.
Diploma , Some- universidad, 11 , HS- graduado , el profesor de la escuela, Assoc- ACDM
, Assoc- voc , 9 , 7 -8 , 12 , Masters, primero a cuarto , dcimo , Doctorado , 5to-6to ,
Preschool .
educacin - num: continuo.
civil - Estado Civil: Casado - civ - cnyuge , Divorciado, nunca se han casado , Separado,
Viudo, Casado - cnyuge ausente, Casado -AF- cnyuge.
Ocupacin: Tech- apoyo , para naves de reparacin, y de servicio , ventas , - Exec
gestin, Prof- especialidad, Manipuladores - limpiadores, Machine -op- Inspct , - Adm
clerical , Agricultura , pesca, transporte y movimiento, Priv - casa - serv , protector -serv ,
Fuerzas Armadas - .
relacin : Esposa, propia e hijos, marido, no - en - la familia, otro pariente , soltera .
carrera: Blanco , Asia y Pac- Islander, Amer -Indian- esquimal , Otros, Negro .
Sexo : Mujer, Hombre .
de capital - ganancia : continuo.
de capital -loss : continuo.
hora -por- semana : continuo.
- orgenes: Estados- Unidos , Camboya , Inglaterra , Puerto - Rico , Canad, Alemania ,
Outlying -US ( Guam- Islas Vrgenes -etc ) , India , Japn, Grecia, Sur , China, Cuba , Irn,
Honduras , Filipinas , Italia , Polonia , Jamaica , Vietnam, Mxico , Portugal, Irlanda,
Francia, Republica-Dominicana , Laos, Ecuador , Taiwn , Hait , Colombia, Hungra,
Guatemala , Nicaragua , Escocia , Tailandia , Yugoslavia , El- Salvador, Trinadad y
Tobago, Per , Hong , Holand -Pases Bajos .
Ron Kohavi , " Ampliar los efectivos Precisin de Naive - Bayes clasificadores : un hbrido
de rbol de decisiones " , Actas de la Segunda Conferencia Internacional de
Descubrimiento de Conocimiento y Minera de Datos , 1996
[Web Link]
Rakesh Agrawal y Ramakrishnan iKant y Dilys Thomas . Privacidad Preservar OLAP.

Conferencia SIGMOD . 2005 . [Ver Contexto ] .
Manuel Oliveira. Biblioteca de formularios de lanzamiento Nombre del Autor : Stanley

Robson de Oliveira Medeiros Ttulo de la tesis: transformacin de datos para la privacidad
- Preservar Data Mining Titulacin: Doctor en Filosofa Ao este ttulo otorgado .
Universidad de Alberta Library . 2005 . [Ver Contexto ] .
Aristides Gionis y Heikki Mannila y Panayiotis Tsaparas . Agregacin Clustering. ICDE .

Dan Pelleg . Estimadores de densidad de probabilidad escalables y prcticos para la

deteccin de anomalas Cientfico. Facultad de Ciencias de la Universidad Carnegie
Mellon de ordenador . 2004 . [Ver Contexto ] .
Ke Wang y Zhou Shiyu y Ada Wai Chee - Fu y Jeffrey Xu Yu. Minera Cambios de
Clasificacin por correspondencia Tracing . SDM . 2003 . [Ver Contexto ] .
Douglas Burdick y Manuel Calimlim y Jason Flannick y Johannes Gehrke y Tomi Yiu .
MAFIA : Un estudio sobre los resultados de Minera mximas conjuntos de elementos
frecuentes . FIMI . 2003 . [Ver Contexto ] .
Bart Hamers y J. A. K Suykens . Junto transductivo Ensemble Aprendizaje de Modelos

Kernel . Bart De Moor . 2003 . [Ver Contexto ] .
Eibe Frank y Geoffrey Holmes y Richard Kirkby y Mark A. Hall. Racing Comits de grandes
conjuntos de datos . Discovery Science . 2002 . [Ver Contexto ] .
James Bailey y Thomas Manoukian y Kotagiri Ramamohanarao . Algoritmos rpidos para

Minera patrones emergentes. PKDD . 2002 . [Ver Contexto ] .
Dennis P. Groth y Edward L. Robertson. Un enfoque basado en la entropa de

Visualizacin Estructura de base de datos . VDB . 2002 . [Ver Contexto ] .

Jinyan Li y Guozhu Dong y Kotagiri Ramamohanarao y Limsoon Wong. Profundidades : un

descubrimiento basada en instancia Nuevo y sistema de clasificacin. Actas de la IV
Conferencia Europea sobre Principios y Prctica de Descubrimiento de Conocimiento en
Bases de Datos . 2001 . [Ver Contexto ] .
Dan Pelleg y Andrew W. Moore. Las mezclas de los rectngulos : Interpretables Soft
Clustering . ICML . 2001 . [Ver Contexto ] .
Stephen D. Bay. Multivariante Discretizacin para Set Minera. Conocimiento . Inf . Syst , 3
. 2001 . [Ver Contexto ] .
Zhiyuan Chen y Johannes Gehrke y Flip Korn . Optimizacin de consultas en los sistemas
de base de datos comprimida . Conferencia SIGMOD . 2001 . [Ver Contexto ] .
Stephen D. Bay y Michael J. Pazzani . Diferencias Deteccin Grupo: Conjuntos de

contraste mineras. Dato Min . Conocimiento . Discov , 5 . 2001 . [Ver Contexto ] .
Jie Cheng y Russell Greiner . Comparando red bayesiana clasificadores . UAI . 1999 . [Ver
Contexto ] .
John C. Platt . Usando Analytic QP y poca densidad de velocidad de entrenamiento de

Mquinas de Vectores Soporte . PNI. 1998 . [Ver Contexto ] .
Ron Kohavi . Ampliar los efectivos Precisin de Naive - Bayes clasificadores : Un hbrido
de rbol de decisiones . KDD . 1996 . [Ver Contexto ] .
Gabor Melli . Un enfoque basado en modelos perezoso en On -Line Clasificacin.

Universidad de la Columbia Britnica. 1989 . [Ver Contexto ] .
David R. Musicant y Alexander Feinberg. Set Active Support Vector de regresin . [Ver
Contexto ] .
David R. Musicant . MINERA DE DATOS A TRAVS DE PROGRAMACIN

MATEMTICA Y EL APRENDIZAJE DE LA MQUINA . Doctor en Filosofa ( Ciencias de
la Computacin ) UNIVERSIDAD . [Ver Contexto ] .
Chris Giannella y Bassem Sayrafi . Una teora de la informacin de histograma individual

Dimensional Selectividad Estimacin . Departamento de Ciencias de la Computacin ,
Universidad de Indiana en Bloomington . [Ver Contexto ] .
Masahiro Terabe y Takashi Washio y Hiroshi Motoda . El efecto de submuestreo de

Cambio on S 3 Embolsado de rendimiento . Instituto de Investigacin de Mitsubishi . [Ver
Contexto ] .
Citas:
Census-Income (KDD) Data Set 2000-03-07
Resumen:
Este conjunto de datos contiene los datos del censo ponderados extrados de las
encuestas de poblacin actuales 1994 y 1995 realizadas por la Oficina del Censo de
EE.UU.
Caractersticas 299285 Social
Nmero de
del Conjunto de Multivariable rea:
instancias:
datos:
2000-03-07
Caractersticas Categrico, Nmero de Fecha de
40
del atributo: Entero atributos: Donacin
Nmero
44502
Valores de
perdidos? accesos
Web:
Fuente:
Propietario original:
Oficina del Censo de EE.UU.
http://www.census.gov/
Departamento de Comercio de los Estados Unidos
Donante:
Terran Lane y Ronny Kohavi
Minera de Datos y Visualizacin
Silicon Graphics.
terran '@' ecn.purdue.edu, ronnyk '@' sgi.com
Informacin del Conjunto de datos: Este conjunto de datos contiene los datos del censo
ponderados extrados de la Encuesta de la Poblacin Actual de 1994 y 1995 realizadas
por la Oficina del Censo de EE.UU.. Los datos contienen 41 variables relacionadas
demogrficas y de empleo.
El peso instancia indica el nmero de personas en la poblacin que cada registro

representa debido al muestreo estratificado. Para hacer un anlisis real y sacar
conclusiones, este campo debe ser utilizado. Este atributo debe * no * puede utilizar en los
clasificadores.
Una instancia por lnea con campos delimitados por comas. Hay 199.523 casos en el
archivo de datos y 99762 en el archivo de prueba.
Los datos se dividi en tren / test en aproximadamente 2/3, 1/3 de proporciones utilizando
MIndUtil MineSet-to-mlc de MineSet.

Ms informacin detallada sobre el significado de los atributos se puede encontrar en la
documentacin de la Oficina del Censo para hacer uso de las descripciones de los datos
en este sitio, se necesitarn los siguientes asignaciones a los nombres de columnas de
bases de datos internas de la Oficina del Censo :
AAGE edad
clase de ACLSWKR trabajador
cdigo de la industria ADTIND
Cdigo de ocupacin ADTOCC
AGI ingreso bruto ajustado
educacin AHGA
salario por hora AHRSPAY
inscrito en inst edu ltima AHSCOL sem
AMARITL estado civil
importante AMJIND cdigo de la industria
importante AMJOCC cdigo ocupacin
maza Arace
Origen Hispano AREORGN
ASEX sexo
miembro de un sindicato laboral AUNMEM
razn de AUNTYPE desempleo
N/A
Eibe Frank y Geoffrey Holmes y Richard Kirkby y Mark A. Hall. Racing Comits de grandes
conjuntos de datos. Discovery Science. 2002. [Ver Contexto].
Stephen D. Bay. Multivariante Discretizacin para Set Minera. Conocimiento. Inf. Syst, 3.
2001. [Ver Contexto].

lnea y por lotes de embolsado y potenciar. KDD. 2001. [Ver Contexto].
Masahiro Terabe y Takashi Washio y Hiroshi Motoda. El efecto de submuestreo de

Cambio on S 3 Embolsado de rendimiento. Instituto de Investigacin de Mitsubishi. [Ver
Contexto].
Citas:
Challenger USA Space Shuttle O-Ring Data Set 1993-08-05
Resumen:
Tarea: predecir el nmero de juntas tricas que experimentan malestar trmico en un vuelo
a 31 grados F dado datos sobre los 23 vuelos previos de transporte.
Fsica
1993-08-05
Entero 4
Nmero
Valores de
Tareas asociadas: Regresin No 35773
perdidos? accesos
Web:
Fuente:
David Draper (draper '@' math.ucla.edu)
Universidad de California, Los Angeles
Donante:
David Draper (draper '@' math.ucla.edu)
Informacin del Conjunto de datos: Hay dos bases de datos: ( ambos utilizan el mismo
conjunto de atributos 5 ) :
1 . Erosin Primaria o- ring y / o escape de combustin
2 . Slo primaria erosin o-ring
Las dos bases de datos son idnticos excepto por el segundo atributo del ejemplo 21a
(confirmado por David Draper el 08/05/93 ) .
Editado de ( Draper, 1993 ) :
La motivacin para la recogida de esta base de datos fue la explosin del transbordador
espacial Challenger EE.UU. el 28 de enero de 1986. Una investigacin se produjo en la
fiabilidad del sistema de propulsin del transbordador. La explosin fue finalmente remontar
al fallo de una de las tres articulaciones de campo en uno de los dos cohetes impulsores
slidos. Cada uno de estos seis articulaciones campo incluye dos juntas tricas,
designadas como primaria y secundaria , que fallan cuando los fenmenos llamados
erosin y escape de combustin tanto ocurrir.
La noche antes de la puesta en marcha de una decisin tena que ser hecho con respecto a
la seguridad del lanzamiento . La discusin entre los ingenieros y gerentes que llevan a
esta decisin incluy la preocupacin de que la probabilidad de fallo de las juntas tricas
dependa de la temperatura t en el lanzamiento, que fue forecase ser 31 grados F. Hay
razones fuertes de ingeniera basados en la composicin de la O anillos para apoyar el
juicio de que la probabilidad de falla puede aumentar montonamente como baja la
temperatura . Una otra variable , se realiz la presin a la que s pruebas de seguridad para
el campo se unen fugas , estaba disponible, pero su importancia para el proceso de fracaso
era poco clara.
El artculo de Draper incluye una figura amenazante graficar el nmero de juntas de campo
que experimentan estrs frente a la temperatura del despegue de los 23 vuelos de los
transbordadores anteriores al desastre del Challenger. No Temperatura despegue anterior
estaba bajo 53 grados F. Aunque tremenda extrapolacin debe hacerse a partir de los
datos dados para evaluar el riesgo a 31 grados F , es evidente incluso para el profano " de
prever el riesgo inaceptablemente alto creado por el lanzamiento en 31 grados F. " Para
obtener ms informacin, consulte Draper ( 1993 ) o los otros anlisis previos .
La tarea consiste en predecir el nmero de juntas tricas que experimentan malestar

trmico para un vuelo determinado cuando la temperatura de lanzamiento est por debajo
de cero .

1. Nmero de juntas tricas en riesgo en un vuelo determinado
2. Nmero experimentar problemas trmica
3. Temperatura de lanzamiento (grados F)
4. Presin de fugas de verificacin (psi)
5. Orden temporal de vuelo
Draper , D. ( 1993 ) . Evaluacin y propagacin de la incertidumbre del modelo . En Actas
del IV Taller Internacional sobre Inteligencia Artificial y Estadstica (pp. 497-509 ) . Ft. .
Lauderdale, FL : indito .
[Web Link]
Dalal, S. R. , Fowlkes , E. B. , y Hoadley , B. ( 1989 ) . El anlisis de riesgos de la lanzadera

espacial : prediccin de pre - Challenger de fracaso. Revista de la Asociacin Americana
Estadsticos , 84, 945-957 .
[Web Link]
Lavine , M. ( 1991 ) . Los problemas en la extrapolacin ilustran con datos de las juntas
tricas del transbordador espacial. Revista de la Asociacin Americana Estadsticos , 86,
919-922 .
Martz H.F. , y Zimmer, W. J. ( 1992 ) . El riesgo de un fallo catastrfico de los cohetes de

combustible slido del transbordador espacial. Estadsticas de Amrica , 46, 42-47 .
[Web Link]
Stephen D. Bay. Multivariante Discretizacin para Set Minera. Conocimiento . Inf . Syst , 3 .
Pedro Domingos . Linear -Time Regla de induccin . KDD . 1996 . [Ver Contexto ] .
Mohammed Waleed Kadous y Claude Sammut . La Universidad de Nueva Gales del Sur
Escuela de Ciencias de la Computacin e Ingeniera Temporal Clasificacin : Ampliacin de
la Clasificacin Paradigma para multivariante de series temporales . [Ver Contexto ] .
Citas:
Character Trajectories Data Set 2008-08-20
Resumen:
Mltiples muestras, etiquetado de las trayectorias de la punta del lpiz registran mientras
la escritura de caracteres individuales. Todas las muestras son del mismo autor, a los
efectos de la extraccin primitiva. Slo se consideraron los personajes con un solo
segmento visible.].
Caractersticas
Nmero de
del Conjunto de Time-Series 2858 rea: Computacin
instancias:
datos:
2008-08-20
Real 3
Nmero
Clasificacin, Valores de
Tareas asociadas: N/A 59726
Agrupamiento perdidos? accesos
Web:
Fuente:
Ben H Williams
Escuela de Informticos,
Universidad de Edinburgo,
ben.williams '@' ed.ac.uk
Informacin del Conjunto de datos: Los personajes aqu se utilizaron para un estudio de
doctorado en la extraccin primitiva utilizando modelos HMM basados. Los datos
consisten en 2.858 muestras de carcter, que contiene la matriz celular 'mixout'. 'Consts'
La estructura variable contiene una consts.charlabels de campo que proporciona etiquetas
ennummerated para los personajes. consts.key proporciona la clave para cada etiqueta.
Los datos fueron capturados utilizando una tableta WACOM. 3 Dimensiones se
mantuvieron - x, y, y la fuerza de la punta del lpiz. Los datos han sido numricamente
diferenciada y Gauss alisada, con un valor de sigma de 2. De datos fue capturado en
200Hz. Los datos se normaliz con consts.datanorm. Slo se consideraron los personajes
con un solo segmento 'PEN-DOWN'. Segmentacin de caracteres se realiz con un punto
de corte de la fuerza punta del lpiz. Los personajes tambin se han desplazado de
manera que sus perfiles de velocidad mejor coinciden con la media del conjunto.

Cada muestra de carcter es un 3-dimensional punta del lpiz velocidad trayectoria. Este
est contenido en formato de matriz, con 3 filas y columnas T donde T es la longitud de la
muestra carcter.
B.H. Williams, M.Toussaint, y A. J. Storkey. La extraccin de las primitivas de movimiento
a partir de datos de escritura a mano naturales. En la ICANN, volumen 2, pginas 634-
643, 2006.
B.H. Williams, M.Toussaint, y A. J. Storkey. Un modelo generativo basado primitiva para

inferir informacin de tiempo en la escritura de datos sin particiones. En IJCAI, pginas
1119-1124, 2007.
B.H. Williams, M. Toussaint, y A. J. Storkey. Primitivas de movimiento y su calendario de

Modelizacin en movimientos biolgicamente ejecutados. En JC Platt, D. Koller, Y. Singer
y S. Roweis, los editores, los avances de la Informacin Sistemas de procesamiento
neural 20, pginas 1609-1616. MIT Press, Cambridge, MA, 2008.
Citas:
Chess (Domain Theories) Data Set

Resumen:
6 teoras de dominio diferentes para la generacin de movimientos legales del ajedrez.
N/A Juegos
Caractersticas del Dominio - Nmero de
rea:
Conjunto de datos: Teora instancias:
N/A
N/A N/A
Nmero
15954
Valores de
Tareas asociadas: N/A N/A
perdidos? accesos
Web:
Fuente:
1. "chess_flann_new" y "chess_flann_wyl" escrito por flann '@' cs.orst.edu
2. "chess_russel_wyl", originalmente escrito por Stuart Russell en MRS, luego traducido al

prlogo de Flann '@' cs.orst.edu
3. "chess_vijay_1", "chess_vijay_2" y "chess_vijay_3" escrito por vijay '@' cs.orst.edu
Informacin del Conjunto de datos: Los seis codificacin se describen brevemente a

continuacin :
1 ) chess_flann_new : Escrito por flann '@' cs.orst.edu . Emplea una representacin

geomtrica de los estados , con cada cuadrado designado por una X , coordenada Y y
conectividad cuadrado calculado por vectores. Genera movimientos legales de primera
generacin peusdo mueve entonces eliminando aquellas que resultan en el jugador que
mueve estar en jaque.
2 ) chess_flann_wyl : Escrito por flann '@' cs.orst.edu . Emplea una representacin

relacional de los estados , con cada cuadrado dado un nombre nico y conectividad
cuadrado calculado por una enumeracin de las relaciones conectados. Genera
movimientos legales de primera generacin peusdo mueve entonces eliminando aquellas
que resultan en el jugador que mueve estar en jaque.
3 ) chess_russell_wyl : Originalmente escrito por Stuart Russell en MRS , traducido al

prlogo de Flann '@' cs.orst.edu . Emplea una representacin geomtrica de los estados ,
con cada cuadrado designado por una X , coordenada Y y conectividad cuadrado calculado
por vectores. Genera movimientos legales determinando si el lado mvil est en jaque . Si
el lado mvil est en jaque , los movimientos son generados que destruyen la amenaza
cheque. Si el lado mvil no est en jaque , se generan movimientos que no generan una
amenaza cheque. Tenga en cuenta que si el lado mvil est en jaque desde mltiples
amenazas entonces la teora de dominio genera movimientos incorrectos.
4 ) chess_vijay_1 : Escrito por vijay '@' cs.orst.edu . Emplea una representacin relacional
de los estados , con cada cuadrado dado un nombre nico y conectividad cuadrado
calculado por una enumeracin de las relaciones conectados. Genera movimientos legales
de primera generacin peusdo mueve entonces eliminando aquellas que resultan en el
jugador que mueve estar en jaque.
5 ) chess_vijay_2 : Escrito por vijay '@' cs.orst.edu . Emplea una representacin geomtrica
de los estados , con cada cuadrado designado por una X , coordenada Y y conectividad
cuadrado calculado por vectores. Genera movimientos legales de primera generacin
peusdo mueve entonces eliminando aquellas que resultan en el jugador que mueve estar
en jaque.
6 ) chess_vijay_3 : Escrito por vijay '@' cs.orst.edu . Emplea una representacin lineal
especial para los estados, con cada cuadrado designado por un solo nmero y conectividad
cuadrado calculado por un nico valor delta. Genera movimientos legales de primera
Cada teora de dominio incluye un estado de ejemplo denominado estado1 que describe la
posicin del tablero ilustrado como la Figura 4 ( d ) en Flann y Dietterich , " Un estudio de
los mtodos basados en la explicacin para el aprendizaje inductivo " en Aprendizaje
Automtico , 4 187-226 . Ver test_domain_theories de archivos para un ejemplo de carga y
de desarrollo de las teoras de dominio.
Adems de las teoras de dominio , un archivo llamado support_code est incluido que
contiene algunas rutinas de prlogo tiles. Una rutina toma una descripcin genrica de
tablero de ajedrez y un nombre de dominio de la teora , y produce una descripcin del
estado de prlogo adecuado para su uso con la teora del dominio dado. Ver
test_domain_theories de archivos para un ejemplo de la generacin de descripciones de
estado .

N/A
Flann y Dietterich , " Un estudio de los mtodos basados en la explicacin para el
aprendizaje inductivo ", Aprendizaje Automtico , 4 187-226 .
[Web Link]
4 ) chess_vijay_1 : Escrito por vijay '@' cs.orst.edu . Emplea una representacin relacional
de los estados , con cada cuadrado dado un nombre nico y conectividad cuadrado
calculado por una enumeracin de las relaciones conectados. Genera movimientos legales
de primera generacin peusdo mueve entonces eliminando aquellas que resultan en el
jugador que mueve estar en jaque.
5 ) chess_vijay_2 : Escrito por vijay '@' cs.orst.edu . Emplea una representacin geomtrica
de los estados , con cada cuadrado designado por una X , coordenada Y y conectividad
cuadrado calculado por vectores. Genera movimientos legales de primera generacin
peusdo mueve entonces eliminando aquellas que resultan en el jugador que mueve estar
en jaque.
6 ) chess_vijay_3 : Escrito por vijay '@' cs.orst.edu . Emplea una representacin lineal
especial para los estados, con cada cuadrado designado por un solo nmero y conectividad
cuadrado calculado por un nico valor delta. Genera movimientos legales de primera
Cada teora de dominio incluye un estado de ejemplo denominado estado1 que describe la
posicin del tablero ilustrado como la Figura 4 ( d ) en Flann y Dietterich , " Un estudio de
los mtodos basados en la explicacin para el aprendizaje inductivo " en Aprendizaje
Automtico , 4 187-226 . Ver test_domain_theories de archivos para un ejemplo de carga y
de desarrollo de las teoras de dominio.
Adems de las teoras de dominio , un archivo llamado support_code est incluido que
contiene algunas rutinas de prlogo tiles. Una rutina toma una descripcin genrica de
tablero de ajedrez y un nombre de dominio de la teora , y produce una descripcin del
estado de prlogo adecuado para su uso con la teora del dominio dado. Ver
test_domain_theories de archivos para un ejemplo de la generacin de descripciones de
estado .
Mark A. Hall. Departamento de Ciencias de la Computacin Hamilton, Nueva Zelandia

basada en correlacin Seleccin de caractersticas para el Aprendizaje de la mquina.
Doctor en Filosofa en la Universidad de Waikato. 1999. [Ver Contexto].
Citas:
1994-06-01
Chess (King-Rook vs. King) Data Set

Resumen:
Ajedrez Base de datos para Blanco Rey y Torre contra Rey Negro (KRK)..
Caractersticas del 28056 Juego
Nmero de
Conjunto de Multivariable rea:
instancias:
datos:
1994-06-01
6
Nmero
38903
Valores de
perdidos? accesos
Web:
Fuente:
Creadores:
Base de datos generada por Michael Bain y Arthur van Hoff en el Instituto Turing , Glasgow
, Reino Unido.
Donante:
Michael Bain ( mike '@' cse.unsw.edu.au ) , AI Lab, Ciencias de la Computacin
Universidad de Nueva Gales del Sur , Sydney 2052 , Australia .
( tel) +61 2 385 3939
(fax) +61 2 663 4576
Informacin del Conjunto de datos: Una programacin lgica inductiva (ILP ) o un marco
de aprendizaje relacional se supone ( Muggleton , 1992 ) . El sistema de aprendizaje se
proporciona con ejemplos de posiciones de ajedrez descritos slo por las coordenadas de
las piezas en el tablero . Tambin se suministra el conocimiento de fondo en forma de
diferencias de fila y columna . Las relaciones necesarias para formar un clasificador
correcta y concisa para el concepto de destino deben ser descubiertos por el sistema de
aprendizaje ( los ejemplos ya proporcionan una definicin extensional completa ) . La tarea
est estrechamente relacionada con ( 1983 ) la aplicacin de Quinlan de ID3 para clasificar
Blanco Rey y Torre contra posiciones Negro Rey y Caballero ( KRKN ) como perdida de 2
capas o perdida de 3 capas . El marco es similar en que el ejemplo se coloca slo los datos
de bajo grado de suministro . Una diferencia importante es que los predicados de fondo
adicionales del tipo suministrado en el estudio KRKN mediante atributos artesanales no se
proporcionan para este dominio KRK .
Los finales de ajedrez son dominios complejos que son enumerable . Bases de datos de
finales son tablas de valores de teora de juegos almacenados para los elementos
enumerados (posiciones jurdicas ) del dominio. Los valores de la teora de juegos
almacenados denota independientemente de si las posiciones se ganan por cada lado , o
incluir tambin la profundidad de la victoria ( nmero de movimientos ) suponiendo play-
minimax ptima. Desde el punto de vista de los experimentos sobre la induccin de
ordenador tales bases de datos proporcionan no slo una fuente de ejemplos , sino tambin
un orculo ( Roycroft , 1986 ) para las reglas de inducidos de prueba . Sin embargo, una
base de datos de final de juego de ajedrez se diferencia de , por ejemplo , una base de
datos relacional que contiene los detalles de las partes y los proveedores en el siguiente
aspecto importante. Los combinatoria del clculo de los valores de la teora de juegos
requeridos para las entradas individuales de posicin independiente seran prohibitivos .
Por lo tanto todas las entradas de la base de datos se generan en un solo proceso iterativo
utilizando el algoritmo ( Thompson , 1986 ) `` estndar '' de copia de seguridad .
Una base de datos KRK fue descrito por Clarke ( 1977 ) . La base de datos actual fue
descrito y utilizado para los experimentos de aprendizaje automtico en Bain ( 1992 ; 1994 )
. Cabe sealar que la base de datos no est garantizada correcta , pero la distribucin de
clase es la misma que la base de datos de Clarke . En ( Bain 1992 ; 1994 ) la tarea era la
clasificacin de puestos en la base de datos como ganaron por blanco en un nmero fijo de
movimientos , en el supuesto juego ptimo por ambos lados. El problema se ha
estructurado en subproblemas separados por la profundidad de la victoria ordenado
empate , cero, uno , ..., diecisis. Cuando el aprendizaje de profundidad d todos los
ejemplos a profundidades > d se utilizan como negativos. Quinlan ( 1994 ) aplica la hoja de
aprender una solucin completa y correcta para esta tarea .
La complejidad tpica de clasificadores inducidos en este campo sugieren que la tarea es

exigente cuando el conocimiento de fondo est restringido.

1. Archivo Rey Blanco (columna)
2. Rango Rey Blanco (fila)
3. Archivo Blanco Torre
4. Ranking Blanco Torre
5. Archivo de Rey Negro
6. Ranking Negro Rey
7. ptimo de la profundidad de la victoria para las blancas en 0 a 16 movimientos, dibujado
otra manera {empate, cero, uno, dos, ..., diecisis}.
M. Bain. "Aprender estrategias ptimas de ajedrez " , ILP 92 : ICOT TM- 1182, S.
Muggleton , Instituto de Tecnologa de Computadoras de Nueva Generacin , Tokio ,
Japn.
[Web Link]
M. Bain. Aprender excepciones lgicas en Ajedrez. Tesis doctoral . Universidad de

Strathclyde. 1994 .
[Web Link]
M. R. B. Clarke . Un estudio cuantitativo de Rey y Pen contra Rey. Los avances en la

computadora de ajedrez , 1, 108-110 . M. R. B. Clarke , ed. Edinburgh University Press.
Edimburgo. 1977
[Web Link]
S. Muggleton . Programacin lgica inductiva , 3-27 . S. Muggleton , ed. Academic Press,

Londres , 1992 .
[Web Link]
J. R. Quinlan . Aprender los procedimientos de clasificacin eficientes y su Aplicacin al

ajedrez End Games.Machine Learning : Un enfoque de Inteligencia Artificial. 464-482 . R. y
J. Michalski Carbonnel y T. Mitchell, eds . Tioga, 1983 . Palo Alto, CA .
[Web Link]
A. J. Roycroft . Base de datos " Orculos '': las caractersticas necesarias y deseables
Revista Internacional de la Asociacin de Ajedrez de ordenador 8 , 2, 1986 100-104 . . . .
[Web Link]
K. Thompson . Anlisis retrgrado de ciertos Asociacin de Ajedrez Endgames.International

Computer Journal . 8 , 3 , 1986 . 131-139 .
[Web Link]

Robson de Oliveira Medeiros Ttulo de la tesis: transformacin de datos para la privacidad -
Preservar Data Mining Titulacin: Doctor en Filosofa Ao este ttulo otorgado . Universidad
de Alberta Library . 2005 . [Ver Contexto ] .
Ira Cohen y Fabio Gagliardi Cozman y Nicu Sebe y Marcelo Cesar Cirelo y Thomas S.
Huang. Semisupervised Aprendizaje de clasificadores : Teora, Algoritmos , y su aplicacin
a la Interaccin Persona-Ordenador . IEEE Trans . Patrn anal . Mach . Intell , 26 . 2004 .
[Ver Contexto ] .
Marcus Hutter y Marco Zaffalon . Distribucin de Informacin Mutua de datos completas e

incompletas . CoRR , csLG/0403025 . 2004 . [Ver Contexto ] .
Tanzeem Choudhury y James M. Rehg y Vladimir Pavlovic y Alex Pentland . Impulsar y

estructura de aprendizaje en redes bayesianas dinmicas para la Deteccin de Audio-
Visual altavoz . ICPR ( 3 ) . 2002 . [Ver Contexto ] .
Marco Zaffalon y Marcus Hutter . Robusto Seleccin de caractersticas de la informacin

mutua Distribuciones . CoRR , csAI/0206006 . 2002 . [Ver Contexto ] .


Russell Greiner y Wei Zhou. Extensin estructural de regresin logstica: Parmetro de

Aprendizaje discriminativo de creencias Clasificadores netos . AAAI / IAAI . 2002 . [Ver
Contexto ] .
Boonserm Kijsirikul y Sukree Sinthupinyo y Kongsak Chongkasemwongse . Partido

aproximado de reglas utilizando redes neuronales backpropagation . Aprendizaje
Automtico , 44. 2001 . [Ver Contexto ] .

Jie Cheng y Russell Greiner . Aprender Clasificadores Red de creencia bayesiana :

Algoritmos y Sistema . Conferencia Canadiense sobre la influenza aviar. 2001 . [Ver
Contexto ] .
Jinyan Li y Guozhu Dong y Kotagiri Ramamohanarao . Clasificacin basada en instancia

por los patrones emergentes . PKDD . 2000 . [Ver Contexto ] .

basada en correlacin Seleccin de caractersticas para el Aprendizaje de la mquina .
Doctor en Filosofa en la Universidad de Waikato . 1999 . [Ver Contexto ] .

Contexto ] .
Adam J. Grove y Dale Schuurmans . Impulsar en el lmite: La maximizacin del margen de

Conjuntos aprendidas . AAAI / IAAI . 1998 . [Ver Contexto ] .
Ron Kohavi . Ampliar los efectivos Precisin de Naive - Bayes clasificadores : Un hbrido de
rbol de decisiones . KDD . 1996 . [Ver Contexto ] .
Ron Kohavi y Dan Sommerfield . Funcin de seleccin de subconjuntos mediante el mtodo

de Envoltura : Overfitting y bsqueda dinmica espacial de topologa. KDD . 1995 . [Ver
Contexto ] .
Brian R. Gaines. Induccin estructurados y no estructurados con EDAGs . KDD . 1995 .

[Ver Contexto ] .
Hankil Yoon y Khaled A. Alsabti y Sanjay Ranka . Clasificacin incremental basado en

rboles de grandes conjuntos de datos . Departamento CISE , Universidad de Florida. [Ver
Contexto ] .
Omid Madani y David M. Pennock y Gary William Flake . Co- validacin: El uso de modelos
Desacuerdo para validar algoritmos de clasificacin . Yahoo! Research Labs . [Ver Contexto
].

INFORMACIN informe tcnico NUIG -IT- 011002 Evaluacin del Desempeo de la cadena
de Markov clasificador bayesiano Algoritmo . Departamento de Tecnologa de la
BayesianClassifi552 Pat Langley y Wayne Iba. En Actas de la Inteligencia Nacional

ConferenceonArtifi256 Dcima ( 42.840 . Lambda Kevin Thompson. [Ver Contexto ] .
Jerome H. Friedman y Ron Kohavi y Youngkeol Yun. Para aparecer en AAAI - 96 rboles
de decisin de Lazy . Departamento de Estadstica y Stanford Linear Accelerator Center de
la Universidad de Stanford. [Ver Contexto ] .
Grigorios Tsoumakas y Ioannis P. Vlahavas . Fuzzy Meta -Learning: Resultados

preliminares . Secretara Griego para la Investigacin y la Tecnologa. [Ver Contexto ] .

Citas:
Chess (King-Rook vs. King-Knight) Data Set 1988-10-03
Resumen:
Ajedrez perno caballero base de datos.

Caractersticas del Multivariable, N/A Juego
Nmero de
Conjunto de Generador de rea:
instancias:
datos: datos
1988-10-03
22
Nmero
22819
Valores de
perdidos? accesos
Web:
Fuente:
Base de datos originalmente descrito por Ross Quinlan .
Donante / Coder :
Jeff Schlimmer ( Jeff.Schlimmer '@' cs.cmu.edu )
Informacin del Conjunto de datos: El archivo de compaero es un archivo de

demostracin Common Lisp que genera muestras Ajedrez final del juego caballero pines.
Inicie Lisp y cargar el archivo . Genera 100 -juegos finales y los graba en un archivo aparte .
Mira el final del archivo para ver cmo cambiarlo para que se produzca ms juegos finales,
o utilizar el archivo de salida que desee .
El cdigo est liberado para experimentacin , slo para uso confidencial. Ver el final del
archivo de comandos de tiempo de carga que generan un archivo de ejemplos en formato
de Quinlan .
Nota: este programa genera duplicados. En una carrera , haba cerca de 370 copias en los
primeros 1.000 casos (es decir, 630 ejemplos diferentes) .

Atributo Resmenes :
Clase: lado del caballero se pierde en n -capas (n = 2 , 3 , etc)
1 . distancia de rey negro para caballero : 1 , 2, > 2
2 . distancia de rey negro a la torre : 1 , 2, > 2
3 . distancia de rey negro al rey blanco : 1 , 2, > 2
4 . distancia de rey blanco al caballero : 1 , 2, > 2
5 . distancia de rey blanco a la torre : 1 , 2, > 2
6 . distancia de la torre de caballero ( AGREGADO ): 1, 2 , > 2
7 . relacin consejo de rey negro y el caballo ( AGREGADO ) : diagnstico , rect , otra
8 . relacin consejo de rey negro y la torre ( AGREGADO ) : diagnstico , rect , otra
9 . relacin consejo de rey negro y rey blanco ( AGREGADO ) : diagnstico , rect , otra
10 . relacin consejo de rey blanco y el caballero ( AGREGADO ) : diagnstico , rect , otra
11 . relacin consejo de rey blanco y la torre ( AGREGADO ) : diagnstico , rect , otra
12 . relacin consejo de torre blanca y caballero ( AGREGADO ) : diagnstico , rect , otra
13 . tipo de de rey negro inicial cuadrada : esquina, borde, apertura
14 . tipo de plaza inicial del caballero negro ( AGREGADO ) : esquina, borde, apertura
15 . tipo de plaza inicial del rey blanco ( AGREGADO ) : esquina, borde, apertura
16 . tipo de plaza inicial de torre blanca ( AGREGADO ) : esquina, borde, apertura
17 . grajo comprueba rey negro ( se omite, siempre f ) : t, f
18 . grajo amenaza caballero ( se omite, siempre t): t, f
19 . Caballero amenaza torre ( se omite, siempre f ) : t, f
20 . rey negro , caballero, grajo en lnea ( se omite, siempre t) t, f
21 . rey negro puede moverse junto al caballero (omitido ) t, f
22 . caballero puede interponer adyacente a rey (omitido ) t, f
Quinlan , J. R. ( 1983 ) . Aprender los procedimientos de clasificacin eficaces y su
aplicacin al ajedrez End Games . En R.S. Michalski , J.G. Carbonell , y T.M. Mitchell ( Eds.
) , Aprendizaje Automtico - Un enfoque de Inteligencia Artificial , 463-482 , Palo Alto :
Tioga .
[Web Link]

[Ver Contexto ] .






Contexto ] .



Contexto ] .



Contexto ] .


Contexto ] .

[Ver Contexto ] .

Contexto ] .
].



Citas:
Chess (King-Rook vs. King-Pawn) Data Set 1989-08-01
Resumen:
Rey + Torre contra Rey + Pen en a7 (KRKPA7 generalmente abreviado).
3196 Juego
Multivariable rea:
1989-08-01
Categrico 36
Nmero
Valores de
perdidos? accesos
Web:
Fuente:
Base de datos originalmente generados y descrito por Alen Shapiro.
Donante / Coder :
Rob Holte ( holte '@' uottawa.bitnet ) .
La base de datos fue suministrada a Holte por Peter Clark del Instituto Turing en Glasgow (
pete '@' turing.ac.uk ) .
Informacin del Conjunto de datos: El formato de datos se describe a continuacin .

Nota: el formato de esta base de datos fue modificada el 02/26/90 para cumplir con el
formato de todas las otras bases de datos del repositorio UCI de las bases de datos de
aprendizaje automtico.

Clases ( 2 ): - puede ganar- Blanco- ( "ganado" ) y White cannot- ganar- ( " nowin ") .
Yo creo que las blancas se considera que es incapaz de ganar si el pen Negro puede
avanzar con seguridad .
Atributos: vase el libro de Shapiro.
Alen D. Shapiro ( 1983,1987 ) , "Induccin estructurada en sistemas expertos " , Addison -
Wesley . Este libro se basa en doctorado de Shapiro Tesis ( 1983 ) en la Universidad de
Edimburgo , titulado " El papel de la induccin estructurado en Sistemas Expertos " .
[Web Link]
Stephen Muggleton ( 1987 ) , " Estructuracin del conocimiento haciendo preguntas " ,
pp.218 - 229 en "El progreso en el aprendizaje de la mquina" , editado por I. Bratko y Nada
Lavrac , Sigma Press, Wilmslow , Inglaterra SK9 5BB .
[Web Link]
Robert C. Holte, Liane Acker, y Bruce W. Porter ( 1989 ) , " Concepto de Aprendizaje y el
problema de las pequeas disyunciones " , Actas de IJCAI . Tambin disponible como
informe tcnico AI89 -106, Departamento de Ciencias de la Computacin, Universidad de
Texas en Austin , Austin , Texas 78712 .
[Web Link]
[Ver Contexto ] .






Contexto ] .



Contexto ] .


Contexto ] .


Contexto ] .

[Ver Contexto ] .

Contexto ] .
].




Citas:
Clima Modelo de Simulacin 2014-02-12
Crashes Data Set
Resumen: Dada muestras hipercubo latino de 18 valores de los parmetros de entrada
del modelo del clima, predecir los accidentes de simulacin de modelos climticos y
determinar las combinaciones de valores de parmetros que causan los fracasos.
Caractersticas
Nmero de
del Conjunto de N/A 11000000 rea: Fsico
instancias:
datos:

Real 28 02/12/2014
Nmero
Tareas Valores de
Clasificacin N/A 4926
asociadas: perdidos? accesos
Web:
Fuente:
D. Lucas (ddlucas. Al. Alum.mit.edu), el Laboratorio Nacional Lawrence Livermore

R. Klein (rklein. Al. Astron.berkeley.edu), el Laboratorio Nacional Lawrence Livermore y la
Universidad de Berkeley
J. Tannahill (tannahill1. Al. Llnl.gov), el Laboratorio Nacional Lawrence Livermore
D. Ivanova (ivanova2. Al. Llnl.gov), Lawrence Livermore Nacional Laboratory
S. Brandon (brandon1. Al. Llnl.gov), el Laboratorio Nacional Lawrence Livermore
D. Domyancic (domyancic1. Al. Llnl.gov), Lawrence Livermore Nacional Laboratory
Y. Zhang (zhang24. Al. Llnl.gov), el Laboratorio Nacional Lawrence Livermore Estos datos
se construy utilizando LLNL UQ Pipeline, fue creado bajo los auspicios del Departamento
de Energa de los EE.UU. por el Laboratorio Nacional Lawrence Livermore en virtud de
contrato DE-AC52-07NA27344, financiado por la incertidumbre del LLNL Iniciativa
Estratgica Cuantificacin Laboratorio Dirigido Proyecto de Investigacin y Desarrollo en el
cdigo de seguimiento de 10-SI-013, y se libera con el nmero UCRL LLNL-MISC-633994.

Este conjunto de datos contiene registros de accidentes de simulacin encontradas
durante modelo climtico incertidumbre cuantificacin (UQ) conjuntos. miembros del
conjunto se construyeron utilizando un mtodo hipercubo latino en sistema de software UQ
Pipeline del LLNL para probar las incertidumbres de 18 parmetros del modelo dentro del
Programa Ocano Paralelo (POP2) componente del Sistema Climtico Modelo
Comunitario (CCSM4). Se realizaron tres conjuntos hipercubo latino separados, cada uno
con 180 miembros del conjunto. 46 de los 540 simulaciones fallidos por razones numricas
en las combinaciones de valores de parmetros. El objetivo es utilizar la clasificacin para
predecir los resultados de simulacin (fallar o tener xito) de los valores de los parmetros
de entrada y de utilizar el anlisis de sensibilidad y de la seleccin de caractersticas para
determinar las causas de la simulacin accidentes. Ms detalles acerca de los datos y los
mtodos se presentan en la publicacin "Anlisis de Fallas de accidentes de simulacin
inducidas-Parameter en los modelos climticos, 'geocientfica Modelo de Desarrollo ( [Web
Link] ).
El objetivo es predecir los resultados de modelos climticos de simulacin (columna 21,

fracasar o tener xito) dado valores escalados de los parmetros de entrada del modelo
climtico (columnas 3-20). Columna 1: Latin ID estudio hipercubo (estudio 1 para estudiar
3) Columna 2: Simulacin ID (correr 1 para ejecutar 180) Columnas 3-20: Valores de 18
parmetros de los modelos climticos a escala en el intervalo [0, 1] Columna 21:
resultados de simulacin (0 = error, 1 = xito)
Lucas, DD, Klein, R., Tannahill, J., Ivanova, D., Brandon, S., Domyancic, D., y Zhang, Y.:
Anlisis de la falta de los accidentes de simulacin inducida por parmetros en los
modelos climticos, Geosci. Modelo Dev.. Discuta., 6, 585-623, [Web Link] , 2013.
[ [Web Link] ]
Nube Data Set 2014-02-12

Real 10 03/08/1989
Nmero de
Valores
Tareas asociadas: N/A N/A Web 43877
perdidos?
Accesos:
Fuente:
Philippe Collard
California Institute Espacio
A-021 de la UCSD
en La Jolla, CA 92093
(619) 534-6369

Los conjuntos de datos que nos proponemos analizar estn constituidas de 1.024
vectores, cada vector incluye 10 parmetros. Usted puede pensar en l como una matriz
de 1024 * 10. Para producir estos vectores, se procede de la siguiente
manera: 1. comenzamos con dos 512 * 512 imgenes AVHRR (1 en el espectro visible, 1
en el IR) 2. cada imagen se divide en super-pixeles 16 * 16 y en cada super-pixel se
calcula una serie de parmetros: (a) visible: media, mximo, mnimo, la distribucin, el
contraste, la entropa, segundo momento angular media (b) IR: significar, mximo,
mnimo El conjunto de 10 parmetros que elegimos para formar los vectores es un
compromiso entre diversas limitaciones. En realidad todava estamos trabajando en la
eleccin de los parmetros de los vectores de datos. El conjunto de datos te envo no se
ha normalizado. La normalizacin del conjunto de datos es requerida por nuestro esquema
de clasificacin, pero que puede no ser cierto para los suyos. Para normalizar los datos se
calcula la media y la desviacin estndar para cada parmetro de los establecidos a
continuacin para cada parmetro de cada vector se computa datos
completos: Norma. valor = (valor sin norma - media) / SD donde media = valor medio para
este parmetro en particular sobre el conjunto de datos SD = desviacin estndar .....
N/A
N/A
Documentos que citan este conjunto de datos 1 :

CMU Imgenes de la cara 2014-02-12
de datos Fije
Resumen : Esta informacin consta de 640 imgenes de la cara en blanco y negro de
personas tomadas con diferentes postura (recta, izquierda, derecha, arriba), la expresin
(neutros, feliz, triste, enojado), los ojos (gafas de sol o no), y el tamao

Imagen 640 rea: N/A
Caractersticas del Nmero de N/ Fecha 1999-

Entero
atributo: atributos: A Donado 06-24
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Propietario original y los donantes: Tom Mitchell Escuela de Ciencias de la
Computacin de la Universidad Carnegie
Mellon tom.mitchell '@' cmu.eduhttp://www.cs.cmu.edu/ ~ tom /

Cada imagen se puede caracterizar por la pose, expresin, ojos, y tamao. Hay 32
imgenes para cada persona capturando cada combinacin de caractersticas. Para ver
las imgenes, puede utilizar el programa xv. Los datos de la imagen se pueden encontrar
en / faces. Este directorio contiene 20 subdirectorios, uno para cada persona, nombrado
por id de usuario. Cada uno de estos directorios contiene varios diferentes imgenes de la
cara de la misma persona. Usted estar interesado en las imgenes con la siguiente
convencin de nomenclatura:. Pgm
es el ID de usuario de la persona en la imagen, y este campo tiene 20 valores: an2i, AT33,
boland, lpm, ch4f, Cheyer, choon, danieln, Glickman, Karyadi, Kawamura, kk49, megak,
mitchell, noche, phoebe, Saavik, Steffi, sz24 y tammo.
es la posicin de la cabeza de la persona, y este campo tiene 4 valores: derecho,
izquierdo, derecho, arriba.
es la expresin facial de la persona, y este campo tiene 4 valores: neutro, alegre, triste,
enojado.
es el estado del ojo de la persona, y este campo tiene 2 valores: abierto, gafas de sol.
es la escala de la imagen, y este campo tiene 3 valores: 1, 2, y 4. 1 indica una imagen de
alta resolucin (128 columnas por 120 filas); 2 indica una imagen de media resolucin (64
por 60) 4, indica una imagen de un cuarto de resolucin (32 por 30).
Si usted ha estado buscando muy de cerca en el directorios de imgenes, usted puede
notar que algunas imgenes tienen una. mala sufijo en lugar del. sufijo pgm.Como
resultado, 16 de las 640 imgenes tomadas pueden tener problemas tcnicos debido a
problemas con la configuracin de la cmara, que son las malas imgenes..Algunas
personas tenan ms problemas tcnicos que otros, pero todos los que consiguieron ``
enfrent'' deben tener al menos 28 buenas imgenes de la cara (de las 32 variaciones
posibles, escala descontar). Ms informacin y cdigo C para la carga de imgenes est
disponible aqu: [Web Link] .
N/A
T. Mitchell. Aprendizaje Automtico, McGraw Hill, 1997.

Xiaofeng l y Partha Niyogi. Localidad Preservar Proyecciones . PNI. 2003. [ Ver
Contexto ]. Marina Meila y Michael I. Jordan. Aprender con mezclas de rboles . Journal of
Machine Learning Research, 1. 2000. [ Ver Contexto ].
CNAE-9 conjunto de datos 2014-02-12
Resumen : Se trata de un conjunto de datos que contiene 1.080 documentos de texto

gratuitos descripciones empresariales de las empresas brasileas categorizados en un
subconjunto de las 9 categoras
Conjunto de datos Multivariante, Nmero de
1080 rea: Negocios

Entero 857
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Patrick Marques Ciarelli, pciarelli '@' lcad.inf.ufes.br , Departamento de Ingeniera
Elctrica de la Universidad Federal de Esprito Santo
Elias Oliveira, elias '@' lcad.inf.ufes.br , Departamento de Ciencias de la Informacin de la
Universidad Federal de Esprito Santo

Se trata de un conjunto de datos que contiene 1.080 documentos de texto gratuitos
descripciones empresariales de las empresas brasileas categorizados en un
subconjunto de las 9 categoras catalogados en una tabla llamada Clasificacin Nacional
de Actividades Econmicas (Classifica o Nacional de
Atividade Econ'micas - CNAE). Los textos originales fueron pre-procesados para obtener
el actual conjunto de datos: inicialmente, se mantuvo slo
letras y luego se retir preposiciones de los textos. A continuacin, las palabras se
transformaron a su forma cannica. Por ltimo,
cada documento se representa como un vector, donde el peso de cada palabra es su
frecuencia en el documento. Este conjunto de datos es
altamente dispersa (99,22% de la matriz se llena con ceros).
En el conjunto de datos hay 857 atributos, 1 atributos con la clase de instancia y 856 con
frecuencia de la palabra:
1. categora: rango 1-9 (entero)
2-857. frecuencia de las palabras: (entero)
Patrick Marques Ciarelli, Elias Oliveira, 'Aglomeracin y eliminacin de trminos para la
reduccin de dimensionalidad',
Novena Conferencia Internacional sobre Sistemas Inteligentes de Diseo y Aplicaciones,
pp.547-552, 2009 Patrick Marques Ciarelli, Elias Oliveira, Evandro OT Salles, "un sistema
en evolucin Basado en Probabilstico de red neuronal ", Simposio Brasileo de Redes
Neuronales Artificiales, 2010
Cita de pedidos:
Si usted no tiene ninguna peticin de citas especiales, por favor, deje este campo en
blanco.
Bobina de 1999 Datos de la 2014-02-12
competicin Data Set
Resumen : Este conjunto de datos es de la competencia 1999 de Inteligencia
Computacional y Aprendizaje (COIL). Los datos contienen mediciones de las
concentraciones qumicas ro y las densidades de algas.

17
Nmero de
Valores
Tareas asociadas: N/A No Web 15942
perdidos?
Accesos:
Fuente:
Propietario original: Erudit Red Europea para la Lgica Fuzzy y Modelizacin de la incertidumbre
en Tecnologa de la Informacin http://www.erudit.de/ Donante: Jens Strackeljan Universidad
Tcnica de Clausthal Instituto de Mecnica Aplicada Graupenstr. 3, 38678 Clausthal-Zellerfeld,
Alemania ATM '@' itm.tu-clausthal.de

Estos datos proceden de un estudio de la calidad del agua que se tomaron muestras de los sitios
en los diferentes ros de Europa de un perodo de aproximadamente un ao. Estas muestras se
analizaron por diversas sustancias qumicas, incluyendo: nitrgeno en forma de nitratos, nitritos y
amonaco, fosfato, pH, oxgeno, cloruro. En paralelo, se recogieron las muestras de algas para
determinar las distribuciones de la poblacin de algas. El concurso consisti en la prediccin de las
distribuciones de frecuencia de algas sobre la base de las concentraciones medidas de las
sustancias qumicas y la informacin mundial en relacin con la temporada en que se tom la
muestra, el tamao de ro y su velocidad de flujo. Las instrucciones de la competencia contienen
informacin adicional sobre la tarea de prediccin: [Web Link]
Hay un total de 340 ejemplos que contienen cada uno 17 valores. Los primeros 11 valores
de cada conjunto de datos son de la temporada, el tamao del ro, la velocidad del fluido y
8 concentraciones qumicas que debern ser tiles para la distribucin de la poblacin de
algas. Los ltimos 8 valores de cada ejemplo son la distribucin de diferentes tipos de
algas. Estos 8 clases son slo una pequea parte de toda la comunidad, pero para la
competencia que limitan el nmero de 7. El valor 0,0 significa que la frecuencia es muy
baja. El conjunto de datos contiene tambin algunos campos vacos que se etiquetan con
el XXXXX cadena. Los datos de entrenamiento se guardan en el archivo:. analysis.data
(formato ASCII) Tabla 1: Estructura del archivo analysis.data A ... K a. .. g CC1, 1 ... CC1,
11 AG1, 1 ... AG1, 7 ... CC200, CC200 1 ... 11 AG200, 1 ... AG200, 7 Explicacin: CCi, j:
concentracin qumica o ro caracterstico AGi, j: frecuencia de algas Los parmetros
qumicos estn etiquetados como A, ..., K. Las columnas de las algas se etiquetan como,
.., g.
N/A
Comunidades y el Delito 2014-02-12
Data Set
Resumen : Las comunidades dentro de los Estados Unidos. Los datos combina los
datos socioeconmicos del Censo de EE.UU. de 1990, los datos policiales de la
encuesta de 1990 EE.UU. LEMAS, y los datos de criminalidad del 1995 FBI UCR.

Real 128
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Creador: Michael Redmond ( Redmond '@' lasalle.edu ); Ciencias de la Computacin, de
la Universidad La Salle, Philadelphia, PA, 19141, EE.UU.
- entresacado de 1990 del Censo de EE.UU., 1995 EE.UU. FBI Uniform Crime Report,
1990 EE.UU. Administracin de Aplicacin de la Ley y Administrativo Estadsticas
encuesta, disponible en ICPSR en la U de Michigan.
- Donante: Michael Redmond ( Redmond '@' lasalle.edu ); Ciencias de la Computacin, de
- Fecha: Julio 2009

Muchas variables se incluyen para que los algoritmos que seleccionan o aprenden los
pesos de los atributos podran ser probados. Sin embargo, los atributos no relacionados
claramente no se incluyeron; atributos fueron recogidos si haba alguna conexin plausible
delito (N = 122), ms el atributo a predecir (per cpita Delitos Violentos). Las variables
incluidas en el conjunto de datos involucran a la comunidad, tales como el porcentaje de la
poblacin considerada urbana, y la renta mediana de la familia, y la participacin de las
fuerzas del orden, como el nmero de policas per cpita, y el porcentaje de los oficiales
asignados a las unidades de drogas. La Se calcul la variable per cpita crmenes
violentos utilizando la poblacin y la suma de las variables de delitos considerados
crmenes violentos en Estados Unidos: el asesinato, la violacin, el robo y asalto. Al
parecer, haba una cierta controversia en algunos estados en relacin con el conteo de
violaciones. Esto dio como resultado valores perdidos de violacin, lo que dio como
resultado valores incorrectos para los delitos violentos por habitante. Estas ciudades no
estn incluidos en el conjunto de datos. Muchas de estas comunidades eran omitidas
desde el medio oeste de EE.UU.. Los datos se describe a continuacin en base a los
valores originales. Todos los datos numricos se normaliz en el rango 0,00-1,00 decimal
usando un mtodo de agrupacin no supervisada, intervalos iguales. Atributos conservan
su distribucin y sesgan (de ah, por ejemplo, el atributo de la poblacin tiene un valor
medio de 0,06 porque la mayora de las comunidades son pequeas). Por ejemplo, un
atributo se describe como "gente mala por hogar" es en realidad el normalizado (0-1)
versin de ese valor. La normalizacin conserva proporciones aproximadas de los valores
dentro de un atributo (por ejemplo, el doble del valor por el doble de la poblacin dentro de
la precisin disponible - excepto para valores extremos (todos los valores de ms de 3 SD
por encima de la media se normalizan a 1,00; todos los valores de ms de 3 SD por
debajo de la media se nromalized a 0,00).) Sin embargo, la normalizacin no preserva las
relaciones entre los valores entre los atributos (por ejemplo, sera no tendra sentido para
comparar el valor de whitePerCap con la relacin calidad blackPerCap para una
comunidad) Una limitacin es que la encuesta LEMAS era de los departamentos de polica
de al menos 100 oficiales, adems de una muestra aleatoria de los departamentos ms
pequeos. Para nuestros propsitos, las comunidades que no se encuentran en los dos
conjuntos de datos de los censos y la delincuencia fueron omitidos. Muchas comunidades
faltan datos de Lemas. encabezado ARFF para Weka:. @ relacin crimepredict estado
atributo @ numrico numrico del condado atributo @ comunidad @ atributo numrico @
atribuir communityName cadena @ atributo veces numrico atributo @ numrico
poblacin @ atributo householdsize numrico numrico del atributo @
racepctblack atributo @ racePctWhite numrico @ atribuir racePctAsian numrico atributo
@ racePctHisp numricoatributo @ agePct12t21 numrico atributo @ agePct12t29
numrico atributo @ agePct16t24 numrico atributo @ agePct65up numrico @ atribuir
numbUrban numrico@ atribuir pctUrban numrico @ atribuir medIncome numrico @
atributo pctWWage numrico atributo @ pctWFarmSelf numrico atributo @ pctWInvInc
numrico @ atribuir pctWSocSec numrico atributo @ pctWPubAsst numrico atributo @
pctWRetire numrico @ atribuir medFamInc numrico atributo @ perCapInc
numricoatributo @ whitePerCap numrico @ atributo blackPerCap numrico @ atributo
indianPerCap numrico atributo @ AsianPerCap numrico @ atribuir OtherPerCap
numrico numrico del atributo @ HispPerCap @ atribuir NumUnderPov numrico atributo
@ PctPopUnderPov numrico atributo @ PctLess9thGrade numrico atributo @
PctNotHSGrad numrico @ atributo PctBSorMore numrico @ atributo PctUnemployed
numrico @ atribuir PctEmploy numrico atributo @ PctEmplManu numrico @ atribuir
PctEmplProfServ numrico @ atributo PctOccupManu numrico atributo @
PctOccupMgmtProf numrico @ atribuir MalePctDivorce numrico atributo @
MalePctNevMarr numrico @ atribuir FemalePctDiv numrico @ atribuir TotalPctDiv
numrico @ atribuir PersPerFam numrico @ atributo PctFam2Par numrico @ atributo
PctKids2Par numrico atributo @ PctYoungKids2Par numrico @ atribuir PctTeen2Par
numrico atributo @ PctWorkMomYoungKids numrico @ atribuir PctWorkMom
numrico @ atributo NumIlleg numrico @ atributo PctIlleg numrico numrico del atributo
@ NumImmig atributo @ PctImmigRecent numrico atributo @ PctImmigRec5
numrico atributo @ PctImmigRec8 numrico atributo @ PctImmigRec10
numrico atributo @ PctRecentImmig numrico atributo @ PctRecImmig5
numrico atributo @ PctRecImmig8 numrico atributo @ PctRecImmig10
numrico atributo @ PctSpeakEnglOnly numrico atributo @ PctNotSpeakEnglWell
numricoatributo @ PctLargHouseFam numrico atributo @ PctLargHouseOccup
numrico @ atributo PersPerOccupHous numrico @ atributo numrico
PersPerOwnOccHous @ atribuir PersPerRentOccHous numrico atributo @
PctPersOwnOccup numrico @ atribuir PctPersDenseHous numrico atributo @
PctHousLess3BR numrico @ atribuir MedNumBR numrico @ atributo HousVacant
numrico @ atributo PctHousOccup numrico atributo @ PctHousOwnOcc
numrico atributo @ PctVacantBoarded numricos PctVacMore6Mos atributo numrico
@ @ atribuir MedYrHousBuilt numrico @ atributo PctHousNoPhone numrico @ atributo
PctWOFullPlumb numricoatributo @ OwnOccLowQuart numrico @ atributo numrico
OwnOccMedVal atributo @ OwnOccHiQuart numrico atributo @ RentLowQ numrico @
atributo RentMedian numrico atributo @ RentHighQ numrico @ atributo MedRent
numrico @ atributo MedRentPctHousInc numrico atributo @ MedOwnCostPctInc
numrico@ atribuir MedOwnCostPctIncNoMtg numrico NumInShelters atributo numrico
@ @ atribuir NumStreet numrico @ atribuir PctForeignBorn numrico @ atributo
PctBornSameState numrico @ atributo PctSameHouse85 numrico atributo @
PctSameCity85 numrico atributo @ PctSameState85 numrico @ atributo
LemasSwornFT numrico @ atributo LemasSwFTPerPop numrico numrico
LemasSwFTFieldOps @ atribuir atributo @ LemasSwFTFieldPerPop numrico @ atributo
LemasTotalReq numrico @ atribuir LemasTotReqPerPop numrico @ atribuir
PolicReqPerOffic numrico atributo @ PolicPerPop numrico @ atributo
RacialMatchCommPol numrico atributo @ PctPolicWhite numrico atributo @
PctPolicBlack numrico atributo @ PctPolicHisp numrico @ atribuir PctPolicAsian
numrico atributo @ PctPolicMinor numrico numrico del atributo @
OfficAssgnDrugUnits atributo @ NumKindsDrugsSeiz numrico atributo @
PolicAveOTWorked numrico atributo @ LandArea numrico atributo @ PopDens
numrico atributo @ PctUsePubTrans numrico @ atribuir PolicCars numricos @ atributo
PolicOperBudg numrico atributo @ LemasPctPolicOnPatr numrico @ atribuir
LemasGangUnitDeploy numrico @ atribuir LemasPctOfficDrugUn numrico atributo @
PolicBudgPerPop numrico atributo @ ViolentCrimesPerPop numrico @ datos
Atributo Informacin: (122 predictivo, 5 no predictiva, 1 gol)
- Estado: estado de los EE.UU. (por nmero) - no se cuentan como predictivos arriba, pero
si se considera, se debe consided nominal (nominal)
- Condado: cdigo numrico para condado - no predictiva, y muchos valores perdidos
(numrico)
- Comunidad: cdigo numrico para la comunidad - no predictiva y muchos valores
perdidos (numricos)
- communityName: nombre de la comunidad - no predictiva - slo para informacin
(cadena)
- doble: nmero de veces para la validacin cruzada no aleatoria de 10 veces,
potencialmente til para la depuracin, pares de pruebas - no predictiva (numrico)
- Poblacin: La poblacin de la comunidad: (numrico - decimal)
- householdsize: personas promedio por hogar (numrico - decimales)
- racepctblack: porcentaje de la poblacin que es afroamericano (numrico - decimal)
- racePctWhite: porcentaje de la poblacin que es de raza blanca (numrico - decimal)
- racePctAsian: porcentaje de la poblacin que es de origen asitico (numrico - decimal)
- racePctHisp: porcentaje de la poblacin que es de origen hispano (numrico - decimal)
- agePct12t21: porcentaje de la poblacin que est en edad de 12 a 21 (numrico -
decimal)
decimal)
decimal)
- agePct65up: porcentaje de la poblacin que es de 65 aos y ms de edad (numrico -
decimal)
- numbUrban: nmero de personas que viven en reas clasificadas como urbanas
(numrico - decimal)
- pctUrban: porcentaje de personas que viven en zonas clasificadas como urbanas
(numrico - decimal)
- medIncome: ingreso medio por hogar (numrico - decimales)
- pctWWage: porcentaje de hogares con sueldos o salarios ingresos en 1989 (numrico -
decimal)
- pctWFarmSelf: porcentaje de hogares con granja o ingresos por cuenta propia en 1989
(numrico - decimal)
- pctWInvInc: porcentaje de hogares con una inversin / alquiler de ingresos en 1989
(numrico - decimal)
- pctWSocSec : porcentaje de hogares con ingresos de la seguridad social en 1989
(numrico - decimal)
- pctWPubAsst: porcentaje de hogares con ingresos de asistencia pblica en 1989
(numrico - decimal)
- pctWRetire: porcentaje de hogares con ingresos de jubilacin en 1989 (numrico -
decimal)
- medFamInc: ingreso familiar medio (se diferencia de los ingresos familiares de los
hogares no familiares) (numrico - decimal)
- perCapInc: el ingreso per cpita (numrico - decimal)
- whitePerCap: el ingreso per cpita de los caucsicos (numrico - decimal)
- - blackPerCap: el ingreso per cpita de los afroamericanos (numrico - decimal)
- indianPerCap: el ingreso per cpita de los nativos americanos (numrico - decimal)
- AsianPerCap: el ingreso per cpita para personas de origen asitico (numrico -
decimal)
- OtherPerCap: el ingreso per cpita de las personas con "otro" patrimonio (numrico -
decimal)
- HispPerCap: el ingreso per cpita de las personas con herencia hispana (numrico -
decimal)
- NumUnderPov: nmero de personas bajo el nivel de pobreza (numrico - decimal)
- PctPopUnderPov: porcentaje de personas bajo el nivel de pobreza (numrico - decimal)
- PctLess9thGrade: porcentaje de personas de 25 y ms aos con una educacin inferior a
noveno grado (numeric - decimal)
- PctNotHSGrad: porcentaje de personas de 25 y otra vez que no son altos graduados de
la escuela (numrico - decimales)
- PctBSorMore: porcentaje de personas de 25 y ms aos con una licenciatura o estudios
superiores (numrico - decimal)
- PctUnemployed: porcentaje de personas de 16 y ms, en la fuerza de trabajo, y los
desempleados (numrico - decimal)
- PctEmploy: porcentaje de personas de 16 y ms aos que se emplean (numrico -
decimal)
- PctEmplManu: porcentaje de personas de 16 y ms que son empleados en la industria
manufacturera (numrico - decimal)
- PctEmplProfServ: porcentaje de personas de 16 y ms que estn empleados en los
servicios profesionales (numrico - decimal)
- PctOccupManu: porcentaje de personas de 16 o ms aos que se emplean en la
fabricacin (numrico - decimal) # # # # # # # #
- PctOccupMgmtProf: porcentaje de personas de 16 y ms aos que se emplean en la
gestin o profesionales ocupaciones (numrico - decimales)
- MalePctDivorce: Porcentaje de hombres que estn divorciados (numrico - decimal)
- MalePctNevMarr: porcentaje de hombres que nunca se han casado (numrico - decimal)
- FemalePctDiv: porcentaje de mujeres que estn divorciados (numrico - decimal)
- TotalPctDiv: porcentaje de la poblacin que estn divorciados (numrico - decimal)
- PersPerFam: nmero de personas por familia media (numrico - decimal)
- PctFam2Par: porcentaje de familias (con nios) que estn encabezados por dos padres
(numricos - decimales)
- PctKids2Par: porcentaje de nios en la vivienda familiar con dos padres (numrico -
decimales)
- PctYoungKids2Par: Porcentaje de nios de 4 aos en dos hogares monoparentales
(numrico - decimal)
- PctTeen2Par : por ciento de los nios de 12-17 aos en dos hogares monoparentales
(numrico - decimales)
- PctWorkMomYoungKids: Porcentaje de madres de nios de 6 aos en la fuerza laboral
(numrico - decimal)
- PctWorkMom: porcentaje de madres de nios menores de 18 aos en el trabajo fuerza
(numrico - decimal)
- NumIlleg: nmero de nios nacidos de que nunca se casaron (numrico - decimal)
- PctIlleg: porcentaje de nios nacidos de que nunca se casaron (numrico - decimal)
- NumImmig: nmero total de personas que se sabe que son extranjeros nacido (numrico
- decimal)
- PctImmigRecent: porcentaje de _immigrants_ que immigated dentro de los 3 ltimos
aos (numrico - decimal)
- PctImmigRec5: porcentaje de _immigrants_ que immigated en los ltimos 5 aos
(numrico - decimal)
- PctImmigRec8: porcentaje de _immigrants_ que immigated dentro de los ltimos 8 aos
(numrico - decimal)
- PctImmigRec10: porcentaje de _immigrants_ que immigated dentro de los ltimos 10
aos (numrico - decimal)
- PctRecentImmig: ciento de _population_ que han inmigrado en los ltimos 3 aos
(numrico - decimal)
- PctRecImmig5: ciento de _population_ que han inmigrado en los ltimos 5 aos
(numrico - decimal)
- PctRecImmig8: ciento de _population_ que han inmigrado en los ltimos 8 aos
(numrico - decimal)
- PctRecImmig10: ciento de _population_ que han inmigrado en el ltimos 10 aos
(numrico - decimal)
- PctSpeakEnglOnly: ciento de las personas que slo hablan Ingls (numrico - decimal)
- PctNotSpeakEnglWell: ciento de las personas que no hablan Ingls bien (numrico -
decimal)
- PctLargHouseFam: por ciento de los hogares de la familia que son grandes (6 o ms)
(numrico - decimal)
- PctLargHouseOccup: por ciento de todas las casas ocupadas que son grandes (6 o ms
personas) (numrico - decimales)
- PersPerOccupHous: personas promedio por hogar (numrico - decimal)
- - PersPerOwnOccHous: personas promedio por hogar ocupadas por sus propietarios
(numrico - decimal)
- PersPerRentOccHous: personas promedio por hogar de alquiler (numrico - decimal)
- PctPersOwnOccup: Porcentaje de personas en propietario hogares ocupados (numrico
- decimales)
- PctPersDenseHous: Porcentaje de las personas en condiciones de densa (ms de 1
persona por habitacin) (numrico - decimal)
- PctHousLess3BR: porcentaje de viviendas con menos de 3 dormitorios (numrico -
decimales)
- MedNumBR: nmero medio de habitaciones (numrico - decimal)
- HousVacant: nmero de hogares vacantes (numrico - decimales)
- PctHousOccup: por ciento de las viviendas ocupadas (numrico - decimal)
- PctHousOwnOcc: porcentaje de hogares ocupadas por sus propietarios (numrico -
decimal)
- PctVacantBoarded: porcentaje de viviendas desocupadas que est tapiada (numrico -
decimales)
- PctVacMore6Mos: Porcentaje de viviendas desocupadas que ha estado vacante ms de
6 meses (numrico - decimales)
- MedYrHousBuilt: unidades de vivienda construidas aos mediana (numrico - decimal)
- PctHousNoPhone: por ciento de unidades de vivienda ocupadas sin telfono (en 1990,
esto era raro!) (numrico - decimal)
- PctWOFullPlumb: porcentaje de viviendas sin instalaciones sanitarias completas
- OwnOccLowQuart: vivienda en propiedad - valor cuartil inferior (numrico - decimal)
- OwnOccMedVal : vivienda en propiedad - valor medio (numrico - decimal)
- OwnOccHiQuart: vivienda en propiedad - valor cuartil superior (numrico - decimal)
- RentLowQ: alquiler de viviendas - una renta menor cuartil (numrico - decimal)
- RentMedian: alquiler de viviendas - renta mediana (Censo H32B variable a partir de
archivos STF1A) (numrico - decimal)
- RentHighQ: vivienda de alquiler - alquiler cuartil superior (numrico - decimal)
- MedRent: renta bruta media (Censo H43A variables de archivo STF3A - incluye servicios
pblicos) (numrico - decimal)
- MedRentPctHousInc: renta bruta promedio como porcentaje del ingreso de los hogares
(numrico - decimal)
- MedOwnCostPctInc: propietarios de la mediana de costos como porcentaje de los
ingresos del hogar - para los propietarios con una hipoteca (numrico - decimal)
- MedOwnCostPctIncNoMtg: mediana propietarios de costos como porcentaje de los
ingresos del hogar - para los propietarios sin una hipoteca (numrico - decimal)
- NumInShelters: nmero de personas en refugios para desamparados (numrico -
decimal)
- NumStreet: nmero de personas sin hogar, contados en la calle (numrico - decimales )
- PctForeignBorn: ciento de las personas nacidas en el extranjero (numrico - decimal)
- PctBornSameState: por ciento de las personas nacidas en el mismo estado en el que
viven actualmente (numrico - decimal)
- PctSameHouse85: Porcentaje de personas que viven en la misma casa que en 1985 (5
aos antes) (numrico - decimal)
- PctSameCity85: porcentaje de personas que viven en la misma ciudad que en 1985 (5
- PctSameState85: porcentaje de personas que viven en el mismo estado que en 1985 (5
- LemasSwornFT: nmero de oficiales jurados de tiempo completo de la polica (numrico
- decimales)
- LemasSwFTPerPop: oficiales jurados tiempo completo policiales por 100K poblacin
- LemasSwFTFieldOps: nmero de jurado los agentes de polica a tiempo completo en las
operaciones de campo (en la calle en lugar de etc administrativa) (numrico - decimal)
- LemasSwFTFieldPerPop: jurada agentes de polica a tiempo completo en las
operaciones de campo (en la calle en lugar de etc administrativa) por 100 mil habitantes
(numrico - decimal)
- LemasTotalReq: total de solicitudes para la polica (numrico - decimal)
- LemasTotReqPerPop: Total de solicitudes para la polica por 100K popuation (numrico -
decimal)
- PolicReqPerOffic: total de solicitudes para la polica por oficial de polica (numrico -
decimales)
- PolicPerPop : policas por 100K poblacin (numrico - decimales)
- RacialMatchCommPol: una medida del partido racial entre la comunidad y la polica. Los
valores altos indican las proporciones en la comunidad y la polica son similares (numrico
- decimal)
- PctPolicWhite: por ciento de la polica que son caucsicos (numrico - decimal)
- PctPolicBlack: por ciento de la polica que son afroamericanos (numrico - decimal)
- PctPolicHisp : por ciento de la polica que son hispanos (numrico - decimal)
- PctPolicAsian: por ciento de la polica que son asitico (numrico - decimal)
- PctPolicMinor: por ciento de la polica que son minora de cualquier tipo (numrico -
decimal)
- OfficAssgnDrugUnits: nmero de los oficiales asignados a las unidades especiales de la
droga (numrico - decimales)
- NumKindsDrugsSeiz: nmero de diferentes tipos de drogas incautadas (numrico -
decimal)
- PolicAveOTWorked: polica promedio de horas extras trabajadas (numrico - decimal)
- LandArea: rea de tierra en millas cuadradas (numrico - decimales)
- PopDens: la densidad de poblacin de personas por milla cuadrada (numrico - decimal)
- PctUsePubTrans: porcentaje de personas que utilizan el transporte pblico para ir al
trabajo (numrico - decimal)
- PolicCars: nmero de coches de polica (numrico - decimales )
- PolicOperBudg: presupuesto operativo de la polica (numrico - decimal)
- LemasPctPolicOnPatr: por ciento de los oficiales juramentados a tiempo completo de la
polica en patrulla (numrico - decimales)
- LemasGangUnitDeploy: unidad de pandillas desplegado (numrico - decimal - pero
realmente ordinal - 0 significa NO , 1 medio YES, 0.5 significa Part Time)
- LemasPctOfficDrugUn: ciento de los oficiales asignados a las unidades de la droga
- PolicBudgPerPop: el presupuesto operativo de la polica por la poblacin (numrico -
decimal)
- ViolentCrimesPerPop: nmero total de delitos violentos por cada 100K popuation -
atributo (numrico decimal) GOAL (a predecir) Resumen Estadsticas: Min Max Promedio
DE Correl Mediana Moda Missing poblacin 0 1 0.06 0.13 0.37 0.02 0.01 0 householdsize
0 1 0.46 0.16 -0.03 0.44 0.41 0 racepctblack 0 1 0.18 0.25 0.63 0,06 0,01 0 racePctWhite 0
1 0.75 0.24 -0.68 0.85 0.98 0 racePctAsian 0 1 0.15 0.21 0.04 0.07 0.02 0 racePctHisp 0 1
0.14 0.23 0.29 0.04 0.01 0 agePct12t21 0 1 0,42 0,16 0,06 0,4 0,38 0 agePct12t29 0 1
0.49 0.14 0.15 0.48 0.49 0 agePct16t24 0 1 0.34 0.17 0.10 0.29 0.29 0 agePct65up 0 1
0.42 0.18 0.07 0.42 0.47 0 numbUrban 0 1 0,06 0,13 0,36 0,03 0 0 0 1 pctUrban 0.70 0.44
0.08 1 1 0 0 1 medIncome 0.36 0.21 -0.42 0.32 0.23 0 0 pctWWage 1 0,56 0,18 -0,31 0,56
0,58 0 pctWFarmSelf 0 1 0.29 0.20 -0.15 0.23 0.16 0 pctWInvInc 0 1 0.50 0.18 -0.58 0.48
0.41 0 pctWSocSec 0 1 0.47 0.17 0.12 0.475 0.56 0 pctWPubAsst 0 1 0.32 0.22 0.57 0.26
0.1 0 pctWRetire 0 1 0.48 0.17 -0.10 0,47 0,44 0 medFamInc 0 1 0.38 0.20 -0.44 0.33 0.25
0 perCapInc 0 1 0.35 0.19 -0.35 0.3 0.23 0 whitePerCap 0 1 0.37 0.19 -0.21 0.32 0.3
0 blackPerCap 0 1 0.29 0.17 -0.28 0.25 0.18 0 0 1 indianPerCap 0.20 0.16 -0.09 0,17 0 0 0
1 AsianPerCap 0.32 0.20 -0.16 0.28 0.18 0 OtherPerCap 0 1 0.28 0.19 -0.13 0.25 0 1 0 1
HispPerCap 0,39 0,18 -0,24 0,345 0.3 0 NumUnderPov 0 1 0.06 0.13 0.45 0.02 0.01
0 PctPopUnderPov 0 1 0,30 0,23 0,52 0,25 0,08 0 PctLess9thGrade 0 1 0.32 0.21 0.41
0.27 0.19 0 PctNotHSGrad 0 1 0.38 0.20 0.48 0.36 0.39 0 PctBSorMore 0 1 0.36 0.21 -
0.31 0.31 0.18 0 PctUnemployed 0 1 0.36 0.20 0.50 0.32 0.24 0 PctEmploy 0 1 0.50 0.17 -
0.33 0.51 0.56 0 0 PctEmplManu 1 0.40 0.20 -0.04 0.37 0.26 0 PctEmplProfServ 0 1 0.44
0.18 -0.07 0.41 0.36 0 PctOccupManu 0 1 0,39 0,20 0,30 0,37 0,32 0 0 1
PctOccupMgmtProf 0.44 0.19 -0.34 0.4 0.36 0 MalePctDivorce 0 1 0,46 0,18 0,53 0,47
0,56 0 0 1 0,43 MalePctNevMarr 0,18 0,30 0,4 0,38 0 FemalePctDiv 0 1 0,49 0,18 0,56 0,5
0,54 0 TotalPctDiv 0 1 0,49 0,18 0,55 0,5 0,57 0 PersPerFam 0 1 0.49 0.15 0.14 0.47 0.44
0 PctFam2Par 0 1 0.61 0.20 -0.71 0.63 0.7 0 PctKids2Par 0 1 0.62 0.21 -0.74 0.64 0.72
0 PctYoungKids2Par 0 1 0.66 0.22 -0.67 0.7 0.91 0 PctTeen2Par 0 1 0.58 0.19 -0.66 0.61
0.6 0 PctWorkMomYoungKids 0 1 0.50 0.17 -0.02 0.51 0.51 0 PctWorkMom 0 1 0.53 0.18 -
0.15 0.54 0.57 0 NumIlleg 0 1 0.04 0.11 0.47 0.01 0 0 PctIlleg 0 1 0.25 0.23 0.74 0.17 0.09
0 NumImmig 0 1 0,03 0,09 0,29 0,01 0 0 0 1 PctImmigRecent 0,32 0,22 0,17 0,29 0 0 0 1
PctImmigRec5 0,36 0,21 0,22 0,34 0 0 0 1 PctImmigRec8 0,40 0,20 0,25 0,39 0,26 0 0 1
0,43 PctImmigRec10 0,19 0,29 0,43 0,43 0 0 1 PctRecentImmig 0.18 0.24 0.23 0.09 0.01
0 PctRecImmig5 0 1 0.18 0.24 0.25 0.08 0.02 0 PctRecImmig8 0 1 0.18 0.24 0.25 0.09
0.02 0PctRecImmig10 0 1 0.18 0.23 0.26 0.09 0.02 0 PctSpeakEnglOnly 0 1 0.79 0.23 -
0.24 0.87 0.96 0 PctNotSpeakEnglWell 0 1 0.15 0.22 0.30 0.06 0.03 0PctLargHouseFam 0
1 0,27 0,20 0,38 0,2 0,17 0 PctLargHouseOccup 0 1 0.25 0.19 0.29 0.19 0.19
0 PersPerOccupHous 0 1 0.46 0.17 -0.04 0.44 0.37 0PersPerOwnOccHous 0 1 0.49 0.16 -
0.12 0.48 0.45 0 0 PersPerRentOccHous 1 0.40 0.19 0.25 0.36 0.32 0 PctPersOwnOccup
0 1 0.56 0.20 -0.53 0.56 0.54 0PctPersDenseHous 0 1 0.19 0.21 0.45 0.11 0.06
0 PctHousLess3BR 0 1 0,50 0,17 0,47 0,51 0,53 0 0 MedNumBR 1 0,31 0,26 -0,36 0,5 0,5
0 0 1 HousVacant 0,08 0,15 0,42 0,03 0,01 0 0 1 PctHousOccup 0.72 0.19 -0.32 0.77 0.88
0 PctHousOwnOcc 0 1 0.55 0.19 -0.47 0.54 0.52 0 PctVacantBoarded 0 1 0,20 0,22 0,48
0,13 0 0 0 1 PctVacMore6Mos 0.43 0.19 0.02 0.42 0.44 0 MedYrHousBuilt 0 1 0.49 0.23 -
0.11 0.52 0 0 PctHousNoPhone 0 1 0.26 0.24 0.49 0.185 0.01 0 PctWOFullPlumb 0 1 0,24
0,21 0,36 0,19 0 0 0 1 OwnOccLowQuart 0.26 0.22 -0.21 0.18 0.09 0 OwnOccMedVal 0 1
0.26 0.23 -0.19 0.17 0.08 0 OwnOccHiQuart 0 1 0.27 0.24 -0.17 0.18 0.08 0RentLowQ 0 1
0,35 0,22 -0,25 0,31 0,13 0 RentMedian 0 1 0,37 0,21 -0,24 0,33 0,19 0 RentHighQ 0 1
0,42 0,25 -0,23 0,37 1 0 MedRent 0 1 0,38 0,21 -0,24 0,34 0,17 0MedRentPctHousInc 0 1
0,49 0,17 0,33 0,48 0,4 0 MedOwnCostPctInc 0 1 0.45 0.19 0.06 0.45 0.41
0 MedOwnCostPctIncNoMtg 0 1 0.40 0.19 0.05 0.37 0.24 0NumInShelters 0 1 0.03 0.10
0.38 0 0 0 0 1 NumStreet 0.02 0.10 0.34 0 0 0 0 1 PctForeignBorn 0.22 0.23 0.19 0.13 0.03
0 0 1 PctBornSameState 0,61 0,20 - 0,08 0,63 0,78 0 0 1 PctSameHouse85 0.54 0.18 -
0.16 0.54 0.59 0 PctSameCity85 0 1 0,63 0,20 0,08 0,67 0,74 0 0 1 PctSameState85 0.65
0.20 -0.02 0.7 0.79 0 LemasSwornFT 0 1 0,07 0,14 0,34 0,02 0,02
1,675 LemasSwFTPerPop 0 1 0.22 0.16 0.15 0.18 0.2 1675 LemasSwFTFieldOps 0 1 0,92
0,13 -0,33 0,97 0,98 1675 LemasSwFTFieldPerPop 0 1 0,25 0,16 0,16 0,21 0,19
1,675 LemasTotalReq 0 1 0,10 0,16 0,35 0,04 0,02 1,675 LemasTotReqPerPop 0 1 0,22
0,16 0,27 0,17 0,14 1,675 PolicReqPerOffic 0 1 0,34 0,20 0,17 0,29 0,23
1,675 PolicPerPop 0 1 0,22 0,16 0,15 0,18 0,2 1,675 RacialMatchCommPol 0 1 0,69 0,23 -
0,46 0,74 0,78 1675 PctPolicWhite 0 1 0,73 0,22 -0,44 0,78 0,72 1675 PctPolicBlack 0 1
0.22 0.24 0.54 0.12 0 1675 PctPolicHisp 0 1 0.13 0.20 0.12 0.06 0 1675 PctPolicAsian 0 1
0,11 0,23 0,10 0 0 1675 PctPolicMinor 0 1 0,26 0,23 0,49 0,2 0,07
1,675 OfficAssgnDrugUnits 0 1 0,08 0,12 0,34 0,04 0,03 1,675 NumKindsDrugsSeiz 0 1
0,56 0,20 0,13 0,57 0,57 1,675 PolicAveOTWorked 0 1 0,31 0,23 0,03 0,26 0,19
1,675 LandArea 0 1 0,07 0,11 0,20 0,04 0,01 0 0 PopDens 1 0.23 0.20 0.28 0.17 0.09
0 PctUsePubTrans 0 1 0.16 0.23 0.15 0.07 0.01 0 PolicCars 0 1 0,16 0,21 0,38 0,08 0,02
1,675 PolicOperBudg 0 1 0,08 0,14 0,34 0,03 0,02 1,675 LemasPctPolicOnPatr 0 1 0,70
0,21 -0,08 0,75 0,74 1675 LemasGangUnitDeploy 0 1 0,44 0,41 0,12 0.5 0
1675 LemasPctOfficDrugUn 0 1 0.09 0.24 0.35 0 0 0 0 1 PolicBudgPerPop 0,20 0,16 0,10
0,15 0,12 1,675 ViolentCrimesPerPop 0 1 0.24 0.23 1.00 0.15 0.03 0 Distribucin de la
variable objetivo (delitos violentos por Poblacin): Rango de frecuencia 0,000 hasta 0,067
484 0,067- 0,133 420 284 0,133 a 0,200 0,200 hasta 0,267 177 142 0,267-,333 ,333-,400
113 0,400 hasta 0,467 59 76 0,467-0,533 0,533-0,600 57 38 0,600-0,667 0,667-0,733
37 0,733 hasta 0,800 20 0,800 a 0,867 2314 0,867 hasta 0,933 0,933-1,000 50
No hay resultados publicados que utilizan esta base de datos especfica. relacionados
conjunto de datos utilizado en Redmond y Baveja 'Una herramienta de software basada en
datos para permitir el intercambio de cooperacin entre los departamentos de polica de la
informacin "en el European Journal of Operational Research 141 (2002) 660-678; Ese
artculo incluye una descripcin de la integracin de las tres fuentes de datos, sin
embargo, estos datos se normaliza de manera diferente y ms / diferentes atributos estn
incluidos.
Cita de pedidos:
Por favor, cite la UCI Machine Learning Repository, mis fuentes y mi artculo
relacionado: Departamento de Comercio, Oficina del Censo de EE.UU., Censo de
Poblacin y Vivienda 1990 Estados Unidos: Compendio de Datos Cinta 1a y 3a (Archivos
de computadora), Departamento de Comercio de EE.UU., Oficina del productor del Censo,
Washington, DC y el Consorcio Interuniversitario para la Investigacin Poltica y Social
Ann Arbor, Michigan. (1992) Departamento de Justicia de EE.UU., Oficina de Estadsticas
de Justicia, Administracin de Aplicacin de la Ley y las estadsticas administrativas
(Archivo de computadora) del Departamento de Comercio, Oficina del Censo de EE.UU.
Productor, Washington, DC y el Consorcio Interuniversitario para la Investigacin Poltica y
Social Ann Arbor, Michigan. (1992) Departamento de Justicia de EE.UU., Oficina Federal
de Investigaciones, Crimen en los Estados Unidos (Archivo de computadora)
(1995) Redmond, MA y A. Baveja: una herramienta de software basado en los Datos de
Activacin Cooperativa intercambio de informacin entre los Departamentos de
Polica. European Journal of Operational Research 141 (2002) 660-678.
Comunidades y el Delito 2014-02-12
unnormalized Data Set
Resumen : Las comunidades en los EE.UU.. Los datos combina los datos socio-
econmicos de los aos 90 del Censo, los datos policiales de la aplicacin de la ley 1990
de gestin y administracin de las estadsticas de la encuesta, y los datos de
criminalidad del 1995 FBI UCR

Real 147
Nmero de
Valores
perdidos?
Accesos:
Fuente:
- Creador: Michael Redmond (Redmond 'at' lasalle.edu); Ciencias de la Computacin, de
- entresacado de 1990 del Censo de EE.UU., 1995 EE.UU. FBI Uniform Crime Report,
1990 Gestin EE.UU. aplicacin de la ley y Administrativo de Estadstica Encuesta,
disponible en ICPSR en la U de Michigan.
- Donante: Michael Redmond (Redmond 'at' lasalle.edu); Ciencias de la Computacin, de

Los conjuntos de datos de origen necesarios para combinarse a travs de la
programacin. Muchas variables se incluyen para que los algoritmos que seleccionan o
aprenden los pesos de los atributos podran ser probados. Sin embargo, los atributos no
relacionados claramente no se incluyeron; atributos fueron recogidos si haba alguna
conexin plausible delito (N = 125), adems de las variables de delincuencia que son
posibles variables dependientes. Las variables incluidas en el conjunto de datos involucran
a la comunidad, tales como el porcentaje de la poblacin considerada urbana, y la renta
mediana de la familia, y la participacin de las fuerzas del orden, como el nmero de
policas per cpita, y el porcentaje de los oficiales asignados a las unidades de la
droga. Los atributos de delitos (N = 18) que podran ser predichos son los 8 delitos
considerados "crmenes ndice 'por el FBI) (Asesinatos, Violacin, Robo, ....), per cpita
(en realidad por 100.000 habitantes) versiones de cada uno, y Per Cpita delitos violentos
y no violentos Delitos per cpita). Una limitacin es que la encuesta LEMAS era de los
departamentos de polica de al menos 100 oficiales, adems de una muestra aleatoria de
los departamentos ms pequeos. Para nuestros propsitos, las comunidades que no se
encuentran en los dos conjuntos de datos de los censos y la delincuencia fueron
omitidos. Muchas comunidades faltan datos de Lemas. Las variables crmenes per cpita
se calcularon utilizando valores de la poblacin incluida en los datos de 1995 del FBI (que
difieren de los valores del Censo 1990). La variable per cpita crmenes violentos se
calcul utilizando la poblacin y la suma de las variables del crimen considerado crmenes
violentos en Estados Unidos: el asesinato, la violacin, el robo y asalto. Al parecer, haba
una cierta controversia en algunos estados en relacin con el conteo de violaciones. Esto
dio como resultado valores perdidos de violacin, lo que dio lugar a los valores que faltan
para el crimen violento per cpita. Muchas de estas comunidades eran omitidos de los
EE.UU. del Medio Oeste (Minnesota, Illinois y Michigan tienen muchos de estos).La
variable de la delincuencia no violenta per cpita fue calculado utilizando la suma de las
variables de delitos considerados crmenes no violentos en los Estados Unidos: robos,
hurtos , robos de automviles e incendios. (Hay muchos otros tipos de delitos, stos slo
incluyen 'Crmenes ndice' FBI) Algunos ms pre-procesamiento del conjunto de datos
debe hacerse. Elija la variable dependiente deseable de entre los 18 posibles. No sera
interesante o apropiado para predecir el total de delitos (por ejemplo, los delitos violentos),
mientras incluyendo subtotales (por ejemplo, asesinatos) como variables
independientes. Tambin hay variables de identificacin (nombre de la comunidad, el
cdigo de condado, cdigo comunitario) que no son predictivos, y se pondr en el camino
de algunos algoritmos. Sin supervisin de Weka Atributo Eliminar filtro se puede utilizar
para quitar los atributos deseados. El FBI seala que el uso de estos datos para evaluar
las comunidades es demasiado simplista, no se incluyen como muchos factores
relevantes. Por ejemplo, las comunidades con un gran nmero de visitantes tendrn mayor
delincuencia per cpita (medido por los residentes) que las comunidades con menor
nmero de visitantes, en igualdad de circunstancias.
(125 predictivo, 4 no predictiva, 18 gol potencial)
- communityName: Nombre de la comunidad - no predictiva - slo para informacin
(cadena)
- Estado: estado de los EE.UU. (por 2 letras de la abreviatura postal) (nominal)
- countyCode: numrico Cdigo para el condado - no predictiva, y muchos valores
perdidos (numrico)
- communityCode: cdigo numrico para la comunidad - no predictivos y muchos valores
perdidos (numricos)
- aspectos: nmero de validacin no aleatoria 10 cruz doblez plegar, potencialmente til
para depuracin, pruebas pareadas - no predictiva (numrico - entero) - Poblacin: La
poblacin de la comunidad: (numrico - espera que sea entero) - householdsize: personas
promedio por hogar (numrico - decimal) - racepctblack: porcentaje de la poblacin que es
afroamericano (numrico - decimal) - racePctWhite: porcentaje de la poblacin que es
caucsico (numrico - decimal) - racePctAsian: porcentaje de la poblacin que es de
origen asitico (numrico - decimal) - racePctHisp: porcentaje de la poblacin que es de
hispanos patrimonio (numrico - decimal) - agePct12t21: porcentaje de la poblacin que
est en edad de 12 a 21 (numrico - decimal) - agePct12t29: porcentaje de la poblacin
que est en edad de 12 a 29 (numrico - decimal) - agePct16t24: porcentaje de poblacin
que est en edad de 16 a 24 (numrico - decimal) - agePct65up: porcentaje de la
poblacin que es de 65 aos y ms de edad (numrico - decimal) - numbUrban: nmero
de personas que viven en zonas clasificadas como urbanas (numrico - se espera que ser
entero) - pctUrban: porcentaje de personas que viven en zonas clasificadas como urbanas
(numrico - decimal) - medIncome: renta de casa mediana (numrico - puede ser un
nmero entero) - pctWWage: porcentaje de hogares con sueldos o ingresos salariales en
1989 ( numrico - decimal) - pctWFarmSelf: porcentaje de hogares con granja o ingresos
de trabajo por cuenta propia en 1989 (numrico - decimal) - pctWInvInc: porcentaje de
hogares con una inversin / alquiler de ingresos en 1989 (numrico - decimal) -
pctWSocSec: porcentaje de hogares con ingresos de la seguridad social en 1989
(numrico - decimal) - pctWPubAsst: porcentaje de hogares con ingresos de asistencia
pblica en 1989 (numrico - decimal) - pctWRetire: porcentaje de hogares con ingresos de
jubilacin en 1989 (numrico - decimal) - medFamInc: ingreso familiar medio (se diferencia
de los ingresos familiares de los hogares no familiares) (numrico - puede ser un nmero
entero) - perCapInc: el ingreso per cpita (numrico - decimal) - whitePerCap: el ingreso
per cpita de los caucsicos (numrico - decimal) - blackPerCap : el ingreso per cpita de
los afroamericanos (numrico - decimal) el ingreso per cpita para nativos americanos
(numrico - decimales): indianPerCap - - AsianPerCap: el ingreso per cpita de las
personas con herencia asitica (numrico - decimal) - OtherPerCap: per cpita ingresos
para las personas con "otro" patrimonio (numrico - decimal) - HispPerCap: el ingreso per
cpita de las personas con herencia hispana (numrico - decimal) - NumUnderPov:
nmero de personas bajo el nivel de pobreza (numrico - espera que sea entero) - -
PctPopUnderPov: porcentaje de personas bajo el nivel de pobreza (numrico - decimal) -
PctLess9thGrade: porcentaje de personas de 25 y ms aos con una educacin inferior a
9 grado (numrico - decimal) - PctNotHSGrad: porcentaje de personas de 25 y ms que
no lo son los graduados de secundaria (numrico - decimales) - PctBSorMore: porcentaje
de personas de 25 y ms aos con una licenciatura o de educacin superior (numrico -
decimal) - PctUnemployed: Porcentaje de personas de 16 y ms, en la fuerza de trabajo, y
los desempleados (numrico - decimal) - PctEmploy: porcentaje de personas de 16 y ms
aos que se emplean (numrico - decimal) - PctEmplManu: porcentaje de personas de 16
aos en que estn empleados en la industria manufacturera (numrico - decimal) -
PctEmplProfServ: porcentaje de personas de 16 y sobre quin estn empleados en los
servicios profesionales (numrico - decimales) - PctOccupManu: porcentaje de personas
de 16 y ms aos que se emplean en la fabricacin (numrico - decimal) # # # # Ya no
seguro de la diferencia de PctEmplManu - pueden incluir los trabajadores manufactureros
en paro # # # # - PctOccupMgmtProf: porcentaje de personas de 16 o ms aos que se
emplean en la gestin o de las profesiones liberales (numrico - decimales) -
MalePctDivorce: porcentaje de hombres que estn divorciados (numrico - decimal) -
MalePctNevMarr: porcentaje de varones que tienen nunca se cas (numrico - decimal) -
FemalePctDiv: porcentaje de mujeres que se han divorciado (numrico - decimal) -
TotalPctDiv: porcentaje de la poblacin que estn divorciados (numrico - decimal) -
PersPerFam: nmero de personas por familia media (numrico - decimal) - PctFam2Par:
porcentaje de familias (con nios) que se dirigi por dos padres (numrico - decimales) -
PctKids2Par: porcentaje de nios en la vivienda familiar con dos padres (numrico -
decimales) - PctYoungKids2Par: por ciento de los nios 4 y bajo en dos hogares
monoparentales (numrico - decimal) - PctTeen2Par: por ciento de los nios de 12-17
aos en dos hogares monoparentales (numrico - decimales) - PctWorkMomYoungKids:
Porcentaje de madres de nios de 6 aos en la fuerza laboral (numrico - decimales ) -
PctWorkMom: porcentaje de madres de nios menores de 18 aos en la fuerza laboral
(numrico - decimal) - NumKidsBornNeverMar: nmero de nios nacidos de que nunca se
casaron (numrico - espera que sea entero) - PctKidsBornNeverMar: porcentaje de nios
nacidos de nunca casado (numrico - decimal) - NumImmig: nmero total de personas que
se sabe que son nacidos en el extranjero (numrico - espera que sea entero) -
PctImmigRecent: porcentaje de _immigrants_ que immigated dentro de los 3 ltimos aos
(numrico - decimal) - PctImmigRec5: porcentaje de _immigrants_ que immigated en los
ltimos 5 aos (numrico - decimal) - PctImmigRec8: porcentaje de _immigrants_ que
immigated dentro de los ltimos 8 aos (numrico - decimal) - PctImmigRec10: porcentaje
de _immigrants_ que immigated dentro de los ltimos 10 aos (numrico - decimal) -
PctRecentImmig: ciento de _population_ que han inmigrado en los ltimos 3 aos
(numrico - decimal) - PctRecImmig5: ciento de _population_ que han inmigrado en los
ltimos 5 aos (numrico - decimal) - PctRecImmig8: ciento de _population_ que han
inmigrado en el ltimos 8 aos (numrico - decimal) - PctRecImmig10: ciento de
_population_ que han inmigrado en los ltimos 10 aos (numrico - decimal) -
PctSpeakEnglOnly: ciento de las personas que slo hablan Ingls (numrico - decimal) -
PctNotSpeakEnglWell: por ciento de las personas que no hablan Ingls bien (numrico -
decimal) - PctLargHouseFam: por ciento de los hogares de la familia que son grandes (6 o
ms) (numrico - decimal) - PctLargHouseOccup: por ciento de todas las casas ocupadas
que son grandes (6 o ms personas ) (numrico - decimal) - PersPerOccupHous:
personas promedio por hogar (numrico - decimal) - PersPerOwnOccHous: personas
promedio por hogar ocupadas por sus propietarios (numrico - decimal) -
PersPerRentOccHous: personas promedio por hogar de alquiler (numrico - decimal) -
PctPersOwnOccup: ciento de las personas ocupadas por sus propietarios en los hogares
(numrico - decimales) - PctPersDenseHous: por ciento de las personas en condiciones
de densa (ms de 1 persona por habitacin) (numrico - decimal) - PctHousLess3BR:
porcentaje de viviendas con menos de 3 dormitorios (numrico - decimal) - MedNumBR:
mediana del nmero de dormitorios (numrico - decimal) - HousVacant: nmero de
hogares vacantes (numrico - espera que sea entero) - PctHousOccup: porcentaje de
viviendas ocupadas (numrico - decimal) - PctHousOwnOcc : porcentaje de hogares
ocupadas por sus propietarios (numrico - decimal) - PctVacantBoarded: porcentaje de
viviendas desocupadas que est tapiada (numrico - decimal) - PctVacMore6Mos:
porcentaje de viviendas desocupadas que ha estado vacante ms de 6 meses (numrico -
decimales) - - MedYrHousBuilt: unidades de vivienda construidas aos mediana (numrico
- puede ser un nmero entero) - PctHousNoPhone: por ciento de unidades de vivienda
ocupadas sin telfono (en 1990, esto era raro!) (numrico - decimal) - PctWOFullPlumb:
porcentaje de viviendas sin agua corriente completa instalaciones (numrico - decimales) -
OwnOccLowQuart: vivienda en propiedad - valor cuartil inferior (numrico - decimal) -
OwnOccMedVal: vivienda en propiedad - valor medio (numrico - decimal) -
OwnOccHiQuart: vivienda en propiedad - valor cuartil superior (numrico - decimal) -
OwnOccQrange: vivienda en propiedad - diferencia entre el cuartil superior y los valores
ms bajos cuartil (numrico - decimales) - RentLowQ: alquiler de viviendas - una renta
menor cuartil (numrico - decimal) - RentMedian: alquiler de vivienda - renta mediana
(Censo H32B variables de archivo STF1A) (numrico - decimal) - RentHighQ: vivienda de
alquiler - alquiler cuartil superior (numrico - decimal) - RentQrange: alquiler de vivienda -
diferencia entre el cuartil superior e inferior alquiler cuartil (numrico - decimal) - MedRent:
renta bruta media (Censo H43A variables de archivo STF3A - incluye los servicios
pblicos) (numrico - decimales) - MedRentPctHousInc: renta bruta promedio como
porcentaje del ingreso de los hogares (numrico - decimal) - MedOwnCostPctInc:
propietarios de la mediana de costos como porcentaje de los ingresos familiares - para los
propietarios con una hipoteca (numrico - decimales) - MedOwnCostPctIncNoMtg:
propietarios de la mediana de costos como porcentaje de los ingresos del hogar - para los
dueos sin hipoteca (numrico - decimal) - NumInShelters: nmero de personas en
refugios para desamparados (numrico - se espera que como entero) - NumStreet:
nmero de personas sin hogar, contados en la calle (numrico - espera que sea entero) -
PctForeignBorn: ciento de las personas nacidas en el extranjero (numrico - decimales) -
PctBornSameState: por ciento de las personas nacidas en el mismo estado que
Actualmente vive (numrico - decimal) - PctSameHouse85: porcentaje de personas que
viven en la misma casa que en 1985 (5 aos antes) (numrico - decimal) - PctSameCity85:
porcentaje de personas que viven en la misma ciudad que en 1985 (5 aos antes)
(numrico - decimal) - PctSameState85: porcentaje de personas que viven en el mismo
estado que en 1985 (5 aos antes) (numrico - decimal) - LemasSwornFT: nmero de
oficiales jurados tiempo completo de la polica (numrico - que se espera estn entero ) -
LemasSwFTPerPop: oficiales jurados tiempo completo policiales por 100K poblacin
(numrico - decimales) - LemasSwFTFieldOps: nmero de oficiales de polica a tiempo
completo juradas en las operaciones de campo (en la calle en lugar de etc administrativa)
(numrico - que se espera estn entero) - LemasSwFTFieldPerPop: oficiales juramentados
a tiempo completo de la polica en las operaciones de campo (en la calle en lugar de etc
administrativa) por 100 mil habitantes (numrico - decimal) - LemasTotalReq: Total de
solicitudes para la polica (numrico - se espera que estn enteros) -
LemasTotReqPerPop: total de solicitudes para la polica por 100K popuation (numrico -
decimal) - PolicReqPerOffic: total de solicitudes para la polica por oficial de polica
(numrico - decimales) - PolicPerPop: oficiales de polica por 100K poblacin (numrico -
decimales) - RacialMatchCommPol: una medida de la partido racial entre la comunidad y
la polica. Los valores altos indican las proporciones en la comunidad y la polica son
similares (numrico - decimal) - PctPolicWhite: por ciento de la polica que son caucsicos
(numrico - decimal)- PctPolicBlack: por ciento de la polica que son afroamericanos
(numrico - decimal) - PctPolicHisp : por ciento de la polica que son hispanos (numrico -
decimal) - PctPolicAsian: por ciento de la polica que son asitico (numrico - decimal) -
PctPolicMinor: por ciento de la polica que son minora de cualquier tipo (numrico -
decimal) - OfficAssgnDrugUnits: nmero de los oficiales asignados a las unidades
especiales de la droga (numrico - espera que sea entero) - NumKindsDrugsSeiz: nmero
de diferentes tipos de drogas incautadas (numrico - espera que sea entero) -
PolicAveOTWorked: polica promedio de horas extras trabajadas (numrico - decimal) -
LandArea : rea de la tierra en millas cuadradas (numrico - decimal) - PopDens:
densidad de poblacin en las personas por la milla cuadrada (numrico - decimal) -
PctUsePubTrans: porcentaje de personas que utilizan el transporte pblico para ir al
trabajo (numrico - decimal) - PolicCars: nmero de coches de polica (numrico - se
espera que estn enteros) - PolicOperBudg: presupuesto operativo de la polica (numrico
- puede ser un nmero entero) - LemasPctPolicOnPatr: por ciento de los oficiales
juramentados a tiempo completo de la polica en patrulla (numrico - decimales) -
LemasGangUnitDeploy: unidad de pandillas desplegado ( numrico - entero - pero
realmente nominal - 0 significa NO, 10 medios s, 5 significa Part Time) -
LemasPctOfficDrugUn: ciento de los oficiales asignados a las unidades de la droga
(numrico - decimales) - PolicBudgPerPop: el presupuesto operativo de la polica por la
poblacin (numrico - decimales ) - asesinatos: nmero de asesinatos en 1995 (numrico -
se espera que estn enteros) atributo META potencial (que se predijo) - murdPerPop:
nmero de homicidios por cada 100 mil habitantes (numrico - decimal) atributo META
potencial (que se predijo) - - violaciones: nmero de violaciones en 1995 (numrico -
espera que sea entero) atributo META potencial (que se predijo) - rapesPerPop: nmero
de violaciones por 100K poblacin (numrico - decimal) atributo META potencial (que se
predijo) - robos : nmero de robos en 1995 (numrico - espera que sea entero) atributo
META potencial (que se predijo) - robbbPerPop: nmero de atracos por 100K poblacin
(numrico - decimal) atributo META potencial (que se predijo) - asaltos: nmero de las
agresiones en 1995 (numrico - espera que sea entero) atributo potencial GOAL (a ser
predicho) - assaultPerPop: nmero de agresiones por cada 100 mil habitantes (numrico -
decimal) atributo META potencial (que se predijo) - robos: nmero de robos en 1995
(numrico - espera que sea entero) atributo META potencial (que se predijo) -
burglPerPop: nmero de robos por cada 100 mil habitantes (numrico - decimal) atributo
META potencial (que se predijo) - hurtos: nmero de hurtos en 1995 (numrico - espera
que sea entero) atributo META potencial (que se predijo) - larcPerPop: nmero de hurtos
por 100K poblacin (numrico - decimal) atributo META potencial (que se predijo) -
autoTheft: nmero de robos de automviles en 1995 ( numrico - espera que sea entero)
atributo META potencial (que se predijo) - autoTheftPerPop: nmero de robos de
automviles por cada 100 mil habitantes (numrico - decimal) atributo META potencial
(que se predijo) - incendios provocados: nmero de incendios provocados en 1995
(numricos - espera que sea entero) atributo META potencial (que se predijo) -
arsonsPerPop: nmero de incendios provocados por 100K poblacin (numrico - decimal)
atributo META potencial (que se predijo) - ViolentCrimesPerPop: nmero total de delitos
violentos por 100K popuation ( numrico - atributo decimal) GOAL (a predecir) -
nonViolPerPop: nmero total de delitos no violentos por 100K popuation (numrico -
decimal) atributo META potencial (que se predijo) Resumen de estadsticas: variables,
mnimo, mximo, media, Standard Desviacin, Correlacin w / de Estado nominaldel
Objetivo principal Variable (delitos violentos por Poblacin): Rango de frecuencia (en el
lmite va en el compartimiento inferior, por ejemplo, exactamente 200 va enencabezado
por Weka: @ relacin crimeunnormalized @ atributo string communityName @ atribuir
Estado countyCode numrico @ atributo communityCode numricoatributo @ pliegue
numrico
@ Atributo pop numrico

@ atribuir perHoush numrico
@ atributo pctBlack numrico
atributo @ pctWhite numrico
@ atribuir pctAsian numrico
atributo @ pctHisp numrico
@ atributo PCT12-21 numrico
@ PCT12-29 numrico atributo
@ atributo pCT16-24 numrico
@ atributo pct65up numrico
atributo @ persUrban numrico
@ atributo pctUrban numrico
@ atribuir medIncome numrico
@ atributo pctWwage numrico
@ atributo pctWfarm numrico
atributo @ pctWdiv numrico
@ atributo pctWsocsec numrico
atributo @ pctPubAsst numrico
atributo @ pctRetire numrico
@ atribuir medFamIncome numrico
@ atributo perCapInc numrico
@ atributo whitePerCap numrico
@ atribuir blackPerCap numrico
@ atributo NAperCap numrico
@ atributo asianPerCap numrico
@ atribuir otherPerCap numrico
atributo @ hispPerCap numrico
atributo @ persPoverty numrico
@ atribuir pctPoverty numrico
atributo @ pctLowEdu numrico
atributo @ pctNotHSgrad numrico
atributo @ pctCollGrad numrico
@ atribuir pctUnemploy numrico
atributo @ pctEmploy numrico
atributo @ pctEmployMfg numrico
atributo @ pctEmployProfServ numrico
@ atribuir pctOccupManu numrico
atributo @ pctOccupMgmt numrico
@ atribuir pctMaleDivorc numrico
@ atribuir pctMaleNevMar numrico
@ atributo pctFemDivorc numrico
atributo @ pctAllDivorc numrico
@ atribuir persPerFam numrico
@ atributo pct2Par numrico
@ atributo pctKids2Par numrico
atributo @ pctKids-4w2Par numrico
@ atribuir PCT12-17w2Par numrico
atributo @ pctWorkMom-6 numrica
@ atribuir pctWorkMom-18 numrico
@ atributo kidsBornNevrMarr numrico
atributo @ pctKidsBornNevrMarr numrico
atributo @ numForeignBorn numrico
@ atributo pctFgnImmig-3 numrica
@ atribuir pctFgnImmig-5 numrica
atributo @ pctFgnImmig-8 numrico
@ atribuir pctFgnImmig-10 numrico
@ atributo pctImmig- 3 numrico
atributo @ pctImmig-5 numrica
@ atribuir pctImmig-8 numrico
@ atribuir pctImmig-10 numrico
@ atributo pctSpeakOnlyEng numrico
@ atributo pctNotSpeakEng numrico
atributo @ pctLargHousFam numrico
@ atribuir pctLargHous numrico
@ atribuir persPerOccupHous numrico
atributo @ persPerOwnOccup numrico
atributo @ persPerRenterOccup numrico
atributo @ pctPersOwnOccup numrico
@ atribuir pctPopDenseHous numrico
atributo @ pctSmallHousUnits numrico
@ atribuir medNumBedrm numrico
@ atributo houseVacant numrico
atributo @ pctHousOccup numrico
atributo @ pctHousOwnerOccup numrico
atributo @ pctVacantBoarded numrico
atributo @ pctVacant6up numrico
@ atribuir medYrHousBuilt numrico
@ atributo pctHousWOphone numrico
atributo @ pctHousWOplumb numrico
atributo @ ownHousLowQ numrico
@ atributo ownHousMed numrico
atributo @ ownHousUperQ numrico
atributo @ ownHousQrange numrico
atributo @ rentLowQ numrico
atributo @ rentMed numrico
atributo @ rentUpperQ numrico
atributo @ rentQrange numrico
@ atribuir medGrossRent numrico
@ atributo medRentpctHousInc numrico
@ atributo medOwnCostpct numrico
@ atributo medOwnCostPctWO numrico
atributo @ persEmergShelt numrico
atributo @ persHomeless numrico
@ atributo pctForeignBorn numrico
atributo @ pctBornStateResid numrico
@ atribuir pctSameHouse-5 numrica
@ atribuir pctSameCounty-5 numrica
atributo @ pctSameState-5 numrica
@ atribuir numPolice numrico
atributo @ policePerPop numrico
atributo @ policeField numrico
atributo @ policeFieldPerPop numrico
atributo @ policeCalls numrico
atributo @ policCallPerPop numrico
@ atribuir policCallPerOffic numrico
atributo @ policePerPop2 numrico
atributo @ racialMatch numrico
atributo @ pctPolicWhite numrico
atributo @ pctPolicBlack numrico
atributo @ pctPolicHisp numrico
@ atribuir pctPolicAsian numrico
@ atribuir pctPolicMinority numrico
numrico del atributo @ officDrugUnits
atributo @ numDiffDrugsSeiz numrico
atributo @ policAveOT numrico
atributo @ LandArea numrico
@ atribuir PopDensity numrico
numrico del atributo @ pctUsePubTrans
atributo @ policCarsAvail numrico
atributo @ policOperBudget numrico
atributo @ pctPolicPatrol numrico
atributo @ gangUnit numrico
atributo @ pctOfficDrugUnit numrico
atributo @ policBudgetPerPop numricos
asesinatos atributo @ numrico
atributo @ murdPerPop numrico
atributo @ viola numrico
numrico del atributo @ rapesPerPop
atributo @ robos numrico
numrico del atributo @ robbbPerPop
atributo @ asalta numrico
atributo @ assaultPerPop numrico
atributo @ Robos numrico
atributo @ burglPerPop numrico
atributo @ hurtos numrico
@ atributo larcPerPop numrico
atributo @ autoTheft numrico
atributo @ autoTheftPerPop numricos
incendios provocados atributo @ numrico
atributo @ arsonsPerPop numrico
atributo @ violentPerPop numrico
@ atributo nonViolPerPop numrico @ datos
Pasado Uso
1. [Redmond y Highley 2009] Redmond, M., y Highley, T., Anlisis Emprico de Case-
Edicin de Enfoques para la Prediccin Numrica. En Conferencia Conjunta Internacional
sobre Informtica, Informacin y Sistemas Ciencias e Ingeniera (Cisse) subconferencia
Conferencia Internacional sobre Sistemas, Ciencias de la Computacin e Ingeniera de
Software (SCSS). Universidad de Bridgeport, CT, diciembre de 2009.
- Todos los datos numricos se normaliz (0-1), ViolentCrimesPerPop se predijo (todos los
dems atributos del crimen fueron eliminados)
- Mejor error absoluto medio obtenido fue de 0.096 (en datos normalizados)
2. [Buczak y Gifford 2010] Buczak, AL y Gifford, CM, Fuzzy Regla Asociacin Minera de
Patrn Comunidad Crimen Discovery. En el Taller de Inteligencia y Seguridad Informtica
de la 16 Conferencia de Descubrimiento de Conocimiento y Minera de Datos (ISI-KDD-
2010). Washington DC. Julio de 2010.
- Los datos se procesaron ms
Cita de pedidos:
Por favor, cite la UCI Machine Learning repositorio y mis fuentes: Departamento de
Comercio de EE.UU., Oficina del Censo, Censo de Poblacin y Vivienda 1990 Estados
Unidos: Compendio de Datos Cinta 1a y 3a (Archivos de computadora), Departamento de
Comercio de EE.UU., Oficina del Censo Productor, Washington, DC y el Consorcio
Interuniversitario para la Investigacin Poltica y Social Ann Arbor,
Michigan. (1992) Departamento de Justicia de EE.UU., Oficina de Estadsticas de Justicia,
Administracin de Aplicacin de la Ley y las estadsticas administrativas (Archivo de
computadora) del Departamento de Comercio, Oficina del Censo de EE.UU. Productor,
Washington, DC y el Consorcio Interuniversitario para la Investigacin Poltica y Social
Ann Arbor, Michigan. (1992) Departamento de Justicia de EE.UU., Oficina Federal de
Investigaciones, Crimen en los Estados Unidos (Archivo de computadora) (1995)
Computer Hardware Data Set 2014-
02-12
Resumen : Los datos relativos rendimiento de la CPU, que se describen en
trminos de su tiempo de ciclo, tamao de la memoria, etc
Conjunto de
Nmero de
datos Multivariante 209 rea: Ordenador
instancias:
Caractersticas:
Caractersticas Nmero de Fecha 1987-10-

Entero 9
del atributo: atributos: Donado 01
Nmero
Tareas Valores
Regresin No de Web 72020
asociadas: perdidos?
Accesos:
Fuente:
Creador: Phillip Ein-Dor y Jacob Feldmesser Ein-Dor: Facultad de Administracin
de la Universidad de Tel Aviv, Ramat-Aviv, Tel Aviv, 69978, Israel Donante: David
W. Aha ( aha '@' ics.uci.edu ) (714) 856-8779

Los valores estimados de rendimiento relativo fueron estimados por los autores a
partir de un mtodo de regresin lineal. Vase su artculo (pp 308-313) para ms
detalles sobre cmo se establecieron los valores de rendimiento relativo.
1. Nombre del proveedor: 30
(consejero, Amdahl, apolo, BASF, bti, burroughs, crd, cambex, cdc, diciembre,
dg, formacin, de cuatro fases, gould, honeywell, HP, IBM, ipl, Magnuson,
microdatos, nas, ncr , nixdorf, Perkin-Elmer, prima, siemens, Sperry,
sratus, wang)
2. Nombre del modelo: muchos smbolos nicos
3. MYCT: tiempo de ciclo de la mquina en nanosegundos (entero)
4. MMIN: memoria principal mnimo en kilobytes (entero)
5. MMAX: memoria principal mxima en kilobytes (entero)
6. CACH: memoria cach en kilobytes (entero)
7. CHMIN: canales mnimos en unidades (entero)
8. CHMAX: canales mximos en unidades (entero)
9. PRP: desempeo relativo publicada (nmero entero)
10. ERP: El rendimiento relativo estimado del artculo original (entero)
Ein-Dor y Feldmesser (MCCA 4/87, pp 308-317) Kibler, D. Y Aha,
D. (1988). Prediccin basada en instancia de atributos-valor real. En Actas de la
Conferencia CSCSI (Canadian AI). [Web Link]

Dan Pelleg. estimadores de densidad de probabilidad escalables y prcticos para
la deteccin de anomalas Cientfico . Facultad de Ciencias de la Universidad
Carnegie Mellon de ordenador. 2004. [ Ver Contexto ]. Yongge Wang. Un nuevo
enfoque de los modelos lineales de montaje en High espacios acotados . Alastair
Scott (Departamento de Estadstica, Universidad de Auckland). [ Ver Contexto ].
Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la
citacin
Hormign Resistencia a la 2014-02-12
Compresin Set Data
Resumen : El hormign es el material ms importante en la ingeniera civil. La resistencia
a la compresin de hormign es una funcin altamente no lineal de la edad y los
ingredientes.


Real 9
Nmero de
Valores
Tareas asociadas: Regresin N / A Web 48104
perdidos?
Accesos:
Fuente:
Propietario original y donante
Prof. I-Cheng Yeh
Departamento de Gestin de la Informacin
de la Universidad Chung-Hua,
Hsin Chu, Taiwn 30067, ROC
e-mail: Icyeh '@' chu.edu.tw
TEL :886-3-5186511 Fecha donado: 03 de agosto 2007

Nmero de casos 1030
Nmero de Atributos 9
desglose 8 variables de entrada cuantitativos atributo y 1 salida cuantitativa variables
Atributo Valores perdidos Ninguno
Teniendo en cuenta son el nombre de variable, tipo de variable, la unidad de medida y una
breve descripcin. La resistencia a la compresin de hormign es el problema de
regresin. El orden de esta lista se corresponde con el orden de los nmeros a lo largo de
las filas de la base de datos. Nombre - Tipo de datos - Medicin - Descripcin del Cemento
(componente 1) - cuantitativa - kg en una mezcla m3 - Entrada de la variable de alto horno
Escoria (componente 2) - cuantitativas - kg en una mezcla m3 - Entrada de la
variable cenizas volantes (componente 3) - cuantitativa - kg en una mezcla m3 - Variable
de entrada de agua (componente 4) - cuantitativa - kg en una mezcla m3 - Entrada
Variable Superplasticizer (componente 5) - cuantitativas - kg en una mezcla m3 - Entrada
de la variable Agregado Grueso (componente 6) - cuantitativas - kg en una mezcla m3 -
Entrada de la variable Agregado Fino ( Componente 7) - cuantitativas - kg en una mezcla
m3 - Entrada de la variable de la edad - cuantitativa - Da (1 ~ 365) - Variable de
entrada de resistencia a la compresin de hormign - cuantitativos - MPa - Variable de
salida
Principal
1. I-Cheng Ye, "Modelado de la resistencia del hormign de alto rendimiento utilizando
redes neuronales artificiales", Cemento y Concrete Research, vol. 28, N 12, pp 1797-
1808 (1998). Otros 2. I-Cheng Ye, "Modelado de Resistencia media del hormign con
Augment-Neurona Networks," J. de Materiales en Ingeniera Civil, ASCE, vol.10, N 4, pp
263-268 (1998). 3. I-Cheng Ye, "Diseo de Alto Rendimiento de mezcla de concreto con
Redes Neuronales," J. de la Computacin en Ingeniera Civil, ASCE, vol. 13, N 1, pp 36-
42 (1999). 4. I-Cheng Ye, "Prediccin de la Fuerza de las cenizas volantes y escorias de
hormign mediante el uso de redes neuronales artificiales", Revista del Instituto Chino de
Ingeniera Civil y hidrulica, vol. 15, N 4, pp 659-663 (2003). 5. I-Cheng Ye, "Una
Metodologa Dosificacin mezcla de cenizas volantes y escorias de hormign utilizando
redes neuronales," Chung Hua Journal of Science and Engineering, vol. 1, N 1, pp 77-84
(2003). 6. Yeh, I-Cheng, "Anlisis de la resistencia del hormign mediante diseo de
experimentos y redes neuronales," Diario de Materiales en Ingeniera Civil, ASCE, Vol.18,
No.4, pp.597-604 (2006).
Cita de pedidos:
NOTA: La reutilizacin de esta base de datos es ilimitado con la retencin de la
notificacin de derechos de autor por el Prof. I-Cheng Yeh y el siguiente artculo
publicado: I-Cheng Ye, "Modelado de la resistencia del hormign de alto rendimiento
utilizando redes neuronales artificiales", Cemento y Hormign de Investigacin, Vol..28, N
12, pp 1797-1808 (1998).
Slump Concrete Test Set Data 2014-
02-12
Resumen : El hormign es un material de gran complejidad. El flujo de
asentamiento del hormign no slo es determinada por el contenido de agua,
pero que tambin est influenciada por otros ingredientes concretos.
Conjunto de
Nmero de
datos Multivariante 103 rea: Ordenador
instancias:
Caractersticas:

Real 10
Nmero
Tareas Valores N/
Regresin de Web 31206
asociadas: perdidos? A
Accesos:
Fuente:
Donante: I-Cheng Yeh
Email: Icyeh '@' chu.edu.tw
Institucin: Departamento de Gestin de la Informacin de la Universidad Chung-
Hua (Repblica de China)
Otros datos de contacto: Departamento de Gestin de la Informacin de la
Universidad Chung-Hua, Hsin Chu, Taiwn 30067, ROC

El conjunto de datos incluye 103 puntos de datos. Hay 7 variables de entrada y 3
variables de salida del conjunto de datos.
El conjunto de datos inicial incluy datos de 78. Despus de varios aos, tenemos
25 nuevos puntos de datos.
Las variables de entrada (7) (kg de componente en un M ^ 3 de hormign):
Cemento
de escoria
Fly ash
Agua
SP
. Gruesa Glob
. Fine Glob Variables de salida (3): DEPRESIN (cm) FLOW (cm) 28 das
Resistencia a la compresin (Mpa)
1. Yeh, I-Cheng, "Modelado de asentamiento de hormign con cenizas volantes y
superplastificante," Ordenadores y concreto, Vol.5, N 6, 559-572,. 2.008 2. Yeh,
I-Cheng, "Simulacin de asentamiento del concreto usando redes neuronales,"
Materiales de Construccin, Vol.162, N 1, 11-18, 2009. 3. Yeh, I-Cheng,
"Prediccin de la trabajabilidad del hormign mediante diseo de experimentos
para las mezclas, los" ordenadores y concreto, Vol.5, N 1, 1-20, 2008. 4. Yeh, I-
Cheng, "Modelado de flujo bache de hormign utilizando regresiones de segundo
orden y las redes neuronales artificiales," Cemento y Concreto Composites,
Vol.29, N 6, 474-480, 2007. 5. Yeh, I-Cheng, "Explorando modelo asentamiento
del concreto usando redes neuronales artificiales", J. de la Computacin en
Ingeniera Civil, ASCE, Vol.20, N 3, 217-221, 2006.
Cita de pedidos:
Yeh, I-Cheng, "Modelado de flujo bache de hormign utilizando regresiones de
segundo orden y las redes neuronales artificiales," Cemento y Concreto
Composites, Vol.29, N 6, 474-480, 2007.
Congreso Votacin 2014-02-12
Registros Data Set
Resumen : 1,984 unido indicado en el Congreso de voto Records; Clasificar como
republicano o demcrata

Categrico 16
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Origen: Congressional Quarterly Almanac, Congreso 98o, segunda sesin de 1984,
Volumen XL:. Congressional Quarterly Inc. Washington, DC, 1985 Donante: Jeff
Schlimmer ( Jeffrey.Schlimmer '@' a.gp.cs.cmu.edu )

Este conjunto de datos incluye votos de cada sector de la Cmara de Representantes de
EE.UU. congresistas sobre los 16 votos clave identificados por el CQA. El CQA enumera
nueve tipos diferentes de votos: votado, a la par de, y anunci para (estos tres simplificado
para s), votaron en contra, emparejado en contra, y anunci en contra (estos tres
simplificado a Nay), votaron presentes, votaron en la actualidad para evitar conflicto de
intereses, y no voto ni a presentar una posicin conocida (estos tres simplificado a una
disposicin desconocida) en caso contrario.
1. Nombre de clase: 2 (demcrata, republicano)
2. discapacitados-bebs: 2 (a, n)
3. -proyecto de agua de costo compartido: 2 (y, n)
4. adopcin-de-la-presupuesto-resolucin: 2 (y, n)
5. mdico-fee-congelante: 2 (y, n)
6. el-salvador-ayuda: 2 (y, n)
7. grupos religiosos-en-escuelas: 2 (a, n)
8. -prueba anti-satlite-ban: 2 (y, n)
9. ayuda a nicaragua-contras: 2 (y, n)
10. mx-misiles: 2 (y, n)
11. inmigracin: 2 (y, n)
12. combustibles sintticos-corporation-reduccin: 2 (y, n)
13. educacin-gasto: 2 (y, n)
14. -superfund-derecho a demandar: 2 (y, n)
15. delito: 2 (y, n)
16. libres de impuestos-exportaciones: 2 (a, n)
17. La administracin de las exportaciones-acto-south-africa: 2 (y, n)
Schlimmer, JC (1987). La adquisicin de conceptos a travs del ajuste de
representacin. Tesis doctoral, Departamento de Informacin y Ciencias de la
Computacin de la Universidad de California, Irvine, CA. [Web Link]
Aristides Gionis y Heikki Mannila y Panayiotis Tsaparas. Clustering
agregacin . ICDE. 2005. [ Ver Contexto ]. Daniel J. Lizotte y Omid Madani y Russell
Greiner.Presupuestado Aprendizaje de Naive-Bayes clasificadores . UAI. 2003. [ Ver
Contexto ]. Julie Greensmith. Nuevas fronteras para un sistema inmune artificial . Digital
Media Laboratorio de Sistemas HP Laboratorios Bristol. 2003. [ Ver Contexto ]. Jonathan
Eckstein y Peter L. Hammer y Ying Liu y Mikhail Nediak y Bruno Simeone. The Box
Problema mxima y su aplicacin al anlisis de datos . RUTCOR Rutgers Centro de
Investigacin Operativa de la Universidad de Rutgers. 2002. [ Ver Contexto .] . Daniel
Barbar y Yi Li y Julia Couto COOLCAT: un algoritmo basado en la entropa para la
agrupacin categrica . CIKM. 2002. [ Ver Contexto ]. Federico Divina y Elena
Marchiori. Evolutiva Concepto de Aprendizaje . GECCO. 2002. [ Ver Contexto ]. Robert M
francesa y Nick Chater. Uso de ruido para Calcular superficies de error en conexionistas
Redes: un nuevo medio de Reduccin catastrfica olvido . Neural
Computation. 2002. [ Ver Contexto .] . Gary M. Weiss y Haym Hirsh un estudio cuantitativo
de Pequeos disyunciones: Experimentos y Resultados . Departamento de Ciencias de la
Universidad de Rutgers Computer. 2000. [ Ver Contexto ]. Chun-Nan Hsu y Hilmar
Schuschel y Ya-Ting Yang. Enfoque ANNIGMA-Envoltura con Redes Neuronales funcin
de seleccin de Descubrimiento de Conocimiento y Minera de Datos . Instituto de
Ciencias de la Informacin. 1999. [ Ver Contexto ]. Huan Liu y Rudy Setiono. Incremental
Seleccin de caractersticas . Appl. Intell, 9. 1998. [ Ver Contexto ]. Blai Bonet y Hctor
Geffner. Learning Clasificacin y rboles de decisin con POMDPs . ICML. 1998. [ Ver
Contexto ]. Eui-Hong Han y George Karypis y Vipin Kumar y Bamshad
Mobasher. Clustering Basado En Asociacin Regla hypergraphs . DMKD. 1997. [ Ver
Contexto ]. Igor Kononenko y Edvard Simec y Marko Robnik-Sikonja. Superacin de la
miopa de los algoritmos de aprendizaje inductivo con RELIEFF . Appl. Intell, 7. 1997. [ Ver
Contexto ]. Erin J. Bredensteiner y Kristin P. Bennett. Caracterstica Minimizacin en
rboles de decisin . Fundacin Nacional de Ciencia. 1996. [ Ver Contexto ]. Kohavi Ron y
George H. John y Richard Long y David Manley y Karl Pfleger. MLC + +: Una Biblioteca
Aprendizaje Automtico en C ICTAI.. 1994. [ Ver Contexto ]. Rudy Setiono y Huan
Liu. Selector de funciones neuronales de la red . Departamento de Sistemas Informticos y
la Universidad Nacional de Ciencias de la Computacin de Singapur. [ Ver Contexto ]. Igor
Kononenko y Edvard Simec. Induccin de rboles de decisin utilizando
RELIEFF . Universidad de Ljubljana, Facultad de Ingeniera e Informtica Ingeniera
Elctrica. [ Ver Contexto ].Daniel J. Lizotte. Biblioteca Formulario de Autorizacin Nombre
del Autor . Presupuestado Aprendizaje de Naive Bayes clasificadores. [ Ver
Contexto ]. Daniel J. Lizotte y Omid Madani y Russell Greiner. Presupuestado Aprendizaje,
Parte II: La AN # ve-Bayes Case . Departamento de Informtica de la Universidad de
Ciencias de Alberta. [Ver Contexto ]. Chotirat Ann y Dimitrios Gunopulos. Ampliacin de la
Ingenuo clasificador bayesiano: Utilizacin de rboles de decisin para la seleccin de
caractersticas . Departamento de Ciencias de la Computacin de la Universidad de
California. [ Ver Contexto ].
Cita de pedidos:
Connect-4 Conjunto de 2014-02-12
Datos
Resumen : Contiene Connect-4 posiciones
67557 rea: Juego
Caractersticas: espacial instancias:

Categrico 42 02/04/1995
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Los propietarios originales de base de datos: John Tromp
( tromp '@' cwi.nl ) Donante: John Tromp ( tromp '@' cwi.nl )

Esta base de datos contiene todas las posiciones jurdicas de 8 lminas en el juego de la
conexin-4 en el que ninguno de los jugadores ha ganado todava, y en la que no se ve
obligado el siguiente movimiento. x es el primer jugador;. o la segunda La clase de
resultado es el juego valor terico para el primer jugador.
Atributo Informacin: (x = x jugador ha tomado, o = player o ha tomado, b = blanco) La
junta est numerada
como: 6. . . . . . . 5. . . . . . . 4. . . . . . . 3. . . . . . . 2. . . . . . .1. . . . . . . abcdefg 1. a1: {x, o,
b} 2. a2: {x, o, b} 3. a3: {x, o, b} 4. a4: {x, o, b} 5. a5: {x, o, b} 6. a6: {x, o, b} 7. b1: {x, o,
b} 8. b2: {x, o, b} 9. b3: {x, o, b} 10. b4: {x, o, b}11. b5: {x, o, b} 12. b6: {x, o, b} 13. c1: {x, o,
b} 14. c2: {x, o, b} 15. c3: {x, o, b} 16. c4: {x, o, b} 17. c5: {x, o, b} 18. c6: {x, o, b} 19. d1: {x,
o, b} 20. d2: {x, o, b} 21. d3: {x, o, b} 22. d4: {x, o, b} 23. d5: {x, o, b} 24. d6: {x, o, b} 25. e1:
{x, o, b} 26. e2: {x, o, b} 27. e3: {x, o, b} 28. e4: {x, o, b} 29. e5: {x, o, b} 30. e6: {x, o,
b} 31. f1: {x, o, b}32. f2: {x, o, b} 33. f3: {x, o, b} 34. f4: {x, o, b} 35. f5: {x, o, b} 36. f6: {x, o,
b} 37. g1: {x, o, b} 38. g2: {x, o, b} 39. g3: {x, o, b} 40. g4: {x, o, b} 41. g5: {x, o, b} 42. g6:
{x, o, b} 43. Clase: {triunfo, prdida, sorteo}
N/A
Alan Burton y Paul HJ Kelly. Prediccin de rendimiento de las cargas de trabajo de
paginacin Uso ligero Tracing . PDPI. 2003. [ Ver Contexto ]. Shi Zhong y Weiyu Tang y
Taghi M. Khoshgoftaar. Impulsado filtros de ruido para identificar Mislabeled
datos . Departamento de Ciencias de la Computacin e Ingeniera de la Universidad
Atlntica de la Florida. [ Ver Contexto ].
Cita de pedidos:
Bench conexionista 2014-02-12
(Nettalk Corpus) Conjunto
de datos
Resumen : El archivo "nettalk.data" contiene una lista de 20 008 palabras en ingls,
junto con una transcripcin fontica de cada palabra. La tarea es entrenar una red para
producir los fonemas adecuados

Categrico 4 N/A
Nmero de
Valores
perdidos?
Accesos:
Fuente:
El conjunto de datos es una contribucin a la coleccin de referencia en Terry Sejnowski,
ahora en el Instituto Salk y la Universidad de California en San Deigo. El conjunto de datos
fue desarrollada en colaboracin con Charles Rosenberg de Princeton. Aproximadamente
250 horas-persona entr en la creacin y prueba de esta base de datos.

Esta es una versin actualizada y corregida de la base de datos utilizada por Sejnowski y
Rosenberg en su influyente estudio de generacin de voz usando una red neuronal [1]. El
archivo "nettalk.data" contiene una lista de 20 008 palabras en ingls, junto con una
transcripcin fontica de cada palabra. La tarea es entrenar una red para producir los
fonemas adecuados, dada una cadena de letras como de entrada. Este es un ejemplo de
una tarea de asignacin de entrada / salida que exhibe fuertes regularidades globales,
sino tambin un gran nmero de normas ms especializados y casos excepcionales. Por
favor, consulte el archivo Lame original para ms informacin.
El diccionario de pronunciacin se cre para estudiar el proceso de traduccin entre el
Ingls escrito, usando grafemas o letras como unidades, y se habla Ingls, utilizando
fonemas como unidades. El diccionario incluye 20.008 carta alineados y representaciones
fonticas con las tensiones. El diccionario contiene cuatro campos separados de la ficha
de informacin para cada palabra. Los campos son: 1) una representacin carta 2) una
representacin fonolgica 3) el estrs y la estructura silbica4) un entero que indica
palabras extranjeras e irregulares Consulte el archivo readme original para ms
informacin.
Sejnowski, TJ, y Rosenberg, CR (1987). "Las redes paralelas que aprenden a pronunciar
el texto Ingls" en Sistemas Complejos, 1, 145-168. [Web Enlace]

Kai Ming Ting y Ian H. Witten. Problemas en Stacked Generalizacin . J.
Artif. Intell. Res.. .. (JAIR, 10 de 1999 [ Ver Contexto .] . Kai Ming Ting y Boon Toh
BajoCombinacin Modelo en el Multiple-Data-Lotes Escenario ... ECML 1997 [ Ver
Contexto .] Steven Salzberg. Sobre Clasificadores Comparando: trampas para evitar y un
enfoque recomendado . Dato Min. Conocimiento. Discov, 1. 1997. [ Ver
Contexto ]. Dietrich Wettschereck y David W. Aha. Caractersticas de ponderacin ..
ICCBR 1995. [ Ver Contexto ]. Thomas G. Dietterich y Ghulum Bakiri. Solucin multiclase
problemas de aprendizaje a travs de los cdigos de salida de correccin de errores .
CoRR, csAI/9501101. 1995. [ Ver Contexto ]. Rong Jin Yan y Liu y Luo Si y Jaime
Carbonell y Alexander G. Hauptmann. Un Nuevo Impulso algoritmo usando Input-
Dependiente regularizador . Facultad de Ciencias de la Computacin, de la Universidad
Carnegie Mellon. [ Ver Contexto ]. / odzisl / aw Wl Duch y Jerzy J. Korczak. Optimizacin y
mtodos globales de minimizacin adecuados para las redes neuronales . Departamento
de Mtodos Computacionales, Universidad Nicols Coprnico. [ Ver Contexto ].Rayid
Ghani. Informe del Proyecto KDD Utilizacin de cdigos de correccin de errores de
clasificacin de texto eficiente con un gran nmero de categoras . Centro para el
Aprendizaje Automatizado y Discovery, Facultad de Ciencias de la Computacin de la
Universidad Carnegie Mellon. [ Ver Contexto ]. Kai Ming Ting y Boon Toh baja.Teora de
combinacin: una alternativa a la combinacin de datos . Universidad de Waikato. [ Ver
Contexto ]. Sherrie L. W y Zijian Zheng. UN REFERENTE PARA EL APRENDIZAJE
CLASIFICADOR . Departamento Basser de Ciencias de la Computacin de la Universidad
de Sydney. [ Ver Contexto .] . Steve Whittaker y Loren G. Terveen y Bonnie A.
Nardi Vamos a dejar de empujar el sobre y empieza a hacerle frente: una agenda de
trabajo de referencia para HCI . un investigador cientfico senior en el Departamento de
Human Computer Interaction de AT & T LabsResearch. [ Ver Contexto ].
Cita de pedidos:
Copyright (C) 1988 por Terrence J. Sejnowski. Por la presente se da al utilizar los datos
incluidos para fines de investigacin no comerciales. Pngase en contacto con la
Universidad Johns Hopkins, Cognitive Science Center, Baltimore MD, EE.UU. para
obtener informacin sobre el uso comercial.
Bench conexionista (Sonar, 2014-02-12
Minas vs Rocks) Conjunto
de datos
Resumen : La tarea es formar una red para discriminar entre las seales de sonar rebot
en un cilindro de metal y los que rebot en una roca ms o menos cilndrica.

Real 60 N/A
Nmero de
Valores N/
Tareas asociadas: Clasificacin Web 39017
perdidos? A
Accesos:
Fuente:
El conjunto de datos es una contribucin a la coleccin de referencia en Terry Sejnowski,
ahora en el Instituto Salk y la Universidad de California en San Deigo. El conjunto de datos
fue desarrollada en colaboracin con R. Paul Gorman del Centro de Tecnologa de Allied-
Signal Aerospace.

El archivo "sonar.mines" contiene 111 patrones obtenidos por el rebote de seales de
sonar fuera de un cilindro de metal en varios ngulos y bajo diferentes condiciones.El
archivo "sonar.rocks" contiene 97 patrones obtenidos a partir de rocas bajo condiciones
similares. La seal transmitida es sonar un sonido de frecuencia modulada, el aumento en
la frecuencia. El conjunto de datos contiene las seales obtenidas a partir de una variedad
de diferentes ngulos de aspecto, que abarca 90 grados para el cilindro y 180 grados para
el rock. Cada patrn es un conjunto de 60 nmeros en el rango de 0,0 a 1,0. Cada nmero
representa la energa dentro de una banda de frecuencia particular, integrada a lo largo de
un cierto perodo de tiempo. La abertura de la integracin de las frecuencias ms altas se
producen ms tarde en el tiempo, ya que estas frecuencias se transmiten ms tarde
durante el canto. La etiqueta asociada a cada registro contiene la letra "R" si el objeto es
una roca y "M" si es una mina (metal cilindro). Los nmeros en las etiquetas estn en
orden creciente de ngulo de aspecto, pero que no codifican el ngulo directamente.
N/A
1. Gorman, RP, y Sejnowski, TJ (1988). "Anlisis de Hidden unidades en una red por
capas Entrenados para Objetivos Clasificar Sonar" en Redes Neuronales, vol. 1, pp 75-
89. [Web Link]

Jianbin Tan y David L. Dowe. MML inferencia de rboles de decisin de
oblicuos . Conferencia australiana sobre Inteligencia Artificial. 2004. [ Ver Contexto ]. Zhi-
Hua Zhou y Jiang Yuan. NeC4.5: Neural Ensemble Based C4.5 . IEEE
Trans. Conocimiento. Datos Eng, 16. 2004. [ Ver Contexto ]. Jeremy Kubica y Andrew
Moore. Probabilstico de identificacin de ruido y limpieza de datos . ICDM. 2003. [ Ver
Contexto ]. Dennis DeCoste. Anytime Mquinas Kernel Query-Tuned mediante
factorizacin de Cholesky . SDM. 2003. [ Ver Contexto ]. Ayhan Demiriz y Kristin P.
Bennett y Mark J. Embrechts. Un enfoque Algoritmo Gentico para Clustering semi-
supervisado . E-Business Departamento, Verizon. Inc. 2002. [ Ver Contexto ]. Michail
Vlachos y Carlotta Domeniconi y Dimitrios Gunopulos y George Kollios y Nick
Koudas. tcnicas de reduccin de dimensionalidad no lineales para la clasificacin y
visualizacin . KDD. 2002. [ Ver Contexto ]. Xavier Llor y David E. Goldberg e Ivn Traus y
Ester Bernad i Mansilla. Precisin, parsimonia, y la generalidad en los sistemas de
aprendizaje evolutivo a travs de Seleccin multiobjetivo . IWLCS. 2002. [ Ver
Contexto ]. Fei Sha y Lawrence K. Sal y Daniel D. Lee. Actualizaciones multiplicativos
para programacin cuadrtica Nonnegative en Mquinas de Vectores
Soporte . PNI. 2002. [ Ver Contexto ]. Marina Skurichina y Ludmila Kuncheva y Robert PW
Duin. Embolsado y impulso para el clasificador ms cercano Mean: Efectos del tamao de
la muestra sobre la diversidad y precisin . Sistemas Clasificadores mltiples. 2002. [ Ver
Contexto .] . Dennis DeCoste Anytime Salidas para Mquinas Kernel intervalo con valores
de: Fast Apoyo Vector Machine Clasificacin via Distancia Geometra . ICML. 2002. [ Ver
Contexto ]. Wl / odzisl / aw Duch y Karol Grudzinski. Conjuntos de modelos basados en la
similitud . Sistemas de Informacin Inteligentes. 2001. [ Ver Contexto ]. Juan J. Rodr guez
# # y Carlos J. Alonso y Henrik Bostrom. Impulsar basada en intervalos
literales . 2000. [ Ver Contexto ]. Chris Drummond y Robert C. Holte. Explotar el Costo (In)
sensibilidad de los criterios que parten de rboles de decisin .ICML. 2000. [ Ver
Contexto ]. Carlotta Domeniconi y Jing Peng y Dimitrios Gunopulos. Una mquina
adaptativa Mtricas de Clasificacin de patrones . PNI. 2000. [ Ver Contexto ]. Lorne
Mason y Peter L. Bartlett y Jonathan Baxter. Mejora Generalizacin travs de la
optimizacin explcita de Mrgenes . Aprendizaje Automtico, 38.2000. [ Ver
Contexto ]. Kristin P. Bennett y Ayhan Demiriz y John Shawe-Taylor. A Columna algoritmo
de generacin para impulsar . ICML. 2000. [ Ver Contexto ]. Chris Drummond y Robert C.
Holte. Explcitamente que representa costo esperado: una alternativa a la representacin
de la Repblica de China . KDD. 2000. [ Ver Contexto ].Stavros J. Perantonis y Vassilis
Virvilis. Caracterstica de entrada Extractor de mltiples capas Perceptrones Usando
Anlisis de Componentes Principales supervisada .Neural Processing Letters,
10. 1999. [ Ver Contexto ]. Jing Peng y Bir Bhanu. Caracterstica Relevancia Estimacin
para bases de datos de la imagen . Sistemas de Informacin Multimedia. 1999. [ Ver
Contexto ]. Lorne Mason y Jonathan Baxter y Peter L. Bartlett y Marcus Frean. Impulsar
Algoritmos como Gradient Descent . PNI.1999. [ Ver Contexto ]. Ayhan Demiriz y Kristin P.
Bennett y Mark J. Embrechts. Clustering semi-supervisado Usando Algoritmos
Genticos . Dept. 1999. [ Ver Contexto]. Kagan Tumer y Joydeep Ghosh. robusta
combinacin de clasificadores dispares a travs de estadsticas de orden . CoRR,
csLG/9905013. 1999. [ Ver Contexto ].Chun-Nan Hsu y Hilmar Schuschel y Ya-Ting
Yang. Enfoque ANNIGMA-Envoltura con Redes Neuronales funcin de seleccin de
Descubrimiento de Conocimiento y Minera de Datos . Instituto de Ciencias de la
Informacin. 1999. [ Ver Contexto ]. Art B. Owen. vecinos tubulares para la regresin y
clasificacin . La Universidad de Stanford. 1999. [ Ver Contexto ]. Richard Maclin. Impulsar
Clasificadores nivel regional . AAAI / IAAI. 1998. [ Ver Contexto ]. Lorne Mason y Peter L.
Bartlett y Jonathan Baxter. Optimizacin directo de Mrgenes Mejora la generalizacin de
los clasificadores combinados . PNI. 1998. [ Ver Contexto ]. Hiroshi Shimodaira y Jun Okui
y Mitsuru Nakai. Modificado Aprendizaje Error clasificacin mnima y su aplicacin a las
redes neuronales . SSPR / SPR. 1998. [ Ver Contexto ]. Perry Moerland y E. Fiesler y yo
Ubarretxena-Belandia. Martigny - Valais - Suisse discretos All-positivas Multilayer
Perceptron para la Implementacin ptica . ESEARCHREPRORTIDIA P. 1997. [ Ver
Contexto ]. Thomas G. Dietterich. Investigaciones Mquina-Learning . Revista AI,
18. 1997. [ Ver Contexto ]. Richard Maclin y David W. Opitz. Una evaluacin emprica de
embolsado y Impulsar . AAAI / IAAI. 1997. [ Ver Contexto ]. Erin J. Bredensteiner y Kristin
P. Bennett. Caracterstica Minimizacin en rboles de decisin .Fundacin Nacional de
Ciencia. 1996. [ Ver Contexto ]. Carlotta Domeniconi y Bojun Yan. Sobre Correlacin de
errores y exactitud del ms cercanos Clasificadores Ensemble Vecino . Informacin y
Software Departamento de Ingeniera de la Universidad George Mason. [ Ver
Contexto ]. Chris Drummond y Robert C. Holte. C4.5, desequilibrio de clases, y la
sensibilidad de costos: Por qu sub-muestreo late sobremuestreo . Instituto para la
Tecnologa de la Informacin, el Consejo de Investigacin Nacional de Canad. [ Ver
Contexto ]. Alexander K. Seewald. Disertacin hacia la comprensin de apilamiento Los
estudios de un general Ensemble Aprendizaje Esquema ausgefuhrt zum Zwecke der
Erlangung des akademischen Grados eines der Doktors technischen
Naturwissenschaften . [ Ver Contexto ].NVESTIGACIN R y DR Ort y Perry Moerland y E.
Fiesler y yo Ubarretxena-Belandia. Multilayer Perceptron para la Implementacin
ptica . Ingeniera ptica, ol. [ Ver Contexto ]. Yin Zhang y W. Nick Street. embolsado con
los gastos de adaptacin . Departamento de Ciencias de la Administracin de la
Universidad de Iowa, Iowa City. [Ver Contexto ]. Chiranjib Bhattacharyya. Clasificacin
robusta de datos ruidosos utilizando el enfoque de programacin Segunda Cono
Orden . Dpto. Informtica y Automtica, Instituto Indio de Ciencia. [ Ver Contexto ]. Lois C.
Boggess Andrew Watkins y Jon Timmis y. Sistema Inmune Artificial Reconocimiento
(AIRS): Un ImmuneInspired supervisadas algoritmo de aprendizaje . (Abw5,
jt6@kent.ac.uk) Laboratorio de Computacin de la Universidad de Kent. [ Ver
Contexto ]. Perry Moerland y E. Fiesler y yo Ubarretxena-Belandia. Incorporar LCLV no
linealidades en la ptica de mltiples capas de redes neuronales . Impresin final de un
artculo publicado en Applied Optics. [ Ver Contexto ]. Maria Salamo y Elisabet
Golobardes. Analizar Rough Sets mtodos de ponderacin de Razonamiento Basado en
Casos de Sistemas .Enginyeria i Arquitectura La Salle. [ Ver Contexto ]. Jakub Zavrel. An
Empirical Re-examen de voto ponderado para k-NN . Lingstica Computacional. [ Ver
Contexto ].Rudy Setiono y Huan Liu. Selector de funciones neuronales de la
red . Departamento de Sistemas Informticos y la Universidad Nacional de Ciencias de la
Computacin de Singapur. [ Ver Contexto ]. / odzisl / aw Wl Duch y Jerzy J.
Korczak. Optimizacin y mtodos globales de minimizacin adecuados para las redes
neuronales .Departamento de Mtodos Computacionales, Universidad Nicols
Coprnico. [ Ver Contexto ]. Christos Emmanouilidis y A. Hunter y el Dr. J. MacIntyre. A
multiobjetivo Evolutiva Ajuste para Seleccin de caractersticas y un Crossover Operador
comunalidad-Based . Centro de Sistemas Adaptativos, Facultad de Informtica, Ingeniera
y Tecnologa de la Universidad de Sunderland. [ Ver Contexto ]. Elena Smirnova e Ida G.
Sprinkhuizen-Kuyper y yo Nalbantis y b. ERIM y Universiteit Rotterdam. Votacin unnime
el uso de mquinas de soporte vectorial . IKAT, Universiteit Maastricht. [ Ver
Contexto ]. Alain Rakotomamonjy. Leave-One-Out errores en Bipartita de clasificacin
SVM . PSI CNRS FRE2645 INSA de Rouen Avenue de l'Universit. [ Ver
Contexto ]. Hiroshi Shimodaira y Jun Okui y Mitsuru Nakai. MEJORA DEL RENDIMIENTO
generalizacin del MCE / GPD APRENDIZAJE . Facultad de Ciencias de la Informacin de
Japn Instituto Avanzado de Ciencia y Tecnologa Tatsunokuchi, Ishikawa. [ Ver
Contexto ]. Charles Campbell y Nello Cristianini. simple algoritmos de aprendizaje para las
Mquinas de Vectores Soporte Entrenamiento .Departamento de Ingeniera
Matemtica. [ Ver Contexto ]. Ayhan Demiriz y Kristin P. Bennett. Captulo 1 Aprendizaje
Supervisado-OPTIMIZATIONAPPROACHESTOSEMI. Departamento de Ciencias de la
Decisin y Sistemas de Ingeniera y el Departamento de Ciencias Matemticas, Instituto
Politcnico Rensselaer. [ Ver Contexto ]. C. Ronaldo Prati y Peter A. Flach. ROCCER: A
convexa algoritmo de aprendizaje regla casco ROC . Instituto de Matemticas y Ciencias
de la Computacin en la Universidad de So Paulo. [ Ver Contexto ]. Perry
Moerland. Mezclas de modelos de variables latentes para la estimacin de la densidad y la
clasificacin .ESEARCHREPRORTIDIAPD alle M olle yo nstitutefor Pe r cep t ua l Una
Inteligencia rtificial. [ Ver Contexto ]. Stefan Aeberhard y O. de Vel y Danny
Coomans. Nuevos algoritmos rpidos para la seleccin de variables basado en clasificador
rendimiento . Universidad James Cook. [ Ver Contexto ]. Kristin P. Bennett y Erin J.
Bredensteiner. Geometra en el aprendizaje . Departamento de Ciencias Matemticas del
Instituto Politcnico Rensselaer. [ Ver Contexto ].
Cita de pedidos:
Bench conexionista 2014-02-12
(Reconocimiento vocal -
Deterding Datos) Conjunto de
datos
Resumen : altavoz independiente de reconocimiento de los once vocales de estado estacionario
de Ingls britnico utilizando un conjunto de entrenamiento especfico de relaciones de rea de
registro lpc derivada.

N/A 528 rea: N/A

Real 10 Fecha Donado N/A
atributo: atributos:
Valores N/ Nmero de Web

Tareas asociadas: Clasificacin 30092
perdidos? A Accesos:
Fuente:
David Deterding (datos y anlisis no conexionista)
Mahesan Niranjan (primer anlisis conexionista)
Tony Robinson (descripcin, programas, datos y resultados) - " ajr '@' dsl.eng.cam.ac.uk "

El problema se especifica por el archivo de datos de acompaamiento, "vowel.data". Esto consiste
en una matriz de tres dimensiones: voweldata [altavoz, vocal, de entrada]. Los altavoces son
indexados por enteros 0-89. (En realidad, hay quince altavoces individuales, cada uno diciendo
cada vocal seis veces.) Los vocales son indexados por enteros 0-10. Para cada enunciado, hay diez
valores de entrada de punto flotante, con ndices de matriz 0-9. El problema es entrenar la red, as
como sea posible utilizando slo en datos de "altavoces" 0 a 47, y luego para poner a prueba la red
de altavoces 48-89, informando el nmero de clasificaciones correctas en la prueba. Para una
explicacin ms detallada del problema, ver el extracto de doctorado de Tony Robinson tesis en la
seccin de comentarios. En opinin de Robinson, problemas conexionistas se dividen en dos clases,
lo posible y lo imposible. Se interesa en el segundo, lo que quiere decir problemas que no tienen
solucin exacta. As, el problema aqu no es ver lo rpido que una red puede ser entrenado
(aunque esto es importante), pero para maximizar un rendimiento menos que perfecto.
N/A
[Deterding89] DH Deterding, 1989, Universidad de Cambridge, "Normalizacin Portavoz de
reconocimiento automtico de voz", presentado para su doctorado. [Web Link][NiranjanFallside88]
M. Niranjan y F. Fallside, 1988, Universidad de Cambridge Departamento de Ingeniera, "Redes
Neuronales y funciones de base radial en la clasificacin de los patrones del habla estticas ",
CUED/F- [Web Link] . [Web Link] [RenalsRohwer89-ijcnn] Steve Renals y Richard Rohwer,
"Experimentos de clasificacin de fonemas utilizando funciones de base radial", Conferencia
Internacional Conjunta sobre Neural Redes, Washington, 1989. [Web Link]

M. Layton y MJ F Gales. CAMBRIDGE UNIVERSITY DEPARTAMENTO DE INGENIERA mxima
Formacin Margen de generativos Kernels . Complementada. 2004. [Ver Contexto ]. Mateo
Brand. Descubrimiento de patrn a travs de la minimizacin de la entropa . REAL - A MITSUBISHI
ELECTRIC LABORATORIO DE INVESTIGACIN. 1998. [ Ver Contexto ].
Cita de pedidos:
Mtodo Anticonceptivo 2014-02-12
Conjunto de datos Eleccin
Resumen : Recurso de datos es un subconjunto de la Nacional Indonesia anticonceptivos
Encuesta de Prevalencia del 1987.


9 Fecha Donado
Valores Nmero de
Fuente:
Origen: Este conjunto de datos es un subconjunto del 1987 Indonesia Encuesta Nacional de
Prevalencia de Anticonceptivos Creador: Tjen-Sien Lim ( limt '@'stat.wisc.edu ) Donante: Tjen-Sien
Lim ( limt '@' stat.wisc.edu )

Este conjunto de datos es un subconjunto de la Nacional Indonesia anticonceptivos Encuesta de
Prevalencia del 1987. Las muestras son mujeres casadas que eran o no embarazada o no saben si
se encontraban en el momento de la entrevista. El problema es predecir la eleccin actual mtodo
anticonceptivo (sin uso, mtodos de largo plazo, o los mtodos de corto plazo) de una mujer sobre
la base de sus caractersticas demogrficas y socio-econmicas.
1. Edad de la esposa (numrica)
2. La educacin de la esposa (categrica) 1 = bajo, 2, 3, 4 = Alta
3. La educacin del esposo (categrica) 1 = bajo, 2, 3, 4 = alto
4. Nmero de hijos nacidos vivos (numrica)
5. La religin de la esposa (binario) 0 = no el Islam, 1 = Islam
6. Esposa Ahora est trabajando? (Binario) 0 = Si, 1 = No
7. Ocupacin del esposo (categrica) 1, 2, 3, 4
8. ndice Standard-de-vida (categrica) 1 = bajo, 2, 3, 4 = alta
9. Exposicin a los medios (binario) 0 = bueno, 1 = No es bueno
10. Mtodo anticonceptivo utilizado (atributo class) 1 = sin uso, 2 = a largo plazo, 3 = Corto plazo
Lim, T.-S., Loh, W.-Y. Y Shih, Y.-S. (1999). Una comparacin de la exactitud de prediccin,
complejidad y tiempo de formacin de los Treinta y tres del Antiguo y Nuevo Clasificacin
Algoritmos. Aprendizaje Automtico. ( [Web Link] o [Web Link] ) [Web Link]

Earl Harris Jr. Informacin Gain Gain Versus victorias: Un Estudio de mtodo Split sesgos . La
Corporacin MITRE / Washington C. 2001. [ Ver Contexto ]. Soumya Ray y David
Page. Generalizado El sesgado para funciones con atributos continuos y nominales . Departamento
de Ciencias de la Computacin y el Departamento de Bioestadstica e Informtica Mdica de la
Universidad de Wisconsin [ Ver Contexto ]. Jos'e L. Balc'azar. Las reglas con Bounded Negaciones y
el Plan de Cobertura de inferencia . Dept. LSI, UPC. [ Ver Contexto ].
Cita de pedidos:
Corel imagen Caractersticas 2014-02-12
del conjunto de datos
Resumen : Este conjunto de datos contiene caractersticas de la imagen extrada de una coleccin
de imgenes de Corel. Cuatro conjuntos de caractersticas estn disponibles en base al
histograma de color, diseo histograma de color, momentos de color, y la co-ocurrencia


Valores Nmero de
Tareas asociadas: N/A N/A 29536
Fuente:
Propietario original: Michael Ortega-Binderberger Informacin y Ciencias de la Computacin de la
Universidad de California en Irvine Irvine, CA 92697-
3425 EE.UU. miki '@'ics.uci.edu Donante: Kriengkrai Porkaew y Sharad Mehrotra Informacin y
Ciencias de la Computacin de la Universidad de California en Irvine Irvine, CA 92697-
3425EE.UU. nid '@' ics.uci.edu , sharad '@' ics.uci.edu

La coleccin de imagen original se obtuvo de Corel en [Web Link] . Hay 68.040 imgenes
fotogrficas de diversas categoras. Cada conjunto de caractersticas se almacena en un archivo
independiente. Para cada archivo, una lnea corresponde a una sola imagen. El primer valor en una
lnea se es el ID de la imagen y los valores subsiguientes son el vector de caractersticas (por
ejemplo, el histograma de color, etc) de la imagen. La misma imagen tiene el mismo ID en todos los
archivos pero el ID de imagen no es el mismo que el nombre de archivo de imagen.
De cada imagen se extrajeron cuatro conjuntos de caractersticas: - Color Histograma - Color
Histograma Layout - Momentos de color - Co-ocurrencia de la textura del color de histograma: 32
dimensiones (8 x 4 = H x S) - espacio de color HSV se divide en 32 sub-espacios (32 colores:. 8
rangos de H y 4 rangos de S) . - el valor de cada dimensin en una ColorHistogram de una imagen
es la densidad de cada color en toda la imagen - Histograma de interseccin (rea de superposicin
entre ColorHistograms de dos imgenes) pueden ser utilizado para medir la similitud entre dos
imgenes. Color de histograma de colocacin: 32 dimensiones (4 x 2 x 4 = H x S x sub-imgenes) -
cada imagen se divide en 4 sub-imgenes (una divisin horizontal y una divisin vertical). - 4x2
color de histograma para cada sub-imagen se calcula.- Histograma Interseccin se puede utilizar
para medir la similitud entre dos imgenes. Momentos Color: 9 dimensiones (3 x 3) - los valores 9
son: (una para cada uno de H, S , y V en el espacio de color HSV) - media, - desviacin estndar, y -
la asimetra. - la distancia eucldea entre los momentos de color de dos imgenes puede ser usado
para representar la pantalla similitud (distancia) entre dos imgenes. co-ocurrencia Textura: 16
dimensiones (4 x 4) - Las imgenes se convierten a 16 imgenes en escala de grises. - co-ocurrencia
en 4 direcciones se computa (horizontal, vertical, y dos direcciones diagonales). 16 los valores son
los siguientes:. (uno para cada sentido) - Momento Angular En segundo lugar, - Contraste, I -
Momento Diferencia nverse, y - Entropa. euclidiana distancia entre ColorMoments de dos
imgenes se puede utilizar para medir la dis- similitud (distancia) entre dos imgenes.
Michael Ortega, Yong Rui, Kaushik Chakrabarti, Kriengkrai Porkaew, Sharad Mehrotra, y Thomas S.
Huang, apoyando Clasificado booleanas similitud consultas en MARS, IEEE transacciones en
conocimiento e informacin tcnica, vol. 10, No. 6, pginas 905-925, diciembre de 1998. [Web
Link] Kaushik Chakrabarti y Sharad Mehrotra, El rbol hbrido: una estructura de ndice de alto
dimensional Espacios Estelar, 1999 IEEE Conferencia Internacional sobre Datos de Ingeniera
(ICDE), Pginas 440-447, febrero de 1999. [Web Link] Kriengkrai Porkaew, Kaushik Chakrabarti y
Sharad Mehrotra, Refinamiento de consultas para la recuperacin Multimedia y sus Tcnicas de
Evaluacin en MARS, 1999 ACM Conferencia Multimedia International, Orlando, Florida, octubre
30-noviembre 04, de 1999. [Web Link] Kaushik Chakrabarti, Kriengkrai Porkaew y Sharad Mehrotra,
Refinamiento de consultas Eficiente en bases de datos multimedia, ICDE, 2000 [Web Link]

Thomas T. Osugi y MS BASADO EN LA EXPLORACIN DE APRENDIZAJE MQUINA ACTIVE . Facultad
de El Colegio de Graduados de la Universidad de Nebraska en cumplimiento parcial de los
requisitos. [ Ver Contexto ].
Cita de pedidos:
Estos datos pueden usarse para fines no comerciales.
Covertype Data Set 2014-02-12
Resumen : Bosque CoverType conjunto de datos


54 Fecha Donado
Valores Nmero de
Fuente:
Los propietarios originales de base de datos: Teledeteccin y SIG del programa del Departamento
de Ciencias Forestales Facultad de Recursos Naturales de la Universidad Estatal de Colorado en
Fort Collins, CO 80523 (contacto Jock A. Blackard, jblackard '@' fs.fed.us o el Dr. Denis J.
Dean, denis.dean '@' utdallas.edu ) Los donantes de base de datos: 1. Jock A. Blackard
( jblackard '@' fs.fed.us ) Coordinador de GIS USFS - Inventario Forestal y Anlisis Estacin de
Investigacin de las Montaas Rocosas 507 25th Street Ogden, UT 84401 2. Dr. Denis J. Dean
( denis.dean '@' utdallas.edu ) Profesor del Programa de Geografa y Ciencias
GeoespacialesFacultad de Econmicas, Ciencias Polticas y Poltica 800 West Campbell
Rd Richardson, TX 75080-3021 3. Dr. Charles W. Anderson
( Anderson '@' cs.colostate.edu )Profesor Asociado del Departamento de Ciencias de la
Computacin de la Universidad Estatal de Colorado en Fort Collins, CO 80523 EE.UU.

Predecir el tipo de la cubierta forestal a partir de variables cartogrficas nicas (datos obtenidos no
remotamente). El tipo de cobertura forestal actual para una observacin dada (30 x 30 celdas
metro) se determin a partir del Servicio Forestal de EE.UU. (USFS) Regin 2 Sistema de
Informacin de Recursos de datos (RIS). Las variables independientes se obtuvieron a partir de
datos procedentes originalmente de EE.UU. Geological Survey (USGS) y los datos del USFS. Los
datos estn en forma cruda (no a escala) y contiene binarios (0 o 1) columnas de datos para las
variables independientes cualitativas (reas silvestres y tipos de suelo). Esta rea de estudio
incluye cuatro reas silvestres ubicado en el Bosque Nacional Roosevelt del norte de
Colorado. Estas reas representan los bosques con perturbaciones de origen humano mnimos, por
lo que los tipos de cubierta forestal existente son ms el resultado de los procesos ecolgicos en
lugar de prcticas de manejo forestal. Parte de la informacin de fondo para estas cuatro reas
silvestres: Neota (rea 2) probablemente tiene la elevacin media ms alta valor de las 4 reas
silvestres. Ragua (zona 1) y Comanche Peak (rea 3) tendran un valor en alzado media ms baja,
mientras que la cach de Poudre (rea 4) tendra el valor ms bajo en elevacin media. En cuanto a
las especies de rboles ms importantes primarios en estas reas, Neota tendra abeto / abeto
(tipo 1), mientras que Ragua y Comanche Peak probablemente tendran pino torcido (tipo 2) como
sus principales especies, seguida de la picea / abeto y el lamo tembln (tipo 5). Cach de la
Poudre tendera a tener Ponderosa pino (tipo 3), Douglas-fir (tipo 6), y lamo / sauce (tipo 4). Las
reas Rawah y Comanche Peak tenderan a ser ms tpica del conjunto de datos en general que sea
la Neota o cach de Poudre, debido a su gran variedad de especies de rboles y la gama de valores
de prediccin de variables (elevacin, etc) la cach de Poudre probablemente seran ms singular
que los dems, debido a su composicin relativamente bajo rango de elevacin y especies.
Teniendo en cuenta es el nombre del atributo, el tipo, la unidad de medida y una breve descripcin
de atributos. El tipo de cobertura forestal es el problema de clasificacin. El orden de esta lista se
corresponde con el orden de los nmeros a lo largo de las filas de la base de datos. Nombre / Tipo
Data / Medicin / DescripcinElevacin / cuantitativa / metros / Altitud en metros Aspecto /
cuantitativa / acimut / Aspect en grados de azimut de pendiente / cuantitativos / grados /
Pendiente en grados Horizontal_Distance_To_Hydrology / cuantitativos / metros / Horz Dist al
agua superficial cercana cuenta con Vertical_Distance_To_Hydrology / cuantitativa / metros / Vert
Dist. a entidades ms cercanas aguas superficiales Horizontal_Distance_To_Roadways /
cuantitativos / metros / Horz Dist. a la carretera ms cercanaHillshade_9am / cuantitativa / 0 a 255
index / ndice de sombreado a las 9 am, solsticio de verano Hillshade_Noon / cuantitativa / 0 al
ndice 255 ndice / Sombreado al medioda, solsticio de verano Hillshade_3pm / cuantitativa / 0 al
ndice 255 ndice / Sombreado en 15:00, solsticio de verano Horizontal_Distance_To_Fire_Points /
cuantitativa / metros / Horz Dist. a la ms cercana de incendios forestales puntos de
ignicin Wilderness_Area (4 columnas binarias) / cualitativa / 0 (ausencia) o 1 (presencia) / rea
Wilderness designacin Soil_Type (40 columnas binarias) / cualitativa / 0 (ausencia) o 1 (presencia)
/ Tipo de suelo designacin Cover_Type (7 tipos ) / entero / 1 a 7 / Bosques Tipo Cubierta
designacin
Blackard, Jock A. y Denis J. Dean. 2000. "Precisiones comparativos de Redes Neuronales Artificiales
y anlisis discriminante en la prediccin de tipos de cubierta forestal de variables
cartogrficas." Informtica y electrnica en la Agricultura 24 (3) :131-151. [Web Link] Blackard, Jock
A. y Denis J. Dean. 1998. "Precisiones comparativos de Redes Neuronales y Anlisis discriminante
en la prediccin de tipos de cubierta forestal de variables cartogrficas." Segunda Conferencia SIG
Forestal del Sur. Universidad de Georgia. Athens, GA. Pginas 189-199. Blackard, Jock A.
1998. "Comparacin de las redes neuronales y anlisis discriminante en la prediccin de tipos de
cubierta forestal." Ph.D. disertacin. Departamento de Ciencias Forestales. Universidad del Estado
de Colorado. Fort Collins, Colorado. 165 pginas.

Joao Gama y Ricardo Rocha y Pedro Medas. rboles de decisiones precisas para la minera de flujos
de datos de alta velocidad . KDD. 2003. [ Ver Contexto ]. Nikunj C. Oza y Stuart J.
Russell. comparaciones experimentales de las versiones en lnea y por lotes de embolsado y
potenciar . KDD. 2001. [ Ver Contexto ]. Zoran Obradovic y Slobodan Vucetic. Desafos en Scientific
Data Mining: muestras heterogneas, sesgadas, y grandes . Centro de Informacin de Ciencia y
Tecnologa de la Universidad de Temple. [ Ver Contexto ]. Arto Klami y Samuel Kaski y Ty n ohjaaja
y Janne Sinkkonen. Universidad Tecnolgica de Helsinki Departamento de Ingeniera Fsica y
Matemticas Arto Klami regularizada discriminativo Clustering . Regularizada discriminativo
Clustering. [ Ver Contexto ]. Chris Giannella y Bassem Sayrafi. Una teora de la informacin de
histograma individual Dimensional Selectividad Estimacin . Departamento de Ciencias de la
Computacin, Universidad de Indiana en Bloomington. [ Ver Contexto ]. Johannes
Frnkranz. Round Robin regla de aprendizaje . Instituto Austraco de Investigacin para la
Inteligencia Artificial. [ Ver Contexto ].
Cita de pedidos:
La reutilizacin de esta base de datos es ilimitado con la retencin de la notificacin de derechos
de autor para Jock A. Blackard y la Universidad Estatal de Colorado.
Aprobacin de Crdito Conjunto 2014-02-12
de Datos
Resumen : Esta aplicacin preocupaciones de datos de tarjetas de crdito; buena mezcla de
atributos

Multivariante 690 rea: Financiero

15 Fecha Donado N/A
atributo: entero, real atributos:
Valores Nmero de
Fuente:
(Fuente confidencial) Enviado por quinlan '@' cs.su.oz.au
Este archivo se refiere a las solicitudes de tarjetas de crdito. . Todos los nombres de atributo y los
valores han sido cambiados para smbolos sin sentido para proteger la confidencialidad de los
datos de este conjunto de datos es interesante porque hay una buena mezcla de atributos -
continua nominal con un pequeo nmero de valores y nominal con un nmero mayor de
valores. Tambin hay unos pocos valores perdidos.
A1: b, a.
A2:. continua
A3: continuo.
A4:. u, y, l, t
A5:. g, p, gg
A6: c, d, cc, i, j, k, m, r, . q, w, x, e, aa, ff
A7:. v, h, bb, j, n, z, dd, ff, o
A8: continuo.
A9: t, f.
A10: t, f.
A11: . continua
. A12: t, f
. A13: g, p, s
A14: continuo.
A15: continuo.
A16: +, - (atributo de clase)
Quinlan. "La simplificacin de los rboles de decisin", Estudios Int J Man-Machine 27, diciembre
1987, pp 221-234. [Web Link] Quinlan. "C4.5: Programas de Aprendizaje Automtico", Morgan
Kaufmann, octubre 1992 [Web Link]

. Xiaoming Huo FBP: Un algoritmo de poda de rboles basado en la Frontera . Seoung Bum
Kim. 2002. [ Ver Contexto ]. Lorne Mason y Peter L. Bartlett y Jonathan Baxter. Mejora
Generalizacin travs de la optimizacin explcita de Mrgenes . Aprendizaje Automtico,
38. 2000. [ Ver Contexto ]. Kagan Tumer y Joydeep Ghosh.robusta combinacin de clasificadores
dispares a travs de estadsticas de orden . CoRR, csLG/9905013. 1999. [ Ver Contexto ]. Lorne
Mason y Peter L. Bartlett y Jonathan Baxter. Optimizacin directo de Mrgenes Mejora la
generalizacin de los clasificadores combinados . PNI. 1998. [ Ver Contexto ].
Cita de pedidos:
Bandas Cilindro Conjunto de 2014-02-12
Datos
Resumen : Se utiliza en la toma del rbol de induccin para la mitigacin de los retrasos del
proceso conocido como "bandas de cilindro" en la impresin en huecograbado


39 Fecha Donado
Valores Nmero de
Fuente:
Creador: Bob Evans RR Donnelley & Sons Co. Divisin Gallatin Plant 801 Steam Rd Gallatin,
Tennessee 37066-3396 (615) 452 a 5170 Donante: misma

Aqu est el resumen de la referencia anterior: RESUMEN: herramientas de aprendizaje automtico
muestran una promesa significativa para la adquisicin de conocimientos, sobre todo cuando la
experiencia humana es inadecuada. Recientemente, demoras en los procesos conocidos como
bandas de cilindro en la impresin en huecograbado se han mitigado sustancialmente el uso de las
reglas de control descubiertos por decisin rbol de induccin. Nuestro trabajo es un ejemplo de
una metodologa ms general que transforma la tarea de adquisicin de conocimiento a partir de
aquel en el que las reglas son provocados directamente de un experto, a una en la que un sistema
de aprendizaje es responsable de la generacin de reglas. Las principales responsabilidades del
experto humano son evaluar los mritos de reglas generadas, y para orientar la adquisicin y
clasificacin de los datos necesarios para la mquina de induccin. Estas responsabilidades
requieren que el experto para hacer lo que mejor sabe hacer un experto: el ejercicio de su
especialidad. Esto parece un ajuste ms natural a las capacidades de un experto que los requisitos
de las metodologas tradicionales que los expertos enumeran explcitamente las reglas que ellos
emplean.
1. fecha y hora: numrico, 19500101 a 21001231
2. Nmero de cilindros: nominal
3. cliente: nominal;
4. nmero de trabajo: nominal;
5. grano blindado: nominal; s, no
6. color de la tinta: nominal, llave, tipo
7. prueba de tinta ctd: nominal; s, no
8. hoja MFG: nominal; benton, Daetwyler, Uddeholm
9. divisin del cilindro: nominal; gallatin, varsovia, mattoon
10. ; no recubierto, recubierto de gran nominal: tipo de papel
11. Tipo de tinta: nominal, sin estucar ni recubrir, recubierto, cubre
12. directa de vapor: nominal; usar; s, no *
13. tipo de disolvente: nominal; xilol, lactol, nafta, lnea, otro
14. escriba en el cilindro: nominal; s, no
15. tipo de prensa: nominal, el uso, el 70 azada de madera, 70 Motter, 70 albert, 94 Motter
16. pulse: nominal, 821, 802, 813, 824, 815, 816, 827, 828
17. nmero de unidad: nominal, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10
18. tamao del cilindro: nominal, catlogo, spiegel, tabloide
19. ubicacin molino de papel: nominal, al norte de nosotros, al sur de nosotros, canadiense,
escandinavo, medio europeo
20. chapado tanque: nominal; 1910, 1911, otro
21. corte a prueba: numrico; 0-100
22. viscosidad: numrico; 0-100
23. pinza: numrico; 0-1,0
24. temperatura de la tinta: numrico; 5-30
25. humifity: numrico; 5-120
26. rugosidad: numrico, 0-2
27. presin de la hoja: numrico, 10-75
28. barniz pct: numrico; 0-100
29. pulse velocidad: numrico; 0-4000
30. pct de tinta: numrico; 0-100
31. solvente pct: numrico; 0-100
32. ESA Voltaje: numrico; 0-16
33. ESA Amperaje: numrico; 0-10
34. cera: numrico; 0-4.0
35. endurecedor: numrico; 0-3.0
36. durmetro rodillo: numrico; 15-120
37. densidad de corriente: numrico, 20-50
38. nodo relacin de espacio: numrico; 70-130
39. contenido de cromo: numrico; 80-120
40. Tipo de banda: nominal, clase, grupo, ninguna banda *
Evans, B., y Fisher, D. (1994). Proceso de superacin de demora con la induccin de rbol de
decisin. IEEE Expert, vol. 9, N 1, 60 - 66. [Web Link]
Juan J. Rodr guez # # y Carlos J. Alonso. Aplicacin de Impulso a la similitud literales para Time
Clasificacin Series . Departamento de Informtica de la Universidad de Valladolid,
Espaa. 2000. [ Ver Contexto ]. Juan J. Rodr guez # # y Carlos J. Alonso y Henrik Bostrom. Impulsar
basada en intervalos literales . 2000. [ Ver Contexto ].Juan J Rodrguez Diez y Carlos Alonso
Gonzlez y Henrik Bostrm. Clasificadores de Aprendizaje lgica de primer orden de series
temporales: Reglas y Impulsar .PKDD. 2000. [ Ver Contexto ]. Juan J. Rodr guez # # y Carlos J.
Alonso y Henrik Bostrom. aprendizaje de primer orden Lgica Series de tiempo Clasificadores:
Reglas y Impulsar . Grupo de Sistemas Inteligentes, Departamento de Inform atica # Universidad de
Valladolid, Espaa. [ Ver Contexto ]. Charles Campbell y Nello Cristianini.simple algoritmos de
aprendizaje para las Mquinas de Vectores Soporte Entrenamiento . Departamento de Ingeniera
Matemtica. [ Ver Contexto ]. Carlos J. Alonso Gonzlez y Juan J. Rodr iguez y Diez. Tiempo
Clasificacin Series by Impulsar basada en intervalos literales . Grupo de Sistemas Inteligentes
Departamento de Informatica de la Universidad de Valladolid. [ Ver Contexto ].
Cita de pedidos:
Diario y Deportes de conjunto 2014-02-12
de datos
Resumen : El conjunto de datos consta de los datos del sensor de movimiento de 19 diarios y
actividades deportivas cada uno realizado por 8 sujetos en su propio estilo durante 5
minutos. Cinco unidades Xsens MTx se usan en el torso, los brazos y las piernas.

9120 rea: Ordenador

Real 5625 07/08/2013
Nmero de
Clasificacin, Valores N/
Tareas asociadas: Web 31669
Clustering perdidos? A
Accesos:
Fuente:
Billur Barshan,
Departamento de Ingeniera Elctrica y Electrnica de la Universidad de Bilkent, TR-06800 Bilkent,
Ankara, Turqua
tel: (90-312) 290-2161 Fax: (90-312) 266-4192 e-mail: billur `@ 'ee . bilkent.edu.tr
url: www.ee.bilkent.edu.tr/ ~ billur Kerem
Altun, kerem.altun '@' kemerburgaz.edu.tr , kerem.altun '@' gmail.com

Cada una de las actividades 19 se lleva a cabo por ocho sujetos ( 4 mujeres, 4 hombres, de entre 20
y 30) durante 5 minutos.
Duracin total de la seal es de 5 minutos para cada actividad de cada tema.
Se pide a los sujetos que realizaran las actividades en su propio estilo y no se limitaron en cmo las
actividades se debe realizar. Por esta razn, hay variaciones entre los sujetos en las velocidades y
amplitudes de algunas actividades.
Las actividades se llevan a cabo en la Universidad Bilkent Sports Hall, en la elctrica y Electrnica
Ingeniera de Edificacin,
y en una zona al aire libre plana en el campus. Unidades de sensores son calibrados para la
adquisicin de datos a 25 Hz de frecuencia de muestreo. . Las seales de 5 min se dividen en
segmentos de 5 seg para que 480 (= 60x8) segmentos de seal se obtienen para cada actividad Las
actividades de 19 son: sentarse (A1), de pie (A2),acostado sobre la espalda y en el lado derecho (
A3 y A4), subiendo y bajando escaleras (A5 y A6), de pie en un ascensor todava (A7) y moverse en
un ascensor (A8),caminando en una playa de estacionamiento (A9), caminar en una cinta con una
velocidad de 4 kmh (en plano y 15 grados posiciones inclinadas) (A1 0 y A11), que se ejecuta en un
tapiz rodante con una velocidad de 8 km / h (A12), hacer ejercicio de paso a paso (A13), el ejercicio
en una mquina de cross ( A14), andar en bicicleta en una bicicleta de ejercicio en posicin
horizontal y vertical (A15 y A16), remo (A17), salto (A18), y jugar al baloncesto (A19). Estructura de
los archivos: 19 actividades (a) (en el orden dado arriba ) 8 sujetos (p) 60 segmentos (s) 5 unidades
en el torso (T), el brazo derecho (RA), el brazo izquierdo (LA), la pierna derecha (RL), pierna
izquierda (LL) 9 sensores en cada unidad (x, y, acelermetros z, x, y, z, giroscopios x, y, z)
magnetmetros Carpetas a01, a02, ..., a19 contener datos registrados a partir de las actividades
19. Para cada actividad, las subcarpetas p1, p2, ... , p8 contienen los datos de cada uno de los 8
temas. En cada subcarpeta, hay 60 archivos de texto s01, s02, ..., s60, uno para cada segmento. En
cada archivo de texto, hay 5 unidades x 9 = 45 sensores columnas y 5 seg x 25 = 125 Hz filas. Cada
columna contiene las 125 muestras de datos adquiridos a partir de uno de los sensores de una de
las unidades durante un perodo de 5 segundos. Cada fila contiene datos adquiridos a partir de
todo el sensor de 45 ejes en una . todo instante de muestreo separados por comas Columnas 1-45
corresponden a: T_xacc, T_yacc, T_zacc, T_xgyro, ..., T_ymag, T_zmag, RA_xacc, RA_yacc, RA_zacc,
RA_xgyro, ..., RA_ymag, RA_zmag, LA_xacc, LA_yacc, LA_zacc, LA_xgyro, ..., LA_ymag,
LA_zmag, RL_xacc, RL_yacc, RL_zacc, RL_xgyro, ..., RL_ymag, RL_zmag, LL_xacc, LL_yacc, LL_zacc,
LL_xgyro, ..., LL_ymag, LL_zmag. Por lo tanto, las columnas 1-9 corresponden a los sensores en la
unidad 1 (t), columnas 10-18 se corresponden con los sensores en la unidad 2 (RA), columnas 19-27
se corresponden con los sensores en la unidad 3 (LA), columnas 28-36 se corresponden con los
sensores en unidad 4 (RL), columnas 37-45 se corresponden con los sensores en la unidad 5 (LL).
Por favor, vea la descripcin detallada anteriormente.
Los documentos enumerados en `Las solicitudes de citas 'utilizan este conjunto de datos.
Cita de pedidos:
K. Altun, B. Barshan y O. Tunel,
`` Estudio comparativo sobre la clasificacin de las actividades humanas con sensores inerciales y
magnticos decorativos,''
Pattern Recognition, 43 (10) :3605-3620, octubre de 2010. Barshan, billur y Murat Cihan
Yksek. "Reconociendo diario y actividades deportivas en la Segunda Open Source Machine
Learning Environments Utilizacin de unidades de sensor usado en el cuerpo." The Computer
Journal (2013) K. Altun y B. Barshan, `` reconocimiento actividad humana usando unidades de
sensores inerciales / magnticos,'' Memorias Primer Taller Internacional sobre la comprensin del
comportamiento humano (en conjuncin con el 20 Int.. Conf. sobre Reconocimiento de Patrones),
22 de agosto de 2010, Estambul, Turqua , AA Salah, T. Gevers, N. Sebe, A. Vinciarelli (editores),
HBU 2010, LNCS 6219, pp.38-51, Springer: Berln, Heidelberg, 2010.
Daphnet bloqueo de la marcha 2014-02-12
Resumen : Este conjunto de datos contiene las lecturas comentadas de 3 sensores de aceleracin
en la cadera y la pierna de los pacientes con enfermedad de Parkinson que la experiencia de
congelacin de la marcha (neblina) durante las tareas de a pie.

237 rea: Vida

Real 9 07/03/2013
Nmero de
Valores N/
perdidos? A
Accesos:
Fuente:
0Daniel Roggen, Universidad de Newcastle Upon Tyne, Reino Unido, daniel.roggen '@' ieee.org
Meir Plotnik, Sheba Medical Center, IL, meir.plotnikPeleg '@' sheba.health.gov.il
Jeff Hausdorff, Tel Aviv Sourasky Medical Center , jhausdor '@' tlvmc.gov.il
Este conjunto de datos se recogieron como parte de la Daphnet proyecto del 6PM de la UE,
concede nmero 018474-2.
esfuerzo adicional para publicar este conjunto de datos fue financiada en parte por el proyecto del
7PM de la UE Cupido, el nmero de concesin 288516.

La congelacin de la marcha Daphnet conjunto de datos es un conjunto de datos ideado para
mtodos automticos de referencia para reconocer la congelacin de la marcha de los sensores de
aceleracin porttiles colocados en las piernas y la cadera. El conjunto de datos se registr en el
laboratorio con nfasis en la generacin de muchos eventos de congelacin. Los usuarios realizan
all clases de tareas: la lnea recta para caminar, caminando con numerosas curvas, y por ltimo
una actividad ms realista de la vida diaria (AVD) de tareas, donde los usuarios entraron en
diferentes salas, mientras que ir a buscar el caf, abrir puertas, etc Este conjunto de datos es el
resultado de una colaboracin entre el Laboratorio de Marcha y Neurodinmico, Tel Aviv Sourasky
Medical Center, Israel y el Laboratorio de Computacin usable, ETH Zurich, Suiza. Las grabaciones
se realizaron en el Aviv Sourasky Medical Center Tel en 2008. El estudio fue aprobado por el
Comit de Sujetos Humanos local de revisin, y se llev a cabo de acuerdo con las normas ticas de
la Declaracin de Helsinki.
Cada archivo comprende los datos en un formato de matriz, con una lnea por muestra, y una
columna por canal. Los canales son los siguientes:
Tiempo de la muestra en milisegundos
tobillo (pierna) Aceleracin - Aceleracin de avance horizontal [mg]
tobillo (pierna) de aceleracin - [mg] vertical de
tobillo (pierna) de aceleracin - lateral [mg] horizontal
pierna superior (muslo) aceleracin - La aceleracin horizontal delantera [mg]
pierna superior (muslo) aceleracin - [mg] verticales
pierna superior (muslo) aceleracin - lateral [mg] horizontal
aceleracin Trunk - aceleracin horizontal delantera [mg]
aceleracin Trunk - verticales [mg]
aceleracin Trunk - horizontal lateral [mg]
Anotacin [0, 1 2] El significado de las anotaciones son las siguientes: 0: no forma parte del
experimento. Por ejemplo, los sensores estn instalados en el usuario o el usuario est realizando
actividades no relacionadas con el protocolo experimental, como debriefing 1: experimento, sin
congelar (puede ser cualquiera de stand, caminar, girar) 2: congelacin
[1] chlin Marc B , Meir Plotnik, Daniel Roggen, Nir Giladi, Jeffrey M Hausdorff y Gerhard Tr
ster, un sistema usable para Asistir a pie por la enfermedad de Parkinson Patients.Methods de
Informacin en Medicina, 49:1 (88-95 ), 2010
[2] Meir Plotnik, Marc B chlin, Inbal Maidan, Daniel Roggen, Gerhard Tr ster, Nir Giladi y
Jeffrey M Hausdorff, asistencia biofeedback Automatizado de bloqueo de la marcha en pacientes
con enfermedad de Parkinson. Actas de la Sociedad Internacional para la postura y la marcha de
Investigacin (ISPGR), Bologna, Italia, 2009
[3] Meir Plotnik, Marc B chlin, Daniel Roggen, Noit Inbar, Inbal Maidan, Talia Herman, Marina
Brozgol, Eliya Shaviv, Gerhard Tr ster y Jeffrey M de Hausdorff, tratamiento automatizado de
bloqueo de la marcha en la enfermedad de Parkinson utilizando un dispositivo porttil que detecta
automticamente la congelacin. Reunin anual de la Sociedad Neurolgica de Israel, Israel,
pginas 63, 2009
[4] Marc B chlin, Daniel Roggen, Meir Plotnik, Jeffrey M Hausdorff, Nir Giladi y Gerhard Tr
ster, Deteccin en lnea de bloqueo de la marcha en pacientes con enfermedad de Parkinson : Una
caracterizacin del rendimiento. Actas de la 4 Conferencia Internacional sobre Body Area
Networks, 2009
[5] Marc B chlin, Meir Plotnik, Daniel Roggen, Noit Inbar, Nir Giladi, Jeffrey M Hausdorff y
Gerhard Tr ster. Perspectiva de Parkinson los pacientes 'del contexto tecnologa porttil
conscientes de ayuda auditiva. Actas de la 3 Conferencia Internacional sobre Tecnologas de
Pervasive Computing de Salud, 2009
[6] chlin Marc B , Daniel Roggen, Meir Plotnik, Noit Inbar, Inbal Maidan, Talia Herman, Marina
Brozgol, Eliya Shaviv, Nir Giladi, Jeffrey M Hausdorff y Gerhard Tr ster,
Potenciales de una mayor sensibilidad al contexto en asistentes porttiles para los pacientes con
enfermedad de Parkinson s con la congelacin del sndrome de la marcha. Actas del Simposio
Internacional sobre la 13 Wearable Computers (ISCA), pginas 123-130, 2009
[7] Sinziana Mazilu, Michael Hardegger, Zack Zhu, Daniel Roggen, Gerhard Tr ster, Meir Plotnik,
Jeff Hausdorff. Deteccin en lnea de bloqueo de la marcha con Smartphones y Tcnicas de
Aprendizaje Automtico. Sexto Proc Int. Conf. sobre Tecnologas Pervasive Computing de Salud,
2012
Cita de pedidos:
El uso de este conjunto de datos en las publicaciones debe ser reconocido por referencia a la
siguiente publicacin: chlin Marc B , Meir Plotnik, Daniel Roggen, Inbal Maidan, Jeffrey M.
Hausdorff, Nir Giladi, y Gerhard Tr ster, Asistente usable para los pacientes con enfermedad de
Parkinson con el bloqueo de la marcha de los sntomas. IEEE Transactions on Information
Technology en Biomedicina, 14 (2), marzo 2010, pginas 436-446 En este trabajo se describe el
conjunto de datos en los detalles. Se explica el protocolo de adquisicin de datos, el tipo de sensor
utilizado y su colocacin, y la naturaleza de los datos adquiridos. Tambin proporciona resultados
de referencia para la deteccin automtica de bloqueo de la marcha, contra la que los nuevos
mtodos se pueden benchmarking. En particular, se describe la sensibilidad de deteccin /
especificidad para 3 posiciones de sensor y 4 tipos de seales de los sensores se derivan, se analiza
la latencia de deteccin, y proporciona la primera visin especfica vs desempeo independiente
user user. Tambin agradeceramos que nos (informar daniel.roggen '@ ' ieee.org ) de cualquier
publicacin que utiliza este conjunto de datos con fines de referencias cruzadas.
Conjunto de datos para el 2014-02-12
Reconocimiento ADL con
desgastado mueca
Acelermetro Data Set
Resumen : Los registros de 16 voluntarios que realizan 14 Actividades de la Vida Diaria (ADL) en
el ejercicio de un solo acelermetro triaxial de pulsera.
N
/ rea: Ordenador
A

N/A 3 11/02/2014
N
Clasificacin, Valores Nmero de
Tareas asociadas: / 179
Clustering perdidos? Web Accesos:
A
Fuente:
Barbara Bruno, Fulvio Mastrogiovanni, Antonio Sgorbissa
Laboratorium - Laboratorio de Inteligencia Ambiental y Robtica Mvil
DIBRIS, Universidad de Genova,
a travs de Opera Pia 13, 16145, Genova, Italia (IT)

El conjunto de datos para las AVD reconocimiento con la mueca-desgastado acelermetro es una
coleccin pblica de grabaciones de datos del acelermetro etiquetados para ser utilizados para la
creacin y validacin de modelos de aceleracin de simples actividades cotidianas. El conjunto de
datos se compone de las grabaciones de 14 sencillos ADL (brush_teeth, climb_stairs, comb_hair,
descend_stairs, drink_glass, eat_meat, eat_soup, getup_bed, liedown_bed, pour_water,
sitdown_chair, standup_chair, use_telephone, caminar) perfomed por un total de 16
voluntarios. Los datos son recogidos por un nico acelermetro triaxial adjunta a la derecha de la
mueca de el voluntario. Especificaciones del acelermetro se detallan en el Manual.txt archivo
dentro de la carpeta de conjunto de datos. documentacin detallada sobre el conjunto de datos se
proporciona en los archivos README.TXT y Manual.txt dentro de la carpeta de conjunto de datos.
Cada archivo en el conjunto de datos sigue la siguiente convencin de nomenclatura:
Acelermetro-[START_TIME] - [ADL] - [VOLUNTARIO]
donde:
- [START_TIME]: fecha y hora del momento de inicio de la grabacin en el formato [AAAA-MM-DD-
HH -MM-SS]
- [HMP]: nombre de la ADL realizado en el ensayo registrado
- [VOLUNTARIO]: cdigo de identificacin del voluntario que realiza el movimiento grabada en el
formato [GN] donde:
- 'g' indica el sexo del voluntario (m -> hombre, f -> hembra)
- 'N' indica el nmero progresivo asociado al voluntario Cada registro de un archivo de informes: -
aceleracin a lo largo del eje x del acelermetro - aceleracin a lo largo del eje y del acelermetro -
aceleracin a lo largo del eje z del acelermetro
Una descripcin del sistema de monitoreo de ADL que hemos diseado para trabajar con el
conjunto de datos suministrado se puede encontrar en:
- Bruno, B., Mastrogiovanni, F., Sgorbissa, A., Vernazza, T., Zaccaria, R.:
Anlisis de . algoritmos de reconocimiento de la conducta humana sobre la base de los datos de
aceleracin
en: IEEE Int. Conf. de Robtica y Automatizacin (ICRA),
pp 1602 - 1607 (2013) - Bruno, B., Mastrogiovanni, F., Sgorbissa, A., Vernazza, T., Zaccaria, R.: .
modelizacin de movimiento humano y reconocimiento: Un enfoque computacional En: IEEE Int.
Conf. on Automation Ciencia e Ingeniera (CASE), pp 156-161 (2012)
Cita de pedidos:
DBWorld correos electrnicos 2014-02-12
Conjunto de datos
Resumen : Contiene 64 e-mails que he recogido de forma manual desde la lista de correo
DBWorld. Se clasifican en: 'anuncia las conferencias "y" todo lo dems ".

Texto 64 rea: Ordenador
Caractersticas del Nmero de 2011-11-

N/A 4702 Fecha Donado
atributo: atributos: 06
Valores N/ Nmero de
perdidos? A Web Accesos:
Fuente:
Michele Filannino, PhD
de la Universidad de Manchester
Centro de Formacin Doctoral
Email: filannim_AT_cs.man.ac.uk

Recog 64 e-mails de boletn DBWorld y las us para entrenar diferentes algoritmos para clasificar
entre los "anuncia de conferencias" y "todo lo dems". He utilizado una representacin binaria de
bolsa de palabras con una tarea pre-procesamiento de eliminacin de palabras vacas antes.
Cada atributo se corresponde con una palabra precisa o madre en todo el vocabulario conjunto de
datos (yo us representacin bolsa-de-palabras).
Michele Filannino, 'DBWorld clasificacin de correo electrnico mediante un pequeo corpus',
proyecto de curso de aprendizaje de la mquina, de la Universidad de Manchester, 2011. [ enlace
web ]
Cita de pedidos:
Gracias a ACM-SIGMOD para su servicio de utilidad! :)
Demospongiae Data Set 2014-02-12
Resumen : Las esponjas marinas del dominio de clase clasificacin Demospongiae.

Caractersticas del Nmero de N/ 2010-

Entero Fecha Donado
atributo: atributos: A 01-21
Valores Nmero de
Fuente:
Creador: Eva Armengol, Enric Plaza, Marta Domingo y Iosune Uriz Donante: Santiago Ontan
( santi "@" iiia.csic.es )

Este conjunto de datos contiene 503 esponjas pertenecientes a la clase Demospongiae recogido
desde el Mediterrneo (451 esponjas) y Atlntico (52 esponjas). Cada esponja se clasifica de
acuerdo a una jerarqua formada por: orden, familia, gnero y especie. Cada orden se subdivide en
varias familias. Cada familia tambin se divide en varios gneros, y cada gnero en varias especies:
- Hay 7 rdenes diferentes (entre 42-117 esponjas por orden)
- 42 familias diferentes (1-43 esponjas por familia)
- 114 gnero diferente (1 a 34 esponjas por gnero)
- 230 especies diferentes (de 1 a 15 esponjas por especie) Aunque la clasificacin en todos estos
niveles se puede intentar, se ha utilizado tradicionalmente como un conjunto de datos de
clasificacin, usando el "orden" como la clase de destino. . Adems, un subgrupo formado por 280
esponjas (rdenes astrophoricda, axinellida y Hadromerida) tambin de uso general El conjunto de
datos es relacional y se ofrece en dos formatos alternativos (que son equivalentes): - NOOS: NOOS
es un lenguaje Lisp tipo de representar los datos como caracterstica-trminos. Los siguientes
archivos contienen el conjunto de datos en este formato: - esponja ontology.noos: esto define la
ontologa (tipos y caractersticas) - esponjas dm.noos: este archivo se definen los diferentes
constantes utilizadas en los ejemplos - esponja-casos-503. Noos: este archivo contiene el conjunto
de datos reales - Clusulas de Horn: el conjunto de datos tambin se proporciona como un
conjunto de clusulas de prlogo, equivalente a la representacin de entidad plazo en NOOS. El
archivo de las esponjas-503.pl contiene el conjunto de datos en este formato. Cada predicado con
la cabeza de esponja-problema 'define una esponja diferente.
Cada esponja define 2 atributos:
- Descripcin: que de por s define hasta 6 atributos (caractersticas externas-, ecolgicos-
caractersticas, spikulate-esqueleto, esqueleto fibroso, tractos-esqueleto, y la anatoma). Cada uno
de estos atributos se ha definido atributos adicionales, y as sucesivamente, formando una
estructura de rbol. Las hojas del rbol contienen tanto categorial, as como caractersticas
numricas. Por otra parte, algunas caractersticas son multi-valoradas (es decir, una funcin puede
contener ms de un valor)
- Solucin: Este atributo tiene 4 atributos adicionales definidos (orden, familia, gnero y especie),
que son los atributos de destino. . Como se explic anteriormente, por lo general el "orden" se
utiliza como la clase de destino, ya que no hay suficientes ejemplos para predecir familia, gnero y
especie con precisin los rboles que representan las esponjas varan de tamao: su profundidad
vara formulario 5-8, y su nmero de hojas de 17 a 51. Una representacin grfica de una esponja
se muestra en el archivo de esponja-220.pdf como un ejemplo.
Santiago Ontan y Enric Plaza (2009) sobre las medidas de similitud basadas en un refinamiento
de celosa. en ICCBR 2009, LNAI 5650, pp 240-255. Eva Armengol, Enric Plaza: Lazy Induccin de
Descripciones de Aprendizaje Basado en Casos Relacional. ECML 2001: 13-24 Eva Armengol, Enric
Plaza: Evaluacin Similitud de Relational CBR. ICCBR 2001: 44-58
Cita de pedidos:
Dermatologa Data Set 2014-02-12
Resumen : Objetivo para este conjunto de datos es determinar el tipo de enfermedad
Eryhemato-escamosas.

33
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Los propietarios originales: 1. Nilsel Ilter, MD, Ph.D., de la Universidad de Gazi, Facultad
de Medicina 06510 Ankara, Turqua Telfono: +90 (312) 214 1080 2. H. Altay Gvenir,
PhD,. Bilkent University, Departamento de Ingeniera Informtica y Ciencias de la
Informacin, 06533 Ankara, Turqua Telfono: +90 (312) 266 4133 Email: Gvenir '@'
cs.bilkent.edu.tr Donante: H. Altay Gvenir, Universidad de Bilkent, Departamento de
Ingeniera Informtica y Ciencias de la Informacin, 06533 Ankara, Turqua Telfono: +90
(312) 266 4133 Email: Gvenir '@' cs.bilkent.edu.tr

Esta base de datos contiene 34 atributos, de las cuales 33 son lineales valorados y uno de
ellos es nominal. El diagnstico diferencial de las enfermedades eritematoescamosas
escamosas es un problema real en dermatologa. Todos ellos comparten las
caractersticas clnicas de eritema y descamacin, con muy pocas diferencias. Las
enfermedades de este grupo son la psoriasis, la dermatitis seboreic, el liquen plano, la
pitiriasis rosada, dermatitis crnica y pitiriasis rubra pilaris. Por lo general, una biopsia es
necesaria para el diagnstico, pero por desgracia estas enfermedades comparten muchas
caractersticas histopatolgicas tambin. Otra dificultad para el diagnstico diferencial es
que una enfermedad puede mostrar las caractersticas de otra enfermedad en la etapa
inicial y puede tener los rasgos caractersticos en las siguientes etapas. Los pacientes
fueron evaluados clnicamente por primera vez con 12 funciones. Posteriormente, se
tomaron muestras de piel para la evaluacin de 22 caractersticas histopatolgicas. Los
valores de las caractersticas histopatolgicas son determinados por un anlisis de las
muestras en el microscopio. En el conjunto de datos construida para este dominio, la
funcin de la historia de la familia tiene el valor 1 si cualquiera de estas enfermedades se
ha observado en la familia, y 0 en caso contrario. La funcin de la edad simplemente
representa la edad de la paciente. Cada otra caracterstica (clnico e histopatolgico)
recibi un grado en el rango de 0 a 3. Aqu, 0 indica que la funcin no estaba presente, 3
indica la cantidad ms grande posible, y 1, 2 indican los valores intermedios relativos. Los
nombres y nmeros de identificacin de los pacientes que se retiraron recientemente de la
base de datos.
Atributos clnicos: (tomar valores 0, 1, 2, 3, a menos que se indique lo contrario)
1: eritema
2: expansin
3: fronteras definitivas
4: picazn
5: Fenmeno de Koebner
6: ppulas poligonales
7: ppulas foliculares
8: afectacin de la mucosa oral,
9: la rodilla y el codo participacin
10: Participacin del cuero cabelludo
11: antecedentes familiares, (0 o 1)
34: La edad (lineal) histopatolgico Atributos: (toma valores 0, 1, 2, 3) 12: incontinencia de
melanina 13: eosinfilos en el infiltrado 14: PNL se infiltran 15: fibrosis de la dermis papilar
16: exocitosis 17: acantosis 18: hiperqueratosis 19: paraqueratosis 20: Parranda de las
crestas epiteliales 21: elongacin de las crestas epiteliales 22: adelgazamiento de la
epidermis suprapapilar 23: pstula espongiforme 24: microabcess munro 25:
hipergranulosis focal 26: desaparicin de la capa granular 27: vacuolizacin y el dao de la
capa basal 28: espongiosis 29: aparicin de dientes de sierra de retes 30: tapn folicular
cuerno 31: paraqueratosis perifolicular 32: inflamatoria monoluclear inflitrate 33: infiltrado
en banda
G. Demiroz, HA Govenir y N. Ilter, "Aprendizaje Diagnstico diferencial de las
enfermedades Eryhemato-escamosas utilizando la funcin de votacin Intervalos",
Inteligencia Aritificial en Medicina [Web Link]

Vassilis Athitsos y Stan Sclaroff. Impulsar Clasificadores vecino ms cercano para el
Reconocimiento multiclase . Universidad de Boston Computer Tech Ciencia. Informe n, 2004-006.
2004. [ Ver Contexto ]. Gisele L. Pappa y Alex Alves Freitas y Celso AA Kaestner. Seleccin de
atributos con un algoritmo gentico multiobjetivo . EISB. 2002. [ Ver Contexto ]. MV Fidelis y
Heitor S. Lopes y Alex Alves Freitas. Descubriendo comprensibles Reglas de clasificacin con un
Algoritmo Gentico . UEPG, CPD CEFET-PR, CPGEI PUC-PR, PPGIA Praa Santos Andrade, s / n
Av. Sete de Setembro. [ Ver Contexto ]. Rafael S. Parpinelli y Heitor S. Lopes y Alex Alves Freitas.
CUARTA PARTE: OPTIMIZACIN colonia de hormigas e Inmunolgico Captulo X Una colonia
de hormigas algoritmo para la Clasificacin Regla Descubrimiento . CEFET-PR, Curitiba. [ Ver
Contexto ]. Rafael S. Parpinelli y Heitor S. Lopes y Alex Alves Freitas. Un sistema basado en
Colonia de Hormigas para Minera de Datos: Aplicaciones a los datos mdicos . CEFET-PR, CPGEI
Av. Sete de Setembro, 3165. [ Ver Contexto ]. Gisele L. Pappa y Alex Alves Freitas y Celso AA
Kaestner. AMultiobjective Algoritmo Gentico para la seleccin de atributos . Laboratorio de
Computacin de la Pontificia Universidade Catlica do Paran Universidad de Kent en Canterbury.
[ Ver Contexto ]. Perry Moerland. Mezclas de modelos de variables latentes para la estimacin de la
densidad y la clasificacin . ESEARCHREPRORTIDIAPD alle M olle yo nstitutefor Pe r cep t ua l
Una Inteligencia rtificial. [ Ver Contexto ]. H. Altay Gvenir. A Clasificacin algoritmo de
aprendizaje robusto de caractersticas irrelevantes . Universidad de Bilkent, Departamento de
Ingeniera Informtica y Ciencias de la Informacin. [ Ver Contexto ].
Dexter Data Set 2014-02-12
Resumen : DEXTER es un problema de clasificacin de texto en una representacin de
la bolsa-de-palabra. Este es un problema de clasificacin de dos clases con variables de
entrada continuas dispersos. Este conjunto de datos es uno de los cinco conjuntos de
datos del desafo de seleccin de caractersticas NIPS 2003.

Entero 20000
Nmero de
Valores
perdidos?
Accesos:
Fuente:
una. Propietarios originales
El conjunto original de datos hemos utilizado es un subconjunto de la conocida Reuters
texto referente categorizacin. Los datos fueron recogidos y etiquetados por Carnegie
Group, Inc. y Reuters, Ltd. en el curso del desarrollo del sistema de categorizacin de
textos interpretan originalmente. Es recibido por el repositorio UCI KDD:
http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html . David D. Lewis est
organizando recursos valiosos acerca de estos datos (ver
http://www.daviddlewis.com/resources/testcollections/reuters21578/ ). Utilizamos la
"adquisicin corporativa" clase clasificacin de texto pre-procesado por Thorsten Joachims
< thorsten '@' joachims.org >. Los datos son uno de los ejemplos del paquete de software
SVM-Luz., Ver http://svmlight.joachims.org/ . El ejemplo se puede descargar desde
ftp://ftp-ai.cs.uni-dortmund.de/pub/Users/thorsten/svm_light/examples/example1.tar.gz . b.
Donante de base de datos Esta versin de la base de datos estaba preparado para la
variable y la funcin de seleccin de referencia NIPS 2003 por Isabelle Guyon, 955
Creston Road, Berkeley, CA 94708, EE.UU. ( isabelle '@' clopinet.com ).

Los datos originales fueron formateados por Thorsten Joachims en la representacin
"bolsa-de-palabras". Haba 9.947 caractersticas (de los cuales 2.562 son siempre ceros
para todos los ejemplos) que representan frecuencias de ocurrencia de la palabra de tallos
en el texto. La tarea es aprender cules son los artculos de Reuters son acerca de
"adquisiciones de empresas '. Hemos aadido una serie de caractersticas distractor
llamado 'sondas' que no tienen ningn poder predictivo. El orden de las caractersticas y
los patrones fueron aleatorizados. DEXTER - ex positiva. - Ex Negativo. - Total Training
ajustado - 150 - 150 - 300 La validacin establece - 150 - 150 - 300 Kit de ensayo - 1000 -
1000-2000 All - 1300 - 1300-2600 N de variables / caractersticas / atributos: Reales:
9947 Sondas: 10.053 totales: 20000 Este conjunto de datos es uno de los cinco conjuntos
de datos utilizados en el desafo de seleccin de caractersticas NIPS 2003. Nuestra
pgina web [Web Link] est todava abierto para la presentacin despus de la exposicin.
Informacin acerca de otros problemas conexos se encuentran en: [Web Link] . El paquete
CLOP incluye cdigo de ejemplo para procesar estos datos: [Web Link] . Todos los
detalles sobre la preparacin de los datos se encuentran en nuestro informe tcnico:
Diseo de experimentos para la seleccin de variables de referencia, Isabelle Guyon, julio
de 2003, NIPS 2003 [Web Link] (tambin incluido en el archivo de conjunto de datos).
Dicha informacin se pondr a disposicin slo despus de la final del desafo. Los datos
se dividen en entrenamiento, validacin y prueba. Valores objetivo slo se proporcionan
para los 2 primeros sets. Los resultados de rendimiento conjunto de pruebas se obtienen
mediante la presentacin de resultados de la prediccin a: [Web Link] . Los datos estn en
el siguiente formato: dataname.param: Los parmetros y las estadsticas sobre los datos
dataname.feat: Identidades de las caractersticas (retenidos, para evitar sesgar funcin .
seleccin) dataname_train.data: conjunto de entrenamiento (una matriz dispersa, los
patrones de lneas, las caractersticas de las columnas:. nmero de funcin seguido de
valor) dataname_valid.data:. conjunto de validacin dataname_test.data: conjunto de
prueba. dataname_train.labels: Etiquetas (la verdad . valores de las clases) para ejemplos
de entrenamiento dataname_valid.labels: Definir etiquetas de Validacin (retenidos
durante el punto de referencia, pero siempre ahora). dataname_test.labels: Test set
etiquetas (retenciones, por lo que los datos todava pueden ser usados como un punto de
referencia).
No proporcionamos informacin de la caracterstica para evitar sesgar la seleccin de
caractersticas.
Isabelle Guyon, Steve Gunn, Masoud Nikravesh, Lofti Zadeh (Eds.), extraccin de
caractersticas, fundamentos y aplicaciones. Los estudios en Tolerancia y Soft Computing.
. Physica-Verlag, Springer [Web Link]
Ver tambin:
Isabelle Guyon, et al, 2007. Mtodos de referencia competitivos establecen nuevas
normas para la seleccin de caractersticas de referencia NIPS 2003. Pattern Recognition
Letters 28 (2007) 1438-1444.
Cita de pedidos:
DGP2 - El Programa de 2014-02-12
Segunda Generacin de
datos Conjunto de datos
Resumen : Genera los dominios de aplicacin sobre la base de parmetros especficos,
la cantidad de caractersticas, y la proporcin de positivos a negativos ejemplos
N
Conjunto de datos Datos- Nmero de
/ rea: N/A
Caractersticas: Generador instancias:
A
N
Real / Fecha Donado N/A
A
N
Valores Nmero de
Tareas asociadas: N/A / 9932
A
Fuente:
Powell Benedicto
Universidad de Illinois en Urbana
inductivo Learning Group
Beckman Institute
Urbana, IL 61801
tel: (217) 244-1620
E-mail: Benedict '@' cs.uiuc.edu

DGP / 2 es una mejora de DGP. Permite para parmetros adicionales y automatiza el
ajuste del parmetro de desviacin estndar, que no se hace fcilmente por el usuario. En
particular, DGP / 2 permite la variacin en el nmero de casos, el nmero de
caractersticas, la gama de valores de caractersticas, el nmero de picos, el porcentaje de
casos positivos deseados y un radio alrededor de los picos que estos casos estarn dentro
de ( esto controla la densidad de ejemplo, y determina el valor de la desviacin estndar
para la funcin de distribucin normal).
N/A
Benedict, PA, el uso de datos sinttico en Dinmica sesgo de seleccin, Proc. De las
aplicaciones aeroespaciales sexto de Artificial Intelligence Conference, Dayton, Ohio,
octubre de 1990. Ehrenfeucht, A., Haussler, D., Kearns, M, Valiant, L. Un general cota
inferior del nmero de ejemplos necesarios para el aprendizaje. Proc. Teora
Computacional de Aprendizaje, 1988, 139-154. [Web Link] Kononenko, I., Bratko, I.,
Roskar, E., Los experimentos en aprendizaje automtico de las Reglas de Diagnstico
Mdico (Ljubljana, Yugoslavia: Jozef Stefan Institute, 1984). [ Web Link] Michalski, RS,
Mozetic, I., Hong, J., Lavrac, N., El Multiusos Incremental Learning System AQ15 y su
aplicacin de pruebas a Tres Dominios Mdico, Proc. De la V Conferencia Nacional sobre
Inteligencia Artificial, Pp. 1041-1045, Morgan Kaufman, Los Altos, Ca, 1986. [Web Link]
Mitchell, TM La necesidad de sesgos en las generalizaciones de aprendizaje. Informe
Tcnico CBM-TR-117, mayo de 1980. [Web Link] Rendell, LA, una nueva base para los
sistemas de aprendizaje Espacio de Estado y una implementacin exitosa, Inteligencia
Artificial 20 (1983): 369-392. [Web Link] Rendell, LA , Cho, HH El efecto del carcter de
datos sobre el aprendizaje de conceptos empricos en Proc. Quinta Conferencia
Internacional sobre Aplicaciones de la Inteligencia Artificial, de marzo de 1989. [Web Link]
Rendell, LA, Benedict, PA, Cho, HH, Seshu, Mejorar el diseo de los sistemas de reglas
de aprendizaje, Actas de la Sptima Conferencia Internacional sobre Sistemas Expertos y
su Aplicaciones, junio de 1988. Rendell, L., Seshu, R., Aprender conceptos difciles
mediante la induccin constructiva:. marco y razn de ser, la Inteligencia Computacional,
1990 [Web Link] Rendell, LA, Seshu, RM, Tcheng, DK Capas aprendizaje de conceptos y
la gestin de sesgo dinmicamente variable. . Actas de la Dcima Conferencia
Internacional Conjunta sobre Inteligencia Artificial, 1987 [Web Link] Russell, S., Grosof, B.
sesgo declarativa: Una visin general, en P. Benjamin (Ed.), La transformacin de la
representacin y la inductiva Bias. Kluwer Academic Press, 1990. [Web Link] Utgoff, PE
Shift de sesgo para el aprendizaje de conceptos inductivo. Aprendizaje Automtico:. Un
enfoque de Inteligencia Artificial, 1986, III [Web Link] Utgoff, PE, Mitchell, TM, Adquisicin
de sesgo apropiado para el aprendizaje de conceptos inductivo, Proc. Conferencia
Nacional de Inteligencia Artificial, 1982. [Web Link]
Cita de pedidos:
Diabetes Data Set 2014-02-12
Resumen : Este conjunto de datos de la diabetes es de AIM '94
Conjunto de datos Multivariado, Nmero de N/
rea: Vida
Caractersticas: Time-Series instancias: A
Caractersticas del Categrico, Nmero de Fecha

20 N/A
atributo: Integer atributos: Donado
Nmero de
Valores N/
perdidos? A
Accesos:
Fuente:
Michael Kahn, MD, PhD, de la Universidad de Washington, St. Louis, MO

Registros de los pacientes de la diabetes se obtuvieron a partir de dos fuentes: un
dispositivo y papel automtica de registros electrnicos de registro. El dispositivo
automtico tiene un reloj interno para la hora de eventos, mientras que los registros en
papel slo proporcionan ranuras en "tiempo lgico" (desayuno, almuerzo, cena, la hora de
acostarse). Para los registros en papel, se les asign un horario fijo para el desayuno
(08:00), almuerzo (12:00), cena (18:00), y la hora de acostarse (22:00). Por lo tanto los
registros en papel tienen tiempos de grabacin uniforme ficticios mientras que los
documentos electrnicos tienen marcas de tiempo ms realistas. archivos diabetes
consisten en cuatro campos por registro. Cada campo est separado por un tabulador y
cada registro est separado por un salto de lnea. Nombres y formato de archivo: (1)
Fecha en formato DD-MM-AAAA (2) Tiempo en XX: YY formato (3) Cdigo (4) Valor del
campo Cdigo es descifrado de la siguiente manera: 33 = dosis de insulina regular la dosis
de insulina NPH 34 = 35 = dosis insulina ultralenta 48 = medicin de glucosa en sangre no
especificada 57 = medicin de glucosa en sangre no especificada 58 = Antes del
desayuno medicin de glucosa en sangre 59 = Post-desayuno medicin de glucosa en
sangre 60 = Pre-almuerzo de medicin de glucosa en sangre 61 = Post-almuerzo de
medicin de glucosa en sangre 62 = medicin de glucosa en sangre antes de la cena 63 =
Post-cena medicin de glucosa en sangre 64 = medicin de glucosa en sangre pre-snack
65 = sntomas de hipoglucemia 66 = tpica ingesta de alimentos 67 =-Ms de lo habitual
comida ingestin 68 = Menos de lo habitual la ingestin de la comida 69 = actividad tpica
de ejercicio = 70-Ms de lo habitual actividad de ejercicio 71 = actividad-Menos de lo
normal ejercicio 72 = evento especial no especificada
Archivos diabetes consisten en cuatro campos por registro. . Cada campo est separado
por un tabulador y cada registro est separado por un salto de lnea Los nombres y
formato de archivo: (1) Fecha en formato DD-MM-AAAA (2) Tiempo en XX: YY formato (3)
Cdigo (4) Valor
N/A

. Jeroen Eggermont y Joost N. Kok y Walter A. Kosters Programacin Gentica para la
clasificacin de los datos: la particin del espacio de bsqueda . SAC. 2004. [ Ver
Contexto ]. Zhi-Hua Zhou y Jiang Yuan. NeC4.5: Neural Ensemble Based C4.5 . IEEE
Trans. Conocimiento. Datos Eng, 16. 2004. [ Ver Contexto ]. Prem Melville y Raymond J.
Mooney. conjuntos diversos para el aprendizaje activo . ICML. 2004. [ Ver Contexto ].
Michael L. Raymer y Travis E. Doom y Leslie A. Kuhn y William F. Punch. Descubrimiento
de conocimiento en bases de datos mdicas y biolgicas utilizando un clasificador de
Bayes / algoritmo evolutivo hbrido . Transacciones de IEEE en Sistemas, Hombre y
Ciberntica, parte B, de 33 aos. 2003. [ Ver Contexto ]. Eibe Frank y Mark Hall.
estimadores de probabilidad Visualizacin de clase . PKDD. 2003. [ Ver Contexto ]. Zhihua
Zhang y James T. Kwok y Dit-Yan Yeung. paramtrico Distancia Mtricas aprendizaje con
informacin de la etiqueta . IJCAI. 2003. [ Ver Contexto ]. Ilya Blayvas y Ron Kimmel.
multirresolucin Aproximacin para la Clasificacin . CS Dept. Technion. 2002. [ Ver
Contexto ]. Peter Sykacek y Stephen J. Roberts. Clasificacin de adaptacin por
Variational Kalman filtrado . PNI. 2002. [ Ver Contexto ]. Kristin P. Bennett y Ayhan Demiriz
y Richard Maclin. Explotar los datos no marcados en los mtodos de conjunto . KDD.
2002. [ Ver Contexto ]. Marina Skurichina y Ludmila Kuncheva y Robert PW Duin.
Embolsado y impulso para el clasificador ms cercano Mean: Efectos del tamao de la
muestra sobre la diversidad y precisin . Sistemas Clasificadores mltiples. 2002. [ Ver
Contexto ]. Krzysztof Krawiec. Gentica de construccin a base de programacin de
funciones para las tareas de aprendizaje automtico y Descubrimiento de Conocimiento .
Instituto de Ciencias de la Computacin, Universidad Tecnolgica de Poznan. 2002. [ Ver
Contexto ]. Jochen Garcke y Michael Griebel y Michael Tes. Minera de datos con Sparse
Grids . Informtica, 67. 2001. [ Ver Contexto ]. Pedro L. Hammer y Alexander Kogan y
Bruno Simeone y Sandor Szedm'ak. R utcor Investigacin I nforme . Rutgers Centro de
Investigacin Operativa de la Universidad de Rutgers. 2001. [ Ver Contexto ]. Robert
Burbidge y Matthew Trotter y Bernard F. Buxton y Sean B. Holden. STAR - Sparsity travs
Rechazo automatizado . IWANN (1). 2001. [ Ver Contexto ]. Endre Boros y Peter Hammer
y Toshihide Ibaraki y Alexander Kogan y Eddy Mayoraz e Ilya B. Muchnik. Una Aplicacin
del anlisis lgico de datos . IEEE Trans. Conocimiento. Datos Eng, 12. 2000. [ Ver
Contexto ]. Simon Tong y Daphne Koller. Restricted Bayes clasificadores ptimo . AAAI /
IAAI. 2000. [ Ver Contexto ]. Marina Skurichina y Robert PW Duin. Impulsar en el anlisis
discriminante lineal . Sistemas Clasificadores mltiples. 2000. [ Ver Contexto ]. Chris
Drummond y Robert C. Holte. Explotar el Costo (In) sensibilidad de los criterios que parten
de rboles de decisin . ICML. 2000. [ Ver Contexto ]. Mark A. Hall. basada correlacin-
Seleccin de caractersticas para fabricacin discreta y numrico Machine Learning Class .
ICML. 2000. [ Ver Contexto ]. Kai Ming Ting y Ian H. Witten. Problemas en Stacked
Generalizacin . J. Artif. Intell. Res.. (JAIR, 10. 1999. [ Ver Contexto ]. Stavros J.
Perantonis y Vassilis Virvilis. Caracterstica de entrada Extractor de mltiples capas
Perceptrones Uso Principal Supervisado Anlisis de Componentes . Neural Processing
Letters, 10. 1999. [ Ver Contexto ]. Art B. Owen. vecinos tubulares para la regresin y
clasificacin . Universidad de Stanford. 1999. [ Ver Contexto ]. Iaki Inza y Pedro
Larraaga y Basilio Sierra y Ramn Etxeberria y Jos Antonio Lozano y Jos Manuel
Pea. Representar el comportamiento de los algoritmos de aprendizaje de clasificacin
supervisada por redes bayesianas . Patrn Recognition Letters, 20. 1999. [ Ver Contexto ].
Thomas G. Dietterich. Prueba estadstica aproximada para la comparacin de clasificacin
supervisada algoritmos de aprendizaje . Neural Computation, 10. 1998. [ Ver Contexto ].
Huan Liu y Rudy Setiono. Caracterstica Transformacin y Decisin multivariado rbol de
induccin ... Science Discovery 1998 [ Ver Contexto .] Wojciech Kwedlo y Marek
Kretowski. Descubrimiento de reglas de decisin de las bases de datos: un enfoque
evolutivo PKDD.. 1998. [ Ver Contexto ]. Jan C. Bioch y D. Meer y Rob Potharst. rboles
de decisin bivariadas . PKDD. 1997. [ Ver Contexto ]. Kristin P. Bennett y Erin J.
Bredensteiner. Un mtodo paramtrico Optimizacin de Aprendizaje Automtico .
INFORMA Journal on Computing, 9. 1997. [ Ver Contexto ]. . Seleccin Prototipo para
compuestos Clasificadores vecino ms cercano . Departamento de Informtica
Universidad de Massachusetts. 1997. [ Ver Contexto ]. Jennifer A. Azul y Kristin P.
Bennett. Hybrid Extreme Point Bsqueda Tab . Departamento de Ciencias Matemticas
del Instituto Politcnico Rensselaer. 1996. [ Ver Contexto ]. Peter D. Turney. sensibles a
los costes de clasificacin: evaluacin emprica de una Decisin gentico hbrido Tree
Induccin algoritmo . CoRR, csAI/9503102. 1995. [ Ver Contexto ]. Lois C. Boggess
Andrew Watkins y Jon Timmis y. Sistema Inmune Artificial Reconocimiento (AIRS): Un
ImmuneInspired supervisadas algoritmo de aprendizaje . (Abw5, jt6@kent.ac.uk)
Laboratorio de Computacin de la Universidad de Kent. [ Ver Contexto ]. Stefan R uping.
Un mtodo simple para estimar las probabilidades condicionales para SVMs .
Departamento CS, AI Unidad de la universidad de Dortmund. [ Ver Contexto ]. Adil M.
Bagirov y John Yearwood. Un nuevo algoritmo de optimizacin no lisos para la agrupacin
. Centro de Informtica y Optimizacin Aplicada de la Facultad de Informtica y Ciencias
Matemticas de la Universidad de Ballarat. [ Ver Contexto ]. Adil M. Bagirov y Alex
Rubinov y AN Soukhojak y John Yearwood. clasificacin de datos no supervisada y
supervisada a travs de no lisos y optimizacin global . Escuela de Tecnologa de la
Informacin y Ciencias Matemticas de la Universidad de Ballarat. [ Ver Contexto ]. Rudy
Setiono y Huan Liu. Selector de funciones neuronales de la red . Departamento de
Singapur. [ Ver Contexto ]. Charles Campbell y Nello Cristianini. simple algoritmos de
aprendizaje para las Mquinas de Vectores Soporte Entrenamiento . Departamento de
Ingeniera Matemtica. [ Ver Contexto ]. Michael Lindenbaum y Sal Markovitch y Dmitry
Rusakov. Muestreo Selectivo Usando Random Campo Modelado . [ Ver Contexto ]. Prem
Melville y Raymond J. Mooney. Actas de la 21 Conferencia Internacional sobre
Aprendizaje Automtico . Departamento de Ciencias de la Computacin. [ Ver Contexto ].
Fran ois Poulet. Cooperacin entre algoritmos automticos, algoritmos interactivos y
herramientas de visualizacin de Visual Data Mining . ESIEA Recherche. [ Ver Contexto ].
Wl odzisl / aw Duch y Rudy Setiono y Jacek M. Zurada. mtodos de inteligencia
computacional para la comprensin de datos basado en normas . [ Ver Contexto ]. Liping
Wei y Russ B. Altman. y un sistema automatizado para la generacin de perfiles de
Enfermedades comparativo hacer diagnsticos . Seccin de Informtica Universidad de
Stanford Escuela de Medicina de Medicina, MSOB X215. [ Ver Contexto ]. Ilya Blayvas y
Ron Kimmel. PAPEL INVITADO Nmero especial sobre el anlisis multirresolucin
Machine Learning a travs de multirresolucin aproximacin . [ Ver Contexto ]. YongSeog
Kim y W. Nick Street y Filippo Menczer. Optimal Ensemble de construccin a travs de
Meta-evolutivos Conjuntos . Sistemas de Informacin Empresarial, Universidad del Estado
de Utah. [ Ver Contexto ]. Krzysztof Grabczewski y Wl / odzisl / aw Duch. LA
SEPARACIN DE CRITERIO VALOR SPLIT . Departamento de Mtodos
Computacionales, Universidad Nicolaus Copernicus. [ Ver Contexto ]. Ilya Blayvas y Ron
Kimmel. Clasificacin eficiente a travs de multirresolucin Training Set aproximacin . CS
Dept. Technion. [ Ver Contexto ]. Hussein A. Abbass. Pareto Neuro-Evolution:
Construyendo Ensemble de redes neuronales mediante la optimizacin multi-objetivo .
Vida Artificial y Robtica Adaptativa (ALAR) Laboratorio de la Facultad de Tecnologa de la
Informacin e Ingeniera Elctrica, de Australia Academia de Defensa de la Fuerza. [ Ver
Contexto ]. Matthias Scherf y W. Brauer. Seleccin de caractersticas por medio de un
enfoque de funciones de ponderacin . GSF - Centro Nacional de Investigacin del Medio
Ambiente y de la Salud. [ Ver Contexto ]. Lena Kallin. receptor caracterstica de
funcionamiento (ROC) anlisis de evaluacin de efectos discriminance entre los sistemas
de soporte de decisiones . Contenido 1 La teora de curvas de caractersticas operativas
del receptor 5. [ Ver Contexto ]. Rong-En Fan y P. Chen-H y C-J Lin. conjunto de trabajo
Seleccin Uso de la Informacin del Segundo Orden de Formacin SVM . Departamento
de Ciencias de la Computacin e Ingeniera de la Informacin de la Universidad Nacional
de Taiwn. [ Ver Contexto ]. Alexander K. Seewald. Disertacin hacia la comprensin de
apilamiento Los estudios de un general Ensemble Aprendizaje Esquema ausgefuhrt zum
Zwecke der Erlangung des akademischen Grados eines der Doktors technischen
Naturwissenschaften . [ Ver Contexto ]. Lawrence O. Hall y Nitesh V. Chawla y Kevin W.
Bowyer. Combinando rboles de decisin aprendidas en paralelo . Departamento de
Ciencias de la Computacin e Ingeniera, ENB 118 University of South Florida. [ Ver
Contexto ]. Ahmed Hussain Khan y Cuidados Intensivos. Multiplicador libres Feedforward
Redes . 174. [ Ver Contexto ].
Cita de pedidos:
Documentar comprension 2014-02-12
Data Set
Resumen : Cinco conceptos, expresados como predicados, que se pueden aprender
Conjunto de datos N/ Nmero de N/
rea: N/A
Caractersticas: A instancias: A
Caractersticas del N/ Nmero de N/ 1994-

Fecha Donado
atributo: A atributos: A 11-01
N/ Valores Nmero de Web

Tareas asociadas: No 12740
A perdidos? Accesos:
Fuente:
Propietario: Donato Malerba Dipartimento di Informatica de la Universidad de Bari a travs
de Orabona 4 70126 Bari - Italia : +39 - 80-5443269 Fax: +39 - 80-5443196 malerbad '@'
vm.csata.it Donante: Donato Malerba

En la experimentacin, se consideraron 30 documentos de una sola pgina. Son copias de
las cartas enviadas por Olivetti. Seis ensayos se llevaron a cabo con seleccin aleatoria de
20 documentos para el conjunto de entrenamiento y 10 para el equipo de prueba. Cada
documento se identifica con una letra (A a Z) o un par de letras (AA, AB, AC, AD).
documentos de formacin Trial 1 ABCDEFGHIJKLMNOPQRST 2 CDEFGHIMPRSVXYWZ
AA AB AC AD 3 CDEFGHIJKPRSTUVYW AA AB AC 4 ABCDEFGJLMNOPQTVXZ AB AD
5 ABEFGIJKMNOPQRTVXZ AA AD 6 ABCDEFGIJMQSTXYZ AA AB AC AD
N/A
Malerba D. Comprensin del documento: un enfoque de aprendizaje de la mquina.
Informe Tcnico, Proyecto Esprit 5203 INTREPID, 4 de marzo de 1993. [Web Link] F.
Esposito, Malerba D., Semeraro G., y Pazzani M. A Machine Learning Approach to
Document Entendimiento. Proc. Segundo Int.. Taller sobre Multiestrategia Learning,
Harpers Ferry, Virginia Occidental, pp 276-292, mayo de 1993. [Web Link] F. Esposito,
Malerba D., y Semeraro G. Aprendizaje reglas contextuales en Lgica de Primer Orden.
Proc. 4 Taller Italiano sobre Aprendizaje Automtico (GAA93), Milan, Italia, pp 111-127,
junio de 1993. Esposito F., Malerba D., y Semeraro G. Automatizado Adquisicin de
Reglas para la comprensin del documento. Proc. de la segunda Int.. Conf. el anlisis de
documentos y reconocimiento, Tsukuba Science City, Japn, pp 650-654, octubre de
1993. [Web Link] Semeraro G., F. Esposito, y Malerba D. Aprendizaje reglas contextuales
para la comprensin del documento. Proc. 10a IEEE Conf. en Inteligencia Artificial para
aplicaciones. San Antonio, Texas, pp 108-115, marzo de 1994. [Web Link] F. Esposito,
Malerba D., y Semeraro G. Multiestrategia Aprendizaje para el reconocimiento de
documentos. Inteligencia Artificial Aplicada, 8, pp 33-84, 1994 [Web Link]
Cita de pedidos:
Dodgers Loop Sensor Data 2014-02-12
Set
Resumen : los datos del sensor de bucle se recogi para el Glendale en la rampa para la
101 Norte Autopista de Los ngeles
50400 rea: N/A

3
Nmero de
Valores
Tareas asociadas: N/A S Web 24937
perdidos?
Accesos:
Fuente:
Creador y Mantenedor:
Jon Hutchins
UCI johutchi '@' uci.edu donantes: Pems

Estos datos del sensor de bucle se recogi para el Glendale en la rampa para la 101 Norte
Autopista de Los ngeles. Est lo suficientemente cerca al estadio a ver el trfico inusual
despus de un partido de los Dodgers, pero no tan cerca y muy utilizado por el trfico
juego de modo que la seal para el trfico adicional es demasiado obvio. NOTA: Esta es
una rampa cerca del estadio de manera evento trfico comienza en o cerca del final de la
hora del evento. Las observaciones fueron tomadas durante 25 semanas, 288 segmentos
de tiempo por da (agregados de recuento 5 minutos). El objetivo es predecir la presencia
de un partido de bisbol en el estadio de los Dodgers
2. Tiempo: (H) H: MM (hora militar)
3. Cuenta: Nmero de coches medidos para los ltimos cinco minutos
filas: Cada rebanada de tiempo de cinco minuto se representa mediante una fila Para
archivo de eventos:. 1. Fecha: MM / DD / AA 2. Comience hora del evento: HH: MM: SS
(militar) 3. Hora del evento de finalizacin: HH: MM: SS (militar) 4. Atencin del juego 5.
Equipo visitante 6. W / L puntuacin
"La deteccin de eventos de adaptacin a los procesos de Poisson variables en el tiempo"
A. Ihler, J. Hutchins, y P. Smyth
Actas de la 12 Conferencia ACM SIGKDD (KDD-06), agosto de 2006.
Cita de pedidos:
Estas mediciones del sensor de bucle se obtuvieron del Sistema de Medicin del Desempeo
Autopista (PEMS), " [Web Link] "Escriba esta cita si tiene previsto utilizar esta base de datos.
Dorothea Data Set 2014-02-12
Resumen : DOROTHEA es un conjunto de datos de descubrimiento de frmacos. Los
compuestos qumicos representados por las caractersticas moleculares estructurales
deben clasificarse como activo (unin a trombina) o inactivo. Este es uno de los
conjuntos de datos 5 del desafo de seleccin de caractersticas NIPS 2003.

Entero 100000
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Propietarios originales
del conjunto de datos con la que se cre DOROTHEA es una de las KDD (Knowledge
Discovery en Minera de datos) de la Copa de 2001. El conjunto de datos y documentos de
los ganadores del concurso original, estn disponibles en: http://www.cs.wisc.edu/ ~
dpage/kddcup2001 / . DuPont Farmacuticos, nos ayud este conjunto de datos para la
competicin KDD Cup 2001. Todas las publicaciones que se refieren a anlisis de este
conjunto de datos deben reconocer DuPont Pharmaceuticals Research Laboratories y
KDD Cup 2001. b. Donante de base de datos Esta versin de la base de datos estaba
preparado para la variable y la funcin de seleccin de referencia NIPS 2003 por Isabelle
Guyon, 955 Creston Road, Berkeley, CA 94708, EE.UU. ( isabelle '@' clopinet.com ).

Las drogas son tpicamente molculas orgnicas pequeas que logran su actividad
deseada mediante la unin a un sitio diana en un receptor. El primer paso en el
descubrimiento de un nuevo frmaco es por lo general para identificar y aislar el receptor
al que se debe unir, seguido por pruebas de muchas molculas pequeas por su
capacidad para unirse al sitio de destino. Esto deja a los investigadores la tarea de
determinar lo que separa a los compuestos (vinculantes) activos de los inactivos (no
vinculantes) queridos. Tal determinacin puede ser utilizado en el diseo de nuevos
compuestos que no slo se unen, pero tambin han requerido todas las otras propiedades
de un medicamento (solubilidad, la absorcin oral, la falta de efectos secundarios, la
duracin de accin apropiado, toxicidad, etc) .
Los datos originales fueron modificados para el propsito de la seleccin de caractersticas
desafo. En particular, hemos aadido una serie de caractersticas distractor llamado
'sondas' que no tienen ningn poder predictivo. El orden de las caractersticas y los
patrones fueron aleatorizados. DOROTHEA - ex positiva. - Ex Negativo. - Total Training
ajustado - 78 - 722-800 Validacin set - 350 - 34-316 Kit de ensayo - 78 - 722-800 All - 190
- 1760-1950 Mapeamos compuestos activos con el valor objetivo 1 (ejemplos positivos) y
compuestos inactivos en el valor objetivo -1 (ejemplos negativos). Nmero de variables /
caractersticas / atributos: Reales: 50000 Sondas: 50.000 totales: 100,000 Este conjunto
de datos es uno de los cinco conjuntos de datos utilizados en el desafo de seleccin de
caractersticas NIPS 2003. Nuestra pgina web [Web Link] est todava abierto para la
presentacin despus de la exposicin. Informacin acerca de otros problemas conexos
se encuentran en: [Web Link] . El paquete CLOP incluye cdigo de ejemplo para procesar
estos datos: [Web Link] . Todos los detalles sobre la preparacin de los datos se
encuentran en nuestro informe tcnico: Diseo de experimentos para la seleccin de
variables de referencia, Isabelle Guyon, julio de 2003, NIPS 2003 [Web Link] (tambin
incluido en el archivo de conjunto de datos). Dicha informacin se pondr a disposicin
slo despus de la final del desafo. Los datos se dividen en entrenamiento, validacin y
prueba. Valores objetivo slo se proporcionan para los 2 primeros sets. Los resultados de
rendimiento conjunto de pruebas se obtienen mediante la presentacin de resultados de la
prediccin a: [Web Link] . Los datos estn en el siguiente formato: dataname.param: Los
parmetros y las estadsticas sobre los datos dataname.feat: Identidades de las
caractersticas (retenidos, para evitar sesgar funcin . seleccin) dataname_train.data:
conjunto de entrenamiento (una matriz binaria escasa, patrones de lneas, las
caractersticas de las columnas:. se proporcionan el nmero de las caractersticas que no
son cero) dataname_valid.data:. conjunto de validacin dataname_test.data:. prueba de
conjunto dataname_train . etiquetas: Etiquetas (valores de verdad de las clases) para
ejemplos de entrenamiento. dataname_valid.labels: Definir etiquetas de Validacin
(retenidos durante el punto de referencia, pero proporcionadas ahora).
dataname_test.labels: Test set etiquetas (retenciones, por lo que los datos todava pueden
ser uso como punto de referencia).
No proporcionamos informacin de atributos para evitar sesgar la seleccin de
caractersticas.
caractersticas, fundamentos y aplicaciones. Los estudios en Tolerancia y Soft Computing.
. Physica-Verlag, Springer [Web Link]
Ver tambin:
Isabelle Guyon, et al, 2007. Mtodos de referencia competitivos establecen nuevas
normas para la seleccin de caractersticas de referencia NIPS 2003. Pattern Recognition
Letters 28 (2007) 1438-1444.
Cita de pedidos:
Dresses_Attribute_Sales 2014-02-12
Data Set
Resumen : Este conjunto de datos Atributos de vestidos y sus recomendaciones
contienen de acuerdo a sus sales.Sales estn monitorear en base a das alternos.

N/A 13 19/02/2014
Nmero de
Tareas asociadas: S Web 373
Accesos:
Fuente:
Muhammad Usman y Adeel Ahmed, usman.madspot '@' gmail.com adeel.ahmed92 '@'
gmail.com , la Universidad del Aire, estudiantes de la Universidad del Aire.

Estilo, Precio, Rating, Tamao, Estacin, Escotado, sleevelength, waiseline, Material,
FabricType, Decoracin, Diseo, Tipo, Recomendacin son atributos en el conjunto de
datos.
Estilo: etc FabricType: shafoon, dobby, popline, satn, de punto, jersey, franela, pana, etc
Decoracin: apliques, abalorios, arco, botn, en cascada, cristal, cubierto, embroridary,
plumas, flores, etc Tipo de Patrn: slido, animal, punto, leapard etc Recomendacin: 0,1
Nulo
Cita de pedidos:
Si usted no tiene ninguna peticin de citas especiales, por favor, deje este campo en blanco.
Los genes de E. coli 2014-02-12
conjunto de datos
Resumen : Los datos que da caractersticas de cada uno (gen potencial) ORF en el
genoma de E. coli. Secuencia, se proporcionan homologa (similitud con otros genes) y la
informacin estructural y la funcin (si se conoce).
Conjunto de datos Nmero de N/
Relacional rea: Vida
Caractersticas: instancias: A

N/A
Valores Nmero de
Tareas asociadas: N/A S 16890
Fuente:
Propietario original y los donantes: Ross D. King Departamento de Ciencias de la
Computacin, Universidad de Gales, Aberystwyth, SY23 3DB, Gales rdk '@' aber.ac.uk
http://users.aber.ac.uk/rdk

Los datos fueron recolectados de varias fuentes, incluyendo GenProtEC ( [Web Link] ) y
SWISSPROT ( [Web Link] ). Estructura de prediccin fue hecha por PROF ( [Web Link] ).
La bsqueda de homologas fue proporcionada por PSI-BLAST ( [Web Link] ). Los datos
estn en formato de registro de datos. Los valores perdidos no son explcitas, pero
algunos genes tienen ms relaciones que otros. E. coli genes (ORF) estn relacionados
entre s por el ecoli_to_ecoli predicado (EcoliNumber, E-valor, Psi-blast_iteration). Se
relacionan con otros (SWISSPROT) las protenas por el e_val predicado (AccNo, E-valor).
Todos los datos de un solo gen (ORF) se encierra entre delimitadores de la forma: .
comenzar (modelo (EcoliNumber)) . final (modelo (EcoliNumber)) Las clases funcionales
de genes estn en una jerarqua. Ver [Web Link] (nota: las clases pueden haber cambiado
desde la recoleccin de datos original). Hay dos archivos de registro de datos:
ecoli_data.pl y ecoli_functions.pl 1. ecoli_functions.pl Listas clases y funciones ORF. Las
lneas son de la siguiente forma: . clase (5,1,1, "funciones relacionadas con Colicina ') .
clase (5,1, 'elementos Lateralmente acquirred') . clase (5, 'Extracromosmica') Los
argumentos son hasta 3 nmeros (que describen la clase de hasta 3 niveles diferentes),
seguido de una descripcin de la clase string. Por ejemplo: . funcin (ecoli210, 7,0,0,
'b0217', 'aminopeptidasa putativo') Argumentos son varios ORF, exactamente 3 nmeros
de clase, el nombre de genes (o Blattner nmero si no el nombre de genes), descripcin
ORF. 2. ecoli_data.pl de datos para cada ORF (gen) est delimitada por comenzar
(modelo (ecoliX)). final (modelo (ecoliX)). donde X es el nmero de ORF. Otros predicados
son los siguientes (ejemplos): ecoli_orf (ecoliX). % X es ORF nmero ecoli_mol_wt
(176624.1). % De flotacin ecoli_theo_pI (5,81). % De flotacin ecoli_atomic_comp (c,
7940). % {C, H, N, O, s}, int ecoli_aliphatic_index (69,57). % De flotacin ecoli_hydro (-
0.549). % De flotante sec_struc (1, C, 2). % Int (inicio), {a, b, c}, int (longitud)
sec_struc_coil (1,2). % Int (inicio), int (longitud) sec_struc_beta (1,5). % Int (inicio), int
(longitud) sec_struc_alpha (1,7). % Int (inicio), int (longitud) sequence_length (255). % Int
amino_acid_ratio (a, 8,9). % Amino_acid_char, flotador amino_acids (ecoli3013, a, 70). %
ORF_num, amino_acid_char, int amino_acid_pair_ratio (A, A, 9,0). % Amino_acid_char,
amino_acid_char, flotar amino_acid_pairs (A, A, 7). % Amino_acid_char, amino_acid_char,
int ecoli_to_ecoli (1170,1.0 e-105, 5). % ORF_num, doble (e-valor), int (iteracin) e_val
(o42893, 2.0e-99). % Accession_number, doble (e-valor) psi_iter (o42893, 5). %
Accession_number, int (iteracin) especie (p52494, 'candida_albicans__yeast_'). %
Accession_number, string mol_wt (p52494, 104022). % Accession_number, int
clasificacin (p52494, cndida). % Accession_number, nombre de palabras clave (p25195,
"plsmido"). % Accession_number, string
N/A
Rey, R. y Karwath, A. y Clare, A. y Dehaspe, L. (2001). La utilidad de diferentes
representaciones de secuencia de protenas para predecir la clase funcional,
bioinformtica, 17 (5), pginas 445 -. 454 [Web Link]

Aik Choon Tan y David Gilbert. An Empirical Comparacin de las tcnicas de aprendizaje
automtico supervisado en Bioinformtica . APBC. 2003. [ Ver Contexto ]. Mukund
Deshpande y George Karypis. Evaluacin de Tcnicas para la clasificacin de secuencias
biolgicas . PAKDD. 2002. [ Ver Contexto ]. Mark A. Hall. Departamento de Ciencias de la
Computacin Hamilton, Nueva Zelandia basada en correlacin Seleccin de
caractersticas para el Aprendizaje de la mquina . Doctor en Filosofa en la Universidad
de Waikato. 1999. [ Ver Contexto ]. Paul Horton y Kenta Nakai. mejor prediccin de la
protena celular Sitios de localizacin con el que k vecinos ms cercanos clasificador .
ISMB. 1997. [ Ver Contexto ]. . Seleccin Prototipo para compuestos Clasificadores vecino
ms cercano . Departamento de Informtica Universidad de Massachusetts. 1997. [ Ver
Contexto ]. Gaurav Marwah y Lois C. Boggess. Artificiales sistemas inmunolgicos para la
clasificacin: algunas cuestiones . Departamento de Ciencias de la Universidad Estatal de
Mississippi ordenador. [ Ver Contexto ]. Lois C. Boggess Andrew Watkins y Jon Timmis y.
Sistema Inmune Artificial Reconocimiento (AIRS): Un ImmuneInspired supervisadas
algoritmo de aprendizaje . (Abw5, jt6@kent.ac.uk) Laboratorio de Computacin de la
Universidad de Kent. [ Ver Contexto ].
Cita de pedidos:
Restricciones de uso:
Derechos de Autor 2000 por RD King, A. Karwath, A. Clare, L. Dehaspe No hay restricciones de
uso de datos. Estos datos se proporcionan "tal cual" y sin ninguna garanta expresa o implcita,
incluyendo, pero sin limitarse a, las garantas implcitas de comerciabilidad y adecuacin para un
propsito en particular. Las solicitudes de citas: Por favor, cite King et al. (2000). Agradecimientos:
Este trabajo fue apoyado por las siguientes subvenciones: G78/6609, BIF08765, GR/L62849 y por
PharmaDM, Ambachtenlaan, 54 / D, B-3001 Leuven, Blgica
Teoras EBL Data Domain 2014-02-12
Set
Resumen : Las teoras de dominio pequea escala surtidos
rea: Ordenador
Caractersticas del N/ Nmero de N/

Fecha Donado N/A
atributo: A atributos: A
N/ Valores N/ Nmero de Web

A perdidos? A Accesos:
Fuente:
N/A

N/A
N/A
N/A
Cita de pedidos:
Ecoli Data Set 2014-02-12
Resumen : Esta informacin contiene sitios de localizacin de protenas

Real 8
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Creador y Mantenedor: Kenta Nakai Institue de Biologa Molecular y Celular de Osaka,
Universidad 1-3 Yamada-oka, Suita 565 Japn nakai '@' imcb.osaka-u.ac.jp
http://www.imcb.osaka-u. ac.jp / nakai / psort.html \ Donante: Paul Horton ( PaulH '@'
cs.berkeley.edu ) Ver tambin: base de datos de la levadura

Las referencias siguientes describen un predecesor de este conjunto de datos y su
desarrollo. Tambin dan resultados (no validados) para la clasificacin cruzada por un
sistema experto basado en reglas con la versin del conjunto de datos. Referencia:
"Sytem de Expertos para la prediccin de protenas lugares de localizacin de las
bacterias Gram-negativas", Kenta Nakai y Minoru Kanehisa, PROTENAS : Estructura,
Funcin, y Gentica 11:95-110, 1991. Referencia: "Una base de conocimientos para
predecir la localizacin de los sitios de protenas en clulas eucariotas", Kenta Nakai y
Minoru Kanehisa, Genmica 14:897-911, 1992.
1. Nombre de secuencia: nmero de acceso de la base de datos SWISS-PROT
2. mcg: mtodo de McGeoch de reconocimiento secuencia seal.
3. gvh: mtodo de Von Heijne de reconocimiento secuencia seal.
4. labio: peptidasa seal II score secuencia consenso de von Heijne. Atributo binario.
5. var: Presencia de carga en N-terminal de las lipoprotenas predichos. Atributo binario.
6. aac: Puntuacin de anlisis discriminante del contenido de aminocidos de las protenas
de membrana externa y periplsmicos.
7. alm1: Puntuacin de la membrana que abarca el programa de prediccin regin ALOM.
8. alm2: Puntuacin de programa ALOM despus de excluir las regiones de seal
escindibles putativo de la secuencia.
Paul Horton y Kenta Nakai. "Un Sistema de Clasificacin probabilstico para predecir los
Sitios Celular localizacin de las protenas". Sistemas Inteligentes de Biologa Molecular,
109-115. St. Louis, EE.UU. 1996. [Web Link]
Vassilis Athitsos y Stan Sclaroff. Impulsar Clasificadores vecino ms cercano para el
Reconocimiento multiclase . Universidad de Boston Computer Tech Ciencia. Informe n,
2004-006. 2004. [ Ver Contexto ]. Charles X. Ling y Qiang Yang y Jianning Wang y Zhang
Shichao. Los rboles de decisin con un coste mnimo . ICML. 2004. [ Ver Contexto ].
Xiaoyong Chai y Li Deng y Qiang Yang y Charles X. Ling. Prueba sensibles al coste
Clasificacin Naive Bayes . ICDM. 2004. [ Ver Contexto ]. Aik Choon Tan y David Gilbert.
An Empirical Comparacin de las tcnicas de aprendizaje automtico supervisado en
Bioinformtica . APBC. 2003. [ Ver Contexto ]. Mukund Deshpande y George Karypis.
Evaluacin de Tcnicas para la clasificacin de secuencias biolgicas . PAKDD. 2002. [
Ver Contexto ]. Huajie Zhang y Charles X. Ling. un algoritmo mejorado de aprendizaje
para Nave Bayes aumentado . PAKDD. 2001. [ Ver Contexto ]. Mark A. Hall.
Departamento de Ciencias de la Computacin Hamilton, Nueva Zelandia basada en
correlacin Seleccin de caractersticas para el Aprendizaje de la mquina . Doctor en
Filosofa en la Universidad de Waikato. 1999. [ Ver Contexto ]. Paul Horton y Kenta Nakai.
mejor prediccin de la protena celular Sitios de localizacin con el que k vecinos ms
cercanos clasificador . ISMB. 1997. [ Ver Contexto ]. . Seleccin Prototipo para
Universidad de Massachusetts. 1997. [ Ver Contexto ]. Chotirat Ann y Dimitrios Gunopulos.
Ampliacin de la Ingenuo clasificador bayesiano: Utilizacin de rboles de decisin para la
seleccin de caractersticas . Departamento de Ciencias de la Computacin de la
Universidad de California. [ Ver Contexto ]. Lois C. Boggess Andrew Watkins y Jon Timmis
y. Sistema Inmune Artificial Reconocimiento (AIRS): Un ImmuneInspired supervisadas
algoritmo de aprendizaje . (Abw5, jt6@kent.ac.uk) Laboratorio de Computacin de la
Universidad de Kent. [ Ver Contexto ]. Gaurav Marwah y Lois C. Boggess. Artificiales
sistemas inmunolgicos para la clasificacin: algunas cuestiones . Departamento de
Ciencias de la Universidad Estatal de Mississippi ordenador. [ Ver Contexto ].
Cita de pedidos:
Sanciones economicas Data 2014-02-12
Set
Resumen : La teora del dominio de las Sanciones Econmicas; Indocumentados
N
Conjunto de datos Domain- Nmero de
/ rea: Financiero
Caractersticas: Theory instancias:
A
N
N/A / N/A
A
N Nmero de
Valores
Tareas asociadas: N/A / Web 19862
perdidos?
A Accesos:
Fuente:
Michael Pazzani Pazzani '@' ICS.UCI.EDU

Creo que usted encontrar alguna documentacin limitada sobre la base de datos de Mike
en sus papeles. Su tesis sera una buena referencia (UCLA). Tal vez las pginas 152-153
en el procedimiento-EWSL 1988 deben ayudar con la comprensin del formato de datos.
Pginas 713-718 de IJCAI-1989 deben ayudar an ms.
N/A
N/A

De Sally Jo Cunningham. Dataset metadatos de catalogacin para las aplicaciones de
aprendizaje automtico y la investigacin . Departamento de Informtica Universidad de
Waikato. [ Ver Contexto ].
Cita de pedidos:
Base de datos de EEG Data 2014-02-12
Set
Resumen : Esta informacin surge de un gran estudio para examinar las correlaciones
EEG de predisposicin gentica al alcoholismo. Contiene medidas de 64 electrodos
colocados en el cuero cabelludo muestreada a 256 Hz
122 rea: Vida

4
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Propietario original: Henri Begleiter Neurodinmico Laboratory, Universidad Estatal de
Nueva York Centro de Salud de Brooklyn, Nueva York Donante: Lester Ingber POB 06440
Torre Sears de Chicago, IL 60606 Ingber '@' ingber.com http://www.ingber.com/

Estos datos se deriva de un gran estudio para examinar las correlaciones EEG de
predisposicin gentica al alcoholismo. . Contiene mediciones de 64 electrodos colocados
en el cuero cabelludo de sujetos que fueron muestreados a 256 Hz (poca de 3,9 ms)
durante 1 segundo Haba dos grupos de sujetos: alcohlico y control. Cada sujeto fue
expuesto a ya sea un nico estmulo (S1) o a dos estmulos (S1 y S2) que eran imgenes
de los objetos seleccionados del Snodgrass y Vanderwart imagen 1980 establecido.
Cuando se mostr que dos estmulos, que se presentaron ya sea en una condicin
adaptada donde S1 es idntica a S2 o en una condicin no-emparejado donde S1 difera
de S2. Aqu se presentan ejemplos de las parcelas de un control ( [Web de enlace] ) y
bebidas alcohlicas ( [Web Link] ) sujetos. Los grficos indican el voltaje, la hora y el canal
y se promedian ms de 10 ensayos para la condicin de estmulo nico. Haba 122 temas
y cada tema completaron 120 ensayos en los que se muestran los diferentes estmulos.
Las posiciones de los electrodos se encuentran en los sitios estndar (Electrodo estndar
Posicin de la nomenclatura, la Asociacin Americana del electroencefalogrfica 1990).
Zhang et al. (1995) describe en detalle el proceso de recoleccin de datos. Hay tres
versiones del conjunto de datos de EEG. 1. El Set Small Data El pequeo conjunto de
datos (smni97_eeg_data.tar.gz) figuran los datos de los 2 sujetos, a_co2a0000364 y
control alcohlica c_co2c0000337. Para cada uno de los 3 paradigmas a juego, c_1 (slo
una presentacin), c_m (partido de presentacin anterior) y C_n (no-match a la
presentacin anterior), se muestran 10 carreras. 2. Los datos de gran conjunto El conjunto
de datos de gran tamao (SMNI_CMI_TRAIN.tar.gz y SMNI_CMI_TEST.tar.gz) contiene
datos de 10 sujetos alcohlicos y 10 de control, con 10 carreras por objeto por paradigma.
Los datos de prueba utilizan los mismos 10 sujetos alcohlicos y 10 de control como con
los datos de entrenamiento, pero con 10 fuera de ejemplo se ejecuta por sujeto por
paradigma. 3. El conjunto completo de datos Este conjunto de datos contiene los 120
juicios por 122 sujetos. El conjunto de datos es de unos 700 MBytes. NOTA: Hay 17
ensayos con archivos vacos en co2c1000367. Algunos ensayos tienen avisos "ERR", por
ejemplo, la bsqueda / grep para "equivocarse" y ver "partido err S2" o "S2 nomatch errar",
etc
Cada ensayo se almacena en su propio archivo y aparecer en el siguiente formato. #
co2a0000364.rd # 120 ensayos, 64 Chans, 416 muestras de 368 muestras post_stim #
3.906000 msecs uV # S1 obj, ensayo 0 # FP1 chan 0 0 0 FP1 - 8.921 0 FP1 1 -8.433 -
2.574 0 FP1 2 0 FP1 3 5,239 0 FP1 4 11.587 0 14.028 FP1 5 ... Las primeras cuatro lneas
son informacin de encabezado. La lnea 1 contiene el identificador de objeto e indica si el
sujeto era un alcholic (a) o control (c) sin perjuicio de la cuarta carta. La lnea 4 se
identifican las condiciones que coinciden:. Un solo objeto mostrado (S1 obj), objeto 2 se
muestra en una condicin de coincidencia (match S2), y el objeto 2 se muestra en una
condicin de coincidencia no (S2 nomatch) Lnea 5 identifica el inicio de los datos FP1 de
sensor. Las cuatro columnas de datos son: el nmero de prueba, la posicin del sensor,
nmero de muestra (0-255), y el valor del sensor (en micro voltios).
XL Zhang, H. Begleiter, B. Porjesz, W. Wang, y A. Litke. (1995). "potenciales evocados
cognitivos durante las tareas de reconocimiento de objetos." Cerebro Research Bulletin.
Volumen 38. Nmero 6. Pginas 531-538. [Web Link] L. Ingber. (1997). Mecnica
estadstica de las interacciones neocortical: indicadores Momenta cannicas de
electroencefalografa. Physical Review E. Volumen 55. Nmero 4. Pginas 4578-4593.
[Web Link] L. Ingber. (1998). Mecnica estadstica de las interacciones neocortical:
entrenamiento y prueba los indicadores Momenta cannicas de EEG. Matemtica
Computer Modelling. Volumen 27. Nmero 3. Pginas 33-64. [Web Link] JG Snodgrss y M.
Vanderwart. (1980). "Un conjunto estandarizado de 260 fotografas: normas para el
acuerdo de nombramiento, la familiaridad y la complejidad visual." Revista de Psicologa
Experimental: Aprendizaje Humano y Memoria. Volumen 6. Pginas 174-215. [Web Link]
Peter Sykacek y Stephen J. Roberts. Clasificacin de adaptacin por Variational Kalman
filtrado . PNI. 2002. [ Ver Contexto ]. Stephen D. Bay y Dennis F. Kibler y Michael J.
Pazzani y Padhraic Smyth. KDD El Archivo de los grandes conjuntos de datos para la
investigacin de minera de datos y Experimentacin UCI . SIGKDD Exploraciones, 2.
2000. [ Ver Contexto ].
Cita de pedidos:
No existen restricciones de uso sobre los datos. Reconocimientos para estos datos deben hecha a
Henri Begleiter en el Laboratorio Neurodinmico en la Universidad Estatal del Centro de Salud de
Nueva York en Brooklyn. Parcelas son cortesa de Roger Gabriel.
EEG estado de ojos Data 2014-02-12
Set
Resumen : El conjunto de datos consta de 14 valores de EEG y un valor que indica el
estado de los ojos.
Multivariante,
Secuencial, 14980 rea: Vida
Time-Series
Caractersticas Nmero de Fecha

Entero, real 15 10/06/2013
del atributo: atributos: Donado
Nmero
Valores
Tareas asociadas: Clasificacin N/A de Web 5704
perdidos?
Accesos:
Fuente:
Oliver Roesler, it12148 '@' lehre.dhbw-stuttgart.de , Baden-Wuerttemberg Universidad
Estatal Cooperativo (DHBW), Stuttgart, Alemania

Todos los datos son de una medicin EEG continuo con el Emotiv EEG Neuroheadset. La
duracin de la medicin fue de 117 segundos. Se detect el estado del ojo a travs de una
cmara durante la medicin EEG y aadi ms tarde manualmente al archivo despus de
analizar los fotogramas de vdeo. '1 'Indica que el ojo cerrado y '0' Estado-ojo abierto.
Todos los valores estn en orden cronolgico con el primer valor medido en la parte
superior de los datos.
Proporcionar informacin acerca de cada atributo del conjunto de datos.
Proporcionar referencias a los documentos que han citado este conjunto de datos en el
pasado (si los hay).
Cita de pedidos:
El nio Data Set 2014-02-12

Resumen : El conjunto de datos contiene las lecturas oceanogrficos y meteorolgicos
de superficie tomados de una serie de boyas colocadas a lo largo del Pacfico ecuatorial.
Conjunto de datos Espacio- Nmero de
178080 rea: Fsico
Caractersticas: temporal instancias:
Caractersticas del Entero, Nmero de Fecha 1999-

12
atributo: real atributos: Donado 06-30
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Propietario original: Pacific Marine Environmental Laboratory Administracin Nacional
Ocenica y Atmosfrica del Departamento de Comercio de EE.UU.
http://www.pmel.noaa.gov/ Donante: Dr. Di Cocine Departamento de Estadstica de la
Universidad Estatal de Iowa dicook '@' iastate.edu http:// www.public.iastate.edu/ ~ dicook
/

Estos datos fueron obtenidos con la Atmsfera Tropical Ocean (TAO) de matriz que fue
desarrollado por el programa internacional (TOGA) Ocano Tropical atmsfera global. La
matriz TAO consiste en cerca de 70 boyas fondeadas que abarca el Pacfico ecuatorial,
que mide oceanogrfica y de superficie variables meteorolgicas crticos para mejorar la
deteccin, la comprensin y la prediccin de las variaciones climticas estacionales a
interanuales originarias de los trpicos, sobre todo los relacionados con el fenmeno de El
Nio / Oscilacin del Sur (ENOS) ciclos. Los amarres fueron desarrollados por National
Oceanic and (NOAA) Pacific Marine Environmental Laboratory de la Atmsfera (PMEL).
Cada amarre mide la temperatura del aire, humedad relativa, vientos de superficie, las
temperaturas superficiales del mar y la temperatura del subsuelo a una profundidad de
500 metros y unos pocos de una de las boyas miden las corrientes, las precipitaciones y la
radiacin solar. Los datos de la matriz, y ver las actualizaciones, se pueden ver en la web
en la siguiente direccin. El Nio / Oscilacin del Sur (ENSO) El ciclo de 1982 a 1983, el
ms fuerte del siglo, cre muchos problemas en todo el mundo. Partes del mundo, como
Per y los Estados Unidos experimentaron inundaciones destructivas del aumento de las
precipitaciones, mientras que las reas occidentales del Pacfico experimentaron la sequa
y los incendios de malezas devastadores. El ciclo ENOS no fue predicho ni detecta hasta
que estaba cerca de su pico. Esto pone de relieve la necesidad de un sistema de
observacin de los ocanos (es decir, la matriz TAO) para apoyar los estudios de gran
escala interacciones ocano-atmsfera en escalas de tiempo estacional a interanual. La
matriz TAO proporciona datos en tiempo real para los investigadores del clima, los centros
de prediccin meteorolgica y cientficos de todo el mundo. Previsiones para temperaturas
tropicales del Ocano Pacfico para uno o dos aos de antelacin se pueden hacer
usando los datos del ciclo ENOS. Estos forcasts son posibles debido a las boyas
fondeadas, junto con boyas a la deriva, sondas de temperatura nave voluntario, y
mediciones del nivel del mar. Las preguntas de investigacin de inters como: - Cmo
puede la informacin ser utilizado para predecir las condiciones meteorolgicas en todo el
mundo - Cmo hacer la las variables se relacionan entre s? - Qu variables tienen un
mayor efecto en las variaciones del clima? - La cantidad de movimiento del efecto de la
boya de la fiabilidad de los datos? - Al realizar un anlisis de los datos, se debe prestar
atencin a la posible efecto de autocorrelacin. Utilizando un enfoque de regresin
mltiple para modelar los datos requerira un vistazo a autoregresin ya que las
estadsticas meteorolgicas de los das anteriores afectarn el tiempo de hoy. Los datos
se almacenan en un archivos ASCII con una observacin por lnea. (.) Espacios campos y
perodos separados denotan los valores perdidos. Ms informacin y datos de la matriz
TAO se pueden encontrar en la pgina web los datos de Pacific Marine Environmental
Laboratory TAO: [Web Link] La informacin sobre los datos de la tormenta est disponible
aqu: [Web Link] . Este sitio contiene datos desde enero 1994 a abril 1998 en una lista
cronolgica segn el estado proporcionado por el Servicio Meteorolgico Nacional. Los
datos incluyen los huracanes, tornados, tormentas, granizo, inundaciones, sequas,
tormentas elctricas, fuertes vientos, nieve y temperaturas extremas. datos de seguimiento
de huracanes para el Atlntico est disponible aqu: [Web Link] . El sitio contiene un mapa
que muestra las trayectorias de los huracanes en el Atlntico y tambin incluye los vientos
de tormentas (en nudos), presin (en milibares), y la categora de la tormenta sobre la
base de la escala Saffir-Simpson. Otro sitio de inters relacionados con el ENSO Cyles
est disponible aqu: [Web Link] . Este sitio contiene informacin sobre las doce regiones
del mundo que han demostrado relaciones ENSO-precipitacin. Incluido en el sitio son los
mapas de las reas y parcelas de series de tiempo de precipitacin diaria real y la
precipitacin acumulada normal, para las reas.
Los datos consisten en las siguientes variables: fecha, latitud, longitud, vientos zonales
(oeste <0, Medio> 0), vientos meridionales (sur <0, norte> 0), humedad relativa,
temperatura del aire, la temperatura superficial del mar y temperaturas subsuperficiales
hasta una profundidad de 500 metros. Datos tomados de las boyas desde tan temprano
como 1980 para algunas ubicaciones. Otros datos que fueron tomadas en diversos
lugares son la precipitacin, la radiacin solar, los niveles actuales, y las temperaturas
subsuperficiales. La latitud y la longitud de los datos mostraron que las boyas se movan a
diferentes lugares. Los valores de latitud se mantuvieron dentro de un grado de la posicin
aproximada. Sin embargo, los valores de longitud eran a veces hasta cinco grados con
respecto a la ubicacin aproximada. Mirando los datos de viento, tanto de los vientos
zonales y meridionales fluctuaron entre -10 m / s y 10 m / s. La trama de las dos variables
de viento no mostr una relacin lineal. Adems, las parcelas de cada variable viento
contra los otros tres datos meteorolgical no mostraron relaciones lineales. Los valores de
humedad relativa en el Pacfico tropical eran por lo general entre el 70% y el 90%. Tanto la
temperatura del aire y la temperatura superficial del mar fluctuaron entre 20 y 30 grados
Celcius. La trama de las dos variables de temperaturas muestra una relacin lineal positiva
existente. Las dos temperaturas cuando cada uno en funcin del tiempo tambin tienen
diseos de parcelas similares. Los grficos de las otras variables meteorolgicas en contra
de las variables de temperatura no mostraron relacin lineal. Hay valores que faltan en los
datos. Como se mencion anteriormente, no todas las boyas son capaces de medir las
corrientes, las precipitaciones y la radiacin solar, por lo que estos valores estn
perdiendo depende de la boya individual. La cantidad de datos disponibles tambin
depende de la boya, como ciertas boyas se encargaron antes que otros. Todas las
lecturas se tomaron a la misma hora del da.
N/A

Stephen D. Bay y Dennis F. Kibler y Michael J. Pazzani y Padhraic Smyth. KDD El Archivo
de los grandes conjuntos de datos para la investigacin de minera de datos y
Experimentacin UCI . SIGKDD Exploraciones, 2. 2000. [ Ver Contexto ].
Cita de pedidos:
EMG conjunto de datos en 2014-02-12
la extremidad inferior del
conjunto de datos
Resumen : 3 ejercicios diferentes: sentados, de pie y caminar en los msculos: bceps
femoral, vasto medial, recto femoral y semitendinoso adicin a goniometra en los
ejercicios.
132 rea: Ordenador

Real 5
Nmero de
Valores N/
perdidos? A
Accesos:
Fuente:
Las muestras obtenidas con la ayuda de:
Batalln n de Sanidad (BASAN) Universidad Militar Nueva Granada "Bogot
(muestras de julio de 2012).
Carrera 7 No 52-48, Bogot.
TecnoParque SENA Nodo Manizales (muestras marzo-julio 2013).
Km 10 camino a Magdalena, Manizales. Ph.D Oscar Fernando Snchez Avils oscfer '@'
gmail.com Universidad Militar Nueva Granada Ph.D Jos Luis Rodrguez Sotelo jdw.siul
'@' gmail.com Mg. Marcelo Herrera Gonzales marhego '@' gmail.com Mg. Gustavo Adolfo
Martnez Hernndez gamhet2 '@' gmail.com Universidad Autnoma de Manizales

2. Base de datos de informacin: 2.1. Protocolo: 22 varones, 11 con diferentes anomalas
en la rodilla previamente diagnosticados por un profesional. Se someten a tres
movimientos para analizar el comportamiento asociado con el msculo de la rodilla, la
marcha, extensin de la pierna de una posicin sentada, y la flexin de la pierna. El
proceso de adquisicin se llev a cabo con 4 electrodos (vasto medial, semitendinoso,
bceps femoral y recto femoral) y el gonimetro en la rodilla. 2.2. Instrumentacin equipos
de registro de datos se utiliz MWX8 por biometra de 8 canales digitales y 4 canales
analgicos, 4 de las cuales para el muestreo se utilizaron SEMG y 1 para la goniometra,
estos datos fueron adquiridos directamente a la MWX8 equipo de almacenamiento interno
con tarjetas microSD y transmiten en tiempo real software de registro de datos a travs del
adaptador bluetooth, resolucin de 14 bits y frecuencia de muestreo de 1000Hz. 2.3.
Configuracin de los datos: El nmero total de electrodos es de 4, que corresponde a la de
series temporales para cada canal (1 a 4). Cada serie contiene ~ 5 acciones o repeticiones
de movimiento para cada sujeto.
Cada archivo de datos contiene 5 columnas, organizados de la siguiente manera.
Segmento Miembro Inferior
Canal CH1 CH2 CH3 CH4 Ch5
Muscle RF BF VM ST FX
Columna 0 1 2 3 4
Cita de pedidos:
Si usted no tiene ninguna peticin de citas especiales, por favor, deje este campo en blanco..
EMG Set Datos de accin 2014-02-12

fsica Conjunto de Datos
esumen : El Conjunto de Datos accin fsica incluye 10 normales y 10 acciones fsicas
agresivas que miden la actividad humana. Los datos han sido recogidos por 4 sujetos
que utilizaron el aparato inalmbrico Delsys EMG.
Conjunto de datos Series de Nmero de
10000 rea: Fsico
Caractersticas: Tiempo instancias:

Real 8
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Theo Theodoridis
Facultad de Ciencias de la Computacin e Ingeniera Electrnica
de la Universidad de Essex
Wivenhoe Park, Colchester, 3SQ CO4, Reino Unido ttheod '@' gmail.com
http://sites.google.com/site/ttheod/

1. Protocolo:
Tres hombres y un sujetos femeninos (edad de 25 a 30), que han sufrido la agresin en
escenarios
tales como peleas fsicas, particip en el experimento. A lo largo de 20 experimentos
individuales,
cada sujeto tena que realizar diez normal y diez actividades agresivas. En cuanto a los
derechos de los
sujetos involucrados, las regulaciones ticas y medida de seguridad se han seguido
basndose en el cdigo
de tica de la Sociedad Britnica de Psicologa. Las regulaciones explican las
legislaciones ticas
que deben aplicarse cuando se llevan a cabo experimentos con sujetos humanos. De
acuerdo con el experimental
instalacin y las precauciones tomadas, el riesgo final de las lesiones era mnimo. Los
sujetos eran conscientes de
que, dado que su participacin en esta serie de experimentos fue voluntaria, se dej en
claro que
podan retirarse en cualquier momento del estudio. 2. Instrumentacin: La arena robtico
Essex fue la principal sala experimental donde la recoleccin de datos se llev a cabo.
Con zona 4x5.5m, los sujetos manifestaron actividades fsicas agresivas en lugares al
azar. Un profesional del bolso de pie kick-boxing se ha utilizado, 1.75m de altura, con una
figura humana dibujada en su cuerpo. El rendimiento subjects ha sido registrado por
el aparato Delsys EMG, interfaces actividad humana con contracciones mioelctricas.
Basado en este contexto, el proceso de adquisicin de datos involucrado ocho electrodos
de la piel de la superficie colocados en los brazos superiores (bceps y trceps), y las
piernas superiores (muslos y los tendones). 3. Configuracin de los datos: El nmero total
de los electrodos es de 8, que corresponde al 8 de tiempo de entrada serie uno para un
msculo canal (CH1-8). Cada serie temporal contiene ~ 10000 muestras (~ 15 acciones
por cada sesin experimental para cada materia).
Cada archivo en el conjunto de datos contiene en total 8 columnas, y est organizado de
la siguiente manera: + --------- + --------------- + ------ --------- + --------------- + --------------- + |
Segmentos | R-Arm | L -Arm | R-Leg | L-Leg | + --------- + ------- + ------- + ------- + ---- --- + --
----- + ------- + ------- + ------- + | Canal | ch1 | CH2 | CH3 | CH4 | ch5 | ch6 | ch7 | ch8 | |
Muscle | R-Bic | R-Tri | L-Bic | L-Tri | R-Thi | R-Ham | L-Thi | L-Ham | | columna | 0 | 1 | 2 | 3
| 4 | 5 | 6 | 7 | + --------- + ------- + ------- + ------- + ------ - + ------- + ------- + ------- + ------- +
Segmento:. Un segmento se define un segmento del cuerpo o de las extremidades - Brazo
derecho (R -Arm) - Brazo izquierdo (L-Arm) - Barra derecha (R-Leg) - Barra izquierda (L-
Leg) Canal:. Un canal corresponde a un electrodo unido a un msculo muscular: Un par de
msculos que se corresponde con una segmento. - R-Bic: bceps derecho (C1) - R-Tri:
trceps derecho (C2) - L-Bic: bceps izquierdo (C3) - L-Tri: trceps izquierdo (C4) - R-Thi:
muslo derecho ( C5) - R-Ham: corva derecha (C6) - L-Thi: muslo izquierdo (C7) - L-Ham:
corva izquierda (C8)
N/A
Cita de pedidos:
Eficiencia energetica Data 2014-02-12

Set
Resumen : Este estudio observ en la evaluacin de la carga de calefaccin y
refrigeracin de edificios requisitos de carga (es decir, la eficiencia de energa) como una
funcin de los parmetros de construccin.

Entero, real 8
La Nmero de
Valores N/
Tareas asociadas: clasificacin, Web 25474
perdidos? A
regresin Accesos:
Fuente:
El conjunto de datos fue creada por Angeliki Xifara ( angxifara '@' gmail.com , / Ingeniero
Civil Estructural) y fue procesado por Athanasios Tsanas ( tsanasthanasis '@' gmail.com ,
Centro de Oxford para la Matemtica Industrial y Aplicada de la Universidad de Oxford,
Reino Unido) .

Realizamos anlisis de energa utilizando 12 formas diferentes de edificios simulados en
Ecotect. Los edificios difieren con respecto a la zona de acristalamiento, la zona de
distribucin de acristalamiento, y la orientacin, entre otros parmetros. Simulamos varios
ajustes como funciones de las caractersticas antes mencionadas para obtener 768 formas
de construccin. El conjunto de datos comprende 768 muestras y 8 caractersticas, con el
objetivo de predecir las respuestas de dos valores reales. Tambin se puede utilizar como
un problema de clasificacin multi-clase si la respuesta se redondea al nmero entero ms
cercano.
El conjunto de datos contiene ocho atributos (o caractersticas, denotados por X1 ... X8) y
dos respuestas (o resultados, indicados por Y1 e Y2). El objetivo es utilizar las ocho
caractersticas de predecir cada una de las dos respuestas. Especficamente: X1
compacidad relativa Area Superficie X2 X3 rea Muro Area X4 Roof X5 Altura total X6
Orientacin X7 Acristalamiento rea X8 Acristalamiento rea Distribucin y1 Calefaccin
Load Load y2 Refrigeracin
A. Tsanas, A. Xifara: estimacin cuantitativa precisa de la eficiencia energtica de los
edificios de viviendas que utilizan estadsticos herramientas de aprendizaje automtico ', la
Energa y Construcciones, vol. 49, pginas 560-567, 2012
Cita de pedidos:
A. Tsanas, A. Xifara: estimacin cuantitativa precisa de la eficiencia energtica de los edificios de
viviendas que utilizan estadsticos herramientas de aprendizaje automtico ', la Energa y
Construcciones, vol. 49, pginas 560-567, 2012 (el documento puede accederse desde [Web Link] )
Para ms detalles sobre la metodologa de anlisis de los datos: A. Tsanas, 'telemonitorizacin
exacta de la enfermedad de gravedad de los sntomas de Parkinson s no lineal utilizando el
procesamiento de seal de voz y el aprendizaje automtico estadstico', D. Phil. tesis de la
Universidad de Oxford, 2012 (al que se accede desde [Web Link] )
Entree Recomendacin 2014-02-12
Chicago de datos Conjunto
de datos
Resumen : Esta informacin contiene un registro de las interacciones del usuario con el
sistema de recomendacin de restaurante Entree Chicago.
Conjunto de datos Transaccional, Nmero de
50672 rea: N/A
Caractersticas: Secuencial instancias:

Categrico N/A
Nmero de
Recommender- Valores
Tareas asociadas: S Web 24298
Systems perdidos?
Accesos:
Fuente:
Propietario original y los donantes: Robin Burke de la Universidad de California, Irvine
Departamento de Informacin y Ciencias de la Computacin Irvine, CA 92697 Ahora aqu:
http://josquin.cti.depaul.edu/ ~ rburke /

Estos registros de datos interacciones con el sistema Entree Chicago recomendacin de
restaurante (originalmente [Web Link] ) desde septiembre de 1996 hasta abril de 1999. Los
datos se organizan en archivos que abarca ms o menos un ao trimestre -. Con Q3 1996
y Q2 1999 cada uno slo contiene un mes Cada lnea en un archivo de sesin representa
una sesin de la interaccin del usuario con el sistema. Los (separado por tabuladores)
campos son los siguientes: Fecha, punto de entrada IP, Restaurante1 nominal, ...,
Calificacin restaurantN, punto final 1. Punto de entrada: Los usuarios pueden utilizar un
restaurante de cualquier ciudad como un punto de entrada, pero siempre obtener
recomendaciones de restaurantes de Chicago. Por tanto, el punto de entrada permite
encontrar en un universo ms grande de restaurantes que el resto de los datos. Puntos de
entrada tienen la forma nnnX, donde nnn es un restaurante ID numrico y X es un AH
carcter que codifica la ciudad. A = Atlanta Boston B = C = Chicago D = Los Angeles E =
Nueva Orleans F = Nueva York G = San Francisco H = Washington DC 2. Restaurante
nominal: Estos son todos los restaurantes de Chicago. Estas entradas tienen la forma
nnnX, donde nnn es un restaurante ID numrico y X es un LT carcter que codifica la
operacin de navegacin. L = Examinar (traslado de un restaurante en una lista de
recomendaciones a otra ) M = ms barato (bsqueda de un restaurante como ste, pero
ms barato) N = ms agradable ("", pero mejor) O = ms cerca (no utilizado en la versin
de produccin del sistema) P = ms tradicional (bsqueda de un restaurante como este ,
pero que sirve cocina ms tradicional) Q = ms creativo (bsqueda de un restaurante que
sirve cocina ms creativa) R = ms animado (bsqueda de un restaurante con un
ambiente ms animado) S = ms bajo (bsqueda de un restaurante con un ambiente ms
tranquilo) T = cambiar la cocina (la bsqueda de un restaurante como este, pero que sirve
un tipo diferente de comida) Tenga en cuenta que con este truco, que idealmente nos
gustara saber qu tipo de cocina que el usuario quera cambiar, pero esta informacin no
se grab. 3. Punto final: Slo el id numrico para el (Chicago) restaurante que el usuario
vio por ltima vez. En nuestros experimentos, estamos asumiendo que esto era una buena
sugerencia, pero tambin es posible que el usuario slo se da por vencido. Algunos datos
potencialmente tiles se encuentra. En muchos casos, no sabemos el punto de partida, ya
la entrada del usuario una serie de criterios de seleccin (como "de bajo costo mexicana
tradicional"), utilizando datos de un formulario, en lugar de partir de un conocido
restaurante. No se registraron Estas consultas. Esto se denota por un 0 en el campo de
punto de entrada. Algunas de las sesiones no tienen un punto final conocido. Esta se
caracteriza por -1 en el campo de punto final. Adems de las interacciones del usuario,
tambin hay datos que vinculan el ID restaurante con su nombre y caractersticas tales
como "listas fabulosas del vino", "bueno para los nios ms pequeos", y "Ethopian
"cocina. Estos datos se almacenan en la ciudad (por ejemplo, Atlanta, Boston, etc) y se
encuentra en el siguiente formato: Nombre Identificacin restaurante [tab] restaurante
[TAB] restaurante ofrece (3 dgitos identificadores separados por espacios)
N/A
Burke, R. El Wasabi Personal Shopper: Un sistema de recomendacin basado en casos.
En Actas de la 11 Conferencia Nacional sobre aplicaciones innovadoras de la
Inteligencia Artificial, pginas 844-849. AAAI, 1999. [Web Link] Burke, R. Sistemas de
Recomendacin basados en el conocimiento. Para aparecer en la Enciclopedia de
Biblioteconoma y Documentacin.

Zoran Obradovic y Slobodan Vucetic. Desafos en Scientific Data Mining: muestras
heterogneas, sesgadas, y grandes . Centro de Informacin de Ciencia y Tecnologa de la
Universidad de Temple. [ Ver Contexto ].
Cita de pedidos:
Anuncios de granja Data 2014-02-12
Set
Resumen : Esta informacin se recopil a partir de los anuncios de texto que aparecen
en doce sitios web que se ocupan de diversos temas relacionados con los animales de
granja. Las etiquetas binarias se basan en si es o no el propietario del contenido apruebe
el anuncio.
Texto 4143 rea: Negocios

N/A 54877
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Chris Mesterharm y Michael J. Pazzani
Rutgers, la Universidad Estatal de Nueva Jersey mesterha '@' cs.rutgers.edu

Estos datos fueron obtenidos a partir de los anuncios de texto que aparecen en doce sitios
web que se ocupan de diversos temas relacionados con los animales de granja.
Informacin de la creatividad del anuncio y de la pgina de destino de anuncios est
incluido. Las etiquetas binarias se basan en si es o no el propietario del contenido apruebe
el anuncio. Para cada anuncio, incluimos las palabras en la creatividad del anuncio y las
palabras de la pgina de destino. Cada palabra de la creatividad se da un prefijo de 'ad-'.
Ttulo y cabecera HTML marcas se destacan de una manera similar en el texto de la
pgina de destino. Ya hemos realizado despalillado y la eliminacin de palabras vacas.
Cada anuncio es en una sola lnea. La primera palabra de la lnea es la etiqueta de la
instancia. Es 1 Anuncios aceptadas y -1 para los anuncios rechazados. Tambin hemos
incluido una sencilla representacin de los datos de la bolsa-de-palabras. Usamos el
formato vectorial escasa SVMlight. El primer valor es la etiqueta seguido por todos los
atributos que no sea cero. Cada uno de estos atributos se codifica como un ndice: el
valor. Esta es la representacin utilizada para el papel relevante citado a continuacin.
Palabras de texto en la granja-ads archivo. SVMlight formatear vectores dispersos en el
archivo de la granja-ads-vect.
Aprendizaje Activo usando Algoritmos on-line. Chris Mesterharm, Michael J. Pazzani. En
KDD 2011.
Cita de pedidos:
Fertilidad Data Set 2014-02-12
Resumen : 100 voluntarios ofrecen una muestra de semen analizada de acuerdo a los
criterios de la OMS 2010. La concentracin de espermatozoides estn relacionados con
datos socio-demogrficos, factores ambientales, el estado de salud y hbitos de vida

Real 10 01/17/2013
La Nmero de
Valores N/
Tareas asociadas: clasificacin, Web 24472
perdidos? A
regresin Accesos:
Fuente:
David Gil, dgil "@" dtic.ua.es , Lucentia Grupo de Investigacin del Departamento de
Tecnologa de Computadores de la Universidad de Alicante Jos Luis Girela, Girela '@'
ua.es , Departamento de Biotecnologa de la Universidad de Alicante

Proporcionar toda la informacin pertinente acerca de su conjunto de datos.
Temporada en la que se realiz el anlisis. 1) invierno, 2) la primavera, 3) Verano, 4)
caiga. (-1, -0.33, 0.33, 1) La edad en el momento del anlisis. 18-36 (0, 1) enfermedades
Childish (es decir, la varicela, el sarampin, las paperas, polio) 1) s, 2) no. (0, 1) Accidente
o grave trauma 1) s, 2) no. (0, 1) Intervencin quirrgica 1) s, 2) no. (0, 1) Fiebre alta en
el ltimo ao 1) hace menos de tres meses, 2) hace ms de tres meses, 3) no. (-1, 0, 1) de
frecuencia de consumo de alcohol 1) varias veces al da, 2) todos los das, 3) varias veces
a la semana, 4) una vez por semana, 5) Casi nunca o nunca (0, 1) el hbito de fumar 1)
Nunca, 2) 3 ocasional) diariamente. (-1, 0, 1) Nmero de horas dedicadas sentado por da
eno-16 (0, 1) de la salida: Diagnstico normal (N), alterado (O)
David Gil, Jos Luis Girela, Joaqun De Juan, M. Jos Gmez-Torres, y
Magnus Johnsson. Prediccin de la calidad seminal con inteligencia artificial
mtodos. Expert Systems with Applications, 39 (16): 12.564 "12.573 de 2012
Cita de pedidos:
David Gil, Jos Luis Girela, Joaqun De Juan, M. Jos Gmez-Torres, y
Magnus Johnsson. Prediccin de la calidad seminal con inteligencia artificial
mtodos. Expert Systems with Applications, 39 (16): 12.564 "12.573 de 2012
Demostracion de teoremas 2014-02-12
de primer orden Data Set
Resumen : Dado un teorema, predecir cul de los cinco heurstica dar la prueba ms
rpida cuando se usa por un probador de primer orden. Una sexta prediccin se niega a
intentar una prueba, debera ser demasiado difcil teorema.

Real 51 17/04/2013
Nmero de
Valores
perdidos?
Accesos:
Fuente:
James P Bridge, Sean B Holden y Lawrence C Paulson Universidad de Cambridge
Computer Laboratory Building William Gates 15 JJ Thomson avenida Cambridge CB3 0FD
Reino Unido +44 (0) 1223 763 500 nombre.apellido '@' cl.cam.ac.uk

Vea el archivo de puentes holden-Paulson-Details.txt en el tarball presentado.
Los atributos son una mezcla de caractersticas estticas y dinmicas derivadas de los
teoremas que ser probadas. Ver el documento para ms detalles.
El aprendizaje automtico de primer orden demostracin de teoremas: aprender a
seleccionar una buena heurstica
James P Bridge, Sean B Holden y Lawrence C Paulson
Presentado para su publicacin en el Diario de razonamiento automatizado, Springer
2012/13.
Cita de pedidos:
Por favor, citar el papel si se utiliza este conjunto de datos.
Banderas Data Set 2014-02-12
Resumen : Desde Gua Collins Gem de Banderas, 1986

30
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Creadores: Collected principalmente de la "Gua de Collins Gem de Banderas":. Collins
Publishers (1986) Donante: Richard S. Forsyth 8 Grosvenor Avenida Mapperley Parque
Nottingham NG3 5DX desde 0.602 hasta 621.676

Este archivo de datos contiene detalles de las diversas naciones y sus banderas. En este
archivo de los campos estn separados por espacios (no comas). Con estos datos puedes
probar cosas como la prediccin de la religin de un pas de su tamao y los colores de su
bandera. 10 atributos son numricos valorado. El resto son o bien de Boole o de valor
nominal.
1. Nombre: Nombre del pas en cuestin
2. masa de tierra: 1 = N. Amrica, 2 = S.America, 3 = Europa, 4 = frica, 4 = Asia,
Oceana 6 =
3. zona: cuadrante geogrfico, basado en Greenwich y el Ecuador; 1 = NE, 2 = SE, 3 =
SW, NW 4 =
4. rea: en miles de kilmetros cuadrados
5. poblacin: en millones redondas
6. idiomas: 1 = Ingls, 2 = espaoles, franceses, 3 = 4 = 5 = alemn, eslavo, 6 = Otros
indoeuropeas, 7 = 8 = chinos, rabes, 9 = japons / turco / finlandesa / magiares, 10 =
Otros
7. religin: 0 = catlica, 1 = Otro Cristiana, 2 = musulmn, 3 = budista, 4 = Hindu, 5 =
tnicas, 6 = marxista, 7 = Otros
8. barras: Nmero de barras verticales en el pabelln
9. rayas: Nmero de rayas horizontales en la bandera
10. colores: Numero de diferentes colores en la bandera
11. rojo: 0 si est ausente rojo, 1 si el rojo presente en el pabelln
12. verde: lo mismo para el verde
13. azul: lo mismo para el azul
14. oro: lo mismo para el oro (tambin de color amarillo)
15. blanco: lo mismo para el blanco
16. negro: lo mismo para el negro
17. naranja: la misma para la naranja (tambin de color marrn)
18. mainhue: color predominante en la bandera (tie-breaks decidieron tomando el tono
ms alto, si eso no funciona, entonces el tono ms cntrica, y si eso falla el matiz ms a la
izquierda)
19. crculos: El nmero de crculos en el pabelln
20. cruza: Nmero de (vertical) cruza
21. sotueres: Nmero de cruces en diagonal
22. cuartos: Nmero de secciones en cuartos
23. sunstars: Cantidad de sol o estrella smbolos
24. media luna: 1 si un smbolo luna creciente actualidad, si no 0
25. tringulo: 1 si los tringulos presentes, 0 en caso contrario
26. icono: 1 si una imagen inanimada presente (por ejemplo, un barco), de lo contrario 0
27. animar: 1 si una imagen animada (por ejemplo, un guila, un rbol, una mano humana)
presentes, 0 en caso contrario
28. texto: 1 si cualquier carta o escrito en la bandera (por ejemplo, un lema o eslogan), 0
en caso contrario
29. topLeft: color en la esquina superior izquierda (derecho a decidir tie-breaks en
movimiento)
30. botright: El color en la esquina inferior izquierda (moviendo hacia la izquierda para
decidir tie-breaks)
Gua del PC / BEAGLE usuario de Forsyth.

George H. John y Ron Kohavi y Karl Pfleger. Caractersticas irrelevante y el problema de
la seleccin de subconjuntos . ICML. 1994. [ Ver Contexto ]. Kohavi Ron y George H. John
y Richard Long y David Manley y Karl Pfleger. MLC + +: Una Biblioteca Aprendizaje
Automtico en C ICTAI.. 1994. [ Ver Contexto ]. Wl / odzisl / aw Duch y Karol Grudzi nski y
Grzegorz Stawski. CARACTERSTICAS simblico en redes neuronales . Departamento de
Mtodos Computacionales, Universidad Nicolaus Copernicus. [ Ver Contexto ].
Cita de pedidos:
Incendios forestales Data 2014-02-12
Set
Resumen : Se trata de una tarea difcil de regresin, donde el objetivo es predecir el
rea quemada de los incendios forestales, en la regin noreste de Portugal, mediante el
uso de datos meteorolgicos y otros (ver detalles en: [Web Link] ).

Real 13
Nmero de
Valores N/
Tareas asociadas: Regresin Web 152418
perdidos? A
Accesos:
Fuente:
Paulo Cortez, pcortez '@' dsi.uminho.pt , Departamento de Sistemas de Informacin de la
Universidad de Minho, Portugal.
Anbal Morais, araimorais '@' gmail.com , Departamento de Sistemas de Informacin de
la Universidad de Minho, Portugal.

En [Cortez y Morais, 2007], la salida de "rea" se transform por primera vez con una
funcin ln (x +1).
Luego, se aplicaron varios mtodos de minera de datos. Despus de ajustar los
modelos, las salidas fueron
post-procesadas con la inversa del ln (x +1) transformar. Fueron cuatro configuraciones
diferentes de entrada
utilizados. Los experimentos se llevaron a cabo utilizando un 10 veces (validacin
cruzada) x 30 carreras. Dos
se midieron parmetros de regresin: MAD y RMSE. Una mquina de vectores de
soporte de Gauss (SVM) alimentado
con slo 4 condiciones meteorolgicas directas (temperatura, humedad relativa, viento y
lluvia) obtenido el mejor valor MAD:
12,71 + - 0,01 (media e intervalo de confianza del 95% en el uso de una distribucin t-
student). El
mejor RMSE se alcanz por el predictor media ingenua. Un anlisis de la curva de error
de regresin
(REC) muestra que el modelo SVM predice ms ejemplos dentro de un error menor
admitido. En efecto,
el modelo de SVM predice mejor los incendios pequeos, que son la mayora.
Para obtener ms informacin, lea [Cortez y Morais, 2007].
1. X - x-eje espacial de coordenadas en el mapa del parque de Montesinho: 1 a 9
2. Y - eje y coordenada espacial dentro del mapa del parque de Montesinho: 2 a 9
3. mes - mes del ao: 'enero' hasta 'diciembre'
4. da - da de la semana: mon al 'sol'
5. ndice FFMC del sistema FWI - FFMC: 18,7 a 96,20
6. ndice DMC del sistema FWI - DMC: 1,1 a 291,3
7. ndice de CC del sistema FWI - DC: 7,9 a 860,6
8. ndice ISI del sistema FWI - ISI: 0,0 a 56,10
9. temp - la temperatura en grados Celsius: 2,2 a 33,30
10. RH - humedad relativa en%: 15,0 a 100
11. viento - Velocidad del viento en km / h: 0,40 a 9,40
12. lluvia - lluvia fuera en mm/m2: 0,0-6,4
13. rea - la zona quemada del bosque (en ha): 0,00-1.090,84
(esta variable de salida est muy sesgada hacia 0.0, por lo que puede hacer
sentido de modelar con el logaritmo transformar).
[Cortez y Morais, 2007] P. Corts y A. Morais. Un enfoque de minera de datos para
predecir los incendios forestales utilizando datos meteorolgicos. En J. Neves, MF
Santos y J. Machado Eds, Nuevas tendencias en Inteligencia Artificial, Actas de la EPIA
13 de 2007 -. Conferencia portugus sobre Inteligencia Artificial, de diciembre de
Guimares, Portugal, pp 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Disponible
en: [Web Link]
Cita de pedidos:
Este conjunto de datos es pblica disponibles para la investigacin. . Los detalles se
describen en [Cortez y Morais, 2007]
Por favor, incluya esta cita si tiene previsto utilizar esta base de datos:
[Cortez y Morais, 2007] P. Corts y A. Morais. Un enfoque de minera de datos para
predecir los incendios forestales utilizando datos meteorolgicos. En J. Neves, MF
Santos y J. Machado Eds, Nuevas tendencias en Inteligencia Artificial, Actas de la EPIA
13 de 2007 -. Conferencia portugus sobre Inteligencia Artificial, de diciembre de
Guimares, Portugal, pp 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Disponible
en: [Web Link]
Funcion de investigacion 2014-02-12
Data Set
Resumen : Los casos recogidos en su mayora de las investigaciones en las ciencias
fsicas, la intencin es evaluar los algoritmos de funcin exploratorias
N/A 352 rea: Fsico

Real
Nmero de
Funcin- Valores
Tareas asociadas: No Web 15508
Learning perdidos?
Accesos:
Fuente:
Donante: Cullen Schaffer Departamento de Ciencias de la Computacin de la Universidad
de Rutgers, New Brunswick, NJ 08903 schaffer '@' paul.rutgers.edu Fuente: . Cullen
Schaffer, Domain-Independiente de Investigacin Cientfica Funcin Tesis doctoral,
Departamento de Ciencias de la Computacin de la Universidad de Rutgers, 1990
(Technical Informe LCSR-TR-149).

[Por favor, tenga en cuenta el uso del formato Latex aqu para expresiones
algebraicas. Ver Leslie Lamport, ltex: un sistema de preparacin de documentos,
Addison-Wesley, 1986 para ms detalles]. Esta base de datos contiene 352 conjuntos de
datos numricos de dos variables recogidas de diversas fuentes y que resultan, con
algunas excepciones, de las investigaciones en las ciencias fsicas. Para cada conjunto de
datos, la coleccin incluye: 1. Fuente: Informacin bibliogrfica de la fuente de los
datos. 2. Descripcin: Identificacin de las variables $ x $ y $ y $. Excepto en algunos
casos claramente identificados, se emplea el formato abreviado $ y $ vs $ x $.Una entrada
del formulario Descripcin:. Fuerza vs separacin indica que $ x $ es una separacin y $ y
$ es una fuerza. En algunos casos - cuando la informacin estaba disponible -. La
descripcin tambin incluye las unidades en las que los datos se inform
originalmente 3. Relacin de referencia: La relacin funcional propuesta por el cientfico de
informes en la fuente original. 4. Comentarios (opcional): Informacin adicional sobre el
caso. En la grabacin de las relaciones de referencia, la base de datos a menudo omite
detalles de valores de parmetros. Si un cientfico propone $ y = 23.1x-0.0014 $, la
relacin de referencia se puede administrar como slo $ y = k_ {1} x + {2} k_ $. Adems,
dado que las transformaciones algebraicas se han empleado libremente, la misma relacin
se podra dar como $ y / x = {2} k_ / x + k_ {1} $. Por lo general, los datos aqu recogidos
se da en su totalidad, ya que apareci en el fuente original. Las fracciones que han sido
convertidos a decimales, los nmeros se han traducido libremente hacia y desde la
notacin cientfica y ceros en ocasiones, se han aadido nmeros decimales para facilitar
la tabulacin. Las desviaciones adicionales de transcripcin literal se anotan en la entrada
Comentarios del caso asociado. Tenga en cuenta, en particular, que, en algunos casos
claramente identificados, aparentes errores tipogrficos han sido corregidos y que, en
otros, los puntos de datos identificados por el cientfico de informes como * no * es
conforme a la relacin propuesta, se han omitido.
N/A
Cullen Schaffer, "Un cientfico Funcin de Investigacin Algoritmo Dominio Independiente
probada", en AAAI-90. [Web Link]
Cita de pedidos:
Conjunto de sensores de
gas Drift Data Set
Resumen : Este archivo contiene 13.910 mediciones de 16 sensores qumicos utilizados
en las simulaciones para la compensacin de deriva en una tarea de discriminacin de
los 6 gases en varios niveles de concentraciones.

Real 128
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Creadores: Alexander Vergara ( vergara '@' ucsd.edu )
BioCircutis Institute
de la Universidad de California en San Diego
San Diego, California, EE.UU.
Los donantes del conjunto de datos: Alexander Vergara ( vergara '@' ucsd.edu )
Ramn Huerta ( rhuerta '@' ucsd . edu )

Este archivo contiene 13.910 mediciones de 16 sensores qumicos utilizados en
simulaciones para la compensacin de la desviacin en una tarea de discriminacin de los
6 gases en varios niveles de concentraciones. El objetivo es lograr un buen rendimiento (o
tan bajo como sea posible degradacin) con el tiempo, segn se informa en el documento
mencionado en la Seccin 2: Recoleccin de datos. El objetivo principal es proporcionar
este conjunto de datos es para que sea de libre acceso en lnea a la comunidad de
investigacin quimio-sensores y la inteligencia artificial desarrollar estrategias para hacer
frente a los sensores / concepto de deriva. El conjunto de datos se puede utilizar
exclusivamente para fines de investigacin. Propsitos comerciales estn totalmente
excluidos.
El conjunto de datos se obtuvo dentro de 01 2007 hasta febrero 2011 (36 meses) en un
centro de la plataforma de distribucin de gas situada en el Laboratorio de seales
qumicas en el Instituto BioCircuits de la Universidad de California San Diego. Estando
completamente operado por un entorno totalmente informatizado "controlado por un
LabVIEW " software de National Instruments en un PC equipado con las tarjetas de
adquisicin de datos en serie apropiadas. La plataforma del sistema de medicin
proporciona versatilidad para obtener las concentraciones deseadas de las sustancias
qumicas de inters con alta precisin y de una manera altamente reproducible,
minimizando as los errores comunes causadas por la intervencin humana y por lo que es
posible concentrarse exclusivamente en los sensores qumicos para compensar verdadera
la deriva.
El conjunto de datos resultante comprende grabaciones de seis sustancias gaseosas
puras distintas, a saber, amonaco, acetaldehdo, acetona, etileno, etanol, y tolueno, cada
dosificado a una amplia variedad de valores de concentracin que varan de 5 a 1000
ppmv. Vanse los cuadros 1 y 2 del citado manuscrito debajo para ms detalles sobre el
nombre de identidad de gas, los valores de concentracin, y la secuencia de la distribucin
del tiempo de las grabaciones de medicin considerados en este conjunto de
datos. Batch10.dat se actualiz el 10/14/2013 para corregir algunos valores corruptos en
los ltimos 120 lneas del archivo.
La respuesta de dichos sensores se lee de salida en la forma de la resistencia a travs de
la capa activa de cada sensor, por lo que cada medicin produjo una serie de tiempo de
16 canales, cada uno de los cuales representa por un conjunto de caractersticas que
reflejan todos los procesos dinmicos que se producen en la superficie del sensor en
reaccin a la sustancia qumica que se est evaluando. En particular, se consideran dos
tipos distintos de caractersticas en la creacin de este conjunto de datos: (i) La llamada
funcin de estado estacionario (R I "), definido como la diferencia de la variacin de la
resistencia mxima y la lnea de base y su versin normalizada expresado por la relacin
de la resistencia mxima y los valores de lnea de base cuando el vapor qumico est
presente en la cmara de prueba. Y (II), un agregado de caractersticas que reflejan la
dinmica del sensor de la parte de transicin creciente / descomposicin de la respuesta
del sensor durante todo el procedimiento de medicin en condiciones controladas, a saber,
la media mvil exponencial (EMAI ). Estos agregados de caractersticas es una
transformacin, tomado del campo de la econometra originalmente introducidos a la
comunidad quimio-deteccin por Muezzinoglu et al. (2009), que convierte dicha porcin
transitoria en un escalar real, mediante la estimacin del valor mximo "mnimo para la
parte decadente del sensor duraderaa " de su media mvil exponencial (EMAI ), con
una condicin inicial establecido para cero y un parmetro de suavizado escalar del
operador, , que define tanto la calidad de la caracterstica y el momento de su
ocurrencia a lo largo de la serie de tiempo el escalar, establecer un rango de entre 0 y
1. En particular, tres valores diferentes para i se establecieron para obtener tres valores
de caractersticas diferentes a partir de la porcin ascendente pre-grabado de la respuesta
del sensor y tres caractersticas adicionales con el mismo valores, pero para la porcin
de decaimiento de la respuesta del sensor, cubriendo as toda la dinmica de respuesta
del sensor. Para un anlisis ms detallado y discusin de estas caractersticas, as como
una ilustracin grfica de ellos por favor refirase a la seccin 2.3 y en la Figura 2,
respectivamente, del manuscrito anotado.
Una vez que se calculan las caractersticas antes mencionadas, se trata de formar un
vector de caractersticas que contiene el 8 caractersticas extradas de cada sensor en
particular multiplicado por los sensores 16 que aqu se consideran. Al final, el vector de
caractersticas 128-dimensional resultante que contiene todas las caractersticas que se
indica ms arriba (8 cuenta con un-16 sensores) se organiza de la siguiente manera:
i "R_1, | " R | _1, EMAi0.001_1, EMAi0.01_1, EMAi0 0,1 _1, EMAd0.001_1, EMAd0.01_1,
EMAd0.1_1, "R_2, | " R | _2, EMAi0.001_2, EMAi0.01_2, EMAi0.1_2, EMAd0.001_2,
EMAd0.01_2, EMAd0.1_2, ..., "R_16, | " R | _16, EMAi0.001_16, EMAi0.01_16,
EMAi0.1_16, EMAd0.001_16, EMAd0.01_16, EMAd0.1_16, donde: OEI "R_1 ? y
| "R | _1a ? es la "R y el normalizado" destaco R, respectivamente,
EMAi0.001_1 ?, EMAi0.01_1 ?, y EMAi0.1_1 ?, el emai del
transitorio en aumento parte de la respuesta del sensor de es igual a 0,001, 0,01 y 0,1,
respectivamente, y EMAd0.001_1 ?, EMAd0.01_1 ?, y EMAd0.1_1
?, el emai de la parte transitoria de decaimiento de la respuesta del sensor de es
igual a 0,001, 0,01 y 0,1, respectivamente, todo ello correspondiente al sensor n 1,
OEI "R_2 ? y | "R | _2 ? es la "R y el normalizado" destaco R,
respectivamente, EMAi0.001_2 ?, EMAi0.01_2 ?, y EMAi0.1_2 ?,
el emai del transitorio en aumento parte de la respuesta del sensor de es igual a
0,001, 0,01 y 0,1, respectivamente, y EMAd0.001_2 ?, EMAd0.01_2 ?, y
EMAd0.1_2 ?, el emai de la parte transitoria de decaimiento de la respuesta del
sensor para i es igual a 0,001, 0,01, y 0,1, respectivamente, todo ello correspondiente al
sensor # 2, y as sucesivamente hasta el sensor # 16, formando de este modo el vector de
caractersticas 128-dimensional que es que ser trada a los clasificadores para la
formacin. Para fines de procesamiento, los datos se organiza en diez lotes, cada uno que
contiene el nmero de mediciones por clase y mes indicados en la tabla siguiente. Esta
reorganizacin de los datos se hizo para asegurar que tiene una adecuada y lo distribuye
uniformemente posible nmero de experimentos en cada clase y el mes cuando se
entrena el clasificador. Dataset detalles de la organizacin. Cada fila corresponde a meses
que se combinaron para formar un lote: ID de lote Mes identificadores de lote 1 Meses 1 y
2 lotes 2 Meses 3, 4, 8, 9 y 10 lotes 3 Meses 11, 12, y 13 por lotes 4 Meses 14 y 15 Lote 5
Mes 16 lotes 6 Meses 17, 18, 19, y 20 lotes 7 Mes 21 lotes 8 Meses 22 y 23 por lotes 9
Meses 24 y 30 lotes 10 Mes 36 El formato de datos sigue el mismo estilo de codificacin
como en libsvm, en el que uno indica la clase de cada punto de datos pertenece a (1:
Etanol; 2: El etileno; 3: amonaco; 4: El acetaldehdo; 5: Acetona; 6: tolueno), y, a
continuacin, la coleccin de caractersticas en un formato de x: v, donde x representa el
nmero de funcin y V para el valor real de la caracterstica. Por ejemplo, en 1
1:15596.162100 2:1.868245 3:2.371604 4:2.803678 5:7.512213 | 128: -2.654529 El
nmero 1 ? representa el nmero de la clase (en este caso etanol), mientras que
los 128 restantes columnas muestran los valores reales de caractersticas para cada
grabacin medicin organizado como se describe anteriormente. Por ltimo, para que los
resultados presentados en el artculo asociado reproducible para el lector, por favor, utilice
el siguientes valores de los parmetros en la tarea de formacin: pliegues: 10
log2c = -5, 10, 1 log2g = -10, 5, 1 Escala las caractersticas en el conjunto de
entrenamiento adecuada a yacen entre . -1 y 1 Y utilizar los siguientes parmetros
de validacin cruzada: lotes C Gamma ( ) Tasa de 1 256,0 0,03125 98,8764 2 64.0
0.00390625 99.7588 3 128,0 0,03125 100,0 4 100,0 1,0 0,25 5 2,0 0.015625 99.4924 6
256,0 0,0009765625 99.5217 7 64.0 0.0625 99.9723 8 1.024,0 0.0078125 99.6599 9 2.0
0.00390625 100.0
N/A
Cita de pedidos:
Para citar este artculo:
Alexander Vergara y Shankar Vembu y Tuba Ayhan y Margaret A. Ryan y Margie L.
Homero y Ramn Huerta, gas qumico sensor de compensacin de deriva utilizando
conjuntos de clasificadores, Sensors and Actuators B: Qumica (2012) doi: 10.1016/j.snb
.2012.01.074.
Conjunto de sensores de 23/10/2013
gas Drift Dataset a
diferentes concentraciones
Dataset
Resumen:
Este archivo contiene 13.910 mediciones de 16 sensores qumicos expuestos a 6 gases
diferentes a diferentes niveles de concentracin.
Caractersticas Multivariado,
Nmero de
del Conjunto de 13910 rea: ordenador
instancias:
datos: Time-Series

Real 129 23/10/2013
clasificacin,
Nmero de
Tareas regresin, Valores
N/A accesos 6720
asociadas: clustering, perdidos?
Web:
Causa
Fuente:
Creadores: Alexander Vergara (Vergara '@' ucsd.edu)
BioCircutis Instituto
Universidad de California en San Diego
Los donantes del conjunto de datos:
Alejandro Vergara (Vergara '@' ucsd.edu)
Jordi Fonollosa (Fonollosa '@' ucsd.edu)
Irene Rodrguez-Lujan (irrodriguezlujan '@' ucsd.edu)
Ramn Huerta (rhuerta '@' ucsd.edu)
Datos Conjunto de Informacin :
Este conjunto de datos contiene 13.910 mediciones de 16 sensores qumicos expuestos a

6 gases a diferentes niveles de concentracin. Este conjunto de datos es una extensin de
la matriz de sensores de gas Drift conjunto de datos ([Web Link]), que proporciona ahora
la informacin sobre el nivel de concentracin en la que los sensores estaban expuestos
para cada medicin. El propsito principal de hacer este conjunto de datos libremente
accesibles en lnea es ofrecer un amplio conjunto de datos para el sensor y las
comunidades de investigacin de inteligencia artificial para desarrollar y probar estrategias
para resolver una amplia variedad de tareas, incluyendo la deriva del sensor , clasificacin,
regresin , entre otros.
El conjunto de datos se puede utilizar exclusivamente para fines de investigacin. Fines

comerciales estn totalmente excluidos. La citacin de ambos Vergara et al. Sensor de
compensacin de gas qumico corrimiento utilizando conjuntos de clasificadores ' y
Rodrguez- Lujn et al. On la calibracin de matrices de sensores para el
reconocimiento de patrones usando el nmero mnimo de experiments ?? Se requiere
(vase ms adelante).
El conjunto de datos se obtuvo durante el perodo de enero 2008 hasta 02 2011 (36
meses) en una instalacin de la plataforma de distribucin de gas situada en el Laboratorio
de seales qumicas en el Instituto BioCircuits de la Universidad de California San Diego.
La plataforma del sistema de medicin proporciona versatilidad para obtener las
concentraciones deseadas de las sustancias qumicas de inters con alta precisin y de
una manera altamente reproducible, minimizando as los errores comunes causados por la
intervencin humana y por lo que es posible concentrarse exclusivamente en los sensores
qumicos. Vase la referencia 1 para ms detalles sobre la configuracin experimental.
El conjunto de datos resultante comprende grabaciones de seis sustancias distintas puros

gaseosos , a saber, amonaco , acetaldehdo, acetona, etileno , etanol , y tolueno ,
dosificado a una amplia variedad de niveles de concentracin en los intervalos ( 50,1000 )
, ( 5500 ) , ( 12 , 1000 ) , ( 10.300 ) , ( 10.600 ) , y ( 10.100 ) ppmv , respectivamente .
Las respuestas de dichos sensores se leen en forma de la resistencia a travs de la capa

activa de cada sensor; por lo tanto, cada medicin produjo una serie de tiempo de 16
canales , cada uno representado por un conjunto de caractersticas que reflejan los
procesos dinmicos que se producen en la superficie del sensor en reaccin a la sustancia
qumica que se est evaluando . En particular , se consideran dos tipos distintos de
caractersticas en la creacin de este conjunto de datos : ( i ) la llamada funcin de estado
estacionario ( DR ) , que se define como el cambio de resistencia mxima con respecto a
la lnea de base y su versin normalizada DR ( DR dividido por el valor adquirido cuando el
vapor qumico est presente en la cmara de prueba ) . Y (II ) , un agregado de
caractersticas que reflejan la dinmica del sensor de la parte de transicin creciente /
descomposicin de la respuesta del sensor durante toda la medicin . Este conjunto de
caractersticas es una transformacin , tomado del campo de la econometra y
originalmente presentado a la comunidad quimio -deteccin por Muezzinoglu et al. ( 2009 )
, que convierte la parte transitoria de la respuesta del sensor en un escalar real por la
estimacin del valor mximo / mnimo y [k ] para el aumento / descomposicin porcin de
la media mvil exponencial de la respuesta del sensor :
y [k ] = ( 1 - Alfa ) y [k - 1 ] + Alfa ( R [ k ] - R [ k - 1 ] )
en donde R [ k ] es la resistencia del sensor medido en el instante k y Alfa es un parmetro

de suavizado escalar entre 0 y 1 .
En particular , tres valores diferentes para Alfa = 0,1 , 0,01 , 0,001 se establecieron para
obtener tres valores de caractersticas diferentes a partir de la porcin ascendente de la
respuesta del sensor y tres caractersticas adicionales con los mismos valores Alfa para la
porcin de decaimiento de la respuesta del sensor , cubriendo as toda la dinmica de
respuesta del sensor .
Por lo tanto , cada vector de caractersticas contiene las 8 caractersticas extradas de

cada sensor en particular , lo que resulta en un vector de caracterstica de 128
dimensiones ( 8 caractersticas x 16 sensores ) que contiene todas las caractersticas y
organizan de la siguiente manera :
DR_1 , | DR | _1 , EMAi0.001_1 , EMAi0.01_1 , EMAi0.1_1 , EMAd0.001_1 , EMAd0.01_1
, EMAd0.1_1 , DR_2 , | DR | _2 , EMAi0.001_2 , EMAi0.01_2 , EMAi0.1_2 , EMAd0.001_2
, EMAd0.01_2 , EMAd0.1_2 , ..., DR_16 , | DR | _16 , EMAi0.001_16 , EMAi0.01_16 ,
EMAi0.1_16 , EMAd0.001_16 , EMAd0.01_16 , EMAd0.1_16
donde: y DR_j | DR | _j son el R y las caractersticas de I normalizados , respectivamente.
EMAi0.001_j , EMAi0.01_j y EMAi0.1_j , son los Emar de la parte transitoria de subida de
la respuesta del sensor para Alfa 0,001, 0,01 y 0,1 , respectivamente. EMAd0.001_j ,
EMAd0.01_j y EMAd0.1_j , son Emar de la parte transitoria de decaimiento de la respuesta
del sensor para Alfa 0,001, 0,01 y 0,1 , respectivamente. El ndice j = 1 | 16 representa
el nmero del sensor , formando as el vector de caracterstica de 128 dimensiones .
A efectos de procesamiento , el conjunto de datos est organizado en diez lotes , cada

uno que contiene el nmero de mediciones por clase y mes indicados en las tablas
siguientes . Esta reorganizacin de los datos se hizo para asegurar que tiene una
adecuada y lo distribuye uniformemente posible nmero de experimentos en cada lote.
ID de lote Mes IDs

Lotes 1 Meses 1 y 2
Lote 2 Meses 3 , 4 , 8 , 9 y 10
Lote 3 Meses 11 , 12 , y 13
Lote 4 Meses 14 y 15
Lote 5 meses 16
Lote 6 Meses 17 , 18, 19 , y 20
Lote 7 meses 21
Lote 10 meses 36
Identificacin de lote : etanol , etileno , amonaco , acetaldehdo , acetona, tolueno

Lote 1 : 83, 30 , 70, 98 , 90, 74
Lote 2 : 100 , 109 , 532 , 334 , 164 , 5
Lote 3 : 216 , 240 , 275 , 490 , 365 , 0
Lote 4 : 12, 30 , 12, 43 , 64, 0
Lote 5 : 20 , 46, 63 , 40, 28 , 0
Lote 6 : 110, 29 , 606, 574, 514, 467
Lote 7 : 360, 744, 630, 662, 649, 568
Lote 8 : 40 , 33 , 143 , 30 , 30 , 18
Lote 9 : 100, 75 , 78, 55 , 61, 101
Lote 10 : 600 , 600 , 600 , 600 , 600 , 600
El conjunto de datos est organizada en archivos, cada uno representando un lote

diferente . Dentro de los archivos , cada lnea representa una medicin. El primero de
caracteres ( 1-6 ) cdigos del analito , seguido por el nivel de concentracin :
1 : El etanol ; 2 : El etileno ; 3 : El amonaco ; 4 : El acetaldehdo ; 5 : acetona; 6 : El

tolueno
El formato de datos sigue el mismo estilo de codificacin como en formato libsvm x : v,

donde x representa el nmero de funcin y V para el valor real de la caracterstica . Por
ejemplo , en
1 ; 10,000000 1:15596.162100 2:1.868245 3:2.371604 4:2.803678 5:7.512213 | 128: -
2.654529
El nmero 1 representa el nmero de clase (en este caso el etanol ) , el nivel de

concentracin de gas era 10ppmv , y los 128 restantes columnas muestran los valores
reales de caractersticas para cada grabacin medicin organizado como se describe
anteriormente .
N/A
Cita de pedidos:
La citacin de ambos documentos se requiere :
Alejandro Vergara y Shankar Vembu y Tuba Ayhan y Margaret A. Ryan y Margie L. Homer
y Ramn Huerta , gas qumico sensor de compensacin de deriva utilizando conjuntos de
clasificadores , Sensor and Actuators B: Qumica 166 ( 2012 ) 320-329 . doi :
10.1016/j.snb.2012.01.074 .
Irene Rodrguez - Lujn, Jordi Fonollosa, Alejandro Vergara, Margie Homer, Ramn
Huerta. En la calibracin de los conjuntos de sensores para el reconocimiento de patrones
usando el nmero mnimo de experimentos. Quimiometra y Sistemas Inteligentes de
laboratorio (2013) en la prensa.
Conjuntos de sensores de gas 06/05/2013

en la configuracin de muestreo
conjunto abierto de datos
Resumen:
El conjunto de datos contiene 18.000 grabaciones de series de tiempo a partir de una
plataforma de deteccin qumica en seis lugares diferentes en una instalacin de tnel de
viento, en respuesta a las diez sustancias gaseosas qumicas de alta prioridad.
Nmero de
del Conjunto de 18000 rea: ordenador
instancias:
datos: Time-Series

Real 1950000 06/05/2013
Nmero de
Tareas Valores
Clasificacin, N/A accesos 7183
Web:
Fuente:
Creadores:
Alejandro Vergara (vergara '@' ucsd.edu)
BioCircutis Instituto
Universidad de California en San Diego
Los donantes del conjunto de datos:

Alejandro Vergara (vergara '@' ucsd.edu)
Jordi Fonollosa (Fonollosa '@' ucsd.edu)
Marco Trincavelli (marco.trincavelli '@' oru.se)
Nikolai F. Rulkov (nrulkov '@' ucsd.edu)
Ramn Huerta (rhuerta '@' ucsd.edu)

Nmero de casos :
Mediciones de 18.000 veces de la serie grabados desde una plataforma de deteccin
qumica basada en matrices 72 sensor de gas de xido metlico .
Nmero de atributos (caractersticas) :

Cada medida contiene 72 series de tiempo registrados durante 260 segundos , cada
recogida a una frecuencia de muestreo de 100 Hz ( muestras por segundo ) .
El conjunto de datos tambin contiene el tiempo , la temperatura , y la informacin de
humedad relativa .
El conjunto de datos resultante incluye en ltima instancia, la serie 75 en tiempo
compuesto por 26.000 puntos.
Este archivo contiene 18.000 series cronolgicas de las grabaciones de medicin

obtenidos de un conjunto de 72 sensores de gas de xido de metal que componen nuestra
plataforma de deteccin utilizado en la deteccin e identificacin de sustancias gaseosas
qumicas potencialmente peligrosas en condiciones ambientales complejas , como se
informa en el manuscrito relacionado abajo . Nuestro objetivo primordial es hacer que
nuestra base de datos de acceso gratuito en lnea a los de investigacin y de aprendizaje
automtico comunidades quimio -deteccin , as como otras comunidades interesadas ,
para desarrollar soluciones competitivas alternativas pertinentes a las tareas de
discriminacin de gases con deteccin en entornos abiertos de muestreo , tales como el
que se persigue aqu , y / o de navegacin . El conjunto de datos se puede utilizar
exclusivamente para fines de investigacin. Fines comerciales estn totalmente excluidos .
El conjunto de datos se obtuvo de diciembre 2010 a abril 2012 ( 16 meses ) en una
instalacin de pruebas de investigacin - cama 2,5 m 1,2 m 0,4 m de tnel de viento
situado en el Instituto BioCircuits de la Universidad de California San Diego.
Especficamente , nuestro centro de investigacin personalizada , dotado de un sistema de
suministro de gas por ordenador supervisado de flujo de masa basado en un controlador
de flujo continuo , funciona en un modo de ciclo abierto de propulsin , mediante la
elaboracin continua de aire turbulento en externa y en todo el tnel y lo expulsa de nuevo
a la exterior, creando de ese modo un flujo de aire relativamente menos turbulento en
movimiento aguas abajo hacia el final del campo de prueba , que es particularmente
adecuado para aplicaciones que requieren aqu perseguidos inyectables agentes txicos
qumicos o mezclas explosivas ya que evita la saturacin . Siendo operado por un entorno
totalmente informatizado " controlado por un software de servidor robot jugador / etapa
programada en C + + en un PC equipado con el adecuado cards serial ", y con la
mnima intervencin humana , la instalacin del banco de pruebas de tnel de viento
diseado proporciona versatilidad para la liberacin de las sustancias qumicas de inters
a las concentraciones deseadas con gran precisin y de una manera altamente
reproducible durante todo el experimento y, simultneamente, en la preservacin de las
condiciones ambientales apropiadas para generar penachos de gas qumicos que exhiben
patrones turbulentos . Una ilustracin grfica de la instalacin de banco de pruebas de
tnel de viento diseado considerado en este estudio junto con las caractersticas de la
geometra del problema , as como la ubicacin exacta de la fuente de analitos qumicos y
plataforma de quimioterapia sensorial se presenta en la figura 2 del manuscrito citado a
continuacin. Los cuadros reales del tnel de viento diseado tambin se presentan en el
material complementario , figura S.1 del manuscrito adjunto.
El conjunto de datos resultante induce un problema de diez clases de discriminacin de
gas , que comprende las grabaciones de diez gases qumicos puros distintas, a saber
acetona , acetaldehdo , amoniaco , butanol , etileno , metano , metanol , monxido de
carbono , benceno y tolueno . El objetivo es identificar y discriminar los riesgos qumicos
mencionados en concentraciones relevantes, independientemente de la ubicacin de la
plataforma del sistema sensorial en el centro de investigacin de tnel de viento con
anotaciones , as como las condiciones ambientales y paramtricos inducidos en el
entorno ( por favor ver manuscrito para ms detalles) . Ver Tabla 1 en Vergara et a. 2013 (
manuscrito ms adelante) para obtener informacin especfica sobre la identidad de los
peligros qumicos analito , as como sus valores de concentracin nominal en la salida de
la fuente de gas en partes por milln por volumen ( ppmv ) . Por favor, consulte el
manuscrito a continuacin para ver informacin de la instalacin de banco de pruebas de
tnel de viento , as como para obtener informacin especfica sobre el procedimiento de
recogida de seguir y los parmetros de funcionamiento y ambientales utilizados durante la
creacin de la base de datos anteriormente mencionada.
La respuesta de la plataforma de sensores se lee de salida en la forma de la resistencia a

travs de la pelcula sensible activa de cada uno de los sensores de gas 72 que integran la
matriz de sensores ; por lo tanto , cada medicin produjo una serie de tiempo 72 canales ,
cada uno de los cuales representa por un 260 - segunda serie de tiempo recogida a una
velocidad de muestreo de 100 muestras por segundo ( Hz ) , lo que refleja todos los
cambios ambientales en el escenario evaluado . Para un anlisis ms detallado y
discusin sobre el tratamiento de las series de tiempo , as como una ilustracin grfica de
ellos , por favor refirase a las secciones 2 y 3 y la figura 4, respectivamente, del
manuscrito a continuacin.
Para los propsitos de manipulacin , los datos se organizan en carpetas once , cada uno
que contiene el nmero de mediciones por identidad de clase qumica y concentracin
nominal indicado anteriormente y se describe en la Tabla 2 del manuscrito . Por ejemplo la
carpeta denominada Toluene_200 ? significa el nombre de la identidad de gas es
el tolueno , el cual ha sido administrado a dosis de 200 ppmv . Cada carpeta contiene 6
carpetas, cada uno en representacin de la ubicacin de la lnea dentro de la zona de
pruebas del tnel de viento (posicin 1 , L1, al punto 6 , L6 , siendo L1 el punto ms
cercano a la fuente de gas ) del que fuera el conjunto de series de tiempo grabada. En
cada una de estas carpetas hay 300 archivos , cada uno de los cuales corresponden al
nmero de mediciones registradas en cada ubicacin en el tnel . El nombre de cada
archivo contiene la informacin del registro exacto de cada una de las mediciones
realizadas durante todo el experimento , que se organiza de la siguiente manera . Los
primeros 12 dgitos del nombre de archivo (por ejemplo , 201106060617 ) indican la fecha
y la hora en la que se recogi cada medida especfica , a partir del ao , mes , da y hora.
Los 4 ltimos dgitos en las siguientes 19 caracteres del nombre de archivo , ( por ejemplo
, board_setPoint_500V ) , indican el valor fijo de temperatura de funcionamiento ,
representada por un valor de tensin aplicada al elemento de calentamiento empotrado en
el sensor qumico , aplicado a toda la plataforma de deteccin , que puede adoptar valores
nominales de 4 a 6 V con un valor de resolucin de 0,5 V. Nota que el valor de 500V en el
ejemplo es una representacin grfica del valor de 5V aplicado al calentador el
sensora s . Para ms detalles sobre los principios de funcionamiento de los sensores
qumicos utilizados en nuestra plataforma , por favor refirase a la Seccin 2 del
manuscrito. Los 3 ltimos dgitos en los siguientes 16 caracteres del nombre de archivo
(por ejemplo , fan_setPoint_060 ) indica el valor del punto de las velocidades de giro
nominal del extractor de aire con motor de pasos mltiples utilizado para inducir la
velocidad de los flujos de aire artificial distinta en el viento tnel. Slo tres valores se
adoptaron en esta condicin : el valor 000 ? en el nombre de archivo , lo que
indica la velocidad de rotacin ms lenta ( 1.500 rpm) , el valor de 060 ? , lo que
indica el punto medio valor de la velocidad de rotacin del ventilador ( 3900rpm ) , y el
valor de 100 ? ? , que se refiere a la velocidad ms rpida inducida del ventilador,
5.500 rpm. Los ltimos 14 caracteres de la siguiente cadena de 27 caracteres (por ejemplo
, mfc_setPoint_Toluene_200ppm ) describen la identidad del analito y el valor de
concentracin para cada medicin en particular. Por lo tanto , el ejemplo que acabamos de
mencionar representa la clase correspondiente a la identidad del analito qumico
Toluene ? ? dosificado en el valor de la concentracin nominal de 200 ppm .
Finalmente , los ltimos 2 o 3 dgitos en el nombre (por ejemplo , p7 ? ) Describen
la ubicacin del punto de la lnea a la que la plataforma de quimioterapia sensorial se
encuentra en el tnel de viento . Tenga en cuenta que hay un cambio de dos nmeros en
el valor de esta posicin , es decir , el valor P7 en la actualidad representa la ubicacin de
la lnea 4 se ilustra en la Figura 2 de la citada manuscrito . Por ejemplo , en
201106060617_board_setPoint_500V_fan_setPoint_060_mfc_setPoint_Toluene_200ppm
_p7
toda la lnea de texto representa una medicin independiente de la plataforma - quimio
sensorial situado en la ubicacin de la lnea L4 y en respuesta a 200 ppm de tolueno
recogidos el da 06 Junio de 2011, a las 06:17 am (hora del Pacfico ) , con un operativo
tensin aplicada al calentador de 5V y una velocidad de rotacin nominal del ventilador de
escape de 3.900 rpm .
Una vez descrita la configuracin de nomenclatura adoptada en el conjunto de datos

generados , se describe la organizacin de la informacin en cada uno de los archivos
adjuntos del conjunto de datos. El formato de datos adjunta la informacin pertinente para
cada archivo de medidas, que contiene toda la serie histrica se ha indicado anteriormente
( 9 mdulos porttiles - 8 sensores de temperatura y los valores de humedad (oC y %,
respectivamente), extractor de aire de punto de referencia y valores de lectura, de flujo
msico controlador de leer valores reales (%) del valor de consigna y , y el tiempo de
lectura (ms) ) , que se organiza de la siguiente manera :
Tiempo de lectura ( ms) fan_reading fan_set_point * mcf1_setpoint mcf2_setpoint
mcf3_setpoint mcf1_read mcf2_read mcf3_read T RH 1 board1 (A- 8 sensores qumicos )
1 board2 (A- 8 sensores qumicos) 1 .... 1 board9 (A- 8 sensores qumicos )
donde: Reading tiempo (ms) ? es el paso del tiempo para cada grabacin ( en
ms , a una frecuencia de muestreo de 100 Hz), fan_set_point ? y
fan_reading ? , es la puesta a punto y la lectura real del ventilador de escape,
respectivamente, mcf1_setpoint ? mcf3_setpoint ? son los valores de
consigna de grado de apertura dadas a los controladores de flujo de masa de 1-3 durante
el experimento , respectivamente , mcf1_read ? mcf1_read ? son el
grado de apertura medido de los controladores de flujo de masa 1 a 3, respectivamente ,
OETA ? ? y Oera ? son la temperatura y la humedad relativa ( en oC y % ,
respectivamente) durante todo el experimento , y board1 (A- 8 sensores qumicos )
? ? board9 (A- 8 sensores qumicos ) ? ? son la serie 72 veces recoge como una
funcin del tiempo a partir de los sensores de gas 8 (en Ki ) integrar los mdulos del 1 al
9 en cada lugar , respectivamente , cada uno separado por el nmero 1 ? que se
erige como etiqueta indicadora , formando as las 72 series de tiempo respuestas del
sensor qumico que es improbable que el clasificador para la formacin como se describe
en el estudio . Tenga en cuenta que hay un espacio en blanco entre y entre cada columna
en el conjunto de datos.
As, por ejemplo , en
lnea 1 :
22250 0 0 100 100 100 103 103 105 22,22 63,43 1 476 555 803 497 775 885 873 843 1
346 545 635 616 571 552 773 745 1 397 509 660 638 755 744 745 657 1 420 510 525 531
504 650 719 715 1 2.201 449 652 1228 847 654 850 737 1 370 459 650 445 756 773 847
803 1 345 457 587 554 757 704 769 818 1 354 407 499 696 786 686 757 733 1 339 418
547 567 653 573 773 84
El nmero 22250 ? soportes para la grabacin en el momento 22.25s , los dos

nmeros siguientes representan el punto de referencia y el valor medido de la velocidad
del ventilador, los 6 nmeros siguientes indican el valor de consigna (en este caso , 100) y
los valores reales medidos de la MFC ( 103 , 103 , 105 ) , los nmeros de 22.22 ?
? y 63.43 ? presentarse a la temperatura y los valores de humedad en que la
grabacin de tiempo especfico , mientras que los 80 restantes columnas muestran los
valores de la serie de tiempo real para cada grabacin medicin organizado como se
describe ms arriba , y en el que el nmero 1 ? indica el lmite entre cada placa
del mdulo sensor. Las primera y novena tablas corresponden a las posiciones cerca de
las paredes , mientras que la placa 5 se encuentra en la lnea principal ortogonal a la
pluma de gas . Para conocer la ubicacin exacta de cada tarjeta , por favor refirase a la
Figura 2 del Artculo de revista mencionada.
*: Nos enteramos de que el valor de la lectura real del ventilador de escape registrado en
cada archivo no es del todo precisa , mostrando un 0 ? o otros valores aleatorios
para algunas de las grabaciones de medicin . Por favor desechar este valor de la
informacin y utilizar slo la informacin del punto de ajuste para el procesamiento ; El
valor es exacta.
Por ltimo , para que los resultados presentados en el artculo asociado reproducible para
el usuario de este archivo Lame , por favor utilice los valores hiper - parmetros descritos
en el manuscrito de la tarea de formacin.
.Documentos pertinentes:
Cita de pedidos:
Para citar este artculo:

Alejandro Vergara, Jordi Fonollosa, Jonas Mahiques, Marco Trincavelli, Nikolai Rulkov,
Ramn Huerta, en el desempeo de los conjuntos de sensores de gas en sistemas de
muestreo abiertos utilizando mquinas inhibidoras de Vectores Soporte, Sensors and
Actuators B: Chemical, disponible en Internet el 18 de mayo de 2013 ISSN 0925 -4005,
10.1016/j.snb.2013.05.027. ([Web Link])
Gisette Conjunto de datos 2008/02/29

Resumen:
Gisette es un problema de reconocimiento de dgitos escritos a mano. El problema es
separar el '4 dgitos altamente confusible 'y 9 ". Este conjunto de datos es uno de los cinco
conjuntos de datos del desafo de seleccin de caractersticas NIPS 2003.
Caractersticas
Nmero de
del Conjunto de Multivariado 13500 rea: ordenador
instancias:
datos:

Entero 5000 2008/02/29
Nmero de
Valores
Tareas asociadas: Casificacin N/A accesos 36305
perdidos?
Web:
Fuente :
a . propietarios originales
El conjunto de datos se construye a partir de los datos MNIST que se pone a disposicin
de Yann LeCun y Corinna Cortes en http://yann.lecun.com/exdb/mnist/ .
b . Donantes de base de datos

Esta versin de la base de datos estaba preparado para la variable y la funcin de
seleccin de referencia NIPS 2003 por Isabelle Guyon , 955 Creston Road, Berkeley , CA
94708 , EE.UU. ( isabelle '@' clopinet.com ) .
Los dgitos han sido de tamao normalizado y centrado una imagen de tamao fijo de
28x28 dimensin . Los datos originales fueron modificados para el propsito de la
seleccin de caractersticas desafo . En particular , los pxeles son muestras al azar en la
parte superior central de la entidad que contiene la informacin necesaria para eliminar la
ambigedad de 4 de las 9 y las funciones de orden superior fueron creados como
productos de estos pxeles para sumir el problema en un espacio mayor caracterstica
dimensional. Tambin hemos aadido una serie de caractersticas distractor llamado '
sondas ' que no tienen ningn poder predictivo . El orden de las caractersticas y los
patrones fueron aleatorizados .
Gisette - ex positiva . - Ex Negativo. - Total

Entrenamiento Conjunto - 3000 - 3000 - 6000
Conjunto de validacin - 500 - 500 - 1000
Prueba de Conjunto - 3250 - 3250 - 6500
Todos - 6750 - 6750 - 13500
Nmero de variables / caractersticas / atributos:
Bienes : 2.500
Sondas : 2500
Total: 5000
Este conjunto de datos es uno de los cinco conjuntos de datos utilizados en el desafo de
seleccin de caractersticas NIPS 2003 . Nuestra pgina web [Web Link] est todava
abierto para la presentacin despus de la exposicin . Informacin acerca de otros
problemas conexos se encuentran en: [Web Link] . El paquete CLOP incluye cdigo de
ejemplo para procesar estos datos : [Web Link] .
Todos los detalles sobre la preparacin de los datos se encuentran en nuestro informe
tcnico : Diseo de experimentos para el punto de referencia la variable de seleccin NIPS
2003 , Isabelle Guyon , julio de 2003 , [Web Link] (tambin incluido en el archivo de
conjunto de datos) . Dicha informacin se pondr a disposicin slo despus de la final del
desafo .
Los datos se dividen en entrenamiento , validacin y prueba. Valores objetivo slo se

proporcionan para los 2 primeros sets. Los resultados de rendimiento conjunto de pruebas
se obtienen mediante la presentacin de resultados de la prediccin a: [Web Link] .
Los datos estn en el siguiente formato:

dataname.param : Los parmetros y las estadsticas sobre los datos
dataname.feat : Identidades de las caractersticas ( retenidos , para evitar sesgar la
seleccin de caractersticas ) .
dataname_train.data : conjunto de entrenamiento ( una matriz regular coma delimitada ,
los patrones de lneas , las caractersticas de las columnas ) .
dataname_valid.data : conjunto de validacin .
dataname_test.data : Conjunto de prueba .
dataname_train.labels : Etiquetas (valores de verdad de las clases) para ejemplos de
entrenamiento .
dataname_valid.labels : etiquetas Conjunto de Validacin ( retenidos durante el punto de
referencia , pero proporcionadas ahora ) .
dataname_test.labels : Test establecidos de etiquetas ( retenido , por lo que los datos
todava pueden ser usados como un punto de referencia ) .
No proporcionamos informacin de atributos para evitar sesgar el proceso de seleccin de

caractersticas.

Isabelle Guyon , Steve Gunn, Masoud Nikravesh , Lofti Zadeh ( Eds. ) , extraccin de
caractersticas , fundamentos y aplicaciones . Los estudios en Tolerancia y Soft Computing
. Physica- Verlag, Springer. [Web Link]
Ver tambin :
Isabelle Guyon , et al, 2007 . Mtodos de referencia competitivos establece nuevas
normas para la seleccin de caractersticas de referencia NIPS 2003 . Pattern Recognition
Letters 28 (2007) 1438 ? 1444 .
Isabelle Guyon , et al . 2006 . La seleccin de caractersticas con el paquete CLOP .
Informe Tcnico. [Web Link] .
Cita de pedidos:
Isabelle Guyon , Steve R. Gunn , Asa Ben- Hur , Gideon Dror , 2004 . Resultado anlisis
del desafo de seleccin de caractersticas NIPS 2003 . En : NIPS . [Web Link] .
Sistema de cristal de los 1987/09/01
datos de identificacin
Resumen:
Desde EE.UU. Servicio de Ciencias Forenses; 6 tipos de vidrio; definida en trminos de su
contenido de xido (es decir, Na, Fe, K, etc.).
Caractersticas del
Nmero de
Conjunto de Multivariado 214 rea: Fsico
instancias:
datos:

Real 10 1987/09/01
Nmero de
Valores
Tareas asociadas: Clasificacin No accesos 99111
perdidos?
Web:
Fuente :
Creador:
B. alemn
Establecimiento Central de Investigacin
Servicio de Ciencias Forenses del Ministerio del Interior
Aldermaston , Reading, Berkshire RG7 4PN
Donante:
Vina Spiehler , Ph.D., DABFT

Diagnostic Products Corporation
(213) 776-0180 ( Ext. 3014 )
Via realiz una prueba de comparacin de su sistema basado en normas , BEAGLE , el

algoritmo del vecino ms prximo , y el anlisis discriminante. BEAGLE es un producto
disponible a travs de VRS Consulting, Inc.; 4676 Admiralty Way , Suite 206; Marina Del
Ray , CA 90292 (213) 827-7890 y fax: -3189 . Al determinar si el vidrio era un tipo de vidrio
" float " o no, se obtuvieron los siguientes resultados (# respuestas incorrectas ) :
Tipo de muestra - Beagle - NN - DA

Ventanas que se procesa flotador ( 87 ) - 10 - 12-21
Windows que no fueron: ( 76 ) - 19 - 16-22
El estudio de la clasificacin de los tipos de vidrio fue motivada por la investigacin

criminolgica. En la escena del crimen, el cristal izquierdo puede ser utilizado como
prueba... si se identifica correctamente!
. 1 nmero Id : 1-214
. 2 RI : ndice de refraccin
3 Na: . Sdico ( unidad de medida : por ciento en peso de xido correspondiente , as
como los atributos 4-10)
. 4 Mg : Magnesio
. 5 Al : Aluminio
. 6 Si: Silicio
. 7 K : Potasio
. 8 Ca : Calcio
9 Ba: . Bario
10 Fe : . Hierro
. 11 Tipo de vidrio : ( atributo de clase )
- 1 building_windows_float_processed
- 2 building_windows_non_float_processed
- 3 vehicle_windows_float_processed
- 4 vehicle_windows_non_float_processed (ninguno en esta base de datos )
- 5 contenedores
- 6 artculos de mesa
- 7 faros
Ian W. Evett y Ernest J. Spiehler . Regla de induccin en Ciencias Forenses .

Establecimiento Central de Investigacin. Servicio de Ciencias Forenses del Ministerio del
Interior . Aldermaston , Reading, Berkshire RG7 4PN
[Web Link]
Documentos que citan el Set1 datos:
Ping Zhong y Masao Fukushima. A regularizada no lisas Mtodo de Newton para

Mquinas de Vectores Soporte multi - clase. 2005 . [Ver Contexto ] .
Yuan Jiang y Zhi -Hua Zhou. Edicin de datos Formacin para kNN Clasificadores con
Red Neural Ensemble. ISNN ( 1 ) . 2004 . [Ver Contexto ] .
S. Agustn Su y Jennifer G. Dy . Mezclas jerrquicos automatizados de analizadores

principales componentes probabilsticos . ICML . 2004 . [Ver Contexto ] .
Xiaoli Z. Helecho y Carla Brodley . Solucin de problemas de conjunto clster particionado

grfico bipartito . ICML . 2004 . [Ver Contexto ] .
Vassilis Athitsos y Stan Sclaroff . Impulsar Clasificadores vecino ms cercano para el

Reconocimiento multiclase . Universidad de Boston Computer Tech Ciencia . Informe n ,
2004-006 . 2004 . [Ver Contexto ] .
Francesco Masulli . Un anlisis experimental de la dependencia entre los errores de bit de

palabra de cdigo en las mquinas de aprendizaje de las CEC . y Giorgio Valentini b , c.
Michail Vlachos y Carlotta Domeniconi y Dimitrios Gunopulos y George Kollios y Nick

Koudas . Tcnicas de reduccin de dimensionalidad no lineales para la clasificacin y
visualizacin . KDD . 2002 . [Ver Contexto ] .
Giorgio Valentini y Francesco Masulli . NEURObjects : una biblioteca orientada a objetos
para el desarrollo de redes neuronales . Neurocomputing , 48. 2002 . [Ver Contexto ] .
Krzysztof Krawiec . Gentica de construccin a base de programacin de funciones para

las tareas de aprendizaje automtico y Descubrimiento de Conocimiento . Instituto de
Ciencias de la Computacin , Universidad Tecnolgica de Poznan . 2002 . [Ver Contexto ]
.
DI SI y Francesco Masulli y Giorgio Valentini y DIS Universit # a di Genova . Dipartimento

di Informatica e Scienze dell ' Informazione . De 2001. [Ver Contexto ] .
Thierry Denoeux . Un clasificador de red neuronal basada en la teora Dempster -Shafer .

Transacciones de IEEE en Sistemas , Hombre y Ciberntica , Parte A, 30 . 2000 . [Ver
Contexto ] .
Francesco Masulli y Giorgio Valentini . Eficacia de los cdigos correctores de errores de

salida en multiclase Problemas de Aprendizaje . Sistemas Clasificadores mltiples. 2000 .
[Ver Contexto ] .
Nir Friedman y Iftach Najman . Redes de procesos de Gauss. UAI . 2000 . [Ver Contexto ] .
Carlotta Domeniconi y Jing Peng y Dimitrios Gunopulos . Una mquina adaptativa Mtricas
de Clasificacin de patrones . PNI. 2000 . [Ver Contexto ] .
Mark A. Hall. Basados en la correlacin Seleccin de caractersticas para fabricacin

discreta y numrico Aprendizaje Automtico Clase . ICML . 2000 . [Ver Contexto ] .
Christopher J. Merz . Usando Anlisis de Correspondencia para combinar clasificadores .

Aprendizaje Automtico , 36. 1999 . [Ver Contexto ] .
Eibe Frank y Ian H. Witten . Generando Regla Precisa Establece Sin Optimizacin Global.
ICML . De 1998. [Ver Contexto ] .
Georg Thimm y E. Fiesler . Ajuste ptimo de pesos , tasa de aprendizaje , y Gain.

ESEARCHREPRORTIDIA P. 1997 . [Ver Contexto ] .
Richard Maclin y David W. Opitz . Una evaluacin emprica de embolsado y Impulsar .

AAAI / IAAI . De 1997. [Ver Contexto ] .
Ethem Alpaydin . La votacin sobre mltiples vecinos ms cercanos condensada. Artif .

Intell . Rev , 11 . 1997 . [Ver Contexto ] .
Jan C. Bioch y D. Meer y Rob Potharst . Bivariado rboles de decisin . PKDD . De 1997.
[Ver Contexto ] .
D. Greig y Hava T. Siegelmann y Michael Zibulevsky . Una nueva clase de funciones

sigmoides activacin que no se saturan . De 1997. [Ver Contexto ] .
Christopher J. Merz . Combinando Clasificadores Utilizando el anlisis de

correspondencias . PNI. De 1997. [Ver Contexto ] .
de Informtica Universidad de Massachusetts. De 1997. [Ver Contexto ] .
Ron Kohavi y Mehran Sahami . Basado en un error y Discretizacin basada en la entropa

de caractersticas continuas . KDD . De 1996. [Ver Contexto ] .
Aynur Akkus y H. Altay Gvenir . K ms cercano Clasificacin Vecino en Feature

Proyecciones . ICML . De 1996. [Ver Contexto ] .
Thomas G. Dietterich y Ghulum Bakiri . Solucionar problemas de aprendizaje a travs de

multiclase Cdigos de salida de correccin de errores . CoRR , csAI/9501101 . De 1995.
[Ver Contexto ] .
Jitender S. Deogun y Vijay V. Raghavan y Hayri Sever. Explotando superior Aproximacin

in the Rough Set Metodologa . KDD . De 1995. [Ver Contexto ] .
Erin J. Bredensteiner y Kristin P. Bennett. Clasificacin multicategora por mquinas de

soporte vectorial . Departamento de Matemticas de la Universidad de Evansville. [Ver
Contexto ] .
Pramod Viswanath y M. Narasimha Murty y Shalabh Bhatnagar . Particin Basado Patrn

tcnica de sntesis con algoritmos eficientes para la cercana Clasificacin Vecino .
Departamento de Informtica y Automtica , Instituto Indio de Ciencia . [Ver Contexto ] .
Federico Divina y Elena Marchiori . Manejo de atributos continuos en un Evolutiva

inductivo Learner . Departamento de Ciencias de la Computacin Vrije Universiteit . [Ver
Contexto ] .
James J. Liu y James Estao y Yau Kwok . Un Algoritmo Gentico Induccin Regla
extendido . Departamento de Ciencias de la Universidad de Wuhan ordenador . [Ver
Contexto ] .
Francesco Masulli y Giorgio Valentini . Comparacin de los mtodos de descomposicin

para la Clasificacin . Istituto Nazionale per la Fisica della Materia DISI - Dipartimento di
Scienze e Informatica dell'Informazione . [Ver Contexto ] .

].
H. Altay T uvenir y Aynur Akkus . PONDERADO K MAS CERCANA CLASIFICACIN

VECINO DE PROYECCIONES DE FUNCIONES . Departamento de Ingeniera Informtica
y Ciencias de la Informacin de la Universidad Bilkent . [Ver Contexto ] .
Ron Kohavi y Brian Frasca . Caracterstica til subconjuntos y Rough Set reductos . Tercer
Taller Internacional de Rough Sets y Soft Computing . [Ver Contexto ] .
H. Altay Gvenir . Un algoritmo de aprendizaje de clasificacin robusta de caractersticas

irrelevantes . Universidad de Bilkent , Departamento de Ingeniera Informtica y Ciencias
de la Informacin . [Ver Contexto ] .
Suresh K. Choubey y Jitender S. Deogun y Vijay V. Raghavan y Hayri Sever. Una

comparacin de los algoritmos de seleccin de caractersticas en el contexto de los
clasificadores en bruto . [Ver Contexto ] .
Stefan Aeberhard y Danny Coomans y De Vel . EL RENDIMIENTO DE LOS MTODOS
ESTADSTICOS reconocimiento de patrones en los entornos de alta dimensin .
Universidad James Cook. [Ver Contexto ] .
Chih- Wei Hsu y Cheng -Ru Lin. Una Comparacin de Mtodos para Mquinas de
Vectores Soporte multi - clase. Departamento de Ciencias de la Computacin e Ingeniera
de la Informacin de la Universidad Nacional de Taiwn . [Ver Contexto ] .
C. Tito Brown y Harry W. Bullen y Sean P. Kelly y Robert K. Xiao y Steven G. Satterfield y
John G. Hagedorn y Judith E. Devaney . Visualizacin y Minera de Datos en un inmersivo
entorno 3D : Proyecto de Verano 2003 [Ver Contexto ] . .
. Eectiveness de correccin de errores mtodos de codificacin de salida en conjunto y

mquinas de aprendizaje monolticos. Dipartimento di Informatica , Universitdi Pisa. [Ver
Contexto ] .
Zhi -Hua Zhou y Xu Ying Liu. Formacin de coste razonable para Redes Neuronales con
Mtodos abordar el problema del desequilibrio de clases. [Ver Contexto ] .
Aynur Akku y H. Altay Gvenir . Ponderacin Caractersticas de k Clasificacin de vecinos

ms prximos en Feature Proyecciones . Departamento de Ingeniera Informtica y
Ciencias de la Informacin de la Universidad Bilkent . [Ver Contexto ] .
Francesco Masulli y Giorgio Valentini . Evaluacin cuantitativa de la dependencia entre las

salidas de los clasificadores de las CEC utilizando informacin mutua medidas basadas en
. Universitdi Genova DISI - Dipartimento di Scienze e Informatica dell'Informazione INFM -
Istituto Nazionale per la Fisica della Materia . [Ver Contexto ] .
Rong -En Fan y P. Chen -H y C -J Lin. Conjunto de trabajo de seleccin utilizando la

segunda informacin de la orden para la Formacin SVM . Departamento de Ciencias de
la Computacin e Ingeniera de la Informacin de la Universidad Nacional de Taiwn . [Ver
Contexto ] .
Yin Zhang y W. Nick Street. Embolsado con los gastos de adaptacin . Departamento de
Ciencias de la Administracin de la Universidad de Iowa, Iowa City . [Ver Contexto ] .
Ping Zhong y Masao Fukushima. Segundo Cono Orden Programacin Formulaciones para
Robust Clasificacin de clase mltiple. [Ver Contexto ] .
Pramod Viswanath y M. Narasimha Murty y Shalabh Bhatnagar . Un patrn de sntesis

tcnica para reducir la maldicin de la dimensionalidad efecto . E -mail . [Ver Contexto ] .
Cita de pedidos:

La supervivencia del 23/10/2013
conjunto de datos de
Haberman
Resumen:
Conjunto de datos contiene casos de estudio realizados en la supervivencia de los
pacientes que se haban sometido a ciruga para el cncer de mama.
Caractersticas del
Nmero de
Conjunto de Multivariado 306 rea: Vida
instancias:
datos:

Entero 3 1999/03/04
Nmero de
Valores
perdidos?
Web:
Fuente :
Donante:
Tjen - Sien Lim ( limt '@' stat.wisc.edu )
El conjunto de datos contiene los casos de un estudio que se realiz entre 1958 y 1970 en
la Universidad del Hospital Billings de Chicago en la supervivencia de los pacientes que se
haban sometido a ciruga para el cncer de mama.
1 . Edad del paciente en el momento de la operacin ( numrico )
. 2 aos de la paciente de la operacin ( ao - 1900 , numrico )
3 . Nmero de ganglios axilares positivos detectados ( numrico )
4 . Estado de supervivencia ( atributo de clase )
- 1 = el paciente sobrevivi 5 aos o ms
- 2 = el paciente falleci a 5 aos
Haberman , S. J. ( 1976 ) . Residuos generalizadas para los modelos log-lineales , Actas

de la 9 Conferencia Internacional de Biometra , Boston , pp 104-122 .
Landwehr , JM, Pregibon , D., y Shoemaker , AC ( 1984 ) , Modelos Grficos para la

evaluacin de modelos de regresin logstica (con debate), revista de la Asociacin
Americana de Estadstica 79: 61-83 .
Lo, W.-D. ( 1993 ) . Regresin logstica rboles, tesis de doctorado , Departamento de

Estadstica de la Universidad de Wisconsin, Madison, WI .
Dennis DeCoste . En cualquier momento de consultas Tuned -Machines Kernel a travs

de Factorizacin de Cholesky . SDM . 2003 . [Ver Contexto ] .
Dennis DeCoste . En cualquier momento salidas Intervalo de valor de para Mquinas

Kernel : Apoyo Rapido Clasificacin Vector Machine travs Distancia Geometra. ICML .
Yin Zhang y W. Nick Street. Embolsado con los gastos de adaptacin . Departamento de
Ciencias de la Administracin de la Universidad de Iowa, Iowa City . [Ver Contexto ] .
Denver Dash y Gregory F. Cooper. Averaging Modelo con Discrete Red bayesiana
clasificadores . Laboratorio de Sistemas de Decisin Inteligente Universidad Sistemas
Programa de Pittsburgh. [Ver Contexto ] .
Cita de pedidos:
Hayes-Roth Conjunto de 1989/03/01

datos
Resumen:
Tema: los sujetos humanos de estudio.
Caractersticas del
Nmero de
Conjunto de Multivariante 160 rea: Social
instancias:
datos:

Categrico 5 1989/03/01
Nmero de
Valores
perdidos?
Web:
Fuente :
Creadores:
Barbara y Frederick Hayes -Roth
Donante:
David W. Aha ( aha '@' ics.uci.edu ) ( 714) 856 a 8779

Esta base de datos contiene 5 atributos numricos de valor . Slo un subconjunto de 3 se

utilizan durante la prueba (el ltimo 3 ) . Adems, slo 2 de los 3 conceptos son " utilizados
" durante la prueba (es decir , aquellos con los prototipos 000 y 111 ) . He mapeado todos
los valores a sus equivalentes cero indexacin.
Algunos ejemplos podran ser colocados en cualquier categora 0 1. He seguido la

sugerencia de los autores, colocarlos en cada categora con la misma probabilidad .
He reemplazado los valores actuales de los atributos ( es decir , aficin tiene valores de
ajedrez , los deportes y los sellos ) con valores numricos . Creo que esta es la forma en
que los autores " hicieron esto al probar los modelos de categorizacin que se describen
en el documento . Me parece injusto. Mientras que los sujetos fueron capaces de llevar el
conocimiento de fondo para influir en los valores de los atributos y sus relaciones, los
algoritmos se proporcionan sin tal conocimiento. Estoy seguro de si los atributos distractor
2 (nombre y mana ) se presentan a los algoritmos de los autores durante la prueba. Sin
embargo, es claro que slo la edad , nivel de educacin , y los atributos de estado civil se
dan durante las pruebas de transferencia de los sujetos humanos .
. - 1 Nombre : distinto para cada instancia y representado numricamente

. - 2 aficin : los valores nominales que oscilan entre 1 y 3
. - 3 aos : los valores nominales que oscilan entre 1 y 4
. - 4 nivel educativo : los valores nominales que oscilan entre 1 y 4
. - 5 el estado civil : los valores nominales que oscilan entre 1 y 4
. - 6 clases : valor nominal de entre 1 y 3
Hayes - Roth , B. , y Hayes - Roth , F. ( 1977 ) . El aprendizaje de conceptos , el

reconocimiento y clasificacin de ejemplares . Journal of Verbal Learning and Verbal
Behavior , 16, 321-338 .
Anderson , J. R. , y Kline , P. J. ( 1979 ) . Un sistema de aprendizaje y sus implicaciones

psicolgicas. En Actas de la Sexta Conferencia Internacional Conjunta sobre Inteligencia
Artificial (pp. 16-21) . Tokio , Japn : Morgan Kaufmann .
Aha , D.W. ( 1989 ) . Aprendizaje incremental de descripciones independientes ,

superpuestas y escalonadas concepto con un proceso basado en instancias
framework.Manuscript entregada para su publicacin .
Bob Ricks y Dan Ventura . El entrenamiento de un red neuronal de Quantum . PNI. 2003 .
[Ver Contexto ] .

Universidad de la Columbia Britnica. De 1989. [Ver Contexto ] .
Anthony D. Griffiths y el Puente de Derek. Un criterio para la Evaluacin de los
clasificadores basados en la caja . Departamento de Ciencias de la Computacin de la
Universidad de York. [Ver Contexto ] .
de decisin de Lazy . Departamento de Estadstica y Stanford Linear Accelerator Center
de la Universidad de Stanford. [Ver Contexto ] .
Cita de pedidos:
Enfermedad del corazn 1988/07/01

Conjunto de datos
Resumen:
4 bases de datos: Cleveland, Hungra, Suiza, y la Administracin de Veteranos en Long
Beach.
Caractersticas
Nmero de
del Conjunto de Multivariado 303 rea: Vida
instancias:
datos:
Caractersticas del Categorico, Nmero de Fecha de

75 1988/07/01
atributo: Entero, Real atributos: Donacin
Nmero de
Valores
Tareas asociadas: Clasificacin Si accesos 145093
perdidos?
Web:
Fuente :
Creadores:
1 . Instituto Hngaro de Cardiologa. Budapest: Andras Janosi , M. D.

. 2 Hospital Universitario de Zurich , Suiza: William Steinbrunn , MD
. 3 Hospital Universitario de Basilea , Suiza: Matthias Pfisterer , MD
4 . V.A. Medical Center, Long Beach y Cleveland Clinic Foundation : Robert Detrano , MD ,
Ph.D.
Donante:
David W. Aha ( aha '@' ics.uci.edu ) ( 714) 856 a 8779
Esta base de datos contiene 76 atributos, pero todos los experimentos publicados se
refieren al uso de un subconjunto de 14 de ellos . En particular , la base de datos de
Cleveland es el nico que se ha utilizado por investigadores para ML
esta fecha. El campo " objetivo " se refiere a la presencia de la enfermedad cardaca en el
paciente . Es valor entero de 0 (sin presencia ) a 4. Experimentos con la base de datos de
Cleveland se han concentrado en simplemente intentar distinguir la presencia (valores
1,2,3,4) de ausencia ( valor 0 ) .
Los nombres y nmeros de seguro social de los pacientes fueron retirados recientemente
de la base de datos, reemplazados con valores ficticios .
Un archivo se ha " procesado" , que uno que contiene la base de datos de Cleveland. Los
cuatro archivos no procesados tambin existen en este directorio.
Para ver los costos de prueba ( donados por Peter Turney ) , por favor consulte la carpeta
" Costes"
Slo 14 atributos utilizados :

1 . # 3 (edad)
2 . 4 (el sexo)
3 . 9 ( cp )
4 . 10 ( trestbps )
5 . 12 ( chol )
6 . 16 (FBS )
7 . 19 ( restecg )
8 . 32 ( thalach )
9 . 38 ( exang )
10 . # 40 ( oldpeak )
11 . # 41 (pendiente)
12 . # 44 ( bis)
13 . # 51 ( Thal )
14 . # 58 (num ) ( el atributo predicho)
Documentacin atributo completo:

1 id: nmero de identificacin del paciente
2 ccf : nmero de seguro social ( reemplac esto con un valor ficticio de 0)
3 aos de edad : la edad en aos
4 sex : sexo ( 1 = hombre ; 0 = mujer )
5 painloc : la localizacin del dolor en el pecho ( 1 = subesternal ; 0 = otro tipo)
6 painexer ( 1 = provocadas por el esfuerzo ; 0 = otro tipo)
7 relrest ( 1 = aliviados despus de un descanso ; 0 = otro tipo)
8 pncaden (suma de 5 , 6 y 7 )
9 cp : Tipo de dolor en el pecho
- Valor 1: angina tpica
- Valor 2: angina atpica
- Valor 3 : El dolor no anginoso
- Valor 4 : asintomtica
10 trestbps : presin arterial en reposo (en mm Hg al ingreso en el hospital)
11 htn
12 Chol : cholestoral suero en mg / dl
13 Humo : Creo que esto es 1 = s; 0 = no ( que es o no fumador)
14 cigs ( cigarrillos por da )
15 aos ( nmero de aos de fumador )
16 FBS : ( glucemia en ayunas > 120 mg / dl ) ( 1 = true; 0 = false)
17 dm ( 1 = la historia de la diabetes ; 0 = sin antecedentes )
18 famhist : antecedentes familiares de enfermedad de la arteria coronaria ( 1 = s; 0 = no)
19 restecg : descansando resultados electrocardiogrficos
- Valor 0: normal,
- Valor 1: tener ST -T anormalidad de onda ( inversiones de la onda T y / o elevacin del
segmento ST o depresin de > 0,05 mV)
- Valor 2: muestra hipertrofia ventricular izquierda probable o definida por criterios Estes
20 ekgmo ( mes de lectura de ECG de ejercicio)
21 ekgday ( da de la lectura del ECG de ejercicio)
22 ekgyr ( ao de la lectura del ECG de ejercicio)
23 dig (digitalis utilizado furing ECG de esfuerzo : 1 = s; 0 = no)
24 prop ( bloqueador beta usado durante el ejercicio ECG: 1 = s; 0 = no)
25 nitr ( nitratos utilizados durante el ejercicio ECG : 1 = s; 0 = no)
26 pro ( antagonista del calcio usado durante el ejercicio ECG: 1 = s; 0 = no)
27 diurtico ( diurtico utilizado utilizado durante el ejercicio ECG: 1 = s; 0 = no)
28 proto : protocolo de ejercicio
1 = Bruce
2 = Kottus
3 = McHenry
4 = rpido Balke
5 = Balke
6 = Noughton
7 = moto 150 kpa min / min ( No estoy seguro si " kpa min / min" es lo que estaba escrito !)
8 = bicicleta 125 kPa min / min
9 = bicicleta 100 kPa min / min
10 = bicicleta 75 min kPa / min
11 = bicicleta 50 min kPa / min
12 = brazo ergmetro
29 thaldur : la duracin de la prueba de esfuerzo en cuestin de minutos
30 thaltime : momento en el que se observ ST medida la depresin
31 cumplen: mets lograron
32 thalach : frecuencia cardaca mxima alcanzada
33 thalrest : frecuencia cardaca en reposo
34 tpeakbps : pico de presin arterial el ejercicio ( primera de 2 partes )
35 tpeakbpd : pico de presin arterial el ejercicio ( segundo de 2 partes )
36 maniqu
37 trestbpd : presin arterial en reposo
38 exang : angina inducida por el ejercicio ( 1 = s; 0 = no)
39 xhypo : ( 1 = s; 0 = no)
40 oldpeak = ST depresin inducida por el ejercicio en relacin con resto
41 pendiente : la pendiente del segmento ST ejercicio pico
- Valor 1: ascedant
- Valor 2 : plano
- Valor 3 : downsloping
42 rldv5 : altura en reposo
43 rldv5e : altura en el pico
44 ca : nmero de grandes vasos ( 0-3) coloreado por flourosopy
45 restckm : irrelevante
46 exerckm : irrelevante
47 restef : fraccin de eyeccin raidonuclid resto ( sp? )
48 restwm : Pared del resto ( sp? ) Alteracin de la movilidad
0 = ninguno
1 = leve o moderada
2 = moderada o grave
3 = acinesia o dyskmem ( sp? )
49 exeref : fraccin de eyeccin del ejercicio radinalid ( sp? )
50 exerwm : Pared del ejercicio ( sp? ) Movimiento
51 thal : 3 = normal ; 6 = defecto fijo; 7 = defecto reversible
52 thalsev : no se utiliza
53 thalpul : no se utiliza
54 lbulo de la oreja : no se utiliza
55 cmo : mes de cateterismo cardaco ( sp? ) (Tal vez "call" )
56 CDAY : das de cateterismo cardaco ( sp? )
57 cyr : ao de cateterismo cardaco ( sp? )
58 num: diagnstico de las enfermedades del corazn ( estado de la enfermedad
angiogrfica )
- Valor 0: < estrechamiento 50% del dimetro
- Valor 1: > 50 % reduccin dimetro
(en cualquier vaso principal : atributos de 59 a 68 son los barcos )
59 lmt
60 ladprox
61 laddist
62 diag
63 cxmain
64 rama
65 om1
66 OM2
67 rcaprox
68 rcadist
69 lvx1 : no se utiliza
73 LVF : no se utiliza
74 cathef : no se utiliza
75 basura : no se utiliza
76 nombre: apellido del paciente ( reemplac esto con la cadena " nombre " ficticio)
Detrano , R. , Janosi , A. , Steinbrunn , W. , Pfisterer , M. , Schmid , J. , Sandhu , S. ,

Guppy , K. , Lee , S. , y Froelicher , V. ( 1989 ) . La solicitud internacional de un nuevo
algoritmo de probabilidad para el diagnstico de la enfermedad de la arteria coronaria .
American Journal of Cardiology , 64 304 - 310.
[Web Link]
David W. Aha & Dennis Kibler . " Prediccin basada en instancia de la presencia de
enfermedades cardiacas con la base de datos de Cleveland. "
[Web Link]
Gennari , J.H. , Langley , P, y Fisher , D. ( 1989 ) . Modelos de formacin de conceptos

incrementales. Inteligencia Artificial , 40, 11-61 .
[Web Link]
Zhi -Hua Zhou y Jiang Yuan . NeC4.5 : Neural Ensemble Based C4.5 . IEEE Trans .
Conocimiento . Datos Eng, 16 . 2004 . [Ver Contexto ] .
Remco R. Bouckaert y Eibe Frank . La evaluacin de la replicabilidad de las pruebas de

significacin para la comparacin de algoritmos de aprendizaje . PAKDD . 2004 . [Ver
Contexto ] .
Xiaoyong Chai y Li Deng y Qiang Yang y Charles X. Ling . Prueba sensibles a los costes
de clasificacin bayesiano . ICDM . 2004 . [Ver Contexto ] .

Kaizhu Huang y Yang Haiqin e Irwin Rey y Michael R. Lyu y Laiwan Chan. Sesgo Machine
Probabilidad Minimax para el diagnstico mdico . AMAI . 2004 . [Ver Contexto ] .
Jeroen Eggermont y Joost N. Kok y Walter A. Kosters . Programacin Gentica para la

clasificacin de los datos : la particin del espacio de bsqueda . SAC . 2004 . [Ver
Contexto ] .
David Page y Soumya Ray. Sesgo : una alternativa eficaz a Lookahead de rbol de
decisin de induccin . IJCAI . 2003 . [Ver Contexto ] .
Jinyan Li y Limsoon Wong. Uso de reglas para el Anlisis de Datos Bio- mdica : una
comparacin entre C4.5 y PCL . Waim . 2003 . [Ver Contexto ] .
Yuan Jiang Zhi y Hua Zhou y Zhaoqian Chen. Regla de aprendizaje basado en red
neuronal Ensemble. Actas de la Conferencia Conjunta Internacional sobre Redes
Neuronales . 2002 . [Ver Contexto ] .

. Thomas Melluish y Craig Saunders y Ilia Nouretdinov y Volodia Vovk y Carol S. Saunders
y yo Nouretdinov V. El marco tipicidad : una comparacin con el enfoque bayesiano .
Departamento de Ciencias de la Computacin . De 2001. [Ver Contexto ] .
travs Rechazo automatizado . IWANN ( 1 ) . De 2001. [Ver Contexto ] .
Peter L. Hammer y Alexander Kogan y Bruno Simeone y Sandor Szedm'ak . R u t c o r

Investigacin R e p o r t . Rutgers Centro de Investigacin Operativa de la Universidad de
Rutgers. De 2001. [Ver Contexto ] .
Rudy Setiono y Wee Kheng Leow . Fernn : Un Algoritmo para la extraccin rpida de las
Reglas de las redes neuronales . Appl . Intell , 12 . 2000 . [Ver Contexto ] .
Kristin P. Bennett y Ayhan Demiriz y John Shawe -Taylor . A Columna algoritmo de

generacin para impulsar . ICML . 2000 . [Ver Contexto ] .
Thomas G. Dietterich . Una Comparacin experimental de tres mtodos para construir

Conjuntos de rboles de decisin : El embolsado , Impulsar y aleatorizacin . Aprendizaje

Iaki Inza y Pedro Larraaga y Basilio Sierra y Ramn Etxeberria y Jos Antonio Lozano y
Jos Manuel Pea. En representacin del comportamiento de los algoritmos de
aprendizaje de clasificacin supervisada por redes bayesianas . Pattern Recognition
Letters , 20 . 1999 . [Ver Contexto ] .
Yoav Freund y Lorne Mason. La Decisin alterna Algoritmo Learning Tree . ICML . De
1999. [Ver Contexto ] .
Jinyan Li y Zhang Xiuzhen y Guozhu Dong y Kotagiri Ramamohanarao y Qun dom

Eficiente Minero de alta confidience reglas de asociacin sin apoyo Umbrales . PKDD . De
de Datos . Instituto de Ciencias de la Informacin . De 1999. [Ver Contexto ] .

de Informtica Universidad de Massachusetts. De 1997. [Ver Contexto ] .
Igor Kononenko y Edvard Simec y Marko Robnik - Sikonja . La superacin de la miopa de

los algoritmos de aprendizaje inductivo con RELIEFF . Appl . Intell , 7 . 1997 . [Ver
Contexto ] .
Jan C. Bioch y D. Meer y Rob Potharst . Bivariado rboles de decisin . PKDD . De 1997.
[Ver Contexto ] .
D. Randall Wilson y Roel Martinez . Aprendizaje Automtico : Actas de la Conferencia

Internacional Decimocuarta , Morgan. En Fisher. De 1997. [Ver Contexto ] .
Pedro Domingos . Control- Sensible Seleccin de caractersticas para los Estudiantes de

Lazy . Artif . Intell . Rev , 11 . 1997 . [Ver Contexto ] .
Floriana Esposito y Donato Malerba y Giovanni Semeraro . Un Anlisis Comparativo de

Mtodos para podar rboles de decisin . IEEE Trans . Patrn anal . Mach . Intell , 19 .
Kamal Ali y Michael J. Pazzani . Reduccin de errores a travs del aprendizaje mltiples
descripciones. Aprendizaje Automtico , 24 . 1996 . [Ver Contexto ] .
Ron Kohavi . El poder de las tablas de decisin . ECML . De 1995. [Ver Contexto ] .
Ron Kohavi y Dan Sommerfield . Funcin de seleccin de subconjuntos mediante el

mtodo de Envoltura : Overfitting y bsqueda dinmica espacial de topologa. KDD . De
Peter D. Turney . Clasificacin sensibles al precio: evaluacin emprica de una Decisin

gentica hbrido Tree Induccin algoritmo . CoRR , csAI/9503102 . De 1995. [Ver Contexto
].


Wl odzisl / aw Duch y Karol Grudzinski . Buscar y minimizacin global de los mtodos

basados en la similitud. Departamento de Mtodos Computacionales , Universidad Nicols
Coprnico. [Ver Contexto ] .
Rudy Setiono y Wee Kheng Leow . Generacin de reglas de red entrenada utilizando
podas rpido. Escuela de la Universidad Nacional de Computacin de Singapur. [Ver
Contexto ] .
Elena Smirnova e Ida G. Sprinkhuizen - Kuyper y yo Nalbantis y b . ERIM y Universiteit

Rotterdam. La votacin unnime el uso de mquinas de soporte vectorial . IKAT ,
Universiteit Maastricht. [Ver Contexto ] .
Krista Lagus y Esa Alhoniemi y Jeremias Seppa y Antti Honkela y Arno Wagner. ANLISIS
INDEPENDIENTE GRUPO VARIABLE EN APRENDIZAJE REPRESENTACIN
COMPACTOS PARA DATOS . Centro de Investigacin de Redes Neuronales de la
Universidad Tecnolgica de Helsinki. [Ver Contexto ] .
Chiranjib Bhattacharyya y Pannagadatta K. S y Alexander J. Smola . Un segundo orden

Cono Formulacin de Programacin para la clasificacin de datos perdidos .
Departamento de Informtica y el Instituto Indio de Automatizacin de la Ciencia. [Ver
Contexto ] .
Ayhan Demiriz y Kristin P. Bennett. Captulo 1 Aprendizaje Supervisado -

OPTIMIZATIONAPPROACHESTOSEMI . Departamento de Ciencias de la Decisin y
Sistemas de Ingeniera y el Departamento de Ciencias Matemticas , Instituto Politcnico
Rensselaer . [Ver Contexto ] .
Adil M. Bagirov y John Yearwood . Un nuevo algoritmo de optimizacin no lisos para el

agrupamiento. Centro de Informtica y Optimizacin Aplicada de la Facultad de
Informtica y Ciencias Matemticas de la Universidad de Ballarat . [Ver Contexto ] .

Contexto ] .
Bruce H. Edmonds . Usando localizadas ` chisme ' a la Estructura de Aprendizaje

Distribuido . Centro de Poltica Modelling. [Ver Contexto ] .
Kristin P. Bennett y Erin J. Bredensteiner . Geometra en el aprendizaje . Departamento de

Ciencias Matemticas del Instituto Politcnico Rensselaer . [Ver Contexto ] .

Wl / odzisl / aw Duch y Karol Grudzinski y Geerd H. F Diercksen . Distancia mnima

mtodos neuronales . Departamento de Mtodos Computacionales , Universidad Nicols
John G. Cleary y Leonard E. Trigg . Las experiencias con el OB 1 , una decisin ptima
Bayes Tree alumno. Departamento de Informtica Universidad de Waikato . [Ver Contexto
].
Glenn Fung y Sathyakama Sandilya y R. Bharat Rao. Regla de extraccin a partir de

Mquinas de Vectores Soporte lineales . Computer- Aided Diagnosis & Therapy , Siemens
Medical Solutions, Inc. [Ver Contexto ] .

Zhi -Hua Zhou y Xu Ying Liu. Formacin de coste razonable para Redes Neuronales con
Mtodos abordar el problema del desequilibrio de clases. [Ver Contexto ] .
Liping Wei y Russ B. Altman. Un sistema automatizado para la generacin de perfiles

comparativo de Enfermedades y hacer diagnsticos . Seccin de Informtica Universidad
de Stanford Escuela de Medicina de Medicina, MSOB X215 . [Ver Contexto ] .
Federico Divina y Elena Marchiori . Manejo de atributos continuos en un Evolutiva

inductivo Learner . Departamento de Ciencias de la Computacin Vrije Universiteit . [Ver
Contexto ] .
Ron Kohavi y George H. John . Seleccin de parmetros automtica mediante la

minimizacin de error estimado . Ciencias de la Universidad de Stanford Dpto. Informtica
. [Ver Contexto ] .
H. -T Lin y C. Lin - J . Un estudio sobre sigmoide Ncleos de SVM y la formacin de los no

- PSD Granos por mtodos de tipo SMO . Departamento de Ciencias de la Computacin e
Ingeniera de la Informacin de la Universidad Nacional de Taiwn . [Ver Contexto ] .

].
Cita de pedidos:
Los autores de las bases de datos han solicitado que todas las publicaciones que resulten
del uso de los datos son los nombres del investigador principal responsable de la
recopilacin de datos en cada institucin . Ellos seran:
1 . Instituto Hngaro de Cardiologa. Budapest: Andras Janosi , M. D.
. 2 Hospital Universitario de Zurich , Suiza: William Steinbrunn , MD
. 3 Hospital Universitario de Basilea , Suiza: Matthias Pfisterer , MD
4 . V.A. Medical Center, Long Beach y Cleveland Clinic Foundation : Robert Detrano , MD ,
Ph.D....
Hepatitis Conjunto de datos 1988/11/01
Resumen:
Desde G.Gong: CMU; Sobre todo booleano o numrico valorado tipos de atributos; Incluye
datos sobre los costos (donado por Peter Turney).
Caractersticas
Nmero de
del Conjunto de Multivariante 155 rea: Vida
instancias:
datos:

19 1988/11/01
Nmero de
Valores
perdidos?
Web:
Fuente:
Creador:
desconocido
Donante:
G.Gong (Universidad Carnegie-Mellon) a travs de

Bojan Cestnik
Jozef Stefan Institute
Jamova 39
61000 Ljubljana
Yugoslavia (tel.: (38) (61) 214-399 ext.287)}
Por favor, pregunte Gail Gong para ms informacin sobre esta base de datos.
1 clase:. MORIR, EN VIVO

. 2 EDAD: 10, 20, 30, 40, 50, 60, 70, 80
3 SEXO:. Macho, hembra
4 ESTEROIDES:. No, s
5 ANTIVIRALES:. No, s
6 FATIGA:. No, s
7 MALESTAR:. No, s
8 ANOREXIA:. No, s
. 9 BIG HGADO: no, s
. 10 FIRMA DE HGADO: no, s
. 11 PALPABLE BAZO: no, s
12 SPIDERS:. No, s
13 ASCITIS:. No, s
14 VARICES:. No, s
15 BILIRRUBINA:. 0.39, 0.80, 1.20, 2.00, 3.00, 4.00
- Vase la nota siguiente
. 16 FOSFATO ALK: 33, 80, 120, 160, 200, 250
17 SGOT:. 13, 100, 200, 300, 400, 500,
. 18 ALBMINA: 2.1, 3.0, 3.8, 4.5, 5.0, 6.0
. 19 del tiempo de protrombina: 10, 20, 30, 40, 50, 60, 70, 80, 90
20 HISTOLOGA:. No, s
El atributo BILIRRUBINA parece ser continuamente valorada. Comprob esto con el

donater, Bojan Cestnik, quien respondi:
Sobre el problema de la base de datos de la hepatitis y de la bilirrubina me gustara decir

lo siguiente: La bilirrubina es atributo continuo (= el nmero de que es "valores" en el
archivo ASDOHEPA.DAT es negativo); "Valores" se cotizan porque al hablar del atributo
continuo que no hay tal cosa como todos los valores posibles. Sin embargo, representan
los llamados valores "lmite"; de acuerdo con estos valores "lmite" el atributo puede ser
discretizado. Al mismo tiempo, debido a la atributo continuas, se puede realizar alguna
otra prueba ya que se conserva la informacin continua. Espero que estas lneas han al
menos aproximadamente respondido a su pregunta.
Diaconis, P. Y Efron, B. (1983). Mtodos ordenador-intensivos en Estadstica. Scientific

American, volumen 248.
[Web Link]
Cestnik, G., Konenenko, I, y Bratko, I. (1987). Asistente-86: Un Conocimiento Elicitation

herramienta para usuarios avanzados. En I.Bratko y N.Lavrac (Eds.) Avances en
Aprendizaje Automtico, 31-45, Sigma Press.
[Web Link]
Amaury Habrard y Marc Bernard y Marc Sebban. IOS Press Deteccin Subtrees
irrelevantes para mejorar Probabilstico Aprendiendo de datos con estructura de rbol.
Fundamenta Informaticae. 2004. [Ver Contexto].
Jinyan Li y Limsoon Wong. Uso de reglas para el Anlisis de Datos Bio-mdica: una
comparacin entre C4.5 y PCL. Waim. 2003. [Ver Contexto].

de conocimientos en bases de datos mdicas y biolgicas utilizando un clasificador de
Bayes / algoritmo evolutivo hbrido. Transacciones de IEEE en Sistemas, Hombre y
Ciberntica, Parte B, 33. 2003. [Ver Contexto].
Zhi-Hua Zhou y Jiang Yuan y Shifu Chen. La extraccin de reglas simblicas de conjuntos
de redes neuronales entrenadas. AI Commun, 16. 2003. [Ver Contexto].
Xiaoli Z. Helecho y Carla Brodley. Impulsar rboles de decisin de Lazy. ICML. 2003. [Ver
Contexto].
Takashi Matsuda y Hiroshi Motoda y Tetsuya Yoshida y Takashi Washio. Patrones de

minera de datos estructurados de induccin basado en grafos de haz-Wise. Discovery
Science. 2002. [Ver Contexto].
Wl / odzisl / aw Duch y Karol Grudzinski. Conjuntos de modelos basados en similitud.

Sistemas de Informacin Inteligentes. De 2001. [Ver Contexto].
Gary M. Weiss y Haym Hirsh. Un estudio cuantitativo de Pequeos disyunciones:
Experimentos y Resultados. Departamento de Ciencias de la Universidad de Rutgers
Computer. 2000. [Ver Contexto].
Petri Kontkanen y Petri Myllym y Tomi Silander y Henry Tirri y Peter Gr. En las
distribuciones predictivas y las redes bayesianas. Departamento de Ciencias de la
Computacin de la Universidad de Stanford. 2000. [Ver Contexto].
David W. Opitz y Richard Maclin. Populares Ensemble Mtodos: Un estudio emprico. J.

Artif. Intell. Res.. (JAIR, 11. 1999. [Ver Contexto].
Yk Huhtala y Juha Krkkinen y Pasi Porkka y Hannu Toivonen. Descubrimiento eficiente

de las dependencias funcionales y aproximadas utilizando particiones. ICDE. De 1998.
[Ver Contexto].
. Seleccin Prototipo para compuestos Clasificadores vecino ms cercano. Departamento

de Informtica Universidad de Massachusetts. De 1997. [Ver Contexto].
Floriana Esposito y Donato Malerba y Giovanni Semeraro. Un Anlisis Comparativo de

Mtodos para podar rboles de decisin. IEEE Trans. Patrn anal. Mach. Intell, 19. 1997.
[Ver Contexto].
Ron Kohavi. El poder de las tablas de decisin. ECML. De 1995. [Ver Contexto].
Peter D. Turney. Clasificacin sensibles al precio: evaluacin emprica de una Decisin

gentica hbrido Tree Induccin algoritmo. CoRR, csAI/9503102. De 1995. [Ver Contexto].
Christophe Giraud y Tony Martnez y Christophe G. Giraud-Carrier. Universidad del

Departamento de Ciencias de la Computacin de la ILA Bristol: Combinar inductivo de
aprendizaje con el conocimiento previo y razonamiento. De 1995. [Ver Contexto].
Gabor Melli. Un enfoque basado en modelos perezoso en On-Line Clasificacin.

Universidad de la Columbia Britnica. De 1989. [Ver Contexto].
Zhi-Hua Zhou y Xu Ying Liu. Formacin de coste razonable para Redes Neuronales con
Mtodos abordar el problema del desequilibrio de clases. [Ver Contexto].
Rafael S. Parpinelli y Heitor S. Lopes y Alex Alves Freitas. CUARTA PARTE:

algoritmo para la Clasificacin Regla Discovery. CEFET-PR, Curitiba. [Ver Contexto].
Wl / odzisl / aw Duch y Rafal Adamczak y Geerd H. F Diercksen. Redes Neuronales de

perspectiva basada Similitud. Departamento de Mtodos Computacionales, Universidad
Nicols Coprnico. [Ver Contexto].
Wl / odzisl / aw Duch y Karol Grudzinski y Geerd H. F Diercksen. Distancia mnima

mtodos neuronales. Departamento de Mtodos Computacionales, Universidad Nicols
Coprnico. [Ver Contexto].
Wl odzisl y Rafal Adamczak y Krzysztof Grabczewski. Optimizacin de reglas lgicas

derivadas de procedimientos neuronales. Departamento de Mtodos Computacionales,
Universidad Nicols Coprnico. [Ver Contexto].
Wl / odzisl / aw Duch y Rafal Adamczak y Geerd H. F Diercksen. Clasificacin, Asociacin

y el patrn de finalizacin utilizando neuronales Mtodos basados en la similitud.
Departamento de Mtodos Computacionales, Universidad Nicols Coprnico. [Ver
Contexto].
Elena Smirnova e Ida G. Sprinkhuizen-Kuyper y yo Nalbantis y b. ERIM y Universiteit

Rotterdam. La votacin unnime el uso de mquinas de soporte vectorial. IKAT,
Universiteit Maastricht. [Ver Contexto].
Rafael S. Parpinelli y Heitor S. Lopes y Alex Alves Freitas. Un sistema basado en Colonia
de Hormigas para minera de datos: Aplicaciones a los datos mdicos. CEFET-PR, CPGEI
Av. Sete de Setembro, 3165. [Ver Contexto].
Suresh K. Choubey y Jitender S. Deogun y Vijay V. Raghavan y Hayri Sever. Una

comparacin de los algoritmos de seleccin de caractersticas en el contexto de los
clasificadores en bruto. [Ver Contexto].
Takao Mohri y Hidehiko Tanaka. Una de indexacin ptima Ponderacin Criterio de caso
tanto numrico y atributos simblicos. Informacin Ingeniera Curso de la Facultad de
Ingeniera de la Universidad de Tokio. [Ver Contexto].
Wl / odzisl / aw Duch y Rafal / Adamczak Email: duchraad @ fs. uni. Torun. pl. Mtodos
estadsticos para la construccin de las redes neuronales. Departamento de Mtodos
Computacionales, Universidad Nicols Coprnico. [Ver Contexto].
Chris Drummond y Robert C. Holte. C4.5, desequilibrio de clases, y costo Sensibilidad:

Por qu sub-muestreo late sobremuestreo. Instituto para la Tecnologa de la Informacin,
el Consejo de Investigacin Nacional de Canad. [Ver Contexto].
Alexander K. Seewald. Disertacin hacia la comprensin de apilamiento Los estudios de

akademischen Grados eines der Doktors technischen Naturwissenschaften. [Ver
Contexto].
Ida G. Sprinkhuizen-Kuyper y Elena Smirnova y yo Nalbantis. Confiabilidad produce

ganancia de informacin. IKAT, Universiteit Maastricht. [Ver Contexto].
Christophe Giraud y Tony Martnez. RED INCREMENTAL adinmica QUE APRENDE

POR DISCRIMINACIN. AA. [Ver Contexto].
Federico Divina y Elena Marchiori. Manejo de atributos continuos en un Evolutiva inductivo

Learner. Departamento de Ciencias de la Computacin Vrije Universiteit. [Ver Contexto].
Cita de pedidos:

HIGGS Data Set 02/12/2014
Resumen:
Este es un problema de clasificacin para distinguir entre un proceso de seal que
produce bosones de Higgs y un proceso de fondo que no lo hace.
Caractersticas
Nmero de
del Conjunto de N/A 11000000 rea: Fsico
instancias:
datos:

Real 28 02/12/2014
Nmero
Tareas Valores de
Clasificacin N/A 6260
asociadas: perdidos? accesos
Web:
Fuente :
Daniel Whiteson daniel '@' uci.edu , Profesor Asistente , Fsica y Astronoma , Universidad
. de California Irvine
Los datos se han producido utilizando simulaciones de Monte Carlo . Los primeros 21
elementos (columnas 2-22 ) son propiedades cinemticas medidos por los detectores de
partculas en el acelerador . Los ltimos siete caractersticas son funciones de las primeras
21 funciones ; estas son las caractersticas de alto nivel procedentes de los fsicos para
ayudar a discriminar entre las dos clases . Hay un inters en el uso de mtodos de
aprendizaje profundas para evitar la necesidad de los fsicos para desarrollar
manualmente dichas caractersticas. Resultados de referencia que utilizan rboles de
decisin bayesiana a partir de un paquete de fsica estndar y las redes neuronales de 5
capas se presentan en el documento original . Los ltimos 500.000 ejemplos se utilizan
como una prueba de conjunto .
La primera columna es la etiqueta de clase , seguido de las 28 caractersticas . Para

obtener informacin detallada acerca de cada funcin ver el documento original .
Baldi, Sadowski y Whiteson , Bsquedas mejoradas para partculas exticas con tcnicas
de aprendizaje profundo , ( en la presentacin ) .
Cita de pedidos:
Baldi, Sadowski y Whiteson , Bsquedas mejoradas para partculas exticas con tcnicas
de aprendizaje profundo , ( en la presentacin ) .
Hill-Valley Data Set 2008/03/20
Resumen:
Cada registro representa 100 puntos en un grfico bidimensional. Cuando se trazan en
orden (de 1 a 100) como la coordenada Y, los puntos van a crear ya sea un Hill (una
"protuberancia" en el terreno) o un valle (un "inmersin" en el terreno).
Caractersticas del
Nmero de
Conjunto de Secuencial 606 rea: N/A
instancias:
datos:

Real 101
2008/03/20
Nmero de
Valores
Tareas asociadas: Clasificacin N/A accesos 33045
perdidos?
Web:
Fuente:
Lee Graham (lee '@' stellaralchemy.com)
Franz Oppacher (Oppacher '@' scs.carleton.ca)

Carleton University, Departamento de Ciencias de la Computacin
Unidad de Investigacin en Sistemas Inteligentes
1125 Colonel By Drive, Ottawa, Ontario, Canad, K1S5B6
Cada registro representa 100 puntos en un grfico bidimensional. Cuando se trazan en

orden (de 1 a 100) como la coordenada Y, los puntos van a crear ya sea un Hill (una
"protuberancia" en el terreno) o un valle (un "inmersin" en el terreno).
Hay seis archivos, como sigue:
(A) Hill_Valley_without_noise_Training.data
(B) Hill_Valley_without_noise_Testing.data
Estos dos primeros conjuntos de datos (sin ruido) son un par conjunto de entrenamiento /
prueba donde las colinas o valles tienen una transicin sin problemas.
(C) Hill_Valley_with_noise_Training.data
(D) Hill_Valley_with_noise_Testing.data
Estos prximos dos conjuntos de datos (con ruido) son un par conjunto de entrenamiento /
prueba donde el terreno es desigual, y la colina o valle no es tan evidente cuando se ve de
cerca.
(E) Hill_Valley_sample_arff.text
El archivo de ejemplo ARFF es til para la creacin de experimentos, pero no es

necesario.
(F) Hill_Valley_visual_examples.jpg
Este archivo grfico muestra dos casos de ejemplo de los datos.
1-100: Etiquetado "X # #". Valores de punto flotante (numrico)

101: "clase" con etiqueta. Binary {0, 1} {representando valle, colina}
1. No publicada. Evaluacin del conjunto de datos por diferentes algoritmos de aprendizaje

en el entorno de Waikato de Anlisis del Conocimiento (WEKA).
Cita de pedidos:
Caballo clico Conjunto de 1989/08/06

datos
Resumen:
Atributos Bien documentado; 368 casos con 28 atributos (continuos, discretos, y
nominales); 30% de los valores que faltan.
Caractersticas
Nmero de
del Conjunto de Multivariado 368 rea: Vida
instancias:
datos:

27 1989/08/06
Nmero de
Valores
perdidos?
Web:
Fuente :
Creadores:
Mara McLeish & Matt Cecile

Departamento de Ciencias de la Computacin
Universidad de Guelph
Guelph , Ontario, Canada N1G 2W1
mdmcleish '@' water.waterloo.edu
Donante:
Will Taylor ( taylor '@' pluto.arc.nasa.gov )
2 archivos de datos :
- Caballos colic.data : 300 casos de formacin
- Caballos colic.test : 68 casos de prueba
Atributos de clase posible: 24 ( si la lesin es quirrgica)

- Los dems son: 23 , 25 , 26 y 27
Muchos tipos de datos: (continua, discreta , y nominal)
1 : la ciruga?
1 = S, se someti a una ciruga
2 = Se fue tratado sin ciruga
2 : Edad
1 = caballo adulto
2 = joven ( < 6 meses)
3 : Nmero del Hospital

- Identificacin numrica
- El nmero de caso asignado a caballo ( no puede ser nica si el caballo es tratado > 1
hora )
Temperatura rectal : 4
- lineal
- En grados celsius .
- Una temperatura elevada puede ocurrir debido a la infeccin .
- La temperatura se puede reducir cuando el animal est en estado de shock tarde
- La temperatura normal es de 37,8
- Este parmetro suele cambiar a medida que el problema avanza, por ejemplo . que
puede comenzar normal, entonces se elevan debido a la lesin , pasar de nuevo a travs
del rango normal como el caballo entra en shock
5 : pulso
- lineal
- La frecuencia cardiaca en pulsaciones por minuto
- Es un reflejo de la condicin del corazn : 30 -40 es normal para los adultos
- Raro tener un tipo inferior al de la normalidad , aunque los caballos deportivos pueden
tener una tasa de 20 a 25
- Los animales con lesiones dolorosas o que sufren de shock circulatorio pueden tener un
ritmo cardaco elevado
6 : la frecuencia respiratoria
- lineal
- Tarifa normal es de 8 a 10
- Utilidad es dudosa debido a las grandes fluctuaciones
7 : la temperatura de las extremidades

- Una indicacin subjetiva de la circulacin perifrica
- Valores posibles:
1 = Normal
2 = Warm
3 = fro
4 = Fra
- Cool a extremidades fras indican posibles descargas
- Extremidades calientes deben correlacionar con una temperatura rectal elevada .
8 : pulso perifrico
- subjetiva
- Los valores posibles son :
1 = normal
2 = aumentaron
3 = la reduccin de
4 = ausente
- P.p. normal o aumentada son indicativos de una circulacin adecuada mientras reducida
o ausente indican mala perfusin
9 : membranas mucosas
- Una medicin subjetiva del color
- Los valores posibles son :
1 = rosa normales
2 = rosa brillante
3 = rosa plido
4 = plido ciantica
5 = rojo brillante / inyectado
6 = ciantica oscura
- 1 y 2 probablemente indican una circulacin normal o levemente aumentada
- 03 de mayo producirse una descarga temprana
- 4 y 6 son indicativos de grave compromiso circulatorio
- La figura 5 es ms indicativo de una septicemia
10 : tiempo de llenado capilar

- Un juicio clnico. Cuanto ms larga sea la recarga , el ms pobre de la circulacin
- Los valores posibles
1 = <3 segundos
2 = > = 3 segundos
11 : dolor - un juicio subjetivo del nivel de dolor del caballo

- Valores posibles:
1 = alerta , no hay dolor
2 = deprimido
3 = dolor leve intermitente
4 = dolor intenso intermitente
5 = dolor intenso continuo
- No debe ser tratado como una variable ordenada o discreta !
- En general, el ms doloroso , lo ms probable es que requieren ciruga
- El tratamiento previo de dolor puede enmascarar el nivel de dolor en alguna medida
12 : peristaltismo
- Una indicacin de la actividad en el intestino del caballo. Como el intestino se vuelve ms
distendido o el caballo se vuelve ms txica , la actividad disminuye
- Valores posibles:
1 = hypermotile
2 = normal
3 = hipomotilidad
4 = ausente
13 : distensin abdominal
- Un parmetro importante .
1 = ninguno
2 = leve
3 = moderado
4 = grave
- Un animal con distensin abdominal es probable que sea doloroso y han reducido la
motilidad intestinal .
- Un caballo con distensin abdominal severa es probable que requiera ciruga slo tio
aliviar la presin
14 : sonda nasogstrica
- Esto se refiere a cualquier gas que sale del tubo
- Valores posibles:
1 = ninguno
2 = leve
3 = significativo
- Una tapa de gas grande en el estmago es probable que d el malestar caballo
15 : reflujo nasogstrica
1 = ninguno
2 = > 1 litro
3 = < 1 litro
- La mayor cantidad de reflujo , ms probabilidad de que hay una cierta serio obstculo
para el paso de fluido desde el resto del intestino
16 : nasogstrica PH reflujo
- lineal
- Escala es de 0 a 14 con 7 es neutro
- Valores normales estn en el rango de 3 a 4
17 : examen rectal - heces

1 = normal
2 = aumentaron
3 = disminuyeron
4 = ausente
- Heces ausentes probablemente indica una obstruccin
18 : abdomen
1 = normal
2 = otro
3 = heces firmes en el intestino grueso
4 = distiende el intestino delgado
5 = distiende el intestino grueso
- 3 es probablemente una obstruccin causada por una retencin mecnica y se trata
normalmente de vista mdico
- 4 y 5 indican una lesin quirrgica
19 : hematocrito
- lineal
- El # de clulas rojas en volumen en la sangre
- Rango normal es de 30 a 50 El nivel aumenta a medida que la circulacin se convierte en
peligro o cuando el animal se deshidrata. .
20 : protena total
- lineal
- Los valores normales se encuentran en el rango de 6 a 7,5 ( g / dL)
- Cuanto mayor sea el valor mayor es la deshidratacin
Apariencia abdominocentesis : 21
- Se introduce una aguja en el abdomen y el lquido del caballo se obtiene de
la cavidad abdominal
- Valores posibles:
1 = claro
2 = nublado
3 = serosanguinolento
- Normal de lquido es claro , mientras turbia o serosanguinolento indica un intestino
comprometido
Protena total abdomcentesis : 22

- lineal
- Cuanto mayor sea el nivel de protena ms probable es tener un intestino comprometida.
Los valores estn en g / dl
23 : resultados
- Lo que finalmente sucedi con el caballo?
- Valores posibles:
1 = duracin
2 = murieron
3 = se practic la eutanasia
24 : lesin quirrgica?
- Retrospectivamente , era el problema (lesin) quirrgica?
- Todos los casos se operan ya sea sobre o realiz la autopsia a fin de que este valor y el
tipo de lesin son siempre conocidos
- Valores posibles:
1 = S
2=n
25 , 26, 27 : tipo de lesin

- Primer nmero es el sitio de la lesin
1 = gstrica
2 = SM intestino
3 = lg de colon
4 = lg de colon y el ciego
5 = ciego
6 = colon transverso
7 = retomo / colon descendente
8 = tero
9 = vejiga
11 = todos los sitios intestinales
00 = ninguno
- Segundo nmero es el tipo
1 = fcil
2 = estrangulacin
3 = inflamacin
4 = otro
- Tercer nmero es el subtipo
1 = mecnico
2 = paraltica
0=n/a
- Cuarto nmero es cdigo especfico
1 = la obturacin
2 = intrnseca
3 = extrnseca
4 = adinmica
5 = vlvulo / torsin
6 = intussuption
7 = tromboemblica
8 = hernia
9 = lipoma / encarcelamiento slenic
10 = desplazamiento
0=n/a
28 : cp_data
- Son datos de la patologa presente en este caso?
1 = S
2=n
- Esta variable no es significativo ya que los datos patologa no se incluye o se recoge
para estos casos
N/A
Julie Greensmith . Nuevas fronteras para un sistema inmune artificial . Digital Media
Laboratorio de Sistemas HP Laboratorios Bristol. 2003 . [Ver Contexto ] .
Richard Nock y Marc Sebban y David Bernard . A SIMPLE REGLA LOCAL DE

ADAPTACIN MS CERCANO VECINO CON APLICACIN A LA PREDICCIN DE LA
CONTAMINACIN . Revista Internacional de Reconocimiento de Formas e Inteligencia
Artificial Vol. . 2003 . [Ver Contexto ] .
Huan Liu y Hiroshi Motoda y Lei Yu. Seleccin de caractersticas con Muestreo Selectivo .
ICML . 2002 . [Ver Contexto ] .
Marc Sebban y Richard Nock y Stphane Lallich . Detener Criterio de tcnicas de

reduccin de datos Impulsar basada en : a partir de binario a multiclase problema . Journal
of Machine Learning Research , 3 . 2002 . [Ver Contexto ] .
Mukund Deshpande y George Karypis . El uso conjunto de los valores de los atributos
para la clasificacin. CIKM . 2002 . [Ver Contexto ] .

Doctor en Filosofa en la Universidad de Waikato . De 1999. [Ver Contexto ] .
Eibe Frank y Ian H. Witten . Generando Regla Precisa Establece Sin Optimizacin Global.
ICML . De 1998. [Ver Contexto ] .


Kai Ming Ting y Ian H. Witten . Generalizacin Stacked : cuando funciona . Departamento
de Informtica Universidad de Waikato . [Ver Contexto ] .

].
James J. Liu y James Estao y Yau Kwok . Un Algoritmo Gentico Induccin Regla
extendido . Departamento de Ciencias de la Universidad de Wuhan ordenador . [Ver
Contexto ] .
Cita de pedidos:
Vivienda de conjunto de 1993/07/07

datos
Resumen:
Tomado de la biblioteca StatLib.
Caractersticas del
Nmero de
Conjunto de Multivariado 506 rea: N/A
instancias:
datos:

14 1993/07/07
Nmero de
Valores
Tareas asociadas: Regresin No accesos 97678
perdidos?
Web:
Fuente :
Origen :
Este conjunto de datos fue tomada de la biblioteca StatLib que se mantiene en la

Universidad Carnegie Mellon .
Creador:
Harrison , D. y Rubinfeld , D. L.
' Precios hednicos y la demanda de aire limpio ', J. Environ . Economa y Gestin , vol.5,
81-102 , 1978 .
Preocupaciones valor de la vivienda en los suburbios de Boston .

1 CRIM : . Tasa de criminalidad per cpita por municipio

. 2 ZN : proporcin de suelo residencial dividido en zonas para las porciones ms de
25.000 pies cuadrados
. 3 INDUS : proporcin de acres de negocios no minoristas por la ciudad
4 CHAS : . Charles River variable ficticia ( = 1 si los lmites de las vas fluviales; 0 en caso
contrario )
. 5 NOX : concentracin de xidos de nitrgeno ( partes por 10 millones de dlares )
6 RM: . Nmero promedio de habitaciones por vivienda
. 7 EDAD: proporcin de unidades ocupadas por sus propietarios construidas antes de
1940
8 : DIS . Distancias ponderadas a cinco centros de empleo de Boston
9 RAD : . ndice de la accesibilidad a las autopistas radiales
10 DE IMPUESTOS : . Valor total tasa de impuestos sobre bienes por $ 10,000
11 PTRATIO : . Nmero de alumnos por profesor por municipio
12 B: . 1000 ( Bk - 0,63) ^ 2 donde Bk es la proporcin de los negros por la ciudad
13 LSTAT : . Status % inferior de la poblacin
14 MEDV : . Valor mediano de las viviendas ocupadas por sus propietarios en $ 1000
Belsley , Kuh y Welsch , ' diagnsticos de regresin : Datos identificativos influyentes y

fuentes de colinealidad ", Wiley , 1980 244-261 . .
[Web Link]
Quinlan , R. ( 1993 ) . Combinando Instancia - con base y basado en modelos de

aprendizaje . En Actas de la Dcima Conferencia Internacional de Aprendizaje Automtico
, 236-243 , Universidad de Massachusetts, Amherst. Morgan Kaufmann .
[Web Link]


Predrag Radivojac y Zoran Obradovic y A. Keith Dunker y Slobodan Vucetic . Filtros de

seleccin de caractersticas basado en el test de permutacin . ECML . 2004 . [Ver
Contexto ] .
Glenn Fung y M. Murat Dundar y Jinbo Bi y Bharat Rao. Un algoritmo rpido iterativo para
fisher discriminante utilizando ncleos heterogneos. ICML . 2004 . [Ver Contexto ] .
Kristiaan Pelckmans y Jos De Brabanter y JA K Suykens y Bart De Moor y KU Leuven -

ESAT . El Differogram : Ruido No paramtrico de estimacin de varianza y su uso para la
seleccin del modelo . SCDSISTA . 2004 . [Ver Contexto ] .
Bart Hamers y J. A. K Suykens . Junto transductivo Ensemble Aprendizaje de Modelos

Kernel . Bart De Moor . 2003 . [Ver Contexto ] .
Christopher KI Williams y Carl Edward Rasmussen y Anton Schwaighofer y Volker Tresp .
Observaciones sobre el Mtodo Nystrom de Prediccin Proceso de Gauss . Divisin de
Informtica de Gatsby de Neurociencia Computacional de la Universidad de la Universidad
de Edimburgo Unidad College de Londres. 2002 . [Ver Contexto ] .
. Thomas Melluish y Craig Saunders y Ilia Nouretdinov y Volodia Vovk y Carol S. Saunders
y yo Nouretdinov V. El marco tipicidad : una comparacin con el enfoque bayesiano .
Departamento de Ciencias de la Computacin . De 2001. [Ver Contexto ] .
Martin H C Law y James T. Kwok . Aplicando el Marco Evidencia bayesiano para u- Apoyo
Vector de regresin . ECML . De 2001. [Ver Contexto ] .
Peter L. Hammer y Alexander Kogan y Bruno Simeone y Sandor Szedm'ak . R u t c o r

Investigacin R e p o r t . Rutgers Centro de Investigacin Operativa de la Universidad de
Rutgers. De 2001. [Ver Contexto ] .
Zhi -Hua Zhou y Wu Jianping y Weiyu Tang y Zen Chen. Combinando Regresin
Estimadores : Basado -GA selectiva red neuronal Ensemble. Revista Internacional de
Inteligencia Computacional y Aplicaciones, 1 . 2001 . [Ver Contexto ] .
David Hershberger y Hillol Kargupta . Distribuido multivariado de regresin utilizando

basada en ondas de minera de datos colectiva . J. Distrib paralelo . Comput , 61. 2001 .
[Ver Contexto ] .
Nir Friedman y Iftach Najman . Redes de procesos de Gauss. UAI . 2000 . [Ver Contexto ] .
Rudy Setiono y Huan Liu. Un enfoque conexionista a la generacin de rboles de decisin

oblicuas . Transacciones de IEEE en Sistemas , Hombre y Ciberntica , Parte B, 29 . 1999
. [Ver Contexto ] .
Jinyan Li y Zhang Xiuzhen y Guozhu Dong y Kotagiri Ramamohanarao y Qun dom

Eficiente Minero de alta confidience reglas de asociacin sin apoyo Umbrales . PKDD . De
Christopher J. Merz y Michael J. Pazzani . A Componentes Principales Aproximacin al

combinar las estimaciones de regresin . Aprendizaje Automtico , 36. 1999 . [Ver
Contexto ] .
H. Altay Gvenir y Ilhan Uysal . Regresin en las proyecciones de caractersticas. un

Departamento de Ingeniera Informtica de la Universidad Bilkent . De 1999. [Ver Contexto
].
Ayhan Demiriz y Kristin P. Bennett y Mark J. Embrechts . Clustering semi - supervisado

Usando Algoritmos Genticos . Dept. de 1999. [Ver Contexto ] .
Liu Huan y Rudy Setiono . Caracterstica Transformacin y Decisin multivariado Tree

induccin . Discovery Science . De 1998. [Ver Contexto ] .
Mauro Birattari y Gianluca Bontempi y Hugues Bersini . Lazy Learning Cumple los mnimos
cuadrados recursivos del algoritmo . PNI. De 1998. [Ver Contexto ] .
Sreerama K. Murthy y Simon Kasif y Steven Salzberg . Un Sistema de Induccin de

Oblicua rboles de decisin . Departamento de Ciencias de la Computacin Universidad
Johns Hopkins. De 1994. [Ver Contexto ] .
Ayhan Demiriz y Kristin P. Bennett. Captulo 1 Aprendizaje Supervisado -

OPTIMIZATIONAPPROACHESTOSEMI . Departamento de Ciencias de la Decisin y
Sistemas de Ingeniera y el Departamento de Ciencias Matemticas , Instituto Politcnico
Rensselaer . [Ver Contexto ] .
Luc Hoegaerts y JA K Suykens y J. Vandewalle y Bart De Moor . Mnimos Cuadrados

Subset Basado subespacial Regresin en RKHS . Katholieke Universiteit Departamento de
Ingeniera Elctrica Lovaina, ESAT- SCD- SISTA . [Ver Contexto ] .
S. Sathiya Keerthi . Mejoras en SMO algoritmo SVM para regresin . Autor para la
correspondencia : Prof. [Ver Contexto ] .
Jarkko Tikka . AB HELSINKI Universidad del Departamento de Tecnologa de

Automatizacin y Sistemas de Tecnologa de Jarkko Tikka Aprendizaje rboles de
dependencias lineales de datos multivariantes . Universidad Tecnolgica de Helsinki
Resumen de Departamento tesis de maestra de la Automatizacin y Sistemas de
Tecnologa Autor Fecha . [Ver Contexto ] .
David R. Musicant . MINERA DE DATOS A TRAVS DE PROGRAMACIN

MATEMTICA Y EL APRENDIZAJE DE LA MQUINA . Doctor en Filosofa ( Ciencias de
la Computacin ) UNIVERSIDAD . [Ver Contexto ] .

Jianping Wu y Zhi -Hua Zhou y Chen Cheng- La . Ensemble de GA basa selectiva red
neuronal Conjuntos . Laboratorio Nacional de Novela Software Tecnologa de la
Universidad de Nanjing. [Ver Contexto ] .
entorno 3D : Proyecto de Verano 2003 [Ver Contexto ] . .
David R. Musicant y Alexander Feinberg. Set Active Support Vector de regresin . [Ver
Contexto ] .
Nir Friedman y Daphne Koller ( Koller @ cs . Stanford . Edu. Un enfoque bayesiano para
Estructurar Discovery en redes bayesianas . Facultad de Ciencias de la Computacin y de
Ingeniera Universidad Hebrea . [Ver Contexto ] .
Humano Reconocimiento 2012/12/10
Actividad Usando
Smartphones Conjunto de
datos
Resumen:
Base de datos de reconocimiento de la actividad humana construido a partir de las
grabaciones de los 30 sujetos que realizan actividades de la vida diaria (AVD) en el
ejercicio de un smartphone montado en la cintura con sensores inerciales embebidos.
Nmero de
del Conjunto de tiempo de 10299 rea: Ordenador
instancias:
datos: serie

N/A 561 2012/12/10
Nmero de
Tareas Clasificacin, Valores
N/A accesos 72255
asociadas: clustering perdidos?
Web:
Fuente :
Jorge L. Reyes- Ortiz, Davide Anguita , Alessandro Ghio , Luca Oneto .

Smartlab - No Lineal Laboratorio Sistemas Complejos
DITEN - Universit degli Studi di Genova , Gnova I- 16145 , Italia.
activityrecognition "@" smartlab.ws
www.smartlab.ws
Los experimentos se han llevado a cabo con un grupo de 30 voluntarios dentro de una
franja de edad de 19-48 aos . Cada persona lleva a cabo seis actividades (caminar,
WALKING_UPSTAIRS , WALKING_DOWNSTAIRS , sentado, de pie , Acostado ) usando
un telfono inteligente (Samsung Galaxy S II ) en la cintura. Uso de su acelermetro y un
giroscopio integrado , hemos capturado aceleracin lineal 3 - axial y velocidad angular 3 -
axial a una velocidad constante de 50Hz . Los experimentos se han registrado -video para
etiquetar los datos de forma manual . El conjunto de datos obtenidos se ha dividido
aleatoriamente en dos grupos , en los que se seleccion el 70 % de los voluntarios para la
generacin de los datos de entrenamiento y 30% de los datos de prueba.
Las seales del sensor ( acelermetro y giroscopio ) fueron pre - procesados por la
aplicacin de filtros de ruido y luego muestreados en ancho fijo ventanas correderas de
2,56 seg y 50 % de superposicin ( 128 lecturas / ventana) . La seal de aceleracin del
sensor , que tiene componentes de movimiento gravitacionales y corporales , se separ
usando un filtro de paso bajo Butterworth en aceleracin cuerpo y la gravedad . La fuerza
de la gravedad se supone que tiene slo componentes de baja frecuencia, por lo tanto, un
filtro con 0,3 Hz frecuencia de corte se utiliz . Desde cada ventana , un vector de
caractersticas se obtuvo mediante el clculo de las variables de tiempo y el dominio de la
frecuencia .
Consulte el archivo readme.txt para obtener ms detalles sobre este conjunto de datos .
Para cada registro en el conjunto de datos que se proporciona :

- La aceleracin triaxial del acelermetro (aceleracin total) y la aceleracin corporal
estimada .
- Triaxial velocidad angular desde el giroscopio .
- Un vector 561- funcin con variables de tiempo y el dominio de la frecuencia .
- Su etiqueta de actividad.
- Un identificador del sujeto que lleva a cabo el experimento.
N/A
Cita de pedidos:
[ 1 ] Davide Anguita , Alessandro Ghio , Luca Oneto , Xavier Parra y Jorge L. Reyes- Ortiz.
Actividad Humana Reconocimiento en Smartphones utilizando una mquina Hardware -
Friendly Apoyo Vector multiclase . Taller Internacional de Ambient Assisted Living ( IWAAL
2012). Vitoria- Gasteiz, Espaa . diciembre 2012
ICU Data Set N/A

Resumen:
Conjunto de datos preparado para la utilizacin de los participantes para la AAAI Simposio
de Primavera 1994 en la Inteligencia Artificial en Medicina.
Caractersticas del Multivariado, Nmero de
N/A rea: Vida
Conjunto de datos: tiempo serie instancias:

Real N/A N/A
Nmero de
Valores
Tareas asociadas: N/A No accesos 24999
perdidos?
Web:
Fuente:
AIM-94 conjunto de datos proporcionado por Isaac Kohane, MD, PhD, del Hospital de
Nios, en Boston, MA
Por favor, consulte la documentacin

N/A
N/A
Cita de pedidos:
ILPD (Dataset Paciente 2012/05/21

Hgado india) Conjunto de
datos
Resumen:
Este conjunto de datos contiene 10 variables que son la edad, el gnero, la bilirrubina
total, bilirrubina directa, protenas totales, albmina, de relacin A / G, SGPT, SGOT y
AlkPhos.
Caractersticas del
Nmero de
instancias:
datos:
Caractersticas del Integral Nmero de Fecha de

10 2012/05/21
Nmero de
Valores
perdidos?
Web:
Fuente :
1 . Bendi Venkata Ramana

ramana.bendi '@' gmail.com
Profesor Asociado ,
Departamento de Tecnologa de la Informacin ,
Aditya Instutute de Tecnologa y Gestin,
Tekkali - 532201 , Andhra Pradesh , India.
2 . Prof. M. Surendra Prasad Babu

drmsprasadbabu '@' yahoo.co.in
Deptartment de Ciencias de la Computacin e Ingeniera de Sistemas ,
Andhra University College de Ingeniera,
Visakhapatnam -530 003 Andhra Pradesh , India.
3.Prof . N. B. Venkateswarlu
venkat_ritch '@' yahoo.com
Departamento de Ciencias de la Computacin e Ingeniera ,
Aditya Instutute de Tecnologa y Gestin,
Tekkali - 532201 , Andhra Pradesh , India.
Este conjunto de datos contiene 416 registros de pacientes hepticos y 167 pacientes
conjunto de datos records.The hgado no se recogi desde el norte al este de Andhra
Pradesh , India. Selector es una etiqueta de clase se utiliza para dividir en grupos (
pacientes heptico o no) . Este conjunto de datos contiene 441 registros de pacientes de
sexo masculino y 142 registros de pacientes de sexo femenino.
1 . Edad: Edad del paciente

2 . Gnero El gnero del paciente
3 . TB Bilirrubina Total
4 . DB Bilirrubina Directa
5 . AlkPhos alcalina fosfatasa
6 . SGPT Alamine aminotransferasa
7 . SGOT aspartato aminotransferasa
8 . TP total Protiens
9 . ALB Albmina
10 . A / G Relacin albmina y globulina Ratio
11 . Campo Selector utiliza para dividir los datos en dos sets (sealadas por los expertos)
. 1 Bendi Venkata Ramana , Prof. MS Prasad Babu y Prof. NB Venkateswarlu , A

Critical Study comparativo entre pacientes de hgado de EE.UU. e INDIA : Un exploratorio
Analysis , International Journal of Computer Temas cientficos , ISSN :1694 - 0784 ? ,
mayo de 2012.
2 . Bendi Venkata Ramana , Prof. MS Prasad Babu y Prof. NB Venkateswarlu , A
Estudio crtico de los algoritmos de clasificacin seleccionados para Enfermedad Heptica
Diagnosis ? , Revista Internacional de Sistemas de Gestin de Base de Datos ( IJDMS
) , Vol.3 , No. 2 , ISSN : 0975-5705 , PP 101-114 , mayo de 2011 .
Cita de pedidos:

Imagen Segmentacin de 1990/11/01
conjunto de datos
Resumen:
Los datos de imagen descritos por atributos con valores numricos de alto nivel, 7 clases.
Caractersticas
Nmero de
del Conjunto de Multivariado 2310 rea: N/A
instancias:
datos:

Real 19 1990/11/01
Nmero de
Valores
perdidos?
Web:
Fuente:
Creadores:
Vision Group de la Universidad de Massachusetts
Donante:
Vision Group (Carla Brodley, Brodley '@' cs.umass.edu)
Los casos fueron seleccionados al azar a partir de una base de datos de 7 imgenes al
aire libre. Las imgenes fueron handsegmented para crear una clasificacin para cada
pxel.
Cada instancia es una zona de 3x3.
Atributo Informacin:
1. regin centroide-col: La columna del pxel central de la regin.

2. regin centroide fila: la fila del pxel central de la regin.
3. regin pxel de recuento: el nmero de pxeles en una regin = 9.
4. corto-line densidad-5: resultados de un algoritmo extractoin lnea que cuenta cuntas
lneas de longitud 5 (cualquier orientacin) con contraste bajo, inferior o igual a 5, pasa por
la regin.
5. corto-line densidad-2: igual que el corto-line densidad-5, pero cuenta lneas de contraste
alto, superior a 5.
6. Vedge-media: medir el contraste de los pxeles adyacentes horizontalmente en la
regin. Hay 6, se dan la media y la desviacin estndar. Este atributo se utiliza como un
detector de borde vertical.
7. vegde-sd: (ver 6)
8. de cobertura media: mide el contraste de los pxeles adyacentes verticalmente. Utilizado
para la deteccin lnea horizontal.
9. cubrir-sd: (ver 8).
10. intensidad-media: la media de la regin de (R + G + B) / 3
11. mezquino rawred: a la media de la regin del valor R.
12. rawblue-media: La media a lo largo de la regin del valor B.
13. -mean rawgreen: el promedio de la regin del valor de G.
14. -mean EXred: mida el exceso de rojo: (2R - (G + B))
15. exblue-media: medir el exceso de azul: (2B - (G + R))
16. exgreen-media: medir el exceso de verde: (2G - (R + B))
17. valor medio: 3-d de transformacin no lineal de RGB. (Algoritmo se puede encontrar en
Foley y Vandam, Fundamentos de Interactivo Computer Graphics)
18. saturatoin-media: (ver 17)
19. hue-media: (ver 17)
N/A
Anthony K H Tung y Xin Xu y Beng Chin Ooi. CURLER: encontrar y visualizar no lineal
correlacionada Clusters. Conferencia SIGMOD. 2005. [Ver Contexto].
Xiaoli Z. Helecho y Carla Brodley. Conjuntos de clster para alta Clustering Dimensional:
un estudio emprico. Diario de la mquina de aprendizaje de Investigacin n, a. 2004. [Ver
Contexto].
Aristidis Likas y Nikos A. Vlassis y Jakob J. Verbeek. El k-means algoritmo de clustering

mundial. Reconocimiento de Patrones, 36. 2003. [Ver Contexto].
Dash Manoranjan y Huan Liu y Peter Scheuermann y Kian-Lee Tan. Agrupacin jerrquica
Fast y su validacin. Conocimiento de Datos. Eng, 44. 2003. [Ver Contexto].
Amund Tveit. Comparacin emprica de precisin y rendimiento para el clasificador

MIPSVM con clasificadores existentes. Divisin de Intelligent Departamento de Informtica
y Ciencias de la Informacin de la Universidad Noruega de Ciencias y Tecnologa de
Sistemas. [Ver Contexto].
Je Scott y Mahesan Niranjan y Richard W. Prager. Clasificadores realizables: mejora del

funcionamiento operativo de Problemas de costo variable. Cambridge Departamento de
Ingeniera de la Universidad. [Ver Contexto].
C. Tito Brown y Harry W. Bullen y Sean P. Kelly y Robert K Xiao y Steven G. Satterfield y
John G. Hagedorn y Judith E. Devaney. Visualizacin y Minera de Datos en un inmersivo
entorno 3D: Proyecto de Verano de 2003. [Ver Context].
Adil M. Bagirov y Alex Rubinov y AN Soukhojak y Juan Yearwood. Clasificacin de datos

Informtica y Ciencias Matemticas de la Universidad de Ballarat. [Ver Contexto].
K. A. J Doherty y Rolf Adams y Neil Davey. Aprendizaje no supervisado con Normalizado

de Datos y no euclidianas Normas. University of Hertfordshire. [Ver Contexto].
Adil M. Bagirov y John Yearwood. Un nuevo algoritmo de optimizacin para el

agrupamiento no lisos. Centro de Informtica y Optimizacin Aplicada de la Facultad de
Informtica y Ciencias Matemticas de la Universidad de Ballarat. [Ver Contexto].
K. A. J Doherty y Rolf Adams y Neil Davey. Los no euclidianas Normas y normalizacin de

datos. Departamento de Ciencias de la Computacin de la Universidad de Hertfordshire,
College Lane. [Ver Contexto].
Michael Lindenbaum y Sal Markovitch y Dmitry Rusakov. Muestreo Selectivo Usando

Random Campo Modelling. [Ver Contexto].
James Estao y Yau Kwok. Moderacin de las salidas de Apoyo Vector Machine
clasificadores. Departamento de Ciencias de la Computacin Hong Kong Baptist University
de Hong Kong. [Ver Context].
BASADO EN EXPLORACIN Thomas T. Osugi y MS APRENDIZAJE MQUINA ACTIVE.

Facultad de El Colegio de Graduados de la Universidad de Nebraska en cumplimiento
parcial de los requisitos. [Ver Context].
Nikos A. Vlassis y Aristidis Likas. Un algoritmo EM vidos de mezcla gaussiana. Sistemas

Inteligentes Autnoma, la NIC. [Ver Contexto].
Cita Solicitud:
2012/08/30
Cada hogar consumo
elctrico Conjunto de Datos
Resumen:
Las mediciones de consumo de energa elctrica en un hogar con un minuto de intervalo
de muestreo durante un perodo de casi 4 aos. Diferentes magnitudes elctricas y
algunos sub-valores de medicin estn disponibles..
Caractersticas
Multivariado Nmero de
del Conjunto de 2015259 rea: Fsico
tiempo serie instancias:
datos:

Real 9 2012/08/30
Nmero de
Tareas Regresin, Valores
Si accesos 32382
asociadas: clustering perdidos?
Web:
Fuente :
Georges H brail ( georges.hebrail '@' edf.fr ) , Investigador Senior , EDF I + D, Clamart

, Francia
Alice B rard , TELECOM ParisTech Master of Engineering Internship en EDF I + D,
Clamart , Francia
Este archivo contiene 2075259 mediciones recogidas entre diciembre de 2006 y

noviembre de 2010 (47 meses).
Notas:
1 . ( Global_active_power * 1000 /60 - sub_metering_1 - sub_metering_2 - sub_metering_3
) representa la energa activa consumida cada minuto ( en vatios hora ) en la casa de los
aparatos elctricos que no se miden en las sub- dosificaciones 1 , 2 y 3 .
2.El conjunto de datos contiene algunos valores perdidos en las mediciones ( casi el 1,25
% de las filas) . Todas las marcas de tiempo de calendario estn presentes en el conjunto
de datos , pero para algunas marcas de tiempo , los valores de medicin faltan : un valor
que falta es representada por la ausencia de valor entre dos consecutivos y coma atribuir
separadores. Por ejemplo, el conjunto de datos muestra los valores que faltan el 28 de
abril de 2007.
1.Fecha : Fecha en formato dd / mm / aaaa

2.time : el tiempo en formato hh : mm : ss
3.global_active_power : hogares poder global minutos -un promedio de activo ( en
kilovatios )
4.global_reactive_power : hogares poder global minutos promediada reactiva ( en
kilovatios )
5.voltage : Tensin minutos promediada ( en voltios )
6.global_intensity : hogar intensidad global de minutos promediada corriente (en amperios
)
7.sub_metering_1 : energa sub-medicin No. 1 ( en vatios- hora de energa activada).
Corresponde a la cocina, que contiene principalmente un lavavajillas , un horno y un
microondas (platos calientes no son elctricos , pero con motor de gasolina ) .
8.sub_metering_2 : energa sub-medicin N 2 ( en vatios- hora de energa activa ) . Se
corresponde con el cuarto de lavado , que contiene una lavadora , una secadora de pelo,
una nevera y una luz.
9.sub_metering_3 : energa sub-medicin N 3 ( en vatios- hora de energa activa ) .
Corresponde a un calentador de agua elctrico y un acondicionador de aire.
N/A
Cita de pedidos:

ndice de referencia 2000/07/03
Compaa de Seguros (COIL
2000) Conjunto de datos
Resumen:
En este conjunto de datos utilizado en el Desafo CoIL 2000 contiene informacin sobre
los clientes de una compaa de seguros. Los datos consta de 86 variables de e incluye
los datos de uso de productos y datos socio-demogrficos.
Caractersticas
Nmero de
del Conjunto de Multivariado 9000 rea: Social
instancias:
datos:
Caractersticas del Categorico Nmero de Fecha de

86 2000/07/03
atributo: Integral atributos: Donacin
Nmero de
Regresin, Valores
Tareas asociadas: No accesos 37734
descripcin perdidos?
Web:
Fuente :
Propietario original y de los donantes:
Peter van der Putten

Sentient Investigacin Machine
Baarsjesweg 224
1058 AA Amsterdam
Pases Bajos
+31 20 6186927
pvdputten '@' hotmail.com , Putten '@' liacs.nl
Pgina de TIC Benchmark : http://www.liacs.nl/ ~ putten/library/cc2000 /
Informacin acerca de los clientes se compone de 86 variables de , e incluye los datos de

uso de productos y datos sociodemogrficos derivados de los cdigos de rea postal.
Los datos fueron suministrados por la empresa de minera de datos holandesa
Investigacin Machine Sentient y se basa en un verdadero problema de negocios del
mundo . El conjunto de entrenamiento contiene ms de 5.000 descripciones de los
clientes, incluyendo la informacin de si tienen o no una poltica de seguro de la caravana .
Un conjunto de pruebas contiene 4.000 clientes de los cuales slo los organizadores saber
si tienen una pliza de seguro de la caravana .
El diccionario de datos ( [Web Link] ) describe las variables utilizadas y sus valores.
Nota: Todas las variables que comienzan con M son variables de cdigo postal. Ellos dan
informacin sobre la distribucin de esta variable , por ejemplo, Casa de alquiler , en el
rea de cdigo postal del cliente.
Una instancia por lnea con delimitado por tabulaciones campos.

TICDATA2000.txt : Conjunto de datos para entrenar y validar modelos de prediccin y
construir una descripcin ( 5.822 registros de los clientes ) . Cada registro consta de 86
atributos, que contiene datos sociodemogrficos ( atribuir 1-43 ) y propiedad del producto (
atributos 44-86 ) . Los datos sociodemogrficos se deriva de los cdigos postales . Todos
los clientes que viven en reas con el mismo cdigo postal tienen los mismos atributos
sociodemogrficos . Atributo 86 : " CARAVANA : Nmero de polticas de casas mviles ,"
es la variable objetivo .
TICEVAL2000.txt : Conjunto de datos para las predicciones (4000 registros de los clientes
) . Tiene el mismo formato que TICDATA2000.txt , slo el destino no se encuentra. Los
participantes se supone que deben devolver la lista de slo los objetivos previstos. Todos
los conjuntos de datos estn en formato delimitado por tabulador . El significado de los
atributos y valores de atributos es la siguiente.
Objetivos TICTGTS2000.txt para el conjunto de evaluacin.
N/A
P. van der Putten y M. van Someren ( eds ) . CoIL Desafo 2000 : El caso de la Compaa
de Seguros . Publicado por Research Machine Sentient , Amsterdam . Tambin un
instituto Leiden del Informe Tcnico Ciencias de la Computacin Avanzada 2000-09 . 22
de junio 2000 .
[Web Link]
Bianca Zadrozny y Charles Elkan . La transformacin de las puntuaciones de clasificador

en estimaciones precisas de probabilidad multiclase . KDD . 2002 . [Ver Contexto ] .
Stephen D. Bay y Dennis F. Kibler y Michael J. Pazzani y Padhraic Smyth. El KDD Archivo
de datos grandes UCI Establece para la Investigacin y Experimentacin para minera de
datos . SIGKDD Exploraciones , 2 . 2000 . [Ver Contexto ] .
Stefan R uping . Un mtodo simple para estimar las probabilidades condicionales para
SVMs . Departamento CS , AI Unidad de la universidad de Dortmund . [Ver Contexto ] .
Cita de pedidos:
Los datos son ( c ) de la mquina Sentient investigacin 2000

Este conjunto de datos es propiedad y est suministrado por la empresa holandesa
datamining Investigacin Machine Sentient , y se basa en los datos de negocio del mundo
real. Se le permite utilizar esta base de datos y la informacin que lo acompaa slo con
fines de investigacin y educacin no comerciales. Es explcitamente no est permitido el
uso de este conjunto de datos para la enseanza comercial o con fines demostrativos.
Para citar este artculo / confirmar :

P. van der Putten y M. van Someren ( eds ) . CoIL Desafo 2000 : El caso de la Compaa
de Seguros . Publicado por Research Machine Sentient , Amsterdam . Tambin un
Instituto Leiden de Informes Tcnicos de la Ciencia de la Computacin Avanzada 2000-09
. 22 de junio 2000 .
Internet Anuncios de 1998/07/01

conjunto de datos
Resumen:
En este conjunto de datos representa un conjunto de posibles anuncios en pginas de
internet.
Caractersticas
Nmero de
del Conjunto de Multivariado 3279 rea: Ordenador
instancias:
datos:
Caractersticas Categrico, Nmero de Fecha de

1558 1998/07/01
del atributo: Integral Real atributos: Donacin
Nmero de
Valores
perdidos?
Web:
Fuente :
Creador y de los donantes :
Nicholas Kushmerick <nick '@' ucd.ie>
Este conjunto de datos representa un conjunto de posibles anuncios en las pginas en

Internet . Las caractersticas codifican la geometra de la imagen ( si est disponible ), as
como las frases que ocurren en la URL, la direccin URL de la imagen y el texto
alternativo , el ancla de texto , y las palabras que ocurren cerca del texto del ancla. La
tarea consiste en predecir si una imagen es un anuncio ( " anuncio " ) o no ( " nonad ") .
( 3 continuo ; otros binaria, esto es el " estndar de codificacin " mencionada en el [

Kushmerick 99 ] . )
Una o ms de los tres rasgos continuos faltan en 28 % de los casos ; los valores que faltan
se deben interpretar como "desconocido" .
N. Kushmerick ( 1999 ) . "Aprender a quitar la publicidad de Internet" , tercera Int. Conf.

agentes Autnomas. Disponible en www.cs.ucd.ie/staff/nick/research/ [Web Link] .
[Web Link]
Dmitriy Fradkin y David Madigan . Experimentos con proyecciones aleatorias para el

aprendizaje de mquinas. KDD . 2003 . [Ver Contexto ] .
Sergio A. Alvarez y Takeshi Kawato y Carolina Ruiz . La minera sobre fuentes de datos
dbilmente acoplados utilizando expertos neuronales. Informtica Dpto. Boston College.
[Ver Contexto ] .
Shay Cohen y Eytan Ruppin y Gideon Dror . Seleccin de caractersticas basado en el

valor de Shapley . Escuela de las Ciencias de la Computacin Universidad de Tel- Aviv.
[Ver Contexto ] .
Cita de pedidos:
Uso de Datos en Internet del 1999/06/30

conjunto de datos
Resumen:
Estos datos contienen informacin demogrfica general sobre los usuarios de Internet en
1997.
Caractersticas
Nmero de
del Conjunto de Multivariado 10104 rea: Ordenador
instancias:
datos:

72 1999/06/30
Nmero de
Valores
Tareas asociadas: N/A No accesos 32896
perdidos?
Web:
Fuente :
Grficos , Visualizacin , & Usability Center

Facultad de Informtica
Geogia Institute of Technology
Atlanta, GA
http://www.gvu.gatech.edu/gvu/user_surveys/survey-1997-10/
Donante:
Dr. Di Cocinar
Departamento de Estadstica
Universidad del Estado de Iowa
http://www.public.iastate.edu/ ~ dicook /
Estos datos proceden de una encuesta realizada por los grficos y Unidad de
Visualizacin de Georgia Tech 10 octubre a 16 noviembre, 1997 Los detalles completos de
la encuesta estn disponibles aqu: . [Web Link]
El subconjunto de la encuesta proporcionada aqu es los " datos demogrficos generales"

de los usuarios de Internet . Los datos han sido recodificada como totalmente numrico ,
con un ndice de los cdigos descritos en el archivo " Codificacin " .
El estudio completo est disponible en el sitio web mencionado anteriormente , junto con
resmenes, tablas y grficos de sus anlisis. Adems, hay informacin sobre otras partes
de la encuesta , incluyendo datos demogrficos de tecnologa y comercio web.
Los datos se almacenan en un archivos ASCII con una observacin por lnea. Espacios
separan campos.
N/A
Estos datos se usaron en los grficos estadsticos de la Asociacin Americana de

Estadstica e Informtica Secciones 1999 Datos Exposicin.
Cita de pedidos:

Ionosfera conjunto de datos 1989/01/01
Resumen:
Clasificacin de los ecos de radar de la ionosfera.
Caractersticas del
Nmero de
Conjunto de Multivariado 351 rea: Fsico
instancias:
datos:

34 1989/01/01
Nmero de
Valores
perdidos?
Web:
Fuente:
Donante:
Vince Sigillito (vgs '@' aplcen.apl.jhu.edu)
Fuente:
Space Physics Group

Laboratorio de fsica aplicada
Universidad Johns Hopkins
Johns Hopkins carretera
Laurel, MD 20723
Estos datos de radar se recogi mediante un sistema en Goose Bay, Labrador. Este
sistema consiste en una red en fase de 16 antenas de alta frecuencia con una potencia
total de transmisin del orden de 6,4 kilovatios. Ver el documento para obtener ms
detalles. Los objetivos eran los electrones libres en la ionosfera. "Good" ecos de radar son
los que muestran evidencia de algn tipo de estructura en la ionosfera. devuelve "malos"
son los que no lo hacen; sus seales pasan a travs de la ionosfera.
Las seales recibidas se procesaron en una funcin de autocorrelacin cuyos argumentos

son el tiempo de un pulso y el nmero de pulsos. Hubo 17 nmeros de impulsos para el
sistema de Goose Bay. Las instancias en este databse se describen por 2 atributos por
nmero de impulsos, que corresponde a los valores complejos devueltos por la funcin
resultante de la seal electromagntica complejo.
- Todo 34 son continuas

- El atributo 35a puede ser "bueno" o "malo", segn la definicin resumida anteriormente.
Esta es una tarea de clasificacin binaria.
Sigillito, VG, Wing, SP, Hutton, LV, \ & Baker, KB (1989). Clasificacin de radar regresa de
la ionosfera usando redes neuronales. Johns Hopkins APL Tcnica Digest, 10, 262-266.
[Web Link]
Mikhail Bilenko y sugato Basu y Raymond J. Mooney. La integracin de las limitaciones y

de aprendizaje mtrica en la agrupacin semi-supervisado. ICML. 2004. [Ver Contexto].
Zhi-Hua Zhou y Jiang Yuan. NeC4.5: Neural Ensemble Based C4.5. IEEE Trans.
Conocimiento. Datos Eng, 16. 2004. [Ver Contexto].
HYUNSOO Kim y Se Hyun Park. Reduccin de datos en mquinas de soporte vectorial de

un Modelo de Interaccin Kernelized jnico. SDM. 2004. [Ver Contexto].
Glenn Fung y M. Murat Dundar y Jinbo Bi y Bharat Rao. Un algoritmo rpido iterativo para
fisher discriminante utilizando ncleos heterogneos. ICML. 2004. [Ver Contexto].
Predrag Radivojac y Zoran Obradovic y A. Keith Dunker y Slobodan Vucetic. Filtros de

seleccin de caractersticas basado en el test de permutacin. ECML. 2004. [Ver
Contexto].
Jeroen Eggermont y Joost N. Kok y Walter A. Kosters. Programacin Gentica para la

clasificacin de los datos: la particin del espacio de bsqueda. SAC. 2004. [Ver
Contexto].
Jennifer G. Dy y Carla Brodley. Seleccin de caractersticas para el Aprendizaje No

Supervisado. Journal of Machine Learning Research, 5. 2004. [Ver Contexto].

de conocimientos en bases de datos mdicas y biolgicas utilizando un clasificador de
Bayes / algoritmo evolutivo hbrido. Transacciones de IEEE en Sistemas, Hombre y
Ciberntica, parte B, de 33 aos. 2003. [Ver Contexto].
Dmitriy Fradkin y David Madigan. Experimentos con proyecciones aleatorias para el

aprendizaje automtico. KDD. 2003. [Ver Contexto].
Marina Skurichina y Ludmila Kuncheva y Robert PW Duin. Embolsado y Impulsar el ms

cercano Mean Clasificador: Efectos del tamao de la muestra sobre la diversidad y
precisin. Sistemas Clasificadores mltiples. 2002. [Ver Contexto].
travs Rechazo automatizado. IWANN (1). 2001. [Ver Contexto].
Marina Skurichina y Robert P W Duin. Impulsar en el anlisis discriminante lineal.

Sistemas Clasificadores mltiples. 2000. [Ver Contexto].

optimizacin explcita de Mrgenes. Aprendizaje Automtico, 38. 2000. [Ver Contexto].
Justin Bradley y Kristin P. Bennett y Bennett A. Demiriz. Constreido conglomerados K-

means. Microsoft Research Dept. de Ciencias Matemticas One Microsoft Way Dpto. de
Ciencias de decisin y Eng. Sys. 2000. [Ver Contexto].
Jennifer G. Dy y Carla Brodley. Funcin de seleccin de subconjuntos y Orden de
identificacin de Aprendizaje No Supervisado. ICML. 2000. [Ver Contexto].
P. S y de Bradley K P y Bennett A. Demiriz. Constreido conglomerados K-means.

Ciencias de la Decisin y el Ing.. Sys. 2000. [Ver Contexto].
Juan J. Rodr guez # # y Carlos J. Alonso y Henrik Bostrom. Impulsar basada en intervalos
literales. 2000. [Ver Contexto].
Colin Campbell y Nello Cristianini y Alex J. Smola. Consulta Aprender con grandes
clasificadores de margen. ICML. 2000. [Ver Contexto].
Art B. Owen. Vecinos tubulares para la regresin y clasificacin. La Universidad de

Stanford. 1999. [Ver Contexto].
Chun-Nan Hsu y Hilmar Schuschel y Ya-Ting Yang. El Enfoque ANNIGMA-Envoltura con

Redes Neuronales funcin de seleccin de Descubrimiento de Conocimiento y Minera de
Datos. Instituto de Ciencias de la Informacin. 1999. [Ver Contexto].
Lorne Mason y Jonathan Baxter y Peter L. Bartlett y Marcus Frean. Impulsar Algoritmos
como Gradient Descent. PNI. 1999. [Ver Contexto].
Kai Ming Ting y Ian H. Witten. Problemas en Stacked generalizacin. J. Artif. Intell. Res..
(JAIR, 10. 1999. [Ver Contexto].
Stephen D. Bay. Clasificacin del vecino ms prximo de varios subconjuntos de

caractersticas. Intell. Datos Anal, 3. 1999. [Ver Contexto].
Stavros J. Perantonis y Vassilis Virvilis. Caracterstica de entrada Extractor de mltiples

capas Perceptrones Uso del anlisis de componentes principales supervisada. Neural
Processing Letters, 10. 1999. [Ver Contexto].
David M J Tax y Robert P W Duin. Apoyar descripcin del dominio del vector. Pattern
Recognition Letters, 20. 1999. [Ver Contexto].

Mejora Generalizacin en clasificadores combinados. NIPS. 1998. [Ver Contexto].
Richard Maclin. Impulsar Clasificadores nivel regional. AAAI / IAAI. 1998. [Ver Contexto].
Robert E. Schapire y Yoav Freund y Peter Bartlett y Wee Sun Lee. Los Anales de
Estadstica, en aparecer. Impulsar la Margen: una nueva explicacin para la efectividad de
los mtodos de votacin. Los laboratorios de AT & T. 1998. [Ver Contexto].
Kristin P. Bennett y Erin J. Bredensteiner. Un mtodo paramtrico Optimizacin de

Aprendizaje Automtico. INFORMA Journal on Computing, 9. 1997. [Ver Contexto].
Aynur Akkus y H. Altay Gvenir. K ms cercano Clasificacin Vecino en Feature

Proyecciones. ICML. 1996. [Ver Contexto].
Wl / odzisl / aw Duch y Karol Grudzinski y Geerd H. F Diercksen. Distancia mnima

mtodos neuronales. Departamento de Mtodos Computacionales, Universidad Nicols
Coprnico. [Ver Contexto].
Andrew Watkins y Jon Timmis y Lois C. Boggess. Artificial Sistema Inmune

Reconocimiento (AIRS): Un ImmuneInspired Supervisado algoritmo de aprendizaje.
(Abw5, jt6@kent.ac.uk) Laboratorio de Computacin de la Universidad de Kent. [Ver
Contexto].
Aynur Akku y H. Altay Gvenir. Ponderacin Caractersticas de k Clasificacin de vecinos

ms prximos en Feature Proyecciones. Departamento de Ingeniera Informtica y
Ciencias de la Informacin de la Universidad Bilkent. [Ver Contexto].
Krzysztof Grabczewski y Wl / odzisl / aw Duch. LA SEPARACIN DE CRITERIO VALOR

SPLIT. Departamento de Mtodos Computacionales, Universidad Nicolaus Copernicus.
[Ver Contexto].
Christos Emmanouilidis y A. Hunter y el Dr. J. MacIntyre. A multiobjetivo Evolutiva Ajuste

para Seleccin de caractersticas y un operador de crossover basada en comunalidad.
Centro de Sistemas Adaptativos, Facultad de Informtica, Ingeniera y Tecnologa de la
Universidad de Sunderland. [Ver Contexto].
Chiranjib Bhattacharyya. Clasificacin robusta de datos ruidosos utilizando el enfoque de

programacin Segunda Cono Orden. Dpto. Informtica y Automtica, Instituto Indio de
Ciencia. [Ver Contexto].
Ayhan Demiriz y Kristin P. Bennett. Captulo 1 Aprendizaje Supervisado-

OPTIMIZATIONAPPROACHESTOSEMI. Departamento de Ciencias de la Decisin y
Sistemas de Ingeniera y el Departamento de Ciencias Matemticas, Instituto Politcnico
Rensselaer. [Ver Contexto].
Isabelle lvarez y Stephan Bernard. Clasificacin Casos con rboles de decisin: un

mtodo geomtrico que preserva la inteligibilidad. [Ver Contexto].
Christos Dimitrakakis y Samy Bengioy. Polticas de Adaptacin en lnea para Ensemble

clasificadores. El IDIAP. [Ver Contexto].
Rajesh Parekh y Jihoon Yang y Vasant Honavar. Constructivas algoritmos de aprendizaje

de la red neuronal para Clasificacin de patrones. [Ver Contexto].
Alain Rakotomamonjy. Leave-One-Out errores en Bipartita de clasificacin SVM. PSI

CNRS FRE2645 INSA de Rouen Avenue de l'Universit. [Ver Contexto].
Wl / odzisl / aw Duch y Karol Grudzinski. Meta-learning: la bsqueda en el espacio modelo.

Departamento de Mtodos Computacionales, Universidad Nicols Coprnico. [Ver
Contexto].
Federico Divina y Elena Marchiori. Basada en el Conocimiento Evolutiva Buscar inductivo

Concepto de Aprendizaje. Vrije Universiteit de msterdam. [Ver Contexto].
Charles Campbell y Nello Cristianini. Algoritmos de aprendizaje simples para Mquinas de

Vectores Soporte Entrenamiento. Departamento de Ingeniera Matemtica. [Ver Contexto].
K. A. J Doherty y Rolf Adams y Neil Davey. Aprendizaje no supervisado con Normalizado

de Datos y no euclidianas Normas. Universidad de Hertfordshire. [Ver Contexto].
Michael Lindenbaum y Sal Markovitch y Dmitry Rusakov. Muestreo Selectivo Usando

Random Campo Modelling. [Ver Contexto].
Christos Emmanouilidis y Anthony Hunter. Una comparacin de los operadores de cruce

en la red neuronal de Seleccin de caractersticas con multiobjetivo Algoritmos Evolutivos.
Centre para Adaptive Systems, Facultad de Informtica, Ingeniera y Tecnologa University
of Sunderland. [Ver Contexto].
Chiranjib Bhattacharyya y Pannagadatta K. S y Alexander J. Smola. Un segundo orden
Cono Formulacin de Programacin para la clasificacin de datos perdidos. Departamento
de Informtica y el Instituto Indio de Automatizacin de la Ciencia. [Ver Contexto].
Perry Moerland. Mezclas de modelos variables latentes para la estimacin de la densidad

y la clasificacin. ESEARCHREPRORTIDIAPD alle M olle yo nstitutefor Pe r cep t ua l Una
Inteligencia rtificial. [Ver Contexto].
Markus Breitenbach y Rodney Nielsen y Gregory Z. Grudic. Probabilsticos Random

Forests: Prediccin de puntos de datos especficos Probabilidades de clasificacin
errnea. Departamento de Informtica Universidad de Colorado. [Ver Contexto].
Federico Divina y Elena Marchiori. Manejo de atributos continuos en un Evolutiva inductivo

Learner. Departamento de Ciencias de la Computacin Vrije Universiteit. [Ver Contexto].
Glenn Fung y Sathyakama Sandilya y R. Bharat Rao. Regla de extraccin a partir de

Mquinas de Vectores Soporte lineales. Computer-Aided Diagnosis & Therapy, Siemens
Medical Solutions, Inc. [Ver Contexto].
Karthik Ramakrishnan. UNIVERSIDAD DE MINNESOTA. [Ver Contexto].
Michalis K. Titsias y Aristidis Likas. Modelos Kernel Shared para la Clase estimacin de
densidades condicionales. [Ver Contexto].
Alexander K. Seewald. Disertacin hacia la comprensin de apilamiento Los estudios de

akademischen Grados eines der Doktors technischen Naturwissenschaften. [Ver
Contexto].
Cita de pedidos:

Censo IPUMS Base de datos 1999/11/09
Conjunto de datos
Resumen:
Este conjunto de datos contiene los datos del censo PUMS no ponderados de las reas de
Los Angeles y Long Beach para los aos 1970, 1980 y 1990.
Caractersticas
Nmero de
del Conjunto de Multivariado 256932 rea: Social
instancias:
datos:
Caractersticas Integral Nmero de Fecha de

61 1999/11/09
del atributo: Real atributos: Donacin
Nmero de
Valores
Tareas asociadas: N/A N/A accesos 14001
perdidos?
Web:
Fuente :
IPUMS
Proyectos Censo histricas
Universidad de Minnesota
614 Ciencias Sociales
267 19th Avenue Sur
Minneapolis, MN 55455
IPUMS '@' hist.umn.edu
http://www.ipums.umn.edu/
Donante:
Stephen Bay
Departamento de Informacin y Ciencias de la Computacin ,
Universidad de California, Irvine
Irvine , CA 92697
SBAY '@' ics.uci.edu
La fuente original de este conjunto de datos es el proyecto IPUMS ( RugglesSobek , 1997

) . El proyecto IPUMS es una gran coleccin de datos del censo federal que ha
estandarizado los esquemas de codificacin para hacer comparaciones a travs del
tiempo fcil.
Los datos son un ponderado de 1 en 100 muestras de las respuestas de la Los Angeles -
Long Beach area para los aos 1970 , 1980 y 1990 . La familia y los registros individuales
se acoplan en una sola mesa y utilizamos todas las variables que estaban disponibles
para los tres aos. Cuando hay ms de una versin de una variable, como para la carrera ,
hemos utilizado la ms general. Para la ocupacin y la industria se utiliz la base de 1950.
Tenga en cuenta que los datos de PUMS se basa en muestras de racimo, es decir,
muestras estn hechas de hogares o viviendas de las que puede haber varias personas .
Las personas de la misma casa ya no son independientes. Ruggles ( 1995 ) considera que
esta cuestin y analiza su efecto (junto con los efectos de la estratificacin ) en los errores
estndar.
El schltype variables parece tener diferentes valores de codificacin a travs de los aos
1970 , 1980 y 1990 .
Hay dos versiones de este conjunto de datos:
1 . El conjunto de datos Pequeo
El conjunto de datos contiene una pequea muestra de 1 en 1000 del rea de Los Angeles
y Long Beach. Fue formado por muestreo del gran conjunto de datos .
2 . El gran conjunto de datos
El gran conjunto de datos contiene una muestra de 1 en 100 de la zona de Los ngeles y
Long Beach.
Por favor, consulte ipums.la.names
S. Ruggles . ( 1995 ) . "Diseos de la muestra y los errores de muestreo ." Mtodos

Histricos . Volumen 28 . Nmero 1 . Pginas 40-46 .
[Web Link]
Ke Wang y Zhou Shiyu y Ada Wai Chee - Fu y Jeffrey Xu Yu. Minera Cambios de
Clasificacin por correspondencia Tracing . SDM . 2003 . [Ver Contexto ] .
Stephen D. Bay y Michael J. Pazzani . Diferencias Deteccin Grupo: Conjuntos de

contraste mineras. Dato Min . Conocimiento . Discov , 5 . 2001 . [Ver Contexto ] .
Chris Giannella y Bassem Sayrafi . Una teora de la informacin de histograma individual

Dimensional Selectividad Estimacin . Departamento de Ciencias de la Computacin ,
Universidad de Indiana en Bloomington . [Ver Contexto ] .
Cita de pedidos:
Reproducido aqu es la IPUMS la documentacin original de la citacin y el uso :
Todas las personas se les concede una licencia limitada para usar y distribuir esta
documentacin y los datos adjuntos, con sujecin a las siguientes condiciones:
* No se podr cobrar por el uso o la distribucin.

* Publicaciones e informes de investigacin basados en la base de datos deben citar
adecuadamente. La citacin deber incluir lo siguiente :
Steven Ruggles y Matthew Sobek et . al.

Integrated Public Use Series Microdatos : Versin 2.0
Minneapolis: Proyectos Censo histricos,
Universidad de Minnesota , 1997
Si es posible , las citas deben incluir tambin la direccin del sitio IPUMS : [Web Link] .
Adems , solicitamos que los usuarios nos envan una copia de las publicaciones ,
informes de investigacin , o haciendo uso de material educativo de los datos o la
documentacin. Material impreso debe ser enviada a :
IPUMS
Proyectos Censo histricas
Universidad de Minnesota
614 Ciencias Sociales
267 19th Avenue Sur
Minneapolis, MN 55455
Enviar todo el material electrnico para IPUMS ' @' hist.umn.edu
Iris Conjunto de datos 1988/07/01

Resumen:
Base de datos famoso; de Fisher, 1936.
Caractersticas del
Nmero de
instancias:
datos:

Real 4 1988/07/01
Nmero de
Valores
perdidos?
Web:
Fuente :
Creador:
R.A. pescador
Donante:
Michael Marshall ( MARSHALL % PLU '@' io.arc.nasa.gov )

Esta es quizs la base de datos ms conocida que se encuentran en la literatura de
reconocimiento de patrones. Papel de Fisher es un clsico en el campo y se hace
referencia con frecuencia a este da. (Ver Duda y Hart, por ejemplo.) El conjunto de datos
consta de 3 clases de 50 casos cada uno, donde cada clase se refiere a un tipo de planta
de iris. Una clase es linealmente separable de la otra 2 ; Estos ltimos no son linealmente
separables entre s .
Atributo predicho : clase de planta de iris.
Este es un dominio sumamente sencillo .
Este contador se distingue de los datos presentados en el artculo Fishers (identificado por
Steve Chadwick, spchadwick '@' espeedaz.net ) . La muestra de 35 debe ser:
4.9,3.1,1.5,0.2 , "Iris - setosa " donde el error se encuentra en la cuarta funcin. La
muestra 38a : 4.9,3.6,1.4,0.1 , "Iris - setosa " dnde estn los errores en la segunda y
tercera caractersticas.
1 . longitud spalo en cm
2 . anchura del spalo en cm
3 . Longitud del ptalo en cm
4 . ancho de ptalo en cm
5 . clase :
- Iris Setosa
- Iris versicolor
- Iris Virginica
Fisher , R. A. " El uso de mltiples mediciones en problemas taxonmicos " anual

Eugenesia , 7 , Parte II, 179-188 ( 1936 ); Tambin en " Contribuciones a la Estadstica
Matemtica ( John Wiley , NY , 1950 .)
[Web Link]
Duda , R.O. , y Hart, de educacin fsica ( 1973 ) Clasificacin de patrones y anlisis de la

escena . ( Q327.D83 ) John Wiley & Sons. ISBN 0-471-22361-1 . Consulte la pgina 218 .
[Web Link]
Dasarathy , BV ( 1980 ) " husmeando el Barrio: A Regla Nueva Estructura del Sistema de
Reconocimiento y Clasificacin en entornos parcialmente expuesta " . IEEE Transactions
on Pattern Analysis y la mquina de Inteligencia , vol. PAMI - 2 , N 1 , 67-71 .
[Web Link]
Gates, G.W. ( 1972 ) " La Reduccin de vecinos ms cercanos " . IEEE Transactions on
Information Theory , mayo de 1972, el 431-433 .
[Web Link]
Vea tambin: 1988 MLC Proceedings, 54-64 .

Ping Zhong y Masao Fukushima. A regularizada no lisas Mtodo de Newton para

Mquinas de Vectores Soporte multi - clase. 2005 . [Ver Contexto ] .
Anthony K H Tung y Xin Xu y Beng Chin Ooi . CURLER : encontrar y visualizar no lineal
correlacionada Clusters . Conferencia SIGMOD . 2005 . [Ver Contexto ] .
Igor Fischer y Jan Polonia. Amplificar la estructura de la matriz de bloques para Espectral
Clustering. Laboratorio de Telecomunicaciones . 2005 . [Ver Contexto ] .
Sotiris B. Kotsiantis y Panayiotis E. Pintelas . LogitBoost de simple bayesiano clasificador .

Informatica. 2005 . [Ver Contexto ] .

Sugato Basu . Clustering semi - supervisado con un conocimiento limitado del fondo .
AAAI . 2004 . [Ver Contexto ] .
Judith E. Devaney y Steven G. Satterfield y John G. Hagedorn y John T. Kelso y Adele P.

Peskin y William George y Terence J. Griffin y Howard K. Hung y Ronald D. Kriz . Ciencia
en la velocidad del pensamiento . Inteligencia Ambiental para el descubrimiento cientfico .
Jennifer G. Dy y Carla Brodley . Seleccin de caractersticas para el Aprendizaje No

Supervisado . Journal of Machine Learning Research , 5 . 2004 . [Ver Contexto ] .
Jeroen Eggermont y Joost N. Kok y Walter A. Kosters . Programacin Gentica para la

clasificacin de los datos : la particin del espacio de bsqueda . SAC . 2004 . [Ver
Contexto ] .
Remco R. Bouckaert y Eibe Frank . La evaluacin de la replicabilidad de las pruebas de

significacin para comparar los algoritmos de aprendizaje . PAKDD . 2004 . [Ver Contexto ]
.
Mikhail Bilenko y sugato Basu y Raymond J. Mooney . La integracin de las limitaciones y

de aprendizaje mtrica en la agrupacin semi - supervisado. ICML . 2004 . [Ver Contexto ]
.
Dash Manoranjan y Huan Liu y Peter Scheuermann y Kian - Lee Tan . Agrupacin
jerrquica Fast y su validacin . Conocimiento de Datos. Eng, 44 . 2003 . [Ver Contexto ] .
Bob Ricks y Dan Ventura . El entrenamiento de un red neuronal de Quantum . PNI. 2003 .
[Ver Contexto ] .
Eibe Frank y Mark Hall. Visualizacin de estimadores de probabilidad Clase. PKDD . 2003
. [Ver Contexto ] .
Ross J. Michaels y Patrick Grother y P. Jonathan Phillips. El marco de evaluacin
HumanID NIST . AVBPA . 2003 . [Ver Contexto ] .
Sugato Basu . Aparece tambin como Informe Tcnico, UT -AI . Propuesta de doctorado.
Dick de Ridder y Olga Kouropteva y Oleg Okun y Matti Pietikinen y Robert PW Duin .
Supervisado Localmente Lineal incrustacin . ICANN. 2003 . [Ver Contexto ] .
Aristidis Likas y Nikos A. Vlassis y Jakob J. Verbeek . El k-means algoritmo de clustering

mundial . Reconocimiento de Patrones , 36. 2003 . [Ver Contexto ] .
Zhi -Hua Zhou y Jiang Yuan y Shifu Chen. La extraccin de reglas simblicas de conjuntos
de redes neuronales entrenadas . AI Commun , 16 . 2003 . [Ver Contexto ] .
Jeremy Kubica y Andrew Moore. Probabilstico de identificacin ruido y limpieza de datos .

ICDM . 2003 . [Ver Contexto ] .
Julie Greensmith . Nuevas fronteras para un sistema inmune artificial . Digital Media
Laboratorio de Sistemas HP Laboratorios Bristol. 2003 . [Ver Contexto ] .
Geoffrey Holmes y Bernhard Pfahringer y Richard Kirkby y Eibe Frank y Mark A. Hall.
Multiclase rboles de decisin alterna . ECML . 2002 . [Ver Contexto ] .
Inderjit S. Dhillon y Dharmendra S. Modha y W. Scott Spangler . Clase de visualizacin de

datos de alta dimensin con aplicaciones . Departamento de Ciencias de la Computacin
de la Universidad de Texas. 2002 . [Ver Contexto ] .
Manoranjan Dash y Kiseok Choi y Peter Scheuermann y Huan Liu. Seleccin de

caractersticas para Clustering - Una solucin de filtro. ICDM . 2002 . [Ver Contexto ] .
Ayhan Demiriz y Kristin P. Bennett y Mark J. Embrechts . Un enfoque Algoritmo Gentico

para Clustering semi - supervisado . E-business Departamento , Verizon . Inc. 2002 . [Ver
Contexto ] .
Jun Wang y Yu Bin y Les Gasser . Visualizacin Concepto Tree Based Clustering con
sombreados de similitud Matrices . ICDM . 2002 . [Ver Contexto ] .
Michail Vlachos y Carlotta Domeniconi y Dimitrios Gunopulos y George Kollios y Nick

Koudas . Tcnicas de reduccin de dimensionalidad no lineales para la clasificacin y
visualizacin . KDD . 2002 . [Ver Contexto ] .
Wai Lam y Kin Keung y Charles X. Ling . PR 1527. Departamento de Ingeniera de

Sistemas y Gestin de Ingeniera, la Universidad China de Hong Kong. 2001 . [Ver
Contexto ] .

David Hershberger y Hillol Kargupta . Distribuido multivariado de regresin utilizando

basada en ondas de minera de datos colectiva . J. Distrib paralelo . Comput , 61. 2001 .
[Ver Contexto ] .
David Horn y A. Gottlieb . El mtodo de Quantum Clustering. PNI. 2001 . [Ver Contexto ] .
Carlotta Domeniconi y Jing Peng y Dimitrios Gunopulos . Una mquina adaptativa Mtricas
de Clasificacin de patrones . PNI. 2000 . [Ver Contexto ] .
Asa Ben- Hur y David Horn y Hava T. Siegelmann y Vladimir Vapnik . A Apoyo Mtodo del
vector para Clustering. PNI. 2000 . [Ver Contexto ] .
Neil Davey y Rod Adams y Mary J. George . La arquitectura y el rendimiento de una

competitiva red de rboles Neural Evolutiva Estocstico. Appl . Intell , 12 . 2000 . [Ver
Contexto ] .
Edgar Acua y Alex Rojas. Conjuntos de clasificadores basados en estimadores de

densidad de Kernel . Departamento de Matemticas de la Universidad de Puerto Rico.
Manoranjan Dash y Huan Liu. Seleccin de caractersticas para la agrupacin en clster .

PAKDD . 2000 . [Ver Contexto ] .
Ismail Taha y Joydeep Ghosh . Interpretacin simblica de las Redes Neuronales

Artificiales . IEEE Trans . Conocimiento . Datos Eng, 11 . 1999 . [Ver Contexto ] .
David M J Tax y Robert P W Duin . Apoyar descripcin del dominio del vector. Pattern
Recognition Letters , 20 . 1999 . [Ver Contexto ] .
Fomentar J. Provost y Tom Fawcett y Ron Kohavi . El caso contra la precisin de la

estimacin para la comparacin de induccin Algoritmos . ICML . 1998 . [Ver Contexto ] .
Stephen D. Bay. Combinando Clasificadores vecino ms cercano a travs de varios

subconjuntos de caractersticas . ICML . 1998 . [Ver Contexto ] .
Wojciech Kwedlo y Marek Kretowski . Descubrimiento de reglas de decisin de las bases

de datos : un enfoque evolutivo . PKDD . 1998 . [Ver Contexto ] .
Ke Wang y Han Chong Goh . Splits mnimo basado Discretizacin de caractersticas

continuas . IJCAI ( 2 ) . 1997 . [Ver Contexto ] .
Ethem Alpaydin . La votacin sobre mltiples vecinos ms prximos condensada. Artif .

Intell . Rev , 11 . 1997 . [Ver Contexto ] .
Igor Kononenko y Edvard Simec y Marko Robnik - Sikonja . La superacin de la miopa de

los algoritmos de aprendizaje inductivo con RELIEFF . Appl . Intell , 7 . 1997 . [Ver
Contexto ] .

Daniel C. St y Ralph W. Wilkerson y Cihan H. Dagli . MEDIDAS SET REGLA DE CALIDAD

PARA EL APRENDIZAJE INDUCTIVO algoritmos. actas de las Redes Neuronales
Artificiales En Engineering Conference 1996 ( ANNIE. 1996 . [Ver Contexto ] .
Tapio Elomaa y Juho Rousu . Encontrar Optimal Multi- Splits para Numerical atributos en
la Decisin Learning Tree . Grupo de trabajo ESPRIT en Neural y Computacional de
Aprendizaje. 1996 . [Ver Contexto ] .
Ron Kohavi . Ampliar los efectivos Precisin de Naive - Bayes clasificadores : Un hbrido
de rbol de decisiones . KDD . 1996 . [Ver Contexto ] .
Ron Kohavi . El poder de las tablas de decisin . ECML . 1995 . [Ver Contexto ] .
Ron Kohavi . Un estudio de la validacin cruzada y Bootstrap para la Precisin Estimacin
y seleccin del modelo . IJCAI . 1995 . [Ver Contexto ] .
Zoubin Ghahramani y Michael I. Jordan . Aprender de los datos incompletos. INSTITUTO

TECNOLGICO DE MASSACHUSETTS Laboratorio de Inteligencia Artificial y el Centro
para BIOLGICA Y COMPUTACIONAL DEPARTAMENTO DE APRENDIZAJE DEL
CEREBRO Y Ciencias Cognitivas . 1994 . [Ver Contexto ] .
George H. John y Ron Kohavi y Karl Pfleger . Caractersticas irrelevante y el problema de

la seleccin de subconjuntos . ICML . 1994 . [Ver Contexto ] .

Universidad de la Columbia Britnica. 1989 . [Ver Contexto ] .
Fran ois Poulet . La cooperacin entre los algoritmos automticos , algoritmos interactivos
y herramientas de visualizacin de Visual Data Mining . ESIEA Recherche . [Ver Contexto ]
.
Takao Mohri y Hidehiko Tanaka. Una de indexacin ptima Ponderacin Criterio de caso
tanto numrico y atributos simblicos . Informacin Ingeniera Curso de la Facultad de
Ingeniera de la Universidad de Tokio . [Ver Contexto ] .
Huan Li y Chen Wenbin . Supervisado Local Alignment Tangente Espacio para la

Clasificacin. I- Fan Shen. [Ver Contexto ] .

[Ver Contexto ] .
A. da Valls y Vicen Torra . Explicando el consenso de opiniones con el vocabulario de los

expertos . Dept. d' Enginyeria i Informtica Matemtiques Universitat Rovira i Virgili . [Ver
Contexto ] .
Wl / odzisl / aw Duch y Rafal Adamczak y Krzysztof Grabczewski . Extraccin de reglas

lgicas y ntidas a travs de redes de retropropagacin restringidos. Departamento de
Mtodos Computacionales , Universidad Nicols Coprnico. [Ver Contexto ] .
Eric P. Kasten y Philip K. McKinley. MESO : Memoria sensorial al apoyar el aprendizaje en

lnea en la adaptacin del software . Actas de la Tercera Conferencia Internacional sobre
el Desarrollo y el Aprendizaje ( ICDL. [Ver Contexto ] .
Karol Grudzi nski y Wl / odzisl / aw Duch. SBL -PM : Un algoritmo simple para la Seleccin
de instancias de referencia en Mtodos basados en la similitud. Departamento de Mtodos
Chih- Wei Hsu y Cheng -Ru Lin. Una Comparacin de Mtodos para Mquinas de
Vectores Soporte multi - clase. Departamento de Ciencias de la Computacin e Ingeniera
de la Informacin de la Universidad Nacional de Taiwn . [Ver Contexto ] .

].

Wl / odzisl / aw Duch y Rafal Adamczak y Geerd H. F Diercksen . Clasificacin, Asociacin

y el patrn de finalizacin usando Neuronales mtodos basados en similitud .
Departamento de Mtodos Computacionales , Universidad Nicols Coprnico. [Ver
Contexto ] .
Stefan Aeberhard y Danny Coomans y De Vel . EL RENDIMIENTO DE LOS MTODOS

ESTADSTICOS reconocimiento de patrones en los entornos de alta dimensin .
Universidad James Cook. [Ver Contexto ] .
Michael P. Cummings y Daniel S. Myers y Marci Mangelson . La aplicacin de pruebas

Permuation de Modelos Estadsticos basados en los rboles : Ampliar la R rpart paquete .
Centro de Bioinformtica y Biologa Computacional , Instituto de Estudios Avanzados de
Computacin, Universidad de Maryland. [Ver Contexto ] .
Ping Zhong y Masao Fukushima. Segundo Cono Orden Programacin Formulaciones para
Robust Clasificacin de clase mltiple. [Ver Contexto ] .
Wl odzisl / aw Duch y Rafal Adamczak y Norbert Jankowski . La inicializacin de los

parmetros de adaptacin de las redes de densidad. Departamento de Mtodos
Aynur Akku y H. Altay Gvenir . Ponderacin Caractersticas de k vecinos ms prximos:

Clasificacin de Feature Proyecciones . Departamento de Ingeniera Informtica y
Ciencias de la Informacin de la Universidad Bilkent . [Ver Contexto ] .
Jun Wang . Visualizacin Clasificacin con Shaded matriz de similitud . Bei Yu Les Gasser
Graduate School of Library and Information Science de la Universidad de Illinois en
Urbana- Champaign. [Ver Contexto ] .
Andrew Watkins y Jon Timmis y Lois C. Boggess . Artificial Sistema Inmune

Reconocimiento (AIRS ) : Un ImmuneInspired Supervisado algoritmo de aprendizaje . (
abw5 , jt6@kent.ac.uk ) Laboratorio de Computacin de la Universidad de Kent. [Ver
Contexto ] .
Gaurav Marwah y Lois C. Boggess . Artificial Sistemas inmunes para la clasificacin:

algunos problemas. Departamento de Ciencias de la Universidad Estatal de Mississippi
ordenador . [Ver Contexto ] .
Igor Kononenko y Edvard Simec . La induccin de rboles de decisin utilizando RELIEFF

. Universidad de Ljubljana, Facultad de Ingeniera e Informtica Ingeniera Elctrica . [Ver
Contexto ] .
Daichi Mochihashi y Gen -ichiro Kikui y Kenji Kita . Aprender no estructural Distancia
mtrica por distorsiones mnimas en Racimo. ATR oral laboratorios de investigacin
Idioma de traduccin . [Ver Contexto ] .
Wl odzisl / aw Duch y Karol Grudzinski . Reglas basadas en prototipos - Una nueva forma
de entender los datos. Departamento de Mtodos Computacionales , Universidad Nicols
H. Altay Gvenir . Un algoritmo de aprendizaje de clasificacin robusta de caractersticas

irrelevantes . Universidad de Bilkent , Departamento de Ingeniera Informtica y Ciencias
de la Informacin . [Ver Contexto ] .
Enes Makalic y Lloyd Allison y David L. Dowe . MML INFERENCIA DE REDES

NEURONALES sola capa . Facultad de Ciencias de la Computacin e Ingeniera de
Software de la Universidad de Monash . [Ver Contexto ] .
Ron Kohavi y Brian Frasca . Caracterstica til subconjuntos y Rough Set reductos . Tercer
Taller Internacional de Rough Sets y Soft Computing . [Ver Contexto ] .
G. Ratsch y B. Scholkopf y Alex Smola y Sebastian Mika y T. Onoda y K. -R Muller.

Robusto Aprendizaje Ensemble for Data Mining. GMD PRIMERA , Kekul # estr . [Ver
Contexto ] .
YongSeog Kim y W. Nick Street y Filippo Menczer . Optimal Ensemble construccin a

travs de Meta- evolutivos Conjuntos . Sistemas de Informacin Empresarial , Universidad
del Estado de Utah. [Ver Contexto ] .
Maria Salamo y Elisabet Golobardes . El anlisis de los mtodos de ponderacin Rough

Sets de Razonamiento Basado en Casos Systems. Enginyeria i Arquitectura La Salle. [Ver
Contexto ] .
Lawrence O. Hall y Nitesh V. Chawla y Kevin W. Bowyer. La combinacin de rboles de

decisin aprendidas en paralelo . Departamento de Ciencias de la Computacin e
Ingeniera , ENB 118 University of South Florida . [Ver Contexto ] .
Anthony Robins y Marcus Frean . El aprendizaje y la generalizacin de una red estable .

Ciencias de la Computacin de la Universidad de Otago . [Ver Contexto ] .
Geoffrey Holmes y Leonard E. Trigg . Una herramienta de diagnstico para Tree Based
Learning Clasificacin Supervisada Algoritmos . Departamento de Informtica Universidad
de Waikato Hamilton Nueva Zelanda. [Ver Contexto ] .
Shlomo Dubnov y Ran Yaniv y El Technion y Yoram Gdalyahu y Elad Schneidman y

Naftali Tishby y Golan Yona . La agrupacin por Friends : A New Nonparametric Pairwise
Distancia basada algoritmo de clsteres . Universidad Ben Gurion . [Ver Contexto ] .
Michael R. Berthold y Klaus - Peter Huber. Desde Radial para Funciones de Base
Rectangular : Un nuevo enfoque para la Regla Aprendiendo de grandes conjuntos de
datos . Institut fur Rechnerentwurf und Fehlertoleranz (Prof. D. Schmid ) Universitat
Karlsruhe. [Ver Contexto ] .
Norbert Jankowski . Encuesta de Funciones de Transferencia Neuronales . Departamento

de Mtodos Computacionales , Universidad Nicols Coprnico. [Ver Contexto ] .
Wl / odzisl / aw Duch y Rafal Adamczak y Geerd H. F Diercksen . Redes Neuronales de

Perspectiva Basada en similitud . Departamento de Mtodos Computacionales ,
Universidad Nicols Coprnico. [Ver Contexto ] .
Fernando helecho # Andez y Pedro Isasi . El diseo de Clasificadores del vecino ms

prximo por la evolucin de una poblacin de prototipos . Universidad Carlos III de Madrid.
[Ver Contexto ] .
Asa Ben- Hur y David Horn y Hava T. Siegelmann y Vladimir Vapnik . A Apoyo Mtodo del
vector para la agrupacin jerrquica . Facultad de IE y Gestin Technion . [Ver Contexto ] .
Lawrence O. Hall y Nitesh V. Chawla y Kevin W. Bowyer. Decisin Learning Tree en

conjuntos muy grandes de datos . Departamento de Ciencias de la Computacin e
Ingeniera , ENB 118 University of South Florida . [Ver Contexto ] .
G. Ratsch y B. Scholkopf y Alex Smola y K. Muller -R y T. Onoda y Sebastian Mika . Arco :
Ensemble de Aprendizaje en la presencia de valores atpicos . GMD PRIMERO. [Ver
Contexto ] .



Contexto ] .
Rudy Setiono y Huan Liu. Problema La fragmentacin y la funcin automtica de la

construccin . Escuela de la Universidad Nacional de Computacin de Singapur. [Ver
Contexto ] .
Cita de pedidos:
[ 1 ] Los documentos fueron cosechadas de forma automtica y se asocian con este

conjunto de datos , en colaboracin con Rexa.info
ESTAMBUL BOLSA Data 2013/06/01

Set
Resumen:
Juegos de datos incluye las devoluciones de Bolsa de Estambul con otros siete ndice
internacional; SP, DAX, FTSE, NIKKEI, BOVESPA, MSCE_EU, MSCI_EM desde junio 5,
2009 a febrero 22, 2011.
Multivariado 556 rea: Negocios

8 2013/06/01
Nmero de
Valores
perdidos?
Web:
Fuente:
Dr.Oguz Akbilgic, oguzakbilgic '@' gmail.com Universidad de Tennessee, Knoxville
Los datos se recogen a partir de imkb.gov.tr y finance.yahoo.com. Los datos se organizan

en lo que respecta a los das de trabajo en la Bolsa de Estambul.
Rendimientos burstiles. Estambul bolsa de valores ndice nacional 100, Standard & Poora
s 500 ndice de rendimiento, ndice del mercado de valores de retorno de Alemania,
del mercado de valores de ndice de retorno de Reino Unido, del mercado de valores de
ndice de retorno de Japn, del mercado de valores de ndice de retorno de Brasil, el
ndice MSCI Europea, MSCI ndice de mercados emergentes
Papel: Akbilgic, O., Bozdogan, H., Balaban, ME, (2013) Una novela modelo RBF Redes
Neuronales hbrido como pronosticador, Estadstica y Computacin. DOI 10.1007/s11222-
013-9375-7
Tesis: Oguz Akbilgic, (2011) Hibrit Radyal Tabanl Fonksiyon Alar ile
Deiken Se IMI ve Tahminleme: Menkul K ymet Yata ra m Kararlar na
likin Bir Uygulama, Universidad de Estambul
Cita de pedidos:
Papel: Akbilgic, O., Bozdogan, H., Balaban, ME, (2013) Una novela modelo RBF Redes
Neuronales hbrido como pronosticador, Estadstica y Computacin. DOI 10.1007/s11222-
013-9375-7
Tesis: Oguz Akbilgic, (2011) Hibrit Radyal Tabanl Fonksiyon Alar ile
Deiken Se IMI ve Tahminleme: Menkul K ymet Yata ra m Kararlar na
likin Bir Uygulama, Universidad de Estambul
ISOLET Data Set 2012/05/21
Resumen:
Objetivo: Predecir el que se hablaba carta-nombre - una tarea de clasificacin simple.
Caractersticas del
Nmero de
Conjunto de Multivariado 7797 rea: Ordenador
instancias:
datos:

617 2012/05/21
Nmero de
Valores
perdidos?
Web:
Fuente:
Creadores: Ron Cole y Marcos Fanty Department of Computer Science and Engineering, .
Oregon Graduate Institute, Beaverton, OR
97006 cole '@' cse.ogi.edu , fanty'@' cse.ogi.edu Donante: Tom Dietterich Department of
Computer Science Universidad del Estado de Oregon, Corvallis, OR
97331 TGD '@' cs.orst.edu
Este conjunto de datos se gener como sigue. 150 sujetos hablaban el nombre de cada
letra del alfabeto dos veces. De ah, tenemos 52 ejemplos de entrenamiento de cada
altavoz. Las bocinas se agrupan en conjuntos de 30 altavoces cada uno, y se les conoce
como isolet1, isolet2, isolet3, isolet4 y isolet5. Los datos aparecen en isolet1 2 3 4. Datos
en orden secuencial, primero los oradores de isolet1, entonces isolet2, y as
sucesivamente. El equipo de prueba, isolet5, es un archivo independiente. Usted notar
que 3 ejemplos estn desaparecidos. Creo que fueron retirados debido a las dificultades
de grabacin. Creo que esto es un buen dominio para una tarea perceptual
ruidoso. Tambin es un muy buen dominio para probar las capacidades de escala de
algoritmos. Por ejemplo, C4.5 en este dominio es ms lento que el de
retropropagacin! He formateado los datos de C4.5 y proporcionado a los nombres de tipo
C4.5 archivo tambin.
Las caractersticas se describen en el artculo de Cole y Fanty antes citada. Las

caractersticas incluyen coeficientes espectrales; caractersticas de nivel, caractersticas
sonorante, caractersticas pre-sonorante y caractersticas post-sonorante. Orden exacto de
aparicin de las caractersticas que no se conoce.
Fanty, M., Cole, R. (1991). Reconocimiento de letras hablado. En Lippman, RP, Moody, J.,
y Touretzky, DS (Eds). Los avances en los sistemas de procesamiento de informacin
neuronal 3. San Mateo, CA:. Morgan Kaufmann [Web Link] Dietterich, TG, Bakiri, G.
(1991) de correccin de errores Cdigos de salida del: Un mtodo general para la mejora
de los programas de aprendizaje inductivo multiclase. Actas de la Novena Conferencia
Nacional sobre Inteligencia Artificial (AAAI-91), Anaheim, CA:. AAAI Press [Web
Link] Dietterich, TG, Bakiri, G. (1994) Resolver multiclase Problemas de Aprendizaje a
travs de cdigos de salida de correccin de errores.Disponible como Url: [Web Link] [Web
Link]
Jakko Peltonen y Samuel Kaski. discriminativo Componentes de datos . IEEE. 2004. [ Ver
Contexto ]. Vassilis Athitsos y Stan Sclaroff. Impulsar Clasificadores vecino ms cercano
para el Reconocimiento multiclase . Universidad de Boston Computer Tech
Ciencia. Informe n, 2004-006. 2004. [ Ver Contexto ]. Littau David y Daniel Boley.Usando
poca memoria Representaciones con el clster conjuntos muy grandes de
datos . SDM. 2003. [ Ver Contexto ]. Inderjit S. Dhillon y Dharmendra S. Modha y W. Scott
Spangler. visualizacin Clase de datos de alta dimensin con aplicaciones . Departamento
de Ciencias de la Computacin de la Universidad de Texas. 2002. [ Ver Contexto ]. Erin L.
Allwein y Robert E. Schapire y Yoram Singer. Reducir multiclase a binario: un enfoque
unificador para clasificadores de margen . ICML. 2000. [ Ver Contexto ]. Hiroshi
Shimodaira y Jun Okui y Mitsuru Nakai. Modificado Aprendizaje Error La clasificacin
mnima y su aplicacin a las redes neuronales . SSPR / SPR.1998. [ Ver Contexto .] .
Khaled A. Alsabti y Sanjay Ranka y Vineet Singh NUBES: un clasificador rbol de
decisiones para grandes conjuntos de datos . KDD. 1998. [Ver Contexto ]. Thomas G.
Dietterich y Ghulum Bakiri. Resolver multiclase Problemas de Aprendizaje a travs de
cdigos de salida de correccin de errores . CoRR, csAI/9501101. 1995. [ Ver
Contexto ]. Shlomo Dubnov y Ran Yaniv y El Technion y Yoram Gdalyahu y Elad
Schneidman y Naftali Tishby y Golan Yona. Clustering Por Friends: A New Nonparametric
Pairwise Distancia basada algoritmo de clsteres . Universidad Ben Gurin. [ Ver
Contexto ]. Jakub Zavrel. An Empirical reexamen de votacin ponderada de k-
NN . Computational Linguistics. [ Ver Contexto ]. Hiroshi Shimodaira y junio Okui y Mitsuru
Nakai. MEJORA DEL RENDIMIENTO generalizacin del MCE / GPD
APRENDIZAJE . Facultad de Ciencias de la Informacin de Japn Instituto Avanzado de
Ciencia y Tecnologa Tatsunokuchi, Ishikawa. [ Ver Contexto ].
Cita de pedidos:
Crdito japons Screening 1992/03/19
Data Set
Resumen:
Incluye teora del dominio (generado por hablar con expertos en el dominio japons); datos
en Lisp.
Caractersticas del
Nmero de
Conjunto de Multivariado 125 rea: Finanzas
instancias:
datos:

N/A 1992/03/19
Nmero de
Valores
perdidos?
Web:
Fuente:
Creador:
Chiharu Sano
Donante:
Chiharu Sano
csano '@' bonnie.ICS.UCI.EDU
Ejemplos representan instancias positivas y negativas de las personas que fueron y no se

concedi el crdito.
La teora fue generada por hablar con las personas en una empresa japonesa que
concede el crdito.
N/A
N/A
Chris Drummond y Robert C. Holte. C4.5, desequilibrio de clases, y costo Sensibilidad:

Por qu sub-muestreo late sobremuestreo. Instituto para la Tecnologa de la Informacin,
el Consejo de Investigacin Nacional de Canad. [Ver Contexto].
Cita de pedidos:

128.- Japons Vocales Data Set
Resumen : Este conjunto de datos
registra 640 series de tiempo de 12
Conjunto de
coeficientes Multivariado, Nmero de cepstrum LPC
datos 640 rea: N/A
tomadas de nueve Time-Series instancias: oradores
Caractersticas:
masculinos.
Real 12 N/A
Nmero
Tareas Valores N/
Clasificacin de Web 32064
asociadas: perdidos? A
Accesos:
Fuente:
Propietario original y los donantes: Mineichi Kudo, Jun Toyama, Masaru Shimbo Laboratorio de Procesamiento de
Informacin de la Divisin de Sistemas e Ingeniera de la Informacin Escuela de Ingeniera de la Universidad de
Hokkaido, Sapporo 060-8628, JAPN {mo, junio, Shimbo} @ main.eng.hokudai.ac . jp
Datos Conjunto de Informacin: Los datos fueron obtenidos del examen de nuestro clasificador de
nuevo desarrollo para las curvas multidimensionales (series de tiempo multidimensional). Nueve oradores masculinos
pronunciadas a los dos vocales japonesas / ae / sucesivamente. Para cada elocucin con parmetros anlisis
descritos continuacin aplicamos 12 grados anlisis prediccin lineal a obtener series tiempo discreto 12 coeficientes
cepstrum LPC. Esto significa que una declaracin de un altavoz se forma una serie de tiempo cuya duracin es en el
rango de 7-29 y cada punto de una serie de tiempo es de 12 funciones (12 coeficientes). El nmero de la serie de
tiempo es de 640 en total. Se utiliz un conjunto de 270 series de tiempo para la formacin y el otro conjunto de 370
series de tiempo para la prueba. Nmero de instancias (enunciados): * Formacin: (.. 30 expresiones de 9 altavoces
Ver archivo 'size_ae.train') 270 * Pruebas : 370 (. 24-88 enunciados por los mismos 9 altavoces en diferentes
oportunidades Ver archivo 'size_ae.test'.) Longitud de series de tiempo: * 7-29 dependiendo de
expresiones parmetros de anlisis: * Frecuencia de muestreo: 10 kHz * Longitud del marco: 25.6 ms * Duracin de
los turnos: 6.4ms * Grado de coeficientes LPC: 12 Archivos: * Archivo Formacin: ae.train * Archivo de prueba:
ae.test Formato: Cada lnea ae.train o ae.test representa 12 coeficientes LPC en el orden creciente separados por
espacios. Esto corresponde a un cuadro de anlisis. Las lneas se organizan en bloques, que son un conjunto de 7-29
lneas separadas por lneas en blanco y corresponde a una sola expresin verbal de / ae / con 7-29 frames. Cada
altavoz es un conjunto de consecutivo bloques. En ae.train hay 30 bloques para cada altavoz. Bloques 1-30
representan altavoz 1, los bloques 31 a 60 representan altavoces de 2, y as sucesivamente hasta el altavoz 9. En
ae.test, altavoces 1-9 tienen el nmero correspondiente de bloques: 31 35 88 44 29 24 40 50 29. As, los bloques 1 a
31 representan altavoz 1 (31 expresiones de / ae /), los bloques 32 a 66 representan el altavoz 2 (35 expresiones de /
ae /), y as sucesivamente.
KDD Copa 1998 Datos Conjunto de Datos
Resumen : Este es el conjunto de datos utilizados para la Segunda Internacional Descubrimiento
de Conocimiento y Minera de Datos Herramientas de la Competencia, que se celebr
conjuntamente con KDD-98


481
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Ismail Parsa
Epsilon
50 Cambridge Street
Burlington MA 01803 EE.UU.
TEL: (781) 685 hasta 6734
FAX: (781) 685-0806

Por favor, consulte asociados archivos de texto en la carpeta de descargas.
N/A
N/A
KDD Cup 1999 el conjunto de datos Datos
Resumen : Este es el conjunto de datos utilizados para la Tercera Internacional
Descubrimiento de Conocimiento y Minera de Datos Herramientas de la
Competencia, que se celebr conjuntamente con KDD-99Tercera
Internacional Descubrimiento de Conocimiento y Minera de Datos Herramientas de
la Competencia, que se celebr conjuntamente con KDD-99
Conjunto de datos Nmero de Ordenado
Multivariante 4000000 rea:
Caractersticas: instancias: r

42
atributo: Integer atributos: Donado 01
Nmero de
Valores
perdidos?
Accesos:
Fuente:
N/A
Por favor, vea la descripcin de tareas.ver descripcin de la tarea.
N/A
Salvatore J. Stolfo, Wei Fan, Wenke Lee, Andreas Prodromidis, y Philip K. Chan. Modelado basado
en costos y Evaluacin para la minera de datos con la aplicacin de Fraude y de deteccin de
intrusiones:. Resultados del JAM Project [enlace]Salvatore J. Stolfo, Wei Fan, Wenke Lee, Andreas
Prodromidis, y Philip K. Chan. Modelado basado en costos y Evaluacin para la minera de datos
con la aplicacin de Fraude y de deteccin de intrusiones : Resultados del JAM Project.
KEGG metablico Relacin de red (no dirigida)
Conjunto de Datos
Resumen : KEGG vas metablicas modelados como red de reaccin de la ONU
dirigida. Variedad de caractersticas grficas presentadas.

65554 rea: Vida
Caractersticas: univariado, Texto instancias:

Entero, real 29
La clasificacin, Nmero de
Valores
Tareas asociadas: regresin, S Web 10203
perdidos?
clustering Accesos:
Fuente:
1. Muhammad Naeem, Centro de Investigacin en Ingeniera de Datos (CORDE) y del Departamento

de Ciencias de la Computacin , MAJU Islamabad Pakistn ( naeems.naeem '@' gmail.com ).
2. Sohail Asghar, Director / Profesor Asociado del Instituto Universitario de TI PMAS-ridas de
la Universidad de Agricultura, Rawalpindi Pakistn, Centro de Investigacin en Ingeniera de Datos
(CORDE), ( sohail.asghar '@'gmail.com )
KEGG vas metablicas se pueden realizar en la red. Hay dos tipos de red / grfico se pueden
formar. Estos incluyen Reaccin Red y Relacin Network. En la red de reaccin, el sustrato o
compuesto del producto son considerados como nodos y los genes son tratados como
borde. Mientras que en la red de relaciones, del sustrato y del producto componds son considerados
como los bordes, mientras que los genes de la enzima y se colocan como nodos. Nos
herramienta de gran nmero de las rutas metablicas de KEGG XML. Ellos fueron modelados en el
grfico como se describi anteriormente. Con la ayuda de herramienta Cytoscape, variedad de
funciones de red se compunted.
a) Camino de texto
b) de componentes conectados Entero (min: 1, mx: 39)
c) Dimetro Entero (min: 1, mx: 46)
d) Radio Entero (min: 1, mx: 13)
e) Centralizacin Entero (min : 0, max: 1)
f) la ruta ms corta Entero (min: 2, max: 23420)
g) Longitud caracterstica Camino entero (min: 1, [Web Link] )
h) Avg.num.Neighbours real ( [Web Link] , [Web Link] )
i) Densidad real ( [Web Link] , max: 1)
j) La heterogeneidad real (min: 0, [Web Link] )
k) Alejado Nodos Entero (min: 0, max: 3)
l) Nmero de Auto Loops Entero (min: 0, max: 4)
m) Multi-borde de nodo par de enteros (min: 0, max: 220)
n) reales (NeighborhoodConnectivity [Web Link] , [Web link] )
o) NumberOfDirectedEdges reales ( [Web Link] , [Web Link] )
p) Estrs real (min: 0, [Web Link] )
q) SelfLoops real (min: 0, [Web Link] )
r) Socio de MultiEdged NodePairs Entero (min: 0 , max: 3)
s) Grado real (min: 1, [Web Link] )
t) TopologicalCoefficient real (min: 0, max: 1)
u) BetweennessCentrality real (min: 0, [Web Link] )
v) radialidad reales ( [Web Link] , max: 30744573457)
w) real (Excentricidad [Web Link] , [Web Link] )
x) NumberOfUndirectedEdges real (min: 0, [Web Link] )
y) ClosenessCentrality real ( [Web Link] , mx : 1)
z) AverageShortestPathLength real ( [Web Link] , [Web Link] )
aa) ClusteringCoefficient real (min: 0, max: 1)
bb) nodeCount Entero (min: 2, max: 232)
cc) edgeCount Entero (min : 1, max: 444)
Shannon, P., Markiel, A., Ozier, O., Baliga, NS, Wang, JT, Ramage, D., Amin, N., Schwikowski, B. y
Ideker, T. (2003) Cytoscape: un entorno de software para los modelos integrados de redes de
interaccin biomolecular.Genome Res., 13, 2498 "2504.
Citas:
Naeem M, Asghar S, Centro de Investigacin en Ingeniera de Datos Islamabad

Pakistn , naeems.naeem '@' gmail.com , sohail.asg '@' gmail.com
KEGG metablico Relacin de red (dirigida)
Conjunto de Datos
Resumen : KEGG vas metablicas modelados como red de relaciones se indica. Variedad de
caractersticas grficas presentadas.

53414 rea: Vida

Entero, real 24
La clasificacin, Nmero de
Valores
Tareas asociadas: regresin, N/A Web 11257
perdidos?
clustering Accesos:
Fuente:
1. Muhammad Naeem, Centro de Investigacin en Ingeniera de Datos (CORDE) y del

Departamento de Ciencias de la Computacin , MAJU Islamabad Pakistn
( naeems.naeem '@' gmail.com ).
2. Sohail Asghar, Director / Profesor Asociado del Instituto Universitario de TI PMAS-ridas de
la Universidad de Agricultura, Rawalpindi, Pakistn Centro de Investigacin en Ingeniera de Datos
(CORDE), ( sohail.asghar '@'gmail.com )
KEGG vas metablicas se pueden realizar en la red. Hay dos tipos de red / grfico se pueden
formar. Estos incluyen Reaccin Red y Relacin Network. En la red de reaccin, el sustrato o
compuesto del producto son considerados como nodos y los genes son tratados como
borde. Mientras que en la red de relaciones, del sustrato y del producto componds son considerados
como los bordes, mientras que los genes de la enzima y se colocan como nodos. Nos
herramienta de gran nmero de las rutas metablicas de KEGG XML. Ellos fueron modelados en el
grfico como se describi anteriormente. Con la ayuda de herramienta Cytoscape, variedad de
funciones de red se compunted.
a) Camino de texto
b) Nodos entero (min: 2, max: 116)
c) Los bordes enteros (min: 1, max: 606)
d) los componentes conectados entero (min: 1, mx: 13)
e) nmero entero Dimetro de red ( min: 1, mx: 30)
f) Red de Radio entero (min: 1, max: 2)
g) nmero entero ruta ms corta (min: 1, max: 3277)
h) Longitud caracterstica Camino real (min: 1, [Web Enlace ] )
i) Avg.num.Neighbours real (min: 1, [Web Link] )
j) Los nodos aislados entero (min: 0, max: 1)
k) nmero de autnomos Loops entero (min: 0, max: 0)
l) Multi-borde Nodo par de enteros (min: 0, mx: 57)
m) NeighborhoodConnectivity real (min: 1, [Web Link] )
n) grado de salida real (min: 0.5, [Web Link] )
o) Estrs real ( min: 0, [Web Link] )
p) SelfLoops entero (min: 0, max: 0)
q) PartnerOfMultiEdgedNodePairs real (min: 0, [Web Link] )
r) EdgeCount real (min: 1, [Web Link] )
s) BetweennessCentrality real (min: 0, [Web Link] )
t) indegree real (min: 0.5, [Web Link] )
u) Excentricidad real ( [Web Link] , [Web Link] )
v) ClosenessCentrality real ( [Web Link] , max: 1)
w) AverageShortestPathLength real ( [Web Link] , [Web Link] )
x) ClusteringCoefficient real (min: 0, [Web Link] )
Shannon, P., Markiel, A., Ozier, O., Baliga, NS, Wang, JT, Ramage, D., Amin, N., Schwikowski, B. y
Ideker, T. (2003) Cytoscape: un entorno de software para los modelos integrados de redes de
interaccin biomolecular.Genome Res., 13, 2498 "2504.
Citas:
Naeem M, Asghar S, Centro de Investigacin en Ingeniera de Datos Islamabad

Pakistn , naeems.naeem '@' gmail.com , sohail.asg '@' gmail.com
Relaciones del Trabajo Conjunto de Datos
Resumen : De la crtica de negociacin colectiva


16 Fecha Donado
Valores Nmero de
Fuente:
Creadores: Colectivo barganing Review, publicacin mensual, as de Trabajo del Canad, de

Relaciones de Trabajo del Servicio de Informacin, Ottawa, Ontario, K1A 0J2, Canada, (819) 997-
3117 Los datos incluyen todos los acuerdos colectivos alcanzados en el sector empresarial y los
servicios personales para los locales con al menos 500 miembros (profesores, enfermeras, personal
de la universidad, la polica, etc) en Canad en 87 y primer trimestre de 88. Donante: Stan
Matwin, Ciencias de la Computacin Departamento de la Universidad de Ottawa , 34
Somerset East, K1N 9B4, ( stan '@' uotcsi2 . bitnet )

Los datos se utiliz para probar 2 niveles con enfoque de aprendizaje a partir de ejemplos positivos
y negativos
1. dur: mientras dure el contrato

[1 .. 7]
2 wage1.wage: aumento del salario en el primer ao de contrato
[2,0 .. 7,0]
3 wage2.wage: aumento salarial en el segundo ao de contrato
[2,0 .. 7,0]
4 wage3. salario: aumento salarial en el tercer ao de contrato
[2,0 .. 7,0]
5 cola: costo de la caresta de la vida
[ninguno, tcf, tc]
6 hours.hrs: nmero de horas de trabajo durante la semana
[35 .. 40]
7 de pensiones: los empleadores contribuciones al plan de pensiones
[ninguno, ret_allw, empl_contr]
8 stby_pay: pago en espera
[2 .. 25]
9 shift_diff: Turno diferencial: Suplemento para el trabajo en II y III turno
[1 .. 25]
10 educ_allw.boolean: educacin subsidio
[ true false]
11 festivos: nmero de das feriados
[9 .. 15]
12 vacaciones: nmero de das de vacaciones pagadas
[ba, avg, GNR]
13 lngtrm_disabil.boolean: ayuda del empleador durante los empleados a largo plazo la
discapacidad
[true, false]
14 dntl_ins: empleadores contribucin al plan dental
[ninguno, medio, completo]
15 bereavement.boolean: contribucin financiera de los empleadores hacia la cobertura de los
costes de duelo
[true, false]
16 empl_hplan: contribucin del empleador al del plan de salud
[ninguno, medio, completo]
Bergadano, F., Matwin, S. Michalski, R., Zhang, J., La medicin de la calidad de las descripciones
de conceptos, Procs. de la 3 Sesiones de Trabajo Europeo sobre Aprendizaje, Glasgow, octubre
de 1988. [Web Link]Bergadano, F., Matwin, S. Michalski, R., Zhang, J., Representar y adquisicin
imprecisa y conceptos dependientes del contexto en el Conocimiento Los sistemas basados,
Procs. de ISMIS'88, Holanda del Norte, 1988. [Web Link]
Documentos que citan este conjunto de datos :
Rudy Setiono. anticipativo de red neuronal de construccin que usa validacin

cruzada . Neural Computation, 13. 2001. [ Ver Contexto .] . Gary M. Weiss y Haym Hirsh un
estudio cuantitativo de Pequeos disyunciones: Experimentos y Resultados . Departamento de
Ciencias de la Universidad de Rutgers Computer. 2000. [ Ver Contexto ]. Endre Boros y Peter
Hammer y Toshihide Ibaraki y Alexander Kogan y Eddy Mayoraz e Ilya B. Muchnik.Una Aplicacin
del anlisis lgico de datos . IEEE Trans. Conocimiento. Datos Eng, 12. 2000. [ Ver
Contexto ]. Lorne Mason y Jonathan Baxter y Peter L. Bartlett y Marcus Frean. Impulsar
Algoritmos como Gradient Descent .PNI. 1999. [ Ver Contexto ]. Richard Maclin. Impulsar
Clasificadores nivel regional . AAAI / IAAI. 1998. [ Ver Contexto .] . Huan Liu y Rudy Setiono un
enfoque probabilstico a Feature Selection - Una solucin Filtro . ICML. 1996. [Ver
Contexto ]. Oya Ekin y Peter L. Hammer y Alexander Kogan y Pawel Invierno. Mtodos de
clasificacin basado en la distancia . nforme RUTCOR ffl Rutgers Centro de Operaciones de
Investigacin ffl Universidad Rutgers.1996. [ Ver Contexto ]. George H. John y Ron Kohavi y Karl
Pfleger. Caractersticas irrelevante y el problema de la seleccin de
subconjuntos . ICML. 1994. [ Ver Contexto ]. Alexander K. Seewald. Disertacin hacia la
comprensin de apilamiento Los estudios de un general Ensemble Aprendizaje Esquema
ausgefuhrt zum Zwecke der Erlangung des akademischen Grados eines der Doktors
technischen Naturwissenschaften . [ Ver Contexto ].YongSeog Kim y W. Nick Street y Filippo
Menczer. Optimal Ensemble de construccin a travs de Meta-evolutivos
Conjuntos . Business Information Systems, Universidad del Estado de Utah. [ Ver
Contexto ]. Ida G. Sprinkhuizen-Kuyper y Elena Smirnova y yo Nalbantis. Confiabilidad produce
informacin Gain . IKAT, Universiteit Maastricht. [ Ver Contexto ]. Chris Drummond y Robert C.
Holte. C4.5, desequilibrio de clases, y la sensibilidad de costos: Por qu sub-muestreo late
sobremuestreo . Instituto para la Tecnologa de la Informacin , el Consejo de Investigacin
Nacional de Canad. [ Ver Contexto .] . Huan Liu y Rudy Setiono Para aparecer en las Actas de
la IEA-AIE96 SELECCIN FUNCIN Y CLASIFICACIN - UN ENFOQUE DE
ENVOLTURA PROBABILSTICO . Departamento de Sistemas Informticos y Computacin de
la Universidad Nacional de Singapur. [ Ver Contexto ]. John G. Cleary y Leonard E.
Trigg. Experiencias con el OB 1, una decisin ptima Bayes rbol de
Aprendices . Departamento de Informtica Universidad de Waikato. [ Ver Contexto ]. Alexander K.
Seewald. Meta-Learning para la Clasificacin apilada . Instituto Austraco de Investigacin para
la Inteligencia Artificial. [ Ver Contexto ]. Karthik Ramakrishnan. UNIVERSIDAD DE
MINNESOTA . [ Ver Contexto ]. Kohavi Ron y George H. John. seleccin automtica de
parmetros mediante la minimizacin de error estimado . Ciencias de la Universidad de
Stanford Dpto. Informtica. [ Ver Contexto ]
Hoja Conjunto de Datos

Resumen : Este conjunto de datos consiste en un conjunto de forma y textura caractersticas
extradas de las imgenes digitales de especmenes de hojas procedentes de un total de 40
especies de plantas diferentes.imgenes digitales de especmenes de hojas procedentes de
un total de 40 especies de plantas diferentes.


Real 16 24/02/2014
Nmero de
Valores N/
perdidos? A
Accesos:
Fuente:
Este conjunto de datosfue creada por Pedro FB Silva y Andrs RS Mar al uso de hoja
de especmenes recogidos por Rubim Almeida da Silva en la Facultad de Ciencias,
Universidad de Porto, Portugal.hoja especmenes recogidos por Rubim Almeida da Silva en
la Facultad de Ciencias , Universidad de Porto, Portugal.
Para ms detalles sobre este conjunto de datos y / o sus atributos, por favor lea el archivo
'README.pdf' incluido y / o consultar la tesis "Desarrollo de un Sistema de Reconocimiento
Automtico de Especies de Plantas" del Maestro disponible en [Web Link] .Automtico
Plant Especies reconocimiento 'disponible en
1. Clase (Especies)
2. Espcimen Nmero
3. Excentricidad
4. Relacin de aspecto 5. Alargamiento 6. Solidez 7. Convexidad estocstico 8. Factor de
isoperimtrico 9. Mxima profundidad de penetracin 10. Lobedness 11. Intensidad
Media 12. Contrast Media 13. Suavidad 14. Tercer
momento 15. Uniformidad 16. EntropaRelacin de aspecto
N/A
Citas:
Los datos incluidos se pueden utilizar solamente para propsitos educativos y de

investigacin. Todas las publicaciones que utilizan este conjunto de datos deben citar el
siguiente documento:
"Evaluacin de las caractersticas de la hoja de la Discriminacin ', Pedro FB Silva, Andre
RS Marcal, Rubim M. Almeida da Silva (2013). Springer Lecture Notes in Computer
Science, vol. 7950, 197-204.Apuntes de Ciencias de la Computacin , vol. 7950, 197-204.
El parentesco Conjunto de Datos
Resumen : conjunto de datos relacional

Relacional 104 rea: Social

Relational- Valores Nmero de

Tareas asociadas: No 23632
Learning perdidos? Web Accesos:
Fuente:
Creador: Geoff Hinton Donante: J. Ross Quinlan
Esta base de datos relacional consta de 24 nombres nicos en dos familias (que tienen
estructuras equivalentes). Hinton utiliza una unidad de salida nica para cada persona y
estaba interesado en la prediccin de las siguientes relaciones: esposa, marido, madre, padre,
hija, hijo, hermana, hermano, ta, to, sobrina, sobrino y. Hinton utilizado 104 pares de
vectores de entrada-salida (de un espacio de 12x24 = 288 posibles pares). La tarea de
prediccin es la siguiente: dado un nombre y una relacin, tienen las salidas sean en slo para
aquellos individuos (entre los 24) que satisfacen la relacin. Las salidas para todas las dems
personas deben estar apagados. resultados de Hinton: El uso de 100 vectores como entrada y
4 para las pruebas, sus resultados en dos pases produjeron 7 respuestas correctas de cada
8. Su red de 36 unidades de entrada, 3 capas de unidades ocultas, y 24 unidades de salida
utiliza 500 barridos del conjunto de entrenamiento durante el entrenamiento. resultados de
Quinlan: El uso de papel de aluminio, repiti el experimento 20 veces (en lugar de 2 tiempos
de Hinton). FOIL era correcta 78 de 80 veces en los casos de prueba.
- Los nombres de relacin son:

esposa
marido
madre
padre
hija
hijo
hermana
hermano
ta
to
sobrina
sobrino
Hinton, GE (1986). Aprender las representaciones distribuidas de conceptos, Actas de las

Ciencias Cognitivas de 1986. [Web Link] Quinlan, JR (1989). Las relaciones de aprendizaje:.
Comparacin de un simblico y un enfoque conexionista [Web Link]
Citas:
Pantalla LED de dominio Conjunto de Datos

Resumen : A partir de Clasificacin y Regresin libro Los rboles; Proporcionamos aqu 2
programas en C para generar bases de datos de ejemplo
Conjunto de datos Multivariante, Nmero de N/

rea: Ordenador
Caractersticas: Data-Generator instancias: A

Categrico 7
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Fuente original: . Breiman, L. Friedman, JH, Olshen, RA y piedra, CJ (1984) Los rboles de
clasificacin y regresin. Wadsworth International Group: Belmont, California. . (Ver
pginas 43-49) Donante: David Aja
Este simple dominio contiene 7 atributos booleanos y 10 conceptos, el conjunto de dgitos

decimales. Recordemos que el LED muestra contiene 7 diodos emisores de luz - de ah la
razn por 7 atributos. El problema sera fcil si no fuera por la introduccin de ruido. En este
caso, cada valor de atributo tiene el 10% de probabilidad de tener su valor invertido. Es
valioso para conocer la tasa de Bayes ptimo para estas bases de datos. En este caso, la tasa
de errores de clasificacin es 26% (74% de precisin de clasificacin).
- Todos los valores de atributo son o bien 0 o 1, de acuerdo a si la luz correspondiente est
encendido o no para el dgito decimal.
- Cada atributo (excluyendo el atributo de clase, que es un nmero entero comprendido entre
0 y 9 inclusive) tiene un 10 % por ciento de posibilidades de ser invertido.
Breiman, L. Friedman, JH, Olshen, RA y piedra, Clasificacin CJ y rboles de

regresin. Wadsworth International Group: Belmont, California. 1984. (Ver pginas 43-
49). [Web Link] Quinlan, JR (1987). La simplificacin de rboles de decisin. En Revista
Internacional de Estudios Man-Machine. [Web Link] Tan, M. Y Eshelman, L. (1988). Uso de
redes ponderados para representar Clasificacin sobre el Conocimiento en Noisy
Dominios. En las actas de la 5 Conferencia Internacional sobre Aprendizaje Automtico,
121-134, Ann Arbor, Michigan:. Morgan Kaufmann [Web Link]
Joao Gama y Ricardo Rocha y Pedro Medas. rboles de decisiones precisas para la minera
de flujos de datos de alta velocidad . KDD. 2003. [ Ver Contexto ]. Tim Leunig y D. Stott
Parker. comparaciones empricas de los diversos mtodos de votacin en el
embolsado . KDD. 2003. [ Ver Contexto ]. Xavier Llor y David E. Goldberg e Ivn Traus y
Ester Bernad i Mansilla. Precisin, parsimonia, y la generalidad en los sistemas de
aprendizaje evolutivo a travs de Seleccin multiobjetivo . IWLCS. 2002. [ Ver
Contexto ]. Xavier Llor y David E. Goldberg. Error Achievable mnima en el LED . Illinois
Algoritmos Genticos Laboratory de la Universidad de Illinois en Urbana-
Champaign.2002. [ Ver Contexto ]. Huan Liu y Rudy Setiono. Incremental Seleccin de
caractersticas . Appl. Intell, 9. 1998. [ Ver Contexto ]. Kamal Ali y Michael J.
Pazzani. Reduccin de errores a travs del aprendizaje mltiples descripciones . Aprendizaje
Automtico, 24. 1996. [ Ver Contexto ]. Vikas Sindhwani y P. Bhattacharya y Subrata
Rakshit. teora de la informacin de funciones de acreditacin en Mquinas de Vectores
Soporte multiclase . [ Ver Contexto ]. Maria Salamo y Elisabet Golobardes. Analizar Rough
Sets mtodos de ponderacin de Razonamiento Basado en Casos de Sistemas . Enginyeria i
Arquitectura La Salle. [ Ver Contexto ]. Ramn Sangesa y Ulises Corts. posibilista
Condicional de Dependencia, la similitud de la Informacin y Medidas: una aplicacin de
recuperacin de la red causal . Departament de Sistemes i Llenguatges Informtics
Departament de Sistemes i Llenguatges Informtics Universidad Politcnica de Catalua
Universidad Politcnica de Catalua. [ Ver Contexto ].
Citas:
Caso Legal Reports Conjunto de Datos

Resumen : Un corpus textual de 4.000 casos legales para la generacin automtica de
resmenes y anlisis de citas. Para cada documento que recopilamos frases, citas,
frases frases citas y clases de citas.casos legalespara el resumen automtico y anlisis
de citas. Para cada documento que recopilamos frases, citas, frases frases citas y clases
de citas.

Texto rea: N/A

N/A Fecha Donado
Valores N/ Nmero de
Fuente:
Filippo Galgani galganif '@' cse.unsw.edu.au Facultad de Ciencias de la Computacin e

Ingeniera de la Univeristy of New South Wales, Australia
Ciencia e Ingeniera
New South Wales, Australia
Este conjunto de datos contiene los casos jurdicos de Australia de la Corte Federal de
Australia (FCA). Los casos fueron descargados de AustLII ( [Web Link] ). Se incluyeron
todos los casos a partir del ao 2006,2007,2008 y 2009. Lo construimos para experimentar
con el resumen automtico y anlisis de citas. Para cada documento se recogieron frases,
citas, frases frases citas y clases de citas. Catchphrases se encuentran en el documento, se
utilizaron las frases son estndar de oro para nuestros experimentos de resumen. Frases citas
se encuentran en casos posteriores que citan el presente caso, utilizamos frases de citacin
para el resumen. Frases de citas son las frases (donde est disponible) de los dos casos
posteriores que citan el caso de autos, y los casos de mayor edad citados por el presente
caso. Clases de citas se indican en el documento, y se refieren al tipo de tratamiento que se da
a los casos citados en el presente caso.resumen automtico y anlisis de citas. Para cada
documento se recogieron frases, citas, frases frases citas y clases de citas. Catchphrases se
encuentran en el documento, se utilizaron las frases son estndar de oro para nuestros
experimentos de resumen. Frases citas se encuentran en casos posteriores que citan el
presente caso, utilizamos frases de citacin para el resumen. Frases de citas son las frases
(donde est disponible) de los dos casos posteriores que citan el caso de autos, y los casos de
mayor edad citados por el presente caso. Clases de citas se indican en el documento, y se
refieren al tipo de tratamiento que se da a los casos citados en el presente caso.
[1] F. Galgani, P. Compton, y A. Hoffmann. Resumirla basado Cita de textos legales. En

PRICAI 2012, LNCS volumen 7458, pginas 40 "52. Springer, Heidelberg, 2012.
[2] F. Galgani, P. Compton, y A. Hoffmann. La combinacin de diferentes tcnicas de
resumen para el texto legal. En Actas del Taller sobre Enfoques Innovadores hbrido al
tratamiento de datos textuales, pginas 115a "123, Avignon, Francia, abril de
2012. Asociacin de Lingstica Computacional.
[3] F. Galgani, P. Compton, y A. Hoffmann. La adquisicin de conocimientos para la
categorizacin del caso legal infor-mes. En D. Richards y B. Kang, editores, PKAW 2012,
volumen LNAI 7457, pginas 118 "132. Springer, Heidelberg, 2012.
[4] F. Galgani, P. Compton, y A. Hoffmann. Hacia la generacin automtica de frases de los
informes de casos legales. En la 13 Conferencia Internacional sobre Procesamiento de texto
inteligente y Lingstica Computacional, volumen 7182 de Lecture Notes in Computer
Science, pginas 415a "426, Nueva Delhi, India, 2012. Springer Berlin Heidelberg. [5] F.
Galgani y A. Hoffmann. Lexa: Hacia la clasificacin automtica de la citacin legal. En J. Li,
editor, AI 2010: Avances en Inteligencia Artificial, volumen 6464 de Lecture Notes in
Computer Science, pginas 445 "454. Springer Berlin Heidelberg, 2010.Conferencia
Internacional sobre Procesamiento de texto inteligente y Lingstica Computacional,
volumen 7182 de Lecture Notes in Computer Science, pginas 415a "426, Nueva Delhi,
India, 2012. Springer Berlin Heidelberg.
Inteligencia Artificial , volumen 6464 de Lecture Notes in Computer Science , pginas 445
"454. Springer Berlin Heidelberg, 2010.
Citas:
[1] F. Galgani, P. Compton, y A. Hoffmann. Resumirla basado Cita de textos legales. En

PRICAI 2012, LNCS volumen 7458, pginas 40 "52. Springer, Heidelberg, 2012.
[2] F. Galgani, P. Compton, y A. Hoffmann. La combinacin de diferentes tcnicas de
resumen para el texto legal. En Actas del Taller sobre Enfoques Innovadores hbrido al
tratamiento de datos textuales, pginas 115a "123, Avignon, Francia, abril de
2012. Asociacin de Lingstica Computacional.
[3] F. Galgani, P. Compton, y A. Hoffmann. La adquisicin de conocimientos para la
categorizacin del caso legal infor-mes. En D. Richards y B. Kang, editores, PKAW 2012,
volumen LNAI 7457, pginas 118 "132. Springer, Heidelberg, 2012.
[4] F. Galgani, P. Compton, y A. Hoffmann. Hacia la generacin automtica de frases de los
informes de casos legales. En la 13 Conferencia Internacional sobre Procesamiento de texto
inteligente y Lingstica Computacional, volumen 7182 de Lecture Notes in Computer
Science, pginas 415a "426, Nueva Delhi, India, 2012. Springer Berlin Heidelberg.
[5] F. Galgani y A. Hoffmann. Lexa: Hacia la clasificacin automtica de la citacin
legal. En J. Li, editor, AI 2010: Avances en Inteligencia Artificial, volumen 6464 de Lecture
Notes in Computer Science, pginas 445 "454.Springer Berlin Heidelberg, 2010.
Lentes Conjunto de Datos
Resumen : Base de datos para las lentes de contacto apropiadas


Valores Nmero de
Fuente:
Fuente original: Cendrowska, J. "PRISM: Un algoritmo para la induccin de reglas

modulares", Revista Internacional de Estudios de Man-Machine, 1987, 27, 349-
370 Donante: Benoit Julien ( Julien '@' ce.cmu.edu )
Los ejemplos son completa y libre de ruidos. Los ejemplos altamente simplificado el
problema. Los atributos no describen plenamente todos los factores que afectan la decisin
de qu tipo, si los hubiere, para que quepa. Notas:-. Esta base de datos est completa (todas
las combinaciones posibles de pares atributo-valor se representan) - Cada instancia se ha
completado y correctas. - 9 reglas cubren el conjunto de entrenamiento.
- 3 Clases
1: el paciente debe estar equipado con lentes de contacto duros,
2: el paciente debe estar equipado con lentes de contacto blandas,
3: el paciente no debe estar equipado con lentes de contacto. 1. edad del paciente: (1) joven,
(2) pre-presbicia, (3) presbicia 2. prescripcin espectculo: (1) miope, (2)
hipermtrope 3. astigmtica: (1) no, (2) s 4. romper la velocidad de produccin: (1)
reduccin, (2) la normalidad
Witten, IH & MacDonald, BA (1988). Usando el aprendizaje de conceptos de adquisicin de

conocimientos. International Journal of Man-Machine Estudios, 27, (pp. 349-370). [Web
Link]
Ke Wang y Zhou Shiyu y Ada Wai Chee-Fu y Jeffrey Xu Yu. Minera Cambios de
Clasificacin por correspondencia Tracing . SDM. 2003. [ Ver Contexto ]. Bob Ricks y Dan
Ventura. El entrenamiento de un red neuronal de Quantum . PNI. 2003. [ Ver
Contexto ]. Jeremy Kubica y Andrew Moore. Probabilstico de identificacin de ruido y
limpieza de datos . ICDM. 2003. [ Ver Contexto ]. Jim Prentzas y Ioannis Hatzilygeroudis y
Athanasios K. Tsakalidis. Actualizacin de una base de reglas hbrido con New Empirical
Fuente del Conocimiento . ICTAI. 2002. [ Ver Contexto ]. Pedro Domingos. Descubrimiento
de Conocimiento a travs de mltiples modelos . Intell. Datos Anal, 2. 1998. [ Ver
Contexto ]. J. Kent Martin y Daniel S. Hirschberg. Pequeos estadsticas de la muestra para
la clasificacin de error Precios I: Error Rate Mediciones . Departamento de Informacin y
Ciencias de la Computacin de la Universidad de California, Irvine. 1996. [ Ver
Contexto ]. Geoffrey I. Webb. OPUS: Un Algoritmo admisible Eficiente para Unordered
Buscar . J. Artif. Intell. Res.. .. (JAIR, 3 1995 [ Ver Contexto .] Christophe Giraud y Tony
Martnez y Christophe G. Giraud-Carrier. Universidad del Departamento de Ciencias de la
Computacin de la ILA Bristol: Combinar inductivo de aprendizaje con el conocimiento
previo y Razonamiento 1995 [.. Ver Contexto ]. Anthony D. Griffiths y el Puente de
Derek. A Criterio para la Evaluacin de los clasificadores basados en la caja . Departamento
de Ciencias de la Computacin de la Universidad de York. [ Ver Contexto ]. Mehmet
Dalkilic y Arijit Sengupta. Un clasificador-Logic terico llamado Crculo . Facultad de
Informtica Centro de Genmica y Bioinformtica de la Universidad de Indiana. [ Ver
Contexto ]. Christophe G. Giraud-Carrier y Tony Martnez.UN MODELO DE
APRENDIZAJE INCREMENTAL DE RAZONAMIENTO sentido comn . Departamento
de Ciencias de la Computacin de la Universidad Brigham Young. [ Ver Contexto ].
Citas:
Carta de Reconocimiento Conjunto de Datos
Resumen : Base de datos de caractersticas de la imagen de personajes, tratar de identificar
a la carta


Entero 16
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Creador: David J. Pizarra Odesta Corporation; 1890 Maple Ave., Suite 115, Evanston, IL
60201 Donante: David J. Pizarra ( Dave '@' math.nwu.edu ) (708) 491-3867
El objetivo es identificar a cada uno de un gran nmero de pantallas de pxeles rectangulares

en blanco y negro y como una de las 26 letras maysculas en el alfabeto Ingls. Las imgenes
de caracteres se basan en 20 fuentes diferentes y cada letra dentro de estas 20 fuentes se
distorsion al azar para producir un archivo de 20.000 estmulos nicos. Cada estmulo fue
convertido en 16 atributos numricos primitivos (momentos estadsticos y recuentos borde)
que luego se ampliar para ajustarse en un rango de valores enteros entre 0 y 15. Tpicamente
Entrenamos en los primeros 16.000 artculos y luego utilizamos el modelo resultante para
predecir la letra de categora para los restantes 4.000. Vase el artculo citado arriba para ms
detalles.
1. lettr letra mayscula (26 valores de la A a la Z)

2. x-box posicin horizontal del cuadro (nmero entero)
3. y-caja de la posicin vertical de la caja (entero)
4. ancho de ancho de caja (entero)
5. alto altura del cuadro (nmero entero)
6. onpix nmero total de pxeles (entero)
7. x-bar significar x de los pxeles en el cuadro (nmero entero)
8. y-bar significa y de pxeles en el cuadro (nmero entero)
9. x2bar significar x varianza (entero)
10. y2bar significar y varianza (entero)
11. xybar significar correlacin xy (nmero entero)
12. x2ybr media de x * x * y (entero)
13. xy2br media de x * y * y (entero)
14. x-ege recuento medio de borde izquierda a derecha (entero)
15. xegvy correlacin de x-ege con y (entero)
16. y-ege significar inferior recuento borde hacia arriba (entero)
17. yegvx correlacin de y-ege con x (nmero entero)
PW Frey y DJ Slate. "Carta de Reconocimiento Utilizando estilo Holanda adaptativa

clasificadores". (Vol. Aprendizaje Automtico 6 # 2 de marzo 91) [Web Link]Machine
Learning Vol. 6 # 02 de marzo 91)
Xiaoli Z. Helecho y Carla Brodley. Conjuntos de clster para alta Clustering Dimensional:
un estudio emprico . Journal of Machine Learning Investigacin n, a. 2004. [ Ver
Contexto ]. Jaakko Peltonen y Arto Klami y Samuel Kaski.Mejora Aprendizaje de Riemann
Mtricas para el anlisis exploratorio . La mejora del aprendizaje de Riemann Mtricas para
el anlisis exploratorio. Redes Neuronales. 2004. [ Ver Contexto ]. Giorgio
Valentini. mtodos Ensemble basados en prejuicios - anlisis de varianza Tesis Series DISI-
TH-2003 . Dipartimento di Scienze e Informatica dell'Informazione. 2003. [ Ver
Contexto ]. Dmitry Pavlov y Alexandrin Popescul y David M. Pennock y Lyle H.
Ungar.Mezclas de Modelos condicional de mxima entropa . ICML. 2003. [ Ver
Contexto ]. Kristin P. Bennett y Ayhan Demiriz y Richard Maclin. Explotar los datos no
marcados en los mtodos de conjunto . KDD. 2002. [ Ver Contexto]. Stephen D.
Bay. clasificacin vecino ms cercano de varios subconjuntos de
caractersticas . Intell. Datos Anal, 3. 1999. [ Ver Contexto ]. Thomas G. Dietterich. Prueba
estadstica aproximada para la comparacin de clasificacin supervisada algoritmos de
aprendizaje . Neural Computation, 10. 1998. [ Ver Contexto ]. Georgios Paliouras y David S.
Bre. El efecto de las caractersticas numricas sobre la escalabilidad de los programas de
aprendizaje inductivo . ECML. 1995. [ Ver Contexto ]. Thomas G. Dietterich y Ghulum
Bakiri. Resolver multiclase Problemas de Aprendizaje a travs de cdigos de salida de
correccin de errores . CoRR, csAI/9501101. 1995. [Ver Contexto ]. Adil M. Bagirov y
Julien Ugon. Un algoritmo para el clculo de la funcin lineal a trozos que separa dos
sets . CIAO, Escuela de Informtica y Ciencias Matemticas de la Universidad de
Ballarat. [ Ver Contexto ].Miguel Moreira y Alain Hertz y Eddy Mayoraz. binarizacin datos
por eliminacin discriminante . Actas del Taller ICML-99: De Aprendizaje Automtico
para. [ Ver Contexto ]. Arto Klami y Samuel Kaski y Ty n ohjaaja y Janne
Sinkkonen. Universidad Tecnolgica de Helsinki Departamento de Ingeniera Fsica y
Matemticas Arto Klami regularizada discriminativo Clustering . Regularizada
discriminativo Clustering. [ Ver Contexto ]. Shailesh Kumar y Melba Crawford y Joydeep
Ghosh. Un marco verstil para las imgenes de marcar con un gran nmero de
clases . Departamento de Ingeniera Elctrica e Informtica. [ Ver Contexto ]. Amund
Tveit. emprico comparativo de precisin y rendimiento para el clasificador MIPSVM con
clasificadores existentes . Divisin de Intelligent Departamento de Informtica y Ciencias de
la Informacin de la Universidad Noruega de Ciencia y Tecnologa de Sistemas.[ Ver
Contexto ]. Hirotaka Inoue y Hiroyuki Narihisa. Incremental Learning con auto-organizacin
neural Grove . Departamento de Ingeniera Elctrica y Ciencias de la Informacin, Kure
Colegio Nacional de Tecnologa. [ Ver Contexto ]. Jaakko Peltonen y Arto Klami y Samuel
Kaski. Mtrica de Aprendizaje para la Visualizacin de Informacin . Redes Neuronales
Research Centre Helsinki University of Technology. [ Ver Contexto ].
La mejora del aprendizaje de Riemann Mtricas para el anlisis exploratorio. Redes

Neuronales. 2004. [
Escuela de Informacin de Tecnologa y Ciencias Matemticas de la Universidad de

Ballarat. [
Ingeniera Informtica . [
Ciencias de la Informacin , el noruego de la Universidad de Ciencia y Tecnologa. [
Ingeniera Elctrica y Ciencias de la Informacin, Kure Colegio Nacional de Tecnologa. [
Redes Neuronales Research Centre Helsinki University of Technology. [
Citas:
Libras Movimiento Conjunto de Datos
Resumen : El conjunto de datos contiene 15 clases de 24 casos cada uno. Cada referencias
de clase a un tipo de movimiento de la mano en LIBRAS (nombre portugus 'Lingua
Brasileira de Sinais', oficial lengua brasilea de seales).

360 rea: N/A

Real 91
Nmero de
Accesos:
Fuente:
Creadores:
Daniel Baptista Dias (Dias, DB)
Sarajane Marques Peres (Peres, SM)
Helton Hideraldo Bscaro (Bscaro. HH)
{danielbdias, heltonhb, sarajane} en usp.br Donante: Universidad de So Paulo - Brasil
El conjunto de datos (movement_libras) contiene 15 clases de 24 casos cada uno, donde

cada referencias de clase a un tipo de movimiento de la mano en LIBRAS. En el vdeo pre-
procesamiento, una normalizacin de tiempo se lleva a cabo la seleccin de 45 imgenes de
cada vdeo, en funcin a un uniforme distribucin . En cada cuadro, los pxeles de los
centroides de los objetos segmentados (la mano) se encuentran, que componen la versin
discreta de la curva F con 45 puntos. Todas las curvas se normalizan en el espacio
unitario. Con el fin de preparar estos movimientos para ser analizados por los algoritmos,
hemos llevado a cabo una operacin de correspondencia, es decir, cada curva F se mapea en
una representacin con 90 caractersticas, con representacin de las coordenadas de
movimiento . Algunos subconjuntos de datos se ofrecen con el fin de apoyar a las
comparaciones de los resultados.
90 numrico (doble) y 1 para la clase (entero)
DIAS, DB; MADEO, RCB; ROCHA, T.; Biscaro, HH; PERES, SM.
Mano Movimiento Reconocimiento por Brasil el lenguaje de seas : un estudio basado en la
distancia Usando Redes Neuronales .
En: 2009 Conferencia Conjunta Internacional sobre Redes Neuronales, 2009, Atlanta, GA.
Actas del 2009 Conferencia Conjunta Internacional sobre Redes Neuronales. Eau Claire ,
WI, EE.UU.: Documation LLC, 2009. p. 697-704. Objetos Digitales
Identificador 10.1109/IJCNN.2009.5178917
Citas:
Por favor refirase a la mquina de aprendizaje de la poltica de la citacin del repositorio.

Enfermedades del Hgado Conjunto de Datos
Resumen : Base de datos BUPA Medical Research Ltd. donado por Richard S.
ForsythInvestigacin Mdica Ltd. base de datos donado por Richard S. Forsyth


7
Nmero de
Valores
Tareas asociadas: N/A No Web 48869
perdidos?
Accesos:
Fuente:
Creadores: BUPA Medical Research Ltd. Donante: Richard S. Forsyth 8 Grosvenor

Avenida Mapperley Parque Nottingham NG3 5DX 0602 hasta 621.676
Los primeros 5 variables son todos los exmenes de sangre que se cree que son sensibles a
los trastornos del hgado que podran derivarse de un consumo excesivo de alcohol. Cada
lnea en el archivo bupa.data constituye el registro de un solo individuo masculino. Parece
que las bebidas> 5 es una especie de selector en esta base de datos. Consulte la Gua /
Manual del usuario PC BEAGLE para ms informacin.archivo de datos que constituye el
rcord de un solo individuo masculino.
1. MCV volumen corpuscular medio

2. AlkPhos alcalina fosfatasa
3. aminotransferasa alanina sgpt
4. aspartato aminotransferasa sgot
5. GammaGT gamma-glutamil transpeptidasa
6. Bebidas nmero de equivalentes de media pinta de bebidas alcohlicas bebido por da
7. selector de campo utilizado para dividir los datos en dos conjuntos
Gua del PC / BEAGLE usuario (escrito por Richard S. Forsyth).
. Zhi-Hua Zhou y Jiang Yuan NeC4.5: Neural Ensemble Based C4.5 . IEEE
Trans. Conocimiento. Datos Eng, 16. 2004. [ Ver Contexto ]. Yuan Jiang y Zhi-Hua
Zhou. datos de entrenamiento edicin para clasificadores KNN con Red Neural
Ensemble . ISNN (1). 2004. [ Ver Contexto ]. Glenn Fung y M. Murat Dundar y Jinbo Bi y
Bharat Rao. Un algoritmo iterativo rpido para fisher discriminante utilizando ncleos
heterogneos . ICML. 2004. [ Ver Contexto]. Jochen Garcke y Michael
Griebel. Clasificacin con rejillas dispersos mediante funciones de base
simplicial . Intell. Datos Anal, 6. 2002. [ Ver Contexto ]. Michail Vlachos y Carlotta
Domeniconi y Dimitrios Gunopulos y George Kollios y Nick Koudas. tcnicas de reduccin
de dimensionalidad no lineales para la clasificacin y visualizacin . KDD. 2002. [ Ver
Contexto ]. Xavier Llor y David E. Goldberg e Ivn Traus y Ester Bernad i
Mansilla. Precisin, parsimonia, y la generalidad en los sistemas de aprendizaje evolutivo a
travs de Seleccin multiobjetivo . IWLCS. 2002. [ Ver Contexto ]. Jochen Garcke y Michael
Griebel y Michael Tes. Minera de datos con Sparse Grids .Informtica, 67. 2001. [ Ver
Contexto ]. Jochen Garcke y Michael Griebel. La minera de datos con rejillas dispersos
mediante funciones de base simplicial . KDD. 2001. [ Ver Contexto ]. Petri Kontkanen y
Jussi Lahtinen y Petri Myllymki y Henry Tirri. visualizacin bayesiano no supervisado de
los datos de alta dimensin . KDD. 2000. [ Ver Contexto ]. Carlotta Domeniconi y Jing Peng
y Dimitrios Gunopulos. Una mquina adaptativa Mtricas de Clasificacin de
patrones . PNI. 2000. [ Ver Contexto .] . Guido Lindner y Rudi Studer AST: Apoyo a la
seleccin del algoritmo con Enfoque CBR . PKDD. 1999. [ Ver Contexto ]. Iaki Inza y
Pedro Larraaga y Basilio Sierra y Ramn Etxeberria y Jos Antonio Lozano y Jos Manuel
Pea. Representar el comportamiento de los algoritmos de aprendizaje de clasificacin
supervisada por redes bayesianas . Pattern Recognition Letters, 20. 1999. [ Ver
Contexto ]. Kristin P. Bennett y Erin J. Bredensteiner. Un mtodo paramtrico Optimizacin
de Aprendizaje Automtico . INFORMA Journal on Computing, 9. 1997. [ Ver
Contexto ]. Jennifer A. Azul y Kristin P. Bennett. Hybrid Extreme Point Bsqueda
Tab . Departamento de Ciencias Matemticas del Instituto Politcnico
Rensselaer. 1996. [ Ver Contexto ]. Peter D. Turney. sensibles a los costes de clasificacin:
evaluacin emprica de una Decisin gentico hbrido Tree Induccin algoritmo . CoRR,
csAI/9503102. 1995. [ Ver Contexto ]. Gabor Melli. Un enfoque basado en modelos
perezoso en On-Line Clasificacin . Universidad de la Columbia Britnica. 1989. [ Ver
Contexto]. Aynur Akku y H. Altay Gvenir. Ponderacin Caractersticas de k vecinos ms
prximos: Clasificacin en Feature Proyecciones . Departamento de Ingeniera Informtica y
Ciencias de la Informacin de la Universidad Bilkent. [Ver Contexto ]. Greg Ridgeway. El
Estado de Impulso . Departamento de Estadstica de la Universidad de Washington. [ Ver
Contexto ]. Adil M. Bagirov y Alex Rubinov y AN Soukhojak y John
Yearwood. clasificacin de datos no supervisada y supervisada a travs de no lisos y
optimizacin global . Escuela de Tecnologa de la Informacin y Ciencias Matemticas de la
Universidad de Ballarat. [ Ver Contexto ]. Adil M. Bagirov y John Yearwood. Un nuevo
algoritmo de optimizacin no lisos para la agrupacin . Centro de Informtica y
Optimizacin Aplicada de la Facultad de Informtica y Ciencias Matemticas de la
Universidad de Ballarat. [ Ver Contexto ]. H. Altay T uvenir y Aynur Akkus. PONDERADO
K MAS CERCANA CLASIFICACIN VECINO DE PROYECCIONES DE
FUNCIONES . Departamento de Ingeniera Informtica y Ciencias de la Informacin de la
Universidad Bilkent. [ Ver Contexto ]. C. . Tito Brown y Harry W. Bullen y Sean P. Kelly y
Robert K. Xiao y Steven G. Satterfield y John G. Hagedorn y Judith E.
Devaney Visualizacin y Minera de Datos en un inmersivo entorno 3D: Proyecto de Verano
2003 . [ Ver Contexto ]. David R. Musicant. MINERA DE DATOS A TRAVS DE
PROGRAMACIN MATEMTICA Y EL APRENDIZAJE DE LA MQUINA . Doctor en
Filosofa (Ciencias de la Computacin) UNIVERSIDAD. [ Ver Contexto ].
Ingeniera Informtica y Ciencias de la Informacin de la Universidad Bilkent. [
Departamento de Estadstica de la Universidad de Washington . [
Tecnologas de la Informacin y Ciencias Matemticas de la Universidad de Ballarat. [
Citas:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la

citacinMachine Learning Repository
Localizacin de datos para la Persona

Actividad Conjunto de Datos
Resumen : Los datos contiene las grabaciones de cinco personas que realizan diferentes
actividades. Cada persona llevaba cuatro sensores (tags) mientras se realiza el mismo
escenario en cinco ocasiones.sensores (tags) mientras se realiza el mismo escenario en
cinco ocasiones.
Univariante,
Secuencial, 164860 rea: Vida
Time-Series

Real 8
Nmero de
Valores
perdidos?
Accesos:
Fuente:
- Creadores: Mitja Lustrek ( mitja.lustrek '@' ijs.si ), Bostjan Kaluza

( bostjan.kaluza '@' ijs.si ), Rok Piltaver ( rok.piltaver '@' ijs.si ), Jana Krivec ( jana.
Krivec '@' ijs.si ), Vedrana Vidulin ( vedrana.vidulin '@' ijs.si )
- Jozef Stefan Institute, Jamova cesta 39, 1000 Ljubljana, Slovenija
- Donante: Bozidara Cvetkovic ( boza.cvetkovic '@' ijs.siboza . Cvetkovic )
- Jozef Stefan Institute, Jamova cesta 39, 1000 Ljubljana, Slovenija
- Fecha recibido: octubre 2010
La gente utiliza para la grabacin de los datos llevaban cuatro etiquetas (en el tobillo
izquierdo, la derecha en el tobillo, el cinturn y el pecho).
Cada instancia es un dato de localizacin para una de las etiquetas. La etiqueta puede ser
identificado por uno de los atributos.
Ejemplo Instancia: A01 ,020-000-033-111, 633790226057226795,27.05.2009

14:03:25:723,4.292500972747803,2.0738532543182373,1.36650812625885, caminando 1)
Nombre de secuencia (Nominal) - A, B, C, D, E = 5 personas2) identificator Tag {010-000-
024-033,020-000-033-111,020-000-032-221,010-000-030-096} (Nominal) - ANKLE_LEFT
= 010-000-024-033 - ANKLE_RIGHT = 010-000-030-096 - PECHO = 020-000-033-111 -
CORREA = 020-000-032-221 3) fecha y hora (Numrico) todos nicos 4) Formato de fecha
= DD.MM.AAAA HH: mm: ss: SSS (Fecha) 5) coordenada x de la etiqueta (Numrico) 6) la
coordenada y de la etiqueta (Numrico) 7) coordenada z de la etiqueta (Numrico) 8)
actividad {caminar, caer, 'acostarse', la mentira, 'sentarse', sentado, "de pie despus de estar
acostado", "a cuatro patas", "sentado en el suelo ',' ponerse de pie despus de estar sentado",
"de pie despus de estar sentado en el suelo '} (Nominal)
timestamp (Numrico) todos nicos

Formato de fecha = DD.MM.AAAA HH: mm: ss: SSS (Fecha)
B. Kaluza, V. Mirchevska, E. Dovgan, M. Lustrek, M. Gams, Un enfoque basado en agentes

para cuidar de Vida Independiente, Conferencia Internacional Conjunta sobre Inteligencia
Ambiental (AmI-10), Mlaga, Espaa, en prensaEnfoque basado cuidar de Vida
Independiente , Conferencia Internacional Conjunta sobre Inteligencia Ambiental (AmI-10),
Mlaga, Espaa, en prensa
Citas:
B. Kaluza, V. Mirchevska, E. Dovgan, M. Lustrek, M. Gams, Un enfoque basado en agentes

para cuidar de Vida Independiente, Conferencia Internacional Conjunta sobre Inteligencia
Ambiental (AmI-10), Mlaga, Espaa, en prensaConferencia sobre Inteligencia Ambiental
(AmI-10), Mlaga, Espaa, en prensa
Lgica Terico Conjunto de Datos
Resumen : Todo el cdigo de la lgica Terico
N
/ rea: Ordenador
A
N
N/A / Fecha Donado N/A
A
N
Valores Nmero de
Tareas asociadas: N/A / 11386
A
Fuente:
Donado por Paul O'Rorke de (descrito en el aprendizaje de la mquina )
N/A
N/A
N/A
Citas:
Por favor refirase a la mquina de aprendizaje del Repositorio de la poltica de la citacin

Baja resolucin Espectrmetro de Conjunto
de Datos
Resumen : A partir de IRAS de datos - NASA Ames Research Center


Entero, real 102 Fecha Donado
Valores N/ Nmero de
Fuente:
Originador: Infra-Red Astronoma Proyecto Satlite Database Donante: John Stutz

< STUTZ '@' pluto.arc.nasa.gov > Es posible que uno de los colegas de John siempre
realmente presente a UCI, tal vez Mike Marshall (MARSHALL% PLU '@' io . arc.nasa.gov )
El Satlite Astronmico Infrarrojo (IRAS) fue el primer intento para asignar el total del
cielo en longitudes de onda infrarrojas. Esto no se poda hacer de observatorios de tierra
debido a que grandes porciones del espectro de infrarrojos es absorbida por la atmsfera. El
programa de observacin principal fue la plena alta resolucin cielo mapeo realizado en los
escaneos en 4 frecuencias. El programa de la Resolucin Observacin Bajo (IRAS-LRS)
observ fuentes de alta intensidad durante dos bandas espectrales continuas. Esta base de
datos se deriva de un subconjunto de las observaciones LRS de mayor calidad tomadas entre
12h y 24h ascensin recta. Esta base de datos contiene 531 espectros de alta calidad
derivados de la base de datos de IRAS-LRS. Los datos originales contenan 100 mediciones
espectrales en cada una de las dos bandas superpuestas. De ellos, 44 de la banda azul y 49 de
la banda roja canales contienen mediciones de flujo utilizables. Slo estos se incluyen
aqu. Los valores originales intensidades espectrales se comprimen a 4 dgitos, y cada
espectro incluye 5 parmetros de cambio de escala. Hemos utilizado los LRS especificados
algoritmo para cambiar la escala de stos a las unidades de intensidad espectral
(Janskys). Total de las diferencias de intensidad, han sido eliminados por la normalizacin de
cada espectro con un valor medio de 5000. Esta base de datos se obtuvo originalmente para
su uso en el desarrollo y las pruebas de nuestro sistema AutoClass para la clasificacin
bayesiana. No hemos mantenido ningn resultado de este desarrollo, al haber concentrado
nuestros esfuerzos de una versin 5425 elemento de los mismos datos. Nuestras
clasificaciones se basan en la modelacin simultnea de los 93 intensidades espectrales. Con
la base de datos ms grande que pudimos encontrar clases que corresponden bien con los
tipos espectrales conocidas asociadas con determinados tipos estelares. Tambin
encontramos las clases que coinciden con el espectro esperado de ciertos procesos estelares
bajo investigacin por los astrnomos de Ames. Estas clases han ampliado
considerablemente el conjunto de estrellas que son investigados por los investigadores. datos
originales: La fortran original de archivo de datos se da en los espectros de 2.data. Los
espectros-2.head archivo contiene informacin sobre el contenido. De archivos de datos y
cmo cambiar la escala de las intensidades espectrales comprimido.
1. LRS-name: (formato Sospechoso: 5 dgitos, "+" o "-", de 4 dgitos)

2. Clase LRS: integer - Los valores de la clase LRS van 0-99 con dgitos del 10 dando la
clase bsica y el dgito del 1 dando la subclase. Estas clases se basan en caractersticas (picos,
valles y tendencias) de las curvas espectrales.
3. ID-type: integer
4. Haga Ascensin: float - longitud Astronmico. 1h = 15deg
5. Declinacin: flotar - Lattitude Astronmico. -90 <= Dic <= 90
6. Factor de Escala: float - Proporcional a la intensidad de la fuente
7. Base de Azul 1: integer - coeficiente de cambio de escala lineal
8. Base azul 2: integer - coeficiente de cambio de escala lineal
9. Base roja 1: integer - coeficiente de cambio de escala lineal
10. Base roja 2: integer - coeficiente de cambio de escala lineal
11-54: los flujos de las siguientes 44 azul de banda de canal de longitud de onda: (todos dan
como punto flotante nmeros)
- 11. 7.8636
- 12. 8,0485
- 13. 8,2286
- 14. 8.4043
- 15. 8,5758
- 16. 8,7436
- 17. 8,9078
- 18. 9,0686
- 19. 9,2262
- 20. 9,3809
- 21. 9.5328
- 22. 9,6820
- 23. 9.8286
- 24. 9.9728
- 25. 10.1148
- 26. 10.2545
- 27. 10.3922
- 28. 10.5279
- 29. 10.6616
- 30. 10.7935
- 31. 10.9237
- 32. 11.0521
- 33. 11.1790
- 34. 11.3042
- 35. 11.4280
- 36. 11.5503
- 37. 11.6711
- 38. 11.7907
- 39. 11.9089
- 40. 12.0258
- 41. 12.1415
- 42. 12.2560
- 43. 12.3693
- 44. 12.4816
- 45. 12.5927
- 46. 12.7028
- 47. 12.8118
- 48. 12.9199
- 49. 13.0269
- 50. 13.1330
- 51. 13.2382
- 52. 13.3425
- 53. 13.4459
- 54. 13.5485
55-103: los flujos de las siguientes longitudes de onda de canal 49-banda roja: (todos dan
como nmeros en coma flotante)
- 55. 10.9929
- 56. 11.3704
- 57. 11.7357
- 58. 12.0899
- 59. 12.4339
- 60. 12.7687
- 61. 13.0948
- 62. 13.4131
- 63. 13.7239
- 64. 14.0278
- 65. 14.3252
- 66. 14.6166
- 67. 14.9022
- 68. 15.1825
- 69. 15.4576
- 70. 15.7280
- 71. 15.9937
- 72. 16.2551
- 73. 16.5123
- 74. 16.7656
- 75. 17.0151
- 76. 17.2610
- 77. 17.5034
- 78. 17.7425
- 79. 17.9784
- 80. 18.2113
- 81. 18.4412
- 82. 18.6682
- 83. 18.8925
- 84. 19.1142
- 85. 19.3334
- 86. 19.5500
- 87. 19.7643
- 88. 19.9763
- 89. 20.1861
- 90. 20.3937
- 91. 20.5992
- 92. 20.8026
- 93. 21.0041
- 94. 21.2037
- 95. 21.4014
- 96. 21.5973
- 97. 21.7914
- 98. 21.9838
- 99. 22.1745
- 100. 22.3636
- 101. 22.5511
- 102. 22.7371
- 103. 22.9216
Un grupo de investigacin de la NASA Ames ocupa de las tareas de aprendizaje no

supervisado puede haber utilizado esta base de datos durante sus estudios empricos de su
algoritmo / sistema (AUTOCLASS II). Vea la 1988 Machine Learning Conference
Proceedings, 54-64, para una descripcin de su algoritmo.
Citas:
LSVT Voz Rehabilitacin conjunto de datos
Resumen : 126 muestras de 14 participantes, 309 funciones. Objetivo: evaluar si la
voz tratamiento de rehabilitacin llevan a fonaciones considerado "aceptable" o
"inaceptable" (problema de clasificacin de clase binario).


Real 309 19/02/2014
Nmero de
Valores N/
perdidos? A
Accesos:
Fuente:
El conjunto de datos fue creada por Athanasios Tsanas (tsanasthanasis '@' gmail.com) de
la Universidad de Oxford .
El artculo original demostr que es posible replicar correctamente evaluacin binaria de los
expertos, con aproximadamente 90% de precisin utilizando tanto 10 veces cruzar a la
validacin y dejando uno sujeto Salida validacin.Hemos experimentado con ambos bosques
al azar y mquinas de vectores soporte , utilizando enfoques estndar para optimizar
hiperparmetros de la SVM. Ser interesante si los investigadores pueden mejorar en este
descubrimiento utilizando avanzadas herramientas de aprendizaje automtico. Detalles para
el conjunto de datos se pueden encontrar en el siguiente documento. A. Tsanas, MA Little, C.
Fox, LO Ramig: Objective evaluacin automtica de tratamiento de rehabilitacin del
habla en s de Parkinson disease , IEEE Transactions on?? Sistemas Neuronales e
Ingeniera de Rehabilitacin, vol. 22, pginas 181-190, enero 2014 A preimpresin libre
disposicin se halla disponible en el sitio web del primer autor.
Cada atributo (caracterstica) corresponde a la aplicacin de un discurso de procesamiento de

seal de algoritmo que tiene como objetivo caracterizar objetivamente la seal. Estos
algoritmos incluyen mtodos de anlisis de la perturbacin estndar, las caractersticas
basadas en wavelets, caractersticas fundamentales basados en la frecuencia y las
herramientas utilizadas para la mina de series temporales no lineales. Debido a la extensa
serie de atributos que nos referimos a los lectores interesados a los documentos
correspondientes para obtener ms detalles.
El conjunto de datos se introdujo en:

A. Tsanas, MA Little, C. Fox, LO Ramig: Objective evaluacin automtica de
tratamiento de rehabilitacin del habla en s de Parkinson disease , IEEE Transactions
on Neural Systems e Ingeniera de Rehabilitacin, Vol.??. 22, pginas 181-190, enero
2014 Ms detalles acerca de los algoritmos de procesamiento de seal de voz se puede
encontrar en: A. Tsanas, telemonitorizacin exacta de la enfermedad de gravedad de los
sntomas de Parkinson s no lineal utilizando el procesamiento de seal de voz y la
estadstica de aprendizaje de mquina , D. Phil. (Ph.D.) de tesis de la Universidad de Oxford,
Reino Unido, 2012 A. Tsanas, MA Little, PE McSharry, LO Ramig:?? Nonlinear
algoritmos de anlisis de voz asignadas a una mtrica estndar logran cuantificar
clnicamente til de la media de los sntomas de la enfermedad de Parkinson s severity
, Journal of the Royal Society Interface, vol. 8, pp 842-855, 2011 A. Tsanas, MA Little, PE
McSharry, LO Ramig:?? marcadores y conocimientos sobre la degradacin de la seal de
voz para el seguimiento efectivo de s de Parkinson sntoma de la enfermedad severity
lineales New, Simposio Internacional sobre Teora no lineal y sus aplicaciones (Nolta),
pp . 457-460, Cracovia, Polonia, 5 a 8 sept 2010 Preprints estn disponibles en el sitio web
del primer autor.
Citas:
Si utiliza este conjunto de datos, por favor, cite el siguiente documento:

A. Tsanas, MA Little, C. Fox, LO Ramig: Objective evaluacin automtica de
tratamiento de rehabilitacin del habla en s de Parkinson disease , IEEE Transactions
on Neural Systems e Ingeniera de Rehabilitacin, Vol.??. 22, pginas 181-190, enero 2014
Cncer de Pulmn Conjunto de Datos
Resumen : Los datos de cncer de pulmn, no hay definiciones de
atributos


Valores Nmero de
Fuente:
Los datos fueron publicados en: Hong, ZQ y Yang, JY "Optimal discriminante Plano para un
pequeo nmero de muestras y Diseo Forma de clasificador en el avin", Reconocimiento
de Patrones, vol. 24, No. 4, pp 317-324, 1991. Donante: Stefan
Aeberhard, stefan '@' coral.cs.jcu.edu.au
Estos datos se usaron por Hong y Young para ilustrar el poder del plano discriminante
ptimo incluso en entornos que plantean los malos. La aplicacin del mtodo KNN en el
plano resultante dio 77% de precisin. Sin embargo, estos resultados estn fuertemente
sesgadas (Ver segundo rbitro que Aeberhard. Anterior, o por correo electrnico
a stefan '@' coral.cs.jcu.edu.au ). Resultados obtenidos por Aeberhard et al. son: RDA:
62,5%, 53,1% KNN, Opt. Disco. Plano 59,4% Los datos describen 3 tipos de cnceres
pulmonares patolgicos. Los autores no dan ninguna informacin sobre las variables
individuales, ni en los que se utiliz originalmente los datos. Notas: - En los datos originales
4 valores para el quinto atributo eran -1. Estos valores han sido cambiados
para? (Desconocido). (*) - En el valor original de datos 1 para el atributo 39 era 4. Este valor
se ha cambiado a? (Desconocido). (*)
Atributo 1 es la etiqueta de clase. Todos los atributos predictivos son nominales, tomando
valores enteros 0-3
Hong, ZQ y Yang, JY "Optimal discriminante Plano para un pequeo nmero de muestras y

Diseo Forma de clasificador en el avin", Reconocimiento de Patrones, vol. 24, No. 4, pp
317-324, 1991. [Web Link] Aeberhard, S., Coomans, D, De Vel, O. "Las comparaciones de
los mtodos de clasificacin en High Ajustes dimensionales", presentado a
Technometrics. Aeberhard, S ., Coomans, D, De Vel, O. "Los peligros de la polarizacin en
High Ajustes dimensionales", presentado al patrn de reconocimiento.
Jinyan Li y Limsoon Wong. Uso de reglas para el Anlisis de Datos Bio-mdica: una
comparacin entre C4.5 y PCL . Waim. 2003. [ Ver Contexto ]. Manoranjan Dash y Huan
Liu. Hbrido Bsqueda de subconjuntos de caractersticas . PRICAI. 1998. [ Ver
Contexto ]. Glenn Fung y Sathyakama Sandilya y R. Bharat Rao. regla de extraccin a partir
de Mquinas de Vectores Soporte lineales . Computer-Aided Diagnosis & Therapy, Siemens
Medical Solutions, Inc. [ Ver Contexto ].
Citas:
Linfografa Conjunto de Datos
Resumen : Este dominio linfografa se obtuvo de la University Medical Centre, Instituto
de Oncologa, Ljubljana, Yugoslavia. (Acceso restringido)


Categrico 18
Valores Nmero de
Fuente:
Donantes: 1. Igor Kononenko, Universidad E.Kardelj Facultad de ingeniera

elctrica Trzaska 25 61000 Ljubljana (tel.: (38) (61) 265-161 . 2 Bojan Cestnik Instituto
Jozef Stefan Jamova 39 61000 Ljubljana Yugoslavia (tel.: (38) (+ 61) 214-399 ext.287)
Este es uno de los tres dominios proporcionados por el Instituto de Oncologa que ha
aparecido varias veces en el aprendizaje de la mquina literatura. (Ver tambin cncer de
mama y tumor primario.)
--- NOTA: Todos los valores de los atributos en la base de datos han sido introducidos
como valores numricos que corresponden a su ndice en la lista de valores de atributos
para ese dominio atributo como se indica a continuacin.
1. clase: hallazgo normal, metstasis, linftico maligno, fibrosis
2. linfticos: normal, en forma de arco, deformados, desplazados
3. bloque de affere: no, s
4. bl. de la linfa. c: no, s
5. bl. de la linfa. s: no, s
6. by pass: no, s
7. extravasa: no, s
8. regeneracin de: no, s
9. temprano en la captacin: no, s
10. lym.nodes dimin: 0-3
11. lym.nodes Enlar: 1-4
12. cambios en linfoma:. frijol, ovalados, redondos
13. defecto en el nodo: no, lacunar, lac. marginal, lac. el centro
14. cambios en el nodo: no, lacunar, lac. margen, lac. el centro
15. cambios en las estru: no, granulada, la cada-como, gruesa, diluida, reticular, pelado,
desmayo,
16. formas especiales: no, clices, vesculas
17. dislocacin de: no, s
18. exclusin de los no: no, s
19. No. de nodos en: 0-9, 10-19, 20-29, 30-39, 40-49, 50-59, 60-69,> = 70
Cestnik, G., Konenenko, I, y Bratko, I. (1987). Asistente-86: Un Conocimiento Elicitation

herramienta para usuarios avanzados. En I.Bratko y N.Lavrac (Eds.) Avances en
Aprendizaje Automtico, 31-45, Sigma Press. [Web Link]Clark, P. Y Niblett,
T. (1987). Induccin en Noisy Dominios. En I.Bratko y N.Lavrac (Eds.) Avances en
Aprendizaje Automtico, 11-30, Sigma Press. [Web Link] Michalski, R., Mozetic, I. Hong,
J., y Lavrac, N. (1986). El Multi-Purpose Incremental Learning System AQ15 y sus
aplicaciones de pruebas de los Dominios Mdicos Tres. En Actas de la V Conferencia
Nacional sobre Inteligencia Artificial, 1041-1045. Philadelphia, PA:. Morgan
Kaufmann[Web Link]
. Marcus Hutter y Marco Zaffalon Distribucin de Informacin Mutua de datos completas e

incompletas . CoRR, csLG/0403025. 2004. [ Ver Contexto ]. G. Michael
Madden. Evaluacin del Desempeo de la cadena de Markov clasificador bayesiano
Algoritmo . CoRR, csLG/0211003. 2002. [ Ver Contexto ]. Marco Zaffalon y Marcus
Hutter. Caracterstica robusta Seleccin por Mutual Informacin Distribuciones . CoRR,
csAI/0206006. 2002. [ Ver Contexto ]. Thomas G. Dietterich. Una Comparacin
experimental de tres mtodos para construir Conjuntos de rboles de decisin: El
embolsado, Impulsar y aleatorizacin . Aprendizaje Automtico, 40. 2000. [ Ver
Contexto .] . Mark A. Hall y Lloyd A. Smith Seleccin de caractersticas de la mquina de
aprendizaje: Comparacin de un filtro de enfoque de correlacin-base a la
envoltura . Conferencia FLAIRS. 1999. [ Ver Contexto ]. Mark A. Hall.Departamento de
Ciencias de la Computacin Hamilton, Nueva Zelandia basada en correlacin Seleccin de
caractersticas para el Aprendizaje de la mquina . Doctor en Filosofa en la Universidad de
Waikato. 1999. [ Ver Contexto ]. Yk Huhtala y Juha Krkkinen y Pasi Porkka y Hannu
Toivonen . Descubrimiento eficiente de las dependencias funcionales y aproximadas
utilizando particiones . ICDE. 1998. [ Ver Contexto ]. . Seleccin Prototipo para
Universidad de Massachusetts. 1997. [ Ver Contexto ]. Pedro Domingos. Control-Sensible
Seleccin de caractersticas para los Estudiantes de Lazy . Artif. Intell. Rev, 11. 1997. [ Ver
Contexto ]. Geoffrey I. Webb. OPUS: Un Algoritmo admisible Eficiente para Unordered
Buscar . J. Artif. Intell. Res.. (JAIR, 3. 1995. [ Ver Contexto ]. MA Galway y Michael G.
Madden.DEPARTAMENTO DE TECNOLOGA DE LA INFORMACIN informe
tcnico NUIG-IT-011002 Evaluacin del Desempeo de la cadena de Markov clasificador
bayesiano Algoritmo . Departamento de Tecnologa de la Informacinde la Universidad
Nacional de Irlanda, Galway. [ Ver Contexto ]. Geoffrey I Webb. Aprender Listas de
decisin anteponiendo Reglas inferidos . Facultad de Informtica y Matemticas de la
Universidad de Deakin. [ Ver Contexto ].
Citas:
Este dominio linfografa se obtuvo del Centro Mdico de la Universidad, Instituto de

Oncologa, Ljubljana, Yugoslavia. Damos las gracias a M. y M. Zwitter Soklic de
proporcionar los datos. Por favor, incluya esta cita si tiene previsto utilizar esta base de
datos.
Genes M. tuberculosis Conjunto de Datos
Resumen : Los datos que da caractersticas de cada uno (gen
potencial) ORF en la bacteria M. tuberculosis. Secuencia,
homologa (similitud con otros genes) y la informacin
estructural y la funcin (si se conoce) se proporcionan

Relacional rea: Vida

N/A Fecha Donado
Valores N/ Nmero de
Fuente:
Ross D. King
Departamento de Ciencias de la Computacin , Universidad de Gales, Aberystwyth, SY23
3DB, Gales rdk '@' aber.ac.uk http://users.aber.ac.uk/rdk
Los datos fueron recolectados de varias fuentes, entre ellas el Centro Sanger ( [Web Link] )
y SWISSPROT ( [Web Link] ). Estructura de prediccin fue hecha por PROF ( [Web
Link] ). La bsqueda de homologas fue hecha por PSI-BLAST ( [Web Link] .) Los datos
estn en formato de registro de datos. Los valores perdidos no son explcitas, pero algunos
genes tienen ms relaciones que otras. Dependencias: M. genes de tuberculosis (ORF) estn
relacionados entre s por el tb_to_tb_evalue predicado (TBNumber, E-valor). Se relacionan
con otros (SWISSPROT) las protenas por el e_val predicado (AccNo, E-valor). Todos los
datos de un solo gen (ORF) se encierra entre delimitadores de la forma: begin (modelo
(TBNumber)). final (modelo (TBNumber)). Otra informacin relevante: Las clases
funcionales de genes estn en una jerarqua. Ver [Web Link] . Hay dos archivos de registro
de datos: tb_data.pl y ecoli_functions.pl 1. tb_functions.pl Enumera las clases y funciones
de la ORF. Las lneas son de la siguiente forma: la clase ([1,0,0,0], "el metabolismo de
pequea molcula"). clase ([1,1,0,0], "Degradacin"). clase ([1,1 , 1,0], "compuestos de
carbono"). Los argumentos son una lista de 4 nmeros (que describen la clase en los 4
niveles diferentes), seguido por una clase de cadena de descripcin. Por ejemplo, la funcin
(tb186, [1,1,1,0], 'bgls "," beta-glucosidasa "). Los argumentos son varios ORF, la lista de
nmeros de clase 4, el nombre de genes (o null si no hay nombre de genes) en comillas
simples , descripcin ORF entre comillas dobles. 2. tb_data.pl de datos para cada ORF
(gen) est delimitada por BEGIN (modelo (X)). final (modelo (X)). donde X es el nmero
de ORF. Otros predicados son los siguientes (ejemplos): tb_protein (X). % X es el nmero
de genes de funcin (2,1,5,0, 'gyrA', 'ADN girasa subunidad A'). % 4 niveles de jerarqua
funcional, gen nombre, descripcin coding_region (7302,9815). % Start,
end. enteros tb_mol_wt (19934). % Nmero entero de acceso (1, e, 20). % Int (posicin),
{e, i, b}, int (longitud) access_exposed (1,20). % Int (posicin), int
(longitud) access_intermediate (26,1). % Int (posicin), int (longitud) access_burried
(1,2). % Int (posicin), int (longitud) access_dist (b, 42.8). % {E, i, b}, float
(porcentaje)sec_struc (1, c, 23). % Int (posicin), {a, b, c}, int (longitud) sec_struc_coil
(1,23). % Int (posicin), int (longitud) sec_struc_alpha (1,15). % Int (posicin), int
(longitud) sec_struc_beta (1,6). % Int (posicin), int (longitud) struc_dist (a, 32.1). % {A, b,
c}, float (porcentaje) sec_struc_conf (78.8). % De flotacin (de
confianza) sec_struc_conf_alpha (88.9). % De flotacin (de confianza) sec_struc_conf_beta
(58.0). % De flotacin (de confianza)sec_struc_conf_coil (77.7). % De flotacin (de
confianza) psi_sequences_found (1,7). % Cuntos encontrado, que
iteracin psi_sequences_found_again (2,7). % Cuntos encontrado, que la
iteracin psi_sequences_found_new (2,0). % Cuntos encontrado, que la
iteracin amino_acid_ratio (a, 11.2). % de aminocidos carta, flotar amino_acid_pair_ratio
(a, c, 0,0). Carta de aminocidos%, carta de aminocidos, float (de 1000, es decir, 2,8 =
0,28%)sequence_length (187). % Nmero entero tb_to_tb_evalue (tb3671, 1.100000e-
01). % Nmero de ORF, e-valor (doble) e_val (p35925, 7.0e-59). % SWISSPROT no la
adhesin, e-valor (dobles) especie (p35925, 'streptomyces_coelicolor'). % SWISSPROT acc
no, cadena de clasificacin (p35925, bacterias). % SWISSPROT acc no, nombre mol_wt
(p35925, 19772). % SWISSPROT acc no, nmero entero de palabras clave (p35925,
'hypothetical_protein'). % SWISSPROT acc no, cadena db_ref (p35925, EMBL, l27063,
g436026, null). % SWISSPROT acc no, Identificacin del db, id primaria, id secundaria, id
estado signalip (c, 35, no). % {C, a, s}, int (pptido seal c / y / s score), s / no signalip (ss,
1,34, no). % Ss, int, int, s / no signalip (escote, 59,60). % Escote, int / null, int /
null hydro_cons (-0.498, -0.474,0.624,3.248,0.278). % Matrimoniales, dobles, dobles,
matrimoniales, dobles gene_name (p41514, 'gyrB'). % SWISSPROT acc no, cadena
N/A
King, R. y Karwath, A. y Clare, A. y Dehaspe, L. (2000). Escala Genoma Prediccin

Protena clase funcional de secuencia utilizando Data Mining, En Actas de la Sptima
Conferencia Internacional ACM SIGKDD el Descubrimiento de Conocimiento y Minera
de Datos. [Web Link] King, R. y Karwath, A. y Clare, A. y Dehaspe, L. (2000). La
prediccin exacta de la clase funcional de la protena en el M. tuberculosis y E. coli
genomas utilizando la minera de datos, la genmica comparativa y funcional, 17, pp 283 -.
293 [Web Link]
Citas:
Restricciones de uso: Derechos de Autor 2000 por RD King, A. Karwath, A. Clare, L.

Dehaspe No hay restricciones. Estos datos se proporcionan "tal cual" y sin ninguna garanta
expresa o implcita, incluyendo, pero sin limitarse a, las garantas implcitas de
comerciabilidad y adecuacin para un propsito en particular. Las solicitudes de citas: Por
favor, cite el Rey ~ et. al (2000). Agradecimientos: Este trabajo fue apoyado por las
siguientes subvenciones: G78/6609, BIF08765, GR/L62849 y por PharmaDM,
Ambachtenlaan, 54 / D, B-3001 Leuven, Blgica.
Madelon Conjunto de Datos

Resumen : MADELON es un conjunto de datos artificial, que
era parte del desafo de seleccin de caractersticas NIPS
2003. Este es un problema de clasificacin de dos clases con
variables de entrada continuas. La dificultad es que el problema
es multivariante y altamente no lineal.


Real 500
Nmero de
Valores N/
perdidos? A
Accesos:
Fuente:
Isabelle Guyon
Clopinet
955 Creston carretera
Berkeley, CA 90708 isabelle '@' clopinet.com
MADELON es un conjunto de datos artificial que contiene puntos de datos agrupados en 32

grupos colocados en los vrtices de un hipercubo de cinco dimensiones y al azar
etiquetados 1 o -1. Las cinco dimensiones constituyen 5 funciones informativas. Se
aadieron 15 combinaciones lineales de estas caractersticas para formar un conjunto de 20
(redundantes) caractersticas informativas. Sobre la base de esas 20 caractersticas hay que
separar los ejemplos en las 2 clases (que corresponden a los + -1 etiquetas). Hemos aadido
una serie de caractersticas distractor llamado 'sondas' que no tienen ningn poder
predictivo. El orden de las caractersticas y los patrones fueron aleatorizados. MADELON -
ex positiva. - Ex Negativo. - Total de Entrenamiento Conjunto - 1000 - 1000 - 2000
Validacin ajustado - 300 - 300-600 Kit de ensayo - 900 - 900-1800 All - 2200 - 2200 a
4.400 N de variables / caractersticas / atributos: Reales: 20 Sondas: 480 Total: 500 Este
conjunto de datos es uno de los cinco conjuntos de datos utilizados en el desafo de
seleccin de caractersticas NIPS 2003. Nuestra pgina web [Web Link]est todava abierto
para la presentacin despus de la exposicin. Informacin acerca de otros problemas
conexos se encuentran en: [Web Link] . El paquete incluye CLOP cdigo de ejemplo para
procesar estos datos: [Web Link] . Todos los detalles sobre la preparacin de los datos se
encuentran en nuestro informe tcnico : Diseo de experimentos para la seleccin de
variables de referencia, Isabelle Guyon, julio de 2003, NIPS 2003 [Web Link](tambin
incluido en el archivo de conjunto de datos). Dicha informacin se pondr a disposicin
slo despus de la final del desafo. Los datos se dividen en entrenamiento, validacin y
prueba. Valores objetivo slo se proporcionan para los 2 primeros sets. Conjunto de
prueba los resultados de rendimiento se obtienen mediante la presentacin de resultados de
la prediccin a: [Web Link] . Los datos estn en el siguiente formato:dataname.param: Los
parmetros y las estadsticas sobre los datos dataname.feat: Identidades de las
caractersticas (en el orden en que las caractersticas son . se encuentra en los
datos) dataname_train.data: conjunto de entrenamiento (una matriz regular delimitada por
espacios, los patrones de lneas, las caractersticas de las columnas). dataname_valid.data:.
conjunto de validacin dataname_test.data: equipo de prueba. dataname_train.labels:
Etiquetas (la verdad . valores de las clases) para ejemplos de
entrenamiento dataname_valid.labels: Definir etiquetas de Validacin (retenidos durante el
punto de referencia, pero siempre ahora). dataname_test.labels: Test set etiquetas
(retenciones, por lo que los datos todava pueden ser usados como un punto de referencia).
No proporcionamos informacin de atributos, para evitar sesgar la funcin de proceso de

seleccin .

caractersticas , fundamentos y aplicaciones. Los estudios en Tolerancia y Soft
Computing . . Physica-Verlag, Springer
Ver tambin:
Isabelle Guyon, et al, 2007. Mtodos de referencia competitivos establecen nuevos
estndares para la seleccin de caractersticas de referencia NIPS 2003. Reconocimiento de
Patrones Cartas 28 (2007) 1438-1444.
as como el informe tcnico correspondiente:
Tcnico .
Citas:
Isabelle Guyon, Steve R. Gunn, Asa Ben-Hur, Gideon Dror, 2004. Anlisis de los
resultados del desafo de seleccin de caractersticas NIPS 2003. En:. NIPS .
MAGIA Gamma Telescopio Conjunto de Datos

Resumen : Los datos se generaron MC para simular el registro de
las partculas de alta energa de rayos gamma en un telescopio
Cherenkov atmosfrica


Valores Nmero de
Fuente:
Propietario original: RK Bock Major Atmospheric Gamma Imaging Cherenkov proyecto

Telescope
(MAGIA) http://wwwmagic.mppmu.mpg.de rkb '@' mail.cern.ch Donante: P. Savicky Instituto
de Ciencias de la Computacin , AS de CR Repblica Checa savicky '@' cs.cas.cz
Los datos son generados MC (ver ms abajo) para simular el registro de partculas de alta
energa gamma en un telescopio atmosfrica gamma de Cherenkov con base en tierra
utilizando la tcnica de formacin de imgenes.Telescopio gamma de Cherenkov observa
rayos gamma de alta energa, tomando ventaja de la radiacin emitida por las partculas
cargadas producidas en el interior de las duchas electromagnticas iniciadas por los gammas, y
el desarrollo en la atmsfera. Esta radiacin Cherenkov (de visible a longitudes de onda UV)
se filtra a travs de la atmsfera y se graba en el detector, lo que permite la reconstruccin de
los parmetros de la ducha. La informacin disponible se compone de pulsos dejados por los
fotones Cherenkov entrantes en los tubos fotomultiplicadores , dispuestos en un plano, la
cmara. Dependiendo de la energa de la gamma primaria, un total de unos pocos cientos a
unos 10.000 fotones Cherenkov conseguir recoge, en patrones (llamados la imagen ducha), lo
que permite discriminar estadsticamente las causadas por radiaciones gamma primarios
(seal) de las imgenes de duchas hadrnicas inici por los rayos csmicos en la atmsfera
superior (fondo). Tpicamente, la imagen de una ducha despus de algn procesamiento previo
es un racimo alargado. Su eje longitudinal est orientado hacia el centro de la cmara si el eje
de la ducha es paralelo al eje ptico del telescopio, es decir, si el eje del telescopio se dirige
hacia una fuente puntual . Un anlisis de componentes principales se lleva a cabo en el plano
de la cmara, lo que resulta en un eje de correlacin y define una elipse. Si las deposiciones se
distribuyeron como gaussiana bivariante, esto sera una elipse equidensity. Los parmetros
caractersticos de esta elipse (a menudo llamadas parmetros Hilla) son algunos de los
parmetros de imagen que pueden ser utilizados para la discriminacin. Las deposiciones de
energa son tpicamente asimtrica a lo largo del eje mayor, y esta asimetra tambin pueden
ser utilizados en la discriminacin. . Hay, adems, las caractersticas ms exigentes, como la
medida de la agrupacin en el plano de la imagen, o la suma total de deposiciones El conjunto
de datos fue generado por un Monte Carlo programa, Corsika, se describe en: D. Diablos et al.,
Corsika, un cdigo de Monte Carlo para simular amplias duchas de aire, Forschungszentrum
Karlsruhe FZKA 6019 (1998). [Web Link] El programa se ha ejecutado con los parmetros
que permiten observar los acontecimientos con energas hasta por debajo de 50 GeV.
1. fLength: continua # eje mayor de la elipse [mm]

2. fWidth: continua # eje menor de la elipse [mm]
3. FSIZE: continua # 10-logaritmo de la suma de los contenidos de todos los pxeles [en
Clasificado con el phot]
4. fConc: # Relacin continua de suma de dos pxeles ms altos ms de FSIZE [relacin]
5. fConc1: # Relacin continua de pixel ms alto sobre FSIZE [relacin]
6. fAsym: # distancia continua de pixel ms alto al jardn central, proyectada sobre el eje
mayor [mm]
7. fM3Long: # continuo tercera raz del tercer momento a lo largo del eje mayor [mm]
8. fM3Trans: # continuo tercera raz del tercer momento a lo largo del eje menor [mm]
9. fAlpha: ngulo # continuo del eje principal con el vector de origen [grados]
10. DISTR.F: # continua de distancia desde el origen hasta el centro de la elipse [mm]
11. clase: g, h # gamma (seal), de hadrones (fondo) g = gamma (seal): 12332 h = hadrones
(fondo): 6688 Por razones tcnicas, el nmero de eventos h se subestima. En los datos reales,
la clase h representa a la mayora de los eventos. El simple precisin de la clasificacin no es
significativa para estos datos, ya que la clasificacin de un caso como seal de fondo es peor
que la clasificacin de un caso de la seal de fondo. Para la comparacin de diferentes
clasificadores una curva ROC tiene que ser utilizado. Los puntos pertinentes en esta curva son
aquellos en los que la probabilidad de aceptar un evento de fondo como la seal est por
debajo de uno de los siguientes umbrales: 0.01, 0.02, 0.05, 0.1, 0.2 en funcin de la calidad
requerida de la muestra de los eventos aceptados para diferentes experimentos.
Bock, RK, Chilingarian, A., ind, M., Hakl, F., Hengstebeck, T., Jirina, M., Klaschka, J., Kotrc,
E., Savicky, P., Torres, S., Vaicilius , A., Wittek W. (2004).
Mtodos de clasificacin multidimensional de eventos: un caso de estudio utilizando imgenes
de un telescopio de rayos gamma de Cherenkov.
Nucl.Instr.Meth. A, 516, pp 511-528. P. Savicky, E. Kotrc. Estudio experimental de la hoja de
Confidencias de Random Forest. Actas de COMPSTAT 2004, En: Estadstica
Computacional. (Ed.: Antoch J.) -. Heidelberg, Physica Verlag 2004, pp 1767-1774 J. Dvorak.,
P. Savicky ablandamiento Splits en rboles de decisin de Uso de recocido simulado. Actas de
ICANNGA 2007, Varsovia, (Ed.:. Beliczynski et al), Parte I, LNCS 4431, pp 721-729.
Citas:
Mamogrfica Misa Conjunto de Datos
Resumen : La discriminacin de masas mamogrficas benignos y malignos basado en BI-
RADS atributos y la edad del paciente.


Entero 6
Valores Nmero de
Fuente:
Matthias Elter Instituto Fraunhofer de Circuitos Integrados (IIS) de procesamiento de

imgenes y el Departamento de Ingeniera Mdica (BMT) Am Wolfsmantel 33 91058
Erlangen, Alemania matthias.elter '@' iis.fraunhofer.de (49) 9131-7767 327 Prof. Dr.
Rdiger Schulz-Wendtland Instituto de Radiologa, Ginecologa Radiologa de la
Universidad de Erlangen-Nuremberg Universittsstrae 21-23 91054 Erlangen, Alemania
La mamografa es el mtodo ms eficaz para la deteccin de cncer de mama

en la actualidad. Sin embargo, el valor predictivo positivo de cncer de mama
biopsia resulta de la interpretacin mamografa lleva a aproximadamente
70% de biopsias innecesarias con resultados benignos. Para reducir el alto
nmero de biopsias de seno innecesarias, varios de diagnstico asistido por ordenador
(CAD) los sistemas se han propuesto en los ltimos sistemas years.These
ayudar a los mdicos en su decisin de realizar una biopsia de mama en una sospechosa
lesin observada en una mamografa o para realizar un seguimiento a corto plazo
el examen en su lugar.
Este conjunto de datos se puede utilizar para predecir la gravedad (benigno o maligno)
de una masa mamogrfica de BI-RADS atributos y la edad del paciente.
Contiene una evaluacin de BI-RADS, la edad del paciente y tres BI-RADS atributos
junto con la realidad sobre el terreno (el campo de gravedad) para 516 benignas y
malignas 445 masas que se han identificado en las mamografas digitales de campo
completo
recogidos en el Instituto de Radiologa de la
Universidad de Erlangen-Nuremberg entre 2003 y 2006.
Cada instancia tiene una evaluacin BI-RADS asociado que va de 1 (definitivamente
benigno)
a 5 (muy sugestivo de malignidad) asignado en un proceso de doble revisin por parte de
los mdicos. Suponiendo que todos los casos con BI-RADS Evaluaciones del mayor o
igual
a un valor dado (que vara de 1 a 5), son malignos y los otros casos benignos,
sensibilidades y especificidades asociadas se pueden calcular. Estos pueden ser una
indicacin de qu tan bien un sistema CAD realiza en comparacin con los
radilogos. Clase Distribucin: benigna: 516; maligna: 445
6 Atributos en total (campo objetivo 1, 1, 4 atributos predictivos no

predictivas) 1. Evaluacin de BI-RADS: (! Ordinal, no predictiva) 1-5 2. Edad: la edad del
paciente en aos (nmero entero) 3. Forma: Forma de masas: la vta = 1 = 2 ovalada lobular
= 3 = 4 irregular (nominal) 4. Margen: El margen de masas: circunscrito = 1 microlobulated
= 2 = 3 oscurecido mal definida = 4 espiculada = 5 (nominal) 5. Densidad: la densidad de
masa de alta = 1 = 2 iso baja = 3 que contiene grasa = 4 (ordinal) 6. Gravedad: benignos o
malignos = 0 = 1 (, campo objetivo binominal!) Faltan valores de atributo: - evaluacin de
BI-RADS: 2 - Edad: 5 - Forma: 31 - Margen: 48 - Densidad: 76 - Gravedad: 0
M. Elter, R. Schulz-Wendtland y T. Wittenberg (2007)

La prediccin de mama biopsia de cncer de los resultados mediante dos enfoques CAD
que ambos hacen hincapi en una inteligible proceso de decisin . Fsica Mdica 34 (11),
pginas 4164 hasta 4172
Citas:
M. Elter, R. Schulz-Wendtland y T. Wittenberg (2007)

La prediccin de los resultados de la biopsia del cncer de mama utilizando dos enfoques
CAD que ambos hacen hincapi en un proceso de toma inteligible.
Fsica Mdica 34 (11), pginas 4164 hasta 4172
Anlisis mecnico del Conjunto de Datos
Resumen : Diagnstico de fallos problema de los dispositivos electromecnicos; tambin
BOMBAS DE DATOS SET es la versin ms reciente con la teora de dominios y los
resultados


8
atributo: entero, real atributos: Donado 01
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Los propietarios originales de base de datos: 1. F. Bergadano, A. Giordana, L.

Saitta Universidad de Torino, Italia Corso Svizzera 185, Torino - tel. (39) 11 7712002 e-
mail: bergadan '@' itoinfo.bitnet 2. F. Bracadori, D. De MarchiSogesta, Localita
'Crocicchio, Urbino, Italia Donante: Enichem (Eni), Ravenna travs Sogesta (Eni), Urbino.
F. Bergadano suministra esta base de datos. Cada instancia contiene muchos componentes,
cada uno de los cuales tiene 8 atributos. Diferentes casos en esta base de datos tienen
diferentes nmeros de componentes. Era imposible poner un caso en una lnea. l tena
originalmente una instancia por archivo, pero esto hace que sea difcil para ellos ftp
(imagine ftp'ing 222 o menos archivos!). Me liado el conjunto de 209 casos en un
solo archivo de datos , anteponiendo cada uno con la lnea: ===== Instancia nmero 1:
===== donde "n" es un nmero en [1221]. Sin embargo, no lo son, no repetir en orden
secuencial. Doce (12) de los casos han desaparecido. Bergadano suministra estos 12 casos
adicionales (nmeros 8,12,32,33,66,69,73,152,167,194,203,208) en un sub-directorio
"notused". I liada estos con el mismo formato en el archivo "-instances
notused". Un examen rpido de su archivo no revel cul es el propsito de estos doce
casos.
0 - dummy (siempre 1) - utilizado para la numeracin - ignore

1 - clase - Clasificacin (1 .. 6, lo mismo para los componentes de un ejemplo)
2 - # - Nmero de componente (entero)
3 - apoyo - apoyo en la mquina en la que medida se tom (1 .. 4)
4 - cpm - Frecuencia de la medida (entero)
5 - MIS - medida (real)
6 - misr - medida anterior (real)
7 - dir - filtro, tipo de la medida y direccin :
{vo =,
va =,
vv =,
= ao,
aa =,
av =,
io =,
ia =,
IV =}
8 - omega - RPM de la mquina (nmero entero, el mismo para los componentes de un
ejemplo)
F. Bergadano, A. Giordana, L. Saitta, F. Brancadori, D. De Marchi: " Aprendizaje

Integrado en un verdadero dominio "Proc. VII Conferencia ML, Austin TX, 1990 (pginas
322-329) [Web Link]
Citas:
Por favor, consulte el aprendizaje de la mquina del repositorio poltica de citacin

Los metadatos del Conjunto de Datos
Resumen : Meta-Data se utiliz con el fin de dar consejos sobre qu mtodo de
clasificacin es apropiada para un determinado conjunto de datos (tomados de resultados
de proyecto Statlog).


22
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Creador: LIACC - Universidad de Porto Alegre R.Campo 823 4150

PORTO Donante: PBBrazdil o J.Gama LIACC, Universidad de Porto Rua Campo Alegre
823 4150 Porto, Portugal . Tel.: 351 600 1672 . Fax: 351 600 3654 E-mail:Statlog-
adm '@' ncc.up.pt
Este conjunto de datos se trata de los resultados de proyectos Statlog. El proyecto realiz un
estudio comparativo entre estadstico, Neural y simblicos de aprendizaje de
algoritmos. Statlog Proyecto (Proyecto Esprit 5170) se ocupaba de los estudios
comparativos de diferentes aprendizaje de mquinas , de los nervios y los algoritmos de
clasificacin estadstica. Cerca de 20 algoritmos diferentes fueron evaluados en ms de 20
conjuntos de datos diferentes. Las pruebas realizadas en el marco del proyecto producen
muchos resultados interesantes. Los resultados de estas pruebas se describen ampliamente
en un libro (D.Michie et.al, 1994).
1. Ds_name categrica Nombre del conjunto de datos

2. T continua Nmero de ejemplos de prueba establecido
3. N continua Nmero de ejemplos
4. p continua Nmero de atributos
5. k continua Nmero de clases
6. Bin continua Nmero de binario Atributos
7. Costo El costo continuo (1 = s, 0 = no)
8. SDratio continua desviacin estndar relacin de
9. correl continua correlacin media entre los atributos
10. cancor1 continuo primera correlacin cannica
11. cancor2 correlacin cannica Segundo continua
12. fract1 primer valor propio continua
13. fract2 continua segundo valor propio
14. asimetra media continua de | E (X-Media) | ^ ^ 3/STD 3
15. curtosis media continua de | E (X-Media) | ^ ^ 4/STD 4
16. Hc entropa media continua de atributos
17. Entropa continua Hx de las clases
18. MCx entropa mutuo media continua de la clase y atributos
19. EnAtr nmero equivalente continuo de atributos
20. NSRatio relacin continua Seal-Ruido
21. Alg_Name categrica Nombre del Algoritmo
22. Norm_error Error Normalizado continua (clase continua)
"Machine Learning, Neural y Aprendizaje Estadstico ". Eds. D.Michie, DJSpiegelhalter y

C.Taylor Ellis Horwood-1994 P. Brazdil, J.Gama y B.Henery. "Caracterizacin de la
Aplicabilidad de Algoritmos de Clasificacin Usando Meta-Nivel de Aprendizaje",
en Proc . de Aprendizaje Automtico - ECML-94, ed. F.Bergadano y L.de Raedt, LNAI
Vol.784 Springer-Verlag. [Web Link] J.Gama, P.Brazdil. "Caracterizacin de Algoritmos
de Clasificacin", en Proc. de EPIA 95, LNAI Vol.990 Springer-Verlag, 1995 [Web Link]
Citas:
MicroMass Conjunto de Datos
Resumen : Un conjunto de datos para explorar aprendizaje automtico enfoques para la
identificacin de microorganismos a partir de datos de espectrometra de masas.


Real 1300 08/12/2013
Nmero de
Valores N/
perdidos? A
Accesos:
Fuente:
Pierre Mah, pierre.mahe '@' biomerieux.com , bioMrieux

Jean-Baptiste Veyrieras, jean-baptiste.veyrieras '@' biomerieux.com , bioMrieux
Este conjunto de datos MALDI-TOF consiste en:

A) Un panel de referencia de 20 Gram positivas especies bacterianas y negativos que cubre
9 gneros entre los que varias especies se sabe que son difciles de discriminar
por espectrometra de masas (MALDI-TOF). Cada especie se representan por 11 a 60
espectros de masas obtenidos de 7 a 20 cepas bacterianas, constituyendo en conjunto un
conjunto de datos de 571 espectros obtenidos a partir de 213 cepas. Los espectros se
obtuvieron de acuerdo con el estndar de cultivo flujo de trabajo basado utilizado en la
rutina clnica en la que el microorganismo se cultiv primero en una placa de agar durante
24 a 48 horas, antes de que se recogi una porcin de la colonia, manchado sobre un
portaobjetos de MALDI y un espectro de masas fue adquirida.
B) Sobre la base de este panel de referencia, un dedicado in vitro conjunto de datos mezcla
maqueta fue constituido. Para ello se consideraron 10 pares de especies de diversos
proximidad taxonmica:
* 4 mezclas, etiquetados como A, B, C y D, las especies involucradas que pertenecen al
mismo gnero,
* 2 mezclas, E y F etiquetado, las especies que pertenecen a involucrados gneros distintos,
pero para el mismo tipo de Gram,
* 4 mezclas, con la etiqueta G, H, I y J, especies involucradas que pertenecen a tipos
distintos Gram.
Cada mezcla se representa por 2 pares de cepas, que se mezclaron de acuerdo a la siguiente
9 relaciones de concentracin: 01:00, 10:01, 05:01, 02:01, 01:01, 01:02, 01:05, 01:10,
0:1. Dos espectros replicadas fueron adquiridas para cada relacin de concentracin y cada
par de cepas, lo que lleva todo a un conjunto de datos de 360 espectros, entre los cuales 80
son en realidad los espectros de la muestra pura.
Mah et al. (2014). La identificacin automtica de huellas dactilares de especies mixtas

bacterianas en una masa de espectro MALDI-TOF. Bioinformtica.
Vervier et al., Un punto de referencia de las mquinas de vectores soporte estrategias para
la identificacin microbiana por los datos de espectrometra de masas, presentado
Citas:
129-154 Guatemala
http://archive.ics.uci.edu/ml/datasets.html
MiniBooNE datos de identificacin de
partculas Set
Resumen: Este conjunto de datos se toma del experimento MiniBooNE y se utiliza para distinguir
los neutrinos de electrones (seal) de neutrinos mun (fondo).


Real 50
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Byron Roe ( byronroe '@' umich.edu )
Departamento de Fsica Universidad de Michigan
Ann Arbor, MI 48109

El archivo enviado est configurado de la siguiente manera. En la primera lnea es el nmero de
eventos de seal seguido por el nmero de eventos de fondo. Los eventos de seal vienen
primero, seguido por los eventos de fondo. Cada lnea, despus de la primera lnea tiene las 50
variables de identificacin de partculas para el mismo evento.
50 variables (reales) de identificacin de partculas para cada evento.
. B. Roe et al, "rboles de decisin potenciados, una alternativa a las Redes Neuronales Artificiales
'< [Web Link] >,
arXiv: physics/0408124, Nucl. Instrum. Meth. A543, 577 (2005).
Cita de pedidos:
Mobile Robots Data Set
Resumen : conceptos de los datos del sensor de un robot mvil Aprendizaje; un conjunto de
conjuntos de datos
N
/ rea: Ordenador
A
N
/ 07/15/1995
atributo: entero, real atributos: Donado
A
N Nmero de
Valores
perdidos?
A Accesos:
Fuente:
Donantes: Volker Klingspor, Katharina J. Morik, Anke D. Rieger Informtica Dpto. LS
VIII Universidad de Dortmund, Alemania

Por favor, consulte el archivo de nombres asociado.
Tr (Trace) (entero)
T (Time) (entero)
S (Sensor) (entero 0-23)
O (Orientacin) (real 0-360)
Sa (S-Orientacin) (real 0-360)
Gr (Degradado) (real)
Dist (distancia) (real)
Sx, Sy
(Sensor de coordenadas) (real)
Obj (Object) (entero)
E (Edge) (entero)
S_C (Sensorclass) (conjunto de front_side, Morelos:, back_side, left_side. ..)
Mv (Movimiento) (juego de forma paralela, diagonal)
MD (MoveDirection) (conjunto de adelante, atrs, derecha, izquierda)
PD (PerceptionDir.) (grupo de delante, detrs, derecha, izquierda)
Perc (caractersticas perceptivas)
Volker Klingspor, Katharina Morik, Anke Rieger. Conceptos de los datos del sensor de un Robot
Mvil Aprender. Machine Learning Journal, 1995. [Web Link]

Mohammed Waleed Kadous. Expandir el Alcance del concepto de aprendizaje utilizando
Metafeatures . Facultad de Ciencias de la Computacin e Ingeniera de la Universidad de Nueva
Gales del Sur. [ Ver Contexto ].
Cita de pedidos:
Biologa Molecular (promotor del gen de
Secuencias) Conjunto de datos
Resumen : E. Coli secuencias del gen promotor (ADN) con la teora de dominio parcial
Conjunto de datos Sequential, Nmero de

106 rea: Vida
Caractersticas: dominio-Teora instancias:

Valores Nmero de
Fuente:
Creadores: 1. instancias promotoras: S. Harley ( CHARLEY '@' McMaster.CA ) y R.
Reynolds 2. instancias no promotoras y teora del dominio: M. Noordewier - (sin promotores
derivados del trabajo del laboratorio del Prof. Tom Record, Universidad de Wisconsin Departamento
de Bioqumica) Donante: M. Noordewier y J. Shavlik, {noordewi, Shavlik} @ cs.wisc.edu
Datos Conjunto de Informacin:Este conjunto de datos ha sido desarrollado para

ayudar a evaluar un "hbrido" algoritmo de aprendizaje ("KBANN") que utiliza ejemplos para refinar
inductivamente conocimiento preexistente. Utilizando una metodologa de "dejar uno fuera", los
siguientes errores fueron producidos por diferentes algoritmos ML. (Ver Towell, Shavlik, y
Noordewier, 1990, para ms detalles.) del sistema - Errores - Comentarios ---------------------------- ------
------------------------------ KBANN - 4/106 - un hbrido sistema ML BP - - 8/106 - std Backprop con una
capa oculta O'Neill - 12/106 - tcnica ad hoc de la bio. lit. Near-Relincho - 13/106 - un algoritmo
vecino ms cercano (k = 3) ID3 - 19/106 - de Quinlan rbol de decisiones constructor Tipo de
dominio: no numrico, nominal (uno de A, G , T, C) Nota: los nucletidos del ADN se pueden agrupar
en una jerarqua, como se muestra a continuacin: X (cualquier) / \ (purina) RY (pirimidina) / \ /
\ AGTC Aqu est ese jerarqua en un formato de texto amigable: X (cualquiera) . R (purina) . . A .. T .
Y (pirimidina) . . T .. C
1. Uno de {+ / -}, que indica la clase ("+" = promotor).
2. El nombre de instancia (no promotores nombrados por la posicin en la secuencia de nucletidos
de largo 1500 proporcionada por T. Record).
3-59. Los campos restantes 57 son la secuencia, comenzando en la posicin -50 (P-50) y termina en
la posicin 7 (P7). Cada uno de estos campos se llena por una de {a, g, t, c}.
Harley, C. y Reynolds, R. 1987. "El anlisis de E. Coli secuencias promotoras." Nucleic Acids
Research, 15:2343-2361. [Web Link] Towell, G., Shavlik, J. y Noordewier, M. 1990. "El
perfeccionamiento de las teoras de dominio aproximados por Redes Neuronales Artificiales Basados
en Conocimiento." En Actas de la Conferencia Nacional de la Octava de la Inteligencia Artificial
(AAAI-90). [Web Link]
Biologa Molecular (estructura secundaria de
protenas) Conjunto de datos
Resumen : A partir de CMU conexionista repositorio de banco; Clasifica estructura secundaria de
ciertas protenas globulares

Secuencial 128 rea: Vida
Caractersticas del Nmero de N/

Categrico Fecha Donado N/A
atributo: atributos: A

Fuente:
El conjunto de datos es una contribucin a la coleccin de referencia en Terry Sejnowski, ahora en
el Instituto Salk y la Universidad de California en San Deigo. El conjunto de datos fue desarrollada
en colaboracin con Ning Qian, de la Universidad Johns Hopkins.

Se trata de un conjunto de datos utilizado por Ning Qian y Terry Sejnowski en su estudio utilizando
una red neuronal para predecir la estructura secundaria de ciertas protenas globulares [1]. La idea
es tomar una secuencia lineal de aminocidos y para predecir, para cada uno de estos aminocidos,
lo que la estructura secundaria es una parte de dentro de la protena. Hay tres opciones: la alfa-
hlice, de lminas beta, y al azar-bobina. El conjunto de datos contiene un gran conjunto de datos
de entrenamiento y un conjunto distinto de datos que pueden ser utilizados para probar la red
resultante. Qian y Sejnowski utilizan un enfoque Nettalk-como y reportan una precisin del 64,3% en
el conjunto de prueba, y se especula que esto es lo mejor que se puede hacer utilizando slo el
contexto local. Hay tambin una teora del dominio en la carpeta, donado y creado por Jude Shavlik
& Rich Maclin
N/A
Ning Qian y Terrnece J. Sejnowski (1988), "La prediccin de la estructura secundaria de las
protenas globulares Usando modelos de red neuronal", en Journal of Molecular Biology 202, 865-
884. Academic Press.[Web Link]
Biologa Molecular (Splice-unin secuencias
gnicas) Conjunto de datos
Resumen : secuencias de primates de empalme de unin de genes (ADN) con la teora de
dominio imperfecto asociado
Conjunto de datos Sequential, Nmero de

3190 rea: Vida
Caractersticas: dominio-Teora instancias:

Categrico 61
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Creadores: 1. Todos los ejemplos tomados de GenBank 64.1 (sitio ftp:
genbank.bio.net) 2. Categoras "ei" y "decir" incluyen todos los "split-gen" para los primates en el
Genbank 64.1 3. ejemplos no empalme tomadas a partir de secuencias conocidas de no incluir un
sitio de corte y empalme donante: G. Towell, M. Noordewier y J. Shavlik, {towell, Shavlik} @
cs.wisc.edu, noordewi '@' cs.rutgers.edu

Descripcin del problema: los cruces de empalme son puntos en una secuencia de ADN a la que se
retira 'ÀDN superfluo durante el proceso de creacin de protenas en organismos superiores. El
problema planteado en este conjunto de datos es reconocer, dada una secuencia de ADN, los
lmites entre los exones (las partes de la secuencia de ADN conservan despus de empalme) e
intrones (las partes de la secuencia de ADN que se empalman a cabo). Este problema consiste en
dos subtareas: reconociendo lmites exn / intrn (conocidas como sitios de la IE), y reconociendo
los lmites intrn / exn (sitios IE). (En la comunidad biolgica, las fronteras de IE se hace referencia
a un `` aceptantes'' mientras que las fronteras de la IE se conocen como `` donantes''.) Este conjunto
de datos ha sido desarrollado para ayudar a evaluar un "hbrido" algoritmo de aprendizaje (KBANN)
que los usos ejemplos para refinar inductivamente conocimiento preexistente. Utilizando una
metodologa "de diez veces la validacin cruzada" en 1000 ejemplos seleccionados al azar de la
serie completa de 3190, las siguientes tasas de error fueron producidos por diferentes algoritmos ML
(todos los experimentos realizados en la Universidad de Wisconsin, a veces con implementaciones
locales de algoritmos publicados .) del sistema - Ni - IE - IE -------------------------------------- -------------
KBANN - 4.62 - 7,56 a 8,47 Backprop - 5.29 - 5,74 a 10,75 PEBLS - 6.86 - 8,18 a
7,55PERCEPTRON - 3,99 a 16,32 - 17.41 ID3 - 8.84 - 10,58-13,99 TELARAA - 11.80 - 15,04 a
9,46 Near. Vecino - 31.11 - 11,65 a 9,09
1. Uno de {n} ei es decir, lo que indica la clase.
2. El nombre de la instancia.
3-62. Los 60 campos restantes son la secuencia, comenzando en la posicin -30 y termina en la
posicin 30. Cada uno de estos campos es casi siempre ocupados por uno de {a, g, t, c}. Otros
caracteres indican la ambigedad entre los caracteres estndar de acuerdo con la siguiente
tabla: carcter: es decir, D: A o G o T N: A o G o C o T S: C o G R: A o G
Documentos pertinentes:MO Noordewier y GG Towell y JW Shavlik, 1991; "Redes

Neuronales basadas en el conocimiento entrenamiento para reconocer genes en secuencias de
ADN". Los avances en la informacin Neural Processing Systems, volumen 3, Morgan
Kaufmann. [Web Link] GG Towell y JW Shavlik y MW Craven, 1991; "Induccin constructiva en
Redes Neuronales del Conocimiento", en Actas de la Octava de Aprendizaje Internacional de
Mquinas Workshop, Morgan Kaufmann. [Web Link] GG Towell, 1991; "El conocimiento simblico y
Redes Neuronales: Insercin, Refinamiento y extraccin.", Tesis doctoral, Universidad de Wisconsin
- Madison [Web Link] GG Towell y JW Shavlik, 1992; "Interpretacin de Redes Neuronales
Artificiales: Mapping basados en el conocimiento Redes Neuronales en reglas", en Advances in
Neural Information Processing Systems, volumen 4, Morgan Kaufmann. [Web Link]
Del MONJE Problemas Data Set
Resumen : Un conjunto de tres campos artificiales durante el mismo espacio de atributos; Se
utiliza para probar una amplia gama de algoritmos de induccin


Valores Nmero de
Fuente:
Donante: Sebastian Thrun Facultad de Ciencias de la Computacin de la Universidad Carnegie
Mellon de Pittsburgh, PA 15213, EE.UU. Correo electrnico: Thrun '@' cs.cmu.edu
El problema del MONJE fueron la base de una primera comparacin internacional de los algoritmos
de aprendizaje. El resultado de esta comparacin se resume en "Problemas del Monk - una
comparacin de rendimiento de diferentes algoritmos de aprendizaje" por SB Thrun, J. Bala, E.
Bloedorn, I. Bratko, B. Cestnik, J. Cheng, K. De Jong, S. Dzeroski, SE Fahlman, D. Fisher, R.
Hamann, K. Kaufman, S. Keller, I. Kononenko, J. Kreuziger, RS Michalski, T. Mitchell, P. Pachowicz,
Y. Reich H. Vafaie, W . Van de Welde, W. Wenzel, J. Wnek, y J. Zhang ha sido publicado como
Informe Tcnico CS-CMU-91-197 de la Universidad Carnegie Mellon en diciembre de 1991. Una
caracterstica importante de esta comparacin es que se llev a cabo por un conjunto de
investigadores, cada uno de los cuales era un defensor de la tcnica que probaron (a menudo eran
los creadores de los diferentes mtodos). En este sentido, los resultados son menos sesgada que en
las comparaciones realizadas por una sola persona abogar por un mtodo de aprendizaje
especficos, y reflejan con mayor precisin el comportamiento de la generalizacin de las tcnicas de
aprendizaje aplicadas por usuarios expertos. Hay tres problemas de Monk. Los dominios para todos
los problemas de MONJE son los mismos (que se describe ms adelante). Uno de los problemas del
monje ha aadido ruido. Para cada problema, el dominio se ha dividido en un tren y equipo de
prueba.
1. clase: 0, 1
2. A1: 1, 2, 3
3. A2: 1, 2, 3
4. A3: 1, 2
5. A4: 1, 2, 3
6. a5: 1, 2, 3, 4
7. A6: 1, 2
8. Id: (Un smbolo nico para cada instancia)
Wnek, J., "La induccin constructiva hiptesis impulsada", tesis de doctorado de la Facultad de
Tecnologa de la Informacin e Ingeniera, Repertorio de aprendizaje automtico e Inferencia
Laboratorio, MLI 93-2, Centro para la Inteligencia Artificial, George Mason University, marzo de
1993. [Web Link] Wnek, J. y Michalski, RS, "Comparando Simblico y subsimblica aprendizaje: tres
estudios," en Aprendizaje Automtico: Un enfoque Multiestrategia, vol. .. 4, RS Michalski y G. Tecuci
(Eds.), Morgan Kaufmann, San Mateo, CA, 1993 [Web Link] Ver archivo: thrun.comparison.ps.Z
Moral Reasoner Data Set
Resumen : Modelo de clusula de Horn-que simula cualitativamente razonamiento moral; Teora
incluye literales negados

202 rea: Ordenador
Caractersticas del Nmero de N/ 1994-06-

N/A Fecha Donado
atributo: atributos: A 01
Valores N/ Nmero de
Fuente:
Creadores: TR Shultz y JM Daley donantes: James L. Wogulis Universidad de California,
Irvine Irvine, CA, EE.UU.
Este es un modelo basado en reglas que simula cualitativamente el razonamiento moral. El modelo
fue pensado para simular cmo una persona comn y corriente, hasta cerca de cinco aos de edad,
acerca de las razones. Dao haciendo La teora de cuerno clusula y los casos 202 son los mismos
que se utilizaron en (Wogulis, 1994). El predicado de nivel superior para predecir es culpable /
1. Para obtener ms informacin, por ejemplo, en la generacin de instancias, vea (Wogulis, 1994).
N/A
Darley, JM & Shultz, TR (1990). Las reglas morales: su contenido y adquisicin. Annual Review of
Psychology, 41, 525-556. Shultz, TR (1990). Un modelo de base de reglas de juzgar dao-hacer. En
Actas de la XII Conferencia Anual de la Sociedad de Ciencias Cognitivas, (pp. 229-236)., Cambridge,
MA. Lawrence Erlbaum. [Web Link] Wogulis, JL (1994). Un acercamiento a la reparacin y
evaluacin de teoras de primer orden que contiene varios conceptos y negacin. Disertacin
Doctoral. Universidad de California, Irvine. [Web Link]
Cita de pedidos:
Movie Set Data
Resumen : Este conjunto de datos contiene una lista de ms de 10.000 pelculas, entre ellas
muchos ms, impares y Pelculas de culto. Hay informacin sobre los actores, los yesos,
directores, productores, estudios, etc

10000 rea: N/A
Caractersticas: Relacional instancias:

N/A N/A
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Propietario original y donante Gio Wiederhold Universidad de Stanford 650-725-
8363 gio '@' cs.stanford.edu

Los datos se almacenan en forma relacional en varios archivos. El archivo central (MAIN) es una lista
de pelculas, cada uno con un identificador nico. Estos identificadores pueden cambiar en versiones
sucesivas.Los actores (CAST) de esas pelculas se muestran con sus papeles en un archivo
distinto. Ms informacin acerca de los actores individuales (actores) se encuentra en un tercer
archivo. Que todos los consejeros en la MAIN se enumeran en el cuarto fichero (personas), con un
nmero de grandes productores, escritores y directores de fotografa. Un quinto archivo (REMAKES)
Enlaces pelculas que se han copiado de forma sustancial el uno del otro. La sexta archivo
(STUDIOS) proporciona informacin acerca de los estudios mostrados en la principal. La motivacin
original era que los ejercicios de clase de base de datos, para reemplazar el gestor aburrido `de
consultas que el juguete-departamento '. Tenga en cuenta que los elencos, refirindose MAIN y
actores es lgicamente idntico al archivo de inventario refirindose a los proveedores y asambleas
en los problemas de los estndares de listas de materiales. Los intereses personales hicieron que la
base de datos para hacer completa para todas las pelculas de Hitchcock y episodios de
televisin.Pelculas relacionadas por tipo y el actor se aadieron gradualmente. Investigaciones
posteriores en las bases de datos temporales causada campos de fecha (ao solamente) que se
aadirn. Permite a las pruebas, por ejemplo, si las fechas-de-trabajo de un actor coincide con las
fechas de las pelculas ms importante que los shows de relacin CAST. Caractersticas de bases de
datos orientadas a objetos se podran probar con los campos que tiene mltiples y de dos niveles los
valores, tal como se documenta en el DOC. Las entradas se recogen gradualmente durante el
trabajo del curso comenzando alrededor de 1975 y todava estn siendo actualizadas. La mayora de
las entradas eran manuales. El archivo DOC se enumeran algunas de las obras de referencia
utilizados. Las correcciones y adiciones siguen siendo apreciado.Descripciones detalladas de los
campos y sus formatos se proporciona en doc.html. Valores perdidos: Fuera de los campos clave,
los valores no son comunes. Su codificacin se describe en el DOC. A veces los datos parece no
estar disponible, a veces no se ha introducido. Parte de la informacin, como `vivi-con 'es
intrnsecamente incompleto. Censurado datos: actores menores se ignoran. Dependencias: Cada
pelcula principal debe tener un director en la gente. Cerca de 50 nombres del director seudo ahve
sido incluido en la gente a permitir pelculas interesantes que con (todava) directores desconocidos
a ser introducidos. Cada entrada moldes debe referirse a una entrada de cine PRINCIPAL. Cada
actor debe aparecer en alguna entrada moldes, pero no al revs. Ver DOC para obtener informacin
ms tipo. Otra informacin relevante: Las pelculas se enumeran, si se conoce, con su ttulo de
lengua original. Una Alt (T:) Campo ofrece traducciones al ingls, si se conoce. Formato de
datos: Los archivos actuales estn en HTML, para permitir un fcil anlisis a otros formatos. . Se est
considerando una versin XML Los tamaos de archivo aproximados son: DOC .......
50K PRINCIPALES ...... 1 145K 11 400 entradas GENTE .... 355K 3 290 entradasPROYECTA ..... 4
340K 46 000 entradas ACTORES .... 811K 6 800 entradas remakes ... 135K 1 278
entradas STUDIOS ... 26K 200 entradas
N/A
N/A
MSNBC.com Anonymous Web Data Set Data

Resumen : Esta informacin describe las visitas a las pginas de los usuarios que visitaron
msnbc.com el 28 de septiembre de 1999. Las visitas se registran a nivel de categora de URL
(vase la descripcin) y se registran en orden cronolgico.

Secuencial 989818 rea: Ordenador

Categrico N/A N/A
Valores Nmero de
Fuente:
David Heckerman ( heckerma '@' microsoft.com )

Los datos provienen de Internet Information Server (IIS) los registros de msnbc.com y partes
relacionados con noticias de msn.com para todo el da de Septiembre 28, 1999 (Pacific Standard
Time). Cada secuencia en el conjunto de datos corresponde a pginas vistas de un usuario durante
ese periodo de veinticuatro horas. Cada evento en la secuencia corresponde a la solicitud de un
usuario de una pgina. Las solicitudes no se registran en el mejor nivel de detalle --- es decir, a nivel
de URL, sino ms bien, que se registran a nivel de pgina de la categora (segn lo determinado por
la administracin del sitio). Las categoras son "portada", "noticias", "tech", "opinin" "local", "en el
aire", "miscelneos", "tiempo", "salud", "vivo", "business", " deporte "," "," bbs Resumen "(servicio de
tabln de anuncios)," viajar "," msn-noticias ", y" msn-sports ". Cualquier solicitud de pginas servidas
a travs de un mecanismo de almacenamiento en cach no se registraron en los registros del
servidor y, por lo tanto, no est presente en los datos. Otra informacin relevante: * Nmero de
usuarios: 989.818 * Nmero medio de vitis por usuario: 5,7 * Nmero de URLs por categoras : 10 a
5000
En cada categora se asocia - en orden - con un entero empezando por "1". Por ejemplo, "frontpage"
se asocia con 1, "noticias", con 2, y "tecnologa" con 3. Cada fila de abajo "% Secuencias:" describe
los xitos - en orden - de un solo usuario. Por ejemplo, el usuario golpea primero "frontpage" dos
veces, y la segunda "noticias" usuario golpea una vez.
I. Cadez, D. Heckerman, C. Meek, P. Smyth, S. White, "Visualizacin de los patrones de navegacin
en un sitio Web utilizando clustering basado en modelos", Revista de la minera de datos y
descubrimiento de conocimiento. [Web Link]
Cita de pedidos:
Estos datos est disponible gracias a msnbc.com
Mltiples funciones de datos Fije
Resumen : Este conjunto de datos se compone de caractersticas de los nmeros escritos a mano
(`0 '-` 9') extrados de una coleccin de mapas holandeses de servicios pblicos


Entero, real 649 Fecha Donado N/A
Valores Nmero de
Fuente:
Robert PW Duin
Departamento de Fsica Aplicada de la
Universidad Tecnolgica de Delft
PO Box 5046, 2600 GA Delft
Holanda email: duin '@' ph.tn.tudelft.nl http: / / www.ph.tn.tudelft.nl/ ~ duin tel +31 15 2786143

Este conjunto de datos se compone de caractersticas de los nmeros escritos a mano (`0 '-` 9')
extrados de una coleccin de mapas holandeses de servicios pblicos. 200 patrones por clase (para
un total de 2.000 patrones) han sido digitalizados en imgenes binarias. Estos dgitos se representan
en trminos de los siguientes seis conjuntos de caractersticas (archivos): 1. mfeat-fou: 76
coeficientes de Fourier de las formas de los caracteres; 2. mfeat-fac: 216 Fecha de
correlaciones; 3. mfeat-kar: 64 coeficientes Karhunen-Amor; 4. mfeat-pix: 240 promedios de pxeles
en 2 x 3 ventanas; 5. mfeat-zer: 47 Zernike momentos; 6.mfeat-mor:. 6 caracteres morfolgicos en
cada archivo de los patrones de 2000 se almacenan en ASCI en 2.000 lneas. Los primeros 200
modelos son de clase `0 ', seguido por conjuntos de 200 patrones para cada una de las clases` 1' -
`9 '. Patrones correspondientes en diferentes conjuntos de caractersticas (o archivos) se
corresponden con el mismo carcter original. El conjunto de datos de imagen de origen se
pierde.Utilizando el pxel-conjunto de datos (mfeat-pix) versiones muestreadas de las imgenes
originales se pueden obtener (15 x 16 pxeles).
6 Archivos:
1. mfeat-fou: 76 coeficientes de Fourier de las formas de los caracteres;
2. mfeat-fac: 216 Fecha de correlaciones;
3. mfeat-kar: 64 coeficientes Karhunen-Amor;
4. mfeat-pix: 240 promedios de pxeles en 2 x 3 ventanas;
5. mfeat-zer 47 Zernike momentos;
6. mfeat-mor: 6 caractersticas morfolgicas.
M. van Breukelen, RPW Duin, Impuesto DMJ, y JE den Hartog, Manuscrito reconocimiento de dgitos
por los clasificadores combinados, Kybernetika, vol. 34, no. 4, 1998, 381-386. [Web Link] M. van
Breukelen y RPW Duin, red neuronal de inicializacin por Combined Clasificadores, en: AK Jain, S.
Venkatesh, BC Lovell (eds.), ICPR'98, Proc. 14a Int.. Conferencia sobre el Reconocimiento de
Patrones (Brisbane, Aug. 16-20),AK Jain, RPW Duin, J. Mao, Patrn Statisitcal Reconocimiento: una
revisin, en la preparacin
Mushroom Data Set

Resumen : A partir de la Gua de Campo de la Sociedad Audobon; setas que se describen en
trminos de caractersticas fsicas; Clasificacin: venenosa o comestible


Valores Nmero de
Fuente:
Origen: registros de hongos procedentes de La Gua de Campo de la Sociedad Audubon de Setas
de Amrica del Norte (1981). GH Lincoff (Pres.), Nueva York: Alfred A. Knopf Donante: Jeff
Schlimmer (Jeffrey.Schlimmer '@' a.gp.cs.cmu.edu )
Este conjunto de datos incluye descripciones de muestras hipotticas correspondientes a 23
especies de setas con aletas en el Agaricus y Lepiota Familia (pp. 500-525). Cada especie se
identifica como sin duda comestible, sin duda venenosa o de comestibilidad desconocida y no se
recomienda. Esta ltima clase se combin con el venenoso. La gua establece claramente que no
existe una regla simple para determinar la comestibilidad de una seta; hay una regla como `` folletos
de tres, que sea'' para Venenoso roble y la hiedra.
1. cap-forma: campana = b, c, = cnicas convexas = x, plana = f, knobbed = k, hundidos = s
2. cap-superficie: fibrosa = f, ranuras = g, escamosa = y, = lisos s
3. cap-color: marrn = n, buff = b, c = canela, gris = g, verde = r, rosa = p, prpura = u, rojo = e,
blanco = w, amarillo = y
4. moretones:? contusiones = t, no = f
5. Olor: almendra = a, ans = l, la creosota = c, a pescado = y, falta = f, = mohosos m, ninguno = n,
acre = p, = picantes s
6. gill-apego: adosada = a, descendiente = d, libre = f, con muescas = n
7. gill-spacing: close = c, lleno de gente = w, distante d =
8. gill-size: amplia = b, estrecho = n
9. gill-color: negro = k, marrn = n, buff = b, = h de chocolate, gris = g, verde = r, naranja = o, rosa =
p, prpura = u, rojo = e, blanco = w, amarillo = y
10. acechar-forma: ampliacin = e, estrechndose = t
11. tallo-raz: = b bulbosas, club = c, taza = u, igual = e, rizomorfos = z, enraizada = r, perdido =?
12. tallo tierra-arriba-ring: fibrosa = f, = y escamosa, sedoso = k, = lisos s
13. tallo tierra-abajo-ring: fibrosa = f, = y escamosa, sedoso = k, = lisos s
14. acechar-color-por encima de la junta: marrn = n, buff = b, c = canela, gris = g, naranja = o, rosa
= p, rojo = e, blanco = w, amarillo = y
15. acechar-color-abajo-ring: marrn = n, buff = b, c = canela, gris = g, naranja = o, rosa = p, rojo = e,
blanco = w, amarillo = y
16. de tipo velo: = p, = universales parciales u
17. velo-color: marrn = n, naranja = o, blanco = w, amarillo = y
18. ring-nmero: ninguno = n, uno = o, dos t =
19. tipo anillo: = c telaraas, evanescente = e, la quema = f, grandes = l, ninguno = n, pendiente = p,
envainando = s, zona z =
20. espora-print-color: negro = k, marrn = n, buff = b, = h de chocolate, verde = r, naranja = O,
prpura = u, w = blanco, amarillo = y
21. poblacin: abundante = A, = c, agrupados numerosos = n, = dispersos s, varios = v, = solitarias y
22. hbitat: las hierbas = g, deja = l, prados = m = p, caminos, urbana = u = w, residuos, bosques = d
Schlimmer, JS (1987). Concepto adquisicin a travs de representacin de Ajuste (Informe Tcnico
87-19). Disseration Doctoral, Departamento de Informacin y Ciencias de la Computacin de la
Universidad de California, Irvine. [Web Link] Iba, W., Wogulis, J., y Langley, P. (1988). Modificando
los Simplicidad y Cobertura en Incremental Concepto de Aprendizaje. En las actas de la 5
Conferencia Internacional sobre Aprendizaje Automtico, 73-79. Ann Arbor, Michigan: Morgan
Kaufmann. [Web Link] Duch W, Adamczak R, Grabczewski K (1996) Extraccin de reglas lgicas de
datos de entrenamiento que utilizan las redes de retropropagacin, en: Proc. del Taller La primera
lnea de Soft Computing, 19-30.Aug.1996, pp 25-30, [Web Link] [Web Link] Duch W, Adamczak R,
Grabczewski K, Ishikawa M, Ueda H, Extraccin de crujientes reglas lgicas que utilizan las redes de
retropropagacin restringidos - Comparacin de dos nuevos enfoques, en: Proc. del Simposio
Europeo sobre Redes Neuronales Artificiales (ESANN'97), Brujas, Blgica 16-18.4.1997. [Web Link]
Almizcle (Version 1) Conjunto de datos
Resumen : El objetivo es aprender a predecir si las nuevas molculas sern almizcles o no
almizcles


Entero 168 09/12/1994
Valores Nmero de
Fuente:
Creadores: Grupo AI a Arris Pharmaceutical Corporation contacto: David Chapman o Ajay Jain Arris
Pharmaceutical Corporation 385 Oyster Point Blvd.. South San Francisco, CA 94080 415-737-
8600 zvona '@'arris.com , jain '@' arris.com Donantes : Tom Dietterich Departamento de Ciencias
de la Computacin de la Universidad Estatal de Oregon en Corvallis, OR 97331 503-737-

Este conjunto de datos describe un conjunto de 92 molculas de las cuales 47 son juzgados por
expertos humanos para ser almizcles y los 45 restantes molculas son juzgados como los no
almizcles. El objetivo es aprender a predecir si las nuevas molculas sern almizcles o no
almizcles. Sin embargo, las 166 caractersticas que describen estas molculas dependen de la
forma exacta, o la conformacin, de la molcula.Debido a que los bonos pueden rotar, una sola
molcula puede adoptar muchas formas diferentes. Para generar este conjunto de datos, se
generaron las conformaciones de baja energa de las molculas y luego se filtra para eliminar
conformaciones muy similares. Esto dej 476 conformaciones. Entonces, un vector de
caractersticas se extrajo que describe cada conformacin. Este de muchos a uno entre los
vectores de caractersticas y las molculas se llama el "problema de mltiples instancias". Al
aprender un clasificador para estos datos, el clasificador debe clasificar una molcula como
"almizcle" Si alguno de sus conformaciones se clasifica como un almizcle. Una molcula debera
ser clasificado como "no almizcle" si ninguno de sus conformaciones se clasifica como un almizcle.
molecule_name: Nombre simblico de cada molcula. Almizcles tienen nombres como MUSK-
188. Los no almizcles tienen nombres tales como NO MUSK-JP13.
conformation_name: Nombre simblico de cada conformacin. Estos tienen el formato MOL_ISO +
CONF, donde MOL es el nmero de molculas, la ISO es el nmero estereoismero (generalmente
1), y es el nmero CONF conformacin.
f1 a F162: Estos son "caractersticas" a lo largo de los rayos distancia (vase el documento antes
citado) . Las distancias se miden en centsimas de Angstroms. Las distancias pueden ser negativo
o positivo, ya que en realidad se miden con respecto a un origen colocado a lo largo de cada
rayo. El origen fue definida por una superficie "consenso almizcle" que ya no se utiliza. Por lo tanto,
cualquier experimento con los datos deberan tratar estos valores de caractersticas como la
mentira en una escala continua arbitraria. En particular, el algoritmo no debe hacer ningn uso del
punto cero o el signo de cada caracterstica de valor.
F163: Esta es la distancia del tomo de oxgeno en la molcula a un punto designado en el espacio
de 3 dimensiones. Esto tambin se llama OXY-DIS.
F164: OXY-X:. X-desplazamiento desde el punto designado
F165: OXY-Y:. Y-desplazamiento desde el punto designado
F166: OXY-Z: Z-desplazamiento desde el punto designado.
clase: 0 => no almizcle, 1 => almizcle Por favor, tenga en cuenta que los atributos molecule_name
y conformation_name no deben ser utilizados para predecir la clase.
Dietterich, TG, Lathrop, RH, Lozano-Prez, T. Resolver el problema de la doble instancia con
rectngulos de ejes paralelos. Inteligencia Artificial. [Web Link]
Almizcle (Version 2) Conjunto de datos

Resumen : El objetivo es aprender a predecir si las nuevas molculas sern almizcles o no
almizcles


Entero 168 09/12/1994
Valores Nmero de
Fuente:
Creadores: Grupo AI a Arris Pharmaceutical Corporation contacto: David Chapman o Ajay Jain Arris
Pharmaceutical Corporation 385 Oyster Point Blvd.. South San Francisco, CA 94080 415-737-
8600 zvona '@'arris.com , jain '@' arris.com Donantes : Tom Dietterich Departamento de Ciencias de
la Computacin de la Universidad Estatal de Oregon en Corvallis, OR 97331 503-737-
Este conjunto de datos describe un conjunto de 102 molculas de las cuales 39 son juzgados por
expertos humanos para ser almizcles y los 63 restantes molculas son juzgados como los no
almizcles. El objetivo es aprender a predecir si las nuevas molculas sern almizcles o no
almizcles. Sin embargo, las 166 caractersticas que describen estas molculas dependen de la forma
exacta, o la conformacin, de la molcula.Debido a que los bonos pueden rotar, una sola molcula
puede adoptar muchas formas diferentes. Para generar este conjunto de datos, se han generado
todas las conformaciones de baja energa de las molculas para producir 6.598
conformaciones. Entonces, un vector de caractersticas se extrajo que describe cada
conformacin. Este de muchos a uno entre los vectores de caractersticas y las molculas se llama el
"problema de mltiples instancias". Al aprender un clasificador para estos datos, el clasificador debe
clasificar una molcula como "almizcle" Si alguno de sus conformaciones se clasifica como un
almizcle. Una molcula debera ser clasificado como "no almizcle" si ninguno de sus conformaciones
se clasifica como un almizcle.
Atributo de la informacin:molecule_name: Nombre simblico de cada

molcula. Almizcles tienen nombres como MUSK-188. Los no almizcles tienen nombres tales como
NO MUSK-JP13.
conformation_name: Nombre simblico de cada conformacin. Estos tienen el formato MOL_ISO +
CONF, donde MOL es el nmero de molculas, la ISO es el nmero estereoismero (generalmente
1), y es el nmero CONF conformacin.
f1 a F162: Estos son "caractersticas" a lo largo de los rayos distancia (vase el documento antes
citado) . Las distancias se miden en centsimas de Angstroms. Las distancias pueden ser negativo o
positivo, ya que en realidad se miden con respecto a un origen colocado a lo largo de cada rayo. El
origen fue definida por una superficie "consenso almizcle" que ya no se utiliza. Por lo tanto, cualquier
experimento con los datos deberan tratar estos valores de caractersticas como la mentira en una
escala continua arbitraria. En particular, el algoritmo no debe hacer ningn uso del punto cero o el
signo de cada caracterstica de valor.
F163: Esta es la distancia del tomo de oxgeno en la molcula a un punto designado en el espacio
de 3 dimensiones. Esto tambin se llama OXY-DIS.
F164: OXY-X:. X-desplazamiento desde el punto designado
F165: OXY-Y:. Y-desplazamiento desde el punto designado
F166: OXY-Z: Z-desplazamiento desde el punto designado.
clase: 0 => no almizcle, 1 => almizcle Por favor, tenga en cuenta que los atributos molecule_name y
conformation_name no deben ser utilizados para predecir la clase.
Dietterich, TG, Jain, A., Lathrop, R., Lozano-Prez, T. (1994). Una comparacin de reposando
dinmica y la distancia tangente para la prediccin de la actividad del frmaco. Los avances en la
informacin Neural Processing Systems, 6. San Mateo, CA: Morgan Kaufmann. . 216-223 [Web
Link] Jain, AN, Dietterich, TG, Lathrop, RH, Chapman, D., Critchlow, RE, Bauer, BE, Webster, TA,
Lozano-Prez, T. Brjula: basa forma-A mquina herramienta de aprendizaje para el diseo de
frmacos. Computer-Aided Molecular Design. [Web Link] Dietterich, TG, Lathrop, RH, Lozano-Prez,
T. Resolver el problema de la doble instancia con rectngulos de ejes paralelos. Inteligencia
Artificial. [Web Link]
Nomao Data Set

Resumen : Nomao recopila datos acerca de los lugares (nombre, telfono, localizacin ...) a partir
de muchas fuentes. La deduplicacin consiste en detectar lo que los datos se refieren al mismo
lugar. Los casos del conjunto de datos se comparan 2 puntos.

Univariante 34465 rea: Ordenador

Real 120
Nmero de
Valores
perdidos?
Accesos:
Fuente:(A) El dueo original de la base de datos (nombre / telfono / direccin caracol / direccin
de correo electrnico)
Nomao / 00 33 5 62 48 33 90/1 avenida Jean Rieux, 31500 Toulouse / desafo '@' nomao.com
(b) Donante de base de datos ( nombre / telfono / direccin caracol / direccin de correo
electrnico)
Laurent Candillier / - / 1 avenida Jean Rieux, 31500 Toulouse / laurent '@' nomao.com
El conjunto de datos se ha enriquecido durante el Nomao Desafo: [Web Link] organizada junto con
el taller ALRA (Aprendizaje Activo en aplicaciones del mundo real): [Web Link] celebrada en la
conferencia ECML-PKDD 2012.
120 atributos: 89 continua, 31 nominal (incluida la 'etiqueta' de los atributos y 'id').
Documentos pertinentes:@ inproceedings {nomaochallenge-CELM,

author = {Laurent Candillier y Vincent Lemaire},
title = {El diseo y anlisis del Desafo Nomao - Aprendizaje activo en el mundo real},
booktitle = {Actas de la ALRA: Aprendizaje Activo en Real- Aplicaciones mundo, Taller ECML-PKDD
2012, Viernes, 28 de septiembre 2012, Bristol, Reino Unido},
ao = 2012,
pages = {a aparecer}
}
Cita de pedidos:
Gracias a Nomao laboratorios para la apertura de sus datos: [Web Link]
Northix Data Set
Resumen : Northix est diseado para ser un problema de esquema de referencia correspondiente
para la integracin de datos de dos bases de datos entidad-relacin.

115 rea: Ordenador

Entero, real 200
Nmero de
Valores N/
perdidos? A
Accesos:
Fuente:
Farid Bourennani de la Universidad de Ontario Institute of Technology, farid.bourennani '@' uoit.ca

Northix est diseado para ser un problema de esquema de referencia correspondiente para la
integracin de datos de dos bases de datos de relacin de entidad. Northix es la coincidencia de
esquema resultante de dos bases de datos de demostracin a saber Northwind y Sakila. Se han
suprimido algunas entidades de base de datos innecesarios (columnas) como multimedia. Se desea
tener al menos alrededor de 200 tuplas por entidad de base de datos; Por lo tanto, las tuplas se
inyectaron al azar, respetando el patrn existente, si el nmero de tuplas fue baja. La coincidencia de
esquema se realiz manualmente. Las entidades ideales coincidentes se agrupan en clases. En
total, hay 115 entidades de base de datos de entrada almacenados respectivamente '. Dat' de la
primera base de datos y como ". Txt" si desde la segunda base de datos. El patrn de nomenclatura
de archivos es attributeName @ ColumnName @ Database. Despus de coincidencia de esquema,
los archivos estn agrupados en 34 clases (carpetas). 33 clases son matchings ideales mientras que
los grupos de la clase 'Unclassed' todos los atributos que son nicos y dona t tienen otro atributo
similar. Los atributos son de diferentes tipos de datos, tales como textos, nmeros enteros, nmeros
reales, fechas y tipos de datos alfanumricos. En total, hay 21.805 fichas. Un smbolo est separado
por espacios y otros caracteres no alfanumricos, como / -, ??. [1]
Microsoft. Northwind. [En lnea] 2005. [Citado:. 06 28, 2009] [Web Link] . [2] MySQL. Sakila. [En
lnea] 2005. [Citado:. 06 28, 2009] [Web Link] .
En total, hay 115 entidades de base de datos de entrada almacenados respectivamente '. Dat' de la
primera base de datos y como ". Txt" si desde la segunda base de datos. El patrn de nomenclatura
de archivos es attributeName @ ColumnName @ Database. Despus de coincidencia de esquema,
los archivos estn agrupados en 34 clases (carpetas). 33 clases son matchings ideales mientras que
los grupos de la clase 'Unclassed' todos los atributos que son nicos y dona t tienen otro atributo
similar.
Proporcionar referencias a los documentos que han citado este conjunto de datos en el pasado (si
los hay).
Cita de pedidos:
Premio de Investigacin NSF Abstracts 1990-
2003 Conjunto de Datos
Resumen : Este conjunto de datos se compone de (a) 129 000 resmenes que describen premios
NSF para la investigacin bsica, (b) los archivos de datos de bolsa de palabras extradas de los
resmenes, (c) una lista de palabras que se usan para la indexacin de la palabra bolsa-de-

Texto 129000 rea: N/A

N/A N/A Fecha Donado
Valores Nmero de Web

perdidos? Accesos:
Fuente:
Propietario y donante original Abstracts proporcionadas por: Michael J. Pazzani Departamento ICS,
Facultad de Ciencias de la Computacin, UCI, Irvine CA, 92697,
EE.UU. Pazzani '@' ics.uci.edu Bolsa-de-palabra de datos proporcionadas por: Amnn
Meyers Departamento ICS , Facultad de Ciencias de la Computacin, UCI, Irvine CA, 92697,
USA ameyers '@' ics.uci.edu

Los resmenes, uno por cada archivo, obtuvieron de la NSF (National Science Foundation). Un
resumen de la muestra se presenta en la siguiente seccin. Los datos de la bolsa-de-palabra fue
producido por el procesamiento automtico de los resmenes con un analizador de texto llamado
NSFAbst, construido utilizando VisualText. Aunque la mayora de los campos de la salida son muy
precisos, los autores no fueron extrados del Investigador: campo con 100% de precisin, debido a la
gran variabilidad en la materia. La lista de palabras vino de un proceso separado, y pueden no incluir
todas las palabras de inters en los resmenes.
N/A
N/A
Cita de pedidos:
Nursery Data Set
Resumen : Base de datos Nursery se deriva de un modelo de decisin jerrquica desarrollada
originalmente para clasificar las solicitudes de las escuelas de prvulos.


Valores Nmero de
Fuente:
Creador: Vladislav Rajkovic et al. (13 expertos) Donantes: Marko Bohanec
( marko.bohanec '@' ijs.si ) Blaz Zupan ( blaz.zupan '@' ijs.si )

Base de datos Nursery se deriva de un modelo de decisin jerrquica desarrollada originalmente
para clasificar las solicitudes de las escuelas de prvulos. Fue utilizado durante varios aos en la
dcada de 1980 cuando se produjo la inscripcin excesiva a estas escuelas en Ljubljana, Eslovenia,
y las solicitudes rechazadas con frecuencia necesita una explicacin objetiva. La decisin final
depende de tres subproblemas: ocupacin de los padres y la guardera del nio, la estructura familiar
y la situacin financiera, y la imagen social y la salud de la familia. El modelo fue desarrollado dentro
de sistema experto para la toma de decisin de DEX. (M. Bohanec, V. Rajkovic:.. Sistema experto
para la toma de decisiones Sistemica 1 (1), pp 145-157, 1990) El modelo jerrquico se ubica la
guardera aplicaciones de acuerdo a la siguiente estructura concepto: NURSERY Evaluacin de las
solicitudes para las guarderas . EMPLEO El empleo de los padres y la guardera del
nio . . Ocupacin de los padres de los padres . . guardera de has_nurs Nio. Estructura
STRUCT_FINAN Familia y posiciones financieras . . Estructura de la estructura familiar . . . formar
formulario de la familia . . . nios Nmero de nios . . Las condiciones de alojamiento de
viviendas . .financiar situacin financiera de la familia . SOC_HEALTH Social y la imagen de la salud
de la familia . . condiciones sociales Sociales . . Las condiciones de salud Salud atributos de entrada
se imprimen en minsculas. Adems del concepto de destino (VIVERO) el modelo incluye cuatro
conceptos intermedios: contratar, STRUCT_FINAN, ESTRUCTURA, SOC_HEALTH. Cada concepto
est en el modelo original relacionado con sus descendientes nivel inferior por un conjunto de
ejemplos (para estos ejemplos conjuntos ver [Web Link] ). La base de datos Nursery contiene
ejemplos con la informacin estructural eliminado, es decir, se refiere directamente a la entrada
VIVERO ocho atributos:. padres, has_nurs, la forma, los nios, la vivienda, las finanzas, la social, la
salud Debido a la estructura conocida concepto subyacente, esta base de datos puede ser
particularmente til para probar la induccin constructiva y mtodos de descubrimiento de la
estructura.
padres: habituales, pretenciosos, great_pret
has_nurs:, less_proper,,, impropio adecuada crtico very_crit
forma: completos, terminados, incompletos, crianza
hijos: 1, 2, 3, ms
vivienda: conveniente, less_conv, crtica
financiamento: conveniente, inconv
sociales: no prob, slightly_prob, problemtica
de la salud: recomendado, prioridad, not_recom
M. Olave, V. Rajkovic, M. Bohanec: Una aplicacin para la admisin en los sistemas de escuelas
pblicas. En (I. Th. M. Snellen y WBHJ van de Donk y J.-P. Baquiast, editores) Sistemas Expertos en
Administracin Pblica, pginas 145-160. Elsevier Science Publishers (Holanda del Norte), de
1989. [Web Link] B. Zupan, M. Bohanec, I. Bratko, J. Demsar: Aprendizaje automtico con la funcin
de descomposicin. ICML-97, Nashville, TN. 1997 [Web Link]
NYSK Data Set

Resumen : NYSK (Nueva York contra Strauss-Kahn) es una coleccin de artculos de noticias en
ingls sobre el caso en relacin con las acusaciones de asalto sexual contra el ex director del FMI,
Dominique Strauss-Kahn (mayo de 2011).
Multivariante,
Secuencial, 10421 rea: Social
Texto

N/A 7 11/10/2013
Nmero de
Valores
Tareas asociadas: Clustering N/A Web 5951
perdidos?
Accesos:
Fuente:
- Aura lien Lauf ( alu '@' amisw.com )
- Leila Khouas ( lkh '@' amisw.com )
- Mohamed Dermouche ( mde '@' amisw.com )

Documentos se obtienen en primer lugar a travs de una bsqueda en Internet usando AMIEI: una
plataforma integrada para la entrega de la inteligencia empresarial, desarrollado por AMI Software
( [Web Link] ) con la siguiente consulta: `` dsk'' o `` Strauss-Kahn'' o `` strauss-khan''. NYSK conjunto
de datos se utiliz para extraer correlacin tema-sentimiento y la evolucin en el tiempo, pero puede
ser utilizado para otras tareas de minera de texto, como la extraccin de tema, anlisis de los
sentimientos, etc
Los documentos se filtran y se presentan en formato XML. Todos los campos XML se explica por s
mismo.
N/A
Cita de pedidos:
Especies de plantas De cien hojas Conjunto
de datos Conjunto de datos
Resumen : Diecisis muestras de hojas, cada una de las especies de plantas uno a cien. Para
cada muestra, un descriptor de forma, el margen de escala fina y textura histograma se dan.

N/A 1600 rea: Vida

Valores Nmero de
Fuente:
James Cope, Thibaut Beghin, Paolo Remagnino, Sarah Barman.
Las imgenes en color no estn incluidos en esta presentacin.
Las hojas se recogen en el Real Jardn Botnico de Kew, Reino Unido.
email: james.cope '@' kingston.ac.uk
Este conjunto de datos consiste en un trabajo llevado a cabo por James Cope, Charles Mallah, y
James Orwell. . Kingston University London
Donantes de base de datos Charles Mallah: charles.mallah '@' kingston.ac.uk ; James
Cope: james.cope '@' kingston.ac.uk

Para cada funcin, un elemento del vector 64 se da por muestra de hoja. Estos vectores son
tomados como una descriptores contiguas (por la forma) o histogramas (para la textura y el
margen).
Para cada funcin, un elemento del vector 64 se da por muestra de hoja. Un archivo para cada uno
de 64 elementos de vectores de caractersticas. Cada fila comienza con la etiqueta de clase. Los
64 elementos restantes es el vector de caractersticas.
Este es un nuevo conjunto de datos, el papel provisional: La clasificacin Hoja Planta
Utilizando Probabilstico Integracin de forma, textura y caractersticas de margen "en SPPRA
2013. Autores: Carlos. Mallah, James Cope, y James Orwell o Kingston University London partes
anteriores de la serie de datos relacionados con la extraccin de caractersticas de las hojas
de: J. Cope, P. Remagnino, S. Barman, y P. Wilkin.Plant clasificacin textura usando
cooccurrences gabor. Los avances en computacin visual, pginas 669A "677, 2010. T. Beghin,
J. Cope, P. Remagnino y. S. Barman clasificacin hoja de la planta de forma y textura a
base. En Conceptos avanzados de Sistemas de Visin Inteligente, pginas 345a "353. Springer,
2010.
Cita de pedidos:
Charles Mallah, James Cope, James Orwell. Planta de Clasificacin de la hoja Usando
Probabilstico Integracin de la forma, la textura y el margen de Caractersticas. Procesamiento de
Seales, Reconocimiento de Patrones y Aplicaciones, en prensa. 2013.
Opinosis opinin / revisin del conjunto de
datos
Resumen : Este conjunto de datos contiene frases extradas de opiniones sobre un tema
determinado. Temas de ejemplo se performance de Toyota Camry ? y calidad
sound de ipod Nanoa ?.


N/A Fecha Donado

Fuente:
Kavita Ganesan kganes2 '@' illinois.edu http://kavita-ganesan.com/opinosis-opinion-dataset

Este conjunto de datos contiene frases extradas de opiniones sobre un tema determinado. Temas
de ejemplo se performance de Toyota Camry ? y sound calidad de ipod Nanoa ?,
etc En total hay 51 de esos temas con cada tema que tiene aproximadamente 100 frases (como
promedio). Los comentarios fueron obtenidos de diversas fuentes - Tripadvisor (hoteles),
Edmunds.com (coches) y Amazon.com (varios productos electrnicos). El archivo de base de datos
tambin incluye resmenes del patrn oro utilizado por el documento de resumen Opinosis (ver
documentos pertinentes).
N/A
Kavita Ganesan, Chengxiang Zhai, Jiawei Han. Opinosis: Un Enfoque Basado Grfico de
Abstractive Recapitulacin de Opiniones altamente redundantes. En las actas de la 23
Conferencia Internacional de Lingstica Computacional (Coling 2010). Beijing, China.
Cita de pedidos:
Kavita Ganesan, Chengxiang Zhai, Jiawei Han. Opinosis: Un Enfoque Basado Grfico de
Abstractive Recapitulacin de Opiniones altamente redundantes. En las actas de la 23

Conferencia Internacional de Lingstica Computacional (Coling 2010). Beijing, China.
OpinRank revisin de conjunto de datos
Conjunto de datos
Resumen : Este conjunto de datos contiene opiniones de usuarios de automviles y hoteles y
recogidas de Tripadvisor (~ 259 000 opiniones) y Edmunds (~ 42.230 comentarios).

Texto rea: Ordenador

N/A Fecha Donado

Fuente:
Kavita Ganesan y Chengxiang Zhai
Universidad de Illinois en Urbana Champaign @ http://www.kavita-ganesan.com/entity-ranking-data

Revision de Autos
------------
crticas-lleno de coches de modelo-ao 2007, 2008 y 2009
-Hay alrededor de 140 a 250 coches por cada ao modelo
campos extrados incluyen fechas, nombres de autores, los favoritos y lo textual completa revisin
-Nmero total de comentarios: ~ 42230 del hotel Opiniones -------------- crticas-completa de hoteles
de 10 ciudades diferentes (Dubai, Beijing, Londres, Ciudad de Nueva York, Nueva Delhi, San
Francisco, Shanghai, Montreal, Las Vegas, Chicago) -Hay alrededor de 80 a 700 hoteles en cada
ciudad los campos extrados incluyen fecha, ttulo revisin y la revisin completa nmero total de
opiniones: ~ 259.000
N/A
'Clasificacin Opinin basada entidad Ganesan, KA, y CX Zhai,, Recuperacin de Informacin,
2011.
Cita de pedidos:
Bibtex de la siguiente manera: @ article {opinrank, title = {Clasificacin Opinin basada
Entidad}, journal = {} Recuperacin de Informacin, ao = {2011}, keywords = {adhoc bsqueda
polifactica, orientada entidad de bsqueda, clasificacin entidad, la recuperacin de la entidad,
producto bsqueda}, doi = {} 10.1007/s10791-011-9174-8, attachments = { [Web Link] }, author =
{Kavita Ganesan y Chengxiang Zhai} }
OPORTUNIDAD Actividad Reconocimiento

Data Set
Resumen : El OPORTUNIDAD Dataset de Reconocimiento actividad humana desde usable, de
objetos, y Ambient Sensor es un conjunto de datos ideado para algoritmos de reconocimiento de la
actividad humana de referencia (clasificacin, segmentacin automtica de datos, fusin de
sensores, extraccin de caractersticas, etc.)

2551 rea: Ordenador

Real 242
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Daniel Roggen, usable Computing Laboratory ETH Zurich, droggen '@' gmail.com
Alberto Calatroni, usable Computing Laboratory ETH Zurich, calatroni.alberto '@' gmail.com
largo Van Nguyen Dinh-, usable Computing Laboratory ETH Zurich
Ricardo Chavarriaga, Presidente en interfaz cerebro-mquina no invasiva,
EPFL, ricardo.chavarriaga '@' epfl.ch
Hesam Sagha, Ctedra de Non-Invasive Brain-Machine Interface, EPFL, hesam.sagha '@' epfl.ch
Sundara Tejaswi Digumarti, Presidente en No Invasiva interfaz cerebro-mquina, EPFL

La oportunidad para el reconocimiento conjunto de datos de actividad humana desde usable, de
objetos, y Ambient Sensor es un conjunto de datos ideado para algoritmos de reconocimiento de la
actividad humana de referencia (clasificacin, segmentacin automtica de datos, fusin de sensores,
extraccin de caractersticas, etc.) Un subconjunto de este conjunto de datos se utiliz para la .
"OPORTUNIDAD Actividad Reconocimiento Challenge" organizado por el IEEE 2011 conf en
Sistemas, Hombre y Ciberntica Taller sobre "tcnicas de aprendizaje automtico robustos para el
reconocimiento actividad humana" El conjunto de datos consta de las lecturas de los sensores de
movimiento grabadas mientras los usuarios ejecutan actividades diarias tpicas: * Cuerpo- sensores de
desgaste: 7 unidades inerciales de medicin, 12 sensores de aceleracin 3D, informacin de
localizacin 3D 4 * Sensores de objeto: 12 objetos con aceleracin 3D y 2D de velocidad de giro *
sensores ambientales: 13 interruptores y sensores de aceleracin 3D 8 * Grabaciones: 4 usuarios, 6
carreras por los usuarios. De estos, 5 son de Actividad diaria carreras vivos caracterizados por una
ejecucin natural de las actividades diarias. La sexta carrera es una carrera "taladro", donde los
usuarios ejecutan una secuencia con guin de actividades. * Anotaciones / clases: las actividades del
usuario en el escenario estn anotados en diferentes niveles: "modos de locomocin" clases;acciones
de bajo nivel relacionadas 13 acciones a 23 objetos; 17 clases de gestos de nivel medio; y 5 clases de
actividad de alto nivel ** escenario de grabacin ** El entorno reconocimiento actividad y el escenario
ha sido diseado para generar muchas primitivas de actividad, sin embargo, de una manera
realista. Los sujetos operados en una habitacin que simula un estudio plana con una tumbona, una
cocina, puertas que dan acceso a la parte exterior, una mquina de caf, una mesa y una
silla. Logramos una ejecucin naturales de las actividades, instruyendo a los usuarios a seguir una
secuencia de comandos de alto nivel pero lo que les deja libre interpretacin como la forma de lograr
los objetivos de alto nivel. Tenemos, adems, les ha animado a realizar lo ms natural posible, con
todas las variaciones que estaban acostumbrados. Para cada tema que grabamos 6 pruebas
diferentes. Cinco de ellos, la actividad denominada de la vida diaria (AVD), seguido de un escenario
determinado, como se detalla a continuacin. El restante, una carrera de perforacin, fue diseado
para generar un gran nmero de instancias de actividad. El plazo ADL consiste en situaciones
temporalmente se desarrollan. En cada situacin (por ejemplo, la preparacin de sndwich), un gran
nmero de primitivas de accin producen (por ejemplo, llegar a por el pan, ir al cortador de pan, opere
el cortador de pan). * run ADL * ADL La carrera consta de las situaciones que se desarrollan
temporalmente: Inicio: tumbado en el tumbona, levntese novio: se mueven en la sala, compruebe que
todos los objetos que estn en los lugares correctos en los cajones y en los estantes Relax: salir a la
calle y dar un paseo alrededor del edificio Preparar caf: preparar un caf con leche y azcar
utilizando el mquina de caf bebida caf: tomar sorbitos del caf, moverse en el entorno Preparar
sndwich: incluir pan, queso y salami, usando la cortadora de pan y varios cuchillos y placas Comer
sndwich Limpieza: poner objetos utilizados para su lugar original o lavavajillas, la limpieza de la
mesa Romper: tumbarse en la hamaca * run Drill * El plazo de perforacin consta de 20 repeticiones
de la siguiente secuencia de actividades: Abrir y cerrar la nevera Abrir y cerrar el lavavajillas abierto a
continuacin, cierre 3 cajones (a diferentes alturas) Abrir y cerrar la puerta 1 Abrir a continuacin,
cierre la puerta 2 Alternar las luces encendidas y luego se apaga Limpie la mesa mientras est de pie
Drink Drink mientras est sentado Anotaciones ** ** Las anotaciones se realizan en cinco 'tracks
'. Una pista contiene modos de locomocin (por ejemplo, sentados, de pie, caminar). Otros dos pistas
indican las acciones de la izquierda y de la derecha (por ejemplo, alcanzar, agarrar, soltar), y al que se
oponen se aplican (por ejemplo, leche, switch, puerta). El cuarto tema indica las actividades de alto
nivel (por ejemplo, preparar sndwich). Las actividades de alto nivel se refieren a las situaciones que
se indican en la descripcin de la ADL es la siguiente (en parntesis el nmero de las situaciones
indicadas ms arriba): descanso (1, 9), por la maana temprano (2, 3), la hora del caf (4, 5), el tiempo
de bocadillo (6, 7), la limpieza (8). Las anotaciones gesto de nivel medio se genera automticamente a
partir de las acciones de la mano de bajo nivel. Comprende ms gruesa caracterizacin de las
actividades del usuario. Por ejemplo, las anotaciones de bajo nivel 'puerta de acceso' y 'puertas
abiertas' se combinan en una sola anotacin de nivel medio de "puertas abiertas". Aqu, las
anotaciones de nivel medio comprenden acciones de la mano izquierda y derecha de forma
indiscriminada. Sin embargo, en la prctica, los usuarios interactan principalmente con el medio
ambiente con la mano derecha. Se recomienda utilizar las anotaciones de nivel medio en los primeros
intentos de utilizar este conjunto de datos. ** Aplicaciones ** Este conjunto de datos ofrece una zona
de juegos rica para evaluar mtodos como, por ejemplo: * La clasificacin, (semi-) supervis la
mquina de aprendizaje de segmentacin * Automatic * Sin Supervisin estructura descubrimiento *
imputacin de datos * fusin de sensores multi-modal * la investigacin de redes de sensores *
Transferencia de aprendizaje, el aprendizaje multitarea * Seleccin Sensor * Extraccin de
caractersticas * Clasificador calibracin y adaptacin * ... ** puntos de referencia de lnea de base
**puntos de referencia de lnea de base para el reconocimiento de actividades OPORTUNIDAD
Desafo subconjunto del conjunto de datos estn disponibles en la referencia [2]. Scripts para replicar
los puntos de referencia se proporcionan en el paquete.
Atributo de la informacin:El conjunto de datos consta de las lecturas de los sensores de

movimiento grabadas mientras los usuarios ejecutan actividades diarias tpicas. El formato detallado
se describe en el paquete. Los atributos corresponden a las lecturas del sensor primas. . Hay un total
de 242 atributos * sensores de uso en el cuerpo (145 atributos) * Los sensores de uso en el cuerpo se
compone de 7 unidades de medicin inercial y 12 sensores de aceleracin 3D. Las unidades de
medicin inercial proporcionan lecturas de: aceleracin 3D, 3D tasa de turno, campo magntico 3D, y
la orientacin del sensor con respecto a un sistema de coordenadas mundo en cuaterniones. Cinco
sensores estn en la parte superior del cuerpo y dos estn montados en los zapatos del usuario. Los
sensores de aceleracin proporcionan aceleracin 3D. Se montan en la parte superior del cuerpo, la
cadera y la pierna. Cuatro etiquetas para un sistema de localizacin de banda ultra ancha se sitan en
el lado izquierdo / derecho frontal / posterior del hombro. * sensores de objeto (60 atributos) * 12
objetos estn instrumentadas con la tecnologa inalmbrica sensores que miden la aceleracin 3D y
2D tasa del turno. Esto permite detectar qu se usan los objetos, y posiblemente tambin el tipo de
uso que se hace de ellos. * sensores ambientales (37 atributos) * sensores ambientales incluyen 13
interruptores y 8 3D sensores de aceleracin en los cajones, aparatos de cocina y puertas. La caa
interruptores se colocan en los tros en la nevera, lavavajillas y 2 cajones y cajn 3. Ellos pueden ser
utilizados para detectar tres estados del elemento de mobiliario: cerrado, medio abierta, y
completamente abierta. Los sensores de aceleracin pueden permitir para evaluar si se utiliza un
elemento de mobiliario, y si pueden ser abiertos o cerrados.
** En primer partido **
[1] Daniel Roggen, Alberto Calatroni, Mirco Rossi, Thomas Holleczek, Gerhard Trster, Paul Lukowicz,
Gerald Pirkl, David Bannach, Alois Ferscha, Jakob Doppler, Clemens Holzmann, Marc Kurz, Gerald
Holl, Ricardo Chavarriaga , Hesam Sagha, Hamidreza Bayati, y Jos del R. Milln. "Recopilacin de
los conjuntos de datos de actividades complejas en entornos altamente ricos sensores conectados en
red" en la sptima Conferencia Internacional sobre Networked Sensing Systems (INSS'10), Kassel,
Alemania, 6 de 2010.
[2] Hesam Sagha, Sundara Tejaswi Digumarti, Jos del R. Milln, Ricardo Chavarriaga, Alberto
Calatroni, Daniel Roggen, Gerhard Trster. Evaluacin comparativa de las tcnicas de clasificacin
utilizando el Opportunity actividad humana conjunto de datos. Conferencia Internacional IEEE sobre
Sistemas, Hombre y Ciberntica, Anchorage, AK, EE.UU., 9 a 12 octubre, 2011
[3] El video presenta el conjunto de datos: [Web Link]
[4] R. Chavarriaga et al. Creacin Ensemble y reconfiguracin para el reconocimiento de actividad: una
aproximacin terica informacin. IEEE Conf. Sistemas, Hombre y Ciberntica (SMC), 2011
[5] H. Sagha et al. La deteccin de anomalas para mejorar la clasificacin de rendimiento en una red
de sensores oportunista, sptimo IEEE Taller Internacional de Redes y Sistemas de Pervasive
Computing (PerSens), 2.011 sensores.
[6] A. Calatroni et al., la transferencia automtica de capacidades de reconocimiento de actividad entre
desgastado cuerpo sensores de movimiento: El entrenamiento de los recin llegados a reconocer la
locomocin, la 8 Conferencia Internacional sobre Networked Sensing Systems (INSS), 2011
[7] M. Kurz et al. La cuantificacin dinmica de capacidades de reconocimiento de la actividad en los
Sistemas de oportunistas. IV Jornadas de Concientizacin Contexto para Proactive Systems, 2011
[8] H. Sagha et al. Detectar y rectificar anomalas en redes de sensores oportunistas. Conferencia
Internacional sobre Body Sensor Networks (BSN), 2011
[9] R. Chavarriaga et al. Robusto reconocimiento actividad de las tecnologas de asistencia:. Tcnicas
de Benchmarking ML, Taller de Aprendizaje Automtico para las Tecnologas de Apoyo en la 24
Conferencia Anual sobre Sistemas de procesamiento neural (PNA) de 2010
[10] P. Lukowicz et al. Grabacin de un complejo de varios datos, actividad modal establecidos para su
reconocimiento contexto 1er Taller sobre Context-Systems Diseo, Evaluacin y Optimizacin de
ARCS, 2010, 2010
[11] R. Chavarriaga, H. Sagha, A. Calatroni, S. Digumarti, G. Trster, J. del R. Milln, D. Roggen. El
reto Oportunidad: Una base de datos referente para el cuerpo-el reconocimiento de actividad basada
en sensores, Pattern Recognition Letters, 2013
[12] L.-V. Nguyen Dinh-, D. Roggen, A. Calatroni, G. Trster. Mejorar el reconocimiento de gestos en
lnea con mtodos de correspondencia de plantilla en los datos del acelermetro, Proc 12 Int. Conf.
sobre Sistemas Inteligentes de Diseo y Aplicaciones, 2012 ** terceros ** stos son algunos de los
trabajos por parte de terceros que utilizan el conjunto de datos OPORTUNIDAD: [100] T. Pltz, NY
Hammerla, P. Olivier. Aprendizaje de funciones para el reconocimiento de actividades de la
Computacin Ubicua, IJCAI de 2011 [101] A. Manzoor et al., Identificacin Primitives accin importante
para alto nivel de actividad de reconocimiento, Proc. Conferencia Europea de deteccin inteligente y
contexto (EuroSSC), 2010 [102] T. Ploetz, N. Hammerla, A. Rozga, A. Reavis, N. Call, G.
Abowd. Evaluacin automtica de la conducta problemtica en Individuos con Discapacidades del
Desarrollo. Proc. 14a Int. Conf. sobre Computacin Ubicua, 2012. [103] D. Gordon, J. Czerny, M.
Beigl. Actividad Reconocimiento por criaturas de hbito: Clasificacin Embedded Energy-Efficient
utilizando prediccin. Informtica Personal y ubicua, 2013.
Cita de pedidos:
El uso de este conjunto de datos en las publicaciones debe ser reconocido por referencia a la siguiente
publicacin [1] o [2].
Recomendamos consultar esta base de datos como la "OPORTUNIDAD Actividad reconocimiento
conjunto de datos" en las publicaciones.
Tambin agradeceramos que nos caiga un email ( daniel.roggen '@' ieee.org ) para informarnos de
cualquier publicacin que utiliza este conjunto de datos, por lo que podemos apuntar a su publicacin
en nuestra pgina web. Referencia [1] se detalla el conjunto de datos en general, el escenario, la
multimodalidad y aspectos de redes de sensores la configuracin, mtricas de calidad y mejores
prcticas para el registro de los complejos conjuntos de datos de actividades multimodales. Referencia
[2], prev la realizacin de un sistema de reconocimiento de la actividad de referencia en el conjunto
de datos OPORTUNIDAD, que puede ser utilizado como un rendimiento del ndice de referencia. [1]
Daniel Roggen, Alberto Calatroni, Mirco Rossi, Thomas Holleczek, Gerhard Trster, Paul Lukowicz,
Gerald Pirkl , David Bannach, Alois Ferscha, Jakob Doppler, Clemens Holzmann, Marc Kurz, Gerald
Holl, Ricardo Chavarriaga, Hesam Sagha, Hamidreza Bayati, y Jos del R. Milln. "Recopilacin de los
conjuntos de datos de actividades complejas en entornos altamente ricos sensores conectados en red"
en la sptima Conferencia Internacional sobre Networked Sensing Systems (INSS'10), Kassel,
Alemania, 2010. [2] Ricardo Chavarriaga, Hesam Sagha, Alberto Calatroni, Sundaratejaswi Digumarti,
Gerhard Trster , Jos del R. Milln, Daniel Roggen. "El reto Oportunidad: Una base de datos de
referencia para el cuerpo-el reconocimiento de actividad basado en sensores", Reconocimiento de
Patrones Letters, 2013
Reconocimiento ptico de Dgitos
Manuscritos Data Set
Resumen : Hay dos versiones de esta base de datos disponibles; ver carpeta


Entero 64
Nmero de
Valores
perdidos?
Accesos:
Fuente:
E. Alpaydin, C. Kaynak
Departamento de Ingeniera Informtica
de la Universidad Bogazici, 80815 Estambul Turqua alpaydin '@' boun.edu.tr

Utilizamos programas de preprocesamiento puestos a disposicin por el NIST para extraer mapas
de bits normalizados de dgitos escritos a mano a partir de un formulario preimpreso. De un total de
43 personas, 30 contribuyeron a la formacin y establecer diferentes 13 para el equipo de
prueba. Mapas de bits de 32x32 se dividen en bloques que no se superponen de 4x4 y el nmero
de pixeles en se cuentan en cada bloque.Esto genera una matriz de entrada de 8x8 donde cada
elemento es un nmero entero en el rango de 0 .. 16. Esto reduce la dimensionalidad y da
invariancia a pequeas distorsiones. Para informacin sobre las rutinas de preprocesamiento NIST,
consulte MD Garris, JL Azul, GT Candela, DL Dimmick, J. Geist, PJ Grother, SA Janet, y CL
Wilson, NIST Form-Based Reconocimiento Huella de mano Sistema, NISTIR 5469, 1994.
Todos los atributos de entrada son enteros en el rango de 0 .. 16.
El ltimo atributo es el cdigo de la clase 0 .. 9
C. Kaynak (1995) Mtodos de Combinacin de varios clasificadores y sus aplicaciones a Digit
Manuscrita reconocimiento, Tesis de maestra, Instituto de Estudios de Posgrado en Ciencias e
Ingeniera de la Universidad Bogazici. [Web Link] E. Alpaydin, C. Kaynak (1998) Los clasificadores
en cascada, Kybernetika. [Web Link] [Web Link]
Othello dominio Teora de Conjuntos de

Datos
Resumen : Se utiliza en la investigacin para generar caractersticas de un sistema de
aprendizaje inductivo
Conjunto de datos Domain- Nmero de N/

rea: Juego
Caractersticas: Theory instancias: A

N/A Fecha Donado
Valores Nmero de
Fuente:
Tom Fawcett ( Fawcett '@' cs.umass.edu )
MONEDAS Deptartment, LGRC
Universidad de Massachusetts
Amherst, MA 10373

El Cdigo ("othello.theory") est bien documentada.
N/A
T. y P. Fawcett Utgoff. "Un mtodo hbrido para la funcin de generacin". VIII Taller Internacional
sobre el aprendizaje de la mquina. Northwestern University, Evanston Illinois. 1991. pp 137-
141 [Web Link] T.Fawcett y P. Utgoff. "Generacin de funciones automticas para la resolucin de
problemas de sistemas". Novena Conferencia Internacional sobre Aprendizaje
Automtico. Aberdeen, Escocia. 1992. pp 144-153.[Web Link]
Cita de pedidos:
Deteccin de nivel de ozono de conjunto de
datos
Resumen: Dos conjuntos de datos a nivel de la capa de ozono del suelo se
incluyen en esta coleccin. Uno de ellos es el conjunto mximo ocho horas
(eighthr.data), el otro es el conjunto pico una hora (onehr.data). Esos datos
fueron recogidos desde 1998 hasta 2004 en el Houston, Galveston y
Brazoria rea.
Multivariante,
Secuencial, Time- 2536 rea: Fsico
Series

Real 73
Nmero de
Valores
perdidos?
Accesos:
Fuente :
Kun Zhang, zhang.kun05 '@' gmail.com , Departamento de Ciencias de la Computacin ,
Universidad Xavier de Louisiana
Wei Fan , wei.fan '@' gmail.com , IBM TJ Watson de Investigacin
Xiaojing Yuan , xyuan '@' uh.edu , Ingeniera Departamento de Tecnologa de la Facultad de
Tecnologa de la Universidad de Houston

Para obtener una lista de atributos , consulte esos dos archivos de nombres . . Ellos usan la
siguiente convencin de nomenclatura:
Todo el atributo empezar con T significa la temperatura medida en funcin del tiempo
durante todo el da , y esas salidas con SW indica la velocidad del viento en diversos tiempo .
WSR_PK : continuo. velocidad del viento peek - resultante ( es decir, la media de vector de
viento )
WSR_AV : continuo. Velocidad media del viento
T_PK : continuo. Pico T

T_AV : continuo. media T
T85 : continuo. T a 850 hPa (o alrededor de 1500 m de altura )
RH85 : continuo. Humedad relativa del aire a 850 hPa
U85 : continuo. (U viento - de este a oeste direccin del viento a 850 hpa )
V85 : continuo. V viento - N- S direccin del viento a 850
HT85 : continuo. Altura geopotencial a 850 hPa , es casi lo mismo que la altura a baja altura
T70 : continuo. T en 700 hPa (aproximadamente 3.100 m de altura )
RH70 : continuo.
U70 : continuo.
V70 : continuo.
HT70 : continuo.
T50 : continuo. T el nivel de 500 hPa (aproximadamente a 5500 m de altura )
RH50 : continuo.
U50 : continuo.
V50 : continuo.
HT50 : continuo.
KI : continuo. K- Index [Web Link]

TT : continuo. T -Totales [Web Link]
SLP : continuo. Presin a nivel del mar
SLP_ : continuo. SLP cambio del da anterior
Precp : continuo. Precipitacin
Las siguientes son las especificaciones para varios atributos ms importantes que son
altamente valorados por la Comisin de Calidad Ambiental de Texas ( TCEQ) . Ms detalles
se pueden encontrar en los dos documentos pertinentes .
O 3 - prediccin pico de ozono Local

Contra el viento - Upwind nivel de fondo de ozono
Factor de emisiones de precursores relacionados - EmFactor
Tmx - Temperatura mxima en F
Tb - Temperatura base donde comienza la produccin neta de ozono ( 50 F)
SRd - total de radiacin solar para el da
WSA - velocidad del viento cerca de la salida del sol (con 09-12 Modo pronstico UTC)
PSA - velocidad del viento medio da (con 15 a 21 modo de previsin UTC)
Por favor, consulte los dos archivos de nombres . .
Pronosticar da ozono estocsticos sesgados asimtricos : anlisis , soluciones y ms all , el
Conocimiento y Sistemas de la Informacin, vol. 14 , No. 3, 2008 .
Discute los detalles sobre el conjunto de datos , su uso , as como diversos experimentos
(tanto de validacin cruzada y streaming ) utilizando muchos mtodos del estado de la
tcnica .
Una versin ms corta del papel ( no contiene algunos experimentos detallados como el papel
de diario arriba) se encuentra en :
Pronosticar sesgadas das ozono sesgada estocsticos : Anlisis y Soluciones . ICDM 2006 :
753-764
Cita de pedidos:
p53 mutantes Conjunto de datos
Resumen: El objetivo es modelar la actividad transcripcional de p53 mutante
(activo vs inactivo) basado en datos obtenidos de las simulaciones biofsicas.


Real 5409
Nmero de
Valores
perdidos?
Accesos:
Fuente :
Richard H. Lathrop , UC Irvine, http://www.ics.uci.edu/ ~ Rickl

Modelos biofsicos de protenas p53 mutantes producen caractersticas que se pueden utilizar
para predecir la actividad transcripcional de p53 . Todas las etiquetas de clase se determinan
mediante ensayos in vivo .
K8.data - completo conjunto de datos, ' K8 '
Los archivos siguientes se proporcionan con el fin de reconstruir este subconjuntos histricos
de este conjunto de datos:
K8.instance.tags - proporciona la p53 mutante etiqueta precisa para cada caso en el K8.data ,
para su uso con los archivos histricos de definicin :
K1.def - define los casos en conjunto el " K1 " .
K2.def - define los casos en conjunto el " K2 " .
K3.def - define los casos en el conjunto de la ' K3 ' .
K4.def - define los casos en el conjunto de la " K4 " .
K8.def - define las instancias en el ' K8 ' set ( completo).
Hay un total de 5.409 atributos por ejemplo .
Atributos 1-4.826 representan caractersticas basadas electrostticas y de superficie 2D.
Atributos 4827-5408 representan caractersticas basadas distancia 3D.
Atributo 5409 es el atributo de la clase , que puede ser activo o inactivo.
Las etiquetas de clase se han de interpretar de la siguiente manera : "activo" representa , p53
activa transcriptonally competente, mientras que la etiqueta de "inactivo" representa
canceroso , p53 inactiva. Etiquetas de clase se determinan experimentalmente.
Se proporciona ms informacin en los documentos pertinentes citadas .

Danziger , SA , Baronio , R., Ho , L. Hall, L., Salmon, K., Hatfield , GW , Kaiser , P., y
Lathrop , RH ( 2009 ) Predecir Regiones Rescate cncer p53 positivos utilizando ms
informativa Positivo ( MIP ) Aprendizaje Activo , PLOS Computational Biology , 5 ( 9 ) ,
e1000498
Danziger , SA , Zeng , J. , Wang , Y. , Brachmann , RK y Lathrop , RH ( 2007 ) La eleccin

de dnde buscar siguiente en una secuencia espacio mutacin : Aprendizaje Activo de p53
mutantes de rescate de cncer informativos , Bioinformtica, 23 ( 13 ) , 104-114 .
Danziger , SA , Swamidass , SJ, Zeng , J., Escasez , LR, Lu, P. , Chen, JH, Cheng , J., Hoang
, VP , Saigo , H., Luo , R., Baldi , P., Brachmann , RK y Lathrop , RH ( 2006 ) del censo
funcional de la mutacin espacios de secuencia : el ejemplo de p53 mutantes de rescate
cncer, IEEE / ACM Operaciones en biologa computacional y bioinformtica / IEEE , ACM
, 3, 114-125 .
Cita de pedidos:
Si utiliza este conjunto de datos, por favor, cite los documentos pertinentes anteriormente.
Gracias.
Bloques La clasificacin de conjunto de datos
Resumen: El problema consiste en clasificar todos los bloques del diseo de pgina de un
documento que ha sido detectado por un proceso de segmentacin.

Multivariante 5473 rea: Computacion

Entero, Real 10 1995-07-01
Nmero de
Valores
perdidos?
Accesos:
Fuente :
Donato Malerba
Dipartimento di Informatica
Universidad de Bari
a travs de Orabona 4
70126 Bari - Italia
telfono +39 - 80-5.443.269
Fax: +39 - 80-5.443.196
malerbad '@' vm.csata.it
Donante:
Donato Malerba

Los 5.473 ejemplos provienen de 54 documentos distintos. Cada observacin se refiere a una
cuadra . Todos los atributos son numricos . Los datos estn en un formato legible por C4.5 .
altura : entero. | Altura de la cuadra.
Longitud : entero. | Duracin de la manzana.
rea : entero. | Zona del bloque (altura * tamao) ;
ECCEN : continuo. | Excentricidad del bloque (tamao / altura );
p_black : continuo. | Porcentaje de pxeles negros dentro del bloque ( blackpix / rea) ;
p_and : continuo. | Porcentaje de pxeles negros despus de la aplicacin de la longitud de los
tramos el Algoritmo ( RLSA ) ( blackand / rea) ;
mean_tr : continuo. | El nmero medio de transiciones negro- blanco ( blackpix / wb_trans );
blackpix : entero. | Nmero total de pxeles negros en el mapa de bits original del bloque .
blackand : entero. | Nmero total de pxeles negros en el mapa de bits del bloque despus de
la RLSA .
wb_trans : enteros . | Nmero de transiciones negro- blanco en el mapa de bits original del
bloque .
Malerba , D., Esposito , F., y Semeraro , G. " Un adicional Comparacin de los mtodos de
simplificacin para la Toma de rbol de induccin ". En D. Fisher y H. Lenz ( Eds. ) , "
Aprender de los datos: la Inteligencia Artificial y Estadstica V " , Lecture Notes in Statistics,
Springer Verlag, Berlin , 1995 .
[Web Link]
Esposito F. , Malerba D., y Semeraro G. Multiestrategia Aprendizaje para el reconocimiento

de documentos. Inteligencia Artificial Aplicada , 8 , pp 33-84 , 1994
[Web Link]

Steven Eschrich y Nitesh V. Chawla y Lawrence O. Hall. Mtodos de generalizacin en
Bioinformtica . BIOKDD . 2002 . [Ver Contexto ] .
entorno 3D : Proyecto de Verano de 2003. [Ver Contexto ] .
Adil M. Bagirov y Julien Ugon . Un algoritmo para el clculo de la funcin lineal por tramos
que separa dos conjuntos . CIAO , Escuela de Informtica y Ciencias Matemticas de la
Universidad de Ballarat . [Ver Contexto ] .
Cita de pedidos:
PAMAP2 Actividad Fsica Monitoreo Conjunto
de datos
Resumen: El PAMAP2 Actividad Fsica Monitoreo conjunto de datos contiene datos de 18
actividades fsicas diferentes, realizadas por 9 sujetos que llevan 3 unidades de medicin
inercial y un monitor de frecuencia cardaca.
Conjunto de
Multivariado, Nmero de
datos 3850505 rea: Ordenador
Time-Series instancias:
Caractersticas:
Caractersticas Nmero de 2012-08-

del atributo: atributos: 06
Valores Nmero de
Fuente :
Attila Reiss, Departamento Aumentada Vision, DFKI , Alemania, attila.reiss '@' dfki.de
Fecha: agosto de 2012.

El PAMAP2 Actividad Fsica Monitoreo conjunto de datos contiene datos de 18 actividades
fsicas diferentes ( tales como caminar , montar en bicicleta , jugar al ftbol , etc ) ,
interpretadas por 9 sujetos que llevan 3 unidades de medicin inercial y un monitor de
frecuencia cardaca. El conjunto de datos se puede utilizar para el reconocimiento de la
actividad y la estimacin de la intensidad , mientras que el desarrollo y la aplicacin de
algoritmos de procesamiento de datos , la segmentacin , extraccin de caractersticas y
clasificacin .
Sensores ** **
3 unidades Colibri inalmbricas Medicin Inercial (IMU ):
- Frecuencia de muestreo : 100 Hz
- Posicin de los sensores :
- 1 IMU sobre la mueca en el brazo dominante
- 1 IMU en el pecho
- 1 IMU en el tobillo del lado dominante
HR- Monitor :
- Frecuencia de muestreo : ~ 9 Hz
** Protocolo de recogida de datos **

Cada uno de los sujetos tenan que seguir un protocolo , que contiene 12 actividades
diferentes . La carpeta Protocol ? contiene estas grabaciones por temas.
Por otra parte, algunos de los sujetos tambin realizaron algunas actividades opcionales. La
carpeta Optional ? contiene estas grabaciones por temas.
Los archivos de datos ** **

Datos sensoriales primas se encuentran en archivos de texto separados por un espacio ( . Dat)
, 1 archivo de datos por sujeto por sesin ( protocolo u opcional) . Los valores perdidos se
indican con NaN . Una lnea en los archivos de datos se corresponde con una marca de
tiempo y la instancia de la etiqueta de los datos sensoriales. Los archivos de datos contienen
54 columnas : cada lnea se compone de una marca de tiempo , una etiqueta de actividad ( la
verdad de tierra) y 52 atributos de los datos sensoriales en bruto.
Las 54 columnas en los archivos de datos estn organizados de la siguiente manera :
1 . marca de tiempo ( s )
2 . activityID ( ver ms abajo para la asignacin a las actividades)
3 . frecuencia cardaca ( latidos por minuto )
4-20 . mano IMU
21-37 . IMU pecho
38-54 . tobillo IMU
Los datos sensoriales IMU contiene las siguientes columnas :

1 . Temperatura ( C )
2-4. Datos 3D de aceleracin ( ms- 2 ) , la escala : 16g , resolucin : 13 bits
5-7. Datos 3D de aceleracin ( ms- 2 ) , la escala : 6 g, resolucin : 13 bits
8-10 . Datos 3D- giroscopio (rad / s )
11-13 . Datos 3D- magnetmetro ( T)
14-17 . orientacin ( no vlida en esta recogida de datos )
Lista de activityIDs y actividades correspondientes :

1 mentira
2 de estar
3 de pie
4 pasos
5 en ejecucin
6 ciclismo
7 Nordic Walking
9 ver la televisin
10 trabajo de la computadora
11 la conduccin de automviles
12 escaleras ascendentes
13 bajar escaleras
16 de limpieza por aspiracin
17 de planchar
18 lavadero plegable
19 limpieza de la casa
20 juego de ftbol
24 cuerda de saltar
0 otras (actividades transitorias )
Las dos publicaciones siguientes describen el conjunto de datos y proporcionan un punto de
referencia de lnea de base en diversas tareas de reconocimiento de la actividad fsica y la
intensidad de estimacin :
[ 1 ] A. Reiss y D. Stricker . La introduccin de un nuevo conjunto de datos Equivalente de

Supervisin de la actividad . El 16 Simposio Internacional IEEE sobre Wearable Computers
( ISCA ), 2012 .
[ 2 ] A. Reiss y D. Stricker . Creacin y evaluacin comparativa de un nuevo conjunto de
datos para la supervisin de la actividad fsica . El quinto Taller sobre Afecto y Afn
Comportamiento ( ABRA ), 2012 .
Ms informacin (descripcin detallada del protocolo y de las diversas actividades , las
estadsticas de la base de datos, los temas, etc ) se pueden encontrar en la documentacin
adjunta al conjunto de datos . Por favor, consulte el readme.pdf archivo.
Cita de pedidos:
Este conjunto de datos est disponible gratuitamente para la investigacin acadmica , no hay
restricciones ( legales o de otro tipo ) sobre el uso de los datos con fines cientficos .
Agradeceramos referencia a una de las siguientes publicaciones ( [ 1 ] o [ 2 ] ) si se utiliza
este conjunto de datos.
Si usted tiene alguna pregunta o sugerencia , por favor pngase en contacto con Attila Reiss (
[ Nombre] . [ Apellido ] @ dfki.de ) . Tambin, por favor , hganos saber si usted tiene
cualquier publicacin que utiliza este conjunto de datos .
Recomendamos para referirse a este conjunto de datos como la PAMAP2 Dataset ? o
el PAMAP2 Actividad Fsica Monitoreo Dataset ? .
[ 1 ] A. Reiss y D. Stricker . La introduccin de un nuevo conjunto de datos Equivalente de

Supervisin de la actividad . El 16 Simposio Internacional IEEE sobre Wearable Computers
( ISCA ), 2012 .
[ 2 ] A. Reiss y D. Stricker . Creacin y evaluacin comparativa de un nuevo conjunto de
datos para la supervisin de la actividad fsica . El quinto Taller sobre Afecto y Afn
Comportamiento ( ABRA ), 2012 .
Parfum_data Conjunto de datos
Resumen: Estos datos consisten en los olores de 20 perfumes diferentes. Los datos se
obtuvieron mediante el uso de un medidor de olor de mano (sensor de OMX-GR) por
segundo para el perodo 28 segundos.
Conjunto de datos Univariate, Nmero de

560 rea: Ordenador

Real 20
Nmero de
Tareas asociadas: No Web 577
Accesos:
Fuente:
Prof. Dr. Bekir Karlik, bkarlik '@' selcuk.edu.tr , Departamento de Ingeniera Informtica de la
Universidad de Selcuk, Konya-Turqua
Assoc. Prof. Dr. Yousif Al-Bastaki, Departamento de Ciencias de la Computacin de la Universidad
de Bahrein, Reino de Bahrein

El conjunto de los datos recogidos cuando estbamos trabajando en el proyecto para Bahrein
universidad entre 2002 y 2003.
Los datos se obtuvieron de 20 perfumes diferentes mediante el uso de un olor medidor de mano
(sensor OMX-GR). Los nombres de estos perfumes son: ajayeb, ajmal, amreaj, DOOA, asgar_ali,
bujur, burberry, dehenalaod, junaid, kausar, rosa, solidmusk, TeaTreeOil, frambuesa, RoseMusk,
fresa, constrected2, carolina_herrera, oudh_ma'alattar, constrected1.
1 -? Karlik Bekir, Bastaki Yousif, Real Tiempo Monitoreo Olor Sistema de Deteccin de Uso de
OMX-GR Sensor y Neural Network , WSEAS Transacciones en Electrnica, nmero 2, vol.1,
pp.337-342, de abril de 2004
2 - Temel Turgay y Karlik Bekir, Oean Mejorado Sistema de reconocimiento de olor Usando
Aprendizaje cuantificacin vectorial con un nuevo discriminante Analysis , Neural Network World,
vol??. 17 (4), pp 287-294, 2007
3 -? Karlik Bekir y YUKSEK Kemal Fuzzy Clustering Redes Neuronales para el Real Time
Reconocimiento Olor System , Revista de Mtodos automatizados y Gestin en Qumica,
diciembre de 2007 Id. de artculo 38405 , [Web Link]
4 - AL-Bastaki, Yousif, 'Una basada en Redes Neuronales Artificiales monitoreo en lnea Sistema de
Deteccin de Olor ", Journal of Computer Science, vol. 5, no. 11, pginas 878-882, 2009.
Cita de pedidos:
1 -? Karlik Bekir, Bastaki Yousif, Real Tiempo Monitoreo Olor Sistema de Deteccin de Uso de
OMX-GR Sensor y Neural Network , WSEAS Transacciones en Electrnica, nmero 2, vol.1,
pp.337-342, de abril de 2004
2 - Temel Turgay y Karlik Bekir, Oean Mejorado Sistema de reconocimiento de olor Usando
Aprendizaje cuantificacin vectorial con un nuevo discriminante Analysis , Neural Network World,
vol??. 17 (4), pp 287-294, 2007
3 -? Karlik Bekir y YUKSEK Kemal Fuzzy Clustering Redes Neuronales para el Real Time
Reconocimiento Olor System , Revista de Mtodos automatizados y Gestin en Qumica,
diciembre de 2007 Id. de artculo 38405 , [Web Link] .
Parkinson Data Set
Resumen : La enfermedad de Parkinson Oxford Deteccin
Dataset


Real 23 Fecha Donado 06-26
Valores Nmero de
Fuente:
El conjunto de datos fue creada por Max Poco de la Universidad de Oxford, en colaboracin con el
Centro Nacional para la voz y el habla, Denver, Colorado, quien grab las seales de voz. El estudio
original publicado los mtodos de extraccin de caractersticas para trastornos de la voz en general.

Este conjunto de datos se compone de una serie de mediciones de voz biomdicas de 31 personas,
23 con enfermedad de Parkinson (EP). Cada columna de la tabla es una medida de voz en
particular, y cada fila corresponde a uno de 195 grabaciones de voz de estos individuos ("nombre" de
la columna). El objetivo principal de los datos es para discriminar las personas sanas de las personas
con enfermedad de Parkinson, de acuerdo con la columna "Estado", que se establece en 0 para la
sana y 1 para la EP. Los datos estn en formato CSV ASCII. Las filas del archivo CSV contienen una
instancia que corresponde a una grabacin de voz. Hay alrededor de seis grabaciones por paciente,
el nombre del paciente es identificado en la primera column.For ms informacin o para transmitir los
comentarios, pngase en contacto con Max Little (littlem '@' robots.ox.ac.uk). Ms detalles estn
contenida en la siguiente referencia - si se utiliza este conjunto de datos, por favor cite: Max A. Little,
Patrick E. McSharry, Eric J. Hunter, Lorena O. Ramig (2008), 'Adecuacin de las mediciones disfona
para telemonitorizacin de la enfermedad de Parkinson , IEEE Transactions on Biomedical
Engineering (aparezcan).
Entradas de la columna Matrix (atributos):
nombre - ASCII nombre del sujeto y nmero de grabacin
MDVP: Fo (Hz) - Media vocal frecuencia fundamental
MDVP: Fhi (Hz) - Mxima vocal frecuencia fundamental
MDVP: Flo (Hz) - vocal frecuencia fundamental mnima
MDVP: Jitter (%), MDVP: Jitter (Abs), MDVP: RAP, MDVP: PPQ, Jitter: DDP - Varias medidas de la
variacin en la frecuencia fundamental
MDVP: Shimmer, MDVP: Shimmer (dB), Shimmer: APQ3, Shimmer: APQ5, MDVP: APQ, Shimmer:
DDA - Varias medidas de la variacin en la amplitud
de NHR, HNR - dos medidas de la relacin entre el ruido de componentes tonales de la voz
de estado - Estado de salud del sujeto (uno) - Parkinson, (cero) - sano
RPDE, D2 - Dos medidas de complejidad dinmicos no lineales
DFA - Seal fractal exponente de escala
Spread1, spread2, PPE - Tres medidas lineales de variacin de frecuencia fundamental
N/A
Cita de pedidos:
Si utiliza este conjunto de datos, por favor, cite el siguiente documento: Aprovechamiento lineal
Recurrencia y Fractal Escala Propiedades para la deteccin trastorno de la voz ', Little MA, McSharry
PE, Roberts SJ, Costello DAE, Moroz IM. BioMedical Engineering OnLine, 2007, 06:23 (26 de junio
de 2007)
Parkinson Telemonitoring Data Set
Resumen : La enfermedad de Parkinson Oxford Telemonitoring Dataset


Entero, real 26
Nmero de
Valores
Tareas asociadas: Regresin No Web 37997
perdidos?
Accesos:
Fuente:
El conjunto de datos fue creada por Athanasios Tsanas ( tsanasthanasis "@" gmail.com ) y Max
Little ( littlem "@" physics.ox.ac.uk ) de la Universidad de Oxford, en colaboracin con 10 centros
mdicos en los EE.UU. e Intel Corporation quien desarroll el dispositivo de telemonitorizacin para
registrar las seales de voz. El estudio original utiliza una serie de mtodos de regresin lineal y no
lineal para predecir la enfermedad puntuacin de los sntomas de Parkinson del mdico en la escala
UPDRS.

Este conjunto de datos se compone de una serie de mediciones de voz biomdicos a partir de 42
personas con la enfermedad en etapa temprana de Parkinson reclutado a un juicio de seis meses de
un dispositivo de seguimiento a distancia para el control remoto de progresin de los sntomas. Las
grabaciones fueron capturados de forma automtica en los hogares de los pacientes. Las columnas
de la tabla contienen varios sujetos, la edad del sujeto, el gnero objeto, el intervalo de tiempo desde
la fecha de contratacin de referencia, el motor de la UPDRS, UPDRS totales, y 16 medidas de voz
biomdicas. Cada fila corresponde a una de 5875 de grabacin de voz de estas personas. El objetivo
principal de los datos es para predecir el motor y las puntuaciones UPDRS total ('motor_UPDRS' y
'total_UPDRS') de las medidas de voz 16. Los datos estn en formato CSV ASCII. Las filas del
archivo CSV contienen una instancia que corresponde a una grabacin de voz. Hay alrededor de 200
grabaciones por paciente, el nmero de sujetos de la paciente es identificado en la primera
columna. Para ms informacin o para transmitir los comentarios, por favor pngase en contacto con
Athanasios Tsanas ( tsanasthanasis '@' gmail.com ) o Max Little ( littlem '@' physics.ox.ac.uk ). Ms
detalles se encuentran en la siguiente referencia - si se utiliza este conjunto de datos, por favor,
cite: Athanasios Tsanas, Max A. Little, Patrick E. McSharry, Lorena O. Ramig
(2009), 'telemonitorizacin precisa de progresin de la enfermedad de Parkinson por pruebas de
lenguaje no invasivo ", IEEE Transactions on Biomedical Engineering ( . aparecer) ms detalles
sobre las medidas de voz biomdicas se pueden encontrar en: Max A. Little, Patrick E. McSharry,
Eric J. Hunter, Lorena O. Ramig (2009), 'Adecuacin de las mediciones disfona para
telemonitorizacin de la enfermedad de Parkinson , IEEE Transactions on Biomedical Engineering,
56 (4) :1015-1022
tema # - Entero que identifica de forma nica cada sujeto
edad - Asunto edad
sexo - Asunto '0 gnero "- macho, '1 '- femenino
test_time - Tiempo desde el reclutamiento en el ensayo. La parte entera es el nmero de das desde
la contratacin.
motor_UPDRS - puntuacin UPDRS motor para mdicos, linealmente interpolados
total_UPDRS - UPDRS totales del Clnico SCORE, interpolados linealmente
Jitter (%), Jitter (ABS), Jitter: RAP, Jitter: PPQ5, Jitter: DDP - Varias medidas de la variacin en la
frecuencia fundamental
Shimmer, Shimmer (dB), Shimmer: APQ3, Shimmer: APQ5, Shimmer: APQ11, Shimmer: DDA -
Varias medidas de la variacin en la amplitud
de NHR, HNR - Dos medidas de la relacin entre el ruido de componentes tonales en la voz
RPDE - Una complejidad dinmica no lineal medir
DFA - Seal fractal exponente de escalamiento
PPE - Una medida no lineal de la variacin de la frecuencia fundamental
Poco MA, McSharry PE, Hunter EJ, Ramig LO (2009),
'Adecuacin de las mediciones disfona para telemonitorizacin de la enfermedad de Parkinson ",
IEEE Transactions on Biomedical Engineering, 56 (4) :1015-1022 Poco MA, McSharry PE, Roberts
SJ, Costello DAE, Moroz IM. Aprovechamiento lineal Recurrencia y Fractal Escala Propiedades
para la deteccin trastorno de la voz ', BioMedical Engineering OnLine, 2007, 06:23 (26 junio 2007)
Cita de pedidos:
Si utiliza este conjunto de datos, por favor, cite el siguiente documento:
A Tsanas, MA Little, PE McSharry, LO Ramig (2009)
'telemonitorizacin precisa de la progresin de la enfermedad de Parkinson mediante pruebas de
lenguaje no invasivo ",
IEEE Transactions on Biomedical Engineering (aparezca) .
PEMS-SF Conjunto de Datos
Resumen : 15 meses el valor de los datos diarios (440 registros diarios) que describe la tasa de
ocupacin, entre 0 y 1, de los diferentes carriles de coches de las autopistas de la zona Baha de
San Francisco a travs del tiempo.

Time-Series
440 rea: Ordenador

Real 138672 22
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Fuente: Departamento de Transporte de California, www.pems.dot.ca.gov
Creador: Marco Cuturi, Universidad de Kyoto, mcuturi '@' i.kyoto-u.ac.jp

Hemos descargado 15 meses por valor de los datos diarios de la web del Departamento de
Transporte PEMS California, [Web Link] , Los datos se describe la ocupacin de
la tasa, entre 0 y 1, de los diferentes carriles de coches de San Francisco autopistas baha. Las
medidas abarcan el perodo comprendido entre 1 de enero 2008 al 30 de marzo 2009 y se toman
muestras cada 10 minutos. Consideramos cada da en esta base de datos como una sola serie de
tiempo de dimensin 963 (el nmero de sensores que funcionaban constantemente durante todo el
perodo estudiado) y duracin de 6 x 24 = 144. Quitamos los das festivos del conjunto de datos, as
como dos das anomalas (8 de marzo de 2009 y 09 de marzo 2008), donde se silenciados todos los
sensores 02:00-03 a.m.. Esto da lugar a una base de datos de 440 series de tiempo. La tarea que
nos proponemos en este conjunto de datos es clasificar cada da se observa como el da correcto de
la semana, de lunes a domingo, por ejemplo, etiqueta con un nmero entero en {1,2,3,
4,5,6,7}. Mantendr copias separadas de esta base de datos en mi sitio web en un formato de
Matlab. Si usa Matlab, que podra ser ms conveniente considerar estos archivos. Estera
directamente. Data-Formato ------------- Hay dos archivos para cada pliegue, el archivo de datos y el
archivo de etiquetas. Hemos dividido la serie 440 de tiempo entre tren y pliegues de la prueba, pero
por supuesto son libres para fusionarlos para considerar un ajuste de la validacin cruzada
diferente. - El archivo de texto PEMS_train tiene 263 lneas. Cada lnea describe una serie de tiempo
proporcionado como una matriz. La sintaxis de la matriz es el de Matlab, por ejemplo, [AB; cd] es la
matriz con vectores fila [AB] y [CD] en ese orden. Cada matriz se describen los diferentes tipos de
Ocupaciones (963 lneas, una para cada estacin / detector) en la muestra cada 10 minutos durante
el da (144 columnas). - El texto PEMS_trainlabel describe, para cada da de las mediciones se ha
descrito anteriormente, el da de la semana en que se tomaron muestras de los datos, es decir, un
nmero entero entre 1 (lunes) y 7 (domingo). - PEMS_test y PEMS_testlabels tienen el formato de la
misma manera, salvo que hay 173 casos de prueba. - La permutacin que he usado para mezclar la
conjunto de datos se da en el archivo randperm. Si necesita reordenar los datos de manera que
sigue el orden natural, que debe combinar el tren y examinar muestras y reordenarlos mediante la
permutacin inversa de randperm.
Cada atributo describe la medicin de la tasa de ocupacin (entre 0 y 1) de una ubicacin captor
segn lo registrado por una estacin de medicin, en una marca de tiempo dado en el tiempo
durante el da. El ID de cada estacin se da en el archivo de texto stations_list. Para obtener ms
informacin sobre la ubicacin (GPS, Autopista, Direccin) de cada estacin, por favor consulte la
pgina web PEMS. Hay 963 (estaciones) x 144 (marcas de tiempo) = 138,672 atributos para cada
registro.
M. Cuturi, Fast Global Alignment Kernels, Proceedings of the Intern. Conferencia sobre Aprendizaje
Automtico 2011.
Cita de pedidos:
Reconocimiento basado en pluma de
Manuscrito Dgitos del conjunto de datos
Resumen de bases de datos de dgitos de 250 muestras de 44 escritores:


Entero 16
01
Nmero de
Valores
perdidos?
Accesos:
Fuente:
E. Alpaydin, Fevzi. Alimoglu
Departamento de Ingeniera Informtica
de la Universidad Bogazici, 80815 Estambul Turqua alpaydin '@' boun.edu.tr

Creamos una base de datos dgitos mediante la recopilacin de 250 muestras de 44 escritores. Las
muestras escritos por 30 escritores se utilizan para entrenamiento, validacin cruzada y pruebas
dependientes escritor, y los dgitos escritos por los otros 14 se utilizan para el escritor de pruebas
independiente. Esta base de datos tambin est disponible en el formato UNIPEN. Utilizamos una
tableta sensible a la presin Wacom PL-100V con una pantalla LCD integrada y un lpiz
inalmbrico. Las reas de entrada y de visualizacin se encuentran en el mismo lugar. Conectado al
puerto serie de un PC basado en Intel 486, que nos permite recoger muestras de escritura. La
tableta enva $ x $ y $ y $ coordenadas de la tableta y los valores de nivel de presin de la pluma a
intervalos de tiempo fijos (frecuencia de muestreo) de 100 milisegundos.Se pidi a estos escritores a
escribir 250 dgitos en orden aleatorio dentro de las cajas de 500 por 500 pxeles de la tableta
resolucin. Sujeto se monitorizan slo durante las primeras pantallas de entrada. Cada pantalla
contiene cinco cajas con los dgitos que se van a escribir que aparece arriba. Los sujetos se les dice
a escribir slo dentro de estas cajas. Si se comete un error o no estn contentos con su escritura, se
les instruye para borrar el contenido de una caja con un botn en la pantalla. Los diez primeros
dgitos son ignorados porque la mayora de los escritores no estn familiarizados con este tipo de
dispositivos de entrada, pero los sujetos no son conscientes de ello. En nuestro estudio, slo
utilizamos ($ x, y $) coordinar la informacin. Se ignoran los valores de nivel de presin de la
aguja. Primero aplicamos la normalizacin para que nuestra representacin invariante a las
traducciones y las distorsiones de escala. Los datos en bruto que capturamos de la tableta consiste
en cualquier nmero entero entre 0 y 500 (resolucin cuadro de entrada de la tableta). Las nuevas
coordenadas son tales que la coordenada que tiene el rango mximo vara entre 0 y 100. Por lo
general, $ x $ se mantiene en este nivel, ya que la mayora de los personajes son ms altos que
anchos. Con el fin de entrenar y probar nuestros clasificadores, tenemos que representar dgitos
como los vectores de caractersticas de longitud constante. Una tcnica muy utilizada que conduce a
buenos resultados se remuestreo los puntos (x_t, y_t). Remuestreo temporal (regularmente puntos
espaciados en el tiempo) o remuestreo espacial (puntos regularmente espaciados en la longitud del
arco) se pueden utilizar aqu. Datos de punto sin procesar ya estn espaciados regularmente en el
tiempo, pero la distancia entre ellos es variable. Investigaciones anteriores mostraron que la
reclasificacin espacial, para obtener un nmero constante de puntos regularmente espaciados
sobre la trayectoria da un rendimiento mucho mejor, ya que proporciona una mejor alineacin entre
los puntos. Nuestro algoritmo de remuestreo utiliza interpolacin lineal simple entre pares de
puntos. Los dgitos resampled se representan como una secuencia de puntos T (x_t, y_t) _ {t = 1} ^
T, regularmente espaciados en la longitud del arco, en comparacin con la secuencia de entrada,
que est espaciado regularmente en el tiempo. As, el vector de entrada tamao es 2 * T, dos veces
el nmero de puntos resampled. Consideramos la reclasificacin espacial a T = 8,12,16 puntos en
nuestros experimentos y encontramos que T = 8 dio el mejor compromiso entre precisin y
complejidad.
Todos los atributos de entrada son enteros en el rango 0 .. 100.
El ltimo atributo es el cdigo de la clase 0 .. 9
F. Alimoglu (1996) Combinacin de varios clasificadores para Digit Manuscrito base-Pen
Reconocimiento, Tesis de maestra, Instituto de Estudios de Posgrado en Ciencias e Ingeniera de la
Universidad Bogazici. [Web Link]
[Web Link]
F. Alimoglu, E. Alpaydin, "Mtodos de Combinacin de varios clasificadores basados en diferentes

Representaciones de reconocimiento de escritura a base de pluma," Actas de la Quinta Inteligencia
Artificial turco y Redes Neuronales Artificiales Simposio (TAINN 96), junio de 1996, Estambul,
Turqua. [Web Link]
[Web Link]
Ken Tang y Ponnuthurai N. Suganthan y Xi Yao y A. Kai Qin. dimensionalityreduction lineal utilizando
LDA relevancia ponderada . Escuela de Ingeniera Elctrica y Electrnica de la Universidad
Tecnolgica de Nanyang. 2005. [ Ver Contexto ]. Mikhail Bilenko y sugato Basu y Raymond J.
Mooney. limitaciones de la integracin y el aprendizaje mtrica en la agrupacin semi-
supervisado . ICML. 2004. [ Ver Contexto ]. Fabian Hoti y Lasse Holmstrm. Un enfoque de
estimacin de densidad semiparamtrico de clasificacin de patrones . Reconocimiento de Patrones,
37. 2004. [ Ver Contexto ]. Thomas Serafini y G. Zanghirati y Del Zanna y T. Serafini y Gaetano
Zanghirati y Luca Zanni. Dipartimento DI MATEMATICA . Mtodos de Proyeccin de la pendiente
para. 2003. [ Ver Contexto ]. Manoranjan Dash y Liu Huan y Peter Scheuermann y Kian-Lee
Tan. agrupacin jerrquica Fast y su validacin . Conocimiento de Datos. Eng, 44. 2003. [ Ver
Contexto ]. Dennis DeCoste. Anytime Mquinas Kernel Query-Tuned mediante factorizacin de
Cholesky . SDM. 2003. [ Ver Contexto ]. Greg Hamerly y Charles Elkan. Aprender la k en k-
medias . PNI. 2003. [Ver Contexto ]. Marina Meila y Michael I. Jordan. Aprender con mezclas de
rboles . Journal of Machine Learning Research, 1. 2000. [ Ver Contexto ]. Ethem
Alpaydin.Combinado 5 x 2 cv Prueba F para comparar clasificacin supervisada algoritmos de
aprendizaje . Neural Computation, 11. 1999. [ Ver Contexto ]. Georg Thimm y Emile Fiesler. IDIAP
informe Tcnico de Alto Orden y Perceptrn multicapa inicializacin . IEEE Transactions. 1994. [ Ver
Contexto ]. Adil M. Bagirov y Julien Ugon. Un algoritmo para el clculo de la funcin lineal a trozos
que separa dos sets . CIAO, Escuela de Informtica y Ciencias Matemticas de la Universidad de
Ballarat. [ Ver Contexto ].Charles Campbell y Nello Cristianini. simple algoritmos de aprendizaje para
las Mquinas de Vectores Soporte Entrenamiento . Departamento de Ingeniera Matemtica. [Ver
Contexto ]. Perry Moerland. Mezclas de modelos de variables latentes para la estimacin de la
densidad y la clasificacin . ESEARCHREPRORTIDIAPD alle M olle yo nstitutefor Pe r cep t ua l Una
Inteligencia rtificial. [ Ver Contexto ]. Luca Zanni. Una mejorada Gradient tcnica de descomposicin
basada Proyeccin de Mquinas de Vectores Soporte . Dipartimento di Matematica, Universitdi
Modena e Reggio Emilia. [ Ver Contexto ]. Adil M. Bagirov y John Yearwood. Un nuevo algoritmo de
optimizacin no lisos para la agrupacin . Centro de Informtica y Optimizacin Aplicada de la
Facultad de Informtica y Ciencias Matemticas de la Universidad de Ballarat. [ Ver
Contexto ]. Ahmed Hussain Khan y Cuidados Intensivos. Multiplicador libres Feedforward
Redes . 174. [ Ver Contexto ]. Adil M. Bagirov y Alex Rubinov y AN Soukhojak y John
Yearwood. clasificacin de datos no supervisada y supervisada a travs de no lisos y optimizacin
global . Escuela de Tecnologa de la Informacin y Ciencias Matemticas de la Universidad de
Ballarat. [ Ver Contexto ]. Georg Thimm y Emile Fiesler. Alto Orden y Perceptrn multicapa
inicializacin . [ Ver Contexto ].
Cita de pedidos:
Propiedades fisicoqumicas de Protena
Estructura Terciaria Data Set
Resumen : Se trata de un conjunto de datos de las propiedades fisicoqumicas de la protena de
estructura terciaria. El conjunto de datos se toma del CASP 5-9. Hay 45730 seuelos y tamao
variables 0-21 Armstrong.


Real 9 Fecha Donado 03-31
Valores Nmero de
Fuente:
Prashant Singh Rana, psrana '@' gmail.com , ABV - Instituto Indio de Tecnologa de la Informacin y
Gestin, Gwalior, MP, India.

Proporcionar toda la informacin pertinente acerca de su conjunto de datos.
RMSD-Tamao del residuo.
F1 -. Superficie total
F2 - no polar rea expuesta.
F3 -. rea fraccionada del residuo no polar expuesto
F4 - rea fraccional de una parte polar no expuesta de residuos.
F5 - Masa molecular rea expuesta ponderado.
F6 - Desviacin media del rea estndar expuesta de residuos.
F7 -. distancia euclidiana
F8 -. pena de estructura secundaria
F9 - limitaciones distribucin espacial (N, K Value).
N/A
Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin.
Indios Pima Diabetes Data Set
Resumen : Desde el Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales; Incluye
datos sobre los costos (donado por Peter Turney)


Entero, real 8 Fecha Donado 05-09
Valores Nmero de
Fuente:
Propietarios Original: Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales de los
donantes de base de datos: Vincent Sigillito ( vgs "@" aplcen.apl.jhu.edu) Centro de Investigacin,
RMI Jefe de Grupo Laboratorio de Fsica Aplicada Johns Hopkins University Johns Hopkins
Ruta Laurel, MD 20707 (301) desde novecientos cincuenta y tres hasta seis mil doscientos treinta y
una

Varias limitaciones se colocaron en la seleccin de estos casos de una base de datos mayor. En
particular, todos los pacientes de aqu son las hembras por lo menos 21 aos de edad del patrimonio
indio Pima. ADAP es una rutina de aprendizaje adaptativo que genera y ejecuta anlogos digitales
de los dispositivos de tipo perceptrn. Se trata de un algoritmo nico, vase el documento para
obtener ms informacin.
1. Nmero de veces embarazadas
2. Concentracin de glucosa en plasma a 2 horas en una prueba de tolerancia oral a la glucosa
3. La presin arterial diastlica (mm Hg)
4. Grosor del pliegue cutneo del trceps (mm)
5. Insulina en suero 2 horas (mu U / ml)
6. ndice de masa corporal (peso en kg / (altura en metros) ^ 2)
7. Funcin pedigr Diabetes
8. Edad (aos)
9. Variable de clase (0 1) ** ACTUALIZACIN: 02/28/2011 Hasta esta pgina web indic que no
hubo valores perdidos en el conjunto de datos. Como se ha sealado por un usuario repositorio, esto
no puede ser cierto: hay ceros en lugares donde son biolgicamente imposible, como el atributo de la
presin arterial. Parece muy probable que los valores cero codifican los datos que faltan. Sin
embargo, ya que los donantes de conjuntos de datos efectuado tal declaracin le animamos a que
utilice su mejor juicio y declarar sus suposiciones.
Smith, JW, Everhart, JE, Dickson, WC, Knowler, WC, y Johannes, RS (1988). Usando el algoritmo de
aprendizaje ADAP para predecir el inicio de la diabetes mellitus. En Actas del Simposio sobre
aplicaciones informticas y la asistencia mdica} (pp. 261-265). IEEE Computer Society Press. [Web
Link]
. Jeroen Eggermont y Joost N. Kok y Walter A. Kosters Programacin Gentica para la clasificacin
de los datos: la particin del espacio de bsqueda . SAC. 2004. [ Ver Contexto ]. Eibe Frank y Mark
Hall. estimadores de probabilidad Visualizacin de clase . PKDD. 2003. [ Ver Contexto ]. Michael L.
Raymer y Travis E. Doom y Leslie A. Kuhn y William F. Punch. Descubrimiento de conocimiento en
bases de datos mdicas y biolgicas utilizando un clasificador de Bayes / algoritmo evolutivo
hbrido .Transacciones de IEEE en Sistemas, Hombre y Ciberntica, parte B, de 33 aos. 2003. [ Ver
Contexto ]. Peter Sykacek y Stephen J. Roberts. Clasificacin de adaptacin por Variational Kalman
filtrado . PNI. 2002. [ Ver Contexto ]. Marina Skurichina y Ludmila Kuncheva y Robert PW
Duin. Embolsado y impulso para el clasificador ms cercano Mean: Efectos del tamao de la muestra
sobre la diversidad y precisin . Sistemas Clasificadores mltiples. 2002. [ Ver Contexto ]. Ilya
Blayvas y Ron Kimmel.multirresolucin Aproximacin para la Clasificacin . CS Dept.
Technion. 2002. [ Ver Contexto ]. Tao Jiang y Art B. Owen. Quasi-regresin para la visualizacin e
interpretacin de las funciones de la caja negra . Departamento de Estadstica de la Universidad de
Stanford. 2002. [ Ver Contexto ]. Jochen Garcke y Michael Griebel y Michael Tes. Minera de datos
con Sparse Grids . Informtica, 67. 2001. [ Ver Contexto ]. Robert Burbidge y Matthew Trotter y
Bernard F. Buxton y Sean B. Holden. STAR - Sparsity travs Rechazo automatizado . IWANN
(1). 2001. [ Ver Contexto ]. Simon Tong y Daphne Koller. Restricted Bayes clasificadores
ptimo . AAAI / IAAI. 2000. [Ver Contexto ]. Stavros J. Perantonis y Vassilis Virvilis. Caracterstica de
entrada Extractor de mltiples capas Perceptrones Usando Anlisis de Componentes Principales
supervisada . Neural Processing Letters, 10. 1999. [ Ver Contexto ]. Huan Liu y Rudy
Setiono. Caracterstica Transformacin y Decisin multivariado rbol de induccin .Discovery
Science. 1998. [ Ver Contexto ]. Thomas G. Dietterich. Prueba estadstica aproximada para la
comparacin de clasificacin supervisada algoritmos de aprendizaje . Neural Computation,
10. 1998. [ Ver Contexto ]. Kristin P. Bennett y Erin J. Bredensteiner. Un mtodo paramtrico
Optimizacin de Aprendizaje Automtico .INFORMA Journal on Computing, 9. 1997. [ Ver
Contexto ]. Jennifer A. Azul y Kristin P. Bennett. Hybrid Extreme Point Bsqueda
Tab . Departamento de Ciencias Matemticas del Instituto Politcnico Rensselaer. 1996. [ Ver
Contexto ]. Peter D. Turney. sensibles a los costes de clasificacin: evaluacin emprica de una
Decisin gentico hbrido Tree Induccin algoritmo . CoRR, csAI/9503102. 1995. [ Ver
Contexto ]. Ilya Blayvas y Ron Kimmel. PAPEL INVITADO Nmero especial sobre el anlisis
multirresolucin Machine Learning a travs de multirresolucin aproximacin . [ Ver Contexto ]. Lois
C. Boggess Andrew Watkins y Jon Timmis y. Sistema Inmune Artificial Reconocimiento (AIRS): Un
ImmuneInspired supervisadas algoritmo de aprendizaje . (Abw5, jt6@kent.ac.uk) Laboratorio de
Computacin de la Universidad de Kent. [ Ver Contexto ]. Ilya Blayvas y Ron Kimmel. Clasificacin
eficiente a travs de multirresolucin Training Set aproximacin . CS Dept. Technion. [ Ver
Contexto ]. Matthias Scherf y W. Brauer. Seleccin de caractersticas por medio de un enfoque de
funciones de ponderacin . GSF - Centro Nacional de Investigacin del Medio Ambiente y de la
Salud. [ Ver Contexto ]. Rudy Setiono y Huan Liu. Selector de funciones neuronales de la
red . Departamento de Sistemas Informticos y la Universidad Nacional de Ciencias de la
Computacin de Singapur. [ Ver Contexto ]. Christopher P. Diehl y Gert Cauwenberghs. SVM
Incremental aprendizaje, adaptacin y optimizacin .Laboratorio de Fsica Aplicada de la Universidad
Johns Hopkins. [ Ver Contexto ]. Wl odzisl / aw Duch y Rudy Setiono y Jacek M. Zurada. mtodos de
inteligencia computacional para la comprensin de datos basado en normas . [ Ver
Contexto ]. Michalis K. Titsias y Aristidis Likas. Modelos Kernel Shared para la Clase estimacin de
densidades condicionales . [ Ver Contexto ]. Lawrence O. Hall y Nitesh V. Chawla y Kevin W.
Bowyer. Combinando rboles de decisin aprendidas en paralelo .Departamento de Ciencias de la
Computacin e Ingeniera, ENB 118 University of South Florida. [ Ver Contexto ]. Charles Campbell y
Nello Cristianini. simple algoritmos de aprendizaje para las Mquinas de Vectores Soporte
Entrenamiento . Departamento de Ingeniera Matemtica. [ Ver Contexto ]. Liping Wei y Russ B.
Altman. y un sistema automatizado para la generacin de perfiles de Enfermedades comparativo
hacer diagnsticos . Seccin de Informtica Universidad de Stanford Escuela de Medicina de
Medicina, MSOB X215. [ Ver Contexto ]. Chotirat Ann y Dimitrios Gunopulos. Ampliacin de la
Ingenuo clasificador bayesiano: Utilizacin de rboles de decisin para la seleccin de
caractersticas . Departamento de Ciencias de la Computacin de la Universidad de California. [ Ver
Contexto ]. Federico Divina y Elena Marchiori. Basada en el Conocimiento Evolutiva Buscar inductivo
Concepto de Aprendizaje . Vrije Universiteit de msterdam. [ Ver Contexto ]. Michael Lindenbaum y
Sal Markovitch y Dmitry Rusakov. Muestreo Selectivo Usando Random Campo Modelado . [ Ver
Contexto ]. Federico Divina y Elena Marchiori. Manejo de atributos continuos en un Evolutiva
inductivo de Aprendices . Departamento de Ciencias de la Computacin Vrije Universiteit. [ Ver
Contexto ].
Cita de pedidos:
Pioneer-1 Mobile Robot de datos Conjunto de

datos
Resumen : Este conjunto de datos contiene series temporales lecturas de los sensores del robot
mvil Pioneer-1. Los datos se divide en "experiencias" en el que el robot toma accin para un cierto
perodo de tiempo y las experiencias de un control

Time-Series
No rea: Ordenador
Caractersticas del Categrico, el Nmero de Fecha 1999-01-

Real
No 28
Nmero de
Valores
Tareas asociadas: No No Web 12710
perdidos?
Accesos:
Fuente:
Matthew D. Schmill, Paul R. Cohen
Experimental Knowledge Systems Laboratory
del Departamento de Ciencias de la Computacin
Caja 34610
Universidad de Massachusetts, Amherst
Amherst, MA 01003-4610 Schmill '@' cs.umass.edu , cohen '@' cs.umass.edu

Los datos fueron recolectados a travs de una serie de pruebas diseadas especficamente. Nuestra
esperanza era cubrir la mayor parte de los tipos de interacciones sensoriales que un Pioneer que
puede esperarse razonablemente que encuentre: cosas como pasar por los objetos visibles,
empujando objetos visibles, chocando contra las paredes, etc Muchas de estas interacciones se
repiten a lo largo del conjunto de datos. Este se obtuvieron datos que sirva de base para el trabajo
en el aprendizaje y el desarrollo conceptual. Nuestro primer objetivo era ser capaz de tener el cluster
robot estas experiencias por su dinmica por su cuenta en grupos de experiencias con un resultado
comn. Cada archivo de datos contiene datos de series de tiempo en el que cada fila de datos se
corresponde con una nica observacin de que el sensor array.Se incluyen en cada fila son dos
variables adicionales, 'id' y 'Descripcin', que indican el nmero de la experiencia que la observacin
pertenece a, y una descripcin de esa experiencia, respectivamente. Observaciones en una
experiencia se toman cada 100ms. Los datos se almacenan en tres archivos de texto: un archivo
para experiencias en las que el Pioneer se mova en lnea recta, en la que se estaba convirtiendo en
el lugar, y una en la que estaba criando o la reduccin de los puntos de sujecin. La variable
descripcin es una cadena de smbolos. La cadena se desglosa de la siguiente manera: "u" o "O" -
sin obstculos u obstruidas "x.xs" - actividad dur xx segundosactividad - la actividad y velocidad, en
su caso, es decir move100 = mover hacia adelante a 100mm/sec visual - objetos en la matriz visual
se enumeran en secuencia."CAHEAD" indica un objeto visible para el canal C directamente delante
de la Pioneer. [visual.X] - descripciones visuales seguidas de un '.' y uno de los personajes indican
que algo especial sucede con el objeto visible. . V significa que el objeto desaparece de la vista
durante la actividad. . D indica que el objeto es descubierto (se hace visible) durante la actividad. . P
indica que el objeto se inserta. Un ejemplo: "u-3.5s-retr-100-aRIGHT.D" Un retiro sin obstrucciones
(mover) a -100 mm / seg durante 3,5 segundos con un objeto que se descubri en el canal A. Cabe
sealar que, en particular con respecto a los canales visuales, la descripcin puede no ser 100%
exacto. Dado que los canales visuales responden a los colores que se han formado en (a visual =
rojo, b visual = amarillo, Visual C = azul), fue posible, pero poco frecuentes, por algn objeto extrao
en el ambiente genera una respuesta en los canales visuales que No se supona que mostrar la
actividad en un ensayo particular. filas estn separadas por retornos de carro, columnas con comas.
TRIAL-ID: categrico, el id de prueba de la experiencia que la observacin pertenece al
DESCRIPCIN: una descripcin simblica de la experiencia de diseo
TIEMPO-SEG: una lectura del reloj interno de la Pioneer, en segundos
BATERA NIVEL: una lectura del nivel de la batera, en voltios
SONAR-0: lectura de profundidad sonar, en mm, de la izquierda (90) sealando sonar
SONAR-1: lectura de profundidad sonar, en mm, de una sonda (15) sealando
SONAR-2: lectura de profundidad sonar, en mm, de un sonar (7.5) apuntando
SONAR-3: Lectura de la profundidad de sonar, en mm, de un delantero (0) apuntando sonar
SONAR-4: Lectura de la profundidad de sonar, en mm, de un (-7,5) apuntando sonar
SONAR-5: sonar lectura de profundidad, en mm, de una (-15) apuntando sonar
SONAR-6: Lectura de la profundidad de sonar, en mm, de un derecho (-90) apuntando sonar
DENOMINACIN: Rbrica lectura, en grados, a partir de "norte verdadero" del robot
R RUEDAS-VEL: velocidad de la rueda derecha, en mm / seg
L-WHEEL-VEL: velocidad de la rueda izquierda, en mm / seg
TRANS-VEL: velocidad de traslacin, mm / seg
ROT-VEL: velocidad de rotacin, mm / seg
R-BLOQUEO : sensor de atascamiento de la rueda derecha, binaria (0/1)
L-PARADA: sensor de la rueda izquierda la parada, binaria (0/1)
ROBOT-STATUS: Estado robot, 2.0 = parado, 3,0 = mover
GRIP-ESTADO: pinza estado
GRIP-FRONT -BEAM: haz pausa pinza, binario, 1.0 = roto
GRIP-REAR-BEAM: haz pausa pinza, binario, 1.0 = roto
GRIP-BUMPER: pinza parachoques, binario, 1.0 = en contacto
VIS-A-AREA: rea del visible dominante objeto para el canal A, en pxeles
VIS-AX: X ubicacin del objeto en el canal A en plano de la imagen, -140 ... 140
VIS-AY: Y la ubicacin del canal A en el plano de la imagen
VIS-AH: altura del objeto en el canal A en el plano, en pxeles
VIS-AW: anchura del objeto en A el plano de la imagen, en pxeles
VIS-A-DIST: distancia al objeto en el canal A, en mm
VIS-B-AREA: rea del objeto visible dominante para el canal B, en pxeles
VIS-BX: X ubicacin del objeto en el canal B en el plano de la imagen, -140 ... 140
VIS-BY: Y la ubicacin del canal B en el plano de la imagen
VIS-BH: altura del objeto en el canal B en el plano, en pxeles
VIS-BW: anchura del objeto en B el plano de la imagen, en pxeles
VIS-B-DIST: distancia al objeto en el canal B, en mm
VIS-C-AREA: rea del objeto visible dominante para el canal C, en pxeles
VIS-CX : X ubicacin del objeto en el canal C en plano de la imagen, -140 ... 140
VIS-CY: Y la ubicacin del canal C en la imagen del avin
VIS-CH: altura del objeto en C el plano de la imagen, en pxeles
VIS-CW: Ancho del objeto en C en plano de la imagen, en pxeles
VIS-C-DIST: distancia al objeto en el canal C, en mm Para las variables visuales, cuando no hay
ningn objeto visible, width = 0, height = 0, area = 0, la distancia = 10000.0, Y = 0, X = 140,0. Los
sonares reportan 5,201.0 como su distancia mxima.
Oates, Tim; Schmill, Matthew D. y Cohen, Paul R. Identificar experiencias cualitativamente
diferentes:. Experimentos con un Robot Mvil [Web Link] Schmill, Matthew D.; Oates, Tim, y Cohen,
Paul R. Learned Modelos para Continuo Planificacin. VII Taller Internacional sobre Inteligencia
Artificial y Estadstica. [Web Link]
Cita de pedidos:
El trabajo representado aqu fue financiado por DARPA contrae F49620-97-1-0485 y N66001-96-C-
8504. Para uso exclusivo en investigacin.
Pittsburgh Puentes Data Set

Resumen : Base de datos Puentes que tiene conjuntos de datos
originales y numricos discretos

Multivariante 108 rea: No

Integer
13 Fecha Donado 08-01
Valores Nmero de
Fuente:
Creadores: Yoram Reich y Steven J. Fenves Departamento de Ingeniera Civil y de Ingeniera de
Diseo del Centro de Investigacin de la Universidad Carnegie Mellon de Pittsburgh, PA
15213 Recopilado de diversas fuentes. Donante: Yoram Reich ( yoram.reich '@' cs.cmu.edu )

Hay dos versiones de la base de datos:
- V1 contiene los ejemplos originales y
- V2 contiene descripciones despus de discretizar propiedades numricas. No hay clases ``'' en el
dominio. Ms bien se trata de un dominio de diseo en el que 5 propiedades (descripcin del diseo)
deben ser predicho basado en 7 propiedades de especificacin.
El estado de campo de tipo si una propiedad es continua / entero (c) o nominal (n). Para las
propiedades con c, n tipo, el rango de nmeros continuos se da primero y los posibles valores de la
nominal seguir el punto y coma. Nombre / Tipo / Posibles valores / Comentarios 1. IDENTIF / - / - /
identificador de los ejemplos 2. RO / n / A, M, O / - 3. UBICACIN / n / 1 a 52 / - 4. ERIGIDO / c, n /
1818-1986; ARTESANA, EMERGENTES, MADURO, MODERNO / - 5. FIN / n / WALK,
ACUEDUCTO, RR, CARRETERA / - 6. LONGITUD / c, n / 804-4558; CORTO, MEDIO, LARGO / -
7. CARRILES / C, N / 1, 2, 4, 6; 1, 2, 4, 6 / - 8. CLEAR-G / N / N, G / - 9. T-OR-D / n / TRAVS DE
LA CUBIERTA / - 10. MATERIAL / n / MADERA, hierro, acero / - 11. SPAN / n / CORTO, MEDUIM,
LONG / - 12. REL-L / N / S, SF, F / - 13. TIPO / n / MADERA, suspensiones, SIMPLE-T, ARCH,
CANTILEV, CONT-T / -
Reich & Fenves (1989). Aprendizaje incremental para capturar Diseo Expertise. Informe tcnico:
EDRC 12-34-89, Diseo de Ingeniera Centro de Investigacin de la Universidad Carnegie Mellon,
Pittsburgh, PA. Reich (1989). La convergencia de `` Ideal'' Diseo Conocimiento por aprendizaje,
Actas del Primer Taller Internacional de Mtodos Formales en Ingeniera de Diseo, pp:. 330-349,
Colorado Springs, CO, 01 1990 [Web Link] Reich (1989) Combinando nominal y Propiedades
continuas en un sistema de aprendizaje incremental para el diseo. Informe tcnico:. EDRC 12-33-
89 Reich (1989) Incremental Concepto Formacin con tipos de propiedad mixta.Manuscrito indito.
Ljupco Todorovski y Saso Dzeroski. Los experimentos en aprendizaje a nivel de Meta con
ILP . PKDD. 1999. [ Ver Contexto ]. Paul D. Wilson y Tony R. Martnez.Combinar la validacin
cruzada y confianza para medir la aptitud . corporacin fonix la Universidad Brigham Young. [ Ver
Contexto ].
Cita de pedidos:
Planificacin Relax Set de Datos

Resumen : Las preocupaciones del conjunto de datos con la clasificacin de las dos etapas
mentales a partir de seales de EEG registrados: Planificacin (en la imaginacin del acto motor) y
Relax estado.


Real 13 17
Nmero de
Tareas asociadas: Clasificacin Valores perdidos? No Web 13372
Accesos:
Fuente:
Rajen Bhatt, rajen.bhatt '@' gmail.com , IIT Delhi

Registro EEG contiene muchas oscilaciones regulares, que se cree que reflejan la actividad rtmica
sincronizada en un grupo de neuronas. La mayora de los patrones de EEG de actividad relacionada
ocurren dentro de las siguientes bandas de frecuencia. Delta (0.5 "4 Hz.), Theta (4 " 8 Hz),
Alpha (8 "13 Hz), Beta (13 " 22 Hz) y Gamma (30 "40 Hz ). Las olas con la frecuencia de 7
"13 Hz en las reas de procesamiento de motor se llaman mu ritmo y refleja la actividad del
ralent en reas motoras. Es ms pronunciado cuando los sujetos estn en reposo y por lo menos un
segundo antes de sujetos inician los movimientos voluntarios, la actividad mu sobre el hemisferio
contralateral a la regin se traslad muestra una disminucin de la amplitud y se llama Evento
desincronizacin relacionada (ERD).
Para el actual estudio, los datos de EEG se recogi por 5 veces en varios das de un sujeto sano
diestro de 25 aos de edad. Los datos se registraron en un Medelec Perfil electroencefalgrafo
digital. Los ajustes de alta frecuencia del filtro 50 Hz, filtro de baja frecuencia de 1,6 Hz, filtro de
muesca 50 Hz, sensibilidad 70 micro voltios / mm, y una velocidad de muestreo de 256 Hz se
utilizaron para el procesamiento bsico de la seal.
Ocho electrodos de EEG (C3, C4, P3, P4, F3, F4, T3, y T4) se colocaron de acuerdo con el sistema
internacional estndar 10-20 de colocacin de los electrodos. Bipolar y unipolar EEG se registr a
partir de ocho electrodos del cuero cabelludo de Ag / AgCI, que se colocaron 2,5 cm anterior y
posterior a los electrodos central y C3 C4 (lado derecho del hemisferio izquierdo y). A1 y A2 son
electrodos de referencia. Los electrodos de referencia se colocan en los odos izquierdo y derecho y
el electrodo de tierra en la frente. EOG (electrooculograma) ser un artefacto de ruido, se deriva a
partir de dos electrodos, colocados en el exterior de firmus ojo izquierdo y derecho con el fin de
detectar el movimiento del ojo. Estas seales EOG se utilizan para eliminar los artefactos de
movimiento de los ojos.
Se pidi al sujeto a tumbarse cmodamente en una posicin relajada con los ojos cerrados y
aconseja reducir al mnimo los movimientos oculares. El EEG se registr en el estado relajado
durante 5 minutos. Despus de esto, un pitido de audio de 60 dB y 0,91 seg. duracin se le dio en el
comienzo y el final de una segunda poca 5 en el que se pide al sujeto que planear mentalmente
levantamiento del pulgar de la mano derecha. Esta actividad se recoge como un 5 Datos segunda
poca correspondientes a ~ estado de movimiento imagery . Tras un lapso de 5 minutos, la
misma seal se da a repetir el experimento. Todo el experimento dura aproximadamente 30 minutos,
recogida de datos para 5 ensayos de 5 segundos cada poca para el estado normal relajada y 5
ensayos de 5 segundos cada poca para el movimiento de las imgenes. No hay movimiento real se
realiza durante la sesin. Todos los conjuntos de datos se comprobaron visualmente en busca de
artefactos antes de la seleccin final.
Transformada wavelet se ha aplicado para la extraccin de caractersticas para la clasificacin
EEG. Sin embargo, wavelet transforma trabajo algoritmo piramidal slo en los coeficientes de
aproximacin. Por lo tanto, no puede identificar la banda de frecuencia 7-13 Hz. Hemos ampliado la
metodologa mediante la aplicacin de anlisis de paquetes de ondas, que tambin se descomponen
coeficientes de detalle. Anlisis de paquetes de Wavelet se ha usado para la descomposicin de la
seal con ancho de banda igual frecuencia en cada nivel de descomposicin, lo que conduce a un
nmero igual de los coeficientes de aproximacin y detalle. Mediante la aplicacin de anlisis de
paquetes de ondas de la seal original, hemos obtenido doce coeficientes de onda en la banda de
frecuencia Hz 7-13 en el nodo de nivel 6 (6,2). La seal se reconstruye en el nodo (6,2) y su trama
de FFT dio la banda de frecuencia 7-13 Hz como la ms exigente, en conjuncin con los Daubechies
wavelet # 6 (DB6).
1. Rajen B. y M. Gopal Bhatt, 2008, FRCT: Clasificacin Fuzzy-Rough Treesa , Pattern
Analysis and Applications, 11 (1), pp 73-88??.
2. Shweta Sahu y Rajen B. Bhatt, una clasificacin Automatic de Seales Electroencefalografa
utilizando Wavelet anlisis de paquetes y la Decisin Fuzzy Treesa ?, En Proc. de 28 Conferencia
Nacional de Sistemas (NSC-2004), Dic. 16-18, Vellore, India.
3. Rajen Bhatt, "Enfoque Fuzzy-Rough de Clasificacin de patrones: Algoritmos hbridos y
Optimizacin ', Ph.D. Tesis, IIT Delhi, 2006.
Cita de pedidos:
Rajen Bhatt, "Planificacin-Relax conjunto de datos para la clasificacin automtica de seales de
EEG ', UCI Machine Learning Repositorio
Plantas Data Set

Resumen : Los datos se han extrado de la base de datos de
plantas del USDA. Contiene todas las plantas (especies y
gneros) en la base de datos y de los estados de EE.UU. y
Canad, donde se producen.


Categrico 70
Valores Nmero de
Tareas asociadas: Clustering S 57651
Fuente:
Fuente original:
USDA base de datos de las plantas: http://plants.usda.gov/index.html
. Extrado y codificada por W. Hmlinen, Departamento de Ciencias de la Computacin de la

Universidad de Helsinki, Finlandia whamalai '@' cs.helsinki.fi
Los datos estn en la forma transaccional. Contiene los nombres latinos (especie o gnero) y
abreviaturas del estado.
Cada fila contiene un nombre latino (especie o gnero) y una lista de abreviaturas de estado.
Hmlinen, W. y Nyknen, M.: descubrimiento eficiente de reglas de asociacin estadsticamente

significativas. Actas de la 8 Conferencia Internacional IEEE sobre Minera de Datos (ICDM 2008),
pp 203-212. IEEE Computer Society 2008.
Cita de pedidos:
Incluso si se procesan los datos, es bueno dar una referencia a la fuente original:
USDA, NRCS. 2008. La base de datos PLANTAS ( [Web Link] , 31 de diciembre de 2008). Nacional
Plant Data Center, Baton Rouge, LA 70874-4490 EE.UU..
Poker Hand Set Data

Resumen : El propsito es predecir las manos de pquer

Multivariante 1025010 rea: Juego

11
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Creadores: Robert CATTRAL ( Cattral '@' gmail.com ) Franz Oppacher
( Oppacher '@' scs.carleton.ca ) Carleton University, Departamento de Ciencias de la
ComputacinUnidad de Investigacin en Sistemas Inteligentes 1125 Colonel By Drive, Ottawa,
Ontario, Canad, K1S5B6

Cada registro es un ejemplo de una mano con cinco cartas procedentes de una baraja de 52. Cada
carta se describe el uso de dos atributos (traje y de la fila), para un total de 10 atributos de
prediccin. Hay un atributo de clase que describe el "Poker Hand". El orden de las cartas es
importante, por lo que hay 480 posibles manos Royal Flush, en comparacin con 4 (uno para cada
palo - se explica en [Web Link] ).
1) S1 "Juego de la tarjeta # 1"
ordinal (1-4), que representa {corazones, picas, diamantes, clubs} 2) C1 "Posicin de la tarjeta #
1" numrica (1-13) que representa (As, 2, 3, ..., reina, rey) 3) S2 "Juego de la tarjeta # 2" ordinal (1-
4), que representa {corazones, picas, diamantes, clubs} 4) C2 "Posicin de la tarjeta # 2" numrica
(1-13) que representa (As, 2, 3, ..., reina, rey) 5) S3 "Juego de la tarjeta # 3" ordinal (1-4) representan
{corazones, espadas, diamantes, clubs} 6) C3 "Posicin de la tarjeta # 3 " numrica (1-13) que
representa (As, 2, 3, ..., reina, rey) 7) S4 "Juego de la tarjeta # 4" ordinal (1-4), que representa
{corazones, picas, diamantes, clubs} 8) C4 "Posicin de la tarjeta # 4" numrica (1-13) que
representa (As, 2, 3, ..., reina, rey) 9) S5 "Juego de la tarjeta # 5" ordinal (1-4), que representa {
corazones, picas, diamantes, clubs} 10) C5 "Rango de tarjetas 5" numrica (1-13) que representa
(As, 2, 3, ..., reina, rey) 11) Clase de "Poker Hand" Ordinal (0 - 9) 0: No hay nada en la mano, no una
mano de pquer reconocido 1: Un par; un par de filas iguales dentro de cinco cartas 2: Dos pares,
dos pares de filas iguales dentro de cinco tarjetas 3: Tres de una clase, tres filas iguales dentro cinco
tarjetas 4: Recta; cinco cartas, secuencialmente clasificados sin brechas 5: Flush, cinco cartas del
mismo palo 6: Construccin completa, par + diferente rango tres de una clase 7: Cuatro de una
clase, cuatro filas iguales dentro de cinco cartas 8: Escalera de color; recta + ras 9: Escalera real;
{As, Rey, Reina, Jota, Diez} + flush
R. Cattral, F. Oppacher, D. Deugo. Evolutiva de minera de datos con Automatic Regla
Generalizacin. . Avances recientes en Informtica, Informtica y Comunicaciones, pp.296-300,
WSEAS Press, 2002
Nota: Este fue un conjunto de datos ligeramente diferente que tena ms clases, y era mucho ms
difcil.
Cita de pedidos:
Post-operatorio del paciente Conjunto de

Datos
Resumen : Conjunto de datos de las caractersticas del paciente


Integer
8 Fecha Donado 06-01
Valores Nmero de
Fuente:
Creadores: Sharon Summers, la Escuela de Enfermera de la Universidad de Kansas Medical
Center, Kansas City, KS 66160 Linda Woolery, Escuela de Enfermera de la Universidad de
Missouri, Columbia, MO 65211 Donante: Jerzy W. Grzymala-Busse ( jerzy '@' cs. ukans.edu ) (913)
864-4488

La tarea de clasificacin de esta base de datos es determinar que los pacientes en un rea de
recuperacin postoperatoria deben ser enviados a la siguiente. Debido a que la hipotermia es una
preocupacin significativa despus de la ciruga (.. Woolery, L. et al 1991), los atributos
corresponden aproximadamente a las mediciones de la temperatura corporal. Resultados: - LERS
(LEM2): 48% de precisin
1. L-CORE (temperatura del paciente interno en C):
alta (> 37), media (> = 36 y <= 37), baja (<36)
2. L-SURF (temperatura de la superficie del paciente en C):
alta (> 36,5), medio (> = 36,5 y <= 35), baja (<35)
3. L-O2 (saturacin de oxgeno en%):
excelente (> = 98), buena (> = 90 y <98),
justo (> = 80 y <90), mala (<80)
4. L-BP (ltima medicin de la presin arterial):
alta (> 130/90), medio (<= 130/90 y> = 90/70), baja (<90/70)
5. SURF-STBL (estabilidad de la temperatura de la superficie del paciente):
estable-mod estable, inestable
6. CORE-STBL (estabilidad de la temperatura central del paciente)
7. BP-STBL (estabilidad de la presin arterial del paciente)
8. COMFORT (confort del paciente percibida al momento del alta, medida como
un entero entre 0 y 20)
9. decisin ADM-DECS (decisin del alta):
I (paciente enviado a la Unidad de Cuidados Intensivos),
S (paciente preparado para volver a casa),
A (paciente enviado a planta de hospitalizacin general)
A. Budihardjo, J. Grzymala-Busse, L. Woolery (1991). Programa LERS_LB 2.5 como una
herramienta para la adquisicin del conocimiento en enfermera, Actas de la cuarta
internacional. Conferencia sobre Ingeniera Industrial y Aplicaciones de la IA y sistemas expertos, pp
735-740. [Web Link] L. Woolery, J. Grzymala-Busse, S. Summers, A. Budihardjo (1991). El uso del
programa de aprendizaje automtico LERS_LB 2,5 en la adquisicin de conocimientos para el
desarrollo de sistemas expertos en enfermera. Informtica en Enfermera 9, pp 227-234.
Petri Kontkanen y Jussi Lahtinen y Petri Myllymki y Henry Tirri. visualizacin bayesiano no
supervisado de los datos de alta dimensin . KDD. 2000. [ Ver Contexto ]. Art B. Owen. vecinos
tubulares para la regresin y clasificacin . La Universidad de Stanford. 1999. [ Ver Contexto ]. Glenn
Fung y Sathyakama Sandilya y R. Bharat Rao.regla de extraccin a partir de Mquinas de Vectores
Soporte lineales . Computer-Aided Diagnosis & Therapy, Siemens Medical Solutions, Inc. [ Ver
Contexto ].
Cita de pedidos:
Predecir las actividades de las palabras clave
en una lnea de comunicacin social
Conjunto de Datos
Resumen : Los datos de Twitter se recogieron durante 360 das consecutivos. Lo hizo mediante la
consulta de 1497 palabras clave en ingls de la muestra de Wikipedia.Se propone este conjunto de
datos en un aprendizaje para clasificar ajuste.
Multivariante,
Secuencial, 51 rea: Ordenador

Entero, Real 35 12/12/2013
Nmero de
Valores
Tareas asociadas: No No Web 4968
perdidos?
Accesos:
Fuente:
Franois Kawala (1,2) Ahlame Douzal (1) Eric Gaussier (1) Eustache Diemert (2)
Instituciones:
(1) Universidad Joseph Fourier (Grenoble I) - Laboratoire d'Informatique de Grenoble (LIG) - Equipe
AMA
(2) TechMediaNetwork - www.techmedianetwork.com Correspondencia: Franois
Kawala: francois.kawala '@' imag.fr / fkawala '@' techmedianetwork.com

Ver archivos y / o [Web Link]
Ver archivos y / o [Web Link]
Apprentissage d'ordonnancement et influencia de l'ambigut pour la prdiction d'activit sur les
rseaux sociaux (F. Kawala, A. Douzal-Chouakria, E. Gaussier, E. Dimert), en Actes de la
Confrence en Recherche d'infomations et Aplicaciones (CORIA), pp 22, 2014.
Cita de pedidos:
Apprentissage d'ordonnancement et influencia de l'ambigut pour la prdiction d'activit sur les
rseaux sociaux (F. Kawala, A. Douzal-Chouakria, E. Gaussier, E. Dimert), en Actes de la
Confrence en Recherche d'infomations et Aplicaciones (CORIA), pp 22, 2014.
Tumor primario Data Set
Resumen : Desde Ljubljana Instituto de Oncologa


Categrico 17 Fecha Donado 11-01
Valores Nmero de
Fuente:
Donantes: 1. Igor Kononenko, Universidad E.Kardelj Facultad de ingeniera elctrica Trzaska

25 61000 Ljubljana (tel.: (38) (61) 265-161 . 2 Bojan Cestnik Instituto Jozef Stefan Jamova 39 61000
Ljubljana Yugoslavia (tel.: (38) (+ 61) 214-399 ext.287)
Este es uno de los tres dominios previstos por la Oncologa Institutenthat ha aparecido
repetidamente en la literatura de aprendizaje de mquina. (Vase tambin el cncer de mama y
linfografa.)
--- NOTA: Todos los valores de los atributos en la base de datos han sido introducidos como valores
numricos que corresponden a su ndice en la lista de valores de atributos para ese dominio atributo
como se indica a continuacin.
1. clase: de pulmn, cabeza y cuello, esophasus, tiroides, estmago, duoden y sm.int, colon, recto,
ano, las glndulas salivales, pncreas, vescula biliar, hgado, rin, vejiga, testculos, prstata,
ovario, cuerpo de tero, cuello del tero , la vagina, mama
2. edad: <30, 30-59,> = 60
3. sexo: masculino, femenino
4. tipo histolgico: epidermoide, adenocarcinoma, anaplsico
5. grados de dife: bien, bastante, poco
6. hueso: s, no
7. de mdula sea: s, no
8. pulmn: s, no
9. pleura: s, no
10. peritoneo: s, no
11. hgado: s, no
12. cerebro: s, no
13. la piel: si, no
14. cuello: s, no
15. supraclavicular: s, no
16. axilar: s, no
17. mediastino: s, no
18. abdominal: s, no
Cestnik, G., Konenenko, I, y Bratko, I. (1987). Asistente-86: Un Conocimiento Elicitation herramienta

para usuarios avanzados. En I.Bratko y N.Lavrac (Eds.) Avances en Aprendizaje Automtico, 31-45,
Sigma Press. [Web Link] Clark, P. Y Niblett, T. (1987). Induccin en Noisy Dominios. En I.Bratko y
N.Lavrac (Eds.) Avances en Aprendizaje Automtico, 11-30, Sigma Press. [Web Link] Michalski, R.,
Mozetic, I. Hong, J., y Lavrac, N. (1986). El Multi-Purpose Incremental Learning System AQ15 y sus
aplicaciones de pruebas de los Dominios Mdicos Tres. En Actas de la V Conferencia Nacional
sobre Inteligencia Artificial, 1041-1045. Philadelphia, PA:. Morgan Kaufmann [Web Link]
Xavier Llor y David E. Goldberg e Ivn Traus y Ester Bernad i Mansilla. Precisin, parsimonia, y la
generalidad en los sistemas de aprendizaje evolutivo a travs de Seleccin
multiobjetivo . IWLCS. 2002. [ Ver Contexto ]. Remco R. Bouckaert. Precisin limita para conjuntos
bajo 0 {1 derrota . Xtal Montaa Tecnologa de la Informacin y Departamento de Ciencias de la
Computacin de la Universidad de Waikato. 2002. [ Ver Contexto ]. Igor Kononenko y Edvard Simec
y Marko Robnik-Sikonja. Superacin de la miopa de los algoritmos de aprendizaje inductivo con
RELIEFF . Appl. Intell, 7. 1997. [ Ver Contexto ]. Pedro Domingos. Control-Sensible Seleccin de
caractersticas para los Estudiantes de Lazy . Artif. Intell. Rev, 11. 1997. [ Ver Contexto ]. Kamal Ali y
Michael J. Pazzani. Reduccin de errores a travs del aprendizaje mltiples
descripciones . Aprendizaje Automtico, 24. 1996. [ Ver Contexto ]. Geoffrey I. Webb. OPUS: Un
Algoritmo admisible Eficiente para Unordered Buscar . J. Artif.Intell. Res.. (JAIR, 3. 1995. [ Ver
Contexto ]. Alexander K. Seewald. Disertacin hacia la comprensin de apilamiento Los estudios de
akademischen Grados eines der Doktors technischen Naturwissenschaften . [ Ver
Contexto ]. Geoffrey I Webb .Aprender Listas de decisin anteponiendo Reglas inferidos . Facultad
de Informtica y Matemticas de la Universidad de Deakin. [ Ver Contexto ].
Cita de pedidos:
Este dominio tumor primario se obtuvo del Centro Mdico de la Universidad, Instituto de Oncologa,
Ljubljana, Yugoslavia. Damos las gracias a M. y M. Zwitter Soklic de proporcionar los datos. Por
favor, incluya esta cita si tiene previsto utilizar esta base de datos.
Prodigy Data Set
Resumen : dominios variados como blocksworld, eightpuzzle y schedworld.

Theory
N/A rea: N/A

N/A N/A N/A
Nmero de
Valores
perdidos?
Accesos:
Fuente:
N/A

He aqu un resumen de los dominios que se pueden utilizar en la actualidad con Prodigy. Cada uno
se describe brevemente. Para obtener ms informacin en cualquiera de ellos, lea el archivo
README en el directorio correspondiente al dominio. * stripsworld: Hay varios directorios
relacionados con el momento: - stripsworld:. del dominio para los STRIPS - tiras extendidas: una
extensin de . Las tiras de dominio donde las puertas se pueden bloquear y hay llaves para las
cerraduras - multirobot: el dominio STRIPS con dos o ms robots. * blocksworld: Hay varios
directorios relacionados con el momento: - blocksworld: el dominio como fue construido
inicialmente. - frozenblocksworld: una versin estable. Se utiliza para el manual. - extended-pc: una
extensin de blocksworld que trata sobre el peso y la ubicacin de los bloques.(Vase tambin
GridWorld) * eightpuzzle: un dominio para resolver el rompecabezas de ocho. * gramtica: una
gramtica sencilla. * GridWorld: una versin 3-D de blocksworld. * jupiter: Prodigy interacta con un
mundo externo, a travs de la modeladores Mundial. * lgica: un dominio de lgica
simple. eliminacin de Gauss en matrices: * matriz de lgebra. r1 *: dominio de configuracin VAX (
una simplificacin de R1). * cohetes:. dominio cohete chino * schedworld:. un dominio de la
programacin de la tienda de mquina * telescopio: un dominio de espejos edificio del telescopio.
N/A
N/A
Cita de pedidos:
Por favor, consulte la Gua del Aprendizaje Repositorio mquina poltica de la citacin.
Protein Data Set Data
Resumen : Indocumentados

N/A N/A rea: Vida

N/A N/A N/A
Nmero de
Tareas asociadas: N/A Valores perdidos? N/A Web 21455
Accesos:
Fuente:
N/A

N/A
N/A
N/A
Mikhail Bilenko y sugato Basu y Raymond J. Mooney. Integracin de las limitaciones y de

aprendizaje mtrica en la agrupacin semi-supervisado . ICML. 2004. [ Ver Contexto ]. Qingping Tao
y Stephen Scott y NV Vinodchandran y Thomas T. Osugi. generalizadas de aprendizaje a travs de
la caja de conteo aproximado mltiple instancia basado en SVM . ICML. 2004. [ Ver
Contexto ]. Qingping Tao Ph. D. HACIENDO algoritmos de aprendizaje eficiente con
EXPONENCIALMENTE muchas caractersticas . Qingping Tao una disertacin Facultad de El
Colegio de Graduados de la Universidad de Nebraska en cumplimiento parcial de los
requisitos. 2004. [ Ver Contexto ]. Michihiro Kuramochi y George Karypis. Encontrar patrones
frecuentes en un grfico minimalista grande . SDM. 2004. [ Ver Contexto ]. Aik Choon Tan y David
Gilbert. An Empirical Comparacin de las tcnicas de aprendizaje automtico supervisado en
Bioinformtica . APBC. 2003. [ Ver Contexto ]. Michael L. Raymer y Travis E. Doom y Leslie A. Kuhn
y William F. Punch. Descubrimiento de conocimiento en bases de datos mdicas y biolgicas
utilizando un clasificador de Bayes / algoritmo evolutivo hbrido . Transacciones de IEEE en
Sistemas, Hombre y Ciberntica, parte B, de 33 aos. 2003. [ Ver Contexto ]. Jianbin Tan y David L.
Dowe. MML Inferencia de la Decisin Grficos con varias vas uniones y los atributos
dinmicos . Conferencia australiana sobre Inteligencia Artificial. 2003. [ Ver Contexto ]. Steven
Eschrich y Nitesh V. Chawla y Lawrence O. Hall. Mtodos de generalizacin en
Bioinformtica . BIOKDD. 2002. [ Ver Contexto ]. Mukund Deshpande y George Karypis. Evaluacin
de Tcnicas para la clasificacin de secuencias biolgicas . PAKDD. 2002. [ Ver Contexto ]. Andreas
L. Prodromidis. Sobre la Gestin de Aprendizaje Distribuido Agentes Ph.D. Propuesta de Tesis
CUCS-032-97 . Departamento de Ciencias de la Universidad de Columbia por ordenador. 1998. [ Ver
Contexto ]. Kai Ming Ting y Boon Toh baja.Combinacin de modelo en el Multiple-Data-Lotes
Escenario . ECML. 1997. [ Ver Contexto ]. Daichi Mochihashi y Gen-ichiro Kikui y Kenji Kita. Learning
no estructural Distancia mtrica por distorsiones mnimas en Racimo . ATR oral laboratorios de
investigacin Idioma de traduccin. [ Ver Contexto ]. Mehmet Dalkilic y Arijit Sengupta. Un
clasificador-Logic terico llamado Crculo . Escuela de Informtica Centro de Genmica y
Bioinformtica de la Universidad de Indiana. [ Ver Contexto ]. Kuan-ming Lin y Chih-Jen Lin. Estudio
sobre Reduccin de Mquinas de Vectores Soporte . Departamento de Ciencias de la Computacin
e Ingeniera de la Informacin de la Universidad Nacional de Taiwn. [ Ver Contexto ]. Kai Ming Ting
y Boon Toh baja. Teora de combinacin: una alternativa a la combinacin de datos . Universidad de
Waikato. [ Ver Contexto ]. Zoran Obradovic y Slobodan Vucetic. Desafos en Scientific Data Mining:
muestras heterogneas, sesgadas, y grandes . Centro de Informacin de Ciencia y Tecnologa de la
Universidad de Temple. [ Ver Contexto ].
Cita de pedidos:
Pseudo Peridico sinttico de serie temporal
de Conjunto de Datos
Resumen : Este conjunto de datos se ha diseado para los sistemas
de pruebas de indexacin en bases de datos de series de tiempo. Los
datos aparecen altamente peridica, pero nunca se repite exactamente
en s.

Time-Series
100000 rea: N/A

N/A N/A
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Eamonn J. Keogh y Michael J. Pazzani
Departamento de Informacin y Ciencias de la Computacin
de la Universidad de California, Irvine, California 92697
EE.UU. eamonn '@' ics.uci.edu , Pazzani '@' ics.uci.edu

Este conjunto de datos se ha diseado para los sistemas de pruebas de indexacin en bases de
datos de series de tiempo. Se trata de un conjunto de datos mucho ms grande que se ha utilizado
en ningn estudio publicado (que actualmente estamos conscientes de). Contiene un milln de
puntos de datos. Los datos se ha dividido en 10 secciones para facilitar las pruebas (vase a
continuacin). Se recomienda construir el ndice con 9 de las secciones 100.000 datapoint, y
extrayendo al azar una forma de consulta a partir de la 10 seccin. (Algunos trabajos publicados
con anterioridad parece haber utilizado las consultas que tambin se utilizaron para construir la
estructura de indexacin. Esto producir resultados optimistas) Los datos son interesantes porque
tienen estructura en diferentes resoluciones. Cada una de las 10 secciones en las generadas por las
invocaciones independientes de la funcin: (ver equation.gif) . Dnde rand (x) produce un entero
aleatorio entre cero y x Los datos aparecen altamente peridica, pero nunca se repite exactamente
en s. Esta caracterstica est diseada para desafiar la estructura de indexacin. Las series
temporales se complotados aqu: (ts1-5.gif), (ts6-10.gif)
Los datos se almacenan en un archivo ASCII. Hay 10 columnas, 100.000 filas. Todos los puntos de
datos se encuentran en el rango de -0.5 a +0.5. filas estn separadas por retornos de carro,
columnas por espacios.
Eamonn J. Keogh, Michael J. Pazzani: (1999). Un esquema de indexacin de bsqueda de similitud
en grandes bases de datos de series de tiempo. La 11 Conferencia Internacional sobre Gestin de
Base de Datos de la Ciencia y de Estadstica. Cleveland, Ohio. [Web Link] Sanghyun Park, Dongwon
Lee, y Wesley W. Chu. "Recuperacin rpida de subsecuencias similares en larga secuencia de
bases de datos", en el tercero IEEE Conocimiento e Ingeniera Taller de Intercambio de Datos
(KDEX), Chicago, IL, EE.UU., noviembre de 1999 [Web Link]
Cita de pedidos:
Disponible de forma gratuita para su uso en investigacin.
PubChem Bioensayo de datos Conjunto de
datos
Resumen : Estos conjuntos de datos de bioensayo altamente desequilibrados son de los diferentes
tipos de evaluacin que se pueden realizar con la tecnologa HTS. 21 conjuntos de datos se crean
a partir de 12 bioensayos.

Multivariante N/A rea: Vida

Entero, real N/A
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Virtual de Bioensayo datos
Amanda C Schierz, Centro de Investigacin de Tecnologa Inteligente de la Universidad de
Bournemouth, Talbot Campus, Poole, Dorset, BH12 5BB, Reino Unido
Journal of Quimioinformtica 2009, uno y veintin doi: 10.1186/1758-2946-1-21

21 conjuntos de datos de bioensayo generados a partir de PubChem. Ambos bioensayos primarios y
confirmatorias (12 bioensayos, 21 mezclas) Los datos se proporcionan en la misma divisin tren /
prueba como el documento original. Los identificadores compuestos se han proporcionado en
archivos independientes en el caso de personas desean generar su propia representacin
molecular. El orden del compuesto Ids es lo mismo que los archivos de datos. AID362 detalla
los resultados de un bioensayo de cribado primario de Formylpeptide receptor de unin de ligando de
la Universidad del Centro de Nuevo Mxico para Discovery Molecular. Es un relativamente pequeo
conjunto de datos con 4.279 compuestos y con una relacin de 1 a 70 activo compuestos inactivos
(1,4% clase minoritaria). Los compuestos fueron seleccionados sobre la base de cribado virtual
preliminar de aproximadamente 480.000 molculas pequeas de tipo frmaco de diversidad qumica
Laboratorios. AID456 es un ensayo de cribado primario del Centro de Burnham de Qumica
Genmica para la inhibicin de la inducida por TNFa de superficie celular de VCAM-1 expresin y
consiste en 9982 compuestos con una proporcin de 1 compuesto activo a 368 compuestos inactivos
(0,27% minoritarios). Los compuestos se han seleccionado por sus propiedades similares a las
drogas conocidas y 9431 cumplen con la regla de 5 [19]. AID688 es el resultado de una
pantalla principal para eIF2B levadura del Centro Penn para Discovery Molecular y contiene
informacin sobre la actividad de 27.198 compuestos con una proporcin de 1 compuesto activo a
108 compuestos inactivos (0,91% minoritarios). La pantalla es un reportero de ensayo-gen y 25.656
de los compuestos han conocido las propiedades similares a los medicamentos. AID604 es un
bioensayo de cribado primario de 2 inhibidores de la Rho quinasa del Instituto de Investigacin
Scripps Molecular Centro de Revisin. El bioensayo contiene la informacin de actividad de 59.788
compuestos con una proporcin de 1 compuesto activo a 281 compuestos inactivos (1,4%). 57.546
de los compuestos han conocido las propiedades similares a los medicamentos. AID373 es una
pantalla principal del Instituto de Investigacin Scripps Molecular Centro de Revisin para la
diferenciacin endotelial, el receptor de los esfingolpidos de la protena G-acoplada, 3. 59.788
compuestos se rastrearon con una relacin de 1 compuesto activo a 963 compuestos inactivos
(0,1%). 57.546 de los compuestos examinados se haban conocido las propiedades similares a los
medicamentos. AID746 es una pantalla principal del Instituto de Investigacin Scripps
Molecular Centro de Deteccin del activada por mitgenos protena quinasa. 59.788 compuestos se
rastrearon con una relacin de 1 compuesto activo a 162 compuestos inactivos (0,61%). 57.546 de
los compuestos examinados se haban conocido las propiedades similares a los medicamentos.
AID687 es el resultado de una pantalla principal de factor de coagulacin XI del Centro Penn para
Discovery Molecular y contiene informacin sobre la actividad de 33.067 compuestos con una
proporcin de 1 compuesto activo al 350 compuestos inactivos (0,28% minoritarios). 30.353 de los
compuestos examinados se haban conocido las propiedades similares a los medicamentos.
AID1608 es un tipo diferente de ensayo de seleccin que se utiliz para identificar los compuestos
que previenen la muerte celular inducida por HttQ103. Instituto Nacional de Trastornos Neurolgicos
y Accidentes Cerebrovasculares Aprobado Programa de Medicamentos.Los compuestos que
impiden una liberacin de un determinado producto qumico en el medio de crecimiento se etiquetan
como activo y los compuestos restantes estn etiquetados como que tiene actividad
concluyentes. AID1608 es un pequeo conjunto de datos con 1.033 compuestos y una relacin de 1
a 14 compuestos activos no concluyentes (6,58% de la clase minoritaria). AID644 pantalla de
confirmacin de AID604 AID1284 pantalla de confirmacin de AID746 AID439 pantalla de
confirmacin de AID373 pantalla de confirmacin AID721 de AID746
Cada atributo se ha descrito completamente en la publicacin de acceso abierto. Los datos son una
mezcla de boolean, integer y valores reales. Slo 2 de clase - activa e inactiva. Altamente
desequilibrada.
Citaciones para papel: El uso de rboles de clasificacin para la bioinformtica Xiang Chen, Minghui
Wang, Zhang Heping: 6 JAN 2011 DOI: 10.1002/widm.14 modelo de consenso para la identificacin
de nuevos inhibidores de PI3K en gran biblioteca qumica Chin Yee Liew, Xiao Hua Ma y Chun Wei
Yap Journal of Computer-Aided Molecular Design Volumen 24, Nmero 2, 131-141, DOI:
10.1007/s10822-010-9321-0 gentica del algoritmo de red neuronal-(GANN): un estudio de las
funciones de activacin de redes neuronales y la profundidad de Bsqueda algoritmo gentico
aplicado a la seleccin de funcin Dong Ling Tong y Robert Mintram Revista Internacional de
Aprendizaje Automtico y Ciberntica Volumen 1, Nmeros 1-4, 75-87, DOI: 10.1007/s13042-010-
0004-x
Cita de pedidos:
QSAR biodegradacin Data Set
Resumen : Conjunto de datos que contiene los valores para 41 atributos (descriptores
moleculares) que se utiliza para clasificar los 1.055 productos qumicos en 2 clases (listos y no
listos biodegradable).


Entero, real 41 21/06/2013
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Kamel Mansouri, Tine Ringsted, Davide Ballabio ( davide.ballabio '@' unimib.it ), Roberto Todeschini,
Viviana Consonni, Milano Quimiometra y QSAR Research Group
(http://michem.disat.unimib.it/chm/ ), Universitt degli Studi Milano "Bicocca, Milano (Italia)

La biodegradacin de datos QSAR fue construido en el Milano Quimiometra y QSAR Research
Group (Universit degli Studi Milano "Bicocca, Milano, Italia). La investigacin que lleva a estos
resultados ha recibido financiacin de la Europea Community s Sptimo Programa Marco
[FP7/2007-2013] en virtud de Convenio de subvencin n. 238701 de Marie Curie ITN
Quimioinformtica ambientales del proyecto (ECO).
Los datos se han utilizado para desarrollar QSAR (relaciones cuantitativas estructura-actividad)
Modelos para el estudio de las relaciones entre la estructura qumica y la biodegradacin de
molculas. Valores experimentales de biodegradacin de 1.055 productos qumicos se obtuvieron de
la pgina web del Instituto Nacional de Tecnologa y Evaluacin de Japn (NITE). Se desarrollaron
modelos de clasificacin con el fin de discriminar listos (356) y no estn listos (699) molculas
biodegradables mediante tres mtodos de modelado diferentes: k vecinos ms cercanos, por
mnimos cuadrados parciales Anlisis discriminante y Mquinas de Vectores Soporte. Los detalles
sobre los atributos (descriptores moleculares) seleccionados en cada modelo se puede encontrar en
la referencia citada: Mansouri, K., Ringsted, T., Ballabio, D., Todeschini, R., Consonni, V.
(2013). Estructura Cuantitativa - modelos de actividad Relacin de biodegradabilidad de las
sustancias qumicas. Journal of Chemical Information and Modeling, 53, 867-878.
41 descriptores moleculares y 1 clase experimental:
1) SpMax_L: Leading valor propio de la matriz de Laplace
2) J_Dz (e): Balaban-como ndice de matriz Barysz ponderado por Sanderson electronegatividad
3) NHM: El nmero de tomos pesados
4) F01 [NN]: Frecuencia de NN a la distancia topolgica 1
5) F04 [CN]: Frecuencia de CN en la distancia topolgica 4
6) NssssC: Nmero de tomos de tipo ssssC
7) NCB-: Nmero de benceno sustituido C (sp2)
8) C%: Porcentaje de tomos de C
9) NCP: Nmero de primaria C terminal (sp3)
10) nO: El nmero de tomos de oxgeno
11) F03 [CN]: Frecuencia de CN en la distancia topolgica 3
12) SdssC: Suma de DSSC E-estados
13) HyWi_B (m): ndice de Hyper-Wiener-like (funcin de registro) de la matriz de la carga ponderada
por la masa
14) LOC: Poda ndice centric
15) SM6_L: Momento espectral de orden 6 de la matriz de Laplace
16) F03 [CO]: Frecuencia de C - O a una distancia topolgica 3
17) Yo: electronegatividad Sanderson atmica (escalado en el tomo de carbono) Media
18) Mi: primer potencial de ionizacin media (escalado en el tomo de carbono)
19) nN-N: Nmero de N Hidracinas
20) nArNO2: Nmero de nitro grupos (aromtico)
21) nCRX3: Nmero de CRX3
22) SpPosA_B (p): Normalizado suma positiva espectral de la matriz de la carga ponderada por
polarizabilidad
23) nCIR: Nmero de circuitos
24) B01 [C-Br]: Presencia / ausencia de C - Br en la distancia topolgica 1
25) B03 [C-Cl]: Presencia / ausencia de C - Cl a distancia topolgica 3
26) N-073:.. Ar2NH / Ar3N / Ar2N-Al / R. N. R
27) SpMax_A: Liderando valor propio de la matriz de adyacencia (ndice Lovasz-Pelikan)
28) Psi_i_1d: ndice pseudoconnectivity estado Intrinsic - Tipo de 1d
29) B04 [C-Br]: Presencia / ausencia de C - Br en la distancia topolgica 4
30) SDO: Suma de E -dice
31) TI2_L: ndice Segundo Mohar de matriz de Laplace
32) CNRT: Nmero de anillo de C terciario (sp3)
33) C-026: R - CX - R
34) F02 [CN]: Frecuencia de C - N a distancia topolgica 2
35) nHDon: Nmero de tomos donadores de enlaces de H (N y O)
36) SpMax_B (m): A la vanguardia de valores propios de la matriz de la carga ponderada por la
masa
37) Psi_i_A: ndice pseudoconnectivity estado Intrinsic - Tipo S promedio
38) nN : El nmero de tomos de nitrgeno
39) SM6_B (m): Momento espectral de orden 6 de la matriz de la carga ponderada por la masa
40) nArCOOR: Nmero de steres (aromtico)
41) NX: Nmero de tomos de halgeno
42) clase experimental: listo biodegradable (RB ) y no est listo biodegradable (NRB)
Mansouri, K., Ringsted, T., Ballabio, D., Todeschini, R., Consonni, V. (2013). Estructura Cuantitativa -
modelos de actividad Relacin de biodegradabilidad de las sustancias qumicas. Journal of Chemical
Information and Modeling, 53, 867-878
Cita de pedidos:
Por favor, cite el siguiente documento si publica los resultados basados en la biodegradacin de
datos QSAR: Mansouri, K., Ringsted, T., Ballabio, D., Todeschini, R. consonni, V. (2013). Estructura
Cuantitativa - modelos de actividad Relacin de biodegradabilidad de las sustancias
qumicas. Journal of Chemical Information and Modeling, 53, 867-878
QtyT40I10D100K Data Set
Resumen : Ya que no hay flujo de datos secuencial numrico disponible en los conjuntos de datos
estndar, este conjunto de datos se genera a partir del conjunto de datos original, T40I10D100K

Secuencial 3960456 rea: N/A

Entero 4 Fecha Donado 10-21
Valores Nmero de
Fuente:
Omid Shakeri, M.Sc omid.shakeri '@' tmu.ac.ir ; omid.shakeri '@' gmail.com . Laboratorio de Minera
de Datos, Informtica Departamento de Ingeniera de la Universidad Kharazmi, Karaj / Tehern,
Irn Mir Mohsen Pedram, Ph. D Pedram '@' tmu.ac.ir Lab para minera de datos., Informtica
Departamento de Ingeniera de la Universidad Kharazmi, Karaj / Tehern, Irn

Este conjunto de datos se genera a partir del conjunto de datos T40I10D100K original, a los patrones
secuenciales difusos minas ms corrientes cuantitativas. Mientras que el T40I10D100K original se
genera a partir del generador de datos sinttica descrita en el REA. Agrawal, R. Srikant,
algoritmos rpidos para la minera de reglas de asociacin, 20a Internacional. Conf. en bases de
datos muy grandes (VLDB 94), pp 487-499. 1994a ??.
El conjunto de datos es una base de datos SQL Server 2008, que se puede conectar a una instancia
de SQL Server para utilizar
CustomerID: el ID del cliente que ha realizado la transaccin (generado aleatoriamente [1 100])
Tiempo: el tiempo en que la transaccin se ha realizado
la transaccin: la operacin que se ha realizado
Cantidad: el valor de la cantidad de cada transaccin (generado aleatoriamente [ 1 10])
Los trabajos que utilizan este conjunto de datos estn siendo revisados por rbitros.
Cita de pedidos:
QtyT40I10D100K Conjunto de datos
Resumen: Ya que no hay flujo de datos secuencial numrico disponible en los conjuntos de datos
estndar, este conjunto de datos se genera a partir del conjunto de datos original, T40I10D100K

Secuencial 3960456 rea: N/A


perdidos? Accesos:
Fuente:
Omid Shakeri, M.Sc
omid.shakeri '@' tmu.ac.ir; omid.shakeri '@' gmail.com
Laboratorio de minera de datos., Computadora Departamento de Ingeniera de la Universidad Kharazmi,
Karaj / Tehern, Irn
Mir Mohsen Pedram, Ph.D

Pedram '@' tmu.ac.ir
Laboratorio de minera de datos., Computadora Departamento de Ingeniera de la Universidad Kharazmi,
Karaj / Tehern, Irn

Este conjunto de datos se genera a partir del conjunto de datos T40I10D100K original, a los patrones
secuenciales difusos minas ms corrientes cuantitativas. Mientras que el T40I10D100K original se genera
a partir del generador de datos sinttica descrita en el REA. Agrawal, R. Srikant, algoritmos rpidos
para la minera de reglas de asociacin, 20a Internacional. Conf. en bases de datos muy grandes (VLDB
94), pp 487-499. 1994a .
El conjunto de datos es una base de datos SQL Server 2008, que se puede conectar a una instancia de
SQL Server para utilizar
CustomerID: el ID del cliente que ha realizado la transaccin (generado aleatoriamente [1 100])
Tiempo: el tiempo en que la transaccin se ha realizado
Transaccin: la operacin que se ha realizado
Cantidad: el valor de la cantidad de cada transaccin (generado al azar [1 10])
Los trabajos que utilizan este conjunto de datos estn siendo revisados por rbitros.
Cuadrpedos mamferos Conjunto
de datos
Resumen: El animals.c archivo es un generador de datos de instancias
estructuradas que representan animales cuadrpedos
Conjunto de datos Multivariante, Data- Nmero de N/

rea: Vida
Caractersticas: Generator instancias: A


perdidos? Accesos:
Fuente:
Origen:
Gennari, J. ~ H., Langley, P, \ & Fisher, D. (1989).

Modelos de formacin de conceptos incrementales. {\ It Inteligencia Artificial \ /}, {\ it 40 \ /}, 11-61.
Donante:
John H. Gennari (gennari '@' camis.stanford.edu 8/1992)

El animals.c archivo es un generador de datos de instancias estructuradas que representan animales
cuadrpedos y usadas por Gennari, Langley, y Fisher (1989) para evaluar el algoritmo de aprendizaje no
supervisado CLASSIT. Los casos tienen 8 componentes: el cuello, cuatro piernas, el torso, la cabeza y la
cola. Cada componente se representa como un cilindro simplificado / generalizada (es decir, inspirado en
la obra de David Marr en "Visin: Una Investigacin Computacional Into the Representacin humana y
Procesamiento de la Informacin Visual", publicado por Freeman en 1982). Cada cilindro est en s
descrito por 9 atributos: ubicacin x 3, eje x 3, altura, radio, y la textura. Este cdigo genera instancias de
una de cuatro clases: perros, gatos, caballos y jirafas. El programa genera casos mediante la seleccin
de una clase de acuerdo con una distribucin determinada por rand4 funcin (). Cada clase tiene un
prototipo; el prototipo de la clase seleccionada es perturbado de acuerdo a una distribucin descrita en el
cdigo de las cuatro clases (es decir, medios parametrizados con distribuciones Guassian se utilizan para
representar los prototipos y las distribuciones de perturbacin, donde se utilizan los medios para distinguir
las cuatro clases).
De Juan Gennari: (1990)
Las nicas notas que tengo al respecto es que yo no uso el formato de datos que crea ms. Para cambiar
esto, modificar "printpart ()". Tambin, se utiliza una aproximacin muy spera para una distribucin en
forma de campana. Actualmente, yo uso un generador de nmeros aleatorios mucho ms
sofisticado. Para solucionarlo, basta con sustituir "bellrand ()" con una distribucin en forma de campana
real.
A. Ocho componentes por instancias / animal:
1. Cabeza
2. Cola
3. 4 patas
4. torso
5. cuello
B. Nueve atributos por componente:
1. Ubicacin 1
2. Ubicacin 2
3. Ubicacin 3
4. Eje 1
5. Eje 2
6. Eje 3
7. Altura
8. Radio
9. Textura
Cualitativa Estructura Actividad Relaciones Data

Set
Se presentan dos conjuntos de datos:: Abstracto pirimidinas y triazinas
Conjunto de datos Domain- Nmero de N/

rea: Fsico
Caractersticas: Theory instancias: A
Caractersticas del Nmero de N/

N/A Fecha Donado N/A
atributo: atributos: A

Fuente:
Ross D. King
Modelizacin Biomolecular Laboratorio
Imperial Cancer Research Fund
PO Box 123
Inn Fields 44 de Lincoln
Londres WC2A 3PX
Reino Unido
+44-71-242-0200 X3023
rd_king '@' icrf.ac.uk
Qualitative_Bankruptcy Conjunto de datos

Resumen: Predecir la Bancarrota de los parmetros cualitativos de expertos.


N/A 7 Fecha Donado 09/02/2014

Fuente:
Fuente de informacin
- Creador: Mr.A.Martin (jayamartin '@' yahoo.com)
Mr.J.Uthayakumar (uthayakumar17691 '@' gmail.com)
Mr.M.Nadarajan (nadaraj.muthuvel '@' gmail.com)
- Guided By: Dr.V.Prasanna Venkatesan
- Institucin: Sri Manakula Vinayagar Facultad de Ingeniera y la Universidad de Pondicherry
- Pas: India
- Fecha: febrero 2014

Los parmetros que hemos utilizado para la recogida del conjunto de datos se conoce a partir del
documento "El descubrimiento de reglas de decisin experts a partir de datos de bancarrota
cualitativos utilizando algoritmos genticos" por Myoung-Jong Kim *, Ingoo Han.
Atributo Informacin: (P = Positivo, A-Normal, N-negativo, B-Bancarrota, NB-No-Quiebra)
1. Riesgo industrial: {P, A, N}

2. Gestin de Riesgos: {P, A, N}
3. Flexibilidad financiera: {P, A, N}
4. Credibilidad: {P, A, N}
5. Competitividad: {P, A, N}
6. Riesgo Operacional: {P, A, N}
7. Clase: {B, NB}
Los parmetros que hemos utilizado para la recogida del conjunto de datos se conoce a partir del
documento "El descubrimiento de reglas de decisin experts a partir de datos de bancarrota
cualitativos utilizando algoritmos genticos" por Myoung-Jong Kim *, Ingoo Han.
Patrones de acoplamiento de registro de la

comparacin de datos Set
Resumen: Elemento-sabia comparacin de registros con datos personales de un ajuste de
relacionamiento. La tarea es decidir a partir de un patrn de comparacin si los registros subyacentes
pertenecen a una persona.



perdidos? Accesos:
Fuente:
Los registros subyacentes se derivan del registro de cncer epidemiolgico de la
Estado alemn de Renania del Norte-Westfalia (NRW Epidemiologisches Krebsregister,
http://www.krebsregister.nrw.de ). Creacin de patrones de comparacin y
asignacin de estado de coincidencia se llevaron a cabo por miembros del personal de
el Instituto de Medicina Bioestadstica, Epidemiologa e Informtica (IMBEI)
en el Centro Mdico de la Universidad de la Universidad Johannes Gutenberg en Mainz,
Alemania ( http://www.imbei.uni-mainz.de ).

Los registros representan los datos individuales, incluyendo primero y apellido, sexo, fecha de nacimiento
y el cdigo postal, que se recogieron a travs de inserciones iterativos en el transcurso de varios
aos. Los patrones de comparacin en este conjunto de datos se basan en una muestra de 100.000
registros que datan de 2005 a 2008. Pares de datos se clasificaron como "partido" o "no-match" durante
una extensa revisin manual donde participaron varios documentalistas. La clasificacin resultante sirvi
de base para la evaluacin de la calidad de la
propia s registry record procedimiento de vinculacin.
Con el fin de limitar la cantidad de patrones, se aplic un procedimiento de bloqueo,

que slo se seleccionan pares de registros que cumplen las condiciones de los acuerdos especficos. La
resultados de los siguientes seis iteraciones de bloqueo se fusionaron:
1. Igualdad fontica del nombre y apellido, la igualdad de la fecha de nacimiento.

2. Igualdad fontica del nombre de pila, la igualdad de los das del nacimiento.
3. Igualdad fontica del nombre de pila, la igualdad de mes de nacimiento.
4. Igualdad fontica del nombre de pila, la igualdad de los aos de nacimiento.
5. La igualdad de la fecha de nacimiento completa.
6. Igualdad fontica del nombre de la familia, la igualdad de sexo.
Este procedimiento dio lugar a 5.749.132 pares de registros, de los cuales 20.931 son partidos.
El conjunto de datos se divide en 10 bloques de (aproximadamente) el tamao y proporcin igual

de los partidos a los no partidos.
El frequencies.csv archivo independiente para cada atributo contiene predictivo

el nmero promedio de los valores en los registros subyacentes. Estos valores pueden, por ejemplo,
puede utilizar como u-probabilidades en relacionamiento basado en el peso despus de la
marco de Fellegi y Sunter.
1. id_1: identificador interno del primer registro.
2. ID_2: identificador interno del segundo registro.
3. cmp_fname_c1: acuerdo del nombre, primer componente
4. cmp_fname_c2: acuerdo del nombre de pila, segundo componente
5. cmp_lname_c1: acuerdo del apellido, primer componente
6. cmp_lname_c2: acuerdo del apellido, segundo componente
7. cmp_sex: Acuerdo sexo
8. cmp_bd: acuerdo de fecha de nacimiento, componente das
9. cmp_bm: acuerdo de fecha de nacimiento, componente meses
10. cmp_by: acuerdo de fecha de nacimiento, componente aos
11. cmp_plz: acuerdo de cdigo postal
12. is_match: estado de coincidencia (TRUE para los partidos, FALSO para los no partidos)
El acuerdo de los componentes del nombre se mide como un nmero real en el intervalo [0,1], donde 0
indica desacuerdo mxima y 1 la igualdad de los valores subyacentes. Para las dems comparaciones,
slo se utilizan los valores de 0 (no iguales) y 1 (igual).
is_match es la variable de resultado. id_1 y ID_2 no se utilizan para la prediccin, pero podra ser
utilizado para construir los componentes conectados de las coincidencias encontradas.
1. Irene Schmidtmann, Gael Hammer, Murat Sariyar, Aslihan Gerhold-Ay:
Evaluacin des Krebsregisters NRW Schwerpunkt Record Vinculacin. Tcnico
Informe, IMBEI 2009.
[Web Link]
- Describe la evaluacin externa de la vinculacin de registros del Registro
procedimientos.
- Los patrones de comparacin en este conjunto de datos se crearon en el transcurso del
esta evaluacin.
2. Murat Sariyar, Andreas Borg, Klaus Pommerening:

El control de las tasas de los partidos falsos en la vinculacin de registros utilizando la teora del valor
extremo.
Journal of Biomedical Informatics, 2011 (en prensa).
- Atributo del preparado: estado ecolgico deseado (boolean).
- Resultados:
- Un nuevo enfoque para la estimacin de la tasa de falsa coincidencia en el registro
vinculacin con los mtodos de Teora del Valor Extremo (EVT).
- El modelo elimina la necesidad de la etiqueta mientras que los datos de entrenamiento
lograr slo leve menor precisin en comparacin con un procedimiento
que tiene conocimiento sobre el estado de coincidencia.
Ubicacin relativa de cortes de TC axial en el eje

Resumen: El conjunto de datos consta de 384 caractersticas extradas de las imgenes de TC. La
variable de clase es numrico y indica la localizacin relativa de la rebanada CT en el eje axial del
cuerpo humano.



Tareas asociadas: Regresin N/A 14097
perdidos? Accesos:
Fuente:
F. Graf, H.-P. Kriegel, M. Schubert, S. Poelsterl, A. Cavallaro
Ludwig-Maximilians-Universitt de Mnich
Base de datos del Grupo de Sistemas
Oettingenstrae 67
80538 Munich, Alemania

Los datos se recuperan de un conjunto de 53.500 imgenes de TC de 74 diferentes
pacientes (43 varones, 31 mujeres).
Cada slice CT es descrito por dos histogramas en el espacio polar.

La primera histograma describe la ubicacin de las estructuras seas en la imagen,
la segunda la ubicacin de las inclusiones de aire en el interior del cuerpo.
Ambos histogramas se concatenan para formar el vector de caracterstica final.
Bins que estn fuera de la imagen estn marcadas con el valor -0.25.
La variable de clase (ubicacin relativa de una imagen en el eje axial) era

construido por anotar manualmente hasta 10 puntos de referencia distintos en diferentes
Cada volumen CT con ubicacin conocida. La ubicacin de las rebanadas en entre
puntos de referencia fue interpolada.
1. PatientID: Cada ID identifica un paciente diferente
2. - 241:. Histograma que describe estructuras seas
242. - 385:. Histograma que describe inclusiones de aire
386. Referencia: ubicacin relativa de la imagen en el eje axial (clase
valor). Los valores estn en el intervalo [0; 180], donde 0 denota
la parte superior de la cabeza y 180 las plantas de los pies.
1. F. Graf, H.-P. Kriegel, M. Schubert, S. Poelsterl, A. Cavallaro
Registro de imgenes 2D en imgenes computarizadas que utilizan radiales Descriptores
Imagen
En Informtica de Imgenes Mdicas e Intervencin Asistida por Ordenador (MICCAI),
Toronto, Canada, 2011.
Los datos se utiliz para predecir la ubicacin relativa de cortes de TC en

el eje axial mediante la bsqueda del vecino k-ms cercano.
2. F. Graf, H.-P. Kriegel, lsterl S. P , M. Schubert, A. Cavallaro

Posicin Prediccin en Scans Volumen CT
En Actas de la 28 Conferencia Internacional sobre la mquina
Learning (ICML) Taller de Aprendizaje para los desafos mundiales,
Bellevue, Washington, WA, 2011.
Aqu, se utilizaron los datos para aplicar combinaciones ponderadas de la imagen

caractersticas para la localizacin de pequeos volmenes sub en tomografas computarizadas.
3. Cheng Ming-Yen, y Hau-tieng Wu. "Local de regresin lineal sobre Colectores y su

interpretacin geomtrica." arXiv preimpresin (2012).
Restaurant & consumidor Set Datos

Resumen: El conjunto de datos se obtuvo a partir de un prototipo de sistema de recomendacin. La
tarea consista en generar una lista top-n de restaurantes de acuerdo a las preferencias de los
consumidores.


N/A 47 Fecha Donado

Tareas asociadas: N/A S 29079
perdidos? Accesos:
Fuente:
Creadores:
Rafael Ponce Medelln y Juan Gabriel Gonzlez Serna
rafaponce '@' cenidet.edu.mx, gabriel '@' cenidet.edu.mx
Departamento de Ciencias de la Computacin.
Centro Nacional para la Investigacin y el Desarrollo Tecnolgico CENIDET, M xico
Los donantes de la base de datos:
Blanca Vargas-Govea y Juan Gabriel Gonzlez Serna
blanca.vargas '@' cenidet.edu. mx / blanca.vg @ gmail.com, gabriel '@' cenidet.edu.mx
Departamento de Ciencias de la Computacin.
Centro Nacional para la Investigacin y el Desarrollo Tecnolgico CENIDET, M xico

Se probaron dos mtodos: una tcnica de filtro de colaboracin y un enfoque contextual.
(I) La tcnica de filtrado colaborativo utilizado slo un ejemplo de archivo, rating_final.csv que comprende
los atributos de usuario, elementos y clasificacin.
(Ii) El enfoque contextual generado las recomendaciones utilizando los ocho archivos de datos restantes.
Los archivos, las instancias y atributos
Nmero de archivos: 9
Restaurantes
1 chefmozaccepts.csv
2 chefmozcuisine.csv
3 chefmozhours4.csv
4 chefmozparking.csv
5 geoplaces2.csv
Consumidores
6 usercuisine.csv
7 userpayment.csv
8 userprofile.csv
Usuario-Item-Clasificacin
9 rating_final.csv
% --- Formato Descripcin

Nombre de archivo
Nmero de casos
Nmero de atributos
atributo: tipo, nmero de valores perdidos (si los hay), Nmero de valores [lista de valores]
% ---
1 chefmozaccepts.csv
Instancias: 1314
Atributos: 2
placeID: Nominal
Rpayment: Nominal, 12 [cash,VISA,MasterCard-
Eurocard,American_Express,bank_debit_cards,checks,Discover,Carte_Blanche,Diners_Club,Visa,Japan_
Credit_Bureau,gift_certificates]
2 chefmozcuisine.csv
Instancias: 916
Atributos: 2
placeID: Nominal
Rcuisine: Nominal,
59 [Afghan,African,American,Armenian,Asian,Bagels,Bakery,Bar,Bar_Pub_Brewery,Barbecue,Brazilian,Br
eakfast-Brunch,Burgers,Cafe-Coffee_Shop,
Cafeteria,California,Caribbean,Chinese,Contemporary,Continental-European,Deli-Sandwiches,Dessert-
Ice_Cream,Diner,Dutch-
Belgian,Eastern_European,Ethiopian,Family,Fast_Food,Fine_Dining,French,,Game,German,Greek,Hot_D
ogs,
International,Italian,Japanese,Juice,Korean,Latin_American,Mediterranean,Mexican,Mongolian,Organic-
Healthy,Persian,
Pizzeria,Polish,Regional,Seafood,Soup,Southern,Southwestern,Spanish,Steaks,Sushi,Thai,Turkish,Veget
arian,Vietnamese]
3 chefmozhours4.csv
Instancias: 2339
Atributos: 3
placeID: Nominal
hora:, Rango :00:00-23 nominal: 30
da: nominales, 7 [lun, mar, mi, jue, vie, sb, dom]
4 chefmozparking.csv
Instancias: 702
Atributos: 2
placeID: Nominal
parking_lot: Nominal, 7 [pblica, ninguno, s, valet_parking, libre, calle, validated_parking]
5 geoplaces2.csv
Instancias: 130
Atributos: 21
placeID: Nominal
latitud: Numrico
longitud: Numrico
the_geom_meter: Nominal (Geospatial)
Nombre: Nominal
Direccin: Nominal, Missing: 27
ciudad: Nominal, Missing: 18
Estado: Nominal, Missing: 18
pas: Nominal, Missing: 28
fax: Numrico, donde desapareci: 130
zip: Nominal, Missing: 74
alcohol: Nominal, Valores: 3 [No_Alcohol_Served, Wine_Beer, Full_Bar]
smoking_area: Nominal, 5 [ninguno, only_at_bar, permitido, seccin, not_permitted]
dress_code: Nominal, 3 [informal, casual, formal]
accesibilidad: Nominal, 3 [no_accessibility, por completo, parcialmente]
precio: Nominal, 3 [media, baja, alta]
url: Nominal, Missing: 116
Rambience: Nominal, 2 [familiar, tranquilo]
franquicia: Nominal, 2 [e, f]
rea: Nominal, 2 [abierto, cerrado]
other_services: Nominal, 3 [ninguno, internet, la variedad]
6 rating_final.csv
Instancias: 1161
Atributos: 5
ID de usuario: Nominal
placeID: Nominal
Evaluacin: Numrico, 3 [0,1,2]
food_rating: Numrico, 3 [0,1,2]
service_rating: Numrico, 3 [0,1,2]
7 usercuisine.csv
Instancias: 330
Atributos: 2
Rcuisine: nominal,
103 [Afghan,African,American,Armenian,Asian,Australian,Austrian,Bagels,Bakery,Bar,Bar_Pub_Brewery,
Barbecue,Basque,Brazilian,Breakfast-Brunch,British,Burgers,Burmese,Cafe-
Coffee_Shop,Cafeteria,Cajun-
Creole,California,Cambodian,Canadian,Caribbean,Chilean,Chinese,Contemporary,Continental-
European,Cuban,Deli-Sandwiches,Dessert-Ice_Cream,Dim_Sum,Diner,Doughnuts,Dutch-
Belgian,Eastern_European,Eclectic,Ethiopian,Family,Fast_Food,Filipino,Fine_Dining,French,Fusion,Gam
e,German,Greek,Hawaiian,Hot_Dogs,Hungarian,Indian-
Pakistani,Indigenous,Indonesian,International,Irish,Israeli,Italian,Jamaican,Japanese,Juice,Korean,Kosher
,Latin_American,Lebanese,Malaysian,Mediterranean,Mexican,Middle_Eastern,Mongolian,Moroccan,North
_African,Organic-
Healthy,Pacific_Northwest,Pacific_Rim,Persian,Peruvian,Pizzeria,Polish,Polynesian,Portuguese,Regional,
Romanian,Russian-
Ukrainian,Scandinavian,Seafood,Soup,Southeast_Asian,Southern,Southwestern,Spanish,Steaks,Sushi,S
wiss,Tapas,Tea_House,Tex-Mex,Thai,Tibetan,Tunisian,Turkish,Vegetarian,Vietnamese]
8 userpayment.csv
Instancias: 177
Atributos: 2
Upayment: Nominal, 5 [efectivo, bank_debit_cards, MasterCard, Eurocard, VISA, American_Express]
9 userprofile
Instancias: 138
Atributos: 19
latitud: Numrico
longitud: Numrico
the_geom_meter: Nominal (Geospatial)
Hbitos: Nominal, donde desapareci: 3, 2 [false, true]
drink_level: Nominal, 3 [abstemia, bebedor social, bebedor ocasional]
dress_preference: Nominal, donde desapareci: 5, 4 [informal, formal, sin preferencia, elegante]
ambiente: Nominal, donde desapareci: 6, 3 [de la familia, los amigos, solitario]
transporte: Nominal, donde desapareci: 7, 3 [a pie, pblico, propietario del vehculo]
estado_civil: Nominal, donde desapareci: 4, 3 [soltero, casado, viudo]
Hijos: Nominal, donde desapareci: 11, 3 [independientes, nios, dependiente]
birth_year: Nominal
inters: nominal, 5 [variedad, tecnologa, nadie, retro, respetuoso del medio ambiente]
personalidad: Nominal, 4 [ahorrativa-protector, cazador ostentoso, duro trabajador, conformista]
religin: Nominal, 5 [ninguno, catlica, cristiana, mormona, juda]
actividad: Nominal, donde desapareci: 7, 4 [estudiante, profesional, desempleados, la clase obrera]
color: Nominal, 8 [negro, rojo, azul, verde, morado, naranja, amarillo, blanco]
peso: Numrico
Presupuesto: Nominal, donde desapareci: 7, 3 [media, baja, alta]
altura: Numrico
Blanca Vargas-Govea, Juan Gabriel Gonzlez-Serna, Rafael Ponce-Medelln. Efectos de las
caractersticas contextuales relevantes en el funcionamiento de un sistema de recomendacin de
restaurantes. En RecSys 11: Taller sobre Context Aware Sistemas de Recomendacin (CARS-
2011), Chicago, IL, EE.UU., 23 de octubre de 2011.
Reuters RCV1 RCV2 multilinge, Multiview
Categorizacin Texto coleccin de prueba de
conjunto de datos
Resumen: Esta coleccin de prueba contiene caractersticas funcionales que ofrece documentos
escritos originalmente en cinco idiomas diferentes y sus traducciones, sobre un conjunto comn de 6
categoras.


Real N/A Fecha Donado 09/06/2013

perdidos? Accesos:
Fuente:
Massih-Reza Amini
Universit Joseph Fourier
Laboratoire d'Informatique de Grenoble
Email: Massih-Reza.Amini '@' imag.fr
Cyril Goutte
Consejo de Investigacin Nacional de Canad
Grupo de Tecnologa Interactiva Idioma
Email: Cyril.Goutte '@' nrc.ca

Rcv1rcv2aminigoutte.tar.bz2 Descompresin crear un directorio que contiene subdirectorios 5 ES, FR,
GR, IT y SP, que corresponde a los 5 idiomas. Cada subdirectorio {ES, FR, GR, IT, SP} contiene 5
archivos, cada uno con ndices de los documentos escritos o traducidos en ese idioma. Por ejemplo, ES
contiene archivos:
- Index_EN-ES: documentos originales en ingls
- Index_FR-ES: documentos franceses traducidos al Ingls
- Index_GR-ES: documentos alemanes traducidos al Ingls
- Index_IT-ES: documentos italianos traducidos al Ingls
- Index_SP-ES: documentos espaoles traducidos al Ingls
Y lo mismo para los otros 4 idiomas.
Cada archivo contiene un documento indexado por lnea, en un formato similar al SVM_light. Cada lnea
es de la forma: : : Donde ... es la etiqueta de categora, es decir, uno de C15, CCAT, E21, ECAT, GCAT o
M11. : es la caracterstica, par de valores, en orden ascendente del ndice de funcin.
El orden de los documentos se mantiene en archivos correspondientes, por ejemplo, FR / Index_EN-FR y

ES / Index_EN-ES tienen el mismo nmero de documentos (y por lo tanto el mismo nmero de lneas), en
el mismo orden.
Nos centramos en seis categoras relativamente populosos: C15, CCAT, E21, ECAT, GCAT, M11. Para
cada lengua y cada clase, tomamos muestras de hasta 5.000 documentos de la RCV1 (para Ingls) o
RCV2 (para otros idiomas). Documentos pertenecientes a ms de una de nuestras 6 clases se les asign
la etiqueta de su clase ms pequea. Esto dio lugar a los documentos 12-30K por idioma, y los
documentos 11-34K por clase. La distribucin de documentos a travs de las lenguas y las clases son:
Nmero de vocabulario
El tamao de los documentos de Idiomas porcentaje
**********************************************
Ingls 18.758 16,78 21.531
Francs 26.648 23,45 24.893
German 29.953 26,80 34.279
Italian 24.039 21,51 15.506
Espaol 12.342 11.46 11.547
-------
Total 111.740
La distribucin de las clases en toda la coleccin es

Nmero de
Documentos Clase porcentaje
*******************************
C15 18816 16.84
CCAT 21426 19.17
E21 13701 12.26
ECAT 19198 17.18
GCAT 19178 17.16
M11 19421 17.39
En los experimentos que realizamos en cite {} Aug09, consideramos cada documento disponible en un
idioma determinado como la vista observada para un ejemplo y todos los documentos traducidos se
utilizaron como los otros puntos de vista para que el ejemplo, generado utilizando la traduccin
automtica. Los resultados mostrados en este estudio fueron en promedio ms de 10 muestras al azar de
10 ejemplos etiquetados por vista para la formacin, y el 20% de la coleccin para la prueba.
Massih-Reza Amini, Nicolas Usunier y Cyril Goutte. Aprender de mltiples vistas parcialmente
observados - una aplicacin para que Categorizacin textos en varios idiomas. Los avances en los
sistemas neuronales de procesamiento de informacin 22, pp 28-36, 2009
Massih-Reza Amini y Cyril Goutte. Un enfoque de clasificacin para el aprendizaje a partir de corpus
multilinge. Aprendizaje Automtico Diario Springer, 79 (1-2) :105-121, 2010
Abhishek Kumar, Hal Dauma III. Un enfoque de co-formacin para mltiples vistas clustering
espectral. Conferencia Internacional sobre Aprendizaje Automtico, pp 393-400. 2011
Cita de pedidos:
Si publica los resultados sobre la base de este conjunto de datos, por favor, mencione su uso, al hacer
referencia a:
M.-R. Amini, N. Usunier, C. Goutte. Aprender de mltiples vistas parcialmente observados - una
aplicacin para que Categorizacin textos en varios idiomas. Los avances en los sistemas de
procesamiento de informacin neural 22, p. 28-36, 2009
Reuters Transcrito subconjunto del conjunto de

datos
Resumen: Este conjunto de datos se crea mediante la lectura de 200 archivos de los 10 ms grandes
clases de Reuters y el uso de un sistema de reconocimiento automtico de voz para crear
transcripciones correspondientes.

Texto 200 rea: Negocios

N/A Fecha Donado

Fuente:
Shourya Roy
shourya.roy '@' gmail.com
y
Shantanu Godbole
shantanu '@' godbole.net

Caractersticas de los datos:
--------------------
Estos datos se cre mediante la seleccin de 20 archivos cada una de las 10 clases ms grandes
en la coleccin Reuters-21578
( [Web Link] ).
Los archivos fueron ledos por 3 altavoces de la India y una de voz automtico
Se utiliz Reconocimiento sistema (ASR) para generar las transcripciones. Ms sobre el
Sistema de ASR se puede encontrar en [1]. Tal conjunto de datos va a ser muy til para
estudiar el efecto del ruido de reconocimiento de voz en los algoritmos de minera de texto.
La primera obra que refiri a esta base de datos estaba en clasificacin de texto ruidoso [2].
Formato de datos:
----------
Hay 10 directorios etiquetados con el nombre del tema.
Cada uno contiene 20 archivos de transcripciones.
Referencias:
----------
[1] LR Bahl, S. Balakrishnan-Aiyer, J. Bellegarda, M. Franz,
P. Gopalakrishnan, D. Nahamoo, M. Novak, M. Padmanabhan,
M. Picheny y S. Roukos,
Rendimiento del vocabulario amplio sistema de reconocimiento de habla continua IBM en
la tarea Wall Street Journal ARPA.
En Proc. de ICASSP '95,
pginas 41-44, Detroit, MI, 1995.
[2] S. Agarwal, S. Godbole, D. Punjani y S. Roy,
Cunto ruido es demasiado: Un estudio en clasificacin automtica de texto ',
En Proc. de ICDM 2007
'"Cunto ruido en texto es demasiado: A Study in Clasificacin automtico de documentos", ICDM 2007,
Sumeet Agarwal, Shantanu Godbole, Diwakar Punjani y Shourya Roy
Reuters-21578 Texto Categorizacin Coleccin

de conjunto de datos
Resumen: Se trata de una coleccin de documentos que apareci en Reuters de noticias en 1987. Los
documentos fueron reunidos y se indexan con categoras.



perdidos? Accesos:
Fuente:
David D. Lewis
AT & T Labs. - Investigacin
lewis '@' research.att.com
Documentos vinieron de Reuters de noticias en 1987.

Desde el archivo readme originales (consultar para ms informacin):
-------------------------
Los documentos de la coleccin Reuters-21578 aparecieron en la agencia de noticias Reuters en
1987. Los documentos fueron reunidos y se indexan con categoras por personal de Reuters Ltd. (Sam
Dobbins, Mike Topliss, Steve Weinstein) y Carnegie Group, Inc. (Peggy Andersen, Monica Cellio, Phil
Hayes, Laura Knecht, Irene Nirenburg) en 1987.
En 1990, se pusieron a disposicin los documentos por Reuters y CGI con fines de investigacin en el
Laboratorio de Recuperacin de Informacin (W. Bruce Croft, Director) del Departamento de Informtica y
Ciencias de la Informacin en la Universidad de Massachusetts en Amherst. Formato de los documentos
y de la produccin de archivos de datos asociados se hizo en 1990 por David D. Lewis y Stephen Harding
en el Laboratorio de Recuperacin de la Informacin.
Adems el formato de archivo de datos y la produccin se hizo en 1991 y 1992 por David D. Lewis y
Peter Zapatero en el Centro de Estudios de Idiomas de la Informacin y de la Universidad de
Chicago. Esta versin de los datos se hizo disponible para FTP annimo como "Reuters-22173,
Distribucin 1.0" en enero de 1993. Desde 1993 hasta 1996, Distribucin 1.0 fue alojado en una sucesin
de sitios FTP que mantiene el Centro de Recuperacin de Informacin Inteligente (W. Bruce Croft,
Director) del Departamento de Ciencias de la Computacin en la Universidad de Massachusetts en
Amherst.
En la conferencia ACM SIGIR '96 en agosto de 1996 un grupo de investigadores de categorizacin de

texto discute cmo los resultados publicados sobre Reuters-22173 podran ser ms comparables entre
los estudios. Se decidi que una nueva versin de la coleccin debe ser producido con un formato menos
ambigua, y que incluye la documentacin explicando cuidadosamente los mtodos estndar de uso de la
coleccin. La oportunidad tambin se utiliza para corregir una variedad de errores tipogrficos y otros en
la categorizacin y el formato de la coleccin.
Steve Finch y David D. Lewis hizo esta limpieza de la coleccin de septiembre a noviembre de 1996, la
fuerte dependencia de la versin de etiquetado SGML de Finch de la coleccin de un estudio
anterior. Uno de los resultados de la revisin de la coleccin fue la eliminacin de 595 documentos que
eran rplicas exactas (basada en la identidad de las marcas de tiempo hasta el segundo) de otros
documentos de la coleccin. Por ello, la nueva coleccin tiene slo 21.578 documentos, y as se llama la
coleccin Reuters-21578. Este README describe la versin 1.0 de esta nueva coleccin, la cual nos
referimos como "Reuters-21578, Distribucin 1.0".
En la preparacin de la reunin y la documentacin que nos hemos beneficiado de las discusiones con
Eric Brown, William Cohen, Fred Damerau, Yoram Cantante, Amit Singhal, y Yiming Yang, entre muchos
otros.
Agradecemos a todas las personas y organizaciones que se enumeran ms arriba por su esfuerzo y
apoyo, sin el cual no existira esta coleccin.
Reuters-21578, Distribucin 1.0 incluye cinco archivos (todos-los intercambios-strings.lc.txt, todo-orgs-
strings.lc.txt, de todo el pueblo-strings.lc.txt, todo-lugares-strings.lc.txt, y todo-temas-strings.lc.txt) que
enumeran los nombres de * todas las categoras legales * en cada juego. Un sexto archivo, cat-
descriptions_120396.txt da alguna informacin adicional sobre los conjuntos de categoras.
Chidanand Apt, Fred Damerau, Sholom M. Weiss. "Automated Learning de Reglas de decisin para la
Categorizacin de texto." Transacciones de ACM en Sistemas de Informacin, 1994.
[Web Link]
Chidanand Apt, Fred Damerau, Sholom M. Weiss, "Hacia el aprendizaje de idiomas Automatizado
Independiente de modelos de categorizacin de texto." SIGIR 1994.
[Web Link]
Philip J. Hayes, Peggy M. Anderson, rene B. Nirenburg, Linda M. Schmandt. "TCS: A Shell para
contenido basado en texto Categorizacin". IEEE Conferencia sobre Aplicaciones de Inteligencia Artificial,
1990.
[Web Link]
Philip J. Hayes y Steven P. Weinstein. "Interpretar / TIS: Un sistema para contenido basado en la
indizacin de una base de datos de News Stories". Segunda Conferencia Anual de Aplicaciones
innovadoras de la Inteligencia Artificial, 1990.
[Web Link]
Documentos que citan este conjunto de datos 1:
. Manuel Oliveira Biblioteca Release Form Nombre del Autor: Stanley Robson de Oliveira Medeiros Ttulo
de la tesis: transformacin de datos para la privacidad-Preservar Data Mining Titulacin: Doctor en
Filosofa Ao este ttulo otorgado . Universidad de Alberta Library. 2005. [ Ver Contexto ].
David Littau y Daniel Boley. Usando poca memoria Representaciones con el clster conjuntos muy
grandes de datos . SDM. 2003. [ Ver Contexto ].
Bianca Zadrozny y Charles Elkan. Transformacin de las puntuaciones de clasificador en estimaciones

precisas de probabilidad multiclase . KDD. 2002. [ Ver Contexto ].
Vijay S. Iyengar y Chidanand Apt y Tong Zhang. aprendizaje activo utilizando remuestreo
adaptativo . KDD. 2000. [ Ver Contexto ].
Dmitry Pavlov y Jianchang Mao y Byron Dom. Mquinas de Vectores Soporte Scaling-Up Uso Impulsar
Algoritmo . ICPR. 2000. [ Ver Contexto ].
Daphne Koller y Mehran Sahami. Hacia ptima Seleccin de caractersticas . ICML. 1996. [ Ver
Contexto ].
. Omid Madani y David M. Pennock y Gary William Flake Co-validacin: El uso de modelos Desacuerdo
para validar algoritmos de clasificacin . Yahoo! Research Labs. [Ver Contexto ].
Thomas T. Osugi y MS BASADO EN LA EXPLORACIN DE APRENDIZAJE MQUINA

ACTIVE . Facultad de El Colegio de Graduados de la Universidad de Nebraska en cumplimiento parcial
de los requisitos. [ Ver Contexto ].
Vikas Sindhwani y P. Bhattacharya y Subrata Rakshit. teora de la informacin de funciones de

Acreditacin en Mquinas de Vectores Soporte multiclase . [ Ver Contexto ].
Cita de pedidos:
El copyright del texto de los artculos de noticias y anotaciones de Reuters en la coleccin Reuters-21578
reside con Reuters Ltd. Reuters Ltd. y Carnegie Group, Inc. han acordado permitir la distribucin gratuita
de estos datos para fines de investigacin * solamente *.
Si publica los resultados sobre la base de este conjunto de datos, por favor, mencione su uso, consulte el
conjunto de datos con el nombre "Reuters-21578, Distribucin 1.0", e informar a sus lectores de la
ubicacin actual del conjunto de datos (vase "Disponibilidad y Preguntas ").
Reuter_50_50 Conjunto de datos

Resumen: El conjunto de datos se utiliza para la identificacin de la autora en lnea Writeprint que es un
nuevo campo de investigacin de reconocimiento de patrones.
Conjunto de datos Multivariante, Texto, Nmero de

2500 rea: Ordenador


Fuente:
Creador de conjunto de datos y donante: ZhiLiu, e-mail: liuzhi8673 '@' gmail.com, institucin: Centro de
Investigacin de Ingeniera Nacional de E-Learning de Hubei, Wuhan, China

El conjunto de datos es el subconjunto de RCV1. Estos corpus ya se ha utilizado en experimentos de
identificacin de autor. En los 50 primeros autores (con respecto al tamao total de artculos) fueron
seleccionados. 50 autores de los textos marcados con al menos un subtema de la CCAT clase
(empresarial / industrial) estaban muy por selected.That, se intenta reducir al mnimo el factor de tema en
la distincin entre los textos. El corpus de entrenamiento consta de 2.500 textos (50 por autor) y el corpus
de prueba incluye otros 2.500 textos (50 por autor) no se solapan con los textos de formacin.
Los atributos del conjunto de datos son de carcter n-gramas (n = 1-5)
J. Houvardas, E. Stamatatos, Feature Oen-grama de seleccin para la autora de identificacin,
en Proc. de la 12 Int.. Conf. sobre Inteligencia Artificial: Metodologa, Sistemas, Aplicaciones, vol. 4183,
pp.77-86, (2006) 12-15 septiembre; Varna, Bulgaria.
E. Stamatatos, Author identificacin Usando desequilibrada y Limited Textos de capacitacin,
En Proc. del 4 Taller Internacional sobre Recuperacin de Informacin basado en texto, (2007) 3 a 7
septiembre; Regensburg, Alemania.
Las fallas de ejecucin Robot Data

Set
Resumen: Este conjunto de datos contiene las medidas de fuerza y par
motor en un robot despus de la deteccin de fallos. Cada fracaso se
caracteriza por las muestras 15 fuerza / par recogidos a intervalos de tiempo
regulares

463 rea: Fsico


Fuente:
Propietario original y de los donantes:
Luis Seabra Lopes y Luis M. Camarinha-Matos

Universidade Nova de Lisboa,
Monte da Caparica, Portugal

La donacin incluye 5 conjuntos de datos, cada uno de ellos la definicin de un problema de aprendizaje
diferente:
* LP1: fallos en el enfoque para captar la posicin

* LP2: fallas en la transferencia de una parte
* LP3: posicin de la pieza despus de un error de transferencia
* LP4: fallos en el enfoque de inasible posicin
* LP5: fallos en movimiento con la parte
Con el fin de mejorar la precisin de la clasificacin, un conjunto de cinco estrategias de transformacin

de caractersticas (en base a las caractersticas de resumen estadstico, transformada discreta de
Fourier, etc) ha sido definido y evaluado. Esto permiti una mejora promedio de 20% en la precisin. La
referencia ms accesible es [Seabra Lopes y Camarinha-Matos, 1998].
Todas las caractersticas son numricos, aunque se entero valoran solamente. Cada caracterstica
representa una fuerza o un par medido despus de la deteccin de fallos; cada caso de fallo se
caracteriza en trminos de muestras 15 fuerza / par recogidos a intervalos de tiempo regulares
comenzando inmediatamente despus de la deteccin de fallos; La ventana de observacin total para
cada instancia de fracaso fue de 315 ms.
Cada ejemplo se describe como sigue:
clase
Fx1 Fy1 Fz1 Tx1 Ty1 TZ1
Fx2 Fy2 FZ2 Tx2 Ty2 tz2
......
FX15 FY15 FZ15 TX15 Ty15 TZ15
donde Fx1 ... FX15 es la evolucin de la fuerza Fx en la ventana de observacin, lo mismo para Fy, Fz y
los pares; hay un total de 90 funciones.
Seabra Lopes, L. (1997) "El aprendizaje del robot en el nivel de tarea: un estudio en el dominio de la
Asamblea", Ph.D. tesis, Universidade Nova de Lisboa, Portugal.
[Web Link]
Seabra Lopes, L. y LM Camarinha-Matos (1998) Estrategias de funciones de transformacin para un

Aprendizaje Problema Robot ", extraccin de caractersticas, Construccin y Seleccin. Una Perspectiva
de minera de datos", H. Liu y H. Motoda (edrs.), Kluwer Academic Editores.
[Web Link]
Camarinha-Matos, LM, L. Seabra Lopes, y J. Barata (1996) La integracin y el aprendizaje en la

supervisin de los sistemas de montaje flexibles, "IEEE Transactions on Robotics and Automation", 12
(2), 202-219.
[Web Link]
SECOM Conjunto de datos

Resumen: Los datos de un proceso de fabricacin de semiconductores


Tareas asociadas: Clasificacin, Valores S Nmero de 22084

causal-Discovery perdidos? Web Accesos:
Fuente:
Autores: Michael McCann, Adrian Johnston

Un complejo proceso de fabricacin de semiconductores moderno es normalmente bajo la vigilancia
constante a travs de la monitorizacin de seales / variables recogidas de los sensores y los puntos de
medicin o proceso. Sin embargo, no todas estas seales son igualmente valiosas en un sistema de
control especfico. Las seales medidas contienen una combinacin de informacin til, informacin
irrelevante, as como el ruido. A menudo es el caso que la informacin til est enterrado en los dos
ltimos. Ingenieros tpicamente tienen un nmero mucho mayor de las seales que se requiere
realmente. Si consideramos cada tipo de seal como una caracterstica, a continuacin, la seleccin de
caractersticas se puede aplicar para identificar las seales ms relevantes. Los ingenieros de procesos
pueden entonces usar estas seales para determinar los factores clave que contribuyen a producir
excursiones aguas abajo en el proceso. Esto permitir un incremento en el rendimiento del proceso,
disminucin del tiempo de aprendizaje y reducir los costos por unidad de produccin.
Para mejorar las tcnicas de mejora de negocio actuales se est investigando la aplicacin de seleccin
de caractersticas como tcnica de sistemas inteligentes.
El conjunto de datos presentados en este caso representa una seleccin de estas caractersticas, donde
cada ejemplo representa una sola entidad de produccin con caractersticas asociadas medida y las
etiquetas de representar una sencilla rendimiento pasa / no pasa en las pruebas internas de lnea, figura
2, y la fecha asociada sello de tiempo. Dnde -1 corresponde a un paso y 1 corresponde a un error y el
sello de tiempo de datos es para ese punto especfico de examen.
El uso de tcnicas de seleccin de funcin que se desea clasificar caractersticas de acuerdo a su

impacto en el rendimiento global del producto, relaciones causales tambin pueden ser considerados con
el fin de identificar las caractersticas clave.
Los resultados pueden ser presentados en trminos de relevancia para la funcin de la previsibilidad
utilizando las tasas de error como nuestras mtricas de evaluacin.Se sugiere que se aplique la
validacin cruzada para generar estos resultados. Algunos resultados de referencia se muestran a
continuacin para las tcnicas bsicas de seleccin de caractersticas utilizando un sencillo clasificador
cresta ncleo y 10 veces la validacin cruzada.
Resultados iniciales: objetos de pre-procesamiento se aplican al conjunto de datos simplemente para

estandarizar los datos y eliminar las constantes y luego se aplicaron una serie de diferentes objetos de
seleccin de funcin de seleccionar 40 funciones de ms alto rango con un simple clasificador para lograr
algunos resultados iniciales. 10 veces la validacin cruzada se utiliz y la tasa de error equilibrado (*
BER) genera como nuestra mtrica de rendimiento inicial para ayudar a investigar este conjunto de
datos.
SECOM Dataset: 1.567 ejemplos 591 caractersticas, 104 falla
FSmethod (40 funciones) BER% Verdadero +% Verdadero -%

S2N (seal a ruido) 34,5 + -2,6 57,8 -5,3 73,1 + 2,1
Ttest 33,7 + -2,1 59,6 -4,7 73,0 + -1,8 +
Alivio de 40,1 + -2,8 48,3 -5,9 71,6 + -3,2 +
Pearson 34,1 + -2,0 57,4 -4,3 74,4 + -4,9 +
Prueba F 33,5 + -2,2 59,1 -4,8 73,8 + -1,8 +
Gram Schmidt 35,6 + -2,4 51,2 -11,8 + 77,5 + -2,3
Datos clave: Estructura de datos: Los datos se compone de 2 archivos de la SECOM archivo de conjunto
de datos que consta de 1.567 ejemplos, cada uno con 591 cuenta con una matriz de 1567 x 591 y un
archivo que contiene las etiquetas de las clasificaciones y fecha de sello de tiempo para cada ejemplo.
Al igual que en cualquier situacin de la vida real de datos de estos datos contiene valores nulos que
varan en intensidad dependiendo de las caractersticas de los individuos. Esto debe ser tenido en cuenta
en la investigacin de los datos, ya sea a travs de pre-procesamiento o dentro de la tcnica aplicada.
Los datos se representan en un archivo de texto sin formato de cada lnea representa un ejemplo
individual y las caractersticas separados por espacios. Los valores nulos son representados por el valor
de "NaN" segn MatLab.
semillas del conjunto de datos

Resumen: Las mediciones de las propiedades geomtricas de los ncleos pertenecientes a tres
diferentes variedades de trigo. Un paquete de la tcnica y los granos de rayos X blandos se utiliza para
construir las siete, los atributos con valores reales.


Real 7 Fecha Donado
Clasificacin, Valores N/ Nmero de Web

Clustering perdidos? A Accesos:
Fuente:
Maa, gorzata Charytanowicz, Jerzy Niewczas
Instituto de Matemticas y Ciencias de la Computacin,
La Universidad Catlica Juan Pablo II de Lublin, Konstantyn w 1 H,
PL 20-708 Lublin, Polonia
e-mail: {mchmat, jniewczas} @ kul.lublin.pl
Piotr Kulczycki, Piotr A. Kowalski, Szymon Lukasik, Slawomir Zak

Departamento de Automtica y Tecnologa de la Informacin,
Cracow University of Technology, Warszawska 24, PL 31-155 Cracovia, Polonia
y
Instituto de Investigacin de Sistemas de la Academia Polaca de Ciencias, Newelska 6,
PL 01-447 Varsovia, Polonia
e-mail: {Kulczycki, pakowal, slukasik, slzak} @ ibspan.waw.pl

El grupo examin compone ncleos pertenecientes a tres diferentes variedades de trigo: Kama, Rosa y
canadienses, 70 elementos cada uno, seleccionados al azar para
el experimento. Visualizacin de alta calidad de la estructura interna del ncleo se detect utilizando una
tcnica de rayos X blandos. Es no-destructiva y considerablemente ms barato que otras tcnicas de
imagen ms sofisticadas, como la microscopa de barrido o la tecnologa lser. Las imgenes fueron
registradas en las placas de rayos X Kodak 13x18 cm. Los estudios se llevaron a cabo utilizando la
cosechadora cosecha de trigo de grano procedentes de campos experimentales, exploradas en el
Instituto de Agrophysics de la Academia Polaca de Ciencias en Lublin.
El conjunto de datos se puede utilizar para las tareas de clasificacin y anlisis de conglomerados.
Para construir los datos, se midieron siete parmetros geomtricos de los granos de trigo:
1. rea A,
2. permetro P,
3. compacidad C = 4 * pi * A / P ^ 2,
4. longitud del ncleo,
5. anchura del ncleo,
6. coeficiente de asimetra
7. la longitud de la ranura del ncleo.
Todos estos parmetros eran reales-valorado continuo.
M. Charytanowicz, J. Niewczas, P. Kulczycki, PA Kowalski, S. Lukasik, S. Zak, "un algoritmo de
agrupamiento Gradient completo para funciones de anlisis de imgenes de rayos X", en: Tecnologas de
la Informacin en Biomedicina, Ewa Pietka, Jacek Kawa (eds.), Springer-Verlag, Berlin-Heidelberg, 2010,
pp 15-24.
Cita de pedidos:
Colaboradores agradecen el apoyo de su trabajo por el Instituto de Agrophysics de la Academia Polaca
de Ciencias en Lublin.
ssmicas de gallina Data Set
Resumen: Los datos describen el problema de la alta energa (mayor que 10 ^ 4 J) golpes ssmicos
previsin en una mina de carbn. Los datos provienen de dos de tajos largos situados en una mina de
carbn de Polonia.


Real 19 Fecha Donado 04/03/2013

perdidos? Accesos:
Fuente:
Proporcionar los nombres, direcciones de correo electrnico, las instituciones, y otra informacin de
contacto de los donantes y los creadores de la serie de datos.
Marek Sikora ^ {1,2} (marek.sikora '@' polsl.pl), Lukasz Wrobel ^ {1} (lukasz.wrobel '@' polsl.pl)
(1) Instituto de Ciencias de la Computacin, Universidad Tecnolgica de Silesia, 44-100 Gliwice, Polonia
(2) Instituto de Innovative Technologies EMAG, 40-189 Katowice, Polonia

La actividad minera fue y siempre est conectado con la aparicin de peligros que son comnmente
llamados
peligros mineras. Un caso especial de tal amenaza es una amenaza ssmica que ocurre con frecuencia
en muchos
minas subterrneas. El peligro ssmico es el ms difcil detectables y predecibles de los riesgos naturales
y en
este respecto, es comparable a un terremoto. Ms y ms avanzados ssmica y seismoacoustic
sistemas de monitoreo permiten una mejor comprensin de los procesos del macizo rocoso y la definicin
de la amenaza ssmica
mtodos de prediccin. Precisin de los mtodos hasta ahora creados es sin embargo lejos de ser
perfecto. Complejidad del
procesos ssmicos y gran desproporcin entre el nmero de eventos ssmicos de baja energa y el
nmero
de los fenmenos de alta energa (por ejemplo,> 10 ^ 4J) hace que las tcnicas estadsticas son
insuficientes para predecir
amenaza ssmica. Por lo tanto, es esencial para la bsqueda de nuevas oportunidades de una mejor
prediccin de peligros,
tambin utilizando mtodos de aprendizaje automtico. En peligro ssmico tcnicas de agrupamiento de
datos de evaluacin pueden ser
aplicada (Lesniak A., Isakow Z.: agrupacin espacio-temporal de los eventos ssmicos y evaluacin de los
peligros de la
Mina de carbn Zabrze-Bielszowice, Polonia. Int. Diario de Mecnica de Rocas y las Ciencias de la
explotacin minera, 46 (5), 2009,
918-928), y para la prediccin de temblores ssmicos redes neuronales artificiales se utilizan (Kabiesz, J.:
Efecto
de la forma de los datos sobre la calidad de la mina de la previsin de riesgos temblores usando redes
neuronales.
Geotcnico e Ingeniera Geolgica, 24 (5), 2005, 1131-1147). En la mayora de las aplicaciones, la
resultados obtenidos por los mtodos mencionados se presentan en forma de dos estados que se
interpreta como
'Peligrosos' y 'no peligrosos'. Distribucin desequilibrada de positivo ("estado peligroso") y negativo
("Estado no peligrosos) ejemplos es un problema grave en la prediccin del riesgo ssmico. Actualmente
se utiliza
mtodos son todava insuficientes para lograr una buena sensibilidad y especificidad de las
predicciones. En el documento de
(Bukowska M.: La probabilidad de ocurrencia rockburst en el rea de la Cuenca del Carbn Alta Silesia
dependientes
condiciones de la minera naturales. Revista de Ciencias de la explotacin minera, 42 (6), 2006, 570-577)
una serie de factores que tienen
Se propuso un efecto sobre la ocurrencia de riesgo ssmico, entre otros factores, la aparicin de
temblores con
energa> 10 ^ 4J fue incluido. La tarea de la prediccin ssmica se puede definir de diferentes maneras,
pero el principal
objetivo de todos los mtodos de evaluacin de riesgos ssmicos es predecir (con una precisin dada en
relacin con el tiempo y
fecha) de aumento de la actividad ssmica que puede causar un rockburst. En el conjunto de datos de
cada fila contiene un
resumen sobre la actividad ssmica en el macizo rocoso en un turno (8 horas). Si la decisin
atributo tiene el valor 1, a continuacin, en el prximo turno de cualquier golpe ssmico con una energa
superior a 10 ^ 4 J era
registrado. Esa tarea de Peligros de prediccin bases sobre la relacin entre la energa de grabado
temblores y actividad seismoacoustic con la posibilidad de ocurrencia rockburst. Por lo tanto, tal peligro
el pronstico no est conectado con la prediccin rockburst exacta. Por otra parte, con la informacin
sobre la
posibilidad de ocurrencia peligrosa situacin, el servicio de supervisin adecuada puede reducir el riesgo
de
rockburst (por ejemplo, mediante disparos angustiante) o retirar los trabajadores de las zonas
amenazadas. Buena prediccin
por lo tanto, de aumento de la actividad ssmica es un asunto de gran importancia prctica. Los datos
presentados
conjunto se caracteriza por una distribucin desequilibrada de los ejemplos positivos y negativos. En el
conjunto de datos no
estn a slo 170 ejemplos positivos que representan la clase 1.
Atributo informacin:
1. ssmica: resultado del cambio de la evaluacin del peligro ssmico en la mina de trabajo obtenido por la
ssmica
mtodo (a - la falta de peligro, b - peligro bajo, c - alta peligrosidad, d - estado de peligro);
2. seismoacoustic: resultado del cambio de la evaluacin del peligro ssmico en la mina de trabajo
obtenido por el
mtodo seismoacoustic;
3. Turno: informacin sobre el tipo de cambio (W - carbn-que consigue, cambio de N-preparacin);
4. Genergy: energa ssmica registrada en turno anterior por el gefono ms activo (GMax) de
gefonos monitoreo del tajo largo;
5. gpuls: un nmero de impulsos registrados en turno anterior por GMax;
6. gdenergy: una desviacin de la energa registrada en turno anterior por GMax de energa promedio
registrado
durante ocho turnos anteriores;
7. gdpuls: una desviacin de un nmero de impulsos registrados dentro de turno anterior por GMax de
nmero promedio
de pulsos registrados durante ocho cambios anteriores;
8. ghazard: resultado del cambio de la evaluacin del peligro ssmico en la mina de trabajo obtenido por
el
mtodo seismoacoustic basado en formulario de inscripcin que viene slo GMax;
9. nbumps: el nmero de golpes ssmicos registrados en turno anterior;
10. nbumps2: el nmero de golpes ssmicos (en el rango de energa [10 ^ 2,10 ^ 3)) registrado en turno
anterior;
anterior;
anterior;
13. nbumps5: el nmero de golpes ssmicos (en el rango de energa [10 ^ 5,10 ^ 6)) registrada en el
ltimo turno;
anterior;
anterior;
anterior;
17. energa: la energa total de golpes ssmicos registrados en turno anterior;
18. maxenergy: la energa mxima de los golpes ssmicos registrados en turno anterior;
19. clase: el atributo de decisin - '1 'significa que la alta energa golpe ssmico se produjo en el siguiente
turno
("Estado peligroso"), '0 'significa que no hay golpes ssmicos de alta energa se produjeron en el siguiente
turno
("Estado no peligrosos).
Cita de pedidos:
Solicitud de cita
Sikora M., Wrobel L.: La aplicacin de algoritmos de induccin de reglas para el anlisis de los datos
recogidos por ssmica
sistemas de vigilancia de los peligros de las minas de carbn. Archivos de Ciencias de la Minera, 55 (1),
2010, 91-114.
Semeion Digit manuscritas de la serie de
datos
Resumen: 1.593 dgitos escritos a mano de alrededor de 80 personas fueron escaneados, se
extenda en una caja rectangular de 16x16 en una escala de grises de 256 valores.



perdidos? Accesos:
Fuente:
El conjunto de datos fue creada por Tactile Srl, Brescia, Italia ( http://www.tattile.it ) y don en 1994 al
Centro de Investigacin Semeion de Ciencias de la Comunicacin, Roma, Italia ( http://www.semeion.it ),
para la investigacin de aprendizaje automtico.
Para cualquier duda, e-mail Massimo Buscema (m.buscema '@' semeion.it) o Stefano
Terzi (s.terzi '@' semeion.it)

1593 dgitos escritos a mano de alrededor de 80 personas fueron escaneados, se extenda en una caja
rectangular de 16x16 en una escala de grises de 256 values.Then cada pxel de cada imagen se redujo
en un bolean (1/0) valor con un umbral fijo.
Cada persona escribe en un papel todos los dgitos del 0 al 9, en dos ocasiones. El compromiso era
escribir el dgito de la primera vez en la forma normal (intentar escribir cada dgito con precisin) y el
segundo tiempo de una manera rpida (con ninguna precisin).
El mejor protocolo de validacin para este conjunto de datos parece ser un 5x2CV, 50% Tune (Tren +
Test) y completamente ciego 50% Validacin
Este conjunto de datos consta de 1593 registros (filas) y 256 atributos (columnas).
Cada registro representa un dgito manuscrito, originalmente digitalizada con una resolucin de 256
escala de grises (28).
Cada pxel de la imagen de cada original escaneado se estir primero, y despus a escala entre 0 y 1
(puesta a 0 todos los pxeles cuyo valor estaba bajo tha valor 127 de la escala de grises (127 incluido) y
ajustando en 1 cada pxel cuyo valor orinal en la escala de grises estaba sobre 127).
Por ltimo, cada imagen binaria se redujo de nuevo en una caja cuadrada de 16x16 (los ltimos 256
atributos binarios).
M Buscema, Metanet: La Teora de jueces independientes, en el uso de sustancias y mal uso 33 (2)
1998, pp 439-461.
Cita de pedidos:
Centro de Investigacin Semeion de Ciencias de la Comunicacin, a travs de Sersale 117, 00128 Roma,
Italia
Tattile Via Gaetano Donizetti, 1-3-5,25030 Mairano (Brescia), Italia.
Ser Conocimiento Modelado de datos (Niveles

de conocimiento de los estudiantes en las
mquinas elctricas de corriente continua)
Conjunto de datos
Resumen: El conjunto de datos es acerca de las actividades de aprendizaje de los usuarios y los niveles
de conocimiento sobre temas de Mquinas elctricas de corriente continua. El conjunto de datos se
haban obtenido de web-cursos en lnea y publicado en mi doctorado Tesis.


Real 5 Fecha Donado 06/20/2013

Fuente:
- Creadores: Hamdi Tolga Kahraman, Ilhami Colak, Seref Sagiroglu
- Institucin: Facultad de Tecnologa, Departamento de Ingeniera de Software de la Universidad Tcnica
de Karadeniz, Trabzon, Turkiye
- Donantes: Estudiantes del Departamento de Educacin Elctrica de la Universidad de Gazi
- Fecha: octubre de 2009
Kahraman, HT (2009). Diseo y Aplicacin de la adaptacin del Sistema Educativo Inteligente basado en
Web. Universidad Gazi Tesis Doctoral, Turqua, 1-156.

- La clase de conocimiento de los usuarios fueron clasificados por los autores
utilizando clasificador conocimiento intuitivo (una tcnica hbrida de ML k-NN y meta-heursticas explorar
mtodos), el algoritmo de k-vecino ms cercano.
Ver artculo para ms detalles sobre cmo se recogi y se evaluaron por el servidor de modelado de
usuario de datos de los usuarios.
Kahraman, HT, Sagiroglu, S., Colak, I., Desarrollo clasificador conocimiento intuitivo y el modelado de
datos dependientes de dominio de los usuarios en la web,
Sistemas basados en el conocimiento, vol. 37, pp 283-295, 2013.
Kahraman, HT (2009). Diseo y Aplicacin de la adaptacin del Sistema Educativo Inteligente basado en
Web. Universidad Gazi Tesis Doctoral, Turqua, 1-156.
STG (El grado de tiempo de estudio para materails objeto gol), (valor de entrada)
SCG (El grado de repeticin de nmero de usuario para materails objeto meta) (valor de entrada)
STR (El grado de tiempo de estudio de usuario para los objetos relacionados con el objeto meta) (valor
de entrada)
LPR (El rendimiento en los exmenes de usuario para los objetos relacionados con el objeto meta) (valor
de entrada)
PEG (El rendimiento en los exmenes de usuario para los objetos meta) (valor de entrada)
UNS (el nivel de conocimiento del usuario) (valor objetivo)
Clase de distribucin: el valor de la clase (UNS).

Muy baja: 50
Baja: 129
Medio: 122
alta 130
Cita de pedidos:
NOTA: La reutilizacin de esta base de datos es ilimitada con la citacin para
Dr. Hamdi Tolga KAHRAMAN y et. otros, el siguiente artculo publicado:
Servo Conjunto de datos

Resumen: Los datos era de una simulacin de un sistema servo

Caractersticas del Categrico, Nmero de 4 Fecha Donado 1993-05-

atributo: Integer atributos: 01

perdidos? Accesos:
Fuente:
Creador:
Karl Ulrich (MIT)
Donante:
Ross Quinlan

Ross Quinlan:
Esta informacin fue dada a m por Karl Ulrich en el MIT en 1986. Yo no grabo su descripcin en el
momento, pero aqu est su posterior (1992) recuerdo:
"Creo recordar que los datos eran de una simulacin de un sistema servo implica un servoamplificador,
un motor, un tornillo de avance / tuerca, y un carro deslizante de algn tipo. Puede haber sido el de los
ejes de traslacin de un robot en el noveno piso del laboratorio de IA. En cualquier caso, el valor de
salida es casi seguro que un tiempo de subida, o el tiempo necesario para que el sistema responda a un
cambio de paso en un punto de referencia de la posicin ".
(Quinlan, ML'93)
"Se trata de una interesante coleccin de los datos proporcionados por Karl Ulrich Cubre un fenmeno
extremadamente no lineal -. Predecir el tiempo de subida de un servomecanismo en trminos de dos
ajustes (continuos) de ganancia y dos (discretas) opciones de conexiones mecnicas."
1. del motor: A, B, C, D, E
2. tornillo: A, B, C, D, E
3. PGain: 3,4,5,6
4. vgain: 1,2,3,4,5
5. clase: 0,13-7,10
Quinlan, JR, "Aprender con clases continuas", Proc. 5 Conferencia Conjunta de Australia el AI (eds A.
Adams y L. Sterling), Singapore: World Scientific, 1992
[Web Link]
Quinlan, JR, "La combinacin de aprendizaje y basado en modelos basados en instancia", Proc. ML'93
(ed. PE Utgoff), San Mateo: Morgan Kaufmann 1993
[Web Link]
Shuttle Landing Configuracin de
Control de Datos
Resumen: base de datos de Tiny; todos los valores nominales



perdidos? Accesos:
Fuente:
Fuente original:
desconocido
NASA: equipo de diseo autolander del Sr. Roger Burke
Donante:
Bojan Cestnik
Jozef Stefan Institute
Jamova 39
61000 Ljubljana
Yugoslavia (tel.: (38) (61) 214-399 ext.287)

Se trata de una base de datos pequea. Michie informa que el grupo de Burke utiliza RULEMASTER para
generar reglas comprehendable para determinar las condiciones bajo las cuales un Autolanding sera
preferible el control manual de la nave espacial.
1. Clase: noauto, auto
- Es decir, aconsejar el uso de control manual / automtico
2. ESTABILIDAD: pualada, xstab
3. ERROR: XL, LX, MM, SS
4. SIGN: pp, nn
5. VIENTO: cabeza, cola
6. MAGNITUD: Bajo, Medio, Fuerte, OutOfRange
7. VISIBILIDAD: s, no
Michie, D. (1988). Gap Unbridged del Quinta Generacin. En Rolf Herken (Ed.) La mquina universal de
Turing: A mitad del siglo Survey, 466-489, Oxford University Press.
SkillCraft1 Tabla maestra de conjunto de datos

Conjunto de datos
Resumen: Estos datos se usaron en Thompson et al. (2013). Una lista de posibles acciones de juego se
discute en Thompson, Blair, Chen, y Henrey (2013).


Entero, real 20 Fecha Donado 22/10/2013

Tareas asociadas: Regresin S 8441
perdidos? Accesos:
Fuente:
- Creadores: Mark Blair, Joe Thompson, Andrew Henrey, Bill Chen
- Marcos Blair: Departamento de Psicologa; Simon Fraser University; Burnaby;
8888 University Drive; mblair '@' sfu.ca)
- Fecha: Septiembre 20, 2013

- Nos Agregamos movimientos de pantalla en pantalla-fijaciones utilizando un Salvucci y Goldberg (2000)
algoritmo de dispersin-umbral, y ciclos de accin Percepcin definidos (PACs) como fijaciones con al
menos una accin.
- El tiempo se registra en trminos de marcas de tiempo en la reproduccin del archivo de StarCraft
2. Cuando el juego se juega en 'ms rpido', 1 segundo de tiempo real es equivalente a
aproximadamente 88.5 marcas de tiempo.
- Lista de posibles acciones de juego se discute en Thompson, Blair, Chen, y Henrey (2013)
1. GameID: nmero de identificacin nico para cada juego (entero)
2. LeagueIndex: Bronce, Plata, Oro, Platino, Diamante, Maestro, el Gran Maestro, y las ligas
profesionales codificado 1-8 (ordinal)
3. Edad: Edad de cada jugador (entero)
4. HoursPerWeek: Reportado horas dedicado a jugar a la semana (entero)
5. Totalhours: Notificado el total de horas dedicado a jugar (entero)
6. APM: Accin por minuto (continua)
7. SelectByHotkeys: Nmero de unidad o edificio selecciones hechas usando teclas de acceso rpido por
marca de tiempo (continuo)
8. AssignToHotkeys: Nmero de unidades o edificios asignados a teclas de acceso rpido por marca de
tiempo (continuo)
9. UniqueHotkeys: Nmero de teclas de acceso rpido nicos utilizados por marca de tiempo (continuo)
10. MinimapAttacks: Nmero de acciones de ataque sobre el minimapa por marca de tiempo (continuo)
11. MinimapRightClicks: nmero de clic derecho en el minimapa por marca de tiempo (continuo)
12. NumberOfPACs: Nmero de PACs por marca de tiempo (continuo)
13. GapBetweenPACs: La duracin media en milisegundos entre PACs (continua)
14. ActionLatency: latencia promedio desde el inicio de un PACS a su primera accin en milisegundos
(continua)
15. ActionsInPAC: La media de nmero de acciones dentro de cada PAC (continua)
16. TotalMapExplored: El nmero de juego de 24x24 cuadrculas de coordenadas vistos por el jugador
por marca de tiempo (continuo)
17. WorkersMade: Nmero de SCV, aviones teledirigidos, y sondas entrenados por marca de tiempo
(continuo)
18. UniqueUnitsMade: une nicas hechas por marca de tiempo (continuo)
19. ComplexUnitsMade: Nmero de fantasmas, Infestors y altos templarios entrenados por marca de
tiempo (continuo)
20. ComplexAbilitiesUsed: Capacidades que requieran instrucciones de focalizacin especficos utilizados
por marca de tiempo (continuo)
1. Thompson JJ, Blair MR, Chen L, Henrey AJ (2013) Videojuego de telemetra como una herramienta
fundamental en el estudio del aprendizaje Habilidad Complex. PLoS ONE 8 (9):. E75129 [Web Link]
- Resultados:
- Liga Saltar clasificacin forestal inferencia condicional (Bronce-Gold, Silver-Platino, Oro-Diamond,
Platinum-Masters; Diamond-Profesional) mostraron cambios en los patrones de importancia variable con
habilidad.
- Atributo del preparado: Liga (ordinal)
Cita de pedidos:
Usted es libre de copiar, distribuir y comunicar pblicamente esta obra bajo las siguientes condiciones:
Deben conceder la atribucin de la obra (pero no de una manera que sugiere que el autor que usted o su
uso de la obra refrenda); Usted no puede utilizar esta obra para fines comerciales; No se puede alterar,
transformar o ampliar este trabajo. Cualquier uso adicionales requieren el permiso del titular de los
derechos (o el autor si no titular de los derechos est en la lista). Estos derechos se basan en el
reconocimiento-NoComercial-NoDerivatives licencia de Creative Commons.
Segmentacin de la piel Set de Datos

Resumen: El conjunto de datos de segmentacin de la piel se construye sobre B, G, R espacio de
color. Tema y extracutneos conjunto de datos se genera utilizando texturas de la piel de imgenes de
rostros de la diversidad de la edad, el gnero, la raza y la gente.

Real 4 Fecha Donado

perdidos? Accesos:
Fuente:
Rajen Bhatt, Abhinav Dhall, rajen.bhatt '@' gmail.com, IIT Delhi.

El conjunto de datos de la piel es recogida por muestreo aleatorio B, G, R valores de imgenes de caras
de diferentes grupos de edad (jvenes, de mediana y edad), grupos de raza (blanco, negro y asitico), y
gneros obtenidos de la base de datos y base de datos FERET PAL . Tamao de la muestra total de
aprendizaje es 245.057;de los cuales 50.859 es las muestras de piel y 194.198 se muestras no la
piel. Color FERET Image Base de datos: [Web Link] , PAL Cara Base de datos del Laboratorio de
Envejecimiento Productivo, de la Universidad de Texas en Dallas: [Web Link] .
Este conjunto de datos es de la dimensin 245057 * 4, donde las tres primeras columnas son los valores
B, G, R (x1, x2, x3 y caractersticas) y la cuarta columna es una de las etiquetas de clase (variable de
decisin y).
1. Rajen B. Bhatt, Gaurav Sharma, Abhinav Dhall, Santanu Chaudhury, Efficient regin de la piel
mediante la segmentacin de baja complejidad borrosa rbol de decisin MODELA , IEEE-Indicon 2009,
16 al 18 diciembre, Ahmedabad, India, pp 1-4.
2. Abhinav Dhall, Gaurav Sharma, Rajen Bhatt, Ghulam Mohiuddin Khan, Adaptive digital Makeup
, en Proc. del Simposio Internacional de Computacin Visual (ISVC) 2009, 30 de noviembre "02 de
diciembre de Las Vegas, Nevada, EE.UU., Lecture Notes in Computer Science, vol. 5876, pp 728-736.
SML2010 Conjunto de datos

Resumen: Este conjunto de datos se obtiene de un sistema de monitores montados en una casa
domtica. Se corresponde con unos 40 das de datos de seguimiento.
Multivariante,
Secuencial, Time- 4137 rea: Ordenador
Series, Texto

Real 24 01/09/2014
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Dr. Francisco Zamora-Martnez, Pablo Romeu-Guallart, el Dr. Juan Pardo.
francisco.zamora "@" uch.ceu.es
Sistemas Embebidos y de Inteligencia Artificial (ESAI) grupo de investigacin
Dep. de Ciencias Fsicas, Matema ticas y de la Computacin n
Universidad CEU Cardenal Herrera

El conjunto de datos podra contener valores perdidos. Los datos se tomaron muestras de cada minuto, la
computacin y subirlo suavizan con medios de 15 minutos. El encabezado del archivo de datos es un
comentario (comienza con #), que indica que los datos se almacenan en la que la columna (en
espaol). Los datos son informacin de tiempo est en la hora UTC.
Los atributos son:
1. Fecha: UTC.
2. Tiempo: UTC.
3. Temperatura interior (sala-comedor), en C.
4. Temperatura interior (habitacin), en C.
5. Tiempo temperatura pronstico, en A C.
6. El dixido de carbono en ppm (comedor).
7. El dixido de carbono en ppm (habitacin).
8. Humedad relativa (comedor), en%.
9. Humedad relativa (habitacin), en%.
10. Iluminacin (comedor), en Lux.
11. Iluminacin (habitacin), en Lux.
12. La lluvia, la proporcin de los ltimos 15 minutos donde se detect la lluvia (un valor en el rango
[0,1]).
13. Atardecer dom.
14. Viento, en m / s.
15. La luz del sol en la fachada oeste, en Lux.
16. La luz del sol en el este de la fachada, en Lux.
17. La luz del sol en la fachada sur, en Lux.
18. Sun irradiancia en W/m2.
19. Entlpico motor 1, 0 o 1 (on-off).
20. Motor entlpico 2, 0 o 1 (on-off).
21. Turbo motor entlpico, 0 o 1 (on-off).
22. Temperatura exterior, en A C.
23. Humedad relativa en el exterior, en%.
24. Da de la semana (calculado a partir de la fecha), 1 = lunes, 7 = Domingo.
SMS Spam Coleccin de conjunto de datos
Resumen: El spam Coleccin SMS es un sistema pblico de mensajes SMS marcados que se han
recogido para la investigacin de spam mvil.
Conjunto de datos Multivariante, Texto, Nmero de

5574 rea: Ordenador

Real N/A Fecha Donado

Fuente:
Tiago A. Almeida (talmeida ufscar.br)
Departamento de Ciencias de la Computacin
Universidad Federal de Sao Carlos (UFSCar)
Sorocaba, Sao Paulo - Brasil
Jos Mara G mez Hidalgo (jmgomezh yahoo.es)

R & D Department Optenet
Las Rozas, Madrid Espaa

Este corpus se ha recogido de forma gratuita o libre para las fuentes de investigacin en el Internet:
-> Una coleccin de 425 mensajes de spam de SMS se extrajo manualmente desde el sitio Web
Grumbletext. Este es un foro de Reino Unido en la que los usuarios de telfonos celulares hacen
declaraciones pblicas acerca de los mensajes de spam de SMS, la mayora de ellos sin reportar el
mensaje muy Spam recibidas. La identificacin del texto de los mensajes de spam en las reivindicaciones
es una tarea muy difcil y requiere mucho tiempo, y se trataba con cuidado escanear cientos de pginas
web. El sitio Web es Grumbletext: [Web Link] .
-> Un subconjunto de 3.375 SMS elegido al azar mensajes de jamn de la NUS SMS Corpus (NSC), que
es un conjunto de datos de cerca de 10.000 mensajes legtimos recogidos para la investigacin en el
Departamento de Ciencias de la Computacin en la Universidad Nacional de Singapur. Los mensajes se
originan en gran parte de los habitantes de Singapur, y la mayora de los estudiantes que asisten a la
Universidad. Estos mensajes fueron recogidos de los voluntarios que se hicieron conscientes de que sus
contribuciones iban a ser puestos a disposicin del pblico. El NUS SMS Corpus similares Libre en: [Web
Link] .
- A lista de 450 mensajes SMS jamn recogidos de la tesis doctoral de Caroline Tag disponible en [Web
Link] .
-> Por ltimo, hemos incorporado el SMS Spam Corpus v.0.1 Grande. Cuenta con 1.002 mensajes SMS
de jamn y 322 mensajes de spam y es pblico disponible en:[Web Link] . Este corpus se ha utilizado en
las siguientes investigaciones acadmicas:
[1] Gmez Hidalgo, JM, Cajigas Bringas, G., Puertas Sanz, E. Carrero Garca, SMS F. Content Based
filtrado de spam. Actas del Simposio ACM 2006 en Ingeniera de documentos (ACM DOCENG'06),
Amsterdam, Pases Bajos, 10-13, 2006.
[2] Cormack, GV, Gmez Hidalgo, JM, y Puertas S nz, E. Caracterstica de ingeniera para (SMS) de
filtrado de spam mvil. Actas de la 30 Conferencia Anual Internacional ACM sobre Investigacin y
Desarrollo en Recuperacin de Informacin (ACM SIGIR'07), Nueva York, NY, 871-872, 2007.
[3] Cormack, GV, Gmez Hidalgo, JM, y Puertas S nz, filtrado de spam E. para los mensajes
cortos. Actas de la 16 Conferencia ACM sobre la Informacin y la Gestin del Conocimiento (ACM
CIKM'07). Lisboa, Portugal, 313-320, 2007.
La coleccin est compuesta por un solo archivo de texto, donde cada lnea tiene la clase correcta
seguido del mensaje de crudo. Ofrecemos algunos ejemplos a continuacin:
Jamn Qu haces? cmo ests?

jamn Ok lar ... Bromas WIF u oni ...
jamn dun decir hor tan temprano ... U C ya continuacin, dicen ...
jamn MI NO. En Luton 0125698789 ANILLO DE M SI UR ALREDEDOR! H *
jamn Siva est en albergue aha: -.
jamn Cos yo estaba de compras fuera darren WIF jus ahora ni lo llamaban 2 preguntarle wat actualidad
wan lor. Luego empez a adivinar quin era yo WIF n que finalmente supuso darren lor.
FreeMsg spam: Txt: Llamado a la N : 86.888 y reclamar su recompensa de 3 horas de tiempo de
conversacin de usar desde el telfono ahora mismo! ubscribe6GBP / mnth inc 3 horas? txtStop 16
parada
Spam Sol Quiz! Gana un sper Sony grabadora de DVD si canname la capital de Australia? MQUIZ texto
a 82277. B
Spam URGENTE! Tu mvil Sin 07808726822 recibi una L2, Premio de llamadas 000 Bono en
02/09/03! Este es nuestro segundo intento de ponerse en contacto con usted! Llame 0871-872-9758
BOX95QU
Nota: los mensajes no se ordenan cronolgicamente.
Ofrecemos un amplio estudio de este corpus en el siguiente documento. Este trabajo presenta una serie
de estadsticas, estudios y resultados de lnea de base para varios mtodos de aprendizaje automtico.
Almeida, TA, Gmez Hidalgo, JM, Yamakami, A. Contribuciones al estudio de los SMS Spam Filtrado:
Nueva Coleccin y Resultados. Actas de la ACM Symposium 2011 en Ingeniera de documentos
(DOCENG'11), Mountain View, CA, EE.UU., 2011.
Solar Flare conjunto de datos

Resumen: Cada atributo de clase cuenta el nmero de llamaradas solares
de cierta clase que ocurren en un periodo de 24 horas


Tareas asociadas: Regresin Valores No Nmero de Web 41916

perdidos? Accesos:
Fuente:
Donante:
Gary Bradshaw <gbradshaw '@' clipr.colorado.EDU>

Notas:
- La base de datos consta de 3 clases posibles, una para el nmero de veces que un determinado tipo de
erupcin solar se produjo en un perodo de 24 horas.
- Cada instancia representa caractersticas capturadas durante 1 regin activa en el sol.
- Los datos se dividen en dos secciones. La segunda seccin (flare.data2) ha tenido mucho ms la
correccin de error aplicada a la que, en consecuencia, se ha tratado como ms fiables.
1. Cdigo para la clase (clase Zurich modificada) (A, B, C, D, E, F, H)
2. Cdigo para el mayor tamao de punto (X, R, S, A, H, K)
3. Cdigo para la distribucin puntual (X, O, I, C)
4. Actividad (1 = reducida, 2 = sin cambios)
5. Evolucin (1 = decaimiento, 2 = sin crecimiento, 3 = crecimiento)
6. Anterior 24 horas cdigo de actividad de la antorcha (1 = nada tan grande como un M1, 2 = un M1, 3 =
ms actividad que uno M1)
7. Histricamente complejo (1 = S, 2 = No)
8. Hizo regin se convierta histricamente compleja en este paso a travs del disco solar (1 = s, 2 = no)
9. Superficie (1 = pequeo, 2 = grande)
10. rea de la mancha ms grande (1 = <= 5, 2 => 5)
De todos estos predictores tres clases de bengalas se predicen, que estn representados en las tres
ltimas columnas.
11. Llamaradas de clase C la produccin en esta regin en las 24 horas siguientes (brotes
comunes); Nmero
12. Llamaradas de clase M de produccin en esta regin en las 24 horas siguientes (brotes
moderados); Nmero
13. Llamaradas de clase X de produccin en esta regin en las siguientes 24 horas (brotes
graves); Nmero
N/A
Documentos que citan este conjunto de datos 1:
. Jinyan Li y Dong Guozhu y Kotagiri Ramamohanarao y Limsoon Wong profundidades: un

descubrimiento basada en instancia Nuevo y Sistema de Clasificacin . Actas de la IV Conferencia
Europea sobre Principios y Prctica de Descubrimiento de Conocimiento en Bases de Datos. 2001. [ Ver
Contexto ].
Jinyan Li y Guozhu Dong y Kotagiri Ramamohanarao. Clasificacin basada en instancia por los patrones
emergentes . PKDD. 2000. [ Ver Contexto ].
Sally A. Goldman y Yan Zhou. Mejora de aprendizaje supervisado con datos sin
etiqueta . ICML. 2000. [ Ver Contexto ].
Nir Friedman y Daphne Koller. Ser bayesiano sobre Estructura de red . UAI. 2000. [ Ver Contexto ].
Christophe G. Giraud-Carrier y Tony R. Martnez. Marco integrado para el Aprendizaje y

Razonamiento . J. Artif. Intell. Res.. (JAIR, 3. 1995. [ Ver Contexto ].
. C. Tito Brown y Harry W. Bullen y Sean P. Kelly y Robert K. Xiao y Steven G. Satterfield y John G.
Hagedorn y Judith E. Devaney Visualizacin y Minera de Datos en un inmersivo entorno 3D: Proyecto de
Verano 2003 . [ Ver Contexto ].
Nir Friedman y Daphne Koller (Koller @ cs. Stanford. Edu. Un enfoque bayesiano para Estructurar
Discovery en redes bayesianas . Facultad de Ciencias de la Computacin y de Ingeniera Universidad
Hebrea. [ Ver Contexto ].
Soja (Large) Conjunto de datos

Resumen: famosa base de datos de enfermedades de soja de Michalski



perdidos? Accesos:
Fuente:
Origen:
RS Michalski y RL Chilausky
"Aprender de que nos dijeron y Aprender de ejemplos: Una Comparacin experimental de los Mtodos
Dos de Adquisicin de Conocimiento en el contexto del desarrollo de un sistema experto para la
enfermedad de la soja Diagnstico",
Revista Internacional de Anlisis de Polticas y Sistemas de Informacin, vol. 4, N 2, 1980.
Donante:
Ming Tan & Jeff Schlimmer (Jeff.Schlimmer% cs.cmu.edu)

Hay 19 clases, slo el primero 15 de los cuales han sido utilizados en el trabajo anterior. El folklore
parece ser que los ltimos cuatro clases no estn justificadas por los datos, ya que tienen tan pocos
ejemplos. Hay 35 atributos categricos, algunas nominal y algunos orden. El valor de "dna medios'' no
se aplica. Los valores de los atributos se codifican numricamente, con el primer valor codificado como"
0'', el segundo como "1'', y as sucesivamente. Se valores desconocidos se codifica como"? ''.
- 19 clases
Diaporthe-tallo-cancro, carbn-rot, rhizoctonia-root-rot,
phytophthora-rot, marrn-madre-rot, polvo-moho,
velloso-moho, marrn terreno, bacteriana-tizn,
bacteriana-pstula, prpura de la semilla-la mancha, la antracnosis,
Phyllosticta hojas terreno, alternarialeaf terreno,
-ojo de rana hoja terreno, Diaporthe-pod-&-tallo-tizn,
quiste-nematodo, 2-4-D-lesin, los herbicidas de la lesin.
1. Fecha: abril, mayo, junio, julio, agosto, septiembre, octubre,?.

2. planta de stand: normal,-lt normal?.
3. precipitacin: lt-norma, norma, gt-norma,?.
4. temp: lt-norma, norma, gt-norma,?.
5. granizo: s, no,?.
6. crop-hist:-diff-lst aos, mismo lst-ao, del mismo lst y dos aos,
misma-lst-sev-aos,?.
7. dispersas, bajas, zonas de reas superiores, todo-terreno,: Superficie daada?.
8. severidad: leve, severa-pot, grave?.
9. semillas TMT: ninguno, fungicidas, otros,?.
10. germinacin: 90 a 100% ,80-89%, lt-80%,?.
11. crecimiento de las plantas: norma, abnorm,?.
12. Hojas: norma, abnorm.
13. manchas foliares-halo:, amarillo-halos ausentes, no hay-amarillo-halos,?.
14. manchas foliares-marg: ws-marg, no-ws-marg, dna,?.
15. mancha foliar-size: lt-1/8, gt-1/8, dna,?.
16. leaf-shread: ausente, presente?.
17. leaf-malf: ausente, presente?.
18. hoja de leve: ausente,-surf superior, inferior-surf,?.
19. madre: norma, abnorm,?.
20. Alojamiento: s, no,?.
21. madre-chancros: ausentes, por debajo del suelo, por encima del suelo, por encima de la sec-nde,?.
22. cancro de la lesin: dna, marrn,-dk marrn-negro, marrn,?.
23. fructificacin-cuerpos: ausente, presente?.
24. decaimiento externa: ausente, firme y seco, acuosa,?.
25. micelio: ausente, presente?.
26. int-discolor: ninguno, marrn, negro,?.
27. esclerocios: ausente, presente?.
28. frutas-pods: norma, enferma,-pocos presentes, dna,?.
29. manchas de fruta: brown-w/blk-specks ausentes, colores,, distorsionar, dna,?.
30. semilla: norma, abnorm,?.
31. molde de crecimiento: ausente, presente?.
32. semillas discolor: ausente, presente?.
33. semilla-size: norma, lt-norma,?.
34. shriveling: ausente, presente?.
35. races: norma, se pudran, agallas-quistes,?.
Tan, M., y Eshelman, L. (1988). El uso de redes ponderados para representar el conocimiento
clasificacin en dominios ruidosos. Actas de la Quinta Conferencia Internacional sobre Aprendizaje
Automtico (pp. 121-134). Ann Arbor, Michigan: Morgan Kaufmann.
[Web Link]
Fisher, DH y Schlimmer, JC (1988). Simplificacin Concepto y predictivo Precisin. Actas de la Quinta

Conferencia Internacional sobre Aprendizaje Automtico (pp. 22-28). Ann Arbor, Michigan: Morgan
Kaufmann.
[Web Link]
Soja (Small) Conjunto de datos

Resumen: famosa base de datos de enfermedades de soja de Michalski



perdidos? Accesos:
Fuente:
Origen:
Michalski, RS
El aprendizaje por ser dicho y el aprendizaje a partir de ejemplos: una comparacin experimental de los
dos metodos de adquisicin de conocimientos en el contexto del desarrollo de un sistema experto para
diagnoiss desease soja ",
Revista Internacional de Anlisis de Polticas y Sistemas de Informacin, 1980, 4 (2), 125-161.
Donante:
Doug Fisher (dfisher% vUtilice '@' uunet.uucp)

Un pequeo subconjunto de la base de datos original de soja. Consulte la referencia de Fisher y
Schlimmer en soja-large.names para ms informacin.
Steven Souders escribi:
> Figura 15 en el documento Michalski y Stepp (PAMI-82) dice que el

> valores discriminatorios para la condicin de atributo de las vainas de la fruta por la
> Clases Rhizoctonia Root Rot y Phytophthora Rot son "pocos o ninguno"
> E "irrelevante", respectivamente. Sin embargo, en el conjunto de datos-SOJA PEQUEO
> Que recib de la UCI, el valor de este atributo es "dna" (no se aplica)
> Para ambas clases. Muestro los datos reales por debajo de los casos D3
> (Rhizoctonia Root Rot) y D4 (Phytophthora Rot). De acuerdo con la
> Atribuyen nombres dados en la soja-large.names, FRUTAS-PODS es atributo
> # 28. Si nos fijamos en la columna 28 en los siguientes datos (marcados con flechas)
> Te dars cuenta de que todos los casos de D3 y D4 tienen el mismo valor. Por lo tanto,
> El conjunto de datos-SOJA PEQUEO de UCI no podra haber producido los resultados
> En el documento Michalski y Stepp.
Yo no tengo ese papel, pero he encontrado lo que probablemente es una variacin ms tarde de esa cifra
en la disertacin de Stepp, que muestra el valor "normal" para los primeros 2 clases y "irrelevante" para
los ltimos 2 clases. Creo que "irrelevante" se utiliza aqu como sinnimo de "no-aplicable", "dna", y "no-
no-se aplican". Yo creo que hay una impresin errnea en la figura que ley en su artculo PAMI-83.
He comprobado sobre cada valor del atributo en esta base de datos. Esto corresponde exactamente a los
ejemplares que figuran en las tesis tanto de Stepp y Fisher de.
1. Fecha: abril, mayo, junio, julio, agosto, septiembre, octubre,?.
2. planta de stand: normal,-lt normal?.
3. precipitacin: lt-norma, norma, gt-norma,?.
4. temp: lt-norma, norma, gt-norma,?.
5. granizo: s, no,?.
6. crop-hist:-diff-lst aos, mismo lst-ao, del mismo lst y dos aos,
misma-lst-sev-aos,?.
7. dispersas, bajas, zonas de reas superiores, todo-terreno,: Superficie daada?.
8. severidad: leve, severa-pot, grave?.
9. semillas TMT: ninguno, fungicidas, otros,?.
10. germinacin: 90 a 100% ,80-89%, lt-80%,?.
11. crecimiento de las plantas: norma, abnorm,?.
12. Hojas: norma, abnorm.
13. manchas foliares-halo:, amarillo-halos ausentes, no hay-amarillo-halos,?.
14. manchas foliares-marg: ws-marg, no-ws-marg, dna,?.
15. mancha foliar-size: lt-1/8, gt-1/8, dna,?.
16. leaf-shread: ausente, presente?.
17. leaf-malf: ausente, presente?.
18. hoja de leve: ausente,-surf superior, inferior-surf,?.
19. madre: norma, abnorm,?.
20. Alojamiento: s, no,?.
21. madre-chancros: ausentes, por debajo del suelo, por encima del suelo, por encima de la sec-nde,?.
22. cancro de la lesin: dna, marrn,-dk marrn-negro, marrn,?.
23. fructificacin-cuerpos: ausente, presente?.
24. decaimiento externa: ausente, firme y seco, acuosa,?.
25. micelio: ausente, presente?.
26. int-discolor: ninguno, marrn, negro,?.
27. esclerocios: ausente, presente?.
28. frutas-pods: norma, enferma,-pocos presentes, dna,?.
29. manchas de fruta: brown-w/blk-specks ausentes, colores,, distorsionar, dna,?.
30. semilla: norma, abnorm,?.
31. molde de crecimiento: ausente, presente?.
32. semillas discolor: ausente, presente?.
33. semilla-size: norma, lt-norma,?.
34. shriveling: ausente, presente?.
35. races: norma, se pudran, agallas-quistes,?.
Tan, M., y Eshelman, L. (1988). El uso de redes ponderados para representar el conocimiento
clasificacin en dominios ruidosos. Actas de la Quinta Conferencia Internacional sobre Aprendizaje
Automtico (pp. 121-134). Ann Arbor, Michigan: Morgan Kaufmann.
[Web Link]
Fisher, DH y Schlimmer, JC (1988). Simplificacin Concepto y predictivo Precisin. Actas de la Quinta

Conferencia Internacional sobre Aprendizaje Automtico (pp. 22-28). Ann Arbor, Michigan: Morgan
Kaufmann.
[Web Link]
Soybean (Small) Data Set 1987-01-01
Resumen: Famosa Base de Datos de enfermedades derivadas de la soya de Michalski

Multivariante 47 rea: Salud

Categrico 35 01-01-1987
Nmero de
Valores
perdidos?
Web:
Fuente:
Origen:
Michalski, R.S. Aprendizaje por que se le diga y aprendizaje de ejemplos: una comparacin experimental de
los dos mtodos de adquisicin de conocimientos en el contexto del desarrollo de un sistema experto para el
diagnstico de enfermedades de soya, la revista internacional de anlisis de polticas y sistemas de
informacin, 1980, 4.
Donador:
Doug Fisher (dfisher%vuse@unnet.uucp)

Un pequeo subconjunto de la Base de Datos de Soya. Ver la diferencia para Fisher y Schilmer para mayor
informacin.
Steven Souders escribi:
La figura 15 en el artculo de Michalski y Stepp (PAMI-82) dice que los valores discriminantes para el
atributo CONDITION OF FRUIT PODS para la clase Rhizoctonia Root Rot y Phytophthora Rot son
pocas o ninguna e irrelevantes respectivamente. Como sea, en el pequeo conjunto de datos
SOTBEAN-SMALL que consegu de UCI, el valor para este atributo es dna (no aplica) para ambas
clases. Demuestro los datos actuales a continuacin para los casos D3 (Rhizoctonia Root Rot) y D4
(Phytophthora Rot). De acuerdo con los nombres de los atributos dados in soybean-large.names,
FRUIT-PODS es el atributo #28. Si miras en la columna 28 en los datos mostrados ms adelante
(marcados con flechas), notars que los casos de D3 y D4 tienen el mismo valor, Entonces, el
dataset SOYBEAN-SMALL de UCI no podra tener los resultados producidos en el artculo de
Michalski y Stepp.
No tengo ese artculo, pero he encontrado que es probable una variacin posterior de esa figura en el trabajo
de Stepp, el cual lista los valores normal para las dos primeras clases e irrelevant para las dos ltimas
clases. Creo que irrelevant es usado como un sinnimo para not-applicable, dna y does-not-apply.
Creo que hay un error en la impresin de la figura que ley en su artculo PAMI-83.
He verificado cada valor de los atributos en esta BD. Esto corresponde exactamente a los ejemplares
listados en los trabajos de Stepp y Fisher.

1. date: april,may,june,july,august,september,october,?.
2. plant-stand: normal,lt-normal,?.
3. precip: lt-norm,norm,gt-norm,?.
4. temp: lt-norm,norm,gt-norm,?.
5. hail: yes,no,?.
6. crop-hist: diff-lst-year,same-lst-yr,same-lst-two-yrs,
same-lst-sev-yrs,?.
7. area-damaged: scattered,low-areas,upper-areas,whole-field,?.
8. severity: minor,pot-severe,severe,?.
9. seed-tmt: none,fungicide,other,?.
10. germination: 90-100%,80-89%,lt-80%,?.
11. plant-growth: norm,abnorm,?.
12. leaves: norm,abnorm.
13. leafspots-halo: absent,yellow-halos,no-yellow-halos,?.
14. leafspots-marg: w-s-marg,no-w-s-marg,dna,?.
15. leafspot-size: lt-1/8,gt-1/8,dna,?.
16. leaf-shread: absent,present,?.
17. leaf-malf: absent,present,?.
18. leaf-mild: absent,upper-surf,lower-surf,?.
19. stem: norm,abnorm,?.
20. lodging: yes,no,?.
21. stem-cankers: absent,below-soil,above-soil,above-sec-nde,?.
22. canker-lesion: dna,brown,dk-brown-blk,tan,?.
23. fruiting-bodies: absent,present,?.
24. external decay: absent,firm-and-dry,watery,?.
25. mycelium: absent,present,?.
26. int-discolor: none,brown,black,?.
27. sclerotia: absent,present,?.
28. fruit-pods: norm,diseased,few-present,dna,?.
29. fruit spots: absent,colored,brown-w/blk-specks,distort,dna,?.
30. seed: norm,abnorm,?.
31. mold-growth: absent,present,?.
32. seed-discolor: absent,present,?.
33. seed-size: norm,lt-norm,?.
34. shriveling: absent,present,?.
35. roots: norm,rotted,galls-cysts,?.
Tan, M., & Eshelman, L. (1988). Usando redes ponderadas para representar conocimiento de clasificacin
en dominios ruidosos. Procede de las quinta conferencia internacional sobre Aprendizaje de Mquinas (pp.
121-134). Ann Arbor, Michigan: Morgan Kauffman.
Fisher,D.H. & Schlimmer,J.C. (1988). Simplificacin de conceptos y Presicin predictiva. Procedente de la
quinta conferencia internacional sobre Aprendizaje de Mquinas (pp. 22-28). Ann Arbor, Michigan: Morgan
Kauffman.
Citas:
Yuan Jiang and Zhi-Hua Zhou. Editing Training Data for kNN Classifiers with Neural Network Ensemble.
ISNN (1). 2004.
Rich Caruana and Alexandru Niculescu-Mizil. An Empirical Evaluation of Supervised Learning for ROC Area.
ROCAI. 2004.
Prem Melville and Raymond J. Mooney. Diverse ensembles for active learning. ICML. 2004.
Rich Caruana and Alexandru Niculescu-Mizil and Geoff Crew and Alex Ksikes. Ensemble selection from
libraries of models. ICML. 2004.
Rich Caruana and Alexandru Niculescu-Mizil. Data Mining in Metric Space: An Empirical Analysis of
Supervised Learning Performance Criteria. ROCAI. 2004.
Vassilis Athitsos and Stan Sclaroff. Boosting Nearest Neighbor Classifiers for Multiclass Recognition. Boston
University Computer Science Tech. Report No, 2004-006. 2004.
Geoffrey Holmes and Bernhard Pfahringer and Richard Kirkby and Eibe Frank and Mark A. Hall. Multiclass
Alternating Decision Trees. ECML. 2002.
Subramani Mani and Marco Porta and Suzanne McDermott. Building Bayesian Network Models in Medicine:
the MENTOR Experience. Center for Biomedical Informatics University of Pittsburgh. 2002.
Marco Porta and Subramani Mani and Suzanne McDermott. MENTOR: Building Bayesian Network Models in
Medicine CSCE Technical Report TR-2002-016. Department of Computer Science and Engineering
University of South Carolina. 2002.
Bianca Zadrozny. Reducing multiclass to binary by coupling probability estimates. NIPS. 2001.
Rudy Setiono. Feedforward Neural Network Construction Using Cross Validation. Neural Computation, 13.
2001.
Nikunj C. Oza and Stuart J. Russell. Experimental comparisons of online and batch versions of bagging and
boosting. KDD. 2001.
Kiri Wagstaff and Claire Cardie. Clustering with Instance-level Constraints. ICML. 2000.
Kai Ming Ting and Ian H. Witten. Issues in Stacked Generalization. J. Artif. Intell. Res. (JAIR, 10. 1999.
Mark A. Hall. Department of Computer Science Hamilton, NewZealand Correlation-based Feature Selection
for Machine Learning. Doctor of Philosophy at The University of Waikato. 1999.
Manoranjan Dash and Huan Liu. Hybrid Search of Feature Subsets. PRICAI. 1998.
Huan Liu and Rudy Setiono. Incremental Feature Selection. Appl. Intell, 9. 1998.
Hendrik Blockeel and Luc De Raedt and Jan Ramon. Top-Down Induction of Clustering Trees. ICML. 1998.
Igor Kononenko and Edvard Simec and Marko Robnik-Sikonja. Overcoming the Myopia of Inductive Learning
Algorithms with RELIEFF. Appl. Intell, 7. 1997.
Nir Friedman and Dan Geiger and Moiss Goldszmidt. Bayesian Network Classifiers. Machine Learning, 29.
1997.
Prototype Selection for Composite Nearest Neighbor Classifiers. Department of Computer Science University
of Massachusetts. 1997.
Guszti Bartfai. VICTORIA UNIVERSITY OF WELLINGTON Te Whare Wananga o te Upoko o te Ika a Maui.
Department of Computer Science PO Box 600. 1996.
Kamal Ali and Michael J. Pazzani. Error Reduction through Learning Multiple Descriptions. Machine
Learning, 24. 1996.
Christophe Giraud and Tony Martinez and Christophe G. Giraud-Carrier. University of Bristol Department of
Computer Science ILA: Combining Inductive Learning with Prior Knowledge and Reasoning. 1995.
Jitender S. Deogun and Vijay V. Raghavan and Hayri Sever. Exploiting Upper Approximation in the Rough
Set Methodology. KDD. 1995.
Ron Kohavi. The Power of Decision Tables. ECML. 1995.
Geoffrey I. Webb. OPUS: An Efficient Admissible Algorithm for Unordered Search. J. Artif. Intell. Res. (JAIR,
3. 1995.
Ron Kohavi. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection. IJCAI.
1995.
Thomas G. Dietterich and Ghulum Bakiri. Solving Multiclass Learning Problems via Error-Correcting Output
Codes. CoRR, csAI/9501101. 1995.
Geoffrey I. Webb. OPUS: A systematic search algorithm and its application to categorical attribute-value
datadriven machine learning. School of Computing and Mathematics, Deakin University. 1993.
Perry Moerland. Mixtures of latent variable models for density estimation and classification. E S E A R C H R
E P R O R T I D I A P D a l l e M o l l e I n s t i t u t e f o r Pe r cep t ua l A r t i f i c i a l Intelligence.
Suresh K. Choubey and Jitender S. Deogun and Vijay V. Raghavan and Hayri Sever. A comparison of
feature selection algorithms in the context of rough classifiers.
Takao Mohri and Hidehiko Tanaka. An Optimal Weighting Criterion of Case Indexing for Both Numeric and
Symbolic Attributes. Information Engineering Course, Faculty of Engineering The University of Tokyo.
Nikunj C. Oza and Stuart J. Russell. Online Bagging and Boosting. Computer Science Division University of
California.
Perry Moerland. A Comparison of Mixture Models for Density Estimation. IDIAP.
Zhi-Hua Zhou and Yang Yu. Ensembling Local Learners Through Multimodal Perturbation.
Geoffrey I Webb. Generality is more significant than complexity: Toward an alternative to Occam's Razor.
School of Computing and Mathematics Deakin University.
Sherrie L. W and Zijian Zheng. A BENCHMARK FOR CLASSIFIER LEARNING. Basser Department of
Computer Science The University of Sydney.
Alexander K. Seewald. Dissertation Towards Understanding Stacking Studies of a General Ensemble
Learning Scheme ausgefuhrt zum Zwecke der Erlangung des akademischen Grades eines Doktors der
technischen Naturwissenschaften.
Chotirat Ann and Dimitrios Gunopulos. Scaling up the Naive Bayesian Classifier: Using Decision Trees for
Feature Selection. Computer Science Department University of California.
Zhi-Hua Zhou and Xu-Ying Liu. Training Cost-Sensitive Neural Networks with Methods Addressing the Class
Imbalance Problem.
Prem Melville and Raymond J. Mooney. Proceedings of the 21st International Conference on Machine
Learning. Department of Computer Sciences.
Jarinee Chattratichart and John Darlington and Moustafa Ghanem and Yang Guo and Harold Huning and
Martin Kohler and Janjao Sutiwaraphun and Hing Wing and Dan Yang. Large Scale Data Mining: The
Challenges and The Solutions. Department of Computing.
Daichi Mochihashi and Gen-ichiro Kikui and Kenji Kita. Learning Nonstructural Distance Metric by Minimum
Cluster Distortions. ATR Spoken Language Translation research laboratories.
Miguel Moreira and Alain Hertz and Eddy Mayoraz. Data binarization by discriminant elimination.
Proceedings of the ICML-99 Workshop: From Machine Learning to.
Igor Kononenko and Edvard Simec. Induction of decision trees using RELIEFF. University of Ljubljana,
Faculty of electrical engineering & computer science.
BayesianClassifi552 Pat Langley and Wayne Iba. In Proceedings of the Tenth National
ConferenceonArtifi256 Intelligence (42840. Lambda Kevin Thompson.
YongSeog Kim and W. Nick Street and Filippo Menczer. Optimal Ensemble Construction via Meta-
Evolutionary Ensembles. Business Information Systems, Utah State University.
Iaki Inza and Pedro Larraaga and Basilio Sierra. Bayesian networks for feature subset selection.
Department of Computer Sciences and Artificial Intelligence.
Soybean (Small) Data Set 1999-07-01
Resumen: Clasificacin de e-mail como Spam o No
Caractersticas del
Nmero de
Conjunto de Multivariante 4601 rea: Computacin
instancias:
datos:

Entero, Real 57 01-07-1999
Nmero
Valores de
perdidos? accesos
Web:
Fuente:
Creadores:
Mark Hopkings, Erik Reeber, George Forman, Jaap Suermondt.
Hewlett-Packard Labs, 1501 Page Mill Rd., Palo Palto, CA 94304
Donador:
George Forman (gforman en nospam hpl.hp.com) 650-857-7835

El concepto de spam es diverso: publicidad para sitios de productos/web, esquemas de
hacer dinero rpido, cadena de cartas, pornografa
Nuestra Coleccin de e-mails spam proviene de nuestro administrador de correros e
individuos quienes han archivado spam. Nuestra coleccin de e-mails no spam proviene
de trabajo archivado e e-mail personales, y por lo tanto, la palabra george y el cdigo de
rea 650 son indicadores de no spam. Esto es til cuando se construye un filtro
personalizado de spam. Uno podra bien tener que cegar estos indicadores u obtener una
muy amplia coleccin de no spam para generar un filtro de spam de uso general.
Para informacin sobre spam:
Cranor, Lorrie F., LaMacchia, Brian A. Spam!

Communications of the ACM, 41(8): 74-83, 1998.
(a) Hewlett-Packard International-Only Technical Report. External forthcoming).

(b) Determinar cundo un e-mail dado es Spam o no.
(c) ~7% error de clasificacin. Positivos falsos (marcando un e-mail bueno como spam),
son muy indeseables. Si insistimos sobre cero positivos falsos en el conjunto de
entrenamiento/pruebas, 20-25% del spam pasa a travs del filtro.

La ltima columna de spambase.data muestra cundo el e-mail ha sido considerado
spam (1) o no 0), es decir, e-mail comerciales no solicitados. La mayora de los atributos
indican cuando una palabra en particular o carcter se frecuenta en el e-mail. Los el
recorrido de la longitud de un atributo (55-57) mide la longitud de secuencias de letras
capitales consecutivas. Para las medidas estticas de cada atributo, consulta el final de
este archivo. Aqu est la definicin de los atributos:
48 atributos reales continuos [0-100] de tipo Word_freq_WORD

= porcentaje de palabras en el e-mail que se conjuga WORD, es decir, 100*(nmero de
veces que WORD aparece en el e-mail)/nmero total de palabras en el e-mail. Una
palabra en este caso es cualquier cadena de caracteres alfanumricos delimitados por
caracteres no alfanumricos o el final de la cadena.
6 atributos reales continuos [0-100] de tipo char_freq_CHAR

= porcentaje de caracteres en el e-mail que son similares a CHAR, es decir, 100*(nmero
de ocurrencias de CHAR)/total de caracteres en el e-mail.
1 atributo real continuo [1,] de tipo capital_run_length_average

= longitud promedio de secuencias ininterrumpidas de letras maysculas.
1 atributo entero continuo [1,] de tipo capital_run_length_longest

= longitud de la secuencia ininterrumpida ms grande de lestras maysculas.
1 atributo entero continuo [1,] de tipo capital_run_length_total

= suma de la longitud de las secuencias ininterrumpidas de letras maysculas.
= nmero total de letras maysculas en el e-mail.
1 atributo clase nominal {0,1} de tipo spam

= denota cuando el e-mail es considerado spam (1) o no (2), es decir, e-mail comercial no
solicitado.
N/A
Citas:
Don R. Hush and Clint Scovel and Ingo Steinwart. Los Alamos National Laboratory
Stability of Unstable Learning Algorithms. Modeling, Algorithms and Informatics Group,
CCS-3. 2003.
Yongmei Wang and Ian H. Witten. Modeling for Optimal Probability Prediction. ICML. 2002.
Christos Dimitrakakis and Samy Bengioy. Online Policy Adaptation for Ensemble
Classifiers. IDIAP.
C. Titus Brown and Harry W. Bullen and Sean P. Kelly and Robert K. Xiao and Steven G.
Satterfield and John G. Hagedorn and Judith E. Devaney. Visualization and Data Mining in
an 3D Immersive Environment: Summer Project 2003.
SPECT Heart Data Set 2001-10-01
Resumen: Los datos sobre imgenes de Tomografa cardiaca Computarizada por
Emisin de Protn (SPECT). Cada paciente clasificado dentro de dos categoras: normal y
anormal.

Caractersticas del Nmero de Fecha de 01-10-

Categrico 22
atributo: atributos: Donacin 2001
Nmero de
Valores
perdidos?
Web:
Fuente:
Dueos originales:
Krzysztof J. Cios, Lukasz A. Kurgan
Universidad de Colorado en Denver, Denver, CO 80217, E.U.A.
Krys.Cios @ cudenver.edu
Lucy S. Goodenday
Colegio Mdico de Ohio, OH, E.U.A.
Donantes:
Lukasz A. Kurgan Krzysztof J. Cios

La base de datos de 267 conjuntos de imgenes SPECT (pacientes) fue procesada para
extraer caractersticas que resuman las imgenes SPECT originales. Como resultado, se
crearon 44 patrones de caractersticas continuas para cada paciente. El patrn fue,
adems, procesado para obtener 22 patrones de caractersticas binarios. El algoritmo
CLIP3 fue usado para generar reglas de clasificacin a partir de estos patrones. El
algoritmo CLIP3 gener reglas que eran 84% precisas (en comparacin con el diagnostico
del cardilogo).
1. OVERALL_DIAGNOSIS: 0,1 (atributo clase, binario)

2. F1: 0,1 (el diagnostico parcial 1, binario)
5. F4: 0,1 (el diagnostico parcial, binario)
- el dataset se divide en:
-- datos de entrenamiento ("SPECT.train" 80 instancias)
-- datos de pruebas ("SPECT.test" 187 instancias)
Kurgan, L.A., Cios, K.J., Tadeusiewicz, R., Ogiela, M. & Goodenday, L.S. "Knowledge
Discovery Approach to Automated Cardiac SPECT Diagnosis" Artificial Intelligence in
Medicine, vol. 23:2, pp 149-169, Oct 2001.
Cios, K.J., Wedding, D.K. & Liu, N. CLIP3: cover learning using integer programming.
Kybernetes, 26:4-5, pp 513-536, 1997.
Cios K. J. & Kurgan L. Hybrid Inductive Machine Learning: An Overview of CLIP

Algorithms, In: Jain L.C., and Kacprzyk J. (Eds). New Learning Paradigms in Soft
Computing, Physica-Verlag (Springer), 2001.
Citas:
Rich Caruana and Alexandru Niculescu-Mizil. An Empirical Evaluation of Supervised

Learning for ROC Area. ROCAI. 2004.
Lukasz A. Kurgan and Waldemar Swiercz and Krzysztof J. Cios. Semantic Mapping of
XML Tags Using Inductive Machine Learning. ICMLA. 2002.
Michael G. Madden. Evaluation of the Performance of the Markov Blanket Bayesian

Classifier Algorithm. CoRR, csLG/0211003. 2002.
M. A. Galway and Michael G. Madden. DEPARTMENT OF INFORMATION

TECHNOLOGY technical report NUIG-IT-011002 Evaluation of the Performance of the
Markov Blanket Bayesian Classifier Algorithm. Department of Information Technology
National University of Ireland, Galway.
Spoken Arabic Digit Data Set 2010-09-13
Resumen: Este dataset contiene series de tiempo de coeficientes cepstrales de
frecuencia mel (MFCCs) correspondientes a los dgitos Arbicos hablados. Incluye datos
de 44 hombres y 44 mujeres hablantes nativos de rabe.
Multivariante,
Seties de 8800 rea: N/A
tiempo

Real 13
Nmero de
Valores
perdidos?
Web:
Fuente:
Datos recolectados por el laboratorio de automtizacin y seales.
Universidad de Badji-Mokhtar
Annaba, Algeria
Direccin: Prof. Mouldi Bedda

Participantes: H. Dahmani, C. Snani, M.C. Amara Korba, S. Atoui
Adaptado y pre-procesado por:
Nacereddine Hammami y Mouldi Bedda
Facultad de Ingeniera, Universidad de Al-Jouf Kingdom de Arabia Saudita
e-mail: nacereccine.hammami@yahoo.fr; mouldi_bedda@yahoo.fr
Fecha: Octubre de 2008

Dataset de 8800 series de tiempo de 13 MFCCs (10 dgitos x 10 repeticiones x 88
hablantes), han sido tomados de 44 hombres y 44 mujeres hablantes nativos de rabe
entre 18 y 40 aos de edad para representar 10 dgitos arbicos hablados.

Cada lnea en la base de datos representa 13 coeficientes MFCCs en orden creciente
separados por espacios. Esto corresponde a un marco de anlisis. Los 13 cpeficientes
MFCCs son computados con las siguientes condiciones:
Frecuencia de muestreo: 11025 Hz, 16 bits
Ventana aplicada: hamming
[1] N. Hammami, M. Bedda ,"Improved Tree model for Arabic Speech Recognition", Proc.
IEEE ICCSIT10 Conference, 2010.
[2] N. Hammami, M. Sellami ,"Tree distribution classifier for automatic spoken Arabic digit
recognition", Proc. IEEE ICITST09 Conference, 2009 , PP 1-4.
Sponge Data Set N/A
Resumen: Datos sobre esponjas; atributos en espaol


45 N/A
atributo: entero atributos: Donacin
Nmero de
Valores
Tareas asociadas: Agrupamiento S accesos 32525
perdidos?
Web:
Fuente:
Creadores:
Iosune Uriz y Marta Domingo
CSIC
Donador:
Javier Bjar y Ulises Corts (bejar@lsi.upc.es)
Departamento de lenguajes y sistemas informticos
Universidad Politcnica de Catalunya, Barcelona, Espaa

Estas son esponjas marinas atlnticas-mediterrneas que pertenecen a O. Hadromerida
(Desmospongiae Porifera).

27 atributos son no numricos y nominales.
15 atributos son bolanos y toman los valores (No,S)
3 atributos son numricos y toman los nmeros naturales
Domingo, M. "Aplicaci\'o de t\ècniques de I.A. (LINNEO) a la classificaci\'o sistem\àtica:
O.Hadromerida (Demospongiae.Porifera). Master Thesis. Departament d'ecologia.
Universitat de Barcelona.
Martin, M and Sanguesa, R. and Cor\'es "Biasing induction with previous knowledge for
knowledge acquisition in imprecise domains''. Les syst\èmes experts et leus applications.
Onzi\'emes Journ\'ees Internationales. Avignon'91. Vol 1. pp. 359-370. Avignon, France.
1991.
Martin, M. and Sanguesa, R. and Cort\'es U. "Knowledge acquisition combining analytical

and empirical techniques''. Proceedings of the Eighth International Workshop of Machine
Learning. ML 91. pp 657-661. Evanston, Illinois, USA 1991.
Bejar, J. and Cort\'es, U. "LINNEO+: Herramienta para la adquisicion de conocimiento y

generacion de reglas de clasificaci\'on en dominios poco estructurados''. Proceedings del
III Congreso Iberoamericano de Inteligencia Artificial. IBERAMIA 92. pp 471-482. La
Habana (Cuba).
Statlog (Australian Credit Approval) Data Set N/A
Resumen: El cometido de este archivo son las aplicaciones de las tarjetas de crdito.
Este dataset existe en otros lugares en el repositorio en una forma ligeramente diferente
(Base de datos de deteccin de crdito).

Multivariante 690 rea: Financiera

14 N/A
atributo: entero, real atributos: Donacin
Nmero de
Valores
Tareas asociadas: Clasificacin S accesos 46158
perdidos?
Web:
Fuente:
(Confidencial)
Enviado por quinlan@cs.su.oz.au

Todos los nombres y valores de los atributos han sido cambiados por smbolos sin sentido
para proteger la confidencialidad de los datos.
Este dataset es interesante debido a que hay una buena mezcla de atributos, continuos,
nominales con pequeos nmeros de valores y nominales con nmeros grandes de
valores. Hay tambin unos pocos valores faltantes.

Hay 6 atributos numricos y 8 categricos. Las etiquetas han sido cambiadas para la
conveniencia de los algoritmos estticos. Por ejemplo, el atributo 4 originalmente tiene 3
etiquetas p, g, gg y estas etiquetas han sido cambiadas a etiquetas 1, 2, 3.
A1: 0,1 CATEGORICA (anteriormente: a,b)

A2: continua.
A3: continua.
A4: 1,2,3 CATEGORICA (anteriormente: p,g,gg)
A5: 1, 2,3,4,5, 6,7,8,9,10,11,12,13,14 CATEGORICA (anteriormente:: ff,d,i,k,j,aa,m,c,w, e,
q, r,cc, x)
A6: 1, 2,3, 4,5,6,7,8,9 CATEGORICA (anteriormente: ff,dd,j,bb,v,n,o,h,z)
A7: continua.
A8: 1, 0 CATEGORICA (anteriormente:: t, f)
A9: 1, 0 CATEGORICA (anteriormente: t, f)
A10: continua.
A11: 1, 0 CATEGORICA (anteriormente: t, f)
A12: 1, 2, 3 CATEGORICA (anteriormente: s, g, p)
A13: continua.
A14: continua.
A15: 1,2 atributo clase (anteriormente:: +,-)
Ross Quinlan. "Simplifying decision trees", Int J Man-Machine Studies 27, Dec 1987, pp.
221-234.
Ross Quinlan. "C4.5: Programs for Machine Learning", Morgan Kaufmann, Oct 1992.
Citas:
Jeroen Eggermont and Joost N. Kok and Walter A. Kosters. Genetic Programming for data
classification: partitioning the search space. SAC. 2004.
Bart Hamers and J. A. K Suykens. Coupled Transductive Ensemble Learning of Kernel

Models. Bart De Moor. 2003.
Xiaoming Huo. FBP: A Frontier-Based Tree-Pruning Algorithm. Seoung Bum Kim. 2002.
Endre Boros and Peter Hammer and Toshihide Ibaraki and Alexander Kogan and Eddy
Mayoraz and Ilya B. Muchnik. An Implementation of Logical Analysis of Data. IEEE Trans.
Knowl. Data Eng, 12. 2000.
Mark A. Hall. Department of Computer Science Hamilton, NewZealand Correlation-based

Feature Selection for Machine Learning. Doctor of Philosophy at The University of Waikato.
1999.
Rudy Setiono and Huan Liu. NeuroLinear: From neural networks to oblique decision rules.
Neurocomputing, 17. 1997.
Krzysztof Grabczewski and Wl/odzisl/aw Duch. THE SEPARABILITY OF SPLIT VALUE

CRITERION. Department of Computer Methods, Nicolaus Copernicus University.
Bart Baesens and Stijn Viaene and Tony Van Gestel and J. A. K Suykens and Guido
Dedene and Bart De Moor and Jan Vanthienen and Katholieke Universiteit Leuven. An
Empirical Assessment of Kernel Type Performance for Least Squares Support Vector
Machine Classifiers. Dept. Applied Economic Sciences.
Adil M. Bagirov and Alex Rubinov and A. N. Soukhojak and John Yearwood. Unsupervised
and supervised data classification via nonsmooth and global optimization. School of
Information Technology and Mathematical Sciences, The University of Ballarat.
Wl/odzisl/aw Duch and Karol Grudzi nski and Grzegorz Stawski. SYMBOLIC FEATURES
IN NEURAL NETWORKS. Department of Computer Methods, Nicolaus Copernicus
University.
Hussein A. Abbass. Pareto Neuro-Evolution: Constructing Ensemble of Neural Networks

Using Multi-objective Optimization. Artificial Life and Adaptive Robotics (A.L.A.R.) Lab,
School of Information Technology and Electrical Engineering, Australian Defence Force
Academy.
Statlog (German Credit Data) Data Set 1994-11-17
Resumen: Este dataset clasifica las personas descritas por un conjunto de atributos como
buenos o malos riesgos de crdito.

Multivariante 1000 rea: Financiera

20 17-11-1994
atributo: entero atributos: Donacin
Nmero de
Valores
perdidos?
Web:
Fuente:
Profesor Dr. Hans Hofmann
Instituto de Estadsticas y Econometra
Universidad de Hamburgo
Departamento de Economa
Von-Melle-Park 5
2000 Hamburg 13

Dos datasets son proporcionados, el original dataset, en forma proporcionado por el Prof.
Hofmann, contiene atributos categricos/simblicos y est en el archivo German.data.
Para algoritmos que necesitan atributos numricos, la Universidad de Strathclyde produce el
archivo German.data.numeric. Este archivo ha sido editado y se han aadido varias
variables indicadoras para hacerlo idneo para algoritmos los cuales no pueden enfrentarse
con variables categricas. Muchos atributos que han sido ordenados categricamente, han
sido codificados como enteros. Esta fue la forma utilizada por StatLog.
Este dataset requiere el uso de una matriz de coste:

.....1 2
----------------------------
101
-----------------------
250
(1 = bien, 2 = malo)
Las filas representan la clasificacin actual y las columnas la clasificacin predictiva.
Es peor para clasificar un cliente como bueno cuando son malos (5), tanto lo es para
clasificar un cliente como malo cuando son buenos (1).
Atributo 1: (cualitativo)
Estado de cuenta de cheques existente
A11: ... <0 DM
A12: 0 <= ... <200 DM
A13: ...> = 200 asignaciones de DM / a salarios de al menos 1 ao
A14: no cuenta de cheques
Atributo 2: (numrico)
Duracin en meses
Historial de crdito
A30: no hay crditos tomados / todos los crditos pagados de vuelta debidamente
A31: los crditos de este banco pagados debidamente
A32: crditos existentes pagados debidamente hasta ahora
A33 : retraso en el pago de en el pasado
A34: cuentas crticas / otros crditos existentes (no en este banco)
Propsito
A40: coche (nuevo)
A41: Coche (utilizado)
A42: muebles / equipos
A43: Radio / televisin
A44: electrodomsticos
A45: reparaciones
A46: educacin
A47: (vacaciones - no existe?)
A48: reconversin
A49: business
A410: otros
Monto del crdito
Cuenta de ahorros / bonos
A61: ... <100 DM
A62: 100 <= ... <500 DM
A63: 500 <= ... <1.000 DM
A64: ..> = 1.000 DM
A65: desconocido / ninguna cuenta de ahorro
Presente empleo desde
A71: desempleados
A72: ... <1 ao
A73: 1 <= ... <4 aos
A74: 4 <= ... <7 aos
A75: ..> = 7 aos
8 Atributo: (numrico)
Tasa en porcentaje de la renta disponible
El estatuto personal y del sexo
A91: masculino: divorciado / separado
A92: femenino: divorciado / separado / casado
A93: masculino: soltero
A94: masculino: Casado / viudo
A95: femenino: soltero

Otros deudores / garantes
A101: ninguno
A102: co-solicitante
A103: garante
Residencia actual desde

Propiedad
A121: inmobiliaria
A122: si no A121: Acuerdo ahorro sociedad de crdito hipotecario / seguro de vida
A123: si no A121/A122: coche u otro, no en el atributo 6
A124: desconocida / no propiedad

Edad en aos

Otros planes de pago
A141: banco
A142: almacenado
A143 : ninguna

Vivienda
A151: alquiler
A152: propia
A153: gratis

Nmero de crditos existentes en este banco

Empleo
A171: desempleados / no calificada - no residente
A172: no calificada residente
A173: experto empleado / oficial
A174: Gestin / autnomos / empleado altamente cualificado / funcionario

Nmero de personas que sean responsables de proporcionar mantenimiento durante

Telfono
A191: ninguno
A192: s , registrado bajo el nombre del cliente

trabajador extranjero
A201: s
A202: no
N/A
Citas:
Ke Wang and Shiyu Zhou and Ada Wai-Chee Fu and Jeffrey Xu Yu. Mining Changes of
Classification by Correspondence Tracing. SDM. 2003.
Avelino J. Gonzalez and Lawrence B. Holder and Diane J. Cook. Graph-Based Concept
Learning. FLAIRS Conference. 2001.
Oya Ekin and Peter L. Hammer and Alexander Kogan and Pawel Winter. Distance-Based
Classification Methods. e p o r t RUTCOR ffl Rutgers Center for Operations Research ffl
Rutgers University. 1996.
Paul O' Dea and Josephine Griffith and Colm O' Riordan. Combining Feature Selection and
Neural Networks for Solving Classification Problems. Information Technology Department,
National University of Ireland.
Chotirat Ann and Dimitrios Gunopulos. Scaling up the Naive Bayesian Classifier: Using
Decision Trees for Feature Selection. Computer Science Department University of California.
Paul O' Dea and David Griffith and Colm O' Riordan. DEPARTMENT OF INFORMATION
TECHNOLOGY. P. O'Dea (NUI).
Statlog (Heart) Data Set N/A
Resumen: Este dataset es una BD de enfermedades del corazn similar a una BD ya
presente en el repositorio (Heart Disease databases), pero en una forma ligeramente
diferente.


13 N/A
atributo: real atributos: Donacin
Nmero de
Valores
perdidos?
Web:
Fuente:
N/A

Matriz de coste
_______ ause pres

ausencia 0 1
presencia 5 0
Donde las filas representan los valores reales y las columnas los predecidos.

-. 1 Edad
-. 2 Sexo
-. 3 Tipo de dolor de pecho (4 valores)
-. 4 presin arterial en reposo
-. 5 colesterol suero en mg / dl
-. 6 glucemia en ayunas> 120 mg / dl
-. 7 resultados de electrocardiograma en reposo (valores 0,1,2)
-. 8 frecuencia cardaca mxima alcanzada
-. 9 angina inducida por el ejercicio
- 10 oldpeak = ST depresin inducida por el ejercicio en relacin a descansar.
- 11 la pendiente del segmento ST ejercicio mximo.
- 12 nmero de vasos principales (0-3) coloreado por fluoroscopia.
. - 13 thal: 3 = normal; 6 = defecto arreglado; 7 = defecto reversible
Tipos de atributos
-----------------
Real: 1,4,5,8,10,12
Ordenado: 11,
Binarop: 2,6,9
Nominal:7,3,13
Variable a ser prevista

------------------------
Ausencia (1) o presencia (2) de enfermedad del corazn
N/A
Citas:
Gavin Brown. Diversity in Neural Network Ensembles. The University of Birmingham. 2004.
Igor Kononenko and Edvard Simec and Marko Robnik-Sikonja. Overcoming the Myopia of
Inductive Learning Algorithms with RELIEFF. Appl. Intell, 7. 1997.
Elena Smirnova and Ida G. Sprinkhuizen-Kuyper and I. Nalbantis and b. ERIM and
Universiteit Rotterdam. Unanimous Voting using Support Vector Machines. IKAT,
Universiteit Maastricht.

Ensemble Learning Scheme ausgefuhrt zum Zwecke der Erlangung des akademischen
Grades eines Doktors der technischen Naturwissenschaften.
Statlog (Image Segmentation) Data Set 1990-11-01
Resumen: Este dataset es una BD de segmentaciones de imgenes similar a una BD que
ya est presente en el repositorio (Image sefmentation database) con una ligera diferencia.


Real 19 01-11-1990
Nmero de
Valores
perdidos?
Web:
Fuente:
Creadores:
Vision Group, Universidad de Massachusetts
Donante:
Vision Group (Carla Brodley@cs.umass.edu)

Las instancias fueron seleccionadas al azar a partir de una base de datos de 7 imgenes al
aire libre. Las imgenes fueron segmentadas a mano para crear una clasificacin para cada
pxel.
Cada instancia es una regin de 3x3.

1. region centroid-col: la columna del pxel central de la regin.
2. region-centroid-row: la fila del pxel central de la regin.
3. regin-pixel-count: el nmero de pxeles en una regin = 9.
4. short-line density-5: los resultados de un algoritmo de extraccin que cuenta el nmero de
lneas de longitud 5 (cualquier orientacin) con bajo contraste, menor o igual a 5, pasan por
la regin.
5. short-line-density-2: igual que el short-line-density-5, pero cuenta lneas de alto contraste,
mayor que 5.
6. vedge-mean: mide el contraste de los pxeles adyacentes horizontalmente en la
regin. Hay 6, se dan la media y la desviacin estndar. Este atributo se utiliza como un
detector de borde vertical.
7. vegde-sd: (ver 6)
8. hedge-mean: mide el contraste de los pxeles adyacentes verticalmente. Usado para la
deteccin de la lnea horizontal.
9. hedge-sd: (ver 8).
10. intensity-mean: la media de la regin de (R + G + B) / 3
11. rawred-mean: la media de la regin del valor R.
12. rawblue-mean: el promedio en el rango del valor B.
13. rawgreen-mean: la media de la regin del valor de G.
14. exred -mean: medir el exceso de rojo: (2R - (G + B))
15. exblue-mean: medir el exceso de azul: (2B - (G + R))
16. exgreen-mean: medir el exceso de verde: (2G - (R + B))
17. Vaue-mean: 3-d de transformacin no lineal de RGB. (Algoritmo se puede encontrar en
Foley y VanDam, Fundamentos de Informtica Grfica Interactiva)
18. saturation-mean: (ver 17)
19. hue-mean: (ver 17)
Clases:
1 = brickface,
2 = sky,
3 = foliage,
4 = cement,
5 = window,
6 = path,
7 = grass.
N/A
Citas:
Anthony K H Tung and Xin Xu and Beng Chin Ooi. CURLER: Finding and Visualizing
Nonlinear Correlated Clusters. SIGMOD Conference. 2005.
Xiaoli Z. Fern and Carla Brodley. Cluster Ensembles for High Dimensional Clustering: An
Empirical Study. Journal of Machine Learning Research n, a. 2004.
Aristidis Likas and Nikos A. Vlassis and Jakob J. Verbeek. The global k-means clustering
algorithm. Pattern Recognition, 36. 2003.
Manoranjan Dash and Huan Liu and Peter Scheuermann and Kian-Lee Tan. Fast
hierarchical clustering and its validation. Data Knowl. Eng, 44.
Amund Tveit. Empirical Comparison of Accuracy and Performance for the MIPSVM classifier
with Existing Classifiers. Division of Intelligent Systems Department of Computer and
Information Science, Norwegian University of Science and Technology.
Je Scott and Mahesan Niranjan and Richard W. Prager. Realisable Classifiers: Improving
Operating Performance on Variable Cost Problems. Cambridge University Department of
Engineering.
C. Titus Brown and Harry W. Bullen and Sean P. Kelly and Robert K. Xiao and Steven G.
Satterfield and John G. Hagedorn and Judith E. Devaney. Visualization and Data Mining in
an 3D Immersive Environment: Summer Project 2003.
K. A. J Doherty and Rolf Adams and Neil Davey. Unsupervised Learning with Normalised
Data and Non-Euclidean Norms. University of Hertfordshire.
Adil M. Bagirov and John Yearwood. A new nonsmooth optimization algorithm for clustering.
Centre for Informatics and Applied Optimization, School of Information Technology and
Mathematical Sciences, University of Ballarat.
K. A. J Doherty and Rolf Adams and Neil Davey. Non-Euclidean Norms and Data
Normalisation. Department of Computer Science, University of Hertfordshire, College Lane.
Michael Lindenbaum and Shaul Markovitch and Dmitry Rusakov. Selective Sampling Using
Random Field Modelling.
James Tin and Yau Kwok. Moderating the Outputs of Support Vector Machine Classifiers.
Department of Computer Science Hong Kong Baptist University Hong Kong.
Thomas T. Osugi and M. S. EXPLORATION-BASED ACTIVE MACHINE LEARNING. Faculty

of The Graduate College at the University of Nebraska In Partial Fulfillment of Requirements.
Nikos A. Vlassis and Aristidis Likas. A greedy EM algorithm for Gaussian mixture. Intelligent
Autonomous Systems, IAS.
Statlog (Landsat Satellite) Data Set 1993-02-13
Resumen: Valores multi-espectrales de pxeles en sectores de 3x3 en una imagen de
satlite, y la clasificacin asociada con el pxel central en cada sector


Entero 36 13-02-1993
Nmero de
Valores
perdidos?
Web:
Fuente:
Ashwin Srinivasan
Direccin general de estadstica y modelado de datos
Universidad de Stratchlyde
Glasgow, Escocia, Reino Unido
Ross@uk.ac.turing
Los datos de Landsat originales para esta base de datos se ha generado a partir de datos
adquiridos de la NASA por el Centro Australiano de Percepcin Remota, y se utilizan para la
investigacin en: El Centro de Teledeteccin de la Universidad de Nueva Gales del
Sur, Kensington, PO Box 1 NSW 2.033 Australia.
La base de datos de muestra se gener tomando una pequea seccin (82 filas y 100
columnas) de los datos originales. Los valores binarios se convirtieron a su forma ASCII por
Ashwin Srinivasan. La clasificacin para cada pxel se realiz a base de una visita al lugar
real por la Sra. Karen Hall, cuando trabajaba para el profesor John A. Richards, en el Centro
de Percepcin Remota en la Universidad de New South Wales, Australia. La conversin a
sectores de 3x3 y la divisin en unidades de prueba y de capacitacin se llev a cabo por
Alistair Sutherland.

La base de datos consta de los valores multiespectrales de pxeles en sectores de 3x3 en
una imagen de satlite, y la clasificacin asociada con el pxel central en cada sector. El
objetivo es predecir esta clasificacin, dados los valores multiespectrales. En la base de
datos de ejemplo, la clase de un pxel se codifica como un nmero.
Los datos del satlite Landsat son una de las muchas fuentes de informacin disponibles
para una escena. Se espera que la interpretacin de una escena mediante la integracin de
los datos espaciales de diversos tipos y de las resoluciones que incluyen datos
multiespectrales y de radar, mapas indicando un uso topografa, la tierra, etc. a asumir una
importancia significativa con el inicio de una era caracterizada por enfoques integradores
para la deteccin remota (por ejemplo), Sistema de Observacin de la Tierra de la NASA
comenzar esta dcada). Mtodos estadsticos existentes estn mal equipados para manejar
este tipo de tipos de datos diversos. Tenga en cuenta que esto no es cierto para los datos de
Landsat MSS considerados de manera aislada (como en esta base de datos de
muestra). Estos datos satisfacen los requisitos importantes de ser numricos y en una sola
resolucin, y la clasificacin estndar de mxima verosimilitud se desempea muy bien. En
consecuencia, para estos datos, debe ser interesante comparar el rendimiento de otros
mtodos contra el enfoque estadstico.
Un fotograma de las imgenes Landsat MSS consta de cuatro imgenes digitales de la
misma escena en diferentes bandas espectrales. Dos de estos son en la regin visible (que
corresponde aproximadamente a las regiones verde y roja del espectro visible) y dos estn
en el (cerca) infrarrojo. Cada pixel es una palabra binaria de 8 bits, con 0 correspondiente a
negro y 255 a blanco. La resolucin espacial de un pxel es de aproximadamente 80m x
80m. Cada imagen contiene 2340 x 3380 pxeles tales.
La base de datos es una (pequea) sub-rea de una escena, que consta de 82 x 100
pxeles. Cada lnea de datos corresponde a un sector cuadrado 3x3 de pxeles
completamente contenidos dentro de la sub-rea de 82x100. Cada lnea contiene los valores
de pxeles en las cuatro bandas espectrales (convertido a ASCII) de cada uno de los 9
pxeles en la zona de 3x3 y un nmero que indica la etiqueta de clasificacin del pxel
central. El nmero es un cdigo para las siguientes clases:
Nmero de clase
1 red soil
2 cotton crop
3 grey soil
4 damp grey soil
5 soil with vegetation stubble
6 mixture class (all types present)
7 very damp grey soil
NB. No hay ejemplos con la clase 6, en este conjunto de datos.
Los datos se dan en orden aleatorio y ciertas lneas de datos se han eliminado de manera
que no se puede reconstruir la imagen original de este conjunto de datos.
En cada lnea de datos de los cuatro valores espectrales de la parte superior- pixel izquierdo
se da primero, seguido de los cuatro valores espectrales para el pxel superior central y
luego los del pixel superior derecha, y as sucesivamente con los pxeles ledos en
secuencia de izquierda a derecha y de arriba a abajo. Por lo tanto, los cuatro valores
espectrales para el pxel central se dan por atributos 17, 18, 19 y 20. Si lo desea, puede
utilizar slo estos cuatro atributos, haciendo caso omiso de los dems. Esto evita el
problema que surge cuando un sector 3x3 extiende a ambos lados de un lmite.

Los atributos son numricos, en el rango 0-255.
N/A
Citas:
Ken Tang and Ponnuthurai N. Suganthan and Xi Yao and A. Kai Qin. Linear
dimensionalityreduction using relevance weighted LDA. School of Electrical and Electronic
Engineering Nanyang Technological University. 2005.
Jaakko Peltonen and Arto Klami and Samuel Kaski. Improved Learning of Riemannian
Metrics for Exploratory Analysis. Improved Learning of Riemannian Metrics for Exploratory
Analysis. Neural Networks. 2004.
Fabian Hoti and Lasse Holmstrm. A semiparametric density estimation approach to pattern
classification. Pattern Recognition, 37. 2004.
Giorgio Valentini. Random Aggregated and Bagged Ensembles of SVMs: An Empirical

Bias?Variance Analysis. Multiple Classifier Systems. 2004.
Jaakko Peltonen and Samuel Kaski. Discriminative Components of Data. IEEE. 2004.
S. Augustine Su and Jennifer G. Dy. Automated hierarchical mixtures of probabilistic principal

component analyzers. ICML. 2004.
Giorgio Valentini and Thomas G. Dietterich. Low Bias Bagged Support Vector Machines.
ICML. 2003.
Zoubin Ghahramani and Hyun-Chul Kim. Bayesian Classifier Combination. Gatsby

Computational Neuroscience Unit University College London. 2003.
Giorgio Valentini. Ensemble methods based on bias--variance analysis Theses Series DISI-
TH-2003. Dipartimento di Informatica e Scienze dell'Informazione. 2003.
Peter Sykacek and Stephen J. Roberts. Adaptive Classification by Variational Kalman

Filtering. NIPS. 2002.
Igor V. Tetko. Associative Neural Network. Neural Processing Letters, 16. 2002.
Jaakko Peltonen and Arto Klami and Samuel Kaski. Learning More Accurate Metrics for Self-
Organizing Maps. ICANN. 2002.
Stephen D. Bay. Multivariate Discretization for Set Mining. Knowl. Inf. Syst, 3. 2001.
Kagan Tumer and Joydeep Ghosh. Robust Combining of Disparate Classifiers through Order
Statistics. CoRR, csLG/9905013. 1999.
Kagan Tumer and Nikunj C. Oza. Decimated Input Ensembles for Improved Generalization.
NASA Ames Research Center. 1999.
Xavier Giannakopoulos and Juha Karhunen and Erkki Oja. An Experimental Comparison of
Neural Algorithms for Independent Component Analysis and Blind Separation. Int. J. Neural
Syst, 9. 1999.
Cesar Guerra-Salcedo and L. Darrell Whitley. Genetic Approach to Feature Selection for
Ensemble Creation. GECCO. 1999.
Robert E. Schapire and Yoav Freund and Peter Bartlett and Wee Sun Lee. The Annals of
Statistics, to appear. Boosting the Margin: A New Explanation for the Effectiveness of Voting
Methods. AT&T Labs. 1998.
Engineering.
Vikas Sindhwani and P. Bhattacharya and Subrata Rakshit. Information Theoretic Feature
Crediting in Multiclass Support Vector Machines.
Jaakko Peltonen and Arto Klami and Samuel Kaski. Learning Metrics for Information
Visualization. Neural Networks Research Centre Helsinki University of Technology.
C. esar and Cesar Guerra-Salcedo and Darrell Whitley. Feature Selection Mechanisms for
Ensemble Creation: A Genetic Search Perspective. Department of Computer Science
Colorado State University.
Grigorios Tsoumakas and Ioannis P. Vlahavas. Fuzzy Meta-Learning: Preliminary Results.

Greek Secretariat for Research and Technology.
Xavier Giannakopoulos and Juha Karhunen and Erkki Oja. A COMPARISON OF NEURAL
ICA ALGORITHMS USING REAL-WORLD DATA. IDSIA.
Adil M. Bagirov and Julien Ugon. An algorithm for computation of piecewise linear function
separating two sets. CIAO, School of Information Technology and Mathematical Sciences,
The University of Ballarat.
Giorgio Valentini. An experimental bias--variance analysis of SVM ensembles based on

resampling techniques.
Cesar Guerra-Salcedo and Stephen Chen and Darrell Whitley and Sarah Smith. Fast and
Accurate Feature Selection Using Hybrid Genetic Strategies. Department of Computer
Science Colorado State University.
Statlog (Shuttle) Data Set N/A
Resumen: El conjunto de datos de transporte contiene 9 atributos todos los cuales son de
tipo numrico. Aproximadamente el 80% de los datos pertenecen a la clase 1


Entero 9 N/A
Nmero de
Valores
perdidos?
Web:
Fuente:
Jason Catlett
Departamento de Ciencias de la Computacin de Basser
Universidad de Sydney, N.S.W., Australia

Aproximadamente el 80% de los datos pertenecen a la clase 1. Por lo tanto, la exactitud
predeterminada es de aproximadamente 80%. El objetivo es obtener una precisin de 99 -.
99,9%.
Los ejemplos en el conjunto de datos original estaban en el orden del tiempo, y este orden
de tiempo presumiblemente podra ser relevante en la clasificacin. Sin embargo, esto no se
ha considerado relevante para los propsitos de Statlog, por lo que el orden de los ejemplos
en el conjunto de datos original fue aleatorio, y una parte de la base de datos original fue
eliminada por motivos de validacin.

El conjunto de datos de transporte contiene 9 atributos todos los cuales son de tipo
numrico. El primero es el tiempo. La ltima columna es la clase que ha sido codificado de la
siguiente manera:
1 Rad Flow
2 Fpv Close
3 Fpv Open
4 High
5 Bypass
6 Bpv Close
7 Bpv Open
N/A
Citas:
Ira Cohen and Fabio Gagliardi Cozman and Nicu Sebe and Marcelo Cesar Cirelo and
Thomas S. Huang.Semisupervised Learning of Classifiers: Theory, Algorithms, and Their
Application to Human-Computer Interaction. IEEE Trans. Pattern Anal. Mach. Intell, 26. 2004.
Richard Nock. Inducing Interpretable Voting Classifiers without Trading Accuracy for
Simplicity: Theoretical Results, Approximation Algorithms, and Experiments. J. Artif. Intell.
Res. (JAIR, 17. 2002.
Grigorios Tsoumakas and Ioannis P. Vlahavas. Effective Stacking of Distributed Classifiers.
ECAI. 2002.
Jun Wang and Bin Yu and Les Gasser. Concept Tree Based Clustering Visualization with
Shaded Similarity Matrices. ICDM. 2002.
Jochen Garcke and Michael Griebel and Michael Thess. Data Mining with Sparse Grids.
Computing, 67. 2001.
Stephen D. Bay. Multivariate Discretization for Set Mining. Knowl. Inf. Syst, 3. 2001.
Haixun Wang and Carlo Zaniolo. CMP: A Fast Decision Tree Classifier Using Multivariate
Predictions. ICDE. 2000.
Khaled A. Alsabti and Sanjay Ranka and Vineet Singh. CLOUDS: A Decision Tree Classifier
for Large Datasets. KDD. 1998.
Ron Kohavi. Scaling Up the Accuracy of Naive-Bayes Classifiers: A Decision-Tree Hybrid.

KDD. 1996.
Pedro Domingos. Linear-Time Rule Induction. KDD. 1996.
Nir Friedman and Moiss Goldszmidt. Discretizing Continuous Attributes While Learning
Bayesian Networks. ICML. 1996.
Ron Kohavi. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model
Selection. IJCAI. 1995.
Wl odzisl and Rafal Adamczak and Krzysztof Grabczewski. Optimization of Logical Rules
Derived by Neural Procedures. Department of Computer Methods, Nicholas Copernicus
University.
Chih-Wei Hsu and Cheng-Ru Lin. A Comparison of Methods for Multi-class Support Vector
Machines. Department of Computer Science and Information Engineering National Taiwan
University.
Jeffrey P. Bradford and Clayton Kunz and Ron Kohavi and Clifford Brunk and Carla
Brodley. Appears in ECML-98 as a research note Pruning Decision Trees with
Misclassification Costs. School of Electrical Engineering.
Jun Wang. Classification Visualization with Shaded Similarity Matrix. Bei Yu Les Gasser
Graduate School of Library and Information Science University of Illinois at Urbana-
Champaign.

Mohammed Waleed Kadous and Claude Sammut. The University of New South Wales
School of Computer Science and Engineering Temporal Classification: Extending the
Classification Paradigm to Multivariate Time Series.
Adil M. Bagirov and Julien Ugon. An algorithm for computation of piecewise linear function
separating two sets. CIAO, School of Information Technology and Mathematical Sciences,
The University of Ballarat.
Ron Kohavi and George H. John. Automatic Parameter Selection by Minimizing Estimated
Error. Computer Science Dept. Stanford University.
Wl odzisl/aw Duch and Rudy Setiono and Jacek M. Zurada. Computational intelligence
methods for rule-based data understanding.
Chris Giannella and Bassem Sayrafi. An Information Theoretic Histogram for Single
Dimensional Selectivity Estimation. Department of Computer Science, Indiana University
Bloomington.
Christophe Giraud and Tony Martinez. ADYNAMIC INCREMENTAL NETWORK THAT
LEARNS BY DISCRIMINATION. AA.
Statlog (Vehicle Silhouettes) Data Set N/A
Resumen: objetos 3D dentro de una imagen 2D mediante la aplicacin de un conjunto de
extractores de caractersticas de formas para las siluetas 2D de los objetos.


Entero 18 N/A
Nmero de
Valores
perdidos?
Web:
Fuente:
Drs.Pete Mowforth y Barry Shepherd
Instituto Turing
George House
36 North Hanover St.
Glasgow G1 2AD
Alistair Sutherland
Departamento de Estadsticas
Universidad Strathclyde
Livingstone Tower
26 Richmond St
GLASGOW G1 1XH
Gran Bretaa
Tel.: 041 552 4400 x3033
Fax: 041 552 4711
e-mail: Alistair"@" uk.ac.strathclyde.stams

El objetivo es clasificar una silueta dada como uno de los cuatro tipos de vehculos, usando
un conjunto de caractersticas extradas de la silueta. El vehculo puede ser visto desde uno
de los muchos ngulos diferentes.
Esta informacin fue originalmente reunida en la TI en 1986-1987 por JP Siebert. Fue
financiado parcialmente por Barr y Stroud Ltd. El propsito original era encontrar un mtodo
para distinguir los objetos 3D en una imagen 2D mediante la aplicacin de un conjunto de
extractores de caractersticas de formas de las siluetas 2D de los objetos. Medidas de
funciones de formas extradas de ejemplos de siluetas de objetos para ser discriminadas se
utilizaron para generar un rbol de reglas de clasificacin a travs de la induccin de la
computadora.
Esta estrategia de reconocimiento de objetos se utiliz con xito para discriminar entre las
siluetas de los modelos de coches, furgonetas y autobuses vistos desde una altura
restringida pero todos los ngulos de rotacin. El rendimiento de clasificacin del rbol de
reglas comparado favorablemente con MDC (clasificador de distancia mnima) y k-NN (k-
vecino ms cercano) clasificadores estadsticos en trminos de tasa de error y la eficiencia
computacional. Una investigacin de estos rboles de reglas generadas por ejemplo indic
que la estructura de rbol fue fuertemente influenciado por la orientacin de los objetos, y
agrupa vistas de objetos similares en las decisiones individuales.
Las caractersticas fueron extradas de las siluetas por el HIPS (Sistema de Procesamiento
de Imgenes jerrquica) de extensin BINATTS, que extrae una combinacin de
caractersticas independientes de escala utilizando ambos momentos clsicos de medidas
basadas tales como variacin a escala, la asimetra y la curtosis sobre lps mayores /
menores ejes y medidas heursticas tales como huecos, circularidad, ortogonalidad y la
compacidad.
Cuatro modelos "Corgie" vehculos fueron utilizados para el experimento: un autobs de dos
pisos, Cheverolet furgoneta, Saab 9000 y un Opel Manta 400. Esta combinacin particular
de vehculos fue elegida con la expectativa de que el autobs, camioneta, o bien uno de los
coches seran fcilmente distinguibles, pero sera ms difcil distinguir entre los coches.
Las imgenes fueron adquiridas con una cmara que mira hacia abajo en el modelo vehculo
desde un ngulo fijo de elevacin (34,2 grados con la horizontal). Los vehculos fueron
colocados sobre una superficie con retroiluminacin difusa (caja de luz). Los vehculos
fueron pintados de negro mate para minimizar reflejos. Las imgenes fueron capturadas
utilizando un Framestore CRS4000 conectado a un VAX 750. Todas las imgenes fueron
capturadas con una resolucin espacial de 128x128 pxeles cuantificada a 64
greylevels. Estas imgenes fueron thresholded para producir binarios siluetas de vehculos,
negados (para cumplir con los requisitos de procesamiento de BINATTS) y posteriormente
sometidos a encogerse-expandir-ampliar contraccin mdulos HIPS para eliminar el ruido de
imagen "sal y pimienta".
Los vehculos fueron rotados y su ngulo de orientacin se midi utilizando una retcula
radial debajo del vehculo. 0 y 180 grados corresponden a "la cabeza sobre los" puntos de
vista "y traseras", respectivamente, mientras que el 90 y 270 corresponden a perfiles en
direcciones opuestas. Dos series de 60 imgenes, cada conjunto que abarca una rotacin
completa de 360 grados, fueron capturados por cada vehculo. El vehculo se hizo girar en
un ngulo fijo entre las imgenes. Estos conjuntos de datos se conocen como E2 y E3,
respectivamente.
Otros dos conjuntos de imgenes, e4 y e5, fueron capturadas con la cmara en las
elevaciones de 37.5 y 30.8 degs degs respectivamente. Estos conjuntos tambin contienen
60 imgenes por vehculo aparte de e4.van que contiene slo 46 debido a la dificultad de
contener la furgoneta en la imagen en algunas orientaciones.

COMPACTNESS (average perim)**2/area
CIRCULARITY (average radius)**2/area
DISTANCE CIRCULARITY area/(av.distance from border)**2
RADIUS RATIO (max.rad-min.rad)/av.radius
PR.AXIS ASPECT RATIO (minor axis)/(major axis)
MAX.LENGTH ASPECT RATIO (length perp. max length)/(max length)
SCATTER RATIO (inertia about minor axis)/(inertia about major axis)
ELONGATEDNESS area/(shrink width)**2
PR.AXIS RECTANGULARITY area/(pr.axis length*pr.axis width)
MAX.LENGTH RECTANGULARITY area/(max.length*length perp. to this)
SCALED VARIANCE (2nd order moment about minor axis)/area
ALONG MAJOR AXIS
SCALED VARIANCE (2nd order moment about major axis)/area
ALONG MINOR AXIS
SCALED RADIUS OF GYRATION (mavar+mivar)/area
SKEWNESS ABOUT (3rd order moment about major axis)/sigma_min**3
MAJOR AXIS
SKEWNESS ABOUT (3rd order moment about minor axis)/sigma_maj**3
MINOR AXIS
KURTOSIS ABOUT (4th order moment about major axis)/sigma_min**4
MINOR AXIS
KURTOSIS ABOUT (4th order moment about minor axis)/sigma_maj**4
MAJOR AXIS
HOLLOWS RATIO (area of hollows)/(area of bounding polygon)
Donde sigma_maj ** 2 es la varianza a lo largo del eje mayor y sigma_min ** 2 es la varianza

a lo largo del eje menor, y el rea de huecos = rea de delimitacin poli-rea del objeto.
El rea de delimitacin del polgono se encuentra como un lado a consecuencia del cmputo
para calcular la longitud mxima. Cada clculo de la longitud obtiene un par de pinzas para
el orientado a objetos en cada 5 grados. El objeto se propaga en una imagen que contiene la
unin de estas pinzas para obtener una imagen de la delimitacin del polgono.
NMERO DE CLASES
4 OPEL, SAAB, BUS, VAN
Turing Institute Research Memorandum TIRM-87-018 "Vehicle Recognition Using Rule
Based Methods" by Siebert,JP (March 1987)
Citas:
Ping Zhong and Masao Fukushima. A Regularized Nonsmooth Newton Method for Multi-
class Support Vector Machines. 2005.
Ken Tang and Ponnuthurai N. Suganthan and Xi Yao and A. Kai Qin. Linear
dimensionalityreduction using relevance weighted LDA. School of Electrical and Electronic
Engineering Nanyang Technological University. 2005.
Remco R. Bouckaert and Eibe Frank. Evaluating the Replicability of Significance Tests for
Comparing Learning Algorithms. PAKDD. 2004.
Dmitry Pavlov and Alexandrin Popescul and David M. Pennock and Lyle H. Ungar. Mixtures
of Conditional Maximum Entropy Models. ICML. 2003.
James Bailey and Thomas Manoukian and Kotagiri Ramamohanarao. Fast Algorithms for
Mining Emerging Patterns. PKDD. 2002.
Gisele L. Pappa and Alex Alves Freitas and Celso A A Kaestner. Attribute Selection with a
Multi-objective Genetic Algorithm. SBIA. 2002.
Robi Polikar and L. Upda and S. S. Upda and Vasant Honavar. Learn++: an incremental
learning algorithm for supervised neural networks. IEEE Transactions on Systems, Man, and
Cybernetics, Part C, 31. 2001.
Thierry Denoeux. A neural network classifier based on Dempster-Shafer theory. IEEE

Transactions on Systems, Man, and Cybernetics, Part A, 30. 2000.
Thomas G. Dietterich. An Experimental Comparison of Three Methods for Constructing

Ensembles of Decision Trees: Bagging, Boosting, and Randomization. Machine Learning, 40.
2000.
Richard Maclin. Boosting Classifiers Regionally. AAAI/IAAI. 1998.
Ron Kohavi and Mehran Sahami. Error-Based and Entropy-Based Discretization of

Continuous Features. KDD. 1996.
Ron Kohavi. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model
Selection. IJCAI. 1995.
Maria Salamo and Elisabet Golobardes. Analysing Rough Sets weighting methods for Case-
Based Reasoning Systems. Enginyeria i Arquitectura La Salle.
Ronaldo C. Prati and Peter A. Flach. ROCCER: an Algorithm for Rule Learning Based on
ROC Analysis. Institute of Mathematics and Computer Science University of S~ ao Paulo.
Jeffrey P. Bradford and Clayton Kunz and Ron Kohavi and Clifford Brunk and Carla
Brodley. Appears in ECML-98 as a research note Pruning Decision Trees with
Misclassification Costs. School of Electrical Engineering.
Gisele L. Pappa and Alex Alves Freitas and Celso A A Kaestner. AMultiobjective Genetic
Algorithm for Attribute Selection. Computing Laboratory Pontificia Universidade Catolica do
Parana University of Kent at Canterbury.
University.
Yin Zhang and W. Nick Street. Bagging with Adaptive Costs. Management Sciences
Department University of Iowa Iowa City.
H. Altay Guvenir. A Classification Learning Algorithm Robust to Irrelevant Features. Bilkent

University, Department of Computer Engineering and Information Science.

Rajesh Parekh and Jihoon Yang and Vasant Honavar. Constructive Neural-Network Learning
Algorithms for Pattern Classification.
Vikas Sindhwani and P. Bhattacharya and Subrata Rakshit. Information Theoretic Feature
Crediting in Multiclass Support Vector Machines.
Statlog Project Data Set 1992-10-01
Resumen: Varias bases de datos: Vehicle silhouttes, Landsat Sattelite, Shuttle, Australian
Credit Approval, Heart Disease, Image Segmentation, German Credit

N/A N/A rea: N/A

N/A N/A 01-10-1992
Nmero de
Valores
Tareas asociadas: N/A N/A accesos N/A
perdidos?
Web:
Fuente:
Las bases de datos de Statlog son un subconjunto de los conjuntos de datos utilizados en el
proyecto europeo de Statlog.
Donante:
Ross D. King
Departamento de Estadstica y modelado de Ciencias
Universidad de Strathclyde
Glasgow G1 1XH
Escocia, Reino Unido
+44 41 552-4400 x 3033
Fax +44 41 552-4711
ross '@' turing.uk.ac

Las bases de datos estn disponibles aqu estaban en uso en el proyecto europeo Statlog,
que consiste en comparar las prestaciones de la mquina de aprendizaje, estadstica y
algoritmos de redes neuronales en los conjuntos de datos de las reas industriales del
mundo real, incluyendo la medicina, finanzas, anlisis de imgenes, y el diseo de
ingeniera. No todas las bases de datos utilizadas en el proyecto estn disponibles en este
repositorio.
Bases de datos:
(a) Siluetas de Vehculos:

El propsito original era encontrar un mtodo para distinguir los objetos 3D en una imagen
2D mediante la aplicacin de un conjunto de extractores de caractersticas de formas a las
siluetas en 2D de los objetos.
(b) Satlite Landsat:
La base de datos consta de los valores multiespectrales de pxeles en los sectores de 3x3
en una imagen de satlite, y la clasificacin asociada con el pxel central en cada sector. El
objetivo es predecir esta clasificacin dados los valores multiespectrales. En la base de
datos de ejemplo, la clase de un pxel se codifica como un nmero.
(c) Transporte:
El conjunto de datos de transporte contiene 9 atributos todos los cuales son de tipo
numrico. Aproximadamente el 80% de los datos pertenecen a la clase 1.
(d)Aprobacin de Crdito Australiano:
Esta aplicacin refiere aplicaciones de tarjetas de crdito. Todos los nombres y valores de
los atributos se han cambiado a smbolos sin sentido para proteger la confidencialidad de los
datos. Esta base de datos existe en el repositorio (Credit Screening Database) en una forma
ligeramente diferente.
(e) Enfermedades del corazn:
Este conjunto de datos es una base de datos de las enfermedades del corazn similar a una
base de datos ya presente en el repositorio (Heart Disease databases), pero en un poco
diferente formulario. Esta base de datos contiene 13 atributos (que han sido extrados de un
conjunto mayor de 75).
(f) Segmentacin de imgenes:
Este conjunto de datos es una base de datos de segmentacin de imgenes similar a una
base de datos ya est presente en el repositorio (base de datos de segmentacin de
imagenImage segmentation database), pero un poco diferente. Los casos fueron
seleccionados al azar a partir de una base de datos de 7 imgenes al aire libre. Las
imgenes fueron segmentadas manualmente para crear una clasificacin para cada
pxel. Cada instancia es una regin de 3x3.
(g) Crdito Alemn: Este conjunto de datos clasifica a las personas descritas por un conjunto
de atributos como buenos o malos riesgos de crdito. Viene en dos formatos (uno todos
numricos). Tambin viene con una matriz de costos.

N/A
Feng,C., Sutherland,A., King,S., Muggleton,S. & Henery,R. (1993). Comparison of Machine
Learning Classifiers to Statistics and Neural Networks. AI & Stats Conf. 93.
Citas:
Wei-Chun Kao and Kai-Min Chung and Lucas Assun and Chih-Jen Lin. Decomposition
Methods for Linear Support Vector Machines. Neural Computation, 16. 2004.
Gavin Brown. Diversity in Neural Network Ensembles. The University of Birmingham. 2004.
Zoubin Ghahramani and Hyun-Chul Kim. Bayesian Classifier Combination. Gatsby

Computational Neuroscience Unit University College London. 2003.
Bart Hamers and J. A. K Suykens. Coupled Transductive Ensemble Learning of Kernel

Models. Bart De Moor. 2003.
Jun Wang and Bin Yu and Les Gasser. Concept Tree Based Clustering Visualization with
Shaded Similarity Matrices. ICDM. 2002.
Ramesh Natarajan and Edwin P D Pednault. Segmented Regression Estimators for Massive
Data Sets. SDM. 2002.
Avelino J. Gonzalez and Lawrence B. Holder and Diane J. Cook. Graph-Based Concept
Learning. FLAIRS Conference. 2001.
Jochen Garcke and Michael Griebel and Michael Thess. Data Mining with Sparse Grids.
Computing, 67. 2001.
Edgar Acuna and Alex Rojas. Ensembles of classifiers based on Kernel density estimators.
Department of Mathematics University of Puerto Rico. 2000.
Haixun Wang and Carlo Zaniolo. CMP: A Fast Decision Tree Classifier Using Multivariate
Predictions. ICDE. 2000.
Cesar Guerra-Salcedo and L. Darrell Whitley. Genetic Approach to Feature Selection for
Ensemble Creation. GECCO. 1999.
Guido Lindner and Rudi Studer. AST: Support for Algorithm Selection with a CBR Approach.
PKDD. 1999.
Ljupco Todorovski and Saso Dzeroski. Experiments in Meta-level Learning with ILP. PKDD.
1999.
Art B. Owen. Tubular neighbors for regression and classification. Stanford University. 1999.
Khaled A. Alsabti and Sanjay Ranka and Vineet Singh. CLOUDS: A Decision Tree Classifier
for Large Datasets. KDD. 1998.
Igor Kononenko and Edvard Simec and Marko Robnik-Sikonja. Overcoming the Myopia of
Inductive Learning Algorithms with RELIEFF. Appl. Intell, 7. 1997.
Oya Ekin and Peter L. Hammer and Alexander Kogan and Pawel Winter. Distance-Based
Classification Methods. e p o r t RUTCOR ffl Rutgers Center for Operations Research ffl
Rutgers University. 1996.
Georgios Paliouras and David S. Bre. The Effect of Numeric Features on the Scalability of
Inductive Learning Programs. ECML. 1995.
Ron Kohavi and George H. John and Richard Long and David Manley and Karl
Pfleger. MLC++: A Machine Learning Library in C. ICTAI. 1994.
Ron Kohavi and George John and Richard Long and David Manley and Karl
Pfleger. Appears in Tools with AI '94. Computer Science Department Stanford University.
H. -T Lin and C. -J Lin. A Study on Sigmoid Kernels for SVM and the Training of non-PSD
Kernels by SMO-type Methods. Department of Computer Science and Information
Engineering National Taiwan University.
Jun Wang. Classification Visualization with Shaded Similarity Matrix. Bei Yu Les Gasser
Graduate School of Library and Information Science University of Illinois at Urbana-
Champaign.
Rong-En Fan and P. -H Chen and C. -J Lin. Working Set Selection Using the Second Order
Information for Training SVM. Department of Computer Science and Information Engineering
National Taiwan University.
Wl odzisl/aw Duch and Karol Grudzinski. Search and global minimization in similarity-based
methods. Department of Computer Methods, Nicholas Copernicus University.
Wl odzisl and aw Duch. Committees of Undemocratic Competent Models. School of

Computer Engineering Nanyang Technological University.
C. esar and Cesar Guerra-Salcedo and Darrell Whitley. Feature Selection Mechanisms for
Ensemble Creation : A Genetic Search Perspective. Department of Computer Science
Colorado State University.
Elena Smirnova and Ida G. Sprinkhuizen-Kuyper and I. Nalbantis and b. ERIM and
Universiteit Rotterdam.Unanimous Voting using Support Vector Machines. IKAT, Universiteit
Maastricht.
Ron Kohavi and Barry G. Becker and Dan Sommerfield. Improving Simple Bayes. Data
Mining and Visualization Group Silicon Graphics, Inc.
Wl odzisl and aw Duch. Control and Cybernetics. Department of Computer Methods,

Nicholas Copernicus University.
Wl odzisl/aw Duch and Rudy Setiono and Jacek M. Zurada. Computational intelligence
methods for rule-based data understanding.
Wl/odzisl/aw Duch and Rafal/ Adamczak Email:duchraad@phys. uni. torun. pl. Statistical
methods for construction of neural networks. Department of Computer Methods, Nicholas
Copernicus University.
University.

Wl/odzisl/aw Duch. Support Vector Neural Training. Index Terms--.
Alexander K. Seewald. Meta-Learning for Stacked Classification. Austrian Research Institute

for Artificial Intelligence.
Wl/odzisl/aw Duch and Karol Grudzinski. Meta-learning: searching in the model space.
Department of Computer Methods, Nicholas Copernicus University.
Kuan-ming Lin and Chih-Jen Lin. A Study on Reduced Support Vector Machines. Department
of Computer Science and Information Engineering National Taiwan University.
Engineering.
Yishay Mansour. Pessimistic decision tree pruning based on tree size. Computer Science
Dept. Tel-Aviv University.
Guido Lindner and Rudi Studer. Algorithm Selection Support for Classification.
DaimlerChrysler AG, Research & Technology FT3/KL.
Steel Plates Faults Data Set 2010-10-26
Resumen: Un conjunto de datos de defectos en placas de acero, que se clasifica en 7 tipos
diferentes. El objetivo era formar a la mquina de aprendizaje para el reconocimiento
automtico de patrones.

Multivariante 1941 rea: Material

Entero, Rela 27 26-10-2010
Nmero de
Valores
perdidos?
Web:
Fuente:
Semeion, Centro de Investigacin de Ciencias de la Comunicacin, Via Sersale 117, 00128,
Roma, Italia.
www.semeion.it

Tipos de variables dependientes (7 tipos de fallas de placas de acero):
1.Pastry
2.Z_Scratch
3.K_Scatch
4.Stains
5.Dirtiness
6.Bumps
7.Other_Faults

27 variables independientes:
X_Minimum
X_Maximum
Y_Minimum
Y_Maximum
Pixels_Areas
X_Perimeter
Y_Perimeter
Sum_of_Luminosity
Minimum_of_Luminosity
Maximum_of_Luminosity
Length_of_Conveyer
TypeOfSteel_A300
TypeOfSteel_A400
Steel_Plate_Thickness
Edges_Index
Empty_Index
Square_Index
Outside_X_Index
Edges_X_Index
Edges_Y_Index
Outside_Global_Index
LogOfAreas
Log_X_Index
Log_Y_Index
Orientation_Index
Luminosity_Index
SigmoidOfAreas
1.M Buscema, S Terzi, W Tastle, A New Meta-Classifier,in NAFIPS 2010, Toronto
(CANADA),26-28 July 2010, 978-1-4244-7858-6/10 2010 IEEE
2.M Buscema, MetaNet: The Theory of Independent Judges, in Substance Use & Misuse,
33(2), 439-461,1998
Student Loan Relational Data Set 1993-01-01
Resumen: Prstamos Estudiantiles dominio relacional
Caractersticas del Dominio- Nmero de

1000 rea: Social
Conjunto de datos: Teora instancias:

N/A N/A 01-01-1993
Nmero de
Valores
Tareas asociadas: N/A N/A accesos 19338
perdidos?
Web:
Fuente:
Michael J. Pazzani
Universitdad de California, Irvine
Irvine, CA EUA

El predicado no_pago_debido / 1 es vlido para aquellas personas que no estn obligados a
pagar un prstamo estudiantil. Las relaciones auxiliares se pueden utilizar para discriminar
totalmente casos positivos de negativos de no_pago_debido / 1. La suposicin de mundo
cerrado se aplica a todas las relaciones auxiliares.

N/A
Pazzani, M., & Brunk, C. (1991). Detecting and correcting errors in rule-based expert
systems: an integration of empirical and explanation-based learning. Knowledge Acquisition,
3, 157-173.
SUSY Data Set 2014-02-12
Resumen: Este es un problema de clasificacin para distinguir entre un proceso de seal
que produce partculas supersimtricas y un proceso en segundo plano que no lo hace.
Caractersticas del
Nmero de
Conjunto de N/A 5000000 rea: Fsica
instancias:
datos:

Real 18
Nmero de
Valores
perdidos?
Web:
Fuente:
Daniel Whiteson daniel '@' uci.edu, Profesor assistente, Fsica y Astronoma, Universidad de
California Irvine

Proporciona toda la informacin relevante. Los datos han sido producidos utilizando
simulaciones de Monte Carlo. Las primeras 8 caractersticas son propiedades cinemticas
medidas por los detectores de partculas en el acelerador. Las ltimas diez caractersticas
son funciones de las primeras 8 funciones; estas son las caractersticas de alto nivel
procedentes de los fsicos para ayudar a discriminar entre las dos clases. Hay un inters en
el uso de mtodos de aprendizaje profundo para evitar la necesidad de los fsicos para
desarrollar manualmente dichas caractersticas. Resultados de referencia que utilizan
rboles de decisin bayesiana a partir de un paquete de fsica estndar y las redes
neuronales de 5 capas y el algoritmo de desercin se presentan en el documento
original. Los ltimos 500.000 ejemplos se utilizan como una prueba acerca de su conjunto de
datos.

La primera columna es la etiqueta de la clase, seguido de las 18 caractersticas. Para
obtener informacin detallada acerca de cada funcin ver el documento original
Baldi, Sadowski, Whiteson, Improved Searches for Exotic Particles with Deep Learning
Techniques, (in submission).
Synthetic Control Chart Time Series Data Set 1999-06-08
Resumen: Esta informacin consta de los grficos de control generados sintticamente.
Caractersticas del Series de Nmero de

600 rea: N/A
Conjunto de datos: tiempo instancias:

Real N/A 08-06-1999
Nmero de
Tareas asociadas: No accesos 31979
Agrupamiento perdidos?
Web:
Fuente:
Dr. Robert Alcock rob '@' skyblue.csd.auth.gr

Este conjunto de datos contiene 600 ejemplos de grficos de control sintticamente
generados por el proceso de Alcock y Manolopoulos (1999). Hay seis clases diferentes de
grficas de control:
1. Normal
2. Cyclic
3. Increasing trend
4. Decreasing trend
5. Upward shift
6. Downward shift
La siguiente imagen muestra diez ejemplos de cada clase: data.jpeg, donde (A) Tendencia a
la baja. (B) cclico. (C) normal. (D) de desplazamiento hacia arriba. (E) Tendencia al alza. (F)
desplazamiento a la baja.

Los datos se almacenan en un archivo ASCII, 600 filas, 60 columnas, con un solo grfico por
lnea. Las clases se organizan de la siguiente manera:
1-100 Normal
101-200 Cyclic
201-300 Increasing trend
301-400 Decreasing trend
401-500 Upward shift
501-600 Downward shift
Alcock R.J. and Manolopoulos Y. Time-Series Similarity Queries Employing a Feature-Based
Approach. 7th Hellenic Conference on Informatics. August 27-29. Ioannina,Greece 1999.
D.T. Pham and A.B. Chan "Control Chart Pattern Recognition using a New Type of Self
Organizing Neural Network" Proc. Instn, Mech, Engrs. Vol 212, No 1, pp 115-127 1998.
Syskill and Webert Web Page Ratings Data Set 1998-10-20
Resumen: Esta informacin consta de los grficos de control generados sintticamente.
Caractersticas del Multivariante, Nmero de

332 rea: Computacin
Conjunto de datos: Texto instancias:

Categrico 5 20-10-1998
Nmero de
Valores
perdidos?
Web:
Fuente:
Michael Pazzani
Departamento de informacin y ciencias de la computacin
Universidad de California, Irvine
Irvine, CA 92697-3425
pazzani '@' ics.uci.edu
http://www.ics.uci.edu/~pazzani

Se indica el cdigo fuente HTML de una pgina web. Los usuarios observaron cada pgina
web e inidicaron en una escala de 3 puntos (fro medio caliente) 50-100 pginas por
dominio. Sin embargo, esto es realista, porque queremos aprender los perfiles de usuario
desde tan pocos ejemplos como sea posible para que los usuarios tengan una incentivo para
clasificar las pginas.

Cada sujeto se encuentra en un directorio independiente. Dentro de cada directorio, hay un
archivo llamado "ndex". El ndice contiene informacin sobre los dems archivos. Cada
entrada es una lnea de la forma:
file-name | rating | url | fecha de valoracin | ttulo
donde file-name es el nombre de un archivo (por lo general un nmero entero), est caliente,
medio o fro. Los otros campos no se utilizan en el aprendizaje, sino que son recogidos por
la interfaz para otros fines. Son la url de la fuente del HTML, la fecha de clasificacin y el
ttulo de la OAGE web.
Pazzani M., Billsus, D. (1997). Learning and Revising User Profiles: The identification of
interesting web sites. Machine Learning 27, 313-331
Pazzani, M., Muramatsu J., Billsus, D. (1996). Syskill & Webert: Identifying interesting web
sites. Proceedings of the National Conference on Artificial Intelligence, Portland, OR. PDF
Citas:
Stephen D. Bay and Dennis F. Kibler and Michael J. Pazzani and Padhraic Smyth. The UCI
KDD Archive of Large Data Sets for Data Mining Research and Experimentation. SIGKDD
Explorations, 2. 2000.
Electrificacin Tamilnadu por Horas Lecturas Data Set 22/12/2013
Resumen: Estos datos se pueden producir con eficacia el resultado a menos de
parmetros del perfil de carga se puede reducir en la base de datos

Real 5 22/12/2013
La
Nmero
clasificacin, Valores
Tareas asociadas: N/A de Web 257
regresin, perdidos?
Accesos:
clustering
Fuente:
K.Kalyani, kkalyanims "@" gmail.com , TUK Arts College, Karanthai, Thanjavur.
Recoge las lecturas en tiempo real para aplicaciones residenciales, comerciales,

industriales, agriculure, para encontrar el consumo de precisin en Tamil Nadu Alrededor
Thanajvur
forkva, forkw, el tipo, el sector, el servicio
Eficiente Electricidad Utilizacin Por IHBMO
Cita de pedidos:
Si usted no tiene ninguna peticin de citas especiales, por favor, deje este campo en
blanco.
Ayudante de Evaluacin Conjunto de Datos 07/06/1997
Resumen: Los datos consisten en evaluaciones de desempeo docente, las
puntuaciones son de "bajo", "medio" o "alto"

5 07/06/1997
atributo: Integer atributos: Donado
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Collector: Wei-Yin Loh (Departamento de Estadstica, Universidad de Wisconsin-

Madison) Donante: Tjen-Sien Lim ( limt '@' stat.wisc.edu )
Los datos consisten en evaluaciones de desempeo docente en tres semestres regulares

y dos semestres de verano de 151 asistentes de enseanza (TA) asignaciones en el
Departamento de la Universidad de Wisconsin-Madison Estadstica. Las puntuaciones
fueron divididas en 3 categoras ms o menos del mismo tamao ("bajos", "medianos" y
"alto") para formar la variable de clase.
1. Ya sea de la TA no es un hablante nativo de Ingls (binario); 1 = altavoz Ingls, 2 = no

Ingls altavoz
2. El instructor del curso (categricos, 25 categoras)
3. Curso (categrica, 26 categoras)
4. Verano o semestre regular (binario) 1 = Verano, 2 = Regular
5. Tamao de la clase (numrico)
6. Atributo Class (categrica) 1 = bajo, 2 = medio, 3 = Alto
Loh, W.-Y. Y Shih, Y.-S. (1997). Dividir Mtodos de seleccin de rboles de clasificacin,
Statistica Snica 7:. 815-840 [Web Link] Lim, T.-S., Loh, W.-Y. Y Shih, Y.-S.(1999). Una
comparacin de la exactitud de prediccin, complejidad y tiempo de formacin de los
Treinta y tres del Antiguo y Nuevo Clasificacin Algoritmos. Aprendizaje
Automtico. ( [Web Link] o [Web Link] ) [Web Link]
Cita de pedidos:
Ciruga Torcica de datos Conjunto de datos 11/13/2013
Resumen: Los datos se dedica a la clasificacin relativa a la esperanza de vida despus
de la operacin en los pacientes con cncer de pulmn problema: Clase 1 - muerte
dentro de un ao despus de la ciruga, clase 2 - supervivencia.

Entero, real 17 11/13/2013
Nmero de
Valores N/
perdidos? A
Accesos:
Fuente:
Creadores: Marek Lubicz (1), Konrad Pawelczyk (2), Adam Rzechonek (2), Jerzy Kolodziej
(2)
- (1) Universidad Tecnolgica de Wroclaw, Wybrzeze Wyspianskiego 27, 50-370,
Breslavia, Polonia
- (2 ) Mdico de la Universidad de Wroclaw, Wybrzeze L. Pasteura 1, 50-367 Wroclaw,
Polonia Donante: Maciej Zieba ( maciej.zieba '@' pwr.wroc.pl ), Jakub M. Tomczak
( jakub.tomczak '@' pwr.wroc. j ), (48) 71 320 44 53 Fecha: noviembre de 2013
Los datos se recogieron de forma retrospectiva en el Centro de Ciruga Torcica Wroclaw

para los pacientes que se sometieron a resecciones pulmonares para el cncer primario
de pulmn en el ao 2007a "2011. El Centro est asociado con el Departamento de
Ciruga Torcica de la Universidad Mdica de Wroclaw y Baja-Silesia Centro de
Enfermedades Pulmonares, Polonia, mientras que la base de datos de la investigacin
constituye una parte del Registro Nacional de Cncer de Pulmn, administrado por el
Instituto de la Tuberculosis y Enfermedades Pulmonares en Varsovia, Polonia
1. DGN: Diagnstico - combinacin especfica de cdigos CIE-10 para los tumores, as

mltiples primarios y secundarios en su caso (DGN3, DGN2, DGN4, DGN6, DGN5, DGN8,
DGN1)
2. PRE4: capacidad vital forzada - FVC (numrico)
3. Pre5: volumen que se ha exhalado al final de la primera segundo de la espiracin
forzada - FEV1 (numrico)
4. Pre6: Estado funcional - escala Zubrod (PRZ2, PRZ1, PRZ0)
5. Pre7: dolor antes de la ciruga (T, F)
6. Pre8: Hemoptisis antes de la ciruga (T, F)
7. Pre9: Disnea antes de la ciruga (T, F)
8. Pre10: Tos antes de la ciruga (T, F)
9. Pre11: Debilidad antes de la ciruga (T, F)
10. PRE14: T en TNM clnico - tamao del tumor original, desde OC11 (el ms pequeo) a
OC14 (grande) (OC11, OC14, OC12, OC13)
11. PRE17: DM tipo 2 - la diabetes mellitus (T, F)
12. PRE19: MI hasta 6 meses (t, f)
13. PRE25: PAD - enfermedades arteriales perifricas (t, f)
14. PRE30: Fumar (T, F)
15. PRE32: Asma (T, F)
16. EDAD: La edad de la ciruga (numrico)
17. Risk1Y: perodo de supervivencia 1 ao - (T) Valor rue si muerto (T, F) Clase de
distribucin:. el valor de la clase (Risk1Y) es binaria valorado Risk1Y Valor: Nmero de
instancias: T 70 N 400 Estadsticos de resumen: Binary atributos de distribucin: pre7
Valor: Nmero de instancias: T 31 N 439 pre8 Valor: Nmero de instancias: T 68 N
402 pre9 Valor: Nmero de instancias: T 31 N 439 pre10 Valor: Nmero de instancias: T
323 N 147 pre11 Valor: Nmero de instancias : T 78 N 392 PRE17 Valor: Nmero de
instancias: T 35 N 435 PRE19 Valor: Nmero de instancias: T 2 N 468 PRE25 Valor:
Nmero de instancias: T 8 N 462 PRE30 Valor: Nmero de instancias: T 386 N 84 PRE32
Valor: Nmero de instancias: T 368 N 2 Atributos nominales de distribucin: DGN valor:
nmero de instancias: DGN3 349 DGN2 52 DGN4 47 DGN6 4 DGN5 15DGN8 2 DGN1 1
pre6 Valor: Nmero de instancias: PRZ2 27 PRZ1 313 PRZ0 130 PRE14 Valor : Nmero
de instancias: OC11 177 OC14 17 OC12 257 OC13 19Numrico atributos Estadsticas:
Min Max Promedio DE PRE4: 1.4 6.3 3.3 0.9 pre5: 0,96 86,3 4,6 11,8 EDAD: 21 87 52,5
8,7
Ba Zia , M., Tomczak, JM, Lubicz, M., y wi ... tek, J. (2013). Impulsado SVM para la
extraccin de reglas a partir de los datos de desequilibrio en la aplicacin a la prediccin
de la esperanza de vida despus de la operacin en los pacientes con cncer de
pulmn. Applied Soft Computing. [Web Link]
- Resultados:
- Impulsado por SVM para datos desequilibrados obtuvo el valor Gmean igual 0.657,
- Las reglas de decisin inducidas utilizando Impulsado SVM como orculo ganaron el
valor Gmean igual 0,648.
Cita de pedidos:
Ba Zia , M., Tomczak, JM, Lubicz, M., y wi ... tek, J. (2013). Impulsado SVM para la
extraccin de reglas a partir de los datos de desequilibrio en la aplicacin a la prediccin
de la esperanza de vida despus de la operacin en los pacientes con cncer de pulmn. .
Applied Soft Computing [Web Link]
BibTeX: @ article {zieba2013boosted, title = {Impulsado SVM para la extraccin de reglas

a partir de los datos de desequilibrio en la aplicacin a la prediccin de la esperanza de
vida despus de la operacin en los pacientes con cncer de pulmn}, author = {Zi {k {e}}
ba, Maciej y Tomczak, Jakub M y Lubicz, Marek y {'S} wi {k {a}} tek, Jerzy}, journal =
{Applied Soft Computing}, ao = {2013}, publisher = { Elsevier}, doi = { [Web Link] } }
Enfermedad de la tiroides Data Set 1987-01-01
Resumen : 10 bases de datos independientes de Garavan Instituto
7200 rea: Vida

21
Nmero de
Valores
Tareas asociadas: Clasificacin N / A Web 54696
perdidos?
Accesos:
Fuente:
Ross Quinlan
# De Garavan Instituto
# Documentacin: segn lo dado por Ross Quinlan
# 6 bases de datos del Instituto Garavan en Sydney, Australia
# Aproximadamente lo siguiente para cada base de datos: ** 2800 la formacin (datos)
casos y 972 casos de prueba ** Un montn de datos que faltan * * 29 o ms atributos, ya
sea de Boole o continuamente valorada # 2 bases de datos adicionales, tambin de Ross
Quinlan, estn tambin aqu ** Hypothyroid.data y enfermo-euthyroid.data ** Quinlan
considera que estas bases de datos se han corrompido ** Su formato es muy similar a la
de otras bases de datos # 1 ms base de datos de 9.172 casos que cubren 20 clases y
una relacionada con la teora de dominio # Otra base de datos de la tiroides de Stefan
Aeberhard ** 3 clases, 215 casos, 5 atributos** No hay valores perdidos # base de datos
Una tiroides adecuado para formacin RNAs ** 3 clases ** 3772 instancias de
capacitacin, 3.428 instancias de prueba ** Incluye los datos de costes (donado por Peter
Turney)
N/A
Quinlan, JR, Compton, PJ, Horn, KA, y Lazurus, L. (1986). Adquisicin de conocimiento
inductivo: Un estudio de caso. En Actas de la Segunda Conferencia Australiana sobre
Aplicaciones de Sistemas Expertos. Sydney, Australia. [Web Link] Quinlan, JR (1986). La
induccin de rboles de decisin. Aprendizaje Automtico, 1, 81 -. 106[Web Link]
Ken Tang y Ponnuthurai N. Suganthan y Xi Yao y A. Kai Qin. dimensionalityreduction lineal

utilizando LDA relevancia ponderada . Escuela de Ingeniera Elctrica y Electrnica de la
Universidad Tecnolgica de Nanyang. 2005. [ Ver Contexto ]. Zhi-Hua Zhou y Jiang
Yuan. NeC4.5: Neural Ensemble Based C4.5 . IEEE Trans.Conocimiento. Datos Eng,
16. 2004. [ Ver Contexto ]. Xiaoyong Chai y Li Deng y Qiang Yang y Charles X.
Ling. Prueba sensibles al coste Clasificacin Naive Bayes .ICDM. 2004. [ Ver
Contexto ]. Vassilis Athitsos y Stan Sclaroff. Impulsar Clasificadores vecino ms cercano
para el Reconocimiento multiclase . Universidad de Boston Computer Tech
Ciencia. Informe n, 2004-006. 2004. [ Ver Contexto ]. Michael L. Raymer y Travis E. Doom
y Leslie A. Kuhn y William F. Punch. Descubrimiento de conocimiento en bases de datos
mdicas y biolgicas utilizando un clasificador de Bayes / algoritmo evolutivo
hbrido . Transacciones de IEEE en Sistemas, Hombre y Ciberntica, parte B, de 33
aos. 2003. [ Ver Contexto ]. Lukasz A. Kurgan y Waldemar Swiercz y Krzysztof J.
Cios. Mapping Semntica de etiquetas XML Usando inductivo Machine
Learning . ICMLA. 2002. [ Ver Contexto ]. Qiang Yang y Wu Jing. Aumento de la eficacia
de razonamiento basado en casos interactivos con la agrupacin y de decisin
Bosques . Appl. Intell, 14. 2001. [ Ver Contexto ]. Petri Kontkanen y Jussi Lahtinen y Petri
Myllymki y Henry Tirri. visualizacin bayesiano no supervisado de los datos de alta
dimensin . KDD. 2000. [ Ver Contexto ]. Erin L. Allwein y Robert E. Schapire y Yoram
Singer. Reducir multiclase a binario: un enfoque unificador para clasificadores de
margen . ICML. 2000. [ Ver Contexto ]. Andreas L. Prodromidis. Sobre la Gestin de
Aprendizaje Distribuido Agentes Ph.D. Propuesta de Tesis CUCS-032-97 . Departamento
de Ciencias de la Universidad de Columbia por ordenador. 1998. [ Ver Contexto ]. Ethem
Alpaydin. Votacin sobre varios vecinos ms cercanos Condensados . Artif. Intell. Rev,
11. 1997. [ Ver Contexto ]. Kai Ming Ting y Boon Toh baja. Combinacin de modelo en el
Multiple-Data-Lotes Escenario .ECML. 1997. [ Ver Contexto ]. Salvatore J. Stolfo y
Andreas L. Prodromidis y Shelley Tselepis y Wenke Lee y David W. Fan y Philip K.
Chan. JAM: Agentes de Java para Meta-Learning sobre bases de datos
distribuidas . KDD. 1997. [ Ver Contexto ]. Peter D. Turney. sensibles a los costes de
clasificacin: evaluacin emprica de una Decisin gentico hbrido Tree Induccin
algoritmo . CoRR, csAI/9503102. 1995. [ Ver Contexto ]. George H. John y Ron Kohavi y
Karl Pfleger. Caractersticas irrelevante y el problema de la seleccin de
subconjuntos . ICML. 1994. [ Ver Contexto ]. H. Altay Gvenir. A Clasificacin algoritmo de
aprendizaje robusto de caractersticas irrelevantes . Universidad de Bilkent, Departamento
de Ingeniera en Computacin e Informtica. [ Ver Contexto ]. Kai Ming Ting y Boon Toh
baja. Teora de combinacin: una alternativa a la combinacin de datos . Universidad de
Waikato. [ Ver Contexto ]. Michael L. Raymer y William F. Punch y Erik D. Goodman y
Leslie A. Kuhn y Anil K. Jain. Documentos breves . [ Ver Contexto ]. Andrew I. Schein y
Lyle H. Ungar. A-optimalidad para el Aprendizaje Activo de regresin logstica de los
clasificadores .Departamento de Informtica y Ciencias de la Informacin Levine Hall. [ Ver
Contexto ]. Wl / odzisl / aw Duch y Rafal Adamczak y Krzysztof Grabczewski. Extraccin
de reglas lgicas y ntidas de los conjuntos de datos mdicos . Departamento de Mtodos
Computacionales, Universidad Nicols Coprnico. [ Ver Contexto ]. Sherrie L. W y Zijian
Zheng. UN REFERENTE PARA EL APRENDIZAJE CLASIFICADOR . Departamento
Basser de Ciencias de la Computacin de la Universidad de Sydney. [ Ver
Contexto ]. Pramod Viswanath y M. Narasimha Murty y Shalabh Bhatnagar. Particin
Basado Patrn tcnica de sntesis con algoritmos eficientes para la cercana Clasificacin
Vecino . Departamento de Informtica y Automtica, Instituto Indio de Ciencia. [ Ver
Contexto .] Wl / odzisl / aw Duch y Rafal / Adamczak Email: duchraad @
fs. uni. Torun. pl. Mtodos estadsticos para la construccin de las redes
neuronales . Departamento de Mtodos Computacionales, Universidad Nicols
Coprnico. [Ver Contexto ]. Wl odzisl / aw Duch y Rudy Setiono y Jacek M.
Zurada. mtodos de inteligencia computacional para la comprensin de datos basado en
normas . [ Ver Contexto .] . Je Scott y Mahesan Niranjan y Richard W.
Prager Clasificadores realizables: Mejora del rendimiento operativo de Problemas de costo
variable . Cambridge Departamento de Ingeniera de la Universidad. [ Ver
Contexto ]. Pramod Viswanath y M. Narasimha Murty y Shalabh Bhatnagar. Una tcnica
de sntesis patrn para reducir la maldicin de la dimensionalidad efecto . E-mail. [ Ver
Contexto ].
Tic-Tac-Toe Endgame Data Set 1991-08-19
Resumen : tarea de clasificacin binaria sobre las posibles
configuraciones de juego de tic-tac-dedo del pie


Categrico 9
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Creador: David W. Aha ( aha '@' cs.jhu.edu ) Donante: David W. Aha

( aha '@' cs.jhu.edu )
Esta base de datos codifica el conjunto completo de posibles configuraciones de mesa al

final de los juegos de tic-tac-dedo del pie, donde "x" se supone que ha jugado primero. El
concepto objetivo es "ganar para x" (es decir, cierto cuando "x" tiene una de las 8 formas
posibles para crear un "tres-en-uno-fila"). Curiosamente, esta base de datos en bruto da
un algoritmo de rbol de decisin despojada (por ejemplo, ID3) encaja. Sin embargo, el
algoritmo basado en reglas CN2, el simple IB1 algoritmo de aprendizaje basada en
instancia, y la decisin de algoritmo de rbol de caractersticas-la construccin de CITRE
desempean bien en l.
1. superior izquierda cuadrados: {x, o, b}

2. -Mejor Medio plaza: {x, o, b}
3. arriba a la derecha-cuadrado: {x, o, b}
4. medio-izquierdo cuadrado: {x, o, b}
5. media-media plaza: {x, o, b}
6. medio-derecha-square: {x, o, b}
7. inferior izquierda cuadrados: {x, o, b}
8. -bottom medio cuadrados: {x, o, b}
9. inferior derecha cuadrados: {x, o, b}
10. Clase: {positivo, negativo}
Matheus, CJ, y Rendell, LA (1989). Induccin constructiva en los rboles de decisin. En

Actas de la Conferencia Internacional Conjunta Undcimo Inteligencia Artificial.(Pp. 645-
650). Detroit, MI:. Morgan Kaufmann [Web Link] Matheus, CJ (1990). Adicin de
conocimiento del dominio a travs de la construccin SBL caracterstica. En Actas de la
Conferencia Nacional de la Octava de la Inteligencia Artificial (pp. 803-808). Boston, MA:.
AAAI Press [Web Link] Aha, DW (1991). Incremental induccin constructiva: Un enfoque
basado en instancia. En Actas del Taller Internacional Octavo en Aprendizaje Automtico
(pp. 117-121). Evanston, ILL:. Morgan Kaufmann [Web Link]
Saher Esmeir y Sal Markovitch. algoritmos basados en Lookahead para cualquier

momento de la induccin de rboles de decisin . ICML. 2004. [ Ver Contexto ]. Bart
Hamers y JA K Suykens. Acoplado transductivo Ensemble Aprendizaje de Modelos
Kernel . Bart De Moor. 2003. [ Ver Contexto ]. Michael Bain. Caractersticas estructurados
desde el concepto Enrejados de Aprendizaje No Supervisado y Clasificacin . Australiana
Conferencia Conjunta sobre Inteligencia Artificial. 2002. [ Ver Contexto ]. Jochen Garcke y
Michael Griebel y Michael Tes. Minera de datos con Sparse Grids . Informtica,
67. 2001. [ Ver Contexto ]. Jinyan Li y Kotagiri Ramamohanarao y Guozhu
Dong. Combinando la fuerza del patrn de frecuencia y distancia para la
Clasificacin . PAKDD. 2001. [ Ver Contexto ]. Stephen D. Bay.clasificacin vecino ms
cercano de varios subconjuntos de caractersticas . Intell. Datos Anal, 3. 1999. [ Ver
Contexto ]. Alexey Tsymbal y Seppo Puuronen y Vagan Y. Terziyan. Arbiter Meta-Learning
con seleccin dinmica de clasificadores y su investigacin
experimental . ADBIS. 1999. [ Ver Contexto ]. Stephen D. Bay. Combinando Clasificadores
vecino ms cercano a travs de varios subconjuntos de caractersticas . ICML. 1998. [ Ver
Contexto ]. Ron Kohavi. El poder de las tablas de decisin .ECML. 1995. [ Ver
Contexto ]. Masahiro Terabe y Takashi Washio y Hiroshi Motoda. El efecto de
submuestreo de Cambio on S 3 Embolsado de rendimiento . Instituto de Investigacin de
Mitsubishi. [ Ver Contexto ]. David R. Musicant. MINERA DE DATOS A TRAVS DE
PROGRAMACIN MATEMTICA Y EL APRENDIZAJE DE LA MQUINA . Doctor en
Filosofa (Ciencias de la Computacin) UNIVERSIDAD. [ Ver Contexto ]. C. . Tito Brown y
Harry W. Bullen y Sean P. Kelly y Robert K. Xiao y Steven G. Satterfield y John G.
Hagedorn y Judith E. Devaney Visualizacin y Minera de Datos en un inmersivo entorno
3D: Proyecto de Verano 2003 . [ Ver Contexto ].Ron Kohavi y Brian Frasca. tiles
subconjuntos de caractersticas y Rough Set reductos . Tercer Taller Internacional de
Rough Sets y Soft Computing. [ Ver Contexto ].Shi Zhong y Weiyu Tang y Taghi M.
Khoshgoftaar. Impulsado filtros de ruido para identificar Mislabeled datos . Departamento
de Ciencias de la Computacin e Ingeniera de la Universidad Atlntica de la Florida. [ Ver
Contexto ]. Jerome H. Friedman y Ron Kohavi y Youngkeol Yun. Comparecer en AAAI-96
rboles de decisin de Lazy .Departamento de Estadstica y Stanford Linear Accelerator
Center de la Universidad de Stanford. [ Ver Contexto ]. Christophe G. Giraud-Carrier y
Tony Martnez. UN MODELO DE APRENDIZAJE INCREMENTAL DE RAZONAMIENTO
sentido comn . Departamento de Ciencias de la Computacin de la Universidad Brigham
Young. [Ver Contexto ]. Rafael S. Parpinelli y Heitor S. Lopes y Alex Alves
Freitas. CUARTA PARTE: OPTIMIZACIN colonia de hormigas e Inmunolgico Captulo X
Una colonia de hormigas algoritmo para la Clasificacin Regla Descubrimiento . CEFET-
PR, Curitiba. [ Ver Contexto ]. Kohavi Ron y George H. John. seleccin automtica de
parmetros mediante la minimizacin de error estimado . Ciencias de la Universidad de
Stanford Dpto. Informtica. [ Ver Contexto ]. Jinyan Li y Kotagiri Ramamohanarao y
Guozhu Dong. ICML2000 El espacio de los patrones de salto emergente y su
mantenimiento incremental Algoritmos . Departamento de Ciencias de la Computacin e
Ingeniera de Software de la Universidad de Melbourne, Parkville. [ Ver Contexto ].
Cita de pedidos:
Trenes Conjunto de Datos 1994-06-24
Resumen : 2 formatos de datos (estructurados, de una sola
instancia por lnea)


Categrico 32
Nmero de
Valores N/
perdidos? A
Accesos:
Fuente:
Propietarios Original: Ryszard S. Michalski ( michalski '@' aic.gmu.edu ) y Robert

Stepp donantes: GMU, Centro para la Inteligencia Artificial, Software bibliotecario, Eric E.
Bloedorn ( Bloedorn '@' aic.gmu.edu )
Notas: - "fondo" conocimiento adicional se facilita esta proporciona una ordenacin parcial
de algunos de los valores de los atributos. - Estamos ofreciendo este conjunto de datos,
tanto en su forma original y en una forma similar a los conjuntos de datos proposicionales
ms tpicos en nuestro repositorio. Dado que el conjunto de datos trenes registra las
relaciones entre atributos, esta transformacin fue algo difcil. Sin embargo, puede arrojar
un poco de conocimiento sobre este problema para las personas que estn ms
familiarizados con el formato simple de una sola instancia por lnea de datos. Jerarqua de
valores: if (cshape es uno de {openrect, opentrap, en forma de U, dblopnrect} entonces
cshape es tragante abierto if (cshape es uno de {hexgono, elipse, closedrect, jaggedtop,
slopetop, motor} entonces cshape closedtoptarea Prediccin: Determinar las reglas de
decisin concisas que distinguen los trenes que viajan hacia el este desde los que viajan
al oeste.
El siguiente formato se utiliza para la representacin de datos "transformado" como se

encuentra en trains.transformed.data (una instancia por lnea): 1. Number_of_cars (entero
en [3-5]) 2. Number_of_different_loads (entero en [1-4]) 3-22: 5 atributos para cada uno de
los coches de 2 a 5: (20 atributos en total) - num_wheels (entero en [2-3]) - Longitud (corta
o larga) - la forma ( closedrect, dblopnrect, elipse, motor, hexgono, jaggedtop, openrect,
opentrap, slopetop, en forma de U) - num_loads (entero en [0-3]) - load_shape (circlelod,
hexagonlod, rectanglod, trianglod) 23-32: 10 Atributos booleanos describiendo si 2 tipos de
cargas estn en los coches adyacentes del tren- Rectangle_next_to_rectangle (0 si es
falso, 1 si es verdadero) - Rectangle_next_to_triangle (0 si es falso, 1 si es verdadero) -
Rectangle_next_to_hexagon (0 si es falso, 1 si es verdadero) - Rectangle_next_to_circle
(0 si falso, 1 si es verdadero) - Triangle_next_to_triangle (0 si es falso, 1 si es verdadero) -
Triangle_next_to_hexagon (0 si es falso, 1 si es verdadero) - Triangle_next_to_circle (0 si
es falso, 1 si es verdadero) - Hexagon_next_to_hexagon (0 si es falso, 1 si es verdadero) -
Hexagon_next_to_circle (0 si es falso, 1 si es verdadero) - Circle_next_to_circle (0 si es
falso, 1 si es verdadero) 33. Atributo Class (este u oeste) El nmero de automviles varan
entre 3 y 5. Por lo tanto, los atributos se refiere a las propiedades de los coches que no
existen (como las 5 attriubutes para el coche "quinta" cuando el tren tiene menos de 5
coches) se les asigna un valor de "-".
RS Michalski y JB Larson "Inferencia Inductiva de reglas de decisin VL" En Actas del

Taller de Patrn-Directed Inferencia Systems, Hawaii, mayo de 1977. [Web] EnlaceStepp,
RE y Michalski, RS "Clustering Conceptual: Inventar Clasificaciones orientado a los
objetivos de Objetos estructurados "En RS Michalski, JG Carbonell, y TM Mitchell (Eds.)"
Machine Learning: Un enfoque de Inteligencia Artificial, Volumen II ". Los Altos, Ca:.
Morgan Kaufmann [Web Link]
Daan Fierens y Jan Hendrik Ramn y Blockeel y Maurice Bruynooghe. Comparacin de

los enfoques de aprendizaje rboles de probabilidad . Departamento de Ciencias de la
Computacin. [ Ver Contexto ].
Cita de pedidos:
Evaluacin Turkiye Student Data Set 2013-09-01
Resumen: Este conjunto de datos contiene un total de 5,820 puntajes de evaluacin

proporcionados por los estudiantes de la Universidad de Gazi en Ankara (Turqua). Hay
un total de 28 preguntas especficas y por supuesto 5 atributos adicionales.

N/A 33
Nmero de
Accesos:
Fuente:
Ernest Fokoue
Centro de Calidad y Estadstica Aplicada
del Instituto de Tecnologa de Rochester
98 Lomb Memorial Drive
Rochester, NY 14623, EE.UU.
EmaA l: epfeqa '@' rit.edu
Necla Gunduz
Departamento de Estadstica
de la Facultad de Ciencias, Universidad de Gazi
Teknikokullar, 06500 Ankara, Turqua
eMail: ngunduz '@' gazi.edu.tr
gunduznecla '@' yahoo.com
N/A
instr: identificador del instructor; valores tomados de {1,2,3}

class: Cdigo del curso (descriptor); valores tomados de {1-13}
repetir: Nmero de veces que el estudiante est tomando este curso; valores tomados de
{0,1,2,3, ...}
asistencia: Cdigo del nivel de asistencia; valores de {0, 1, 2, 3, 4}
dificultad: Nivel de dificultad del curso segn la percepcin de los estudiantes; valores
tomados de {1,2,3,4,5}
P1: El contenido del curso semestral, el mtodo de enseanza y el sistema de evaluacin
fueron proporcionados en la salida.
Q2: Los fines y objetivos del curso fueron claramente establecidos al comienzo del
perodo.
Q3 : El curso fue digno de la cantidad del crdito asignado a la misma.
P4: El curso fue impartido de acuerdo con el programa anunciado en el primer da de
clase.
P5: Las discusiones en clase, tareas, aplicaciones y estudios fueron satisfactorios.
P6: El libro de texto y otros recursos de los cursos eran suficientes y actualizados.
Q7: El curso permite el trabajo de campo, las aplicaciones de laboratorio, anlisis y otros
estudios.
Q8: Los cuestionarios, tareas, proyectos y exmenes contribuy a ayudar al aprendizaje.
P9: Yo disfrut enormemente la clase y estaba ansioso por participar activamente en las
conferencias.
P10: Mis expectativas iniciales sobre el curso se cumplieron al final del perodo o
ejercicio.
P11: El curso fue relevante y beneficioso para mi desarrollo profesional.
P12: El curso me ayud a mirar en la vida y el mundo con una nueva perspectiva.
P13: El conocimiento del instructor era relevante y actualizada.
P14: El Instructor vino preparado para las clases.
P15: El instructor ensea de acuerdo con el plan de la leccin anunciado.
P16: El Instructor se cometi al curso y era comprensible.
P17: El instructor lleg a tiempo para las clases.
P18: El instructor tiene una suave y fcil de seguir entrega / discurso.
Q19:. El instructor hizo uso efectivo de horas de clase
P20: El instructor explic el curso y estaba dispuesto a ser de ayuda a los estudiantes.
P21: El instructor demostr un enfoque positivo a los estudiantes.
P22: El instructor estaba abierto y respetuoso de las opiniones de los estudiantes sobre el
curso.
P23:. El Instructor alent la participacin en el curso
P24: La Instructor dio tareas escolares / proyectos pertinentes, y ayudado / estudiantes
guiadas.
P25: El Instructor respondi a las preguntas sobre el curso, dentro y fuera del curso.
P26: El sistema del Instructor de evaluacin (preguntas de medio trmino y finales,
proyectos, tareas, etc) medido con eficacia los objetivos del curso.
P27: El instructor proporciona soluciones a los exmenes y los discuti con los
estudiantes.
Q28:. El instructor trat a todos los estudiantes de derecho y de manera objetiva Q1-Q28
son todos de tipo Likert, lo que significa que los valores se toman de {1,2,3,4,5}
N/A
Cita de pedidos:
Si publicas material basado en bases de datos obtenidos a partir de este repositorio,

entonces, en sus agradecimientos, tenga en cuenta la ayuda que ha recibido a travs de
este repositorio. Esto ayudar a los dems a obtener los mismos conjuntos de datos y
replicar sus experimentos. Sugerimos el siguiente formato de referencia pseudo-APA para
referirse a este repositorio: Gunduz, G. & Fokoue, E. (2013). UCI Machine Learning
Repositorio [ [Web Link] ]. Irvine, CA:. Universidad de California, Escuela de Informacin y
Ciencias de la Computacin Aqu hay una cita BiBTeX as: @ misc {GunduzFokoue:
2013, author = 'Gunduz, N. y Fokoue, E.', ao = '2013 ', title = '{} UCI Machine Learning
Repositorio ", url = ' [Web Link] ', institucin = 'Universidad de California, Irvine, Escuela de
Informacin y Ciencias de la Computacin'}
Veinte grupos de noticias Data Set 1999-09-09
Resumen: Este conjunto de datos consta de 20000 mensajes tomados de 20 grupos de

noticias.

N/A N/A Fecha Donado
Valores Nmero de
Fuente:
Propietario original y los donantes: Tom Mitchell Escuela de Ciencias de la

Computacin de la Universidad Carnegie
Mellon tom.mitchell '@' cmu.edu http://www.cs.cmu.edu/ ~ tom /
N/A
N/A
T. Mitchell. Aprendizaje Automtico, McGraw Hill, 1997. T. Joachims (1996). Un anlisis

probabilstico del algoritmo Rocchio con TFIDF para texto categorizacin, Ciencias de la
Computacin Informe Tcnico CMU-CS-96-118.Universidad Carnegie Mellon. [Web Link]
Cita de pedidos:
Usted puede utilizar este material de forma gratuita para cualquier propsito educativo,
siempre y atribucin se da en cualquier conferencias o publicaciones que hacen uso de
este material.
Personajes UJI Pen Set Data 2007-06-01
Resumen : Los datos se compone de caracteres escritos en un

formato UNIPEN similar

1364 rea: Ordenador

Entero N/A
Nmero de
Valores
perdidos?
Accesos:
Fuente:
D. Llorens, F. Prat, A. Marzal, JM Vilar

Departamento de Lenguajes y Sistemas Informticos
de la Universitat Jaume I, 12071 Castelln (ESPAA) fprat '@' lsi.uji.es
Creamos una base de datos de caracteres mediante la recopilacin de muestras de 11

escritores. Cada escritor contribuy con letras (maysculas y minsculas), nmeros y otros
caracteres (diacrticos espaoles y signos de puntuacin) que no hemos empleado en
nuestros experimentos, y no se incluyen en esta versin de base de datos. Dos muestras
han sido recogidas por cada par escritor / personaje, por lo que el nmero total de
muestras en esta versin de base de datos es 1364: 11 escritores x 2 repeticiones x (2x26
cartas + 10 dgitos) La tarea propuesta es un escritor independiente que consta de 11
dejando uno-escritor de ensayos, por lo que el tamao del conjunto de entrenamiento
eficaz (para cada una de las muestras de ensayo 1364) es 1240: 10 escritores x 2
repeticiones x (2x26 cartas + 10 dgitos) Por otra parte, esta tarea de clasificacin es un 35
- una clase porque no se ha considerado una clase diferente para cada personaje
diferente: cada una de las 26 cartas se considera como una clase independiente del caso,
hay 9 Clases adicionales para que no sean cero dgitos y el cero est incluido en la misma
clase como o de. Esta base de datos est disponible en un formato UNIPEN similar,
tratando de imitar la base de datos original Pendigits. Dos versiones de la base de datos
estn disponibles; ver carpeta: [Web Link]La distribucin de nuestra base de datos consta
de 12 archivos: uji.names Un archivo "UJIpenchars-w NN "por el escritor, cuando NN =
"01", "02" ... "11" Las muestras de escritura se recogieron en un Toshiba Portg M400
Tablet PC con su lpiz inalmbrico. Cada uno de los 11 escritores completaron 2 sesiones
no consecutivas. En cada sesin, se le pregunt al escritor correspondiente a escribir un
ejemplar para cada carcter en un conjunto fijo incluyendo letras minsculas, maysculas,
queridos y dgitos, junto con otros personajes omitidos en esta versin de base de
datos. El programa de adquisicin muestra un conjunto de cuadros en la pantalla, uno
diferente para cada personaje requerido, y los escritores se les dice a escribir slo dentro
de esas cajas. Si se comete un error o no estn contentos con una escritura de caracteres,
se les instruye para borrar el contenido de la casilla correspondiente mediante el uso de un
botn en la pantalla y vuelva a intentarlo. Los sujetos se supervise slo al escribir sus
primeros ejemplares y cada muestra considerada bien por su autor fue aceptado como
tal. Slo coordenadas X e Y se registr la informacin a lo largo de los trazos por el
programa de adquisicin, sin que, por ejemplo, los valores de nivel de presin o la
informacin de tiempo. As, en las muestras de varios trazos, ninguna informacin en
absoluto se registr entre los golpes; Sin embargo, en esta versin de base de datos se ha
incluido una lnea "DT 100." en los archivos de ejemplo despus de cada golpe, siguiendo
el criterio de la base de datos Pendigits. Hemos observado que corre de puntos
consecutivos con coordenadas idnticas fueron adquiridas con frecuencia dentro de
trazos; dichas pruebas se conservan en esta versin de base de datos, por lo que cada
usuario de la base deben decidir si evitarlos por una etapa de pre-procesamiento
apropiado o no.
Para cada muestra, se encuentran: a. El personaje que representa. b. La clase a la que

pertenece. c. La secuencia de golpes consiste. Al probar, slo se le permite leer la
secuencia de golpes de una muestra con el fin de predecir su clase. Para cada
atributo: Como dije antes, esta base de datos est disponible en un formato UNIPEN-
como, tratando de imitar la base de datos original Pendigits. Una definicin de formato
UNIPEN puede encontrarse en [Web Link] En cuanto a los atributos de una muestra, se
puede encontrar en el formato de archivo de la siguiente manera: a. Nombre del
personaje: Cada muestra comienza con una lnea "SEGMENTO.". El ltimo componente
de esta lnea muestra el nombre del personaje, uno de cada 62 posibilidades. El conjunto
completo de posibilidades se muestra en la primera lnea de cada archivo, a ". LEXICON"
lnea. Estas posibilidades se repiten aqu: "A" "B" "C" "d" "e" "f" "g" "h" "i" "j" "k" "l" "m" "n"
"o "" p "" q "" r "" s "" t "" u "" v "" w "" x "" y "" z " "A" "B" "C" "D" "E" " F "" G "" H "" I "" J "" K
"" L "" M " "N" "O" "P" "Q" "R" "S" "T" "U" "V" "W" "X" "Y" "Z" "0" "1" "2" "3" "4" "5" "6" "7" "8"
"9" b. Nombre de clase: El nombre de clase de una muestra aparece en la lnea que sigue
su lnea de "comentarios". "SEGMENTO.". Este nombre es una de las 35 posibilidades. En
cada archivo, se muestra el conjunto completo de posibilidades ". Comentario" lneas entre
el ". LEXICON" lnea y una ". JERARQUA" uno. Esas definiciones de clase se repiten
aqu: [A] = {"a", "A"} [B] = {"b", "B"} [C] = {"c", "C"} [D] = {"d", "D"}[E] = {"e", "E"} [F] = {"f",
"F"} [G] = {"g", "G"} [H ] = {"h", "H"} [I] = {"i", "I"} [J] = {"j", "J"} [K] = {"k", "K"} [L] = {"l",
"L"} [M] = {"m", "M"} [N] = {"n", "N"} [O] = {"o", "O "," 0 "} [P] = {"p", "P"} [Q] = {"q", "Q"} [R] =
{"r", "R"} [S] = { "s", "S"} [T] = {"t", "T"} [U] = {"u", "U"} [V] = {"v", "V"} [W] = {"w", "W"} [X] =
{"x", "X"} [Y] = {"y", "Y"} [Z] = {"z", "Z"} [ 1] = {"1"} [2] = {"2"} [3] = {"3"} [4] = {"4"} [5] =
{"5"} [6] = {" 6 "} [7] = {"7"} [8] = {""} 8 [9] = {"9"} c. Secuencia de golpes: "Comentario".
Despus de los ". SEGMENTO" y las lneas de una muestra, una secuencia de uno o ms
golpes sigue hasta el comienzo de una nueva muestra o el final del archivo. Cada trazo
comienza con una lnea y termina con una secuencia ", PEN_DOWN." "PEN_UP." "DT
100."; en el medio, una secuencia de lneas, cada uno en representacin de coordenadas
X e Y de un punto, donde X crece de izquierda a derecha e Y crece hacia abajo. Las
coordenadas son nmeros enteros.
R. Ramos-Garijo, S. Martn, A. Marzal, F. Prat, JM Vilar y D. Llorens:

"Un panel de entrada y motor de reconocimiento de On-Line Manuscrito Reconocimiento
de Texto"
Investigacin en Inteligencia Artificial y el Desarrollo, pp 223 -232, IOS Press,
2007. F. Prat, A. Marzal, S. Martn, y R. Ramos-Garijo: "Un motor de reconocimiento
basado en la plantilla de dos etapas para caracteres On-Line Manuscrito" Actas de la
Taller de Asia y el Pacfico 2007 sobre Procesamiento de la Informacin Visual, pp 77 -82,
2007. D. Llorens et al:. "La base de datos UJIpenchars: Una base de datos basada en el
lpiz de caracteres manuscritos aislados" Proc. de la 6 Conferencia Internacional sobre
Recursos Lingsticos y Evaluacin. 2008.
Cita de pedidos:
UJI Pen Personajes (Versin 2) Conjunto de datos 2009-01-22
Resumen: Una base de datos basada en el lpiz con ms de 11k

caracteres manuscritos aislados


Entero N/A
Nmero
Valores
perdidos?
Accesos:
Fuente:
F. Prat (*), MJ Castro (+), D. Llorens (*), A. Marzal (*), y JM Vilar (*) * Departamento de
Lenguajes y Sistemas Informticos de la Universitat Jaume I (UJI), 12071 Castelln,
ESPAA + Departamento de Sistemas Informticos y Computacin de la Universidad
Politcnica de Valencia (UPV), 46071 Valencia, ESPAA fprat '@' lsi.uji.es diciembre
2008
Hemos creado la base de datos de carcter UJIpenchars2 recogiendo muestras de 60

escritores en dos sitios diferentes en dos fases:
Primera fase, 11 escritores, llevado a cabo en la UJI.

Segunda fase, 49 escritores, llevado a cabo en la UPV (44 escritores) y la UJI (5).
Cada escritor contribuy con letras, dgitos y otros caracteres y se recogieron dos
muestras para cada par escritor / personaje. El lxico completo es el siguiente:
66 letras (33 por caja):

o Las 52 letras ASCII.
o Los 14 espaoles caracteres no ASCII:
Carta n con tilde (2 caracteres).
Las vocales con acento agudo (10 caracteres).
Carta u con diresis (2 caracteres).
Los 10 dgitos.
Otros 21 caracteres:
o Los 16 los ASCII se muestran en la siguiente lnea:
. ,; :? ! '' ()% - @ $ <>
o 5 los no-ASCII:
Pregunta invertida y un signo de exclamacin (2 caracteres).
Indicadores ordinales masculinos y femeninos (2 caracteres).
El smbolo del euro (1 carcter).
As que el nmero total de muestras en esta base de datos es 11 640: 60 escritores x (66
10 21) caracteres x 2 repeticiones UJIpenchars es un subconjunto de UJIpenchars2 con
slo 1.364 muestras: las letras ASCII y cifras recogidas en la UJI durante la fase de
adquisicin de primera . Nosotros no hemos definido una tarea estndar para
UJIpenchars2, pero dividido el conjunto escritor en dos subconjuntos disjuntos con el fin
de facilitar la definicin de escritor tareas independientes:
40 escritores trn ':

o Los 11 primera fase escritores de la UJI.
o 29 escritores de la UPV.
20 'tst' escritores:
o Los 5 escritores UJI segunda fase.
o 15 escritores de la UPV.
La distribucin de nuestra base de datos consta de 2 archivos:
Este 'uji2.names'.
El archivo 'ujipenchars2.txt' contiene todas las muestras en un formato que se
describe ms adelante.
Las muestras de escritura se recogieron en un Toshiba Portg M400 Tablet PC con su

lpiz inalmbrico. Cada uno de los 60 escritores completaron 2 sesiones no
consecutivas. En cada sesin, se le pregunt al escritor correspondiente a escribir un
ejemplar para cada carcter en el lxico. El programa de adquisicin muestra un conjunto
de cuadros en la pantalla, una para cada carcter deseado, y los escritores se les dice a
escribir slo dentro de esas cajas. Cada caja adquisicin es de aproximadamente 13,6
milmetros de ancho y 20,4 milmetros de alto y contais dos guas horizontales en las
distancias aproximadas de 7,5 y 12,7 milmetros de alto, respectivamente.Escritores
recibieron instrucciones para borrar el contenido de la casilla correspondiente mediante
un botn en la pantalla y vuelva a intentarlo cuando han cometido un error o no estaban
contentos con la escritura de cualquier carcter. Los sujetos fueron monitoreados slo al
escribir sus primeros ejemplares y fue aceptado cada muestra considerada bien por su
autor, aun cuando algunos de sus puntos de distribucin de la caja de adquisicin
correspondiente. Slo coordenadas X e Y se registr la informacin a lo largo de los
trazos por el programa de adquisicin, sin, por ejemplo, valores de nivel de presin o la
informacin de temporizacin. As, en las muestras de varios trazos, ninguna informacin
en absoluto se registr entre los golpes. Ambas coordenadas se expresan como
unidades de tinta enteros, con el origen yace en la esquina superior izquierda del cuadro
de adquisicin correspondiente. Valores X crecen de izquierda a derecha y de los valores
de Y crecen hacia abajo. Aunque hemos empleado el mismo programa de adquisicin de
hardware idntico en la UJI y la UPV, se ha observado que los archivos de adquisicin
parecen demostrar que las muestras de la UPV se han recopilado utilizando cajas de
adquisicin de ms de los UJI. Esto es debido a un valor del parmetro de configuracin
diferente que, en la UPV, hace que el programa de adquisicin de traducir 1 milmetro en
152 unidades de tinta, en lugar de utilizar la relacin estndar UJI: 100 unidades de tinta
por milmetro. Si se necesita cuadro de homogeneizacin, se puede lograr fcilmente, por
ejemplo, dividiendo la UPV valores de coordenadas por 1,52. Tambin hemos observado
que carreras de puntos consecutivos con coordenadas idnticas fueron adquiridas con
frecuencia dentro de trazos; dichas pruebas se conservan en esta base de datos, por lo
que depende de sus usuarios para decidir si se debe evitarlos por una etapa de pre-
procesamiento apropiado o no. Aunque es un documento dedicado principalmente a
UJIpenchars, D. Llorens et al:. 'La base de datos UJIpenchars: Una base de datos
basada en el lpiz de aislados caracteres escritos a mano " Proc. de la 6
Conferencia Internacional sobre Recursos Lingsticos y Evaluacin. 2008. contiene
informacin til sobre UJIpenchars2. Se puede encontrar en [Web Link] .
El archivo 'ujipenchars2.txt' es un texto que tiene un formato sencillo, donde estn

representadas todas las muestras de la base de datos. Debido a que se necesitan
algunos caracteres no ASCII, se utiliza codificacin UTF-8.Con el fin de describir cmo se
representan los atributos en 'ujipenchars2.txt', vale la pena explicar la sintaxis general del
archivo primero. Desde el punto de vista de nivel superior, este archivo se compone de
lneas de comentario y las representaciones de la muestra. Una lnea de comentario es
una que comienza con dos barras. En 'ujipenchars2.txt', hemos empleado las lneas de
comentarios para dos propsitos:
Antes de la serie de muestras correspondientes a cada sitio, a comment acta

como un recordatorio de que el nmero de unidades de tinta por unidad de
longitud en la pantalla del Tablet PC, por lo que estos dos comentarios se pueden
encontrar en 'ujipenchars2.txt':
/ / UJI: 100 unidades por milmetro
/ / UPV: 152 unidades por milmetro
Antes de cada representacin de la muestra, un comentario ASCII que le dice que

el personaje que representa. Para los caracteres ASCII (por ejemplo, una u
mayscula), los comentarios pueden tener este aspecto:
/ / Char ASCII: U
Para los caracteres no ASCII (por ejemplo, una o minscula con acento agudo), la
identidad de caracteres se representan a travs de su nombre de la entidad
HTML:
Caracteres / / Non-ASCII: oacute

Una representacin de la muestra se compone de una lnea de cabecera, seguido de la
representacin de su secuencia * de golpes *, donde la lnea de cabecera se compone de
tres elementos separados: en blanco la palabra "palabra", la representacin de la
identidad * carcter *, y la * identificador de sesin *. Por ejemplo, una representacin de
la muestra y coma puede tener este aspecto:
WORD; trn_UJI_W03-01
NUMSTROKES 2
PUNTOS 9 541 1.001 541 1.001 540 987 540 987 530
977 530 977 530 977 530 977 530 977
PUNTOS 8 # 518 1227 500 1257 480 1291 470 1309 465
1318 458 1330 458 1330 471 1312
Una descripcin detallada de cmo se representa la informacin acerca de cada atributo

'ujipenchars2.txt' sigue:
1. La identidad del personaje: Est representado por el propio carcter (';' en el

ejemplo anterior), una de cada 97 posibilidades. Recuerde que codificacin UTF-8
se utiliza, por lo que los caracteres no ASCII necesita ms de un byte para
codificar.
2. Identificador de la sesin: Se compone de un identificador largo escritor

('trn_UJI_W03' en el ejemplo anterior) y un nmero de repeticin ('01 'o '02')
separados por un guin, donde un identificador escritor de largo consta de tres
elementos separados por guiones bajos :
o Un identificador de conjunto de escritor, 'trn' (escritores de formacin) o "tst"
(escritores de la prueba).
o Un identificador de sitios, 'UJI' o 'UPV'.
o Un identificador escritor corto, como 'W03' en el ejemplo anterior. Los
escritores estn numeradas del 1 al 60.
3. Secuencia de golpes: Su representacin se compone de una serie de lneas en las

que los elementos individuales estn separadas por espacios en blanco. Los
elementos de la primera lnea son la palabra 'NUMSTROKES' y un entero sin
signo que representa el nmero de golpes en la muestra. Este nmero vara de 1 a
5 en 'ujipenchars2.txt'. Y, para cada trazo, una lnea representa sus puntos con los
siguientes elementos:
o La palabra "puntos".
o Un entero sin signo que representa el nmero de puntos en el accidente
cerebrovascular.
o Un carcter almohadilla.
o Para cada punto de la carrera, dos nmeros enteros que representan la
coordenadas X e Y en unidades de tinta. Recuerde que los valores de X
crecen de izquierda a derecha, los valores de Y crecen hacia abajo, y la
relacin entre la longitud y unidades de tinta vara de un sitio a otro. Por otra
parte, hemos observado algunos valores de las coordenadas negativas en
'ujipenchars2.txt'.
D. Llorens et al, "El UJIpenchars Base de datos: una base de datos basada en el lpiz de
aislados caracteres escritos a mano.
Proc. de la 6 Conferencia Internacional sobre Recursos Lingsticos y Evaluacin. 2008.
Cita de pedidos:
Indocumentado Data Set N/A
Resumen: Varios conjuntos de datos sin la documentacin (no dude en explorar!)
rea: N/A
Caractersticas del N/ Nmero de N/

Fecha Donado N/A
atributo: A atributos: A
N/ Valores N/ Nmero de Web

A perdidos? A Accesos:
Fuente:
N/A
N/A
N/A
N/A
Cita de pedidos:
Universidad Data Set 1988-07-01
Resumen : Los datos de la forma original (LISP legible)


17
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Propietario original: desconocido Donante: Steve Souders < souders de '@' ads.com >
Formato: Cada observacin se refiere a una universidad. En algunos casos, se

proporciona ms informacin acerca del atributo (por ejemplo, unidades o dominio). En
algunos casos hay duplicados y una sola observacin puede tener ms de un valor para
un atributo dado (especialmente nfasis acadmico). Parece que varios atributos podran
servir como un atributo de clase distinguida de esta base de datos. El archivo de datos
permanece en el estado como se nos da por Steve Souders. Es un archivo legible LISP
con algunas funciones pertinentes al final del archivo de datos. La informacin sobre los
valores de datos faltantes no han sido calculados. Esperamos llegar a esto en el futuro.
1. Universidad-nombre
2. Estado
3. ubicacin
4. Control de
5. nmero-de-alumnos
6. masculino: femenino (ratio)
7. estudiante: profesores (ratio)
8. sb verbal
9. sat-matemticas
10. gastos
11. ciento-de ayuda financiera
12. nmero-de-solicitantes
13. ciento-entrada
14. ciento a inscribir
15. acadmicos
16. sociales
17. la calidad de vida
18. acadmico-nfasis
Lebowitz M. "Concepto de aprendizaje en un rico dominio de entrada: memoria basada en
la generalizacin." Aprendizaje Automtico, Vol. 2, n 2, septiembre de 1987. [Web Link]
Cita de pedidos:
UNIX datos de usuario Conjunto de Datos N/A
Resumen: Este archivo contiene 9 juegos de datos de usuario

desinfectados extrados de las historias de mando de 8 usuarios
de computadoras UNIX en Purdue en el transcurso de hasta 2
aos.
N
Conjunto de datos Texto, Nmero de
/ rea: Ordenador
A
N
N/A / N/A
A
N Nmero de
Valores
perdidos?
A Accesos:
Fuente:
Terran Lane: terran '@' ecn.purdue.edu
Este archivo contiene 9 juegos de datos de usuario desinfectados extrados de las

historias de mando de 8 usuarios de computadoras UNIX en Purdue en el transcurso
de hasta 2 aos (USER0 y user1 se generaron por la misma persona,
que trabaja en diferentes plataformas y los diferentes proyectos). Los datos se
extrae de tcsh (1) archivos de la historia y ha sido analizado y desinfectado para
eliminar los nombres de archivos, nombres de usuario, estructuras de directorios,
direcciones web,
nombres de host, y otros artculos posiblemente identificacin. Nombres de comandos,
banderas y metacaracteres de shell se han conservado. Adems,
** SOF ** y ** EOF ** fichas se han insertado en el inicio y el final de
las sesiones de la cscara, respectivamente. Las sesiones se concatenan por orden de
fecha
y fichas aparecen en la orden emitida en la sesin del shell, pero no hay
marcas de tiempo se incluyen en estos datos. Por ejemplo, las dos sesiones:
# Iniciar sesin 1
cd ~ / private / docs
ls-LAF | ms
gato foo.txt bar.txt zorch.txt> algn lugar
de salida
de sesin # 1 End
sesin # Start 2
cd ~ / juegos /
xquake y
fg
vi scores.txt
mailx john_doe '@' somewhere.com salida
sesin # 2 Fin
estara representada por la corriente de contadores
SOF ** **
cd
<1> # un "nombre de archivo" argumento
ls
-LAF
ms
gato
"archivo" <3> # tres argumentos
>
<1>
exit
** EOF **
** ** SOF
cd
<1>
xquake
fg
vi
<1>
mailx
<1>
exit
** EOF **
N/A
N/A
Stefan Aeberhard y Danny Coomans y De Vel. LA EJECUCIN DEL DISEO

ESTADSTICO mtodos de reconocimiento en los entornos de alta
dimensin . Universidad James Cook. [ Ver Contexto ].
Cita de pedidos:
Estos datos estn disponibles en condiciones de anonimato para los usuarios que
contribuyen y puede ser utilizado slo para fines de investigacin. Los resmenes y
resultados de investigacin que emplean estos datos pueden ser publicados, pero tokens
literales o secuencias simblicas de los datos no pueden ser publicados, excepto con el
consentimiento expreso de los autores de los datos. Ninguna parte de esta informacin
puede ser divulgada con o incluido en un producto comercial, ni ninguna parte de estos
datos puede vender o redistribuir con fines de lucro o como parte de un esfuerzo de lucro.
URL Reputacin Data Set 2009-10-15
Resumen: annimos de 120 das
subconjunto de los datos de URL
ICML-09 que contienen 2,4 millones
de ejemplos y 3,2 millones de
caractersticas.
Conjunto de
Multivariado, Nmero de
datos 2396130 rea: Ordenador
Time-Series instancias:
Caractersticas:

Entero, real 3231961
Nmero
Tareas Valores
Clasificacin N/A de Web 52357
Accesos:
Fuente:
"La identificacin de URL maliciosas: una aplicacin de gran escala el Aprendizaje en

Lnea '(ICML-09)
Justin Ma, Lawrence K. Sal, Stefan Savage, Geoffrey M. Voelker favor visite
[ http://sysnet.ucsd.edu/projects/url / ] para ms informacin.
Descomprimir el archivo url_svmlight.tar.gz producir una url_svmlight directorio / que

contiene los siguientes archivos:
* FeatureTypes --- Una lista de archivos de texto de los ndices de caractersticas que
corresponden a las funciones con valores reales.
* DayX.svm (donde X es un nmero entero de 0 a 120) --- Los datos para el da X en
formato SVM-luz. Una etiqueta de 1 corresponde a una URL maliciosa y -1 corresponde
a una URL benigno.
Los atributos son annimos, sino que corresponden al lxico y caractersticas basadas
en host recopilados para cada URL.
N/A
Cita de pedidos: Si utiliza este conjunto de trabajos publicados de datos, por favor, cite
el documento ICML-09 en el que se introdujo por primera vez y describi: Justin Ma,
Lawrence K. Sal, Stefan Savage, y Geoffrey M. Voelker, Identificar URLs sospechosas:
una aplicacin de a gran escala de aprendizaje en lnea Actas de la Conferencia
Internacional sobre Aprendizaje Automtico (ICML), pginas 681 a 688, Montreal,
Quebec, junio de 2009.
Los datos del Censo de EE.UU. (1990) Conjunto de datos N/A
Resumen: El conjunto de datos USCensus1990raw contiene

una muestra de uno por ciento de las muestras de Uso Pblico
(PUMS) Microdatos registros de personas procedentes de toda
la muestra del censo de 1990.


Categrico 68 N/A
Nmero de
Valores
Tareas asociadas: Clustering N/A Web 47163
perdidos?
Accesos:
Fuente:
El conjunto de datos USCensus1990raw se obtuvo de la pgina web (Departamento de

Comercio de EE.UU.) Oficina del Censo mediante el sistema de extraccin de
datos. Este sistema se puede encontrar
en http://dataferrett.census.gov/ . Donantes: Chris Meek,
Microsoft, mansos '@' microsoft.com Bo Thiesson,
Microsoft, Thiesson '@' microsoft.com David Heckerman, Microsoft, heckerma ' @
' microsoft.com
Los datos fueron recolectados como parte del censo de 1990. Hay 68 atributos
categricos. Este conjunto de datos se obtuvo a partir del conjunto de datos
USCensus1990raw. Los atributos se enumeran en la USCensus1990.attributes.txt
archivo (repetido a continuacin) y la codificacin de los valores se describen a
continuacin. Muchos de los atributos menos tiles en el conjunto de datos original se
han cado, las pocas variables continuas se han discretizado y las pocas variables
discretas que tienen un gran nmero de posibles valores se han derrumbado a tener
menos valores posibles. Ms especficamente, el conjunto de datos USCensus1990 se
obtuvo a partir de los datos USCensus1990raw fijados por la siguiente secuencia de
operaciones; - La asignacin al azar:. El orden de los casos en los datos originales
USCensus1990raw establecidos fueron permutada al azar - Seleccin de atributos: Los
68 atributos incluidos en el conjunto de datos se dan a continuacin. En el conjunto de
datos USCensus1990 hemos aadido una sola letra prefijo al nombre original. Aadimos
la letra i para indicar que los valores de los atributos originales se utilizan y 'd' para
indicar que los valores de los atributos originales para cada caso han sido asignadas a
los nuevos valores (el mapeo preciso se describe ms adelante).Jerarquas de los
valores estn dentro de la USCensus1990raw.coding.htm archivo y las funciones de
asignacin utilizado para transformar la USCensus1990raw a los conjuntos de datos
USCensus1990 estn dando en el archivo USCensus1990.mapping.sql. Los datos estn
contenidos en un archivo llamado USCensus1990.data.txt. La primera fila contiene la
lista de atributos. El primer atributo es un caseID y debera ser ignorado durante el
anlisis. Los datos estn delimitados por comas con un caso por cada fila.
-------------------------------------------------- ------------
Antigua Nueva Variable Variable
---------------------------------- ----------------------------
Edad dage
Ancstry1 dAncstry1
Ancstry2 dAncstry2
Disponibilidad iAvail
Citizen iCitizen
Clase iClass
Salir dDepart
Disabl1 iDisabl1
Disabl2 iDisabl2
Ingls iEnglish
Feb55 iFeb55
Fertil iFertil
hispana dHispanic
Hour89 dHour89
Horas dHours
inmigr iImmigr
renta1 dIncome1
ingresos2 dIncome2
ingresos3 dIncome3
Income4 dIncome4
Income5 dIncome5
Income6 dIncome6
Income7 dIncome7
Income8 dIncome8
Industria dIndustry
Corea iKorean
Lang1 iLang1
Looking iLooking
civil iMarital
May75880 iMay75880
Medios iMeans
Militar iMilitary
Movilidad iMobility
Mobillim iMobillim
Occup dOccup
Othrserv iOthrserv
Perscare iPerscare
POB dPOB
Pobreza dPoverty
Pwgt1 dPwgt1
Ragechld iRagechld
Rearning dRearning
Relat1 iRelat1
Relat2 iRelat2
Remplpar iRemplpar
Riders iRiders
Rlabor iRlabor
Rownchld iRownchld
Rpincome dRpincome
rpoB iRPOB
Rrelchld iRrelchld
Rspouse iRspouse
Rvetserv iRvetserv
School iSchool
Sept80 iSept80
Sexo ISEX
Subfam1 iSubfam1
Subfam2 iSubfam2
Tmpabsnt iTmpabsnt
Travtime dTravtime
Vietnam iVietnam
Week89 dWeek89
Work89 iWork89
Worklwk iWorklwk
WWII iWWII
Yearsch iYearsch
Yearwrk iYearwrk
Yrsserv dYrsserv Mapping: En este paso hacemos un mapa de todos los viejos valores
para las variables con el prefijo 'd' a los nuevos valores. Las asignaciones para las
variables dAncstry1, dAncstry2, dHispanic, dIndustry, dOccup, dPOB fueron diseados
para corresponder a un engrosamiento natural de los valores originales, basadas en la
informacin en el coding.htm archivo. El resto de variables son variables valoradas
continuos y la asignacin para estas variables fue elegido para hacer que las variables
que fueron distribuidos de manera bastante uniforme a travs de los Estados
(cuantiles). Las asignaciones precisas se especifican en el archivo
USCensus1990.mapping.sql. Este archivo contiene todos los procedimientos de T-SQL
que se utilizan para asignar las variables. Estos procedimientos se pueden utilizar
directamente en SQL Server para asignar los valores originales o traducida a otra
lengua. ------------------------------ -------------------------------- Procedimiento Variable ------------
---- ---------------------------------------------- dage discAge dAncstry1 discAncstry1 dAncstry2
discAncstry2 dHispanic discHispanic dHour89 discHour89 dHours discHours dIncome1
discIncome1 dIncome2 discIncome2to8 dIncome3 discIncome2to8 dIncome4
discIncome2to8 dIncome5 discIncome2to8 dIncome6 discIncome2to8 dIncome7
discIncome2to8 dIncome8 discIncome2to8 dIndustry discIndustry dOccup
discOccup dPOB discPOB dPoverty discPoverty dPwgt1 discPwgt1 dRearning
discRearning dRpincome discRpincome dTravtime discTravtime dWeek89
discWeek89 dYrsserv discYrsserv
. Meek, Thiesson y Heckerman (2001), "The Learning Curve mtodo aplicado a la

agrupacin", que aparecer en la revista Journal of Machine Learning Research [Web
Link] Ver tambin: [Web Link]
Zhiyuan Chen y Johannes Gehrke y Flip Korn. Optimizacin de consultas en los

sistemas de base de datos comprimida . Conferencia SIGMOD. 2001. [ Ver
Contexto ]. David R. Musicant. MINERA DE DATOS A TRAVS DE PROGRAMACIN
MATEMTICA Y EL APRENDIZAJE DE LA MQUINA . Doctor en Filosofa (Ciencias de
la Computacin) UNIVERSIDAD. [ Ver Contexto ]. Chris Giannella y Bassem
Sayrafi. Una teora de la informacin de histograma individual Dimensional Selectividad
Estimacin . Departamento de Ciencias de la Computacin, Universidad de Indiana en
Bloomington. [ Ver Contexto ]. David R. Musicant y Alexander Feinberg. Ajuste activo de
apoyo vector de regresin . [ Ver Contexto ].
Cita de pedidos:
Identificacin del usuario de caminar Actividad Data Set 02/03/2014
Resumen: El conjunto de datos recoge datos de un smartphone Android colocado en
el bolsillo del pecho de 22 participantes que caminan en la naturaleza a travs de una
ruta predefinida.
Univariante, N
Secuencial, / rea: N/A
Time-Series A
N
Real / 02/03/2014
A
N Nmero de
Tareas asociadas: / Web 629
A Accesos:
Fuente:
Pierluigi Casale, Computer Vision Center, Barcelona,

Espaa. Email: plcasale '@' ieee.org
El conjunto de datos recoge datos de un smartphone Android colocado en el bolsillo en

el pecho. Acelermetro Se recogen datos de 22 participantes que caminan en la
naturaleza a travs de una ruta predefinida. El conjunto de datos est prevista para fines
de investigacin de reconocimiento de la actividad. Proporciona desafos para la
identificacin y autenticacin de personas que utilizan los patrones de movimiento.
--- Frecuencia de muestreo del acelermetro: DELAY_FASTEST con conexiones de red
deshabilitado
--- Nmero de participantes: 22
Formato --- de datos: CSV
--- Los datos estn separados por participante

--- Cada archivo contiene la siguiente informacin
---- paso de tiempo, x aceleracin, y la aceleracin, aceleracin z

"La personalizacin y verificacin del usuario en sistemas porttiles que utilizan los
patrones de caminar biomtricos '
Cita de pedidos:

"La personalizacin y verificacin del usuario en sistemas porttiles que utilizan los
patrones de caminar biomtricos '
Usuario Conocimiento de modelado de conjunto de datos 06/26/2013
Resumen: Es el conjunto de datos reales sobre el estado de los conocimientos de los
alumnos sobre el tema de las mquinas elctricas de corriente continua. El conjunto de
datos se haba obtenido a partir de doctorado Tesis.

Entero 5 06/26/2013
Nmero de
Accesos:
Fuente:
- Creadores: Hamdi Tolga Kahraman ( htolgakahraman '@' yahoo.com )

- Institucin: Facultad de Tecnologa, Departamento de Ingeniera de Software de la
Universidad Tcnica de Karadeniz, Trabzon, Turkiye
- Creadores: Ilhami Colak ( icolak '@' gazi.edu . tr )
- Institucin: Facultad de Tecnologa, Departamento de Ingeniera Elctrica y Electrnica
de la Universidad de Gazi, en Ankara, Turkiye
- Creadores: Seref Sagiroglu ( ss '@' gazi.edu.tr )
- Institucin: Facultad de Tecnologa, Departamento de Ingeniera Informtica de la
Universidad de Gazi, en Ankara, Turkiye - Donante: estudiantes de pregrado de la
Secretara de Educacin Elctrica de la Universidad de Gazi en el semestre 2009 -
Fecha: octubre de 2009
- Los usuarios de 'class conocimiento fueron clasificados por los autores

utilizando clasificador conocimiento intuitivo (una tcnica hbrida de ML k-NN y los
mtodos de exploracin de meta-heurstica), el algoritmo de k-vecino ms cercano.
Ver el artculo para ms detalles sobre cmo los datos de los usuarios fue recogido y
evaluado por el servidor de modelado de usuario. HT Kahraman, Sagiroglu, S., Colak, I.,
Desarrollo clasificador conocimiento intuitivo y el modelado de datos dependientes de
dominio de los usuarios en la web, Sistemas Basados en el Conocimiento, vol. 37, pp
283-295, 2013.
STG (El grado de tiempo de estudio para materails objeto gol), (valor de entrada)
SCG (El grado de repeticin de nmero de usuario para materails objeto meta) (valor de
entrada)
STR (El grado de tiempo de estudio de usuario para los objetos relacionados con el
objeto meta ) (valor de entrada)
LPR (El rendimiento en los exmenes de usuario para los objetos relacionados con el
objeto meta) (valor de entrada)
PEG (El rendimiento en los exmenes de usuario para los objetos meta) (valor de
entrada)
UNS (el nivel de conocimiento del usuario) (valor objetivo)
Muy baja: 50
Baja: 129
Media: 122
Alto 130
1. HT Kahraman, Sagiroglu, S., Colak, I., Desarrollo clasificador conocimiento intuitivo y

el modelado de datos dependientes de dominio de los usuarios en la web,
Sistemas Basados en el Conocimiento, vol. De 37 aos, pp 283-295, 2013.
2. Kahraman, HT (2009). Diseo y Aplicacin de la adaptacin del Sistema Educativo
Inteligente basado en Web. Universidad Gazi Tesis Doctoral, Turqua, 1-156.
Cita de pedidos:
HT Kahraman, Sagiroglu, S., Colak, I., Desarrollo clasificador conocimiento intuitivo y el

modelado de datos dependientes de dominio de los usuarios en la web,
Sistemas Basados en el Conocimiento, vol. 37, pp 283-295, 2013.
USPTO Algoritmo Challenge, dirigido por la NASA en Harvard Torneo 10/13/2013
Lab y TopCoder Problema: Pat Data Set
Resumen : Los datos utilizados para la USPTO Algoritmo Competencia. Contiene
pginas de dibujo de las patentes de Estados Unidos con etiquetas de las figuras y
piezas etiquetadas de forma manual.
306 rea: N/A

Entero 5 10/13/2013
Nmero de
Valores N/
perdidos? A
Accesos:
Fuente:
- Creador: TopCoder, Inc.

- Publicado bajo Apache License, Version 2.0 http://www.apache.org/licenses/LICENSE-
2.0.html
USPTO Algoritmo Challenge, dirigido por la NASA Harvard-Tournament Lab y

TopCoder
Problema: Etiquetado de Patentes
Informacin de conjunto de datos:

- Esta carpeta contiene 4 grupos de imgenes patentes USPTO incluyendo informacin
realidad del terreno.
- Los 4 grupos son 'train1', 'TRAIN2', 'prueba', 'Evaluacin'.
- 'train1', 'test' , "evaluacin" contiene datos en el original 'USPTO Algoritmo Challenge'
para la formacin, pruebas y evaluacin final, respectivamente.
- '. USPTO Algoritmo Seguimiento Challenge' 'TRAIN2 "contiene los datos adicionales
que se utiliz en la
Nota que 'TRAIN2' incluye algunas imgenes de las portadas de documentos de patente
que no est incluido en otros grupos. - En cada grupo, hay dos carpetas contienen
imgenes originales y las informaciones correspondientes terreno la verdad. - Las
imgenes originales estn en formato "jpeg". - Hay dos tipos de terreno la verdad:. cifra
etiqueta terreno la verdad y parte etiqueta terreno la verdad - Los archivos de la realidad
del suelo son archivos de texto con extensin 'ans.'. - La estructura de los archivos de la
realidad del suelo se describe de la siguiente manera: - El primero lnea es un nmero
que indique cuntas instancias existe en la imagen correspondiente - Las siguientes
lneas son las coordenadas del polgono y los correspondientes contenidos de la
etiqueta, cada lnea corresponde a una etiqueta figura la etiqueta o en parte, en forma 'N
x1 y1 x2 y2 | xN yN x1 contenido y1 '. - En cada una de esas lneas, el primer
nmero N indica el nmero de vrtices del polgono se registran en instancia actual. -
Los siguientes nmeros son coordenadas x, y de los vrtices. - La ltima palabra en
cada lnea es el contenido de la figura etiqueta o parte de la etiqueta.
- Cada nmero o palabra est separada por un espacio en blanco.
- Para el grupo 'TRAIN2', slo hay verdad terreno referencia de etiquetas disponibles.
- Tambin relevamos el cdigo fuente de la 5 solucin superior que gana. Ver archivo de
almacenamiento adicional.
Ninguno
Cita de pedidos:
Christoph Riedl, Richard Zanibbi, Mart A. Hearst, Siyu Zhu, Michael Minetti, Kevin J.
Boudreau, Jason Crusan, Ivan Metelsky, y Karim R. Lakhani, "Deteccin de figuras y
etiquetas de la parte de Patentes: Una
Competencia Desarrollo Basado de Imagen Procesamiento de Algoritmos, papel 'de
trabajo.
Columna vertebral del conjunto de datos 2011-08-09
Resumen: El conjunto de datos que contiene los valores de seis caractersticas
biomecnicas utilizadas para clasificar a los pacientes ortopdicos en 3 clases (, hernia
de disco normal o spondilolysthesis) o 2 clases (normal o anormal).

Real 6
Nmero de
Valores N/
perdidos? A
Accesos:
Fuente:
Guilherme de Alencar Barreto ( guilherme '@' deti.ufc.br ) y Ajalmar R van da Rocha

Neto ( ajalmar '@' ifce.edu.br ), Departamento de Ingeniera Teleinformtica de la
Universidad Federal de Cear, Fortaleza, Cear, Brasil . Antonio Henrique Fonseca da
Mota Filho (hdamota '@' gmail.com ), Hospital Monte Klinikum, Fortaleza, Cear, Brasil.
Conjunto de datos biomdica integrada por el Dr. Henrique da Mota, durante un perodo
de residencia mdica en el Grupo de Investigacin Aplicada en Ortopedia (GARO) del
Centro M dico-Quirrgica de R adaptacin des Massues, Lyon, Francia. Los
datos se han organizado en dos tareas de clasificacin diferentes, pero relacionados. La
primera tarea consiste en clasificar a los pacientes como pertenecientes a una de tres
categoras: Normal (100 pacientes), Hernia de Disco (60 pacientes) o espondilolistesis
(150 pacientes).Para la segunda tarea, las categoras de disco Hernia y
Espondilolistesis se fusionaron en una sola categora denominada como "anormal". Por
lo tanto, la segunda tarea consiste en clasificar a los pacientes como pertenecientes a
una de dos categoras: Normal (100 pacientes) o anormales (210
pacientes). Proporcionamos archivos tambin para su uso en el entorno WEKA.
A cada paciente se representa en el conjunto de datos por seis atributos biomecnicos

derivados de la forma y la orientacin de la pelvis y la columna lumbar (en este orden):
incidencia de la pelvis, la inclinacin de la pelvis, el ngulo de la lordosis lumbar, sacra
pendiente, radio plvico y grado de espondilolistesis. La siguiente convencin se utiliza
para las etiquetas de clase: DH (Hernia de Disco), espondilolistesis (SL), Normal (NO) y
anormales (AB).
(1) Berthonnaud, E., Dimnet, J., Roussouly, P. & Labelle, H. (2005). 'Anlisis del
equilibrio sagital de la columna y la pelvis utilizando parmetros de forma y orientacin',
Revista de Trastornos y Tcnicas de la Columna Vertebral, 18 (1): 40 "47. (2) Rocha
Neto, AR & Barreto, GA (2009). 'En la Aplicacin de Conjuntos de Clasificadores al
diagnstico de patologas de la columna vertebral: un anlisis comparativo ".,
Transacciones IEEE Amrica Latina, 7 (4) :487-496 (3) Rocha Neto, AR, Sousa, R.,
Barreto, GA y Cardoso, JS (2011)."Diagnstico de Patologa de la Columna Vertebral
con Embedded Rechazar Optiona ?, Actas de la quinta Conferencia Ibrica de
Reconocimiento de Formas y Anlisis de Imgenes (IbPRIA'2011), Gran Canaria,
Espaa, Lecture Notes en Ciencias de la Computacin, vol. 6669, p. 588-595.
Cita de pedidos:
Vicon Set Datos de accin fsica Conjunto de Datos 2011-07-27
Resumen: El Conjunto de Datos accin fsica incluye 10 normales y 10 acciones
fsicas agresivas que miden la actividad humana. Los datos han sido recogidos por 10
sujetos usando el tracker Vicon 3D.
Conjunto de datos Series de Nmero de
3000 rea: Fsico
Caractersticas: Tiempo instancias:

Real 27
Nmero de
Valores
Tareas asociadas: Clasificacin N / A Web 18483
perdidos?
Accesos:
Fuente:
Theo Theodoridis
Facultad de Ciencias de la Computacin e Ingeniera Electrnica
de la Universidad de Essex
Wivenhoe Park, Colchester, 3SQ CO4, Reino
Unido ttheod '@' gmail.com http://sites.google.com/site/ttheod/
1. Protocolo:
Siete hombres y tres mujeres sujetos (de 25 aos y el 30), que han sufrido la agresin
en escenarios tales
como peleas fsicas, particip en el experimento. A lo largo de 20 experimentos
individuales, cada sujeto
tena que realizar diez normal y diez actividades agresivas. En cuanto a los derechos de
los sujetos involucrados,
regulaciones ticas se han seguido basndose en el cdigo de tica de la Sociedad
Britnica de Psicologa,
que explica las legislaciones ticas para llevar a cabo experimentos estadsticos
utilizando sujetos humanos. Para la seguridad
cuestiones de precaucin, abrigos de la mano del boxeo se han dado a los sujetos, y
para el calentamiento de los sujetos
fueron instruidos para familiarizarse con la bolsa por tener un nmero de ejecuciones de
prueba. Los sujetos eran conscientes de que
, ya que su participacin en esta serie de experimentos fue voluntaria, se dej en claro
que podan
retirarse en cualquier momento del estudio. 2. Instrumentacin: La arena robtico Essex
fue la principal sala experimental donde la recoleccin de datos se llev a cabo. Con
rea de 4x5.5m, los diez sujetos expresaron actividades fsicas normales y agresivos en
lugares al azar. Para las acciones normales, un compaero humano se ha utilizado
como un objetivo de enfoque atraer la atencin de los sujetos con el fin de realizar la
actividad ms realista. Para las acciones agresivas, los sujetos hicieron uso de un
profesional de la bolsa de pie kick-boxing, 1.75m de altura, con una figura humana
dibujada en su cuerpo. La bolsa tiene forma cilndrica hecha de material blando, lo que
podra rebotar cuando es golpeado. Todas las actividades se han registrado de
azar posiciones de partida de modo que para tener una variedad de datos 3D
espaciales. El rendimiento subjects ha sido registrado por nueve cmaras
omnipresentes del s Vicona, interfaces actividad humana con coordenadas
espaciales puntos. En base a este contexto, el proceso de adquisicin de datos implic
cuatro marcadores reflectable colocados en los antebrazos (codos y muecas), cuatro
en las patas delanteras (rodillas y tobillos), y uno en la parte superior de la
cabeza. 3. Configuracin de datos: Cada ensayo experimental se ha tomado por
separado para cada actividad fsica. La duracin de cada accin fue de
aproximadamente ~ 10 segundos por sujeto, lo que corresponde a una serie de tiempo
de ~ 3000 muestras, con frecuencia de muestreo de 200Hz. Dentro de este tiempo de
funcionamiento, aproximadamente 15 trayectorias de accin fueron extrados de conteo
en promedio 15 normal (ej: establecimiento de conexin), y 15 agresivos: acciones (ex
perforacin).
Cada archivo en el conjunto de datos contiene 28 columnas en total (el primero es un

contador), y est organizado de la Segmento | Director | L-Arm | R-Arm | L-Leg | R-
Leg Marker | m1 | m2 | m3 | m4 | m5 | m6 | m7 | m8 | m9 | | Coordenadas | xyz | xyz | xyz
| xyz | xyz | xyz | xyz | xyz | xyz | | columna | 1,2,3 | 4.5.6 | 7.8.9 | 10,11,12 | 13,14,15 |
16,17,18 | 19,20,21 | 22,23,24 | 25,26,27 Un segmento se define un segmento del
cuerpo o de las extremidades. - Jefe - Brazo izquierdo (L-Arm) - El brazo derecho (R-
Arm) - Barra izquierda (L-Leg) - Barra derecha (R-Leg) Marcador: Un par de marcadores
( excepto la cabeza) se une en cada segmento del cuerpo para la adquisicin de datos
3D. - marcadores de brazo: la mueca (WRS), el codo (ELB) - marcadores de tobillo de
la pierna: (ANK), rodilla (KNE)Coordenadas: Los 3 coordenadas (x, y , z) definen la
posicin 3D de cada marcador en el espacio. - x: La coordenada x - y: La coordenada -
z: La coordenada z
1. T. Theodoridis y H. Hu, clasificacin de las acciones agresivas de los modelos 3D

humanos utilizando
Dinmica RNAs para Mvil Robot Vigilancia, Conferencia Internacional IEEE de
Robtica
y biomimtica (Robio-2007), 15 a 18 diciembre, 2007, pp 371-376. 2. T. Theodoridis, A.
Agapitos, H. Hu y SM Lucas, ubicuas Robtica en Physical Human Recognition Accin:
Una comparacin entre las RNA dinmicos y GP, IEEE Internacional Conferencia de
Robtica y Automatizacin (ICRA-2008), May 19-23, 2008, pp desde 3064 hasta
3069. 3. T. Theodoridis y H. Hu, A Fuzzy-convolucin Modelo de Accin Fsica y
Comportamiento Reconocimiento de Patrones de la serie Time 3D, IEEE
Int.. Conferencia de Robtica y biomimtica (Robio-2008), 21 a 26 febrero 2009, pp 407-
412. 4. T. Theodoridis, A. Agapitos, H. Hu y SM Lucas, Montaje Mecnico Atributos
para Modelado y Clasificacin de patrones de Actividades Fsicas, IEEE Conferencia
Internacional de Informacin y Automatizacin (ICIA-2009), 22 a 24 junio, 2009, pp 528-
533. 5. T. Theodoridis, A. Agapitos, H. Hu y SM Lucas, Un Modelo Fuzzy QA-TSK frente
evolutivos rboles de decisin Hacia patrn no lineal de accin de reconocimiento, IEEE
Conferencia Internacional deInformacin y Automatizacin (ICIA-2010), 20 al 23 junio,
2010, pp 1813-1818. 6. T. Theodoridis, P. Theodorakopoulos y H. Hu, La evolucin de
modelos biomecnicos agresivos con la programacin gentica, IEEE / RSJ Conferencia
Internacional de Robots y Sistemas Inteligentes, (IROS-2010), 18 hasta 22 octubre
2010, pp 2495 - 2500. 7. T. Theodoridis, A. Agapitos y H. Hu, A Gauss groundplan
Modelo rea de proyeccin para Evolving Probabilstico Clasificadores, GECCO
Gentica y Evolutiva Conferencia Computacin (GECCO-2011), 12 a 16 julio, 2011, pp
1339-1346.
Cita de pedidos:
Los volcanes en Venus - JARtool experimento Conjunto de datos N/A
Resumen: El proyecto JARtool fue un esfuerzo pionero para
desarrollar un sistema automtico para la catalogacin de los
pequeos volcanes en el amplio conjunto de imgenes Venus
devueltos por la nave espacial Magallanes.

Imagen rea: Fsico
Caractersticas del Nmero de N/ Fecha

N/A N/A
atributo: atributos: A Donado
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Michael C. Burl
MS 126-347, JPL
4800 Oak Grove Drive
Pasadena, CA 91109
(818) 393-5345 Michael.C.Burl '@' jpl.nasa.gov http://www-aig.jpl.nasa.gov / mls / home
/ burl /
Los datos fueron recogidos por la nave espacial Magallanes durante un perodo de
aproximadamente cuatro anual de 1990 - 1994. El objetivo de la misin era obtener la
cartografa global de la superficie de Venus utilizando un radar de apertura sinttica
(SAR). Un anlisis ms detallado de la misin y objetivos se encuentra disponible en la
pgina web de Magellan del JPL. Existen algunas dependencias espaciales. Por
ejemplo, los parches de fondo con una imagen nica es probable que sean ms
similares que los parches de fondo tomadas a travs de diferentes imgenes. Adems
de las imgenes, hay archivos "verdad terreno" que especifican la ubicacin de los
volcanes en las imgenes. Las comillas en "verdad terreno" pretenden ser un
recordatorio de que no hay verdad absoluta del suelo para este conjunto de datos. Nadie
ha sido la de Venus y la calidad de la imagen no permite el 100%, la identificacin
inequvoca de los volcanes, incluso para los expertos humanos. Hay etiquetas que
proporcionan cierto grado de incertidumbre subjetiva (1 = definitivamente un volcn, 2 =
probablemente, 3 = posiblemente, 4 = slo un pozo es visible). Vase la referencia
[Smyth95] para ms informacin sobre el problema de la incertidumbre de
etiquetado. Tambin hay archivos que especifican el conjunto exacto de experimentos
utilizando en las evaluaciones publicadas del sistema JARtool. Los archivos de
imgenes se encuentran en un formato llamado VIEW. Este formato consta de dos
archivos, un archivo binario con la extensin. Sdt (los datos de imagen) y un archivo
ASCII con extensin. Spr (informacin de la cabecera). Hay una funcin de utilidad de
MATLAB incluido en el paquete de datos que se puede utilizar para leer los datos. Si
quieres usar algo distinto al Matlab, ests por tu cuenta, pero el formato es bastante
sencillo y pueda ser comprendido por mirar el cdigo Matlab. Los archivos de etiquetado
se presentan en dos formas. Los archivos lxyr. Son simples ASCII que contiene la
etiqueta separada por espacios, x-ubicacin del centro, y-ubicacin del centro y el radio.
Las imgenes son 1024X1024 pxeles. Los valores de pxeles estn en el rango
[0255]. El valor de pxel est relacionada con la cantidad de energa retrodispersada al
radar desde una ubicacin espacial dada. Valores de los pxeles ms altos indican una
mayor retrodispersin. Valores de pxel ms bajos indican menor retrodispersin. Tanto
la topografa y la rugosidad de la superficie en relacin con la longitud de onda de radar
afectan la cantidad de retrodispersin.
GH Pettengill, PG Ford, WTK Johnson, RK Raney, LA Soderblom, "Magellan:

Performance Radar y Productos de Datos"., Science, 252:260-265 (1991) [Web Link] RS
Saunders, AJ Lanza, PC Allin, RS Austin, AL Berman, RC Chandlee, J. Clark, AV
Decharon, EM Dejong, "Magellan Misin Resumen", J. of Geophysical Research
Planets, 97 (E8) :13067-13090, (1992). [Web Link] MC Burl , L. Asker, P. Smyth, U.
Fayyad, P. Perona, L. Crumpler, y J. Aubele, "Aprender a reconocer los Volcanes de
Venus", la mquina de aprendizaje, (marzo de 1998). [Web Link] P. Smyth, MC Burl, UM
Fayyad, y P. Perona, Captulo: "Descubrimiento de Conocimiento en grandes bases de
datos de la imagen: Lidiar con incertidumbres en Ground Truth", en Advances in
Descubrimiento de Conocimiento y Minera de Datos, AAAI / MIT Press, Menlo Park,
CA, (1995). [Web Link]
Cita de pedidos:
Wall-Tras Robot navegacin Conjunto de datos Datos 2010-08-04
Resumen: Los datos se recogieron como el robot G5 SCITOS navega a travs de la
sala siguiendo la pared hacia la derecha, para 4 rondas, con 24 sensores de
ultrasonidos dispuestas circularmente alrededor de su cintura.
5456 rea: Ordenador

Real 24
Nmero
Valores
perdidos?
Accesos:
Fuente:
(A) Creadores: Ananda Freire, Marcus Veloso y Guilherme Barreto Departamento de

Ingeniera Teleinformtica de la Universidad Federal de Cear Fortaleza, Cear,
Brasil (b) Los donantes de base de datos: Ananda Freire
( anandalf '@' gmail.com ) Guilherme Barreto (guilherme '@' deti.ufc.br )
Los archivos proporcionados comprenden tres conjuntos de datos diferentes. El primero

contiene los valores brutos de las mediciones
de los 24 sensores de ultrasonidos y la etiqueta de la clase correspondiente (vase la
seccin 7). Las lecturas del sensor se muestrean a una
tasa de 9 muestras por segundo. El segundo contiene cuatro lecturas de los sensores
denominados 'distancias simplificados y de la etiqueta de la clase correspondiente (ver
seccin 7). Estas distancias simplificados se refieren como la "distancia frente",
"distancia a la izquierda", "distancia adecuada" y "distancia de vuelta '. Se componen,
respectivamente, de las lecturas de los sensores mnimas entre aquellos dentro de los
60 arcos de grado en la parte delantera, a la izquierda, piezas adecuadas y la espalda
del robot. El tercero incluye solamente la distancia simplificados e izquierdo y la etiqueta
de la clase correspondiente. Es Cabe mencionar que los 24 lecturas de ultrasonido y las
distancias simplificados fueron recolectados en el mismo intervalo de tiempo, por lo que
cada archivo tiene el mismo nmero de filas (una para cada paso de tiempo de
muestreo). La reunin de trabajo y los datos en la pared siguiente fueron diseados para
probar la hiptesis de que esta tarea aparentemente sencilla navegacin es sin duda
una tarea no linealmente separable clasificacin. Por lo tanto, los clasificadores lineales,
como la red Perceptrn, no son capaces de aprender la tarea y comandar el robot
alrededor de la habitacin sin colisiones. Clasificadores neuronales no lineales, tales
como la red de MLP, son capaces de aprender la tarea y ordenar al robot con xito sin
colisiones. Si se proporciona algn tipo de mecanismo de la memoria a corto plazo a los
clasificadores de los nervios, sus actuaciones se mejoran en general. Por ejemplo, si las
entradas anteriores se proporcionan junto con las lecturas actuales del sensor, incluso el
Perceptrn se convierte en capaz de aprender la tarea y comandar el robot con xito. Si
una red neuronal recurrente, como la red de Elman, se utiliza para aprender la tarea, el
clasificador dinmico resultante es capaz de aprender la tarea con menos neuronas
ocultas de la red MLP. Archivos con diferente nmero de lecturas de los sensores fueron
construidos con el fin de evaluar el desempeo de los clasificadores con respecto al
nmero de entradas.
Nmero de Atributos
- sensor_readings_24.data: 24 atributos numricos y la clase.
- sensor_readings_4.data:. 4 atributos numricos y la clase
. - sensor_readings_2.data: 2 atributos numricos y la clase para cada atributo: -
sensor_readings_24 archivo . datos: 1. US1: sensor de ultrasonido en la parte delantera
del robot (ngulo de referencia: 180 ) - (numrico: real) 2. US2: Ecografa lectura
(ngulo de referencia:-165A ) - (numrico: real) 3. US3: Ecografa lectura (ngulo de
referencia:-150 ) - (numrico: real) 4. US4: Ecografa lectura (ngulo de referencia:-
135A ) - (numrico: real) 5. US5: Ecografa lectura (ngulo de referencia:-120A ) -
(numrico: real) 6. US6: Ecografa lectura (ngulo de referencia:-105 ) - (numrico:
real) 7. US7: (ngulo referencia: 90 ) ultrasonido leyendo - (numrico Bienes) 8. US8:
(ngulo de referencia:-75 ) ultrasonido lectura - (numrico: real) 9. US9: Ecografa
lectura (ngulo de referencia:-60 ) - (numrico: real) 10. US10: Ecografa lectura
(ngulo de referencia: -45 ) - (numrico: real) 11. US11: Ecografa lectura (ngulo de
Referencia:-30 ) - (numrico: real) 12. US12: Ecografa lectura (ngulo de referencia:-
15 ) - (numrico: real) 13. US13: lectura del sensor de ultrasonidos situados en la
parte trasera del robot (ngulo de referencia: 0 ) - (numrico: real) 14. US14: ecografa
lectura (ngulo de referencia: 15 ) - (numrico: real) 15. US15: Ecografa lectura
(ngulo de referencia: 30 ) - (numrico: real) 16. US16: Ecografa lectura (ngulo de
referencia: 45 ) - (numrico: real) 17. US17: Ecografa lectura (ngulo de referencia:
60 ) - (numrico: real) 18. US18: ecografa lectura (ngulo de referencia: 75 ) -
(numrico: real) 19. US19: Ecografa lectura (ngulo de referencia: 90 ) - (numrico:
real) 20. US20: Ecografa lectura (ngulo de referencia: 105 ) - (numrico:
real) 21. US21: Ecografa lectura (ngulo de referencia: visin 120 ) - (numrico:
real) 22. US22: Ecografa lectura (ngulo de referencia: 135A ) - (numrico:
real) 23. US23: Ecografa lectura (ngulo de referencia: 150 ) - (numrico:
real) 24. US24: Ecografa lectura (ngulo de referencia: 165A ) - (numrico:
real) 25. Clase: - Mover-Forward - Ligero-Derecha-Turn - Sharp-Derecha-Turn - Ligero-
Izquierda-Turn - sensor_readings_4.data archivo: 1. SD_front: Sensor mnima lectura
dentro de un arco de 60 grados en la parte delantera del robot - (numrico:
real) 2. SD_left: Sensor mnima lectura dentro de un arco de 60 grados situado a la
izquierda del robot - (numrico: real) 3. SD_right: Sensor mnima lectura dentro de un
arco de 60 grados situado a la derecha del robot - (numrico: real) 4. SD_back: Sensor
mnima lectura dentro de un arco de 60 grados en la parte posterior del robot -
(numrico: real) 5. Clase: - Mover-Forward - Ligero-Derecha-Turn - Sharp-Derecha-
Turn - Ligero-Izquierda-Turn - sensor_readings_2.data archivo: 1. SD_front: Sensor
mnima lectura dentro de un arco de 60 grados en la parte delantera del robot -
(numrico: real) 2. SD_left: Sensor mnima lectura dentro de un arco de 60 grados
situado a la izquierda del robot - (numrico: real) 3. Clase: - Mover-Forward - Ligero-
Derecha-Turn - Sharp-Derecha-Turn - Ligero-Izquierda-Turn
Ananda L. Freire, Guilherme A. Barreto, Marco Antonio Veloso y T. Varela (2009),

"memoria a corto plazo los mecanismos de red neuronal de aprendizaje de Robot de
Navegacin
Tareas: Un Estudio de Caso ". Actas de la sexta Robtica Simposio Latinoamericano
(LARS'2009),
Valparaso-Chile, pginas 1-6, DOI: 10.1109/LARS.2009.5418323
Cita de pedidos:
Tratamiento de Aguas Planta de conjunto de datos 1993-06-01
Resumen : Varias clases predicen estado de la central

Entero, real 38
Nmero de
Valores N/
Tareas asociadas: Clustering Web 44121
perdidos? A
Accesos:
Fuente:
Creadores: Manel Poch ( igte2 '@' cc.uab.es ) Unitat d'Enginyeria Qumica Universitat
Autnoma de Barcelona. Bellaterra. De Barcelona; Espaa Donante: Javier Bjar y
Ulises Corts ( bejar '@' lsi.upc.es ) Dept. Llenguatges i Sistemes
Informatics, Universitat Politcnica de Catalunya. De Barcelona; Espaa
Este conjunto de datos proviene de las medidas diarias de sensores en una planta de
tratamiento de aguas residuales urbanas. El objetivo es clasificar el estado de
funcionamiento de la planta con el fin de predecir fallos a travs de las variables de
estado de la planta a cada una de las etapas del proceso de tratamiento. Este dominio
ha sido declarado como un dominio mal estructurado.
Todos los Atrributes son numricos y continuo N. Atributo. 1 QE (flujo de entrada a la

planta) 2 ZN-E (de entrada a la planta de zinc) 3 PH-E (pH de entrada a la planta) 4
DBO-E (entrada de demanda biolgica de oxgeno a la planta) 5 DQO-E (insumo
qumico la demanda de oxgeno a la planta) 6 SS-E (de entrada de slidos en
suspensin a la planta) 7 SSV-E (de entrada de slidos voltiles supended a planta) 8
SED-E (sedimentos de entrada a la planta) 9 COND-E (conductividad de entrada para
sembrar) 10 PH-P (pH de entrada al sedimentador primario) 11 DBO-P (entrada de
demanda biolgica de oxgeno al sedimentador primario) 12 SS-P (entrada de slidos en
suspensin al sedimentador primario) 13 SSV-P (entrada de slidos voltiles supended
a sedimentador primario) 14 SED-P (sedimentos de entrada al sedimentador
primario) 15 COND-P (conductividad de entrada al sedimentador primario) 16 PH-D (pH
de entrada al decantador secundario) 17 DBO-D (entrada de demanda biolgica de
oxgeno al decantador secundario) 18 DQO-D (demanda qumica de entrada de oxgeno
al decantador secundario) 19 SS-D (entrada de slidos en suspensin al decantador
secundario) 20 SSV-D (de entrada de slidos voltiles supended a decantador
secundario) 21 SED-D (sedimentos de entrada al decantador secundario)22 COND-D
(conductividad de entrada al decantador secundario) 23 PH-S (pH salida) 24 DBO-S
(salida de la demanda biolgica de oxgeno) 25-S DQO (demanda qumica de la
produccin de oxgeno) 26 SS-S (salida de slidos en suspensin) 27 SSV-S (salida de
slidos voltiles supended) 28 SED-S (sedimentos de salida) 29 COND-S (conductividad
de salida) 30 RD-DBO-P (entrada comportamiento de la demanda biolgica de oxgeno
en sedimentador primario) 31 RD-SS-P (entrada desempeo slidos en suspensin al
sedimentador primario) 32 RD-SED-P (sedimentos de entrada desempeo a
sedimentador primario) 33 RD-DBO-S (entrada comportamiento de la demanda
biolgica de oxgeno al decantador secundario) 34 RD-DQO-S (demanda qumica de
entrada desempeo de oxgeno a secundaria colono) 35 RD-DBO-G (entrada de
performance global de la demanda biolgica de oxgeno) 36 RD-DQO-G (rendimiento
global de la demanda qumica de entrada de oxgeno) 37 RD-SS-G (entrada de slidos
en suspensin de rendimiento global) 38 RD-SED- G (sedimentos de entrada de
rendimiento global)
J. De Gracia. `` Avaluaci de tecnicas de classificacio per a la gestio de Bioprocessos:

aplicaci un reactor sin dE colmillos activats'' Tesis de Maestra. Dept. de
Qumica. Unitat d'Enginyeria Qumica. Universitat Autnoma de Barcelona. Bellaterra
(Barcelona). 1993. J.Bejar, U. Cort \ 'es y M. Poch. "LINNEO +: Una Metodologa de
Clasificacin para dominios estructurados Ill'' Informe de investigacin RT-93-10-R Dept.
Llenguatges i Sistemes Informtica de Barcelona de 1993..... [Web Link] Ll Belanche, U.
de Corts y M. S. \ ànchez." Un sistema basado en el conocimiento para el diagnstico
de la planta de tratamiento de aguas residuales''. Actas de la conferencia internacional
quinto de aplicaciones industriales y de ingeniera de la IA y sistemas expertos IEA/AIE-
92. Ed. Springer-Verlag.Paderborn, Alemania, junio 92. [Web Link]
Cita de pedidos:
Generador de forma de onda de base de datos (versin 1) 1988-11-10
Conjunto de datos
Resumen dominios de forma de onda del carro del libro:
5000 rea: Fsico
Caractersticas: Data-Generator instancias:

Real 21
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Propietarios Original: . Breiman, L. Friedman, JH, Olshen, RA, y piedra, CJ (1984) Los
rboles de clasificacin y regresin. Wadsworth Internacional Grupo: Belmont,
California. . (Ver pginas 43-49) Donante: David Aja
Notas:
- 3 clases de ondas
- 21 atributos, todos los cuales incluyen el ruido
- Ver el libro para obtener ms informacin (49-55, 169)
- waveform.data.Z contiene 5.000 casos
- Cada clase se genera a partir de una combinacin de 2 de 3 ondas de "base"

- se genera Cada instancia f ruido aadido (media 0, varianza 1) en cada atributo
Leo Breiman, Jerome H. Friedman, Adam Olshen, Jonathan Stone. "Los rboles de
clasificacin y regresin." De 1984. [Web Link]
. Giorgio Valentini Random agregados y embolsados Conjuntos de SVM: un anlisis de

varianza emprica Blas? . Sistemas Clasificadores mltiples. 2004. [ Ver Contexto ]. Zhi-
Hua Zhou y WD Wei y Li Gang y Honghua Dai. del tamao del Conjunto de
Entrenamiento y el Beneficio de Ensemble . PAKDD. 2004. [ Ver Contexto ]. Giorgio
Valentini y Thomas G. Dietterich. Mquinas de Vectores Soporte embolsados sesgo
bajo . ICML. 2003. [ Ver Contexto ]. Joao Gama y Ricardo Rocha y Pedro
Medas. rboles de decisiones precisas para la minera de flujos de datos de alta
velocidad . KDD. 2003. [ Ver Contexto ]. Giorgio Valentini. mtodos Ensemble basados
en prejuicios - anlisis de varianza Tesis Series DISI-TH-2003 . Dipartimento di Scienze
e Informatica dell'Informazione. 2003. [ Ver Contexto]. Eibe Frank y Mark Hall y
Bernhard Pfahringer. localmente ponderada Naive Bayes . UAI. 2003. [ Ver
Contexto ]. James Bailey y Thomas Manoukian y Kotagiri Ramamohanarao. Algoritmos
rpidos para Minera patrones emergentes . PKDD. 2002. [ Ver Contexto ]. S.Sathiya
Keerthi y Kaibo Duan y Shirish Krishnaj Shevade y Aun Neow Poo. Un Algoritmo Dual
Fast para Kernel de regresin logstica . ICML. 2002. [ Ver Contexto ]. Juan J. Rodr guez
# # y Carlos J. Alonso. Aplicacin de Impulso a la similitud literales para Time
Espaa. 2000. [ Ver Contexto ]. Juan J Rodrguez Diez y Carlos Alonso Gonzlez y
Henrik Bostrm. Clasificadores de Aprendizaje lgica de primer orden de series
temporales: Reglas y Impulsar . PKDD. 2000. [ Ver Contexto ]. Juan J. Rodr guez # # y
Carlos J. Alonso y Henrik Bostrom. Impulsar basada en intervalos literales . 2000. [ Ver
Contexto ]. . Beda Liu y Mingzeng Hu y Wynne Hsu organizacin multinivel y resumen
de las reglas descubiertas .KDD. 2000. [ Ver Contexto ]. Thomas G. Dietterich. Una
Comparacin experimental de tres mtodos para construir Conjuntos de rboles de
decisin: El embolsado, Impulsar y aleatorizacin . Aprendizaje Automtico,
40. 2000. [ Ver Contexto ]. Kai Ming Ting y Ian H. Witten. Problemas en Stacked
Generalizacin . J. Artif. Intell. Res.. (JAIR, 10 de 1999 [.. Ver Contexto ]. Khaled A.
Alsabti y Sanjay Ranka y Vineet Singh. NUBES: Un rbol de decisin clasificador para
grandes conjuntos de datos ... KDD 1998 [ Ver Contexto .] Kai Ming Ting y Boon Toh
baja. Combinacin de modelo en el Multiple-Data-Lotes Escenario .. ECML 1997. [ Ver
Contexto ]. Nir Friedman y Moiss Goldszmidt. discretizar atributos continuos mientras
aprenden redes bayesianas .. ICML 1996. [ Ver Contexto ]. Ron Kohavi.Ampliar los
efectivos Precisin de Naive-Bayes clasificadores: Un hbrido de rbol de decisiones ...
KDD 1996 [ Ver Contexto .] . Tapio Elomaa y Juho Rousu Encontrar Optimal Multi-Splits
para Numerical Atributos en la Decisin Learning Tree grupo de trabajo ESPRIT en
Neural y Computacional Learning 1996.. . [ Ver Contexto .] . Dietrich Wettschereck y
David W. Aha Caractersticas de ponderacin ... ICCBR 1995 [ Ver Contexto .] . Kai
Ming Ting y Boon Toh Baja Teora de combinacin: una alternativa a la combinacin de
datos de la Universidad de Waikato [.. Ver Contexto ]. Matthias Scherf y W.
Brauer. Seleccin de caractersticas por medio de un enfoque de funciones de
ponderacin . GSF - Centro Nacional de Investigacin del Medio Ambiente y de la
Salud. [ Ver Contexto ]. Zhi-Hua Zhou y Xu Ying Liu. Entrenamiento de coste razonable
para redes neuronales con los mtodos de abordar el problema del desequilibrio de
clase . [ Ver Contexto ]. Giorgio Valentini. Un sesgo experimental - anlisis de la
varianza de los conjuntos SVM basado en tcnicas de remuestreo . [ Ver
Contexto ]. Juan J. Rodr guez y Diez y Carlos J. Alonso. Learning Clasificacin RBF
Redes de Impulso . Lenguajes y Sistemas Inform # aticos. [ Ver Contexto ]. Zoran
Obradovic y Slobodan Vucetic. Desafos en Scientific Data Mining: muestras
heterogneas, sesgadas, y grandes . Centro de Informacin de Ciencia y Tecnologa de
la Universidad de Temple. [ Ver Contexto ]. Carlos J. Alonso Gonzlez y Juan J. Rodr
iguez y Diez. Tiempo Clasificacin Series by Impulsar basada en intervalos
literales . Grupo de Sistemas Inteligentes Departamento de Informatica de la
Universidad de Valladolid. [ Ver Contexto ]. Juan J. Rodr guez # # y Carlos J. Alonso y
Henrik Bostrom. aprendizaje de primer orden Lgica Series de tiempo Clasificadores:
Reglas y Impulsar . Grupo de Sistemas Inteligentes, Departamento de Inform atica #
Universidad de Valladolid, Espaa. [ Ver Contexto .] . Kai Ming Ting y Ian H.
Witten Generalizacin Stacked: cuando funciona . Departamento de Informtica
Universidad de Waikato. [ Ver Contexto ]. Amund Tveit. emprico comparativo de
precisin y rendimiento para el clasificador MIPSVM con clasificadores
existentes . Divisin de Intelligent Departamento de Informtica y Ciencias de la
Informacin de la Universidad Noruega de Ciencia y Tecnologa de Sistemas. [ Ver
Contexto ]. Vikas Sindhwani y P. Bhattacharya y Subrata Rakshit. teora de la
informacin de funciones de acreditacin en Mquinas de Vectores Soporte
multiclase . [ Ver Contexto ]. Mohammed Waleed Kadous. Expandir el Alcance del
concepto de aprendizaje utilizando Metafeatures. Facultad de Ciencias de la
Computacin e Ingeniera de la Universidad de Nueva Gales del Sur. [ Ver
Contexto ]. Thomas T. Osugi y MS BASADO EN LA EXPLORACIN DE APRENDIZAJE
MQUINA ACTIVE . Facultad de El Colegio de Graduados de la Universidad de
Nebraska en cumplimiento parcial de los requisitos. [ Ver Contexto ]. Pierre
Geurts. rboles extremadamente aleatorios . Informe tcnico 06 2003 Universidad de Li
# Departamento de Ingeniera Elctrica y Ciencias de la Computacin Institut Monte #
mineral ege. [Ver Contexto ]. Iaki Inza y Pedro Larraaga y Ramn Etxeberria y Basilio
Sierra. funcin de seleccin de subconjuntos de redes bayesianas optimizacin
basada . Departamento de Ciencias de la Computacin e Inteligencia
Artificial. Universidad del Pas Vasco. [ Ver Contexto ]
Cita de pedidos:
Generador de forma de onda de base de datos (versin 2) 1988-11-10
Conjunto de datos
Resumen: dominios de forma de onda del carro del libro:
5000 rea: Fsico
Caractersticas: Data-Generator instancias:

Real 40
Nmero de
Valores
perdidos?
Accesos:
Fuente:
Propietarios Original: . Breiman, L. Friedman, JH, Olshen, RA, y piedra, CJ (1984) Los
rboles de clasificacin y regresin. Wadsworth Internacional Grupo: Belmont,
California. . (Ver pginas 43-49) Donante: David Aja
Notas:
- 3 clases de ondas
- 40 atributos, todos los cuales incluyen el ruido
- Los ltimos 19 atributos son todos los atributos de ruido con media 0 y varianza 1
- forma de onda-+ noise.data.Z contiene 5.000 casos
- Cada clase se genera a partir de una combinacin de 2 de 3 ondas de "base"

- se genera Cada instancia f ruido aadido (media 0, varianza 1) en cada atributo
Leo Breiman, Jerome H. Friedman, Adam Olshen, Jonathan Stone. "Los rboles de
clasificacin y regresin." De 1984. [Web Link]
. Giorgio Valentini Random agregados y embolsados Conjuntos de SVM: un anlisis de

varianza emprica Blas? . Sistemas Clasificadores mltiples. 2004. [ Ver Contexto ]. Zhi-
Hua Zhou y WD Wei y Li Gang y Honghua Dai. del tamao del Conjunto de
Entrenamiento y el Beneficio de Ensemble . PAKDD. 2004. [ Ver Contexto ]. Giorgio
Valentini y Thomas G. Dietterich. Mquinas de Vectores Soporte embolsados sesgo
bajo . ICML. 2003. [ Ver Contexto ]. Joao Gama y Ricardo Rocha y Pedro
Medas. rboles de decisiones precisas para la minera de flujos de datos de alta
velocidad . KDD. 2003. [ Ver Contexto ]. Giorgio Valentini. mtodos Ensemble basados
en prejuicios - anlisis de varianza Tesis Series DISI-TH-2003 . Dipartimento di Scienze
e Informatica dell'Informazione. 2003. [ Ver Contexto]. Eibe Frank y Mark Hall y
Bernhard Pfahringer. localmente ponderada Naive Bayes . UAI. 2003. [ Ver
Contexto ]. James Bailey y Thomas Manoukian y Kotagiri Ramamohanarao. Algoritmos
rpidos para Minera patrones emergentes . PKDD. 2002. [ Ver Contexto ]. S.Sathiya
Keerthi y Kaibo Duan y Shirish Krishnaj Shevade y Aun Neow Poo. Un Algoritmo Dual
Fast para Kernel de regresin logstica . ICML. 2002. [ Ver Contexto ]. Juan J. Rodr guez
# # y Carlos J. Alonso. Aplicacin de Impulso a la similitud literales para Time
Espaa. 2000. [ Ver Contexto ]. Juan J Rodrguez Diez y Carlos Alonso Gonzlez y
Henrik Bostrm. Clasificadores de Aprendizaje lgica de primer orden de series
temporales: Reglas y Impulsar . PKDD. 2000. [ Ver Contexto ]. Juan J. Rodr guez # # y
Carlos J. Alonso y Henrik Bostrom. Impulsar basada en intervalos literales . 2000. [ Ver
Contexto ]. . Beda Liu y Mingzeng Hu y Wynne Hsu organizacin multinivel y resumen
de las reglas descubiertas .KDD. 2000. [ Ver Contexto ]. Thomas G. Dietterich. Una
Comparacin experimental de tres mtodos para construir Conjuntos de rboles de
decisin: El embolsado, Impulsar y aleatorizacin . Aprendizaje Automtico,
40. 2000. [ Ver Contexto ]. Kai Ming Ting y Ian H. Witten. Problemas en Stacked
Generalizacin . J. Artif. Intell. Res.. (JAIR, 10 de 1999 [.. Ver Contexto ]. Khaled A.
Alsabti y Sanjay Ranka y Vineet Singh. NUBES: Un rbol de decisin clasificador para
grandes conjuntos de datos ... KDD 1998 [ Ver Contexto .] Kai Ming Ting y Boon Toh
baja. Combinacin de modelo en el Multiple-Data-Lotes Escenario .. ECML 1997. [ Ver
Contexto ]. Nir Friedman y Moiss Goldszmidt. discretizar atributos continuos mientras
aprenden redes bayesianas .. ICML 1996. [ Ver Contexto ]. Ron Kohavi.Ampliar los
efectivos Precisin de Naive-Bayes clasificadores: Un hbrido de rbol de decisiones ...
KDD 1996 [ Ver Contexto .] . Tapio Elomaa y Juho Rousu Encontrar Optimal Multi-Splits
para Numerical Atributos en la Decisin Learning Tree grupo de trabajo ESPRIT en
Neural y Computacional Learning 1996.. . [ Ver Contexto .] . Dietrich Wettschereck y
David W. Aha Caractersticas de ponderacin ... ICCBR 1995 [ Ver Contexto .] . Kai
Ming Ting y Boon Toh Baja Teora de combinacin: una alternativa a la combinacin de
datos de la Universidad de Waikato [.. Ver Contexto ]. Matthias Scherf y W.
Brauer. Seleccin de caractersticas por medio de un enfoque de funciones de
ponderacin . GSF - Centro Nacional de Investigacin del Medio Ambiente y de la
Salud. [ Ver Contexto ]. Zhi-Hua Zhou y Xu Ying Liu. Entrenamiento de coste razonable
para redes neuronales con los mtodos de abordar el problema del desequilibrio de
clase . [ Ver Contexto ]. Giorgio Valentini. Un sesgo experimental - anlisis de la
varianza de los conjuntos SVM basado en tcnicas de remuestreo . [ Ver
Contexto ]. Juan J. Rodr guez y Diez y Carlos J. Alonso. Learning Clasificacin RBF
Redes de Impulso . Lenguajes y Sistemas Inform # aticos. [ Ver Contexto ]. Zoran
Obradovic y Slobodan Vucetic. Desafos en Scientific Data Mining: muestras
heterogneas, sesgadas, y grandes . Centro de Informacin de Ciencia y Tecnologa de
la Universidad de Temple. [ Ver Contexto ]. Carlos J. Alonso Gonzlez y Juan J. Rodr
iguez y Diez. Tiempo Clasificacin Series by Impulsar basada en intervalos
literales . Grupo de Sistemas Inteligentes Departamento de Informatica de la
Universidad de Valladolid. [ Ver Contexto ]. Juan J. Rodr guez # # y Carlos J. Alonso y
Henrik Bostrom. aprendizaje de primer orden Lgica Series de tiempo Clasificadores:
Reglas y Impulsar . Grupo de Sistemas Inteligentes, Departamento de Inform atica #
Universidad de Valladolid, Espaa. [ Ver Contexto .] . Kai Ming Ting y Ian H.
Witten Generalizacin Stacked: cuando funciona . Departamento de Informtica
Universidad de Waikato. [ Ver Contexto ]. Amund Tveit. emprico comparativo de
precisin y rendimiento para el clasificador MIPSVM con clasificadores
existentes . Divisin de Intelligent Departamento de Informtica y Ciencias de la
Informacin de la Universidad Noruega de Ciencia y Tecnologa de Sistemas. [ Ver
Contexto ]. Vikas Sindhwani y P. Bhattacharya y Subrata Rakshit. teora de la
informacin de funciones de acreditacin en Mquinas de Vectores Soporte
multiclase . [ Ver Contexto ]. Mohammed Waleed Kadous. Expandir el Alcance del
concepto de aprendizaje utilizando Metafeatures. Facultad de Ciencias de la
Computacin e Ingeniera de la Universidad de Nueva Gales del Sur. [ Ver
Contexto ]. Thomas T. Osugi y MS BASADO EN LA EXPLORACIN DE APRENDIZAJE
MQUINA ACTIVE . Facultad de El Colegio de Graduados de la Universidad de
Nebraska en cumplimiento parcial de los requisitos. [ Ver Contexto ]. Pierre
Geurts. rboles extremadamente aleatorios . Informe tcnico 06 2003 Universidad de Li
# Departamento de Ingeniera Elctrica y Ciencias de la Computacin Institut Monte #
mineral ege. [Ver Contexto ]. Iaki Inza y Pedro Larraaga y Ramn Etxeberria y Basilio
Sierra. funcin de seleccin de subconjuntos de redes bayesianas optimizacin
basada . Departamento de Ciencias de la Computacin e Inteligencia
Artificial. Universidad del Pas Vasco. [ Ver Contexto ].
Cita de pedidos:
Wearable Computing: Clasificacin de las posturas del cuerpo y 09/04/2013
los movimientos (PUC-Rio) Conjunto de datos
Resumen: Un conjunto de datos con 5 clases (sentado-abajo, de pie plano, pie,
caminar y sentarse) recolectadas en 8 horas de actividades de 4 sujetos
sanos. Tambin establecimos un ndice de rendimiento de referencia.
Conjunto de
Nmero de
datos Secuencial 165632 rea: Ordenador
instancias:
Caractersticas:

Entero, real 18 09/04/2013
Nmero
Valores
perdidos?
Accesos:
Fuente:
Pontificia Universidad Catlica de Ro de Janeiro (PUC-Rio)

Grupo de investigacin: Groupware @ LES
Contacto: wugulino '@' inf.puc-rio.br
http://groupware.les.inf.puc-rio.br/har
IMPORTANTE: tenemos un menor rendimiento en las pruebas de 'licencia-un-sujeto-

hacia fuera'. El ndice de referencia de rendimiento que establecimos es que de 10
veces las pruebas de validacin cruzada. Por lo tanto, hay mucho ms espacio para la
optimizacin en sujetos pruebas independientes. Si necesita ms informacin, por favor
envenos un e-mail. Licencias: Usted es libre de utilizar este conjunto de datos para
cualquier propsito. Este conjunto de datos est disponible bajo la licencia Creative
Commons (CC BY-SA). El CC BY-SA significa que usted puede entremezclar, ajustar y
ampliar este trabajo, incluso para fines comerciales, siempre y cuando se le d crdito a
los autores de la obra original y que la licencia de sus nuevas creaciones bajo los
mismos trminos que obtiene licencia para usted. Esta licencia es a menudo comparado
con las licencias de software de cdigo libre y abierto 'copyleft'. Todas las nuevas obras
basadas en este conjunto de datos llevarn la misma licencia, por lo que cualquier
derivado tambin permitirn el uso comercial.
La informacin detallada en: [Web Link]

usuario (texto)
gnero (texto)
edad (entero)
how_tall_in_meters (real)
de peso (int)
body_mass_index (real)
x1 (tipo int, contiene el valor de lectura del eje 'x' de la primera acelermetro, montado
en la cintura)
y1 (tipo int, contiene el valor de lectura del eje 'y' de la primera acelermetro, montado
en la cintura)
z1 (tipo int, contiene el valor ledo del eje 'z' de la primera acelermetro, montado en la
cintura)
x2 (tipo int, contiene el valor de lectura del eje 'x' del segundo acelermetro montado en
el muslo izquierdo)
y2 (tipo int, contiene el valor de lectura del eje 'y' del segundo acelermetro, montado en
el muslo izquierdo)
z2 (tipo int, contiene el valor de lectura del eje 'z' del segundo acelermetro montado en
el muslo izquierdo)
x3 (tipo int, contiene el valor ledo del eje 'x' de la tercera acelermetro, montado en el
tobillo derecho)
y3 (tipo int, contiene el valor de lectura del eje 'y' de la tercera acelermetro montado en
el tobillo derecho)
z3 (tipo int, contiene el valor ledo del eje 'z' de la tercera acelermetro montado en el
tobillo derecho)
x4 (tipo int, contiene el valor de lectura del eje 'x' de la cuarta acelermetro, montado en
la parte superior del brazo) derecho
y4 (tipo int, contiene el valor ledo del eje 'y' de la cuarta acelermetro, montado en la
parte superior del brazo) derecho
z4 (tipo int, contiene el valor de lectura del eje 'z' de la cuarta acelermetro, montado en
la parte superior del brazo derecho)
Ugulino, W.; Cardador, D.; Vega, K.; Velloso, E.; MILIDIU, R.; Fuks, H. Wearable
Computing: Clasificacin de Datos de posturas corporales y movimientos
acelermetros. Actas del Simposio Brasileo 21a en Inteligencia Artificial. Los avances
en inteligencia artificial - EISB 2012. En: Lecture Notes in Computer Science. , Pp 52-
61. Curitiba, PR: Springer Berlin / Heidelberg, 2012. ISBN 978-3-642-34458-9. DOI:
10.1007/978-3-642-34459-6_6.
Disponible en: [Web Link]
Cita de pedidos:
Si utiliza este conjunto de datos, por favor, cite el documento anterior (Wearable
Computing: Clasificacin de Datos Acelermetros "de las posturas del cuerpo y
movimientos). Tambin podemos ofrecer ms informacin si usted necesita, apenas nos
cae una lnea (wugulino 'a' "punto" PUC-Rio "punto" inf ancho).

Datasets UCI-Descripcion de Archivos

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Datasets UCI-Descripcion de Archivos

Uploaded by

Copyright:

Available Formats

RESMENES DE DATASETS

UNIDAD ACADMICA DE CIENCIAS Y

PROFESOR: M.C. ARTURO DE LEN CHAPA

ACAPULCO, GRO., A 09 DE ABRIL DE 2014

Conjunto de datos Secuencial, Nmero de

Caractersticas del Nmero de Fecha

Datos Conjunto de Informacin:

Abuln Data Set

Conjunto de datos Nmero de

Caractersticas del Categrico, Nmero de Fecha 1995-

Datos Conjunto de Informacin:

Conjunto de datos Nmero de

Caractersticas del Nmero de 2008-

Causal- Valores N/ Nmero de

Abhishek Soni, de doctorado

Actividades de la Vida Diaria (AVD) Reconocimiento Utilizando Sensores

Caractersticas del Nmero de Fecha

Datos Conjunto de Informacin:

Datos Conjunto de Informacin:

--- Casale, P. Pujol, O. y Radeva, P.

--- Casale, P. Pujol, O. y Radeva, P.

Conjunto de datos Nmero de

Caractersticas del Categrico, Nmero de 2009-

Datos Conjunto de Informacin:

Conjunto de datos Nmero de

Caractersticas del Categrico, Nmero de Fecha 1996-

Airfoil ruido propio conjunto de datos

Conjunto de datos Nmero de

Caractersticas del Nmero de Fecha

Datos Conjunto de Informacin:

Conjunto de datos Time-Series, Nmero de

Caractersticas del Nmero de Fecha 2011-09-

Datos Conjunto de Informacin:

Amazon Commerce reseas establecen Data Set

Caractersticas del Nmero de Fecha 2011-

Datos Conjunto de Informacin:

Conjunto de datos Nmero de

Caractersticas del Categrico, Nmero de

Datos Conjunto de Informacin:

Conjunto de datos Nmero de

Caractersticas del Nmero de Fecha 1998-11-

Datos Conjunto de Informacin:

Arcene Data Set

Conjunto de datos Nmero de

Caractersticas del Nmero de 2008-

Datos Conjunto de Informacin:

Arritmia Data Set

Conjunto de datos Nmero de

Caractersticas del Categrico, Nmero de Fecha 1998-

Datos Conjunto de Informacin:

Resumen : Conjunto de datos generados artificialmente mediante el uso de teora de primer

Conjunto de datos Nmero de

Caractersticas del Categrico, Nmero de Fecha 1992-07-

Datos Conjunto de Informacin:

Audiologa (Original) Conjunto de datos

Conjunto de datos Nmero de

Caractersticas del Nmero de N/ Fecha

Datos Conjunto de Informacin:

Conjunto de datos Nmero de

Caractersticas del Nmero de 1992-

Datos Conjunto de Informacin:

Australia Lengua de Signos firma Data Set

Conjunto de datos Multivariado, Nmero de

Caractersticas del Categrico, el Nmero de Fecha 1999-