4.1.a.clase4 DATIP

Detectando Outliers
Univariados y Multivariados
Antecedentes Generales
 Los “Outliers” o valores atípicos son casos en los cuáles los
datos observados son muy diferentes del resto de los
datos mayoritarios de la muestra o del conjunto de datos
disponible.
 Estos valores deben ser identificados porque ellos podrían

cambiar sustancialmente los resultados de un análisis.
 Si se deben o no incliur los datos atípicos de un conjunto

de datos dependerá porqué el caso particular es
considerado atípico y del propósito del análisis.
 Los casos atípicos univariados, se producen cuando una
variable particular toma un valor inusual para un caso
específico. Es particularmente relevante detectar esto
cuando la variable en la que potencialmente ocurre el
problema será la variable dependiente de un análisis.
 Un caso de valor atípico multivariado es una combinación

inusual de valores para un número determinado de
variables. Un valor individual podría no ser atípico pero la
combinación con otras variables podría serlo, aunque este
es un caso que raramente ocurre. Es particularmente
relevante sin esto sucede dentro del conjunto de variables
independientes en el análisis que se realiza.
 Una forma de identificar valores atípicos univariados es
convertir los datos originales a un valor estandarizado.
 Por ejemplo si se tiene una muestra pequeña de 80 o menos

casos, se estimaría que son valores atípicos todos los que al
estandarizarse se alejen del centro unos ±2.5 puntos o más
 Si la muestra fuese más grande este intervalo sería ±3.0

puntos o más.
 La regla nemotécnica anterior aplica para los casos en que la

variable es definida como contínua o de intervalo. Para
variables ordinales podría aplicarse si ellas son tratadas como
métricas y no puede utiliarse para variables nominales.
La utilización de medidas de distancia
 La distancia de Mahalanobis D2 es una versión multivariada
del valor estandarizado Z. Este mide la distancia de un
caso al centro del centroide (media multivariada) de una
distribución, dada la covarianza (varianza multivariada) de
la distribución.
 Un caso se considera un valor atípico si la probabilidad

asociada a su distancia D2 es 0.001 o menor. D2 sigue una
distribución chi-cuadrada con grados de libertad iguales al
número de variables incluídas en el cálculo.
 La Distancia de Mahalanobis D2 requiere que las variables

sean métricas, sean contínuas, de intervalos u ordinales
que sean tratadas como métricas.
EJEMPLO
Utilizaremos el conjunto de datos individualizado como
GSS2000.sav, en este conjunto de datos evaluaremos sin
existen datos atípicos en el campo asociado a la educación
de los individuos (variable Educ).
 Paso 1: lea la base de datos y realice una análisis
descriptivo simple de dicha variable, incluyendo un
histograma. Luego realizaremos los siguientes análisis.
Paso 1: lea la base de datos y realice una análisis descriptivo
Para calcular los valores

estándarizados en SPSS,
seleccione el menú de
estadísticas descriptivas.
Paso 1: Usemos la opción de salvar los valores estandarizados
de la variable
Segundo, indique aca

que está liso(a) para la
realización del cálculo.
Primero, marque en este cuadro de

diálogo la opción para salvar los valores
estandarizados de la variable de interés.
La nueva variable indicará con la letra Z
que se trata de una variable normalizada,
asi que será “Zeduc”.
La variable contiene los
valores estandarizados, Los valores que
para ver mejor la sean inferiores a -
distribución la 3.0 podrían ser
ordenaremos de menor considerados datos
a mayor atípicos pues es
poco probable que
dada la distribución
normal aparezca
una gran cantidad
de estos valores.
Use en botón
derecho para
activar este menú.
Paso 2: Investigando la naturaleza de los datos
potencialmente atípicos
En el archivo que usaremos

alrededor de 16 casos,
podrían ser atípicos, sin
embargo debe investigarse
un poco más antes de
decidir que los casos son
atípicos.
Paso 2: Una antecedente interesante es comparar los
Resultados con su media.
Las estadísticas
descriptivas deberían
ayudarnos a evaluar la
naturaleza de estos datos
de baja frecuencia.
La media es de 13 años, cuando comparamos los

datos con mayor desviación hacia abajo debemos
notas que casos con 0 años de educación, 2, 3 ó
4 años lucen bastante inusuales en una
distribución cuyo promedio se centra an 13 años
de escolaridad.
Paso 2: Mirar la cola superior y aplicar la regla univariada
En este caso si miramos la

cola superior de la
distribución descubriremos
que no existen grandes
valores extremos hacia
arriba de la distribución.
En este caso, entonces sería conveniente eliminar los valores

atípicos encontrados en la cola inferior de la distribución.
Este grupo ha sido detectado comparando los valores
estandarizados de la variable y considerando la desviación de
los valores observados en relación a la media de los datos.
Datos Atípicos Multivariados
 Utilizando la misma base de datos GSS 2000.sav,

podríamos considerar la existencia de algunos datos atípicos
al combinar la edad (Age), educación (educ), número de
hermanos y hermanas (sibs).
 Para evaluar esto calcularemos la distancia de Mahalanobis

Cálculo de Distancia de Mahalanobis D2
Para calcular la distancia de

Mahalanobis D2 en SPSS,
seleccionamos la regresión
lineal en el menú del comando
Analyze.
El procedimiento de regresión lineal

calcula la distancia de Mahalanobis D2
para el conjunto de las variables
independientes, que se incorporan en el
cuadro de dialogo respectivo.
Movemos entonces las variables: age,
sibs y educ al cuadro respectivo
El SPSS no estimará la regresión hasta que

se especifique una variable dependiente,
aunque ella no sea utilizada para el proceso
de analisis de los datos atípicos multivariados.
Definimos arbitrariamente
una variable dependiente,
Use este botón para
esta debe ser una variable
incluir la variable
numérica que no tenga
dependiente en el análisis
casos desaparecidos, por
ejemplo número de hijos
(childs)
En esta sección se solicita el cálculo

de las distancias de Mahalanobis D2
para el conjunto de datos, usando el
botón “save”.
Luego marcamos
en ésta opción
Luego simplemente
continuamos
Para entender porque un

caso particular es atípico
se requiere examinar las
estadísticas descriptivas de
caada variable, por eso
usamos esta opción
“descriptive statistics”
Primero marcamos esta

opción
Finalmente sólo se
continúa para estimar.
Cálculo de la probabilidad de la Distancia de
Mahalanobis D2
La distancia de Mahalanobis D²
ha sido calculada como la
variable mah1.
Para evaluar los outliers

requerimos la probabilidad
asociada a estas distancias, no
la distancia en sí misma. Para
esto calcularemos la
probabilidad asociada a cada
distancia.
Mahalanobis D2
Para el cálculo de la
probabilidad de cada
distancia D², usaremos la
funciones de cálculo de la
función compute.
Seleccionar
Compute en menú
transfor
Mahalanobis D2
Definimos la variable objetivo que contendrá

la probabilidaad o Mahalanobis D² score.
La función
seleccionada
debe
aplicarse con
3 grados de
libertad que
es el número
de variables
susadas en la
regresión.
La función de probabilidad a usar
Second corresponderá a una Chi-
cuadrado.
Mahalanobis D2
SPSS usará el comando para

calcular las probabilidades
asociadas a cada distancia
D².
Para encontrar la menor
probabilidad se ordenaraán
los datos de menor a mayor.
Usando el botón izquierdo.
Para ordenar los datos de menor

a mayor usamos esta opción.
Mahalanobis D2
Nótese que para un

conjunto de datos no fue
posible realizar el calculo
pues tenemos algunos datos
perdidos
En nuestros datos encontraremos 4

valores con una probabilidad menor a
0.001.
Estos valores tienen una probabilidad de
ocurrencia muy inusual sobre las tres
variables en enálisis resultando prudente
calificarlos como outliers.
Mahalanobis D2
Debemos recordar que la cuestión

inicial es si existe un conjunto
combinado de casos para estas tres
variables que sea inuasualmente
extraña. La respuesta indica que 4
casos presentan distancias muy poco
probables, menores o iguales a 0.001
¿Son datos atípicos?
 Antes de decidir si los datos deberían ser omitidos o no,
se necesita entender bien que es un datos atípico en
este contexto.
 Debe compararse cada caso con la respectiva media y
desviación estandar de cada variable. En este caso
pareciera que los casos atípicos corresponde a típicos
casos medios, lo que hace poco prudente eliminarlos de
la muestra.
 Otro problema es cuando tenemos variables de tipo
nominal, en este caso es inapropiado utilizar un análisis
de distancia de mahalanobis. Esto incluso es complicado
cuando la variable categórica es tratada como si fuera
métrica. En este caso es mejor abtenerse.

4.1.a.clase4 DATIP

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

4.1.a.clase4 DATIP

Uploaded by

Copyright:

Available Formats

Detectando Outliers

 Estos valores deben ser identificados porque ellos podrían

 Si se deben o no incliur los datos atípicos de un conjunto

 Un caso de valor atípico multivariado es una combinación

 Por ejemplo si se tiene una muestra pequeña de 80 o menos

 Si la muestra fuese más grande este intervalo sería ±3.0

 La regla nemotécnica anterior aplica para los casos en que la

 Un caso se considera un valor atípico si la probabilidad

 La Distancia de Mahalanobis D2 requiere que las variables

Para calcular los valores

Segundo, indique aca

Primero, marque en este cuadro de

En el archivo que usaremos

La media es de 13 años, cuando comparamos los

En este caso si miramos la

En este caso, entonces sería conveniente eliminar los valores

 Utilizando la misma base de datos GSS 2000.sav,

 Para evaluar esto calcularemos la distancia de Mahalanobis

Para calcular la distancia de

El procedimiento de regresión lineal

El SPSS no estimará la regresión hasta que

En esta sección se solicita el cálculo

Para entender porque un

Primero marcamos esta

Para evaluar los outliers

Definimos la variable objetivo que contendrá

SPSS usará el comando para

Para ordenar los datos de menor

Nótese que para un

En nuestros datos encontraremos 4

Debemos recordar que la cuestión

You might also like