You are on page 1of 27

Detectando Outliers

Univariados y Multivariados
Antecedentes Generales
 Los “Outliers” o valores atípicos son casos en los cuáles los
datos observados son muy diferentes del resto de los
datos mayoritarios de la muestra o del conjunto de datos
disponible.

 Estos valores deben ser identificados porque ellos podrían


cambiar sustancialmente los resultados de un análisis.

 Si se deben o no incliur los datos atípicos de un conjunto


de datos dependerá porqué el caso particular es
considerado atípico y del propósito del análisis.
Antecedentes Generales
 Los casos atípicos univariados, se producen cuando una
variable particular toma un valor inusual para un caso
específico. Es particularmente relevante detectar esto
cuando la variable en la que potencialmente ocurre el
problema será la variable dependiente de un análisis.

 Un caso de valor atípico multivariado es una combinación


inusual de valores para un número determinado de
variables. Un valor individual podría no ser atípico pero la
combinación con otras variables podría serlo, aunque este
es un caso que raramente ocurre. Es particularmente
relevante sin esto sucede dentro del conjunto de variables
independientes en el análisis que se realiza.
Antecedentes Generales
 Una forma de identificar valores atípicos univariados es
convertir los datos originales a un valor estandarizado.

 Por ejemplo si se tiene una muestra pequeña de 80 o menos


casos, se estimaría que son valores atípicos todos los que al
estandarizarse se alejen del centro unos ±2.5 puntos o más

 Si la muestra fuese más grande este intervalo sería ±3.0


puntos o más.

 La regla nemotécnica anterior aplica para los casos en que la


variable es definida como contínua o de intervalo. Para
variables ordinales podría aplicarse si ellas son tratadas como
métricas y no puede utiliarse para variables nominales.
La utilización de medidas de distancia
 La distancia de Mahalanobis D2 es una versión multivariada
del valor estandarizado Z. Este mide la distancia de un
caso al centro del centroide (media multivariada) de una
distribución, dada la covarianza (varianza multivariada) de
la distribución.

 Un caso se considera un valor atípico si la probabilidad


asociada a su distancia D2 es 0.001 o menor. D2 sigue una
distribución chi-cuadrada con grados de libertad iguales al
número de variables incluídas en el cálculo.

 La Distancia de Mahalanobis D2 requiere que las variables


sean métricas, sean contínuas, de intervalos u ordinales
que sean tratadas como métricas.
EJEMPLO
Utilizaremos el conjunto de datos individualizado como
GSS2000.sav, en este conjunto de datos evaluaremos sin
existen datos atípicos en el campo asociado a la educación
de los individuos (variable Educ).
 Paso 1: lea la base de datos y realice una análisis
descriptivo simple de dicha variable, incluyendo un
histograma. Luego realizaremos los siguientes análisis.
Paso 1: lea la base de datos y realice una análisis descriptivo

Para calcular los valores


estándarizados en SPSS,
seleccione el menú de
estadísticas descriptivas.
Paso 1: Usemos la opción de salvar los valores estandarizados
de la variable

Segundo, indique aca


que está liso(a) para la
realización del cálculo.

Primero, marque en este cuadro de


diálogo la opción para salvar los valores
estandarizados de la variable de interés.
La nueva variable indicará con la letra Z
que se trata de una variable normalizada,
asi que será “Zeduc”.
La variable contiene los
valores estandarizados, Los valores que
para ver mejor la sean inferiores a -
distribución la 3.0 podrían ser
ordenaremos de menor considerados datos
a mayor atípicos pues es
poco probable que
dada la distribución
normal aparezca
una gran cantidad
de estos valores.
Use en botón
derecho para
activar este menú.
Paso 2: Investigando la naturaleza de los datos
potencialmente atípicos

En el archivo que usaremos


alrededor de 16 casos,
podrían ser atípicos, sin
embargo debe investigarse
un poco más antes de
decidir que los casos son
atípicos.
Paso 2: Una antecedente interesante es comparar los
Resultados con su media.

Las estadísticas
descriptivas deberían
ayudarnos a evaluar la
naturaleza de estos datos
de baja frecuencia.

La media es de 13 años, cuando comparamos los


datos con mayor desviación hacia abajo debemos
notas que casos con 0 años de educación, 2, 3 ó
4 años lucen bastante inusuales en una
distribución cuyo promedio se centra an 13 años
de escolaridad.
Paso 2: Mirar la cola superior y aplicar la regla univariada

En este caso si miramos la


cola superior de la
distribución descubriremos
que no existen grandes
valores extremos hacia
arriba de la distribución.

En este caso, entonces sería conveniente eliminar los valores


atípicos encontrados en la cola inferior de la distribución.
Este grupo ha sido detectado comparando los valores
estandarizados de la variable y considerando la desviación de
los valores observados en relación a la media de los datos.
Datos Atípicos Multivariados

 Utilizando la misma base de datos GSS 2000.sav,


podríamos considerar la existencia de algunos datos atípicos
al combinar la edad (Age), educación (educ), número de
hermanos y hermanas (sibs).

 Para evaluar esto calcularemos la distancia de Mahalanobis


Cálculo de Distancia de Mahalanobis D2

Para calcular la distancia de


Mahalanobis D2 en SPSS,
seleccionamos la regresión
lineal en el menú del comando
Analyze.
Cálculo de Distancia de Mahalanobis D2

El procedimiento de regresión lineal


calcula la distancia de Mahalanobis D2
para el conjunto de las variables
independientes, que se incorporan en el
cuadro de dialogo respectivo.
Movemos entonces las variables: age,
sibs y educ al cuadro respectivo
Cálculo de Distancia de Mahalanobis D2

El SPSS no estimará la regresión hasta que


se especifique una variable dependiente,
aunque ella no sea utilizada para el proceso
de analisis de los datos atípicos multivariados.

Definimos arbitrariamente
una variable dependiente,
Use este botón para
esta debe ser una variable
incluir la variable
numérica que no tenga
dependiente en el análisis
casos desaparecidos, por
ejemplo número de hijos
(childs)
Cálculo de Distancia de Mahalanobis D2

En esta sección se solicita el cálculo


de las distancias de Mahalanobis D2
para el conjunto de datos, usando el
botón “save”.
Cálculo de Distancia de Mahalanobis D2

Luego marcamos
en ésta opción

Luego simplemente
continuamos
Cálculo de Distancia de Mahalanobis D2

Para entender porque un


caso particular es atípico
se requiere examinar las
estadísticas descriptivas de
caada variable, por eso
usamos esta opción
“descriptive statistics”
Cálculo de Distancia de Mahalanobis D2

Primero marcamos esta


opción

Finalmente sólo se
continúa para estimar.
Cálculo de la probabilidad de la Distancia de
Mahalanobis D2

La distancia de Mahalanobis D²
ha sido calculada como la
variable mah1.

Para evaluar los outliers


requerimos la probabilidad
asociada a estas distancias, no
la distancia en sí misma. Para
esto calcularemos la
probabilidad asociada a cada
distancia.
Cálculo de la probabilidad de la Distancia de
Mahalanobis D2

Para el cálculo de la
probabilidad de cada
distancia D², usaremos la
funciones de cálculo de la
función compute.

Seleccionar
Compute en menú
transfor
Cálculo de la probabilidad de la Distancia de
Mahalanobis D2

Definimos la variable objetivo que contendrá


la probabilidaad o Mahalanobis D² score.

La función
seleccionada
debe
aplicarse con
3 grados de
libertad que
es el número
de variables
susadas en la
regresión.
La función de probabilidad a usar
Second corresponderá a una Chi-
cuadrado.
Cálculo de la probabilidad de la Distancia de
Mahalanobis D2

SPSS usará el comando para


calcular las probabilidades
asociadas a cada distancia
D².
Para encontrar la menor
probabilidad se ordenaraán
los datos de menor a mayor.
Usando el botón izquierdo.

Para ordenar los datos de menor


a mayor usamos esta opción.
Cálculo de la probabilidad de la Distancia de
Mahalanobis D2

Nótese que para un


conjunto de datos no fue
posible realizar el calculo
pues tenemos algunos datos
perdidos

En nuestros datos encontraremos 4


valores con una probabilidad menor a
0.001.
Estos valores tienen una probabilidad de
ocurrencia muy inusual sobre las tres
variables en enálisis resultando prudente
calificarlos como outliers.
Cálculo de la probabilidad de la Distancia de
Mahalanobis D2

Debemos recordar que la cuestión


inicial es si existe un conjunto
combinado de casos para estas tres
variables que sea inuasualmente
extraña. La respuesta indica que 4
casos presentan distancias muy poco
probables, menores o iguales a 0.001
¿Son datos atípicos?
 Antes de decidir si los datos deberían ser omitidos o no,
se necesita entender bien que es un datos atípico en
este contexto.
 Debe compararse cada caso con la respectiva media y
desviación estandar de cada variable. En este caso
pareciera que los casos atípicos corresponde a típicos
casos medios, lo que hace poco prudente eliminarlos de
la muestra.
 Otro problema es cuando tenemos variables de tipo
nominal, en este caso es inapropiado utilizar un análisis
de distancia de mahalanobis. Esto incluso es complicado
cuando la variable categórica es tratada como si fuera
métrica. En este caso es mejor abtenerse.

You might also like