You are on page 1of 27

MEDIDAS DE FORMA Y DETECCIÓN

DE VALORES ATIPICOS

UMNG
MEDIDAS DE FORMA

En los dos temas anteriores hemos visto las medidas de


tendencia central y las medidas de variabilidad.
Si bien la obtención de tales medidas es clave para describir una
muestra y efectuar inferencias sobre la población de origen, es
también fundamental saber obtener una caracterización
adecuada de los datos.

Son aquellos números resúmenes, que indican la morfología de la


distribución de los datos, es decir de la simetría y apuntamiento
que tiene el histograma de la variable en estudio. Sólo se pueden
calcular en variables medidas en escala de intervalos y de razón.
La medidas de forma son:

El SESGO (COEFICIENTE DE ASIMETRIA)

CURTOSIS
ASIMETRIA (O SESGO)

Si bien es fácil tener una idea de si la distribución es simétrica o no tras


ver la representación gráfica (p.e., un histograma o un diagrama de caja y
bigotes), es importante cuantificar la posible asimetría de una
distribución.

Recordemos que cuando la distribución de los datos es simétrica, la media,


la mediana y la moda coinciden. (Y la distribución tiene la misma forma a la
izquierda y la derecha del centro)

Si bien muchas distribuciones se asume que tienden a ser simétricas y


unimodales, en muchos casos la distribución que encontramos es asimétrica
(v.g., las distribuciones de los Tiempos de Reacción en casi cualquier tarea
es asimétrica positivo).
TIPOS DE DISTRIBUCIONES MAS COMUNES

DISTRIBUCIÓN SIMÉTRICA
TIPOS DE DISTRIBUCIONES MAS COMUNES

DISTRIBUCIÓN SIMÉTRICA
TIPOS DE DISTRIBUCIONES MAS COMUNES

DISTRIBUCIÓN ASIMÉTRICA
TIPOS DE DISTRIBUCIONES MAS COMUNES

DISTRIBUCIÓN ASIMÉTRICA
RELACIÓN ENTRE LA MEDIA, LA MEDIANA Y LA MODA

Media = Mediana = Moda

Cuando una distribución de frecuencia

es simétrica, la media, mediana y moda

coinciden en su valor ( X = Me = Mo).


RELACIÓN ENTRE LA MEDIA, LA MEDIANA Y LA MODA

Media < Mediana < Moda

En una distribución sesgada a


la izquierda, la media es
menor a la mediana, y esta a
su vez menor que la moda.
RELACIÓN ENTRE LA MEDIA, LA MEDIANA Y LA MODA

Moda < Mediana < Media

En una distribución sesgada a


la derecha, la moda es menor
a la mediana, y esta a su vez
menor que la media.
RELACIÓN ENTRE LA MEDIA, LA MEDIANA Y LA MODA
COEFICIENTE DE ASIMETRIA

1. Índice de asimetría de Pearson

Muy sencillo de calcular. Está basado en la relación entre la media y la


moda en distribuciones simétricas y asimétricas (ver transparencia
anterior):

X Mo
As
sx

Si la distribución es simétrica As será 0


Si la distribución es asimétrica positiva, As será mayor que 0
Si la distribución es asimétrica negativa, As será menor que 0
COEFICIENTE DE ASIMETRIA

2. Índice de asimetría de Fisher


Está basado en la diferencia de los datos sobre la media, como la varianza, si
bien esta vez se elevan los coeficientes al cubo
n
(Xi X )3 n
i 1
As
sx3

Si la distribución es simétrica As será 0


Si la distribución es asimétrica positiva, As será mayor que 0
Si la distribución es asimétrica negativa, As será menor que 0

Desventaja: Muy influida por puntuaciones atípicas.


COEFICIENTE DE ASIMETRIA
COEFICIENTE DE CURTOSIS O APUNTAMIENTO

Indica que tan apuntada o achatada se encuentra una distribución respecto


a un comportamiento normal (distribución normal).

 Si los datos están muy


concentrado hacia la media, la
distribución es leptocúrtica
(curtosis mayor a 0).

 Si los datos están muy dispersos,


la distribución es platicúrtica
(curtosis menor a 0).

 El comportamiento normal exige


que la curtosis sea igual a 0
(distribución mesocúrtica).
COEFICIENTE DE CURTOSIS O APUNTAMIENTO

Observación
La Curtosis es independiente de la variabilidad (en el sentido de “varianza”).

Es decir, no es que una distribución leptocúrtica tenga menos varianza y por


eso es más apuntada.

Una distribución leptocúrtica es muy apuntada en el centro (más que la


normal), decae muy rápidamente en un primer momento, pero en los
extremos es algo más alta que la distribución normal.

Eso quiere decir que una distribución leptocúrtica es más probable que
ofrezca más valores extremos que la distribución normal.
COEFICIENTE DE CURTOSIS O APUNTAMIENTO

Para una distribución normal (mesocúrtica) sabemos que


n
(Xi X )4 n
i 1
4
3
s x

Y esta va a ser la referencia para el índice de curtosis que vamos a


emplear
n
(Xi X )4 n
i 1
C r 3
sx4

Si la distribución es normal (mesocúrtica), el índice vale 0


Si la distribución es leptocúrtica, el índice es superior a 0
Si la distribución es platicúrtica, el índice es inferior a 0
VALORES ATIPICOS

¿Qué son los outliers?

Valores extremos, atípicos o anómalos (outliers): son observaciones que se


alejan del conjunto de datos.
Una regla para determinar si un dato es outliers es:
Si un dato es < Q1 – 1.5(Q3-Q1)
Si un dato es > Q3 + 1.5(Q3-Q1)

Los valores extremos por lo general son atribuibles a una de


las siguientes causas:

La observación se registra incorrectamente.


La observación proviene de una población distinta.
La observación es correcta pero representa un suceso poco común (fortuito).
VALORES ATIPICOS

Ejemplo

Analizar si los siguientes datos poseen valores atípicos. Se trata de las edades
de un grupo de empleados de una empresa:

45 41 51 46 47 42 43 50 39 32 41 44 47 49 45 42 41 40 45 37

Ordenamos la muestra:

32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49 50 51

Calcular los cuartiles: Q1=P25=41, Q2=P50=43.5 y Q3=P75=46.5

Rango entre cuartiles: Q3-Q1=46.5-41=5.5

límite inferior: 41-1.5x5.5= 32.75

Límite superior: 46.5+1.5x5.5= 54.75


Por lo tanto queda una observación fuera del límite inferior: 32
(la décima observación de la base de datos original).
DIAGRAMAS DE BOX PLOT

Un diagrama de caja, también conocido como diagrama de caja y bigotes, es


un gráfico que está basado en cuartiles y mediante el cual se visualiza la
distribución de un conjunto de datos.

Está compuesto por un rectángulo (la «caja») y dos brazos (los «bigotes»).

Es un gráfico que suministra información sobre los valores mínimo y máximo,


los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores
atípicos y la simetría de la distribución.

Primero es necesario encontrar la mediana para luego encontrar los 2


cuartiles restantes

El diagrama de cajas de construye de la siguiente forma:


Dibujar la caja que empieza en el primer cuartil y termina en el tercer
cuartil.
Dibujar la mediana con una línea dentro de la caja.
Por último, se extienden las líneas (bigotes) saliendo de la caja hasta el
mínimo y el máximo (salvo en la presencia de outliers).
DIAGRAMAS DE BOX PLOT
DIAGRAMAS DE BOX PLOT

Pa el ejemplo de las edades


DIAGRAMAS DE BOX PLOT

Pa el ejemplo de las edades

En la presencia de valores atipicos , los


bigotes se extienden hasta el valor
observado anterior al valor extremo.

La distancia entre la mediana y los


cuartiles es aproximadamente la
misma, lo que nos hace pensar que la
distribución de los datos es más o
menos simétrica.
DIAGRAMAS DE BOX PLOT

Utilidad

Proporcionan una visión general de la simetría de la distribución de los datos;


si la mediana no está en el centro del rectángulo, la distribución no es
simétrica.

Son útiles para ver la presencia de valores atípicos también llamados outliers.

Pertenece a las herramientas de las estadística descriptiva. Permite ver


como es la dispersión de los puntos con la mediana, los percentiles 25 y 75 y
los valores máximos y mínimos.

Ponen en una sola dimensión los datos de un histograma, facilitando así el


análisis de la información al detectar que el 50% de la población está en los
límites de la caja.
DIAGRAMAS DE BOX PLOT
DIAGRAMAS DE BOX PLOT

Página 35.

Estadística para ingenieros y científicos de Navidi.


12/ 09 / 2018
Cc/ps

You might also like