You are on page 1of 24

• Medidas de Posición o de Tendencia Central.

• Medidas de Dispersión o Variación.


• Medidas de Forma (Asimetría y Apuntamiento).
INTRODUCCION
El conocimiento de las medidas de centralización ( de Posición o de Tendencia
central ) no es suficiente para caracterizar completamente a una distribución.
Para hacer una descripción más precisa de los conjuntos de datos y para hacer
comparaciones válidas, sin llegar a conclusiones engañosas, es importante tomar
en cuenta la variación de los datos alrededor de un valor central.
Las medidas de variabilidad o de dispersión cuantifican el grado de concentración o
de dispersión de los datos alrededor de un promedio, permiten comparar conjuntos de
datos y ayudan a verificar si determinadas medidas de tendencia central son o no
significativas.
Por ejemplo, cuando la dispersión es muy grande (heterogeneidad), la media
aritmética no tiene mucha significación; sin embargo, si la dispersión es baja
(homogeneidad) , la media adquiere significación.
La dispersión o variabilidad
0.3 60

50

0.2 40

30

0.1
20

10

0.0
0
0 10 20 30 40 0 4 8 12 16 20

 Dos distribuciones de datos con  Tres distribuciones de datos con diferentes


diferentes medidas de variabilidad pero medidas de variabilidad y de posición.
con la misma medida de posición.
II. MEDIDAS ESTADISTICAS de
DISPERSION o de VARIABILIDAD
Una de las características importantes en el análisis de los datos,
además de los promedios, es la DISPERSIÓN ó VARIABILIDAD.
La dispersión es la cantidad de variación, desperdigamiento o diseminación en
los datos en torno al promedio.
Las medidas de Dispersión más usadas son:
i. Rango R
ii. Rango intercuartil RIQ
iii. Varianza V(x), S2 ,  2
iv. Desviación estándar S, 
v. Coeficiente de variación CV, 
1.) Rango
Es la diferencia entre el valor máximo y el valor mínimo de las
observaciones.
R= XMAX – XMIN
Nos da una idea muy rápida de la dispersión de los datos, pero no
proporciona información acerca de los datos que no son extremos.
Ejemplo:
El rango de 1, 2, 3, 4, 5, 21 es: 21 – 1 = 20.
El rango de 47 54 57 60 63 65 67 es: 67 –47 = 20, igual que el del
caso anterior.
Estos dos ejemplos muestran que el rango NO informa acerca de la manera
como se distribuyen los datos. Por ello, el rango es de uso muy limitado.
2.) RANGO INTERCUARTIL
Es la diferencia entre el cuartil superior y el cuartil inferior:

RIQ = Q3 – Q1
Como se puede observar, este indicador informa acerca de la dispersión que
hay en el 50% central de la distribución; es decir, excluye el 25 % más alto y
el 25 % más bajo de un conjunto de datos.
A diferencia del rango, esta medida no se encuentra afectada por los valores
extremos (atípicos u outliers)
3.) VARIANZA
V(X) , S , 
2
2
Es una medida absoluta de variabilidad, más estable que el
rango, aunque sus unidades se expresan en unidades de la
variable, pero al cuadrado; lo que hace difícil su interpretación.
Es un promedio de las desviaciones cuadráticas de un
conjunto de observaciones de una variable respecto a su media
aritmética.
El valor de la varianza puede sufrir un cambio muy
desproporcionado , aun más que la media, por la existencia de
algunos valores extremos en el conjunto
Cálculo de la Varianza Poblacional:
Datos no Clasificados
σ𝑁 2 σ𝑁 2 2
2
(𝑥
𝑖=1 𝑖 − 𝜇) 𝑥
𝑖=1 𝑖 − 𝑁 𝜇
𝜎 = =
𝑁 𝑁

Datos Clasificados
Método General:

σ𝑁 2 2
2
𝑥
𝑖=1 𝑖 𝑖𝑓 − 𝑁 𝜇
𝜎 =
𝑁
Cálculo de la Varianza
Muestral:
Datos no Clasificados
n n

 ( x  x) x nx
2 2 2
i i
S2  i 1
 i 1
n 1 n 1
Datos Clasificados
Método General:

 xi2 fi  n x
2

S2  i 1
n 1
Propiedades y características de la
Varianza:
Cuando se realizan algunas transformaciones en las variables originales, estas también se reflejan
en las medidas de centralización y en las de variación.
Estas propiedades son muy útiles cuando se tiene que calcular el nuevo promedio y la nueva
varianza y no se tienen los datos originales o estos son demasiado numerosos.
En este caso tendremos las siguientes propiedades para la varianza de una variable:

• V(x)≥0
• V ( k ) = 0, si k es constante
• V ( k x ) =k2 V(x)
• V ( x ± k) = V (x)
• V ( x ± y ) = V (x) + V(y) si son variables independientes.
• No permite interpretación lineal por tener las unidades en
estudio con exponente cuadrático.
Ejemplo:
• Calcular la varianza de los siguientes valores numéricos:
5, 9, 11, 7

• Calcular la varianza para los siguientes gastos en publicidad de


diferentes empresas de servicios:

[ Gastos > xi fi
50 - 80 65 30
80 - 110 95 50
110 - 140 125 85
140 - 170 155 15
4. ) Desviación estándar: S , 

Como la varianza se expresa en unidades (de los datos) al cuadrado, se establece una
medida de variabilidad o dispersión que es mas fácil de interpretar, esta medida es la
DESVIACIÓN ESTANDAR o DESVIACIÓN TÍPICA, cuya interpretación es mas
sencilla, porque tiene las mismas unidades de las observaciones. Se
calcula a partir de la varianza:
S  Varianza

Mide la dispersión absoluta de los datos y acompañada de la media


aritmética proporciona una buena descripción de ellos.
Características de la Desviación
Estándar (Desviación Típica):
• Uso muy ventajoso en el análisis de los datos.
• Puede usarse como medida entorno a la media y decidir para
aquellos valores que están fuera de este intervalo como no
normales.
• Está basada en cada uno de los valores. Por eso permite una
mejor descripción de la dispersión.
• Mide la dispersión alrededor de la media y no entre valores.
• Cuando cada valor de la variable aumenta o disminuye en una
constante, la S no es afectada.
• Cuando cada valor de la variable se multiplica o divide por una
constante, la S queda multiplicada o dividida por la misma
constante.
5.) Coeficiente de Variación: c.v., 
Es una medida de la dispersión relativa ( % ) de los datos respecto a la media
aritmética, que significa en promedio la dispersión de la unidad de la variable.
Se expresa en porcentajes de números abstractos por eso es muy útil cuando se quiere
comparar el grado de dispersión (homogeneidad o variabilidad) en dos o más conjuntos de
datos que tienen un promedio diferente y/o tienen diferentes unidades de medida.
Mientras menor es el Coeficiente de Variación, menor es la dispersión de los datos (Mayor
homogeneidad).
Se calcula de la siguiente manera:

s
  (100 )
x
Si CV < 25%  Baja dispersión
Si CV > 50%  Alta dispersión
En otro caso  Dispersión moderada
III. MEDIDAS ESTADISTICAS de FORMA
1.) Medidas de Asimetría
• No todas las distribuciones son simétricas. Algunas de las distribuciones son sesgadas a la
izquierda o a la derecha.
• En el caso de existencia de valores extremos, la medida que se ve más afectada es la media
aritmética. No tanto así la Mediana ni la Moda.
• Como sabemos, la moda es el dato que más se repite y por lo tanto está en el pico de la
distribución. Hacia la cola se encuentran la mediana y la media.

 Los siguientes gráficos muestran tres distribuciones de datos, dos asimétricas y una simétrica
Distribución Asimétrica Positiva o a la Derecha Distribución Simétrica Distribución Asimétrica Negativa o a la Izquierda

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
COEFICIENTE de PEARSON:
__ __
3( x  M e ) ( x  Mo )
CA  ó CA 
S S
Donde:
__
• x : Media aritmética de los datos
• Me : Mediana
• Mo : Moda
• S : Desviación estándar.
Para determinar la simetría o asimetría de los datos tenemos la siguientes posibles valores de Ak :
Si CA > 0 los datos están segados a la derecha (asimetría positiva)
Si CA < 0 los datos están segados a la izquierda (asimetría negativa)
Si CA = 0 la distribución es simétrica
2.) Medidas de Apuntamiento
La Kurtosis, mide el grado de deformación vertical (apuntamiento) de la
distribución de los datos.

COEFICIENTE DE KURTOSIS:
Q 3  Q1
K 

2 C 90  C10 
Si K  0.263 La distribución es Mesokúrtica o Normal.

Si K  0.263 La distribución es P latikúrtica.

Si K  0.263 La distribución es Leptokúrtica.


Apuntamiento de una distribución

K > 0.263

K = 0.263

K < 0.263
Diagrama de cajas (Boxplot)
Es un importante gráfico del análisis exploratorio de datos. Permite tener una
idea visual de la distribución de datos respecto a lo siguiente:

 Valores extremos o atípicos (outliers: * , o)


 La tendencia central.
 La variabilidad.
 La asimetría de la distribución.

Estos gráficos son bastante útiles para comparar grupos.

19
Ejemplo: Un grupo de 47 personas fueron sometidas a un tratamiento para disminuir el
nivel de colesterol en la sangre. Se registró el nivel de colesterol de los 47 antes y después
de realizado el tratamiento.
Antes
146 160 182 186 186 190 200 200 202 210 214 216
218 218 220 220 220 226 234 234 236 236 238 240
242 244 244 248 248 258 266 270 270 272 276 276
278 278 282 288 288 294 294 350 385 401 420
Después
142 156 160 162 164 166 168 170 178 178 182 182
182 182 182 182 184 186 188 188 196 198 198 198
198 200 200 204 204 206 212 214 216 218 230 232
236 238 242 242 248 256 256 264 264 280 294

20
Diagrama de cajas (Boxplot)
A continuación se presentan diagramas de cajas para ambas mediciones:
Diagrama de cajas para el nivel de colesterol
450

400

350
Nivel de colesterol

300

250

200

150

Antes Después

21
Diagrama de cajas (Boxplot)
 La línea central de la caja corresponde a la Mediana. La línea inferior y superior de la
caja corresponde al primer y tercer Cuartil respectivamente.
 Para la observación de la Variabilidad se ve el alto de cada caja y se compara.
 Para la determinación de la Asimetría se observa si la línea de la Mediana está más
cerca a la línea superior entonces tiene asimetría negativa (a la izquierda). Si está más
cerca a la línea inferior la asimetría es positiva ( a la derecha)
 Para la determinación de los bigotes se debe calcular previamente las siguientes
cantidades:
CI = Q1 – 1.5 RIQ
CS = Q3 + 1.5 RIQ
o El bigote inferior se extiende hasta el dato más pequeño que sea mayor o igual a CI.
o El bigote superior se extiende hasta el dato más grande que sea menor o igual a CS.
22
Diagrama de cajas (Boxplot)

 Observaciones:
La primera caja (datos Antes) muestra 3 valores extremos, correspondientes a tres personas
con un nivel de colesterol inusualmente alto (en comparación con el resto de los
participantes). Analizando ambos gráficos queda claro que el nivel de colesterol promedio ha
disminuido debido al tratamiento, y que los resultados después del tratamiento son algo
menos variables que antes del tratamiento. En cuanto a la asimetría de la distribución, en
ambos casos se aprecia cierta asimetría positiva.

23

You might also like