You are on page 1of 8

Estadstica descriptiva

Introduccin
En cualquier anlisis estadstico, la primera aproximacin a los datos se realiza mediante la obtencin
de los estadsticos descriptivos de las variables implicadas, as como distintos grficos.
Los estadsticos y los grficos usados dependen de la naturaleza de las variables que, de un modo
general, se pueden clasificar en cualitativas y cuantitativas.
Una de las personas que contribuyeron en gran medida a la difusin de la estadstica descriptiva fue la
enfermera inglesa Florence Nightingale (1820-1910), que durante la guerra de Crimea recogi de forma
sistemtica informacin sobre los pacientes, mejorando notablemente el sistema sanitario en
hospitales.
Florence Nightingale fue la precursora de la presentacin grfica de resultados.
Florence Nightingale

Frmulas bsicas
Descriptiva cualitativa

Los principales estadsticos descriptivos para variables cualitativas son: las frecuencias absolutas y las
frecuencias relativas. En cuanto a grficos, los ms usados son los de barras.
Frecuencias absolutas
Se calculan contando el nmero de veces que aparece cada uno de los valores de la variable.
Frecuencias relativas
Se calculan como el porcentaje de las frecuencias absolutas relativo al tamao muestral.
Tablas de contingencia
Cuando se est describiendo dos variables cualitativas conjuntamente, se utilizan las tablas de
contingencia, que son tablas formadas por celdas, en las que se recoge la frecuencia absoluta del
nmero de individuos para cada una de las posibles combinaciones de niveles de las dos variables. Estas
frecuencias absolutas se pueden relativizar respecto al total de cada nivel en cada variable (porcentaje
de filas y columnas) o respecto al total de individuos (porcentaje total).

Descriptiva cuantitativa

Los principales estadsticos descriptivos para una variable cuantitativa son: media aritmtica, mediana,
moda, media geomtrica, varianza, desviacin tpica, mnimo, mximo, amplitud, cuartiles, rango
intercuartlico, coeficiente de asimetra, coeficiente de asimetra estandarizado, coeficiente de
curtosis, coeficiente de curtosis estandarizado y coeficiente de variacin. En cuanto a grficos los ms
usados son los histogramas y los diagramas de caja.
Media aritmtica
La media aritmtica se calcula como la suma de los valores de las observaciones dividido por el tamao
muestral (n):
n

x=

x
i =1

donde xi indica el valor que toma la variable del estudio x para el individuo i. La media aritmtica es
sensible a los datos extremos (outliers), por eso a veces se utiliza la mediana. Normalmente se llama a
la media aritmtica simplemente media.
Mediana
La mediana (med) se calcula ordenando los datos de menor a mayor y tomando el valor del medio que es
el que deja un 50% de observaciones a su izquierda y un 50% a su derecha. En el caso de que el nmero
de observaciones sea par, la mediana se calcula como la semisuma de los dos valores centrales. Para
distribuciones simtricas la mediana coincide con la media.
Moda
Es el valor que ms se repite. Tiene sentido en variables con pocos niveles.
Media geomtrica
La media geomtrica (mg) se calcula como la raz ensima del producto de los valores de las
observaciones, es decir:
3

n
n
mg = n x i = x i
i =1
i=1
n

La media geomtrica coincide con la exponencial de la media aritmtica de los logaritmos neperianos de
las observaciones. Se usa cuando los datos presentan asimetra positiva (valores elevados alejados de la
mediana), que suele desaparecer al tomar logaritmos neperianos. No se puede usar la mg si hay valores
negativos y siempre es menor que la media aritmtica.
Varianza
La varianza proporciona un valor de dispersin (inercia) de la variable alrededor de su media (centro de
gravedad). Se calcula como la media del cuadrado de las desviaciones de las observaciones a la media.
Se elevan al cuadrado las desviaciones alrededor de la media para que no se compensen las diferencias
negativas y positivas, ya que de no hacerlo se demuestra que la media de las desviaciones de las
observaciones a la media es de cero. Si se pretende usar con propsitos de estimacin de la varianza
poblacional, conviene usar n - 1 en vez de n a la hora de calcular la media del cuadrado de las
desviaciones, con lo que la expresin para la varianza muestral es:

s =
2

1 n
xi x
n 1 i =1

Desviacin tpica
La desviacin tpica o desviacin estndar se calcula como la raz cuadrada positiva de la varianza:

s = + s2 = +

1 n
xi x
n 1 i=1

A diferencia de la varianza se expresa en las mismas unidades en que venga dada la variable.
Mnimo, mximo, amplitud
El mnimo es el menor valor observado, el mximo es el mayor valor observado y la amplitud (a veces
llamada rango) es la diferencia entre el mximo y el mnimo. El mnimo y el mximo son tiles para
detectar valores no plausibles. La amplitud puede considerarse como medida de dispersin, pero tiene
el inconveniente de que slo tiene en cuenta dos observaciones de la muestra y que depende del tamao
muestral en el sentido de que nuevas observaciones no pueden disminuir la amplitud, slo aumentarla.
Cuartiles y rango intercuartlico
Existen tres cuartiles: cuartil inferior, cuartil medio y cuartil superior. El cuartil inferior se calcula
ordenando los datos de menor a mayor y tomando el valor que deja un 25% de observaciones a su
izquierda y un 75% a su derecha. El cuartil medio es la mediana. El cuartil superior es aquel valor, que
en los datos ordenados, deja un 75% a su izquierda y un 25% a su derecha. El rango intercuartlico se
calcula como la diferencia entre el cuartil superior e inferior, y se puede considerar, por tanto, como
una medida de dispersin.
Coeficiente de asimetra
El coeficiente de asimetra da una medida del grado de asimetra de la distribucin de datos en torno a
su media. Se calcula como:

(x
( n 1)(n 2) s
n

i =1

El coeficiente de asimetra no tiene unidades, es adimensional. Si el coeficiente de asimetra es


negativo indica que la distribucin tiende a tener los valores extremos a la izquierda de la media, si es
positivo la distribucin tiende a tener los valores extremos a la derecha. Si es nulo, la distribucin es
simtrica en torno a su media.
4

Coeficiente de asimetra estandarizado


El coeficiente de asimetra estandarizado se calcula como:

asimetra
6
n
Este estadstico se puede usar para contrastar si nuestros datos son simtricos. Se basa en el hecho
de que el coeficiente de asimetra se distribuye segn una normal de media cero y varianza (6/n), si n >
50. Por tanto, valores absolutos del coeficiente de asimetra estandarizado 1.96 son poco frecuentes
y llevan a rechazar que asimetra =0. Valores del coeficiente de asimetra estandarizado < 1.96 llevan a
aceptar (no rechazar) la simetra. Si se detecta asimetra conviene hacer una transformacin en los
datos.
Si hay asimetra a la derecha (asimetra positiva) conviene utilizar las transformaciones f(x) = x, f(x)
= Ln(x) f(x) = 1/x que corresponden a transformaciones que expanden los valores bajos y comprimen
los altos. Si la asimetra a la derecha no es muy elevada, la raz cuadrada puede que sea suficiente. En el
caso de que s lo sea, puede ser necesario la transformacin neperiano Ln(x) o incluso la inversa (1/x).
Si hay asimetra a la izquierda (asimetra negativa) conviene utilizar la transformacin f(x) = x2 que
comprime los valores pequeos y expande los valores grandes.
Coeficiente de curtosis
El coeficiente de curtosis (apuntamiento) mide si la distribucin de los datos tiene un nmero de
valores extremos menores que la normal (curtosis > 0 , leptocrtica), mayores que la normal (curtosis <
0, platicrtica) o igual a la normal (curtosis = 0, mesocrtica). Se calcula como:

n (n + 1)
1
(n 1)(n 2)(n 3) s 4

(x
n

i =1

(n 1)(n 1)
(n 2)(n 3)

Coeficiente de curtosis estandarizado


El coeficiente de curtosis estandarizado se calcula como:

curtosis
24
n

Este estadstico se puede usar para contrastar si nuestros datos son mesocrticos. Se basa en el hecho
de que el coeficiente de apuntamiento se distribuye segn una normal de media cero y varianza (24/n),
si n > 200. Por tanto, valores absolutos del coeficiente de curtosis estandarizado 1.96 son poco
frecuentes y llevan a rechazar que curtosis =0. Valores del coeficiente de curtosis estandarizado < 1.96
llevan a aceptar (no rechazar) que los datos son mesocrticos.
Coeficiente de variacin
El coeficiente de variacin se calcula como:

s
x

Es por tanto una medida de dispersin relativa y se suele expresar en tanto por ciento.
Histograma
En un histograma se puede ver claramente cul es la distribucin de los datos. Normalmente, para el
nmero de clases del histograma se toma la raz cuadrada del nmero de casos.

Diagrama de caja
El diagrama de caja es til para visualizar los estadsticos de amplitud, mediana, cuartiles y valores
extremos. El diagrama de caja consta de una caja determinada por el primer y tercer cuartil, y por unos
segmentos de longitud 1.5 veces el rango intercuartlico. Los valores superiores a 3 veces el rango
intercuartlico se consideran valores extremos. Dentro de la caja se representa mediante una lnea la
mediana
(segundo
cuartil)
y
mediante
un
rombo
la
media.

Ejemplo
Se supone que se tienen los siguientes datos experimentales, correspondientes a 40 individuos de los
que se ha recogido informacin de una variable Var1:
96
86
62
68

78
80
88
72

76
92
76
68

62
72
80
68

80
72
66
70

66
82
74
68

88
84
66
74

90
96
86
70

76
78
68
70

90
66
64
70

Calcular para dicha variable los siguientes estadsticos descriptivos: media aritmtica, mediana, moda,
media geomtrica, varianza, desviacin tpica, mnimo, mximo, amplitud, cuartiles, rango intercuartlico,
coeficiente de asimetra, coeficiente de asimetra estandarizado, coeficiente de curtosis, coeficiente
de curtosis estandarizado y coeficiente de variacin.

Descriptiva cuantitativa
Media aritmtica
La media aritmtica se calcula como la suma de los valores de las observaciones dividido por el tamao
muestral n:
n

x=

x
i =1

3038
= 75.95
40

donde xi indica el valor que toma la variable del estudio (se representa con x a la variable Var1) para el
individuo i.
Mediana
En este caso, como n = 40 es par, la mediana es:

med =

74 + 74
= 74
2

Moda
Es el valor que ms se repite. En este caso 68.
Media geomtrica
La media geomtrica (mg) se calcula como la raz ensima del producto de los valores de las
observaciones, es decir:
1

mg = n

n
x i = x i = 1.234 10 75
i =1
i =1
n

1
40

= 75.3846

Varianza
La expresin para la varianza muestral es:

s2 =

n 1

(x
n

i =1

x = 90.9718

Desviacin tpica
La desviacin tpica o desviacin estndar se calcula como la raz cuadrada positiva de la varianza:
7

1 n
xi x
n 1 i =1

s = + s2 = +

= 9.5379

Mnimo, mximo, amplitud


Para los datos del ejemplo: el mnimo es 62, el mximo es 96 y la amplitud 34.
Cuartiles y rango intercuartlico
Para los datos del ejemplo el cuartil inferior es 68, el cuartil medio es 74, el cuartil superior es 83 el
rango intercuartlico es 15.
Coeficiente de asimetra
El coeficiente de asimetra da una medida del grado de asimetra de la distribucin de datos en torno a
su media. Se calcula como:

(x
(n 1)(n 2 ) s
n

i =1

= 0.5493

Coeficiente de asimetra estandarizado


El coeficiente de asimetra estandarizado se calcula como:

asimetra
6
n

0.5493
6
40

= 1.4184

Coeficiente de curtosis
El coeficiente de curtosis se calcula como:

n (n + 1)
1
(n 1)(n 2)(n 3) s 4

(x
n

i =1

(n 1)(n 1)
= 0.7245
(n 2)(n 3)

Coeficiente de curtosis estandarizado


El coeficiente de curtosis estandarizado se calcula como:

curtosis
24
n

0.7245
24
40

= 0.9353

Coeficiente de variacin
El coeficiente de variacin se calcula como:

s
x

= 0.125581

Para los datos del ejemplo, el coeficiente de variacin es del 12.5581%.

You might also like