You are on page 1of 15

Tema 1 ESTADSTICA DESCRIPTIVA

1.1.

Introduccin

La estadstica descriptiva surge de la necesidad de extraer y resumir la informacin contenida en un serie de datos observados (ms o menos numeroso), ya que es complicado comprender esta informacin por la mera observacin del listado de dichos datos. Antes de iniciar cualquier estudio es necesario establecer los conceptos estadsticos que denen su mbito de aplicacin. Denicin 1.1. Llamaremos poblacin a un conjunto delimitado y bien denido de elementos que pueden ser descritos mediante una serie de caractersticas (caracteres), a las que se reere la investigacin. Denicin 1.2. Llamaremos muestra a cualquier subconjunto de la poblacin. Al nmero de individuos de la muestra le llamaremos tamao de la muestra En estadstica la seleccin de las muestras se hace de manera aleatoria, y el objetivo ltimo no es conocer la informacin de la muestra en s, sino inferirlas caractersticas de la poblacin a partir de las caractersticas de la muestra. Una vez establecido el marco de estudio analizaremos lo que se va estudiar, es decir, que carcter de esta poblacin vamos a analizar. Estos caracteres, que denominaremos variables, pueden presentar en cada individuo de la poblacin un valor, modalidad o categora distinta. Las variables pueden ser Variables cualitativas cuando no son medibles; es decir, que no toman valores numricos, como el sexo, la profesin, los gustos, etc. Variables cuantitativas cuando son medibles y, por tanto, toman valores numricos (la altura, la velocidad, etc.).

C. del Castillo, J. Garca, F. D. Lpez y J. C. Rojano: 1. Estadstica descriptiva

Estas ltimas variables pueden ser: Discretas si solo pueden tomar un nmero nito o numerable de valores; es decir, toman valores enteros. Continuas si puede tomar cualquier valor dentro de un intervalo; esto es, pueden tomar cualquier valor real. Atendiendo a nmero de caracteres observados, las variables pueden unidimensionales si se estudia un solo carcter y multivariantes si se observa dos o ms caracteres. Vamos a establecer una ltima consideracin, nos referiremos a variables estadsticas, cuando estemos estudiando un conjunto observado de datos de una variable, y nos referiremos a variables aleatorias cuando analicemos, antes de observarla, atendiendo a la probabilidad con que se pueden dar los distintos resultados.

1.2.

Tablas de frecuencias

La primera opcin que se plantea para el anlisis de variables estadstica es expresar los datos resumidos en tablas, esta opcin se puede usar para cualquier tipo de variable (cualitativa o cuantitativa) con las consideraciones especiales para cada caso. Veamos ejemplos sencillos y cotidiano de cada caso. Ejemplo 1.1. Supongamos que a un grupo de 50 estudiantes de bachillerato se le ha preguntado sobre la carrera que pensaba cursar, los datos pueden resumirse en la tabla 1.1, donde aparecen agrupadas por ramas.
TABLA 1.1. Ejemplo de variable cualitativa

Tipo de carrera CIENCIAS HUMANIDADES SOCIALES INGENIERAS SANITARIAS

Nmero de estudiantes 4 8 19 10 9

Ejemplo 1.2. Veamos ahora una variable discreta, pensemos en una muestra de 30 familias y observemos el nmero de hijos. Los resultados podran ser los de la tabla 1.2. Ejemplo 1.3. Por ltimo, veamos como podemos hacer una tabla para una variable continua, en este caso es necesario agrupar en intervalos los posibles valores observados, como en la

C. del Castillo, J. Garca, F. D. Lpez y J. C. Rojano: 1.2. Tablas de frecuencias TABLA 1.2. Ejemplo de variable discreta

Nmero de hijos 0 1 2 3 4

Nmero de familias 8 6 11 4 1

tabla 1.3, que se reere a las alturas de una muestra de 100 alumnos seleccionada entre una poblacin de alumnos varones, los datos son los siguientes:
177, 042 151, 755 168, 663 166, 788 158, 603 176, 412 163, 045 169, 862 168, 339 184, 021 167, 285 161, 567 178, 042 175, 079 181, 774 179, 712 162, 435 166, 221 186, 362 175, 817 170, 019 168, 649 153, 000 176, 313 180, 275 161, 584 161, 731 182, 427 168, 132 176, 904 174, 536 179, 728 195, 171 189, 114 182, 405 168, 758 189, 160 162, 515 168, 080 157, 891 159, 961 181, 671 170, 173 173, 962 176, 425 162, 731 169, 896 169, 617 171, 918 186, 622 161, 697 182, 763 179, 279 173, 480 151, 518 197, 264 169, 578 163, 052 164, 989 178, 536 150, 996 185, 181 172, 468 172, 257 157, 537 171, 890 167, 781 168, 120 169, 523 170, 403 170, 759 172, 950 177, 995 176, 270 170, 566 187, 025 170, 910 176, 530 181, 017 178, 630 175, 196 156, 032 153, 983 175, 192 172, 800 178, 962 159, 701 175, 718 161, 118 150, 763 173, 718 180, 092 160, 623 167, 518 163, 313 165, 766 163, 836 165, 571 176, 079 157, 214

TABLA 1.3. Ejemplo de variable continua

Altura en cm 150-160 160-170 170-180 180-190 190-200

Nmero de alumnos 13 33 37 15 2

Vamos a formalizar esta idea en el caso cuantitativo,1 para ello es necesario recurrir a una notacin matemtica y denir una serie de conceptos. De manera general, usaremos las letras maysculas (X , Y o Z ) para referirnos a una variable estadstica. X puede ser la estatura de los alumnos, el nmero de hijos, piezas defectuosas, etc. Con letras minsculas indicaremos el valor de las observaciones: xi , yi o zi .
1 Algunos

de los conceptos pueden ser utilizados para variables cualitativas pero, obviamente, no todos

C. del Castillo, J. Garca, F. D. Lpez y J. C. Rojano: 1. Estadstica descriptiva

Hemos visto como en el caso continuo, los datos se agrupan en intervalos,2 estos intervalos se denominan clases. Denicin 1.3. Deniremos la marca de clase como el punto medio de la clase. En este caso, la marca de clase toma la notacin xi . Supongamos que queremos estudiar la variable X en una cierta poblacin, entonces tomaremos una muestra de tamao n, cuyas modalidades (valores) o marcas de clase son x1 , x2 , . . . , xk Denicin 1.4. Llamaremos frecuencia absoluta de cada modalidad o clase al nmero de individuos u observaciones de dicha modalidad o clase, la denotaremos por ni . Denicin 1.5. Llamaremos frecuencia absoluta acumulada de cada modalidad o clase al nmero de individuos u observaciones menores o iguales a dicha modalidad o clase, la denotaremos por Ni . Denicin 1.6. Llamaremos frecuencia relativa de una modalidad o clase al cociente entre la frecuencia absoluta y el tamao de la muestra, la denotaremos por fi . Denicin 1.7. Llamaremos frecuencia relativa acumulada de cada modalidad o clase al cociente entre la frecuencia absoluta acumulada y el tamao de la muestra, la denotaremos por Fi . Se verica que
k i=1 k

ni = n

i=1

fi = 1.

Con todo esto, una tabla de frecuencias quedara como la tabla 1.4.
TABLA 1.4. Tabla de frecuencias

Intervalos* I1 I2 . . . Ik
* Solo

Marca de clase o modalidad x1 x2 . . . xk

frecuencia absoluta n1 n2 . . . nk

frecuencia relativa f1 f2 . . . fk

frecuencia abs. ac. N1 N2 . . . Nk

frecuencia rel. ac. F1 F2 . . . Fk

en el caso continuo o en el caso discreto cuando sea necesario agrupar valores

2 Tambin

se utiliza en el caso discreto cuando toma muchos valores y disponemos de muchas observaciones

C. del Castillo, J. Garca, F. D. Lpez y J. C. Rojano: 1.3. Representaciones grcas

1.3.
1.3.1.

Representaciones grcas
Grcas para variables cualitativas

HUMANIDADES

SOCIALES CIENCIAS

SANITARIAS

INGENIERAS

F IG . 1.1. Ejemplo de grco de sectores

En el caso de que la variable observada sea cualitativa, podemos decidirnos entre dos tipos de grcos: el grco de sectores y el diagrama de barra.3 Grco de sectores Se obtiene dividiendo la supercie de un crculo en sectores circulares de forma que sus ngulos (y, por lo tanto, sus reas) sean proporcionales a las frecuencias absolutas de cada modalidad. Para el ejemplo 1.1, se obtendra el grco de la g. 1.1. Diagramas de barras Se dibujan unos ejes de coordenadas y sobre el eje de abscisas (horizontal) se indican las distintas modalidades separadas unas de otras, sobre ellas se dibuja una columna de altura proporcional a las frecuencias (g. 1.2). Se puede ordenar las categoras de mayor a menor frecuencia y representar las frecuencias relativas acumuladas, mediante una lnea, junto a la barras correspondiente a las frecuencias relativas, con esto se puede observar la importancia de las categoras de mayor frecuencia frente a las de menor frecuencia; en concreto, mientras ms rpidamente la lnea se aproxime a uno, mayor importancia relativa tendr las modalidades de mayor frecuencia. A este tipo de grcas se le denomina diagrama de Pareto (g. 1.3).
3 Tambin

se puede utilizar con variables cuantitativas discretas con datos no agrupados en intervalos.

C. del Castillo, J. Garca, F. D. Lpez y J. C. Rojano: 1. Estadstica descriptiva

15

10

CIENCIAS HUMANIDADES SOCIALES INGENIERAS SANITARIAS

F IG . 1.2. Ejemplo de diagramas de barras


1.0

0.8

0.6

0.4

0.2

ES

ES

R AS

AS

AD

AL

AR I

SO

IT

ID

IN GE

SA N

F IG . 1.3. Ejemplo de diagrama de Pareto

1.3.2.

Grcas para variables cuantitativas

Cuando se trate de una variable discreta con datos no agrupados en intervalos, el grco que utilizaremos ser el diagrama de barras; no el de Pareto, pues el orden est determinado por los valores de la variable.

Histograma Es la representacin grca ms usada para datos agrupados y variables continuas. Est formado por un conjunto de rectngulos, cuyas reas es proporcional a la frecuencia de la clase. Cada rectngulo se dibuja sobre el intervalo o clase de agrupacin, de forma que la longitud de la base de cada rectngulo coincide con la amplitud del intervalo (la diferencia entre los extremos del intervalo). Debemos distinguir, por tanto, entre un histograma cuando todos los intervalos o clases tiene la misma amplitud y cuando los intervalos tienen distinta amplitud. En el primer caso la altura de los rectngulos coinciden con la frecuencia (vase la g. 1.4).

HU

AN

CI

EN

CI

IE

CI

AS

C. del Castillo, J. Garca, F. D. Lpez y J. C. Rojano: 1.3. Representaciones grcas

Para el segundo caso (vase la g. 1.5) hay que calcular las alturas mediante el cociente entre la frecuencia y la amplitud del intervalo ai . Es decir, para el histograma de frecuencias absolutas, si denotamos por hi a la altura y ai la amplitud, hi = y anlogo para el de frecuencias relativas. Obsrvese que los histogramas vienen determinado por el rea de los rectngulos y no por la altura, como pasa en el diagrama de barras, lo que hay que tener en cuenta especialmente cuando la amplitud de los intervalos vara de uno a otro (aunque no es lo general). Ejemplo 1.4. El histograma 1.4, se ha obtenido de la tabla de frecuencia absolutas dada en el ejemplo 1.3, con la misma amplitud para todos los intervalos. Lo importante es el rea de los rectngulos. Obsrvese que en este caso el rea total es 100 10 = 1 000, esto es, el tamao de la muestra por la amplitud de los intervalos. Podemos utilizar tambin las alturas, y en este caso el rea total es 100, como ocurre en la gura 1.5.
40

ni ; ai

30

20

10

160

170

180

190

200

F IG . 1.4. Ejemplo de histograma con intervalos de igual amplitud

Si, por ejemplo, agrupamos los dos ltimos intervalos en uno solo de amplitud 20, tendramos que calcular las alturas y representar el histograma a partir de estas. Se tendra la siguiente tabla y el histograma sera el de la gura 1.5. Ntese que, ahora, el rea total es 100, el tamao de muestra, pues al utilizar las alturas en lugar de las frecuencias se ha cambiado la escala y consideramos que una unidad equivale a la amplitud del intervalo ms pequeo, 10, pero se mantiene la proporcionalidad de las reas de los rectngulos. En este caso es mejor usar las frecuencias relativas y el rea total sera 1. Uniendo los puntos medios de los lados superiores de los rectngulos se obtiene el polgono de frecuencias. Estos grcos se pueden realizar para las frecuencias acumuladas.

C. del Castillo, J. Garca, F. D. Lpez y J. C. Rojano: 1. Estadstica descriptiva TABLA 1.5. Tabla de frecuencias y alturas

Clases 150-160 160-170 170-180 180-200


4

ni 13 33 37 17

ai 10 10 10 20

hi 1,3 3,3 3,7 0,85

160

170

180

190

200

F IG . 1.5. Ejemplo de histograma con intervalos de distinta amplitud

En ocasiones, en lugar de rectngulos se utilizan dibujos relacionados con el tipo de datos que usamos; por ejemplo, si hablamos de la produccin de trigo de un pas se dibuja una espiga u otra imagen, que tenga que ver con el tema, de tamao proporcional a la produccin. Estos grcos se llaman pictogramas.

1.4.

Medidas estadsticas

Las grcas nos dan una primera aproximacin a la informacin que contiene las observaciones. El siguiente paso es intentar resumir la informacin con determinados valores numricos que podamos interpretar fcilmente y adems, caracterizan a la distribucin de los datos. Referidas a la poblacin, estas medidas reciben el nombre de parmetros y son jos para cada poblacin, aunque en la mayora de los casos nos resulte imposible calcularlos; mientras que si se calculan con los datos de la muestras se denominan estadsticos, y dependen de cada muestra obtenido; es decir, que son variables y aleatorios, ya que las muestras son aleatorias.4 Las deniciones que damos a continuacin se reeren a la muestra; es decir, que son estadsticos. Si bien, en esta parte de la asignatura no es necesario hacer hincapi en este hecho, lo
realidad, estadstico es cualquier funcin de una muestra y es un concepto ms amplio, que se terminar de comprender en el tema de inferencia estadstica.
4 En

C. del Castillo, J. Garca, F. D. Lpez y J. C. Rojano: 1.4. Medidas estadsticas

importante es aprender a calcularlos e interpretarlos. Podemos agrupar estas medidas estadsticas en tres grupos, dependiendo del tipo de informacin que aportan: medidas de posicin, medidas de dispersin y medidas de forma.

1.4.1.

Medidas de posicin

Estas medidas nos dan informacin sobre la localizacin o posicin de los datos. Obviamente si queremos localizar los datos, debemos buscar valores centrados, esto corresponde a medidas de tendencia central; pero tambin es posible dar valores que den informacin sobre cualquier otra posicin (no necesariamente el centro), esto corresponde a los percentiles. Medidas de tendencia central Media aritmtica Es la medida central por excelencia, representara el centro de gravedad de las observaciones. Denicin 1.8. Se denomina media aritmtica a la suma de todas las observaciones dividida entre el tamao de la muestra. Se representa por x . Su expresin matemtica es x = x1 + x2 + + xn 1 n = xi . n n i=1

Si los datos estn agrupados en una tabla de frecuencias, la frmula se reduce a x =


k 1 k x n = i i xi fi. n i =1 i=1

Referida a toda la poblacin, la media se suele denotar por . El principal problema de la media es que es muy sensible a observaciones anmalas, es decir, observaciones aisladas que se alejan bastante del resto, por ser o muy altas o muy bajas. En este caso es mejor decidirse por otras medidas. Cuando se trabaja con la media aritmtica, se asume que todas las observaciones tienen la misma importancia. Sin embargo, en ciertos casos, puede querer darse mayor peso o importancia a algunas de las observaciones, en este caso se puede aplicar la media ponderada. Damos unos pesos w1 , w2 , . . . , wn a cada una de las observaciones, entonces la media ponderada se calcula como x1 w1 + x2 w2 + + xn wn x w = . w1 + w2 + . . . + wn Por lo general, procuraremos que la suma de los pesos sea 1.

10

C. del Castillo, J. Garca, F. D. Lpez y J. C. Rojano: 1. Estadstica descriptiva

Se pueden denir otras medias, como la media geomtrica o la armnica. La media geomtrica es la raz n-sima del producto de las observaciones, MG = n x1 x2 xn .

Se suele usar para encontrar el valor central de porcentajes, razones, ndices o tasas de crecimiento. La media armnica es el recproco de la media aritmtica de los recprocos de las observaciones. n MA = 1 1 1 x1 + x2 + + xn . Es til para promediar variables como productividades, velocidades, tiempos, rendimientos o cambios.

Mediana La principal ventaja de la mediana es que le afectan poco las observaciones anmalas de la variable, sin embargo no es fcil de manejar y, adems, no utiliza toda la informacin muestral. Denicin 1.9. La mediana es el valor que separa las observaciones en dos grupos con el mismo nmero de datos, uno con los valores menores que la mediana y el otro con los valores mayores, la denotaremos por Me. Para calcularla procederemos de la siguiente forma: Si la variable estadstica es discreta se ordenan los valores de menor a mayor. Se van sumando las frecuencias relativas (o absolutas) asociadas a cada uno de estos valores, de una en una, hasta que se alcance o se supere por primera vez el valor 0, 5 (o n/2). La mediana es el valor cuya frecuencia relativa acumulada supera por primera vez 0,5. En el caso de que la frecuencia 0,5 se alcance exactamente en uno de los valores de la variable, se puede considerar dos medianas, este valor y el siguiente, o bien calcular la media de los dos valores. Si la variable estadstica es continua, se calcula el intervalo mediano, sumando las frecuencias relativas (o absolutas) asociadas a cada uno de estos intervalos hasta que se alcance o se supere por primera vez el valor 0, 5 (o n/2). Sea Fi la frecuencia relativa acumulada de este intervalo; esto es, Fi1 < 0, 5 y Fi 0, 5;

C. del Castillo, J. Garca, F. D. Lpez y J. C. Rojano: 1.4. Medidas estadsticas

11

y sean li y Li los lmites inferior y superior del intervalo, entonces la mediana es Me = li + (Li li ) Moda Denicin 1.10. La moda es el valor o el intervalo (o la marca de clase) con mayor frecuencia absoluta (o relativa), la denotaremos por Mo. Es fcil de calcularla pero poco til, su mayor inters radica en las variables cualitativas. La moda no tiene porqu ser nica. Otras medidas de posicin Percentiles y cuantiles Ambos conceptos son similares, la diferencia radica en que el orden del cuantil se expresa en proporcin o tanto por uno y el del percentil en tanto por ciento; esto es, el cuantil de orden coincide con el percentil de orden r = 100 . Denicin 1.11. Llamaremos cuantil de orden (0 < < 1), y lo denotaremos por C , al valor que separa en dos grupos a las observaciones ordenadas, tales que el grupo de los valores menores o igual al cuantil son el 100 % de las observaciones. Denicin 1.12. Llamaremos percentil de orden r, y lo denotaremos por Pr , al valor que separa en dos grupos a las observaciones ordenadas, tales que el grupo de los valores menores o igual al percentil son el r % de las observaciones. La forma de clculo es anloga a la de la mediana, que es el percentil 50. Buscaremos la frecuencia relativa acumulada mayor o igual a r/100 (o absoluta acumulada mayor o igual al r % de n); si los datos no estn agrupados la observacin correspondiente ser el percentil, si los datos estn agrupados, entonces Pr = li + (Li li ) nr/100 Ni1 r/100 Fi1 = li + (Li li ) , fi ni 0, 5 Fi1 n/2 Ni1 = li + (Li li ) . fi ni

donde Fi1 < r/100 y Fi r/100. Cuartiles Denicin 1.13. Se denen los cuartiles primero, segundo y tercero, como los percentiles de orden 25, 50 y 75, respectivamente, y se denota por Q1 , Q2 y Q3 . El cuartil segundo corresponde a la mediana.

12

C. del Castillo, J. Garca, F. D. Lpez y J. C. Rojano: 1. Estadstica descriptiva

1.4.2.

Medidas de dispersin

Estas medidas nos indica si los valores se encuentran ms o menos alejados unos de otros: Un ejemplo sencillo, los datos {7, 9, 11} tienen la misma media que {1, 10, 16}; sin embargo, la dispersin o variabilidad del primer grupo es mucho menor que el del segundo. Varianza y desviacin tpica Miden la dispersin de los datos respecto de la media. Denicin 1.14. Se dene la varianza como la media de las diferencias al cuadrado de los valores respecto de la media, la denotaremos por s2 . s2 = Se verica que s2 = 1 n 2 xi x 2 . n i=1 1 n (xi x )2 . n i =1

La varianza se mide en unidades al cuadrado de la variable, lo que puede dicultar su interpretacin, por lo que se dene una nueva medida expresada en las mismas unidades que la variable. Denicin 1.15. Se dene la desviacin tpica como la raz cuadrada de la varianza, la denotaremos por s. s = s2 . A la varianza de la poblacin se le denota por 2 y la desviacin tpica por . En general, existe una relacin entre las medidas de la poblacin (parmetros) y las de las muestras (estadsticos). Por ejemplo, si la media de una poblacin es , entonces se verica que la media de todas las medias que se obtienen de las distintas muestras de un tamao jo n coincide con , es lo que se llama estadstico insesgado. Sin embargo, esto no ocurre con la varianza; es decir, la media de las varianzas obtenidas de todas las muestras de tamao n, no coincide con la varianza de la poblacin, es por eso que se dene la varianza muestral como s2 = 1 n (xi x )2 ; n 1 i =1

que es insesgada para la varianza poblacional. Esta varianza es la que suele aparecer en las calculadoras cientcas y en los programas estadsticos, tambin es la que usaremos en los temas de inferencia estadstica.

C. del Castillo, J. Garca, F. D. Lpez y J. C. Rojano: 1.4. Medidas estadsticas

13

Rango o Recorrido Denicin 1.16. Se dene el recorrido como la diferencia entre los valores mximo y mnimo, lo denotaremos RI . Rango intercuartlico o recorrido intercuartlico Denicin 1.17. Se dene el recorrido intercuartlico como la diferencia entre el tercer y el primer cuartil, lo denotaremos RI , RI = Q3 Q1 . Coeciente de variacin Denicin 1.18. Se dene el coeciente de variacin como el cociente entre la desviacin tpica y la media (en valor absoluto), lo denotaremos por CV . CV = s . |x |

Esta medida es adimensional y se suele dar tambin en tanto por ciento, nos permite comparar la dispersin de dos variables medidas en unidades diferentes o en diferentes escalas.

1.4.3.

Medidas de forma

Otra caracterstica de las variables es la forma que tiene la representacin grca de los datos, en particular, el diagrama de barras o el histograma. En este sentido se analizan dos conceptos: el grado de asimetra y el grado de aplastamiento. Asimetra o sesgo Denicin 1.19. Diremos que una variable es simtrica si la grca de su histograma es simtrica respecto de la recta x = x . En este caso la media y la mediana coinciden. Si la distribucin no es simtrica diremos que es asimtrica o sesgada. Para medir el sesgo usaremos el siguiente coeciente. Denicin 1.20. Se dene el coeciente de asimetra como5 a3 =
5 El

)3 /n n i=1 (xi x . s3

ndice 3 del coeciente se debe a que est basado en los llamados momentos de tercer orden, que se obtienen al calcular la media de las diferencias al cubo entre las observaciones y la media de la distribucin.

14

C. del Castillo, J. Garca, F. D. Lpez y J. C. Rojano: 1. Estadstica descriptiva

Si el coeciente de asimetra es cero la distribucin es simtrica y x = Me. Si el coeciente es positivo el diagrama de barras o el histograma presenta una cola larga a la derecha. En este caso x > Me y se habla de asimetra positiva o a la derecha. Si el coeciente es negativo el diagrama de barras o el histograma presenta una cola larga a la izquierda. En este caso x < Me y se habla de asimetra negativa o a la izquierda.
25 20 15 10 5 2 0 1 2 3 4 5 6 7 8 9 10 11 0 1 2 3 4 5 6

14 12 10 8 6 4

17.5 15 12.5 10 7.5 5 2.5 0 1 2 3 4 5 6 7 8

Asimtrica a la derecha

Simtrica

Asimtrica a la izquierda

F IG . 1.6. Ejemplos de distribuciones con distintas asimetras

Aplastamiento o curtosis Denicin 1.21. Se dene el aplastamiento, apuntamiento o curtosis como el grado de apuntamiento de su diagrama de barras o histograma. El grado de curtosis est relacionada con la grca asociada a una distribucin, que estudiaremos posteriormente y que se llama distribucin normal o de Gauss, y para medirlo usaremos el siguiente coeciente. Denicin 1.22. Se dene el coeciente de curtosis como6 )4 /n n i=1 (xi x a4 = 3. s4 Si el coeciente toma el valor cero, entonces se considera un aplastamiento normal y la distribucin de dice que es mesocrtica. Un valor positivo del coeciente indica que la grca es ms apuntada que la normal y la distribucin se llama leptocrtica. Un valor negativo indica que la grca es ms aplastada que la normal y la distribucin se llama platicrtica.
este caso usamos el ndice 4, pues la denicin se basa en los momentos de cuarto orden. El valor 3 de la diferencia se da, precisamente, para que el grado de curtosis de la distribucin normal, que se toma como patrn, sea cero.
6 En

C. del Castillo, J. Garca, F. D. Lpez y J. C. Rojano: 1.4. Medidas estadsticas

15

0.4 0.4 0.3 0.3 0.2 0.2 0.1 -4 -2 0 2 0.1

0.4 0.3 0.2 0.1

-4

-2

-4

-2

Leptocrtica

Mesocrtica

Platicrtica

F IG . 1.7. Ejemplos de distribuciones con distintas curtosis

200

190

180

170

160

150

F IG . 1.8. Ejemplo de diagrama de cajas con una observacin anmala

1.4.4.

Diagrama de cajas

El diagrama de caja es una representacin del primer cuartil, la mediana y el tercer cuartil, que aparecen formando una caja con una lnea que la divide en dos partes no necesariamente simtricas. La mediana est representada por esta lnea divisoria, mientras que los cuartiles estn representados por las dos lneas que delimitan la caja y son paralelas a la lnea de la mediana. Adems de la caja aparecen lneas a cada lado de ella que abarcan el rango de los datos comprendidos en el intervalo [Q1 1, 5RI , Q3 + 1, 5RI ] A los datos que no pertenezcan a esta intervalo se les llama datos atpicos, observaciones anmalas u outliers. En la gura 1.8 vemos el diagrama de cajas de los datos del ejemplo 1.3, al que se le ha aadido una observacin anmala.

You might also like