You are on page 1of 13

Prctica 2.

Estadstica descriptiva

Prctica 2 ESTADSTICA DESCRIPTIVA

Objetivos:
En esta prctica utilizaremos el paquete SPSS para calcular estadsticos descriptivos de una muestra. Se representarn grficamente conjuntos de datos utilizando las posibilidades del programa.

ndice:
1. Tablas de frecuencias 2. Estadsticos 3. Representacin grfica de variables 4. Ejercicios complementarios

Prctica 2. Estadstica descriptiva

1. Tablas de frecuencias
Una de las formas ms simples de resumir la informacin de un conjunto de datos es por medio de una tabla de frecuencias, que consiste en calcular para cada valor de una variable el nmero (frecuencia) de casos en que aparece. Una tabla de frecuencias debe indicar el nombre de la variable en su encabezamiento, los valores que toma la variable, la frecuencia de cada uno de ellos y la suma de todas las frecuencias, que coincidir con el nmero total de casos vlidos. Tambin es aconsejable calcular las frecuencias relativas, o proporciones, que resultan al dividir cada frecuencia por su suma total. SPSS genera tablas de frecuencias de forma automtica. En primer lugar necesitamos abrir un banco de datos, por ejemplo el del archivo ambiente.sav, y con el men Analizar/Estadsticos descriptivos/Frecuencias se puede obtener la tabla de frecuencias asociada a cualquiera de las variables. La tabla para la variable ozono obtenida por SPSS es la siguiente

La tabla nos indica que hay 15 casos vlidos y ninguno perdido, que la variable ozono tiene dos valores posibles Normal y Alto (en realidad son las etiquetas asociadas a los valores 0 y 1, respectivamente). Hay 7 casos (46,7%) en los que ozono toma el valor Normal y 8 (53,3%) el valor Alto.

Ejercicio 1

Ordena los datos por la variable ozono con Datos/Ordenar casos o haciendo clic con el botn derecho del ratn sobre su nombre en la ventana del editor de datos y comprueba que las frecuencias anteriores son correctas. Obtener la tabla de frecuencias de la variable provin. Obtener la tabla de frecuencias de la variable sulfato. Qu utilidad tiene esta ltima tabla? Razona su conveniencia en este caso.

SPSS tambin cuenta con el men alternativo Analizar/Tablas personalizadas que posibilita alterar el formato del resultado.

Prctica 2. Estadstica descriptiva

2. Estadsticos
Los estadsticos son valores calculados con los datos de una variable cuantitativa y que miden alguna de las caractersticas de la distribucin muestral. Las principales caractersticas son: tendencia central, posicin, dispersin, asimetra y apuntamiento. 2.1. Medidas de posicin Describe cmo se encuentra el resto de la muestra con respecto a ella.

2.1.1. Medidas de Centralizacin: media es la suma de todas las observaciones dividida por el tamao de la muestra. mediana es el valor que divide a la muestra ordenada en dos mitades con el mismo nmero de datos. media recortada es una media calculada despus de eliminar algunos datos extremos. Es ms robusta que la media pues no tiene en cuenta los valores atpicos. moda es el dato que posee la mayor frecuencia. En caso de empates pueden darse varias modas.
2.1.2.

Otras medidas de posicin. Los cuartiles Q1,Q2 y Q3, son tres valores que dividen a la distribucin en cuatro partes iguales. El primer cuartil tiene un 25% de casos menores o iguales que dicho valor; el segundo cuartil coincide con la mediana y el tercer cuartil deja un 25% de valores superiores o iguales a l. Para obtenerlos, se calcula primero las posiciones de los cuartiles p(Q1) y p(Q3) y a partir de ellas se extraen los valores correspondientes. Las posiciones del primer y tercer cuartil (el segundo coincide con la mediana) son: p(Q1)=(n+1)/4 y p(Q3)=3(n+1)/4. Obtenidas las posiciones, si son enteras, se buscan los valores que las ocupan en la muestra ordenada. Los deciles (9 en total) y percentiles (99 en total) dividen a la distribucin en diez y cien partes iguales, respectivamente. Su forma de clculo es similar a la de los cuartiles.

2.2. Medidas de dispersin Las ms utilizadas son: rango o amplitud que es la diferencia entre el mayor y el menor valor de la muestra. rango intercuartlico Q3-Q1, el intervalo [Q1,Q3] contiene al 50% central de los valores muestrales. varianza (s2) que mide el alejamiento medio de las diferencias al cuadrado de cada observacin a la media. desviacin tpica o estndar (s) est medida en las mismas unidades que la variable y es la raz cuadrada positiva de la varianza. coeficiente de variacin de Pearson es una medida de dispersin relativa. Es el cociente entre la desviacin tpica y el valor absoluto de la media. Carece de unidades y se usa para comparar la dispersin entre variables que tengan distintas unidades de medida. Se suele expresar en tantos por ciento.

Prctica 2. Estadstica descriptiva

2.3. Medidas de asimetra y apuntamiento Su objetivo es expresar mediante un valor la forma simtrica o asimtrica de la distribucin. Veamos algunas de ellas. Para distribuciones unimodales que adems son simtricas i.e: la parte izquierda de la distribucin es similar a la derecha, los estadsticos media, mediana y moda suelen tener valores idnticos o muy parecidos. En base a esto, aparece el Coeficiente de Asimetra de Pearson. Otra posibilidad, ms costosa de realizar a mano, es calcular el momento de orden 3 respecto de la media y dividirlo por la desviacin tpica al cubo obteniendo el coeficiente de asimetra de Fisher.
2.4. Medidas de apuntamiento Indican el nivel de concentracin de los datos respecto de su media. Si el nivel de concentracin es alto, la distribucin es de forma puntiaguda y se llama leptocrtica, tendremos en este caso colas ms cortas que en una distribucin normal. Si las colas son ms largas que en una distribucin normal y por tanto con menos valores en el centro, la distribucin es ms achatada y se llama platicrtica. En el caso intermedio, se utiliza el trmino mesocrtica. El grado de apuntamiento, o curtosis, se puede medir por el momento de orden 4 dividido por la desviacin tpica elevada a 4. El cociente anterior se corrige de forma que la distribucin normal para este estadstico da el valor cero, restndole tres unidades. Para obtener los estadsticos con SPSS se usa el men Analizar/Estadsticos descriptivos/Descriptivos donde hay que seleccionar la variable o variables de inters y despus Opciones para escoger los estadsticos que interesan. Sin embargo con este men no se pueden obtener los percentiles. Para obtenerlos hay que usar Analizar/Estadsticos descriptivos/Frecuencias y entrar en la opcin Estadsticos en donde se seleccionan los percentiles deseados.

Ejercicio 2
Considerar los datos siguientes: 3,4,5,2,3,4,5,6,4,7 Calcula la media, rango, desviacin estndar, CV, los cuartiles, rango intercuartlico y los percentiles 30 y 80. Calcula la medida de asimetra Asim para decidir qu tipo de asimetra presentan estos datos.

3. Representacin grfica de variables


La utilizacin de grficos es necesaria en Estadstica. Se pretende resumir la informacin de la muestra de forma grfica con fines clarificadores o para enfatizar y descubrir determinadas caractersticas que de otra forma sera muy difcil apreciar. Por otro lado, un grfico siempre es ms inmediato de comprender que un conjunto de estadsticos. Por ejemplo, podemos dar una matriz de distancias entre un conjunto de ciudades pero an teniendo esa informacin ser difcil que nos imaginemos su distribucin geogrfica si no se adjunta un grfico.

Prctica 2. Estadstica descriptiva

Los grficos adecuados para representar variables discretas o categricas son diferentes de los de las continuas por lo que separaremos su estudio. 3.1. Grficos de variables discretas y categricas Los grficos ms utilizados en estadstica para representar variables discretas o categricas son los grficos de sectores y los diagramas de barras. Grficos de sectores Un grfico de sectores consiste en un crculo dividido en sectores de tamao proporcional a la frecuencia de cada valor de la variable. Se utilizan cuando hay pocos valores que representar (mximo de 7). Para obtener un grfico de sectores con SPSS usaremos el men Grficos/Sectores y seleccionaremos una o varias variables apareciendo el cuadro de dilogo siguiente:

cuyas opciones pasamos a comentar.

Resmenes para grupos de casos Genera un grfico en el que cada sector corresponde a un valor de la variable seleccionada. El tamao del sector se determina por la opcin Los sectores representan, esta opcin aparece en el cuadro de dilogo que surge despus de apretar el botn Definir del cuadro anterior. Por ejemplo, supongamos que queremos representar los valores de la variable provin en un diagrama de sectores donde los sectores representan el nmero de casos de cada provincia. El grfico de sectores podra ser as:

Valencia

Alicante

Castelln

Prctica 2. Estadstica descriptiva

Tambin es posible que los sectores representen otra cosa, como la media de los valores de otra variable, el valor mximo, etc...; esto se consigue con la opcin Otra funcin resumen. Se puede tambin editar el grfico haciendo doble clic sobre l, con posibilidad de cambiar colores, tramas, desgajar sectores, etc. Resmenes para distintas variables Permite que los sectores representen variables en lugar de grupos de casos. Cada sector representa una funcin de una determinada variable (por ejemplo, la suma de los valores de sus casos). Por ejemplo, las puntuaciones de 10 alumnos en tres exmenes de Estadstica han sido las siguientes: Ex1 7,5 6,8 6,5 9,5 6,0 8,1 5,0 8,3 6,0 5,5 Ex2 6,3 5,5 5,0 7,0 4,2 6,8 3,5 7,5 6,5 4,0 Ex3 8,1 7,9 7,0 8,5 5,0 7,0 5,0 8,5 8,0 6,0

Podemos representar grficamente con un diagrama de sectores la suma de las puntuaciones en estos tres exmenes para ver si difieren mucho y para ver qu examen tuvo la mayor puntuacin relativa. Para ello, despus de introducir los datos en SPSS y elegir la opcin que estamos tratando, podemos obtener el siguiente grfico de sectores, en donde se observa, por ejemplo, que la suma de las puntuaciones en el Ex1 es de 69,20 y que representan un 35,2% de la suma de todas las puntuaciones (es decir su puntuacin relativa).

EX3 71,00 / 36,1%

EX1 69,20 / 35,2%

EX2 56,30 / 28,7%

Prctica 2. Estadstica descriptiva

Valores individuales de los casos Se resume una nica variable, los casos ya son valores agrupados de la variable. Cada sector representa el valor de un caso individual. Con Grficos/Interactivos/Sectores podemos obtener representaciones con efectos ms llamativos como la que aparece a continuacin.

Porcentajes de nivel de ozono

Gas ozono por zonas


normal alto Los sectores muestran porcentajes

Diagramas de barras Sobre un eje horizontal se representan los distintos valores de una variable discreta o categrica. Sobre cada valor se levanta un rectngulo vertical cuya base est separada de las contiguas. En un eje de escala vertical se representa una caracterstica numrica de la variable como el nmero de casos, o bien otra funcin resumen que puede estar asociada a otra variable, etc. Los diagramas de barras permiten utilizar mayor nmero de valores que los grficos de sectores. Son ms verstiles que los grficos de sectores y al igual que con stos tambin se pueden conseguir efectos especiales como 3D, giros e iluminaciones. Para generar un diagrama de barras con SPSS se utilizan los mens Grficos/ Barras y Grficos/ Interactivos/ Barras. Consultar la ayuda de SPSS para una descripcin ms detallada.

Prctica 2. Estadstica descriptiva

Ejercicio 3

Construye un diagrama de barras asociado a la variable sulfato como el de la figura siguiente.

Polgono de frecuencias:

Este grfico se obtiene utilizando el men Grficos / Lneas y elegimos las siguientes opciones:

Pulsamos sobre Definir y obtenemos la siguiente ventana de informacin:

Prctica 2. Estadstica descriptiva

Seleccionamos N de casos o N acum.. de casos, si queremos obtener los polgonos de frecuencias absolutas normal o acumulado respectivamente. Para los polgonos de frecuencias relativas usaremos las opciones de porcentajes. Por ejemplo, aqu se muestran el polgono de frecuencias absolutas, y el polgono de frecuencias absolutas acumuladas para la variable espvidaf (esperanza de vida femenina) del fichero mundo.sav.
10

Frecuencia

0 43 45 47 52 54 57 59 64 66 68 70 72 74 76 78 80 82

Esperanza de vida femenina

Prctica 2. Estadstica descriptiva

10

120

100

80

60

Frecuencia acumulada

40

20

0 43 45 47 52 54 57 59 64 66 68 70 72 74 76 78 80 82

Esperanza de vida femenina

3.2. Grficos de variables continuas Bsicamente se utilizan dos tipos de grficos para las representaciones de una nica variable continua: Histogramas y Diagramas de caja. Histogramas Parecidos en forma a los diagramas de barras, pero atencin: su uso se restringe nicamente a las variables continuas. Los histogramas representan frecuencias agrupadas de una variable continua sobre intervalos. A diferencia de los diagramas de barras, los histogramas dibujan rectngulos unidos entre s, lo que significa que existe una continuidad en la variable cuyos valores se representan en el eje horizontal. El eje horizontal se halla dividido en intervalos de igual amplitud (SPSS no permite alterar esta propiedad), sobre los que se elevan rectngulos de altura proporcional a su frecuencia. Por lo tanto, las reas de los rectngulos son proporcionales a las frecuencias que representan. Los histogramas se pueden editar haciendo doble clic con el botn izquierdo del ratn, lo que permite alterar el nmero de clases, su amplitud, etc. La grfica de un histograma puede ser muy distinta para los mismos datos, simplemente variando el nmero de clases, por lo que la eleccin del nmero de clases debe hacerse con cuidado. En la figura siguiente, el histograma de la izquierda se ha obtenido con el nmero de clases fijado por defecto por SPSS, en este caso 7. El segundo histograma solamente tiene 4 clases (fijado por el usuario). En ambos casos se ha superpuesto una curva normal con media y desviacin estndar coincidentes con las de la muestra para ver su parecido. Para obtener un histograma con SPSS se utilizan los mens Grficos/Histograma o Grficos/Interactivos/Histograma. Con ste ltimo men podemos obtener el histograma de frecuencias relativas, el de frecuencias relativas acumuladas y el de absolutas acumuladas.

Prctica 2. Estadstica descriptiva

11

1 Desv. tp. = ,45 Media = 5,82 0 5,25 5,50 5,75 6,00 6,25 6,50 6,75 N = 15,00

Ph en la zona
7

Desv. tp. = ,45 Media = 5,82 N = 15,00 5,34 5,78 6,22 6,66

Ph en la zona

Diagramas de caja

A diferencia de los otros grficos ya vistos, los diagramas de caja hacen nfasis en las medidas de posicin. Es muy til para hacer comparaciones entre muestras de distintas poblaciones. Un diagrama de caja consiste en un rectngulo cuya longitud es el rango intercuartlico, dividido por un segmento a la altura de la mediana y complementado por dos lneas (llamadas bigotes) que parten de los extremos del rectngulo, cuya longitud no supera 1,5 veces el rango intercuartlico y que intentan alcanzar los valores mnimo y mximo observados. Para obtener un diagrama de caja con SPSS se selecciona el men Grficos/Diagrama de cajas. Por ejemplo:

Prctica 2. Estadstica descriptiva

12

7,0

6,5

6,0

Ph en la zona

5,5

5,0
N= 5 5 5

Alicante

Castelln

Valencia

Provincia

Aqu, cada provincia est representada por una caja que muestra los niveles de ph. Se puede observar diferencias en cuanto la situacin de la mediana y a la dispersin. Por ejemplo, se observa que en Valencia los niveles de ph son superioress a los de Castelln y que presentan una ligera mayor dispersin. Los casos extremos si los hay se representan por smbolos especiales a cuyo lado aparece el nmero de caso. Tambin nos da idea de la simetra de los datos, por ejemplo una mediana descentrada dentro del rectngulo nos indicara una asimetra. En este ejemplo podemos decir que las distribuciones no son lo suficientemente simtricas. El diagrama de cajas puede ser editado para su modificacin, haciendo doble clic sobre sus elementos. Se puede alterar ttulo, pie, anotaciones, leyenda y los valores y etiquetas de los ejes; las lneas como los ejes, las lneas de referencia y los bordes, la escala, el relleno y trama de la caja y los casos atpicos y extremos.

Ejercicio 3
Construye un histograma de la variable sulfato de los casos de la provincia de Valencia. El nmero de clases debe ser 12. Construye un diagrama de cajas de la variable sulfato para comparar entre las provincias de Valencia, Castelln y Alicante. Identifica los casos extremos y sus valores si los hay. 4. Ejercicios complementarios

Prctica 2. Estadstica descriptiva

13

4. Ejercicios complementarios

Abre el archivo coches.sav y examina sus variables. Calcula la moda, mediana, asimetra y curtosis del consumo medio de todos los coches. Calcula el consumo medio y la mediana de los coches de 4 cilindros. Obtn los percentiles 80,90 y 95 y los cuartiles de los consumos de los coches con 8 cilindros. 5. Construye un diagrama de cajas que sirva para comparar los consumos medios de cada tipo de coche dependiendo de su nmero de cilindros. 6. Construye un histograma del peso de los coches. Superpn una curva normal. 7. Construye un diagrama de cajas para comparar las cilindradas de los coches segn el origen del coche. 8. Construye un diagrama de barras de la potencia media (en CV) de los coches segn su origen. 9. Construye un grfico de sectores para ver las proporciones de coches en la muestra segn su origen. 10. Abre el archivo judges.sav. Las variables representan a los jueces que han puntuado en unas pruebas de clasificacin para las olimpiadas. 11. Construye un grfico de sectores, en el que cada sector represente la media de las puntuaciones otorgadas por un juez. 12. Construye un diagrama de barras en los que cada barra represente la media de las puntuaciones otorgadas por los jueces de Rusia, Rumania y China, respectivamente.

1. 2. 3. 4.

You might also like