You are on page 1of 38

Prctica 1 INTRODUCCIN AL PROGRAMA SPSS Y MANEJO DE DATOS

Objetivos:
En esta prctica, se pretende familiarizar a los estudiantes con la base de datos incorporada en la aplicacin SPSS. A lo largo de la prctica los estudiantes aprendern a introducir datos desde el teclado, manejar el editor de esta aplicacin, crear nuevas variables como transformacin de las variables originales, filtrar datos y fundir e importar archivos de datos.

1. Aspectos tcnicos
El programa SPSS para Windows es una versin para ordenadores personales del paquete estadstico SPSS (Statistical Package for Social Sciences). El programa trabaja con 3 tipos de archivos: los archivos de datos propios de SPSS. .sav los archivos de grficos y resultados de SPSS. .spo los archivos de sintaxis de SPSS. .sps Adems, permite importar archivos creados con otras aplicaciones: Excel, Lotus, Dbase, ... y exportar archivos de datos y grficos.

2. Entrar al programa
Seleccionamos SPSS y se abrir una ventana de opciones a realizar:

Seleccionaremos Introducir datos, pulsando con el botn izquierdo del ratn en el crculo de Introducir datos y posteriormente en Aceptar y obtendremos la ventana de edicin de datos:

En la parte inferior de la pantalla principal aparece la barra de estado en la que hay informacin sobre el procesador de SPSS (SPSS El procesador est preparado), adems de dos pestaas que permiten seleccionar "vista de datos" o "vista de variables". En la parte superior aparece la barra de men. Al situar el puntero del ratn sobre cualquiera de sus elementos, aparece informacin sobre las operaciones que podemos realizar: Archivo: Crear, abrir o grabar los diferentes archivos de SPSS, mostrar informacin de datos imprimir, acceso directo a los ltimos archivos abiertos, salir del SPSS, ... Edicin: Deshacer, borrar, copiar, cortar, pegar, buscar, opciones, .. Ver: Barra de estado, Barras de herramientas, Fuentes, Cuadrcula, Etiquetas de valor. Datos: definir fechas y efectuar modificaciones en el archivo de datos: seleccionar, aadir, ponderar, ordenar, ir al caso .......etc. Transformar: Modificacin y generacin de nuevas variables. Las funciones de este men y del anterior son temporales y slo estn vigentes durante la sesin sin que afecten al archivo original de datos. Si queremos que sean permanentes debemos grabar los cambios. Analizar: Anlisis estadsticos instalados. Grficos: Edicin y creacin de diversos tipos de grficas de alta resolucin. Utilidades: Cambiar fuentes, informacin sobre archivos. Ventana: Funciones habituales para controlar las ventanas. Se pueden distinguir los siguientes tipos de ventanas: Edicin de datos de SPSS (Ventana principal con los mens) Visor de SPSS ?: Ayuda en el formato tpico de Windows.

3. Definicin de los Datos


Antes de empezar el anlisis de los datos conviene, siempre, prepararlos para su mejor manejo e interpretacin. Los archivos de datos, habitualmente toman la forma de una matriz en la que cada fila representa los valores que un individuo determinado tiene para unas variables. En terminologa de SPSS cada fila es un caso. En las columnas de dicha matriz aparecen los diferentes valores que una variable determinada toma para cada uno de los individuos.

Veamos cmo abrir un archivo de datos: selecciona Archivo/Abrir/Datos y busca el archivo AMBIENTE aparecer la siguiente ventana:

Archivo de datos AMBIENTE: Este archivo de datos recoge la informacin obtenida en un proyecto de investigacin medioambiental en el que se estudiaron los niveles de contaminacin atmosfrica en la Comunidad Valenciana. Para ello analizaron 100 observaciones aleatorias en cada provincia, midiendo en el aire la concentracin de sulfato, el pH y la presencia de un nivel elevado de ozono. Los datos obtenidos se encuentran en las variables: sulfato: concentracin de sulfato en el aire pH: pH observado en el aire provin: provincia en la que se recogi la informacin (1 = Alicante, 2 = Castelln, 3 = Valencia) ozono: indica si hay un nivel elevado de ozono (1 = nivel elevado, 0 = nivel normal)

El primer paso a realizar para trabajar con un archivo de datos es definir las variables. Para definir cada variable hay dos procedimientos: hacer doble clic sobre el encabezamiento de la variable o seleccionar, en la parte inferior, la pestaa Vista de variables.

Veamos cmo estn definidas las variables del archivo AMBIENTE. Selecciona Vista de variables y aparece la ventana:

Observa que hay una fila para cada variable y que existen 10 columnas: Nombre, Tipo, Anchura, Decimales, Etiqueta, Valores, Perdidos, Columnas, Alineacin y Medida. La definicin de una variable se basa en las opciones que se ofrecen en esa ventana: Asignar un Nombre a cada variable, cumpliendo las siguientes reglas: Nombres con no ms de 8 caracteres (siendo siempre el primero una letra o @). No utilizar smbolos como &, /, $, etc. No utilizar nunca espacios en blanco. No utilizar expresiones como ALL, AND, BY, EQ, GE, GT, LE, NE, NOT, OR, TO, o
WITH.

Asignar un Tipo a cada variable, indicando el mximo nmero de dgitos que deseamos para anotar las observaciones de la variable y el tipo de la variable con la que vamos a trabajar, alfanumrica, fecha, moneda o numrica, indicando en este caso el nmero de cifras decimales con que queremos que aparezca en el editor.

SPSS permite trabajar con los siguientes tipos de variables: Numricas: formato numrico estndar Coma: comas de separacin cada tres posiciones. Un punto para la parte decimal. Punto: al contrario que el anterior. Notacin Cientfica: uso de la E para exponente. Ejemplo 2,34E2 Cadena: variable alfanumrica. (de ms de 8 caracteres se considera larga). Adems estn los formatos de fecha, dlar y moneda personalizada. Si no las escogemos, el sistema las asigna automticamente, siendo el formato por defecto: Numrica 8.2 que significa: Anchura: 8 y Decimales: 2, es decir, una amplitud de columna de 8 espacios, siendo los 2 ltimos para los decimales.

Haz un clic sobre el recuadro coloreado en la celda correspondiente al Tipo en la variable sulfato y observa estas posibilidades.

Pulsa los tipos Fecha, Dlar, Moneda personalizada y Cadena y observa los formatos permitidos. Para salir, sin modificar el tipo original de la variable, pulsa Cancelar. Observa el tipo del resto de variables. Asignar una Etiqueta a cada variable de no ms de 120 caracteres (entre 30 y 40 es el valor recomendado) que nos permita tener ms informacin sobre esa variable. Asignar Valores: se trata de asignar etiquetas a los valores de cada variable. No es obligatorio, pero s muy til en algunos casos. Sitate en el campo correspondiente a Valores de la variable ozono y pincha sobre el recuadro coloreado: Qu significa esta variable? Qu valores toma? Qu significa cada valor? Para salir, pulsa Cancelar.

Definir Perdidos. permite definir los valores de los datos especificados como perdidos por el usuario. A menudo es til para saber por qu se pierde informacin. Por ejemplo, puedes querer distinguir el dato perdido correspondiente a un entrevistado que se niega a responder, del dato perdido debido a que la pregunta no afectaba a dicho entrevistado. Los valores de datos especificados como perdidos por el usuario aparecen marcados para un tratamiento especial y se excluyen de la mayora de los clculos. Sitate en el campo correspondiente a Perdidos de cualquier variable y pincha sobre el recuadro coloreado, aparece:

Los cdigos asignados a los valores ausentes deben de ser coherentes con el tipo de variables declarado: Numricos para las numricas y alfanumricos para las alfanumricas (mximo 9 caracteres). Se pueden introducir hasta 3 valores perdidos (individuales) de tipo discreto, un rango de valores perdidos o un rango ms un valor de tipo discreto. Slo pueden especificarse rangos para las variables numricas. Estos valores ausentes son denominados por SPSS "valores ausentes definidos por el usuario" (userdefined missing values), a diferencia de los definidos por el sistema (system-missing values o sysmis). Estos ltimos corresponden a los que establece el sistema para los espacios en blanco y caracteres ilegales que puedan haber en el archivo de datos. Aparecen en los listados representados por comas.

Definir Columnas: consiste en especificar la amplitud de la columna. Podemos hacerlo tambin desde el propio archivo de datos. Definir Alineacin: seleccionar la justificacin de las entradas de la columna: Izquierda, Derecha y Centrado. Especificar medida. Se puede seleccionar uno de los tres niveles de medida: Escala: los valores de datos son numricos en una escala de intervalo. Las variables de escala deben ser numricas. Ordinal: los valores de datos representan categoras con un cierto orden intrnseco (bajo, medio, alto; totalmente de acuerdo, de acuerdo, en desacuerdo). Las variables ordinales pueden ser de cadena o valores numricos. Notar que para variables de cadena ordinales, se asume que el orden alfabtico de los valores de cadena indica el orden correcto de las categoras; en el caso de bajo, medio y alto el orden sera alto, bajo y medio (orden que no es correcto), por lo que es ms fiable utilizar cdigos numricos para representar datos ordinales que usar etiquetas de estos cdigos. Nominal: los valores de datos representan categoras sin un cierto orden intrnseco. Las variables nominales pueden ser de cadena o valores numricos que representan categoras diferentes, por ejemplo 1 = Hombre y 2 = Mujer.

Observa cmo han sido definidas todas las variables del archivo AMBIENTE. Para salir de cada ventana, pulsa Cancelar, as evitars modificar el archivo.

4. Introduccin y Edicin de los datos


Para abrir un archivo nuevo de datos de SPSS debemos seleccionar el men de Archivo/Nuevo/Datos: Si ya estamos en el editor de datos vaco, no hace falta.

Si, previamente, tenamos abierto otro archivo de datos, por ejemplo


AMBIENTE.sav, y hemos realizado alguna modificacin de este archivo, antes de cerrar ste y abrir uno nuevo, nos preguntar si queremos guardar los cambios realizados. La respuesta es NO, de este modo, vuestros compaeros podrn observar, tambin, el archivo original.

Una vez tengas la ventana del Editor de datos del SPSS abierta y vaca, lee atentamente las siguientes instrucciones antes de introducir datos: Debemos definir las variables adecuadamente (en Vista de variables) de forma que despus podamos empezar a introducir los datos en cualquier orden (en Vista de datos). Para introducir los datos, nos situamos en una casilla, tecleamos su valor y pulsamos Intro o el Tabulador o nos situamos con el ratn en otra casilla. Podemos introducir los datos por filas o columnas indistintamente. Conviene ir actualizando el archivo con la opcin Guardar Datos o con el botn de grabar habitual en otras aplicaciones Windows. Para ello: si ya lo habamos guardado con anterioridad, para guardar las ltimas modificaciones, seleccionaremos la opcin de Guardar dentro de Archivo, si es la primera vez que lo guardamos, como todava no le hemos asignado un nombre al archivo, seleccionaremos la opcin Guardar como ... dentro de Archivo. Nos pedir el nombre que queremos darle al archivo, su extensin (por defecto utilizar .sav para datos del SPSS) y la carpeta en que queremos guardarlo.

Una vez introducidos los datos podemos considerar el modificarlos, ya sea para introducir o ampliar con nuevos valores o para rectificar alguno ya introducido. La edicin de datos en SPSS contiene comandos para: cortar, copiar, pegar, eliminar y buscar (similar a otras aplicaciones Windows), insertar variables o casos, ir al caso, ordenar casos, ... y se encuentran en los mens Edicin y Datos.

5. Transformacin de una Variable


Una vez elaborado el archivo de datos, y previamente al anlisis estadstico de los datos es posible modificar los datos originales presentes en el archivo. Tales cambios pueden referirse a las variables, a los casos, o al archivo en su conjunto. Puede interesarnos tanto la recodificacin de los valores de una variable como la generacin de nuevas mediante transformaciones de las ya existentes. SPSS permite generar nuevas variables mediante transformaciones numricas efectuadas sobre las antiguas. Supongamos que, despus de tener el archivo de datos ya introducido, hemos detectado un error en la medicin del pH debido a que el aparato utilizado incrementa en 0,3 unidades todas las mediciones que realiza. Convendra generar una nueva variable que incorporara esta correccin. Para ello elegimos Transformar/ Calcular, y realizamos los siguientes pasos: 1. asignar un nombre y un tipo (por defecto ser numrica) a la nueva variable en el cuadro de texto de la Variable de destino, en nuestro caso new_pH 2. definir la Expresin numrica que va a permitir calcular los valores de la misma. Para ello utilizaremos los nombres de las variables del archivo (podemos escribirlos o seleccionarlos del listado que aparece), constantes, operadores y funciones. Para construir estas expresiones pueden usarse operadores aritmticos como +, -, *, /, **

y funciones como SQRT, EXP, LG10, LN, ARTAN, COS, SIN, ABS, MOD10, TRUNC, RND, entre otras muchas:

MOD10 Resto resultante de dividir entre 10. TRUNC Parte entera de un nmero. RND Redondeo al entero ms cercano. Pulsando el botn derecho sobre le nombre de la funcin, aparece su descripcin. El argumento de las funciones debe ir entre parntesis. Existen funciones particulares como UNIFORM y NORMAL, que se utilizan para la generacin de variables aleatorias. Son de bastante utilidad en estudios de simulacin. Es importante tener cuidado con el orden de utilizacin de los operadores y no olvidar que los valores antiguos pierden su vigencia al recodificar una variable sobre el mismo nombre. El botn Si... permite realizar modificaciones similares, pero sujetas a que se verifique una condicin lgica. Se incluirn aquellos casos que verifiquen la condicin. Los que no la cumplan pasarn a ser valores ausentes definidos por el sistema. Por ejemplo, si queremos modificar slo las observaciones realizadas en Alicante, en una nueva variable new2_pH, deberemos: pulsar en el recuadro Si ... seleccionar Incluir si el caso satisface la condicin escribir la condicin: provin = 1

pulsar Continuar y en la siguiente pantalla pulsar Aceptar.

Una expresin lgica es una expresin que puede ser evaluada como verdadera o falsa en funcin de los valores de las variables en ella relacionadas. El nexo de las variables son los operadores de relacin: = , >= , <= , < , > , ~= . Es posible formar expresiones complejas, utilizando los operadores lgicos: AND (&), OR ( | ), NOT (~).

6. Recodificacin de una Variable


A partir de una variable podemos crear otra cuyos valores sean una recodificacin de los de la primera. Esta recodificacin podemos hacerla tanto en la misma variable como en variables diferentes. Para ello, seleccionaremos Transformar/Recodificar/En distintas variables... Se abre una ventana en la que deberemos asignar un nombre ( y una etiqueta si queremos) a la nueva variable.

Cuidado!, si seleccionas En las mismas variables ... borrars la variable original.

Vamos a ver cmo recodificar la variable sulfato en una nueva variable llamada niv_sulf, clasificndolo en: bajo (0,3], medio (3,6], alto (6,9] y muy alto > 9.

2. Pulsamos en Valores antiguos y nuevos ................ Aqu especificaremos los valores antiguos y sus nuevos valores. Es muy til cuando queremos recodificar variables cuantitativas mediante el establecimiento de intervalos. Para ello utilizamos las posibilidades descritas en Rango: Para especificar 0 < sulfato >= 3 -> niv_sulf = 1, escribiremos en rango (valores antiguos) 0 y 3, y en valor nuevo, 1, pulsaremos aadir y realizaremos los mismos pasos con el resto de intervalos.

7. Filtrado de datos
El programa SPSS permite seleccionar determinados casos para un prximo proceso, bien temporalmente o de forma permanente, sobre la base de un criterio lgico o de una decisin aleatoria. Para ello seleccionaremos el men Datos/Seleccionar casos...

Veamos cmo seleccionar, sin eliminar, las filas correspondientes a las mediciones con bajo nivel de sulfato: seleccionamos Si se satisface la condicin seleccionamos Filtrados pinchamos en el cuadro Si. Especificamos la condicin niv_sulf = 1 pulsamos Continuar y, despus, Aceptar. Observa el resultado y despus selecciona Todos los casos o Restablecer para volver a considerar todos los individuos del archivo de datos.

La seleccin de individuos puede ser temporal (filtrados) o permanente (eliminados): En la seleccin permanente eliminamos del archivo activo los individuos deseados, mientras que en la temporal, la seleccin es recuperable (los casos son filtrados). En esta ltima situacin, los individuos (casos) del archivo que no satisfacen la condicin aparecern marcados como excluidos mediante una lnea que cruza en diagonal su nmero de fila. Aparece tambin una variable llamada FILTER_$ que el sistema crea para controlar el filtrado de datos.

Especificaciones: Todos los casos: indica que quiere procesar todos los casos del archivo de datos de trabajo. Si se satisface la condicin: indica que quiere procesar slo los casos que satisfagan una condicin lgica. Para especificar o cambiar la condicin, pulse en Si. Esta alternativa crea la variable filter_$, que el sistema crea para controlar el filtrado de datos. Muestra aleatoria de casos: indica que queremos seleccionar los casos de forma aleatoria para su procesamiento. Si ha tecleado las especificaciones de muestreo, stas aparecern junto al botn de comando Muestra. Si no, o si quiere cambiarlas, pulse en Muestra. Esta alternativa tambin crea la variable filter_$. Basndose en el rango del tiempo o de los casos: permite seleccionar los casos deseados siempre que sean consecutivos, por ejemplo del 3 al 27. Usar variable de filtro: indica que quiere utilizar los valores de una variable numrica existente para controlar el filtrado de casos. Seleccione la variable de la lista de la izquierda. Los casos cuyo valor sea 0, o ausentes, en la variable de filtro se excluyen del anlisis.

9. Importar datos

Vamos a importar un archivo de texto y convertirlo al formato SPSS. Con el bloc de notas de Windows (Inicio/Programas/Accesorios) crear y salvar el archivo siguiente:

Se observa que: cada registro tiene 4 campos de tipos diferentes, separados por un espacio en blanco, los campos no estn encolumnados, esto se conoce como formato libre Para importar este archivo seleccionaremos el men Archivo/ Leer datos de texto, introducir el nombre del archivo y seguir los pasos que se indican.

9. Sintaxis

El mtodo ms sencillo para generar un archivo de sintaxis de comandos consiste en hacer selecciones en cuadros de dilogo de SPSS y pegar la sintaxis de las selecciones en una ventana de sintaxis. Si pega la sintaxis en cada paso de un anlisis largo, podr generar un archivo de trabajo que le permitir repetir el anlisis con posterioridad o ejecutar un trabajo automatizado con la Unidad de produccin de SPSS. En la ventana de sintaxis, puede ejecutar la sintaxis pegada, editarla y guardarla en un archivo de sintaxis. Para pegar la sintaxis de comandos desde un cuadro de dilogo Abra el cuadro de dilogo y realice las selecciones que desee. Pulse en Pegar. La sintaxis de comandos se pega en la ventana de sintaxis designada. Si no tiene abierta una ventana de sintaxis, SPSS abrir una ventana nueva y pegar la sintaxis en ella. Nota: Si abre un cuadro de dilogo desde los mens de la ventana de proceso, el cdigo necesario para ejecutar la sintaxis de un proceso se pegar en la ventana de proceso.

Ejercicios para entregar:


1. Archivo de datos FOSIL: Altu Altu_v Altu_b 2.400 2.569 2.606 3.271 2.528 2.231 2.730 2.605 2.400 2.630 1.886 1.994 2.037 2.570 2.021 1.735 2.085 2.037 1.913 2.192 1.482 1.555 1.655 1.925 1.555 1.286 1.579 1.519 1.493 1.675 Anchu 1.585 1.573 1.781 2.048 1.590 1.370 1.693 1.711 1.575 1.862 Col blanco marrn blanco gris marrn marrn blanco gris gris marrn Alti 220 750 310 120 1330 900 350 400 670 1100

a. Introduce el archivo de datos, FOSIL, sobre algunas caractersticas de una poblacin fsil del gasterpodo Sphaeronassa mutabilis. De los 10 fsiles encontrados se ha medido la altura total (Altu), la altura de la ltima vuelta (Altu_v), la altura de la boca (Altu_b) y la anchura mxima (Anchu). Adems, se ha anotado su color (Col = blanco, gris o marrn) y la altitud en la que han sido encontrados (Alti).

b. Recodifica de los datos de la variable Alti, diferenciando los niveles (0,500], (500,1000] y (1000, 1500].

2. Archivo de datos GLUCOSA: Este archivo de datos recoge la informacin obtenida en un experimento en el que se comparaban los niveles de glucosa en sangre en mujeres embarazadas y mujeres control. Se observaron a 40 mujeres embarazadas y 40 no embarazadas. El experimento consista en medir el nivel de glucosa en sangre (mg/dl) antes y una hora despus de la ingesta de un jarabe azucarado, en las semanas 8, 20 y 32 de la gestacin para las mujeres embarazadas y en los mismos intervalos de tiempo para las no embarazadas. a. Observa cmo estn definidas cada una de las variables. b. Crea la variable medantes como la media de las 3 medidas de glucosa antes de la ingesta. c. Crear la variable meddes como la media de las 3 medidas de glucosa despus de la ingesta. d. Crea la variable dif_med que exprese la diferencia entre las variables medantes y meddes de las mujeres embarazadas.

Prctica 2 ESTADSTICA DESCRIPTIVA

Objetivos:
En esta prctica utilizaremos el paquete SPSS para calcular estadsticos descriptivos de una muestra. Se representarn grficamente conjuntos de datos utilizando las posibilidades del programa. Se necesita una calculadora

1. Tablas de frecuencias
Una de las formas ms simples de resumir la informacin de un conjunto de datos es por medio de una tabla de frecuencias, que consiste en calcular para cada valor de una variable el nmero (frecuencia) de casos en que aparece. Una tabla de frecuencias debe indicar el nombre de la variable en su encabezamiento, los valores que toma la variable, la frecuencia de cada uno de ellos y la suma de todas las frecuencias, que coincidir con el nmero total de casos vlidos. Tambin es aconsejable calcular las frecuencias relativas, o proporciones, que resultan al dividir cada frecuencia por su suma total. SPSS genera tablas de frecuencias de forma automtica. En primer lugar necesitamos abrir un banco de datos, por ejemplo el del archivo ambiente.sav, y con el men Analizar /Estadsticos descriptivos /Frecuencias se puede obtener la tabla de frecuencias asociada a cualquiera de las variables. La tabla para la variable ozono obtenida por SPSS es la siguiente

La tabla nos indica que hay 300 casos vlidos y ninguno perdido, que la variable ozono tiene dos valores posibles Normal y Alto (en realidad son las etiquetas asociadas a los valores 0 y 1, respectivamente). Hay 144 casos (48%) en los que ozono toma el valor Normal y 156 (52%) el valor Alto.

Ejercicio 1
Ordena los datos por la variable ozono con Datos/Ordenar casos o haciendo clic con el botn derecho del ratn sobre su nombre en la ventana del editor de datos y comprueba que las frecuencias anteriores son correctas. Obtener la tabla de frecuencias de la variable provin. Obtener la tabla de frecuencias de la variable sulfato. Qu utilidad tiene esta ltima tabla? Razona su conveniencia en este caso.

2. Estadsticos
Los estadsticos son valores calculados con los datos de una variable cuantitativa y miden alguna de las caractersticas de la distribucin muestral. Las principales caractersticas son: tendencia central, posicin, dispersin, asimetra y apuntamiento.

2.1 Medidas de tendencia central


Se usan para saber en torno a qu valor central se distribuyen los valores de una variable. Las medidas ms habituales son: media es la suma de todas las observaciones dividida por el tamao de la muestra. mediana es el valor que divide a la muestra ordenada en dos mitades con el mismo nmero de datos. media recortada es una media calculada despus de eliminar algunos datos extremos. Es ms robusta que la media pues no tiene en cuenta los valores atpicos. moda es el dato que posee la mayor frecuencia. En caso de empates pueden darse varias modas.

2.2 Medidas de localizacin


Son las que indican el valor que ocupa una determinada posicin en una distribucin. La medida ms simple de localizacin es la mediana que tambin es una medida de tendencia central, puesto que el 50% de los datos son menores o iguales que ella y el 50% de los datos son mayores o iguales. Los cuartiles Q 1, Q2 y Q3, son tres valores que dividen a la distribucin en cuatro partes iguales. El primer cuartil tiene un 25% de casos menores o iguales que dicho valor; el segundo cuartil coincide con la mediana y el tercer cuartil deja un 25% de valores superiores o iguales a l. Para obtenerlos, se calcula primero las posiciones de los cuartiles p(Q 1) y p(Q3) y a partir de ellas se extraen los valores

correspondientes. Las posiciones del primer y tercer cuartil (el segundo coincide con la mediana) son: p(Q 1)=(n+1)/4 y p(Q 3)=3(n+1)/4. Obtenidas las posiciones, si son enteras, se buscan los valores que las ocupan en la muestra ordenada. Si p(Q x) da un valor decimal se usa la frmula siguiente:

siendo la parte fraccionaria de p(Q x) y v i, vf los valores muestrales que ocupan las posiciones ms cercanas por defecto y por exceso a p(Qx), respectivamente. Los deciles (9 en total) y percentiles (99 en total) dividen a la distribucin en diez y cien partes iguales, respectivamente. Su forma de clculo es similar a la de los cuartiles.

2.3 Medidas de dispersin


Las ms utilizadas son: rango o amplitud que es la diferencia entre el mayor y el menor valor de la muestra. rango intercuartlico Q3-Q1, el intervalo [Q1,Q3] contiene al 50% central de los valores muestrales. varianza (s2) que mide el alejamiento medio de las diferencias al cuadrado de cada observacin a la media. Su definicin analtica es:

desviacin tpica o estndar (s) est medida en las mismas unidades que la variable y es la raz cuadrada positiva de la varianza.

2.4 Medidas de asimetra


Su objetivo es expresar mediante un valor la forma simtrica o asimtrica de la distribucin. Una forma es calcular el momento de orden 3 respecto de la media, es decir la media aritmtica de las desviaciones cbicas de los valores a la media:
_ 1 n m3 ( xi x)3 n i 1

. Para obtener medidas de asimetra independientes de las unidades de medida se tipifica la variable, dividiendo el momento por la desviacin tpica al cubo y se introduce un factor de correccin, obteniendo el coeficiente de asimetra Un valor del coeficiente asimetra, dado por el SPSS, mayor que 1 en valor absoluto expresa una asimetra significativa respecto de la normal.

Ejercicio 2
Considerar los datos siguientes: 3, 4, 5, 2, 3, 4, 5, 6, 4,7 Calcula con ayuda de una calculadora la media, rango, desviacin estndar, CV, los cuartiles, rango intercuartlico y los percentiles 30 y 80. Calcula la medida de asimetra Asim para decidir qu tipo de asimetra presentan estos datos. Para obtener los estadsticos con SPSS se usa el men Analizar/Estadsticos descriptivos/Descriptivos donde hay que seleccionar la variable o variables de inters y despus Opciones para escoger los estadsticos que interesan. Sin embargo con este men no se pueden obtener los percentiles. Para obtenerlos hay que usar Analizar/Estadsticos descriptivos/Frecuencias y entrar en la opcin Estadsticos en donde se seleccionan los percentiles deseados.

3. Representacin grfica de variables


La utilizacin de grficos es necesaria en Estadstica. Se pretende resumir la informacin de la muestra de forma grfica con fines clarificadores o para enfatizar y descubrir determinadas caractersticas que de otra forma sera muy difcil apreciar. Por otro lado, un grfico siempre es ms inmediato de comprender que un conjunto de estadsticos. Por ejemplo, podemos dar una matriz de distancias entre un conjunto de ciudades pero an teniendo esa informacin ser difcil que nos imaginemos su distribucin geogrfica si no se adjunta un grfico. Los grficos adecuados para representar variables discretas o categricas son diferentes de los de las continuas por lo que separaremos su estudio. 3.1 Grficos de variables discretas y categricas Los grficos ms utilizados en estadstica para representar variables discretas o categricas son los grficos de sectores y los diagramas de barras. Grficos de sectores Un grfico de sectores consiste en un crculo dividido en sectores de tamao proporcional a la frecuencia de cada valor de la variable. Se utilizan cuando hay pocos valores que representar. Para obtener un grfico de sectores con SPSS usaremos el men Grficos/Sectores y seleccionaremos una o varias variables apareciendo el cuadro de dilogo siguiente:

cuyas opciones pasamos a comentar. Resmenes para grupos de casos Genera un grfico en el que cada sector corresponde a un valor de la variable seleccionada. El tamao del sector se determina por la opcin Los sectores representan, esta opcin aparece en el cuadro de dilogo que surge despus de apretar el botn Definir del cuadro anterior. Por ejemplo, supongamos que queremos representar los valores de la variable provin en un

diagrama de sectores donde los sectores representan el nmero de casos de cada provincia. El grfico de sectores podra ser as:

Tambin es posible que los sectores representen otra cosa, como la media de los valores de otra variable, el valor mximo, etc...; esto se consigue con la opcin Otra funcin resumen. Se puede tambin editar el grfico haciendo doble clic sobre l, con posibilidad de cambiar colores, tramas, desgajar sectores, etc. Resmenes para distintas variables Permite que los sectores representen variables en lugar de grupos de casos. Cada sector representa una funcin de una determinada variable (por ejemplo, la suma de los valores de sus casos). Por ejemplo, las puntuaciones de 10 alumnos a tres profesores de Estadstica han sido las siguientes: Prof1 Prof2 Prof3 7,5 6,8 6,5 9,5 6,0 8,1 5,0 8,3 6,0 5,5 6,3 5,5 5,0 7,0 4,2 6,8 3,5 7,5 6,5 4,0 8,1 7,9 7,0 8,5 5,0 7,0 5,0 8,5 8,0 6,0

Podemos representar grficamente con un diagrama de sectores la suma de las puntuaciones a estos tres profesores para ver si difieren mucho y para ver el respaldo relativo. Para ello, despus de

introducir los datos en SPSS y elegir la opcin que estamos tratando, podemos obtener el siguiente grfico de sectores, en donde se observa, por ejemplo, que la suma de las puntuaciones al Prof2 es de 56,30 y que representan un 28,7% de la suma de todas las puntuaciones (es decir su respaldo relativo).

Ejercicio 3:
Construir un diagrama de sectores donde se observe la suma del Ph en cada provincia

Diagramas de barras
Sobre un eje horizontal se representan los distintos valores de una variable discreta o categrica. Sobre cada valor se levanta un rectngulo vertical cuya base est separada de las contiguas. En un eje de escala vertical se representa una caracterstica numrica de la variable como el nmero de casos, o bien otra funcin resumen que puede estar asociada a otra variable, etc. Los diagramas de barras permiten utilizar mayor nmero de valores que los grficos de sectores. Son ms verstiles que los grficos de sectores y al igual que con stos tambin se pueden conseguir efectos especiales como 3D, giros e iluminaciones. Para generar un diagrama de barras con SPSS se utilizan los mens Grficos/Barras y Grficos/Interactivos/Barras. Consultar la ayuda de SPSS para una descripcin ms detallada.

Ejercicio 4:
Construir un diagrama de barras donde se observe la suma del Ph en cada provincia

3.2 Grficos de variables continuas


Bsicamente se utilizan tres tipos de grficos para las representaciones de una nica variable continua: Histogramas, Diagramas de tallo y hojas y Diagramas de caja. Estudiaremos tambin los diagramas de dispersin para representar dos variables continuas.

Histogramas
Parecidos en forma a los diagramas de barras, pero atencin: su uso se restringe nicamente a las variables numricas. Los histogramas representan frecuencias agrupadas de una variable continua sobre intervalos. A diferencia de los diagramas de barras, los histogramas dibujan rectngulos unidos entre s, lo que significa que existe una continuidad en la variable cuyos valores se representan en el eje horizontal. El eje horizontal se halla dividido en intervalos de igual amplitud (SPSS no permite alterar esta propiedad), sobre los que se elevan rectngulos de altura proporcional a su frecuencia. Por lo tanto, las reas de los rectngulos son proporcionales a las frecuencias que representan. Los histogramas se pueden editar haciendo doble clic con el botn izquierdo del ratn, lo que permite alterar el nmero de clases, su amplitud, etc. La grfica de un histograma puede ser muy distinta para los mismos datos, simplemente variando el nmero de clases, por lo que la eleccin del nmero de

clases debe hacerse con cuidado. En la figura siguiente, el histograma de la izquierda se ha obtenido con el nmero de clases fijado por defecto por SPSS, en este caso 27. El histograma de la derecha solamente tiene 10 clases (fijado por el usuario). En ambos casos se ha superpuesto una curva normal con media y desviacin estndar coincidentes con las de la muestra para ver su parecido. Para obtener un histograma con SPSS se utilizan los mens Grficos/Histograma o Grficos/Interactivos/Histograma.

Para cambiar el nmero de intervalos que el SPSS realiza por defecto en un histograma, se hace lo siguiente: Si realizamos un histograma no interactivo (por medio de Grficos/Histograma), una vez realizado el grfico, pinchamos 2 veces en el mismo y pasamos al men de grficos. En l, pinchamos Diseo/Ejes e Intervalo, y abrimos un men para cambiar los valores por defecto.

Diagramas de caja A diferencia de los otros grficos ya vistos, los diagramas de caja hacen nfasis en las medidas de posicin. Es muy til para hacer comparaciones entre muestras de distintas poblaciones. Un diagrama de caja consiste en un rectngulo cuya longitud es el rango intercuartlico, dividido por un segmento a la altura de la mediana y complementado por dos lneas (llamadas bigotes) que parten de los extremos del rectngulo, cuya longitud no supera 1,5 veces el rango intercuartlico y que intentan alcanzar los valores mnimo y mximo observados. Para obtener un diagrama de caja con SPSS se selecciona el men Grficos/Diagrama de cajas. Por ejemplo:

8
45 191 209 222

PH

4
N= 100 100 100

ALICANTE

CASTELLON

VALENCIA

Provincia

Aqu, cada provincia est representada por una caja que muestra los niveles de ph. Se puede observar diferencias en cuanto la situacin de la mediana y a la dispersin. Por ejemplo, se observa que en Valencia los niveles de ph son inferiores a los de Castelln y que presentan una ligera mayor dispersin. Los casos extremos -si los hay- se representan por smbolos especiales a cuyo lado aparece el nmero de caso. Tambin nos da idea de la simetra de los datos, por ejemplo una mediana descentrada - dentro del rectngulo- nos indicara una asimetra. En este ejemplo podemos decir que las distribuciones son bastante simtricas tanto en Valencia, Castelln como en Alicante. El diagrama de cajas puede ser editado para su modificacin, haciendo doble clic sobre sus elementos. Se puede alterar ttulo, pie, anotaciones, leyenda y los valores y etiquetas de los ejes; las lneas como los ejes, las lneas de referencia y los bordes, la escala, el relleno y trama de la caja y los casos atpicos y extremos.

Ejercicio 5
Construye un histograma de la variable sulfato de los casos de la provincia de Valencia. El nmero de casos debe ser igual a 12

Construye un diagrama de cajas de la variable sulfato para comparar entre las provincias de Valencia, Castelln y Alicante. Identifica los casos extremos.

Diagramas de Dispersin. Regresin. Este tipo de diagramas nos permite realizar dibujos de datos X Y. Simplemente, pinchando en Grficos/Dispersin, y eligiendo el diagrama de dispersin simple, se abre un men para introducir la variable X y la variable Y. A continuacin, se dibujar una nube de puntos o diagrama de dispersin Una vez realizado el grfico, pinchamos 2 veces en el mismo y pasamos al men de grficos. Una vez en l podemos cambiar el diseo de los puntos, el color, se podr unir los puntos mediante una lnea...

Ejercicio 6
Abre el fichero de datos Datos de empleados.sav. Realizar un diagrama de dispersin de la variable salario (salario actual de los empleados) (variable Y) frente a la variable salini (salario que cobraban los empleados al entrar en la empresa) (variable X). Puede decirse que aquellos empleados que cobraban ms al principio cobran ms en la actualidad?

La representacin de un diagrama de dispersin es un paso previo para la realizacin de un estudio de regresin entre 2 variables: Una vez realizado un grfico de dispersin, se pincha sobre el grfico y aparece un m

Ejercicio 7
Dibuja la recta de regresin que relaciona las 2 variables consideradas en el ejercicio anterior. Calcula el coeficiente de correlacin r.

PRCTICA 3

INTERVALOS DE CONFIANZA

TEST DE HIPTESIS

1. Anlisis de una muestra con el SPSS


En este apartado describimos el uso del SPSS para el anlisis de una muestra mediante la obtencin de intervalos de confianza y la resolucin de contrastes de hiptesis, todos ellos referidos a la media de la poblacin de la que proviene la muestra.

Una vez abierto un banco de datos, por ejemplo AMBIENTE, podemos invocar el procedimiento Prueba T para una muestra, eligiendo el men Analizar/Comparar medias/Prueba T para una muestra, con lo que aparece la siguiente pantalla:

Esta pantalla nos permitir obtener intervalos de confianza y resolver contrastes para las medias de aquellas variables que seleccionemos y, con el puntero, situemos en la ventana de Contrastar Variables. Por su parte, el Valor de prueba nos permite introducir el valor que define la hiptesis nula ( 0 ). Por ltimo, si seleccionamos Opciones aparece una ventana en la que podemos introducir el coeficiente (porcentaje) de confianza deseado para el intervalo. Por defecto es del 95%. Se activa, entonces, el botn Aceptar, y al pulsarlo, el SPSS muestra en el Visor de resultados, bajo el ttulo de Estadsticos para una muestra, el tamao de la muestra, la media, la desviacin tpica y el error estndar de la media. A continuacin, bajo el ttulo de Prueba para una muestra, encontramos el estadstico del contraste (t), los grados de libertad (gl), el P-valor bilateral, la diferencia de medias y un intervalo de confianza para la diferencia 0 . (Por ejemplo, los resultados siguientes se obtienen seleccionando la variable PH con un valor de prueba 7).
Estadsticos para una muestra

N PH 300

Media 5.923131

Desviacin tpica. .540562

Error tpico de la media 3.121E-02

5
Prueba para una muestra

Valor de prueba = 7 95% Intervalo de Diferencia de medias -1.076869 confianza para la Inferior -1.138287 Superior -1.015451

t PH -34.505

gl 299

Sig. (bilateral) .000

Es importante tener en cuenta que el contraste que realiza el SPSS es el siguiente:

por lo que el P-valor aparece como sig.(bilateral), es decir, corresponde siempre al contraste bilateral o no direccional. Por tanto, si el problema que queremos resolver involucra un contraste unilateral o direccional debemos adaptar dicho P-valor.

La Prueba T es vlida siempre que el tamao muestral sea suficientemente grande o, en caso contrario, cuando la muestra provenga de una poblacin con distribucin normal. En la siguiente Seccin veremos cmo comprobar si se satisface esta ltima condicin.

Ejercicio 1:
En estudios previos se concluy que el nivel medio de sulfato era de 5.1. Confirman los datos del fichero AMBIENTE las conclusiones de dichos estudios?

La prueba T para muestras independientes (o prueba t para dos grupos) compara la media de una nica variable para sujetos de un grupo con la de otro grupo. Responde a preguntas del tipo: Dadas dos muestras independientes de datos normales, tienen la misma media?, esto es: H0: X = Y. Por ejemplo con el fichero Datos de empleados.sav podramos contrastar la variable Salario actual segn el sexo. Para lo cual se divide la muestra segn la variable sexo, utilizando esta como variable de agrupacin, definiendo los grupos mediante los valores de la variable h y m

Estadsticos de grupo Desviacin tp. $19,499.214 $7,558.021 Error tp. de la media $1,213.968 $514.258

Salario actual

Sexo Hombre Mujer

N 258 216

Media $41,441.78 $26,031.92

Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas Sig. (bilate ral) .000 .000

Prueba T para la igualdad de medias 95% Intervalo de confianza para la diferencia Inferior Superior $12,643.322 $12,816.728 $18,176.401 $18,002.996

F Salario actual Se han asumido varianzas iguales No se han asumido varianzas iguales 119.67

Sig. .000

t 10.95 11.69

gl 472 344

Diferencia de medias $15,409.86 $15,409.86

Error tp. de la diferencia $1,407.906 $1,318.400

Con esta prueba, como vemos se realiza un test de igualdad de varianzas, y se realiza el test de igualdad de medias en ambos casos. Se nos da tambin el intervalo de confianza para la diferencia de medias en ambos casos. Otro contraste que podramos llevar a cabo con la misma variable es ver si hay diferencias significativas del salario para mayores de 45 aos. Rompiendo la variable edad en dos grupos, en Definir grupos utilizamos punto de corte 45. Un procedimiento grfico para este test consiste en usar las Barras de error, proporcionando intervalos de confianza para la media al 95%.
50000 40000 38000 36000 40000 34000 32000

95% IC Salario actual

95% IC Salario actual


258 216

30000 28000 26000 24000


N= 370 104

30000

20000
N=

Hombre

Mujer

No

Sexo

Clasificacin tnica

En ambos casos se aprecia diferencia significativa en el salario tanto por sexo como por pertenecer o no a minora tnica. La prueba T para muestras relacionada(o apareadas) comprueba si la media de diferencias por casos entre dos variables difiere de 0. El diseo del estudio para esta prueba implica medir cada sujeto dos veces, antes y despus de una intervencin. Por ejemplo, se puede realizar un test a alumnos antes de asistir a un curso y despus de haberlo recibido. Comparando si se ha mejorado con la realizacin de dicho curso.

En el caso de la variable salario inicial y salario actual, podramos comparara si el salario inicial medio es igual al salario actual medio.

Prueba Binomial
Para utilizar este contraste hay que elegir los mens Anlizar/Pruebas no paramtricas/Binomial La prueba Binomial contrasta las hiptesis de que una variable procede de una poblacin binomial con una probabilidad especificada de que ocurra un evento. La variable puede tener dos valores solamente. Esta prueba es el test de hiptesis clsico para una proporcin: H0: p = po En el fichero Datos de empleados.sav podramos contrastar si el porcentaje de empleados pertenecientes a una minoria tnica es igual al resto. Por defecto contrasta con 0.5.

Ejercicio 2 1. Las manadas de lobos son territoriales, con territorios de 130 km2 o ms. Se piensa que los aullidos de los lobos, que comunican informacin tanto de la situacin como de la composicin de la manada, estn relacionados con la territorialidad. Se obtuvieron los siguientes valores de la variable X, duracin en minutos de una sesin de aullidos de una determinada manada sometida a estudio.

Suponemos que X est normalmente distribuida. 1.0 1.8 1.6 1.5 2.0 1.8 1.2 1.9 1.7 1.6 1.6 1.7 1.5 1.4 1.4 1.4 Calcular intervalos de confianza al 95% y al 90% para la duracin media de una sesin de aullidos. Confirman estos datos que la duracin media es superior a 1.5 minutos? 2. Una empresa de mercenarios est interesada en estudiar un nuevo tipo de interrogatorio para que un preso cante por soleares, hacindole cosquillas en los cataplines con un cactus. Para su estimacin, se le aplica este tercer grado a 10 presos sospechosos de guardar en su nevera armas de destruccin masiva, y se anota el nmero de carcajadas que el to logra dar hasta que ya acusa hasta a su madre que falleci antes que Franco: 60.12, 66.8, 43.5, 56.23, 58.96, 45.86, 77.6, 56.29, 60.15, 12.65 Obtener un intervalo de confianza para la media del nmero de carcajadas que lanza un preso en su interrogatorio.

3. Se tienen algunos indicios de que el consumo de tabaco tiende a provocar problemas de tos. Para estudiar esta hiptesis, se seleccionaron 11 individuos antes y despus de fumarse una cajetilla de tabaco, y se midi el nmero de tosidos por minuto que realizaban, obteniendo los datos siguientes: Antes: 25 25 27 44 30 67 53 53 52 60 28 43

Despus: 27 29 37 56 46 82 57 80 61 59

Hay suficiente evidencia estadstica (al nivel de significacin 0.01) a favor de la hiptesis de que los fumadores tosen ms que los no fumadores?

4. En el fichero Datos de empleados.sav, comprobar si se puede considerar que el salario para hombres y mujeres es el mismo.

You might also like