Professional Documents
Culture Documents
con Spss
UNIVERSIDAD PABLO DE OLAVIDE
2
Ejercicios con SPSS
Ejercicio Spss 1. La siguiente tabla muestra una lista de las medidas del consumo
diario de calorías, en kilocalorías por kilogramo, de muestras de mujeres adolescentes
que padecían algún trastorno emocional y mujeres sanas:
Se pide:
1
Ejercicios con SPSS
Peso 56 58 59 60 65 72 74 75
Número de
7 8 10 10 12 9 8 6
individuos
2
Ejercicios con SPSS
SOLUCIÓN:
3
Ejercicios con SPSS
4
Ejercicios con SPSS
5
Ejercicios con SPSS
Este gráfico sale por defecto al usar la opción “Explorar”. También se puede realizar
usando el menú desplegable de “Gráficos\Generador de gráficos”
Valor máximo si no hay valores atípicos
Cuartil 3
Mediana
Cuartil 1
Valor mínimo si no hay valores atípicos.
Edad 23 24 25 26 21 23 27 32 25 24 26 27 24 22
Turno trabajo: M M M T T M M T T T T M T M
Mañana/Tarde
a) Crea una tabla en la que se indiquen las frecuencias para la variable turno de
trabajo.
b) Realiza un estudio descriptivo de la variable Nivel de satisfacción (media,
mediana, varianza, desviación típica, rango, rango intercuartílico, asimetría y
curtosis).
c) ¿Qué nivel de satisfacción máximo es percibido por el 40% de los usuarios con
menor percepción?
d) Calcula los cuartiles, el rango y rango intercuartílico de la variable edad.
Interpreta los resultados.
e) Estudia el nivel de satisfacción (media, mediana, varianza, desviación típica,
asimetría y curtosis) en función del turno de trabajo en el uso del laboratorio.
f) Crea el gráfico de sectores para la variable cualitativa.
SOLUCIÓN:
6
Ejercicios con SPSS
En este ejercicio los datos no están agrupados y tenemos 14 filas que corresponden
con los 14 individuos encuestados. Esto nos hace descartar la opción de ponderar
datos.
a) Crea una tabla en la que se indiquen las frecuencias para la variable “turno de
trabajo”.
7
Ejercicios con SPSS
c) ¿Qué nivel de satisfacción máximo es percibido por el 40% de los usuarios que
menor puntuación asignan?
8
Ejercicios con SPSS
9
Ejercicios con SPSS
Interpretación:
Este resultado nos indica que los datos centrales están muy concentrados. De hecho
la curtosis es muy superior a cero (g2>>0 en concreto vale 2’77) lo que indica que la
distribución es muy leptocúrtica o picuda.
Para calcular la mayoría de los estadísticos que se solicitan en este apartado sería
suficiente resolverlo con “explorar”. Sin embargo, nótese que también se pide la
moda y esta opción no la ofrece “explorar”. Por ello resolvemos el apartado
utilizando el botón “estadísticos” de la opción “frecuencias”.
10
Ejercicios con SPSS
Obsérvese que en la esquina inferior nos pone el programa que los datos están
divididos por turno de trabajo.
11
Ejercicios con SPSS
Los resultados obtenidos para cada turno de trabajo son los siguientes:
En primer lugar, para poder hacer el gráfico de la variable “turno de trabajo”, que es la
cualitativa, con todos los datos, es necesario anular la división del archivo, o quitar la
segmentación de los datos, que antes se ha realizado. Para ello basta con volver a
seleccionar la opción “Analizar todos los casos” del menú desplegable “Datos/Dividir
archivo” o “Datos/Segmentar archivo”, según la versión.
12
Ejercicios con SPSS
13
Ejercicios con SPSS
Ahora el gráfico está totalmente definido y nos indica el porcentaje de personas que
hay en el estudio según el turno de trabajo.
Dicho gráfico puede ser editado para mejorar su presentación de forma que pinchando
2 veces sobre el gráfico entramos en el editor del gráfico. Tras unos retoques el gráfico
anterior puede sustituirse por el siguiente:
14
Ejercicios con SPSS
Sexo H H H H M M H M M M H M
Edad 18 23 17 42 16 25 26 17 21 26 31 24
Nivel Potasio 3,6 4 4,6 3,3 3,7 4,1 4,2 3,9 3,8 4,2 4,1 3,2
(mmol/L)
SOLUCIÓN:
En primer lugar definimos las variables, introducimos los datos y decidimos si hay que
ponderar o no la base de datos.
15
Ejercicios con SPSS
16
Ejercicios con SPSS
17
Ejercicios con SPSS
18
Ejercicios con SPSS
Para hacer un estudio descriptivo básico de una variable cuantitativa, como es el nivel
de potasio, pero distinguiendo según las categorías de una variable cualitativa, lo más
rápido es la opción “Explorar”, siempre que sea posible. Si no es posible ya se ha visto
como dividiendo el fichero de datos podemos realizar estudios estadísticos por grupos.
En este apartado se opta por la opción explorar. Para ello se introducen las variables
según se indica a continuación:
Variable
cuantitativa que
deseamos estudiar
Variable cualitativa
por la que debemos
hacer los grupos
19
Ejercicios con SPSS
20
Ejercicios con SPSS
Consumo cigarrillos
[1-3) [3-10) [10-20) [20-40) [40-65)
Nivel nicotina
[0- 3ng/ml) 25 12 3 1 0
[3- 50ng/ml) 18 42 35 12 2
[50- 200ng/ml) 2 16 27 54 45
[200- 800ng/ml) 0 2 4 31 65
SOLUCIÓN:
En primer lugar introducimos los datos. Se debe tener en cuenta que las variables
consumo de cigarrillos y nivel de nicotina son variables que están indicadas en
intervalos.
Lo primero que se hace es definir las variables, todas continuas.
Posteriormente se introducen los datos de forma que para cada intervalo se ofrece la
marca de clase ((Ii+Ii+1)/2):
21
Ejercicios con SPSS
22
Ejercicios con SPSS
Activamos el botón “si la opción” e introducimos la condición que tienen que satisfacer
los individuos seleccionados:
23
Ejercicios con SPSS
24
Ejercicios con SPSS
Además se observa cómo el programa crea una variable filtro donde se indican con 1
los elementos seleccionados y con 0 los no seleccionados.
Una vez seleccionados los datos correctamente se realiza la tabla de frecuencias que
nos dará la distribución condicionada solicitada en el enunciado:
c) ¿Cuántos cigarrillos consumen al día, como máximo, el 25% de los jóvenes que
menos fuman?
Para poder dar respuesta a esta pregunta lo primero que debemos hacer es eliminar la
selección anterior para poder contar con todos los individuos. Para ello se desactiva la
opción “seleccionar casos” tal y como se observa en la pantalla siguiente:
Ahora que se cuenta con el total de los datos se resuelve el apartado calculando el
percentil 25 de la variable “consumo de cigarrillos”.
Ojo con no confundir la variable con la variable filtro creada anteriormente por el
programa.
25
Ejercicios con SPSS
Esto hay que indicarlo a la hora de hacer los percentiles y se hace seleccionando la
opción “los valores son puntos medios de grupos”.
El número de cigarrillos máximo consumidos al día, por el 25% de los jóvenes que
menos fuman es 8’670.
Para calcular el nivel mínimo de nicotina que supera el 90% de los estudiantes hay
que obtener el P10 de la variable “nivel de nicotina”. Se haría de forma similar al
apartado anterior y el resultado es el siguiente:
26
Ejercicios con SPSS
El resultado es:
27
Ejercicios con SPSS
Los resultados obtenidos se calculan sobre los 117 estudiantes que cumplen la
condición y son los siguientes:
28
Ejercicios con SPSS
Sexo M M H H H M H H M M H M
Fruta 5 3 3 3 3 4 2 2 4 1 3 0
Horas ejercicio 1 0 4 2 2 3 0 0 2 1 2 0
(Continuación)
Sexo M H H H M H M M
Fruta 5 5 3 0 2 4 2 3
Horas ejercicio 4 4 1 0 2 2 1 3
29
Ejercicios con SPSS
SOLUCIÓN:
Y por último se decide si hay o no que ponderar. En este caso no hay que
ponderar puesto que los datos vienen ofrecidos de forma individual.
Para realizar el estudio descriptivo que se solicita podemos utilizar la opción “explorar”.
Esta opción permite, como ya se ha visto, disponer de una tabla con los estadísticos
descriptivos principales. Además se pueden solicitar los percentiles más importantes, y
entre ellos se encuentran los cuartiles, y hacer un estudio por grupos.
30
Ejercicios con SPSS
A continuación se repite el análisis pero diferenciando los resultados por sexo. Para
ello se sigue utilizando la opción “explorar” y basta con indicar en ”lista de factores” la
variable de agrupación.
31
Ejercicios con SPSS
Para analizar el consumo de fruta para los chicos y las chicas usamos se puede
utilizar la opción “Explorar” como se ha indicado en el apartado anterior. Sin embargo,
en esta ocasión se opta por la opción “Dividir archivo” o “Segmentar archivo”. El
resultado buscado es el siguiente:
32
Ejercicios con SPSS
En ocasiones anteriores se ha
activado la opción “Comparar los
grupos”. Ahora utilizaremos la
opción “Organizar los resultados
por grupos”. Estas dos opciones
simplemente varían en la forma
de presentar los resultados.
Los estadísticos calculados se ofrecen de forma separada para los chicos y para
las chicas, siendo las tablas resultantes las que se ofrecen a continuación:
33
Ejercicios con SPSS
Basta con seleccionar la opción “dividir” y activar la opción “Analizar todos los casos.
No crear grupos”.
Introducimos en el
eje de las ordenadas
(Y) la variable IMC y
de forma automática
calcula la media.
En el eje de las coordenadas X
se introduce la variable Sexo.
34
Ejercicios con SPSS
35
Ejercicios con SPSS
Para estudiar analíticamente la asociación lineal que existe entre las variables lo que
se procede es a calcular el Coeficiente de Correlación de Pearson junto con la recta de
regresión y su coeficiente de bondad de ajuste o fiabilidad o determinación.
36
Ejercicios con SPSS
El Coeficiente de Correlación de Pearson es negativo lo que indica
que la relación entre las variables es inversa. Además no es muy
elevado y eso señala que la relación es moderada.
37
Ejercicios con SPSS
Para hacer una predicción con el modelo anterior lo que se procede es a incluir en los
datos el nuevo valor para la variable X. En el caso estudiado queremos predecir Y
para un X=5.
Realizada la regresión el programa crea una variable nueva que indica los valores
pronosticados por la regresión según la recta antes indicada. Es decir, muestra los
valores en la vista de datos:
38
Ejercicios con SPSS
Lo que hace concluir que para un consumo de frutas de 5 unidades al día el IMC
ascendería a 16’68138.
Evidentemente la variable IMC es una variable que depende mucho, entre otros
factores, del género. Ello hace pensar que el análisis conjunto de hombres y
mujeres no sea en este caso el más adecuado puesto que la variable
dependiente está muy relacionada con el género del individuo.
39
Ejercicios con SPSS
El gráfico resultante es el
siguiente:
Otra opción podría haber sido dividir el archivo por sexo y realizar un gráfico de
dispersión como el que se realizó en el apartado anterior.
40
Ejercicios con SPSS
Ahora el coeficiente r=-0’923 lo que evidencia una relación inversa muy fuerte
entre el consumo de frutas y el IMC para las mujeres.
El modelo es:
IMCmujer=17’822-0’335 Xfrutas_mujer
41
Ejercicios con SPSS
Resultados SEXO=HOMBRE
IMChombres=20’035-0’573 Xfrutas_hombre
En este caso el modelo, basado en el consumo de frutas, explica para los
hombres el 74’7% de la variablidad del IMC, tal y como muestra la siguiente
tabla.
42
Ejercicios con SPSS
Días baja
Calidad Salario Edad (últimos 3 Satisfacción personal
meses)
1,0 2,0 35 24 1
1,3 4,0 46 20 1
1,4 4,0 26 20 2
1,5 4,0 28 19 1
1,8 6,0 44 18 1
2,0 6,2 25 12 2
2,3 5,5 36 10 2
3,0 6,6 46 7 3
4,0 7,1 47 6 3
4,3 7,1 43 4 5
4,6 7,9 40 4 5
5,0 9,0 62 2 6
5,4 9,2 56 3 6
5,6 10,0 54 3 5
6,5 10,5 58 2 6
7,0 10,6 46 3 8
7,4 10,8 47 1 6
7,9 10,7 31 1 7
8,0 11,2 40 1 7
8,5 11,6 60 1 8
8,8 13,0 58 0 7
9,0 15,0 46 0 9
a) Estudio de la relación lineal que existe entre calidad de vida y las diferentes
variables recogidas.
b) Estudio no lineal de la calidad de vida en función del nivel de satisfacción
personal.
c) Análisis del modelo de regresión múltiple tomando la calidad de vida como
variable dependiente. Estudio de las correlaciones y las correlaciones
parciales. ¿Qué variables son las más convenientes para el modelo múltiple
finalmente? ¿Cuáles son eliminada?
43
Ejercicios con SPSS
SOLUCIÓN:
a) Estudio de la relación lineal que existe entre calidad de vida y las diferentes
variables recogidas.
44
Ejercicios con SPSS
45
Ejercicios con SPSS
46
Ejercicios con SPSS
Estadísticos principales de
las variables estudiadas
Coeficiente de
correlación Lineal de
Pearson= R
Coeficiente de
determinación
Coeficientes de regresión
Según los resultados anteriores, podemos deducir que la recta que explica la calidad
de vida en términos del salario mensual viene dada por:
Calidad de vida=-1,805+0.802*Salario
47
Ejercicios con SPSS
48
Ejercicios con SPSS
Podemos observar que el modelo que arroja el mejor R2 es el modelo cúbico cuya
ecuación sería:
Para realizar el modelo de regresión lineal múltiple, al realizar la regresión lineal como
en el apartado a) consideramos todas las variables explicativas como independientes,
como se muestra a continuación:
49
Ejercicios con SPSS
De hecho, ente las variables salario mensual y días de baja, existe una relación lineal
inversa fuerte (R=-0.898) y además, la variable salario mensual y satisfacción personal
también presentan una fuerte correlación positiva (R=0.938). El hecho de presentar
una relación entre variables independientes mostrará posteriormente que no deben
ser incluidas en la ecuación de la recta.
50
Ejercicios con SPSS
51
Ejercicios con SPSS
52
Ejercicios con SPSS
SOLUCIÓN:
53
Ejercicios con SPSS
54
Ejercicios con SPSS
Por lo que del total de los 650 empleados investigados, el 25’4% tiene contrato fijo y sí
se da de baja en el último año.
Para obtener el resultado solicitado en este apartado se opera igual que en el anterior
pero se selecciona la opción “casillas/porcentaje/filas” tal y como se muestra a
continuación:
55
Ejercicios con SPSS
Con ello se concluye que de los trabajadores que tienen contrato en prácticas, el 48%
sí se da de baja y el 52% no se da de baja.
Para obtener la información solicitada calculamos la tabla de doble entrada con las
casillas “porcentaje por columnas”, siendo el resultado el siguiente:
Para estudiar si existe o no relación entre las variables activamos la opción chi-
cuadrado del botón “Estadísticos”.
Con ello se calculará el test de independencia para variables cualitativas Chi cuadrado
de Pearson. Este test estudia si las dos variables cualitativas son independientes o
están asociadas.
56
Ejercicios con SPSS
Para decidir sobre la asociación o no asociación de las variables “tipo de contrato” y “si
se da de baja” observamos el valor que nos da como Sig.asintótica (dos caras) para el
valor Chi-cuadrado de Pearson.
Nota importante: para que este test tenga validez un porcentaje inferior al 20% de
casillas debe tener un recuento menor que 5 y todos los recuentos mínimos esperados
deben ser superior a 1.
Conocida ya que las variables tienen relación es posible medir el grado de esta
relación. Para ello puede calcularse el coeficiente Phi y algunos más, en los que no
profundizaremos.
57
Ejercicios con SPSS
Ejercicio Spss 10. Un investigador del centro CAMBIO de la UPO está realizando
su tesis doctoral sobre la bacteria A y sus entornos de aparición. Una de sus hipótesis
más importantes es que la bacteria aparece con mayor frecuencia si el clima es
húmero. Para probar su hipótesis estudia 350 muestras en el laboratorio, simulando
climas seco y húmedo, siendo los datos que obtiene los siguientes:
a) Dar una tabla de doble entrada con las frecuencias relativas conjuntas. ¿En
qué porcentaje de muestras realizadas en un entorno húmedo no aparece la
bacteria A?
b) Del total de muestras en las que aparece la bacteria A, ¿qué porcentaje de
ellas se dan con clima seco y qué porcentaje de ellas se dan con clima
húmedo?
c) ¿Son independientes el clima y la aparición de la bacteria A?
SOLUCIÓN:
En primer lugar se definen las variables e introducen en Spss los datos. Para ello es
necesario crear 3 variables tal y como se observa a continuación
Como los datos no están dados de forma individual hay que ponderar el fichero de
datos por la variable Frecuencia. Es necesario indicar en Spss que la fila primera se
debe repetir 34 veces y así con todos los datos.
Una vez definidos correctamente los datos procedemos a estudiar las relaciones que
puedan existir entre las dos variables cualitativas. Todo ello se realiza con la opción
Analizar/ Estadísticos descriptivos/ “Tablas cruzadas” (en versiones anteriores Tablas
de contingencia).
58
Ejercicios con SPSS
a) Dar una tabla de doble entrada con las frecuencias relativas conjuntas. ¿En
qué porcentaje de muestras realizadas en un entorno húmedo no aparece la
bacteria A?
En este apartado lo que se pide es la tabla con los porcentajes “total” mediante la
activación de la siguiente opción dentro de “casillas”
Esta opción permite estudiar los porcentajes de cada cruce entre las variables con
respecto al total de muestra estudiada.
La tabla de doble entrada con las frecuencias relativas conjuntas que ofrece Spss es:
59
Ejercicios con SPSS
Para comprobar que estamos haciendo la tabla correcta hay que observar el total de la
columna que como se ve ofrece un total del 100% en cada categoría.
A partir de ella podemos afirmar que del 100% de los casos en los que sí aparece la
bacteria, el 19’5% de ellos se da en clima seco mientras que el 80’5% de los casos se
da en un clima húmedo.
Esta información descriptiva nos da ya una idea de que las variables cualitativa
pueden estar relacionadas, de forma que con un clima húmedo hay una mayor
incidencia de la aparición de la bacteria A.
60
Ejercicios con SPSS
Como se observa
se cumplen los
requisitos para la
aplicación del test
Para estudiar el grado de la relación se opta por activar los coeficientes Phi, V de
Cramer y Coeficiente de contingencia.
Dichos coeficientes indican un alto grado de relación entre las variables pues son muy
cercanos a 1 en valor absoluto.
61
Ejercicios con SPSS
Inferencia
Ejercicio Spss 11. Los valores sobre la producción en kg de 50 olivos de una finca
de regadío son los siguientes:
112 114 106 114 100 116 108 113 106 105
120 106 110 100 106 117 109 108 105 106
62
Ejercicios con SPSS
63
Ejercicios con SPSS
y pulsando Opciones para establecer el nivel de confianza del 90% nos queda:
para obtener:
64
Ejercicios con SPSS
P‐valor del contraste
Intervalo de
confianza para la
diferencia entre el
verdadero valor de
Prueba para una muestra
la media y el valor
Valor de prueba = 100
90% Intervalo de
confianza para la
Diferencia diferencia
t gl Sig. (bilateral) de medias Inferior Superior
Producción 5,482 49 ,000 8,380 5,82 10,94
65
Ejercicios con SPSS
Casos
Válidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
Producción 50 100,0% 0 ,0% 50 100,0%
66
Ejercicios con SPSS P‐valor para el
P‐valor para el
contraste de
contraste de
normalidad
lid d
Producción
Gráfico Q-Q normal de Producción Gráfico Q-Q normal sin tendencias de Producción
4 0,5
0,4
2
0,3
Normal esperado
Desv. de normal
0,2
0,1
0,0
-2
-0,1
-4 -0,2
80 90 100 110 120 130 140 80 90 100 110 120 130 140
Valor observado Valor observado
Ejercicio Spss 12. Una central de productos lácteos recibe diariamente la leche de
dos granjas A y B. Deseando estudiar la calidad de los productos recibidos se extraen
dos muestras, una de cada granja (independientes), y se analiza el contenido de
materia grasa, obteniendo los siguientes resultados:
67
Ejercicios con SPSS
SOLUCIÓN:
Realizaremos los dos apartados simultáneamente. En primer lugar, definimos las
variables e introducimos los datos como se muestran en la siguiente pantalla.
68
Ejercicios con SPSS
Dado que queremos contrastar si el contenido medio de grase es igual para ambas
granjas (grupos), la variable a contrastar será “Contenido de materia grasa” y por tanto
la variable de agrupación es la variable “Granja”.
Seleccionando Definir grupos para rellenar el siguiente cuadro donde definimos los
diferentes grupos según el código que le hayamos dado a la variable “Granja”:
obteniendo:
69
Ejercicios con SPSS
Estadísticos de grupo
Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
99% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
Contenido de Se han asumido
,037 ,849 -,501 26 ,621 -,00312 ,00624 -,02047 ,01422
materia grasa varianzas iguales
No se han asumido
-,497 23,205 ,624 -,00312 ,00628 -,02076 ,01451
varianzas iguales
70
Ejercicios con SPSS
A B
70 10 90 10
80 15 100 15
90 40 110 40
100 25 120 25
110 10 130 10
SOLUCIÓN:
En primer lugar, definimos las variables e introducimos los datos como aparece en la
pantalla.
a) Para realizar el análisis hay que ponderar por la variable “Número de cultivos”:
Datos / Ponderar casos
71
Ejercicios con SPSS
y pulsamos Opciones para establecer el nivel de confianza del 95% nos queda:
72
Ejercicios con SPSS
Valor de prueba = 95
95% Intervalo de
confianza para la
Diferencia diferencia
t gl Sig. (bilateral) de medias Inferior Superior
Inversión en
5,719 199 ,000 6,000 3,93 8,07
investigación (en €/Ha)
73
Ejercicios con SPSS
y seleccionando Definir grupos aparece una ventana que se rellena como sigue:
obteniendo:
74
Ejercicios con SPSS
Obtenemos:
Prueba T
Estadísticos de grupo
Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
Inversión en Se han asumido
,000 1,000 -12,899 198 ,000 -20,000 1,550 -23,058 -16,942
investigación (en €/Ha) varianzas iguales
No se han asumido
-12,899 198,000 ,000 -20,000 1,550 -23,058 -16,942
varianzas iguales
75
Ejercicios con SPSS
76
Ejercicios con SPSS
y seleccionando Si obtenemos una ventana que tenemos que rellenar como sigue:
77
Ejercicios con SPSS
Valor de prueba = 80
95% Intervalo de
confianza para la
Diferencia diferencia
t gl Sig. (bilateral) de medias Inferior Superior
Inversión en
10,033 99 ,000 11,000 8,82 13,18
investigación (en €/Ha)
78
Ejercicios con SPSS
En segundo lugar, sólo nos interesan los cultivos relativos a la línea de investigación B
para lo que hacemos la secuencia:
Datos / Seleccionar casos
y seleccionando Si obtenemos una ventana que tenemos que rellenar como sigue:
79
Ejercicios con SPSS
Ejercicio Spss 14. En una granja manchega se han seleccionado doce corderos
lechales correspondientes al primer semestre del año 2004 y otros doce corderos
lechales correspondientes al segundo semestre de año 2004, siendo sus respectivos
pesos en kg:
Semestre
23’5 20’8 21’6 25’7 24’2 20’2 19’7 21’9 22’6 24’5 21’7 22’6
1
Semestre
22’9 22’6 23’4 25’0 25’1 24’4 22’2 24’9 21’5 25’5 23’3 24’6
2
80
Ejercicios con SPSS
a) Tenemos que contrastar la normalidad de los datos, es decir, hay que comprobar la
normalidad de los pesos de los corderos lechales correspondientes al primer y
segundo semestres. Para este contraste SPSS nos proporciona el test de Kolmogorov-
Smirnov (para cualquier tamaño muestral) y el test de Shapiro-Wilk (para tamaños
muestrales menores de 50). Siempre que podamos utilizaremos el test de Shapiro-
Wilk, ya que el test de Kolmogorov-Smirnov es muy conservador.
81
Ejercicios con SPSS
Observamos que tenemos seleccionados sólo los corderos lechales del segundo
semestre, por lo que en primer lugar hay que quitar el filtrado que hicimos en el
apartado anterior.
Para hacer el contraste sobre la normalidad de los datos hacemos la secuencia:
Analizar / Estadísticos descriptivos / Explorar
Para hace el apartado a)
Prueba de normalidad
Para hace el apartado b)
Prueba de homocedasticidad
para obtener:
Casos
Válidos Perdidos Total
Semestre N Porcentaje N Porcentaje N Porcentaje
Peso (en kg) 1 12 100,0% 0 ,0% 12 100,0%
2 12 100,0% 0 ,0% 12 100,0%
82
Ejercicios con SPSS
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Semestre Estadístico gl Sig. Estadístico gl Sig.
Peso (en kg) 1 ,126 12 ,200* ,976 12 ,961
2 ,182 12 ,200* ,935 12 ,435
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors
Puesto que el tamaño muestral es menor de 50, nos fijaremos en el test de Shapiro-
Wilk. Para el primer semestre el p-valor (0’961) es > 0’05 y para el segundo semestre
el p-valor (0’435) es > 0’05, por lo que no hay evidencias para rechazar la hipótesis
nula de normalidad al 5% de significación, es decir, no hay evidencias para rechazar la
normalidad de las muestras de los pesos de los corderos lechales para cada uno de
los semestres al 5% de significación.
b) Para analizar la homocedasticidad (igualdad de varianzas) aplicaremos el test de
Levene:
Tal y como hemos estudiado en el apartado anterior, para realizar el test utilizamos la
opción: Analizar / Estadísticos descriptivos / Explorar
El test que aplicamos tiene las siguientes hipótesis:
Los resultados obtenidos para el test de Levene (que nos evalúa si las muestras son
homocedásticas) vienen registrados en la siguiente tabla:
Estadístico
de Levene gl1 gl2 Sig.
Peso (en kg) Basándose en la media ,816 1 22 ,376
Basándose en la
,789 1 22 ,384
mediana.
Basándose en la
mediana y con gl ,789 1 17,075 ,387
corregido
Basándose en la media
,814 1 22 ,377
recortada
H0: 1 = 2
H1: 1 ≠ 2
83
Ejercicios con SPSS
y seleccionando Definir grupos aparece una ventana que se rellena como sigue:
y pulsando Opciones para establecer el nivel de confianza del 95% nos queda:
84
Ejercicios con SPSS
para obtener:
Estadísticos de grupo
Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
Peso (en kg) Se han asumido
,816 ,376 -2,124 22 ,045 -1,3667 ,6433 -2,7009 -,0325
varianzas iguales
No se han asumido
-2,124 20,024 ,046 -1,3667 ,6433 -2,7085 -,0248
varianzas iguales
H0: 2 = 22
H1: 2 ≠ 22
En este apartado sólo nos interesan los corderos lechales del segundo semestre, para
lo que hacemos la secuencia:
Datos / Seleccionar casos
85
Ejercicios con SPSS
y seleccionando Si obtenemos una ventana que tenemos que rellenar como sigue:
De esta forma, sólo tenemos seleccionados los corderos lechales del segundo
semestre. Para realizar el análisis hacemos la secuencia:
Analizar / Comparar medias / Prueba T para una muestra
86
Ejercicios con SPSS
y pulsando Opciones para establecer el nivel de confianza del 95% nos queda:
para obtener:
Valor de prueba = 22
95% Intervalo de
confianza para la
Diferencia diferencia
t gl Sig. (bilateral) de medias Inferior Superior
Peso (en kg) 4,733 11 ,001 1,7833 ,954 2,613
A partir de la tabla “Prueba para una muestra”, en el contraste de hipótesis del peso
medio de los corderos lechales del segundo semestre igual a 22 kg el p-valor (0’001)
es < 0’05, por lo que hay evidencias para rechazar la hipótesis nula de media igual a
87
Ejercicios con SPSS
22 a un nivel de significación del 5%, es decir, se rechaza que el peso medio de los
corderos lechales del segundo semestre sea de 22 kg al 5% de significación.
A partir de la tabla “Prueba para una muestra”, un intervalo de confianza para el peso
medio de los corderos lechales del segundo semestre al 95% de coeficiente de
confianza es (22 + 0’954 , 22 + 2’613) = (22’954 , 24’613). Observamos que dicho
intervalo de confianza para la media no contiene el valor 22, con lo cual podemos
afirmar que el peso medio de los corderos lechales del segundo semestre no es de 22
kg con un nivel de confianza del 95%.
Ejercicio Spss 15. Un instituto dietético desea comparar dos dietas, para lo cual se
extrae una muestra de veinte individuos con exceso de peso, aplicándose la dieta A a
diez de ellos y la B a los restantes. Después de un tiempo (considerado suficiente para
que las dietas tengan efecto), se comprobaron las pérdidas de peso en kg
experimentadas por los individuos. Suponiendo que las pérdidas de peso se
distribuyen normalmente, ¿se puede aceptar que la pérdida media de peso es la
misma en ambas dietas? Trabajar con un nivel de confianza del 90%.
Dieta A Dieta B
SOLUCIÓN:
Lo primero que hacemos es introducir los datos tal y como se muestra en la pantalla
siguiente.
88
Ejercicios con SPSS
Para contrastar si la pérdida media de peso es la misma en ambas dietas, hay que
plantear un contraste sobre la igualdad de medias:
H0: A = B
H1: A ≠ B
y seleccionando Definir grupos aparece una ventana donde indicamos los códigos
para cada grupo.
89
Ejercicios con SPSS
para obtener:
Prueba T
Estadísticos de grupo
Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
90% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
Pérdida de peso (en kg) Se han asumido
3,605 ,074 1,047 18 ,309 ,5200 ,4968 -,3414 1,3814
varianzas iguales
No se han asumido
1,047 12,594 ,315 ,5200 ,4968 -,3619 1,4019
varianzas iguales
90
Ejercicios con SPSS
Ejercicio Spss 16. Un experto en nutrición está comparando las dietas de dos
colegios mayores masculinos. Para ello extrae dos muestras independientes de
alumnos de cada uno de los colegios. Suponiendo que los pesos de los alumnos se
distribuyen normalmente, ¿se puede aceptar que los pesos medios de los alumnos de
ambos colegios son los mismos? Trabajar con un nivel de significación del 1%. Los
datos obtenidos se muestran en la siguiente tabla:
Número de alumnos
Peso (en kg)
Colegio mayor A Colegio mayor B
76 0 2
78 1 3
80 2 0
81 1 3
82 1 1
83 1 1
87 1 0
88 2 0
89 1 0
SOLUCIÓN:
Para proceder a estudiar el análisis que nos piden hay que realizar el contraste
paramétrico “prueba T para muestras independientes”, debido a que nos indican en el
enunciado que la hipótesis necesaria de normalidad se cumple.
Una vez introducidos los datos tal y como aparece en la siguiente pantalla debemos
ponderar los datos por la variable “Número de alumnos” o ”Frecuencia” pues vienen
expresados de forma agrupada.
91
Ejercicios con SPSS
Para contrastar si los pesos medios son los mismos en ambos colegios, hay que
plantear un contraste sobre la igualdad de medias:
H0: A = B
H1: A ≠ B
92
Ejercicios con SPSS
y seleccionando Definir grupos aparece una ventana que se rellena como sigue:
y pulsando Opciones para establecer el nivel de confianza del 99% nos queda:
para obtener:
Estadísticos de grupo
Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
99% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
Peso (en kg) Se han asumido
5,142 ,036 2,798 18 ,012 4,200 1,501 -,121 8,521
varianzas iguales
No se han asumido
2,798 15,038 ,013 4,200 1,501 -,222 8,622
varianzas iguales
93
Ejercicios con SPSS
Ejercicio Spss 17. Un experto en nutrición desea conocer si los pesos medios de
atletas muestreados en cuatro ciudades europeas son iguales o por el contrario
difieren. Se obtuvo una muestra de diez atletas en cada ciudad. Los datos se
presentan a continuación:
78 78 79 77
88 78 73 69
87 83 79 75
88 81 75 74
83 78 77 74
82 81 78 83
81 81 80 80
80 82 78 75
80 76 83 76
89 76 84 75
94
Ejercicios con SPSS
a) Tenemos que contrastar la normalidad de los datos, es decir, hay que comprobar la
normalidad de los pesos de los atletas de las ciudades A, B, C y D. Para este
contraste SPSS nos proporciona el test de Kolmogorov-Smirnov (para cualquier
tamaño muestral) y el test de Shapiro-Wilk (para tamaños muestrales menores de 50).
Siempre que podamos utilizaremos el test de Shapiro-Wilk, ya que el test de
Kolmogorov-Smirnov es muy conservador (tiende a no rechazar).
95
Ejercicios con SPSS
Para hace el apartado a)
Prueba de normalidad
Para hace el apartado b)
Prueba de homocedasticidad
para obtener:
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Ciudad Estadístico gl Sig. Estadístico gl Sig.
Peso (en kg) A ,200 10 ,200* ,893 10 ,183
B ,239 10 ,112 ,899 10 ,215
C ,152 10 ,200* ,966 10 ,849
D ,215 10 ,200* ,924 10 ,390
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors
96
Ejercicios con SPSS
para obtener la salida del test de Levene (que nos evalúa si las muestras son
homocedásticas):
Estadístico
de Levene gl1 gl2 Sig.
Peso (en kg) Basándose en la media ,939 3 36 ,432
Basándose en la
,635 3 36 ,597
mediana.
Basándose en la
mediana y con gl ,635 3 27,309 ,599
corregido
Basándose en la media
,943 3 36 ,430
recortada
H0: μA = μB = μC = μD
97
Ejercicios con SPSS
Por si no hemos
realizado el contraste
de Levene con
anterioridad.
98
Ejercicios con SPSS
para obtener:
ANOVA de un factor
Descriptivos
ANOVA
Como sig=0’000 rechazamos que los pesos de los atletas sean iguales en las distintas
ciudades. Existen diferencias significativas en el peso de las distintas ciudades.
Para estudiar en qué ciudades se dan estas diferencias analizamos comparaciones
múltiples: Pruebas post hoc
Comparaciones múltiples
99
Ejercicios con SPSS
En esta tabla se observa como el peso en la ciudad A es distinto al peso de los atletas
en las ciudades C y D. Así mismo se aprecia como el peso en las ciudades B, C y D
pueden considerarse iguales.
Subconjuntos homogéneos
A partir de la tabla “ANOVA”, el p-valor asociado al contraste es 0’000 < 0’05 luego
hay evidencias para rechazar la hipótesis nula al 5% de significación, es decir, hay
evidencias para rechazar que los pesos medios de los atletas en las diferentes
ciudades son iguales al 5% de significación. En consecuencia, existen diferencias
significativas en los pesos medios de los atletas en las diferentes ciudades al 5% de
significación.
A través de la tabla “Comparaciones múltiples” del test de Scheffé podemos averiguar
en qué ciudades se producen estas diferencias. Concretamente, observamos que
existen diferencias significativas en cuanto al peso medio de los atletas de la ciudad A
con las ciudades C y D al 5% de significación. Por otra parte, la tabla “Peso (en kg)”
nos indica que los pesos medios de los atletas de las ciudades B, C y D pueden
considerarse iguales al 5% de significación, y que los pesos medios de los atletas de
las ciudades A y B también pueden considerarse iguales al 5% de significación.
Ejercicio Spss 18. En una cooperativa vinícola manchega se elabora vino a partir
de cinco variedades de uva. Al final del proceso de elaboración del vino y antes de su
filtrado se obtienen residuos, cuya mayor o menor concentración se mide en tantos por
ciento:
A B C D E
100
Ejercicios con SPSS
Suponemos que las muestras han sido elegidas de forma aleatoria y son
independientes. Contrastar, con un nivel de significación del 5%, la hipótesis de que
las cinco variedades de uvas son iguales en cuanto a la cantidad de residuos que
generan. Tipo de contraste que vamos a hacer: contraste de hipótesis de
igualdad de medias en todas las variedades de uva: media uva
SOLUCIÓN: A= media uva B= media uva C,... Con que una no se verifique
En primer lugar introducimos los datos: ya tendremos la hipótesis contraria.
H0: μA = μB = μC = μD = μE
101
Ejercicios con SPSS
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Variedad de vino Estadístico gl Sig. Estadístico gl Sig.
Concentración de A ,257 5 ,200* ,847 5 ,185
residuos (en B ,271 6 ,192 ,817 6 ,083
tantos por ciento) C ,375 6 ,008 ,725 6 ,011
D ,172 6 ,200* ,969 6 ,889
E ,264 6 ,200* ,819 6 ,087
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors
Puesto que el tamaño muestral es menor de 50, nos fijaremos en el test de Shapiro-
Wilk. Para la variedad de vino A el p-valor (0’185) es > 0’05, por lo que no hay
evidencias para rechazar la hipótesis nula de normalidad de la muestra de las
concentraciones de residuos en la variedad de vino A al 5% de significación.
Para la variedad de vino B el p-valor (0’083) es > 0’05, por lo que no hay evidencias
para rechazar la hipótesis nula de normalidad de la muestra de las concentraciones de
residuos en la variedad de vino B al 5% de significación.
Para la variedad de vino C el p-valor (0’011) es < 0’05, por lo que hay evidencias
para rechazar la hipótesis nula de normalidad de la muestra de las
concentraciones de residuos en la variedad de vino C al 5% de significación.
Para la variedad de vino D el p-valor (0’889) es > 0’05, por lo que no hay evidencias
para rechazar la hipótesis nula de normalidad de la muestra de las concentraciones de
residuos en la variedad de vino D al 5% de significación.
102
Ejercicios con SPSS
Para la variedad de vino E el p-valor (0’087) es > 0’05, por lo que no hay evidencias
para rechazar la hipótesis nula de normalidad de la muestra de las concentraciones de
residuos en la variedad de vino E al 5% de significación.
Para analizar la homocedasticidad (igualdad de varianzas) aplicaremos el test de
Levene:
Estadístico
de Levene gl1 gl2 Sig.
Concentración de Basándose en la media 7,875 4 24 ,000
residuos (en Basándose en la
tantos por ciento) 1,783 4 24 ,165
mediana.
Basándose en la
mediana y con gl 1,783 4 11,627 ,199
corregido
Basándose en la media
6,457 4 24 ,001
recortada
103
Ejercicios con SPSS
y seleccionando Definir rango aparece una ventana que se rellena como sigue:
obteniendo:
104
Ejercicios con SPSS
Prueba de Kruskal-Wallis
Rangos
Rango
Variedad de vino N promedio
Concentración de A 5 13,10
residuos (en B 6 20,08
tantos por ciento) C 6 16,00
D 6 9,00
E 6 16,50
Total 29
Estadísticos de contrastea,b
Concentració
n de residuos
(en tantos por
ciento)
Chi-cuadrado 5,645
gl 4 P-valor mayor que el alpha, aceptamos por tanto la hipótesis nula: que
Sig. asintót. ,227 era que todas las muestras proceden de la misma población: no hay
evidencia para afirmar que las muestras son distintas
a. Prueba de Kruskal-Wallis
b. Variable de agrupación: Variedad de vino
Conservantes A 18’3 13’5 12’6 14’7 13’2 14’8 13’6 12’8 23’1 14’8
14’9 12’2 14’5 25’1 12’9 15’0 11’4 13’2 18’5 10’2
Conservantes B 26’0 19’4 13’8 17’0 9’4 18’8 16’3 19’9 13’9 19’2
14’2 13’0 16’5 21’2 15’3 22’8 17’6 13’1 15’8 16’9
105
Ejercicios con SPSS
SOLUCIÓN:
Tenemos que contrastar la normalidad de los datos, es decir, hay que comprobar la
normalidad de las duraciones de los yogures bajo los conservantes A y B. Para este
contraste SPSS nos proporciona el test de Kolmogorov-Smirnov (para cualquier
tamaño muestral) y el test de Shapiro-Wilk (para tamaños muestrales menores de 50).
Siempre que podamos utilizaremos el test de Shapiro-Wilk, ya que el test de
Kolmogorov-Smirnov es muy conservador.
Para hacer el contraste sobre la normalidad de los datos introducimos los datos tal y
como aparecen en la siguiente pantalla y activamos la secuencia:
106
Ejercicios con SPSS
para obtener:
Tipo de conservante
Casos
Válidos Perdidos Total
Tipo de conservante N Porcentaje N Porcentaje N Porcentaje
Duración (en A 20 100,0% 0 ,0% 20 100,0%
cientos de horas) B 20 100,0% 0 ,0% 20 100,0%
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Tipo de conservante Estadístico gl Sig. Estadístico gl Sig.
Duración (en A ,296 20 ,000 ,817 20 ,002
cientos de horas) B ,101 20 ,200* ,980 20 ,937
En el
*. Este es un límite inferior de la significación verdadera.
conservan
te A no se
a. Corrección de la significación de Lilliefors
verifica ,
rechazo
Puesto que el tamaño muestral es menor de 50, nos fijaremos en el test de Shapiro- H0,
Wilk. Para el conservante A el p-valor (0’002) es < 0’05, por lo que hay evidencias rechazo
para rechazar la hipótesis nula de normalidad de la muestra de las duraciones de los normalida
yogures bajo el conservante A al 5% de significación. d
Para el conservante B el p-valor (0’937) es > 0’05, por lo que no hay evidencias para
rechazar la hipótesis nula de normalidad de la muestra de las duraciones de los
yogures bajo el conservante B al 5% de significación.
Tenemos que contrastar si la duración de los yogures bajo el conservante A es igual o
no a la duración de los yogures bajo el conservante B, pero para ello debemos tener
en cuenta el resultado anterior: Una de las poblaciones analizadas no se distribuye
según una variable aleatoria normal.
Esto tiene mucha importancia a la hora de hacer el test que me piden ya que no
puedo usar las técnicas paramétricas del test T de student de igualdad de medias,
vistas hasta ahora.
H0: Las poblaciones de las que provienen las muestras están equidistribuidas.
H1: Las poblaciones de las que provienen las muestras no están equidistribuidas.
107
Ejercicios con SPSS
y seleccionando Definir grupos aparece una ventana que se rellena como sigue:
108
Ejercicios con SPSS
Prueba de Mann-Whitney
Rangos
Rango Suma de
Tipo de conservante N promedio rangos
Duración (en A 20 16,40 328,00
cientos de horas) B 20 24,60 492,00
Total 40
Duración
(en cientos
de horas)
U de Mann-Whitney 118,000
W de Wilcoxon 328,000
Z -2,218
Sig. asintót. (bilateral) ,027 El p-valor es menor que alpha y por tanto rechazamos H0
Sig. exacta [2*(Sig. a
,026
unilateral)]
a. No corregidos para los empates.
b. Variable de agrupación: Tipo de conservante
109
Ejercicios con SPSS
6’1 9’2 11’5 8’6 12’1 3’9 8’4 10’1 9’4 8’9
Ejercicio Spss 21. Los siguientes datos corresponden al tiempo de respuesta (en
meses) de dos tratamientos nutricionales A y B sobre dos muestras independientes de
adolescentes bulímicas. Suponiendo que el tiempo de respuesta se distribuye
normalmente, comprobar si existen diferencias significativas entre el tiempo medio de
respuesta de los dos tratamientos a un nivel de significación del 10%.
A 0’7 1’2 0’8 1’4 1’1 0’9 1’0 1’3 0’4 0’2
0’6 1’1 0’7 1’2 0’9 0’1 0’6 0’5 1’1 0’8
B 0’6 1’4 0’7 0’9 1’1 0’6 0’5 0’8 1’5 0’1
Dado que la varianza del tiempo de respuesta es igual en ambos tratamientos (p-valor
del test de Levene igual a 0.776>0.10), el p-valor para la prueba T para muestras
independiente, suponiendo varianzas iguales es de 0’606>0’10. Por tanto no podemos
rechazar que el tiempo medio de respuesta sea igual con ambos tratamientos.
Comprimido vitamínico A 13 14 21 19 15 15
Comprimido vitamínico B 18 19 20 22 31 26
110
Ejercicios con SPSS
Ejercicio Spss 23. Se ensayaron dos tratamientos dietéticos sobre dos grupos de
diez pacientes anoréxicos, con referencia a una escala convencional (a mayor
puntuación, mayor eficacia), valorada después del tratamiento. Los resultados fueron:
Tratamiento I 12 15 21 17 38 42 10 23 35 28
Tratamiento II 21 18 25 14 52 65 40 43 35 42
111
Ejercicios con SPSS
Tamaño presa
5’0 26’0 7’4 7’0 10’5 3’0 7’1 9’9 30’0 11’3
(Dinopis)
Tamaño presa
20’0 6’9 10’9 23’0 10’1 5’3 3’0 10’3 30’0 8’8
(Menneus)
Dado que el p-valor para la normalidad de los datos correspondientes al primer tipo de
araña es inferior a 0’05, existen evidencias para rechazar la normalidad de los datos
a un nivel de significación del 5%.
Los datos en la segunda muestra se distribuyen según una ley normal ya que su p-
valor es mayor que 0’05.
c) ¿Se puede considerar que el tamaño de las presas en cada una de las especies es
el mismo?
Dado que los datos en la primera muestra no proceden de una distribución normal, no
podemos aplicar la prueba T para muestras independientes. Aplicamos una prueba no
paramétrica. El p-valor correspondiente al test de U de Mann_whitney es de 0’762 y
por tanto se puede considerar que el tamaño de las presas es igual para ambos tipos
de arañas a un nivel de significación del 5%.
112
Ejercicios con SPSS
A B C
14 13 13
16 14 12
15 15 11
17 16 14
15 14 11
Hombres 72’0 73’4 76’0 73’6 76’0 74’5 76’8 72’8 73’0 74’9
77’0 78’6 75’8 76’1 76’4 74’9 73’8 76’2 76’3 76’4
Mujeres 71’0 71’6 71’8 72’0 75’0 73’0 74’0 74’5 74’6 73’8
73’6 75’0 75’3 72’6 71’3 76’0 75’8 72’0 74’0 73’8
113
Ejercicios con SPSS
c) Estudiar si puede considerarse que el peso medio tanto en los hombres como en
las mujeres es igual. Asimismo, dar un intervalo de confianza para la diferencia de
medias al 95%.
114