You are on page 1of 116

Prácticas de Bioestadística

con Spss
 

 
UNIVERSIDAD PABLO DE OLAVIDE

DEPARTAMENTO DE ECONOMÍA, MÉTODOS CUANTITATIVOS E


HISTORIA ECONÓMICA

  2
Ejercicios con SPSS     

Prácticas de Estadística con SPSS

Creación de una base de datos con Spss. Definición de variables e introducción de


datos

Ejercicio Spss 1. La siguiente tabla muestra una lista de las medidas del consumo
diario de calorías, en kilocalorías por kilogramo, de muestras de mujeres adolescentes
que padecían algún trastorno emocional y mujeres sanas:

Consumo diario de calorías (kcal/kg)

Trastornadas emocionalmente Saludables

15,9 18,9 20,7 30,6

16,0 19,6 22,4 33,2

16,5 21,5 23,1 33,7

17,0 21,6 23,8 36,6

17,6 22,9 24,5 37,1

18,1 23,6 25,3 37,4

18,4 24,1 25,7 40,8

18,9 24,5 30,6

Se pide:

a) Definir las variables correspondientes en SPSS e introducir los datos.


b) Seleccione únicamente aquellas adolescentes sanas y calcule la media de
calorías diarias ingeridas. Usar opción seleccionar casos.
c) Calcule para ambos grupos de adolescentes el valor mínimo y la moda (valor
más frecuente de la variable) del consumo de calorías. Usar la opción
Segmentar fichero (dividir archivo).
d) Representa en un gráfico de barras el consumo medio de calorías para cada
grupo.
e) Introduzca una nueva variable que sea el tiempo diario (en horas) que dedica a
realizar ejercicio físico. Usar la opción introducir variable.
f) Complete la variable para cada grupo a partir de la siguiente tabla.


 
Ejercicios con SPSS     

Tiempo dedicado a realizar ejercicio físico

Trastornadas emocionalmente Saludables

2,00 1,00 1,00 1,0

1,00 1,50 1,50 0,20

1,50 1,30 0,30 0,30

2,15 1,45 0,00 0,45

2,15 2,00 0,30 0,15

1,45 2,15 0,15 1,00

2,00 2,30 0,30 0,45

2,00 2,20 1,20

g) Seleccione aquellas adolescentes que realizan al menos media hora de


ejercicio físico al día.
h) Seleccione aquellas adolescentes enfermas que realizan como máximo 2 hora
de ejercicio diario.

Ejercicio Spss 2. Ejercicio Práctico 2: En la siguiente tabla se recogen los pesos


de una muestra de 70 individuos estudiados.

Peso 56 58 59 60 65 72 74 75
Número de
7 8 10 10 12 9 8 6
individuos

a) Definir las variables correspondientes en SPSS e introducir los datos.


b) Calcular la media para aquellos individuos que pesan más o igual a 60 kg.


 
Ejercicios con SPSS     

Análisis Estadístico de datos. Estudio descriptivo y de relaciones entre variables.

Ejercicio Spss 3. Sean las variables ph y tiempo de reacción ante un químico de


14 muestras estudiadas en el laboratorio, donde se recogen los siguientes datos:

Ph 4,5 5 5,4 6 4,2 7,2 8 6,4 5 5,1 4 5,6 7,9 5

Tiempo reacción (en 40 45 30 19 42 12 10 20 35 31 39 26 14 26


min)

Con esta información se pide:

a) Realizar un estudio descriptivo de las variables ph y tiempo (media, mediana,


moda, varianza, desviación típica, rango, rango intercuartílico, asimetría y
curtosis).
b) Realiza un histograma con la curva normal para la variable ph.
c) Dibuja e interpreta el gráfico cajas y bigotes para la variable tiempo.

SOLUCIÓN:

a) Realizar un estudio descriptivo de las variables ph y tiempo (media, mediana,


moda, varianza, desviación típica, rango, rango intercuartílico, asimetría y
curtosis).

En primer lugar introducimos las variables Ph y tiempo y metemos los datos.


En este caso no hay que ponderar los datos puesto que vienen dados
individualmente.

Una vez introducidos los datos se procede a hacer el estudio descriptivo de


cada variable. Para ello usamos la opción “explorar”:


 
Ejercicios con SPSS     

Introducimos las variables que queremos estudiar en la lista de variables


dependientes:

Nota importante: Debemos tener en cuenta que si hacemos el análisis a la vez


de todas las variables el programa solo toma las filas de datos que tengan
contenido en todas las variables, es decir, si alguna tiene datos faltantes y la
otra no, el programa no tendrá en consideración esos datos.

Los resultados son los siguientes:


 
Ejercicios con SPSS     

b) Realiza un histograma con la curva normal para la variable ph.


Para ello optamos por la opción “Analizar\Estadísticos descriptivos\
Frecuencias” activando el histograma en el botón Gráficos:


 
Ejercicios con SPSS     

c) Dibuja e interpreta el gráfico cajas y bigotes para la variable tiempo.

Este gráfico sale por defecto al usar la opción “Explorar”. También se puede realizar
usando el menú desplegable de “Gráficos\Generador de gráficos”

Valor máximo  si no hay valores  atípicos 

Cuartil 3  

Mediana 

Cuartil 1 

Valor mínimo si no hay valores atípicos. 

Ejercicio Spss 4. Dos jóvenes investigadores han elaborado una encuesta de


satisfacción para los usuarios de su laboratorio. Los datos recogidos son los
siguientes:

Edad 23 24 25 26 21 23 27 32 25 24 26 27 24 22

Nivel Satisfacción de 1-9 8 9 7 8 8 6 3 8 4 7 8 5 9 9

Turno trabajo: M M M T T M M T T T T M T M
Mañana/Tarde

a) Crea una tabla en la que se indiquen las frecuencias para la variable turno de
trabajo.
b) Realiza un estudio descriptivo de la variable Nivel de satisfacción (media,
mediana, varianza, desviación típica, rango, rango intercuartílico, asimetría y
curtosis).
c) ¿Qué nivel de satisfacción máximo es percibido por el 40% de los usuarios con
menor percepción?
d) Calcula los cuartiles, el rango y rango intercuartílico de la variable edad.
Interpreta los resultados.
e) Estudia el nivel de satisfacción (media, mediana, varianza, desviación típica,
asimetría y curtosis) en función del turno de trabajo en el uso del laboratorio.
f) Crea el gráfico de sectores para la variable cualitativa.

SOLUCIÓN:

En primer lugar introducimos las variables y los datos:


 
Ejercicios con SPSS     

Obsérvese que la variable Turno de trabajo es cualitativa y la introducimos como


numérica.

Para que no perdamos la información de las categorías lo que hacemos es añadir


valores a las etiquetas de cada categoría de dicha variable.

En este sentido le asignamos el 1 al turno de mañana y el 2 al turno de tarde.

Los datos quedan introducidos en la ventana “vista de datos” como sigue:

En este ejercicio los datos no están agrupados y tenemos 14 filas que corresponden
con los 14 individuos encuestados. Esto nos hace descartar la opción de ponderar
datos.

a) Crea una tabla en la que se indiquen las frecuencias para la variable “turno de
trabajo”.


 
Ejercicios con SPSS     

b) Realiza un estudio descriptivo de las variables Nivel de satisfacción (media,


mediana, varianza, desviación típica, rango, rango intercuartílico, asimetría y
curtosis).
Para calcular los estadísticos que nos piden lo que hacemos es utilizar la opción
“Explorar”.

c) ¿Qué nivel de satisfacción máximo es percibido por el 40% de los usuarios que
menor puntuación asignan?

En este apartado nos piden el percentil 40 de la variable “nivel de satisfacción”.


Para calcular el percentil solicitado usamos la opción “estadísticos” del menú
desplegable “Analizar\Estadísticos descriptivos\frecuencias”:


 
Ejercicios con SPSS     

Los resultados obtenidos son los


siguientes:

d) Calcula los cuartiles, el rango y rango intercuartílico de la variable edad.


Interpreta los resultados.

Para calcular los estadísticos descriptivos solicitados de la variable edad usamos la


opción “explorar”. Directamente esta opción calcula el rango y el rango intercuartílico
pero no calcula los cuartiles. Para obtener todos los resultados al mismo tiempo
activamos la opción cuartiles del botón “estadísticos”

Los resultados que se obtienen son los


siguientes:


 
Ejercicios con SPSS     

Interpretación:

El rango de las variables el igual a 11 lo que significa que la diferencia máxima de


edad entre el más joven y el mayor es 11 años de edad. En este rango de 11 años se
encuentran el 100% de los individuos investigados.

El rango intercuartílico nos ofrece el rango de variación o la amplitud de edad en la


que se encuentran el 50% de los individuos más centrados. En el ejemplo estudiado la
amplitud intercuartil es de 3 lo que nos indica que el 50% de los datos centrales está
muy concentrado en 3 años de diferencia.

Este resultado nos indica que los datos centrales están muy concentrados. De hecho
la curtosis es muy superior a cero (g2>>0 en concreto vale 2’77) lo que indica que la
distribución es muy leptocúrtica o picuda.

Nota: Si hacemos P75-P25=26’25-23=3’25 y aunque parece que no es el mismo


resultado que en la tabla sí lo es. La diferencia es que en la tabla de estadísticos el
valor de la amplitud intercuartil la da sin decimales. Si editamos la tabla y nos muestra
el valor completo de la amplitud intercuartil vemos que en realidad vale 3’25000.

El valor de los cuartiles son los siguientes:

P25= 23, P50= 24’5 y P75= 26’25

e) Estudia el nivel de satisfacción (media, mediana, moda, varianza, desviación


típica, asimetría y curtosis) en función del turno de trabajo en el laboratorio.

Para calcular la mayoría de los estadísticos que se solicitan en este apartado sería
suficiente resolverlo con “explorar”. Sin embargo, nótese que también se pide la
moda y esta opción no la ofrece “explorar”. Por ello resolvemos el apartado
utilizando el botón “estadísticos” de la opción “frecuencias”.

El problema es que nos piden el estudio de la satisfacción en función del “turno de


trabajo” y ello no lo permite la opción frecuencias. Una solución al problema es
“DIVIDIR” o “SEGMENTAR” la base de datos según la variable turno de trabajo y
posteriormente hacer el estudio estadístico independientemente para el turno de
mañana y el turno de tarde. Esto es la opción elegida en este caso.

Nota: Podríamos hacer lo mismo pero con la opción “SELECCIONAR CASOS” la


cual aplicaremos más adelante.

10 
 
Ejercicios con SPSS     

En primer lugar dividimos o segmentamos la base de datos con la opción:

Nota: La opción Comparar los


grupos y Organizar los resultados
hace lo mismo pero presenta los
resultados de forma diferente.

Obsérvese que en la esquina inferior nos pone el programa que los datos están
divididos por turno de trabajo.

Ahora estamos en disposición de hacer el análisis estadístico según la opción


“frecuencias” que se ha comentado:

11 
 
Ejercicios con SPSS     

Los resultados obtenidos para cada turno de trabajo son los siguientes:

f) Crea el gráfico de sectores para la variable cualitativa.

En primer lugar, para poder hacer el gráfico de la variable “turno de trabajo”, que es la
cualitativa, con todos los datos, es necesario anular la división del archivo, o quitar la
segmentación de los datos, que antes se ha realizado. Para ello basta con volver a
seleccionar la opción “Analizar todos los casos” del menú desplegable “Datos/Dividir
archivo” o “Datos/Segmentar archivo”, según la versión.

Ahora, para generar el gráfico le damos a “Generador de gráficos”.

12 
 
Ejercicios con SPSS     

Observamos que la variable “Turno de trabajo” tiene medida “Nominal”

La opción “Generador de gráficos” nos permite seleccionar el tipo de gráfico que


necesitamos e incluir las variables directamente.

Como el gráfico que queremos generar


es de sectores indicamos dicha opción
en la pestaña “Galería” y hacemos
doble clip en el gráfico de sectores. El
programa nos ofrece la siguiente
ventana de interacción con el usuario:

Arrastramos la variable turno de trabajo en el rectángulo que indica “¿Sectores por?”

13 
 
Ejercicios con SPSS     

Ahora el gráfico está totalmente definido y nos indica el porcentaje de personas que
hay en el estudio según el turno de trabajo.

Si le damos a Aceptar el gráfico generado es el siguiente:

Dicho gráfico puede ser editado para mejorar su presentación de forma que pinchando
2 veces sobre el gráfico entramos en el editor del gráfico. Tras unos retoques el gráfico
anterior puede sustituirse por el siguiente:

14 
 
Ejercicios con SPSS     

Ejercicio Spss 5. En un laboratorio de análisis clínicos se desea estudiar el nivel


de potasio de una muestra de pacientes sometido a un experimento. Para ello se
recogen los siguientes datos:

Sexo H H H H M M H M M M H M

Edad 18 23 17 42 16 25 26 17 21 26 31 24

Nivel Potasio 3,6 4 4,6 3,3 3,7 4,1 4,2 3,9 3,8 4,2 4,1 3,2
(mmol/L)

Con esta información se pide:

a) Tabla de frecuencias para la variable Sexo.


b) Estudio descriptivo de las variables Edad y Nivel de Potasio (media, mediana,
moda, varianza, desviación típica, asimetría y curtosis).
c) Representa gráficamente la variable Sexo indicando el porcentaje de pacientes
estudiados de cada categoría.
d) Realiza un estudio descriptivo para la variable “nivel de potasio” según el sexo
del paciente.
e) Crea un gráfico de barras para la variable sexo en el que se indique la media de
potasio para cada categoría.

SOLUCIÓN:
En primer lugar definimos las variables, introducimos los datos y decidimos si hay que
ponderar o no la base de datos.

Obsérvese que como la variable género es cualitativa, introducimos etiquetas a los


valores:

Una vez definidas las variables introducimos los datos:

15 
 
Ejercicios con SPSS     

Por último, decidimos si hay o no que


ponderar.

En este caso tenemos 12 individuos a


los que se les ha tomado información
sobre 3 variables y se observa como
tenemos 12 filas en el fichero de spss.
Esto nos indica que los datos están
ofrecidos de forma individual y no es
necesario ponderar.

Se procede a resolver las cuestiones solicitadas.

a) Tabla de frecuencias para la variable Sexo.

Para calcular la tabla de frecuencias se utiliza la opción frecuencias:

b) Estudio descriptivo de las variables Edad y Nivel de Potasio (media, mediana,


moda, varianza, desviación típica, asimetría y curtosis).

El estudio descriptivo se podría hacer como en otros apartados anteriores con la


opción explorar pero, obsérvese que, la “moda” no la ofrece en la tabla de estadísticos
descriptivos. Para poder calcular de una sola vez todos los estadísticos descriptivos lo
que se hace es usar la opción “frecuencias”.

Y seleccionando el botón “Estadísticos” le


solicitamos al programa que calcule los
estadísticos descriptivos que
necesitamos:

16 
 
Ejercicios con SPSS     

Los resultados obtenidos para ambas variables son los siguientes:

c) Representa gráficamente la variable Sexo indicando el porcentaje de pacientes


estudiados de cada categoría.

Para representar la variable categórica Sexo podemos utilizar un gráfico de barras o


uno de sectores, ambos válidos para variables cualitativas.

Para ello seleccionamos el Generador de gráficos

17 
 
Ejercicios con SPSS     

En este caso se realiza un gráfico de barras para la variable sexo.

El resultado del gráfico es, después de unas pequeñas modificaciones, el siguiente:

18 
 
Ejercicios con SPSS     

d) Realiza un estudio descriptivo para la variable “nivel de potasio” según el sexo


del paciente.

Para hacer un estudio descriptivo básico de una variable cuantitativa, como es el nivel
de potasio, pero distinguiendo según las categorías de una variable cualitativa, lo más
rápido es la opción “Explorar”, siempre que sea posible. Si no es posible ya se ha visto
como dividiendo el fichero de datos podemos realizar estudios estadísticos por grupos.

En este apartado se opta por la opción explorar. Para ello se introducen las variables
según se indica a continuación:
Variable 
cuantitativa que 
deseamos estudiar

Variable cualitativa 
por la que debemos 
hacer los grupos 

De esta forma sencilla, se genera la siguiente tabla de estadísticos descriptivos para la


variable “nivel de potasio”:

19 
 
Ejercicios con SPSS     

e) Crea un gráfico de barras para la variable sexo en el que se indique la media de


potasio para cada categoría.

Utilizando el generador de gráfico, introducimos (arrastrándola) la variable Sexo en el


eje de las X y la variable Nivel de potasio en el eje de ordenadas.

El gráfico generado, una vez editado y


modificado levemente el color y las
etiquetas, es el siguiente:

20 
 
Ejercicios con SPSS     

Ejercicio Spss 6. El Instituto de Estudios Sociológicos de la UPO desea realizar un


estudio sobre el consumo de tabaco en jóvenes y su relación con el nivel de nicotina
en sangre. En el estudio intervienen sociólogos y biotecnólogos de la UPO.
Estudian para una muestra de estudiantes el número de cigarrillos consumidos al día y
el nivel de nicotina en sangre tras una extracción. Los datos recogidos (agrupados)
son los siguientes:

Consumo cigarrillos
[1-3) [3-10) [10-20) [20-40) [40-65)
Nivel nicotina
[0- 3ng/ml) 25 12 3 1 0

[3- 50ng/ml) 18 42 35 12 2

[50- 200ng/ml) 2 16 27 54 45

[200- 800ng/ml) 0 2 4 31 65

a) Calcula las distribuciones marginales.


b) Estudia, mediante la tabla de frecuencia asociada, la distribución condicionada
del nivel de nicotina en sangre para aquellos jóvenes que consumen 20 o más
cigarrillos al día.
c) ¿Cuántos cigarrillos consumen al día, como máximo, el 25% de los jóvenes que
menos fuman?
d) ¿Qué nivel mínimo de nicotina supera el 90% de los estudiantes?
e) Realiza un estudio descriptivo del nivel de nicotina solamente para aquellos
estudiantes que consuman como mucho 9 cigarrillos al día.

SOLUCIÓN:
En primer lugar introducimos los datos. Se debe tener en cuenta que las variables
consumo de cigarrillos y nivel de nicotina son variables que están indicadas en
intervalos.
Lo primero que se hace es definir las variables, todas continuas.

Posteriormente se introducen los datos de forma que para cada intervalo se ofrece la
marca de clase ((Ii+Ii+1)/2):

21 
 
Ejercicios con SPSS     

Una vez introducidos los datos se debe


tener en cuenta si hace falta ponderar
(los datos están agrupados) o no.

En nuestro caso tenemos 20 filas en el


fichero de datos y sin embargo hemos
preguntado el consumo de cigarrillos a
396 individuos.

Esto significa que los datos que se


ofrece en el ejercicio y con los cuales
se debe trabajar están agrupados.

Esto hace necesario PONDERAR la


base de datos mediante la opción
“Datos\Ponderar casos”:

Introducimos la variable por la cual


debemos ponderar en el rectángulo
habilitado para ello.

Si se ha realizado correctamente la ponderación debe aparecer en la esquina


inferior “Ponderación activada” tal y como se muestra en la siguiente pantalla.

Ahora sí se tienen los datos preparados para su análisis estadístico.

22 
 
Ejercicios con SPSS     

a) Calcula las distribuciones marginales.

Las distribuciones marginales se obtienen realizando las correspondientes tablas de


frecuencia:

Estas tablas de frecuencia son


unidimensionales y ofrecen, para cada
variable la frecuencia absoluta, el
porcentaje y el porcentaje acumulado.

b) Estudia, mediante la tabla de frecuencia asociada, la distribución condicionada


del nivel de nicotina en sangre para aquellos jóvenes que consumen 20 o más
cigarrillos al día.

Para poder calcular la distribución condicionada “nivel_nicotina/ consumo≥20” en


primer lugar hay que seleccionar los individuos que cumplen la condición. Una vez
realizada la selección se tiene que calcular la tabla de frecuencias unidimensional para
la variable nivel_nicotina.

Por tanto, se procede a seleccionar a los individuos que cumplen la selección


“consumir 20 o más cigarrillos”. Esto se realiza mediante el menú desplegable:

Activamos el botón “si la opción” e introducimos la condición que tienen que satisfacer
los individuos seleccionados:

23 
 
Ejercicios con SPSS     

Es importante utilizar el ratón y los botones disponibles para introducir la selección. De


este modo se evitarán posibles errores.

Si le damos a continuar y luego a aceptar se observa cómo se han “tachado” los


individuos que NO cumplen la selección en la vista de datos. Esto indica que para
realizar los análisis estadísticos Spss solamente considera los datos no tachados.

24 
 
Ejercicios con SPSS     

Además se observa cómo el programa crea una variable filtro donde se indican con 1
los elementos seleccionados y con 0 los no seleccionados.

Una vez seleccionados los datos correctamente se realiza la tabla de frecuencias que
nos dará la distribución condicionada solicitada en el enunciado:

Se puede ver que ahora solamente hay


210 personas en el estudio de la
variable Nivel de nicotina.

c) ¿Cuántos cigarrillos consumen al día, como máximo, el 25% de los jóvenes que
menos fuman?

Para poder dar respuesta a esta pregunta lo primero que debemos hacer es eliminar la
selección anterior para poder contar con todos los individuos. Para ello se desactiva la
opción “seleccionar casos” tal y como se observa en la pantalla siguiente:

Ahora que se cuenta con el total de los datos se resuelve el apartado calculando el
percentil 25 de la variable “consumo de cigarrillos”.

Ojo con no confundir la variable con la variable filtro creada anteriormente por el
programa.

Para calcular el percentil solicitado usamos el botón “Estadísticos” de la opción


“Frecuencias”.

25 
 
Ejercicios con SPSS     

Además es importante tener en


consideración que los datos que se han
introducido son marcas de clase, es
decir, que las variables cuantitativas
que se han introducido partían de
variables agrupadas en intervalos.

Esto hay que indicarlo a la hora de hacer los percentiles y se hace seleccionando la
opción “los valores son puntos medios de grupos”.

Los resultados finalmente obtenidos son los siguientes:

El número de cigarrillos máximo consumidos al día, por el 25% de los jóvenes que
menos fuman es 8’670.

d) ¿Qué nivel mínimo de nicotina supera el 90% de los estudiantes?

Para calcular el nivel mínimo de nicotina que supera el 90% de los estudiantes hay
que obtener el P10 de la variable “nivel de nicotina”. Se haría de forma similar al
apartado anterior y el resultado es el siguiente:

26 
 
Ejercicios con SPSS     

El resultado es:

El resultado solicitado es 7’867 y corresponde con el nivel mínimo de nicotina


superado por el 90% de los individuos investigados.

e) Realiza un estudio descriptivo del “nivel de nicotina” solamente para aquellos


estudiantes que consuman como mucho 9 cigarrillos al día.

En primer lugar lo que se hace es seleccionar los estudiantes que verifican la


condición de consumir como mucho 9 cigarrillos al día.
Esto se hace, tal y como hemos visto antes con la opción “seleccionar casos” de
forma que introducimos la siguiente condición:

27 
 
Ejercicios con SPSS     

Una vez seleccionados los estudiantes que cumplen la condición, se procede a


realizar el estudio estadístico descriptivo con la opción “explorar”.
Nota: También sería posible hacer el estudio con frecuencias o descriptivos.

Ahora se procede a estudiar la variable “nivel de nicotina”:

Los resultados obtenidos se calculan sobre los 117 estudiantes que cumplen la
condición y son los siguientes:

28 
 
Ejercicios con SPSS     

Ejercicio Spss 7. Un estudiante de doctorado realiza una investigación en una


clínica dietética de Marchena. Estudia el índice de masa corporal de niños de 6-10
años. En concreto quiere estudiar una posible relación con la cantidad de porciones de
fruta y verdura que come al día y el número de horas de actividad física que el niño
realiza en actividades extraescolares. Para ello investiga a 20 niños siendo los datos
recogidos los siguientes:

Sexo M M H H H M H H M M H M

IMC 16,2 17 17,5 18 18,1 16,4 19 19,4 16,7 17,1 18 18

Fruta 5 3 3 3 3 4 2 2 4 1 3 0

Horas ejercicio 1 0 4 2 2 3 0 0 2 1 2 0

(Continuación)
Sexo M H H H M H M M

IMC 16 17,3 19 20 17 18 17,5 16,6

Fruta 5 5 3 0 2 4 2 3

Horas ejercicio 4 4 1 0 2 2 1 3

Con esta información se pide:

a) Realiza un estudio descriptivo de la variable horas de ejercicio (media, mediana,


desviación típica, cuartiles, asimetría y curtosis), de forma conjunta y de forma
separada par los hombres y para las mujeres.

b) Estudia de forma separada a los chicos de las chicas en cuanto a la variable


consumo de fruta.

c) Calcula un gráfico de barras para la variable sexo en la que se indique la media


de IMC para cada grupo.

d) Estudia gráficamente la asociación que existe entre el IMC en función de las


porciones de fruta consumidas por el niño.

e) ¿Están las variables linealmente asociadas? Calcula la recta de regresión


correspondiente. ¿Es fiable el modelo mínimo cuadrático calculado?

f) ¿Qué IMC se espera para un individuo que consume 5 porciones de fruta?

g) ¿Puede mejorarse el estudio anterior diferenciando por sexo? Razona tu


respuesta y ofrece los modelos y sus correspondientes coeficientes para
justificarlo. Realiza también el estudio gráfico que avale los resultados obtenidos.

29 
 
Ejercicios con SPSS     

SOLUCIÓN:

En primer lugar introducimos las variables:

Posteriormente los datos:

Y por último se decide si hay o no que ponderar. En este caso no hay que
ponderar puesto que los datos vienen ofrecidos de forma individual.

a) Realiza un estudio descriptivo de la variable horas de ejercicio (media, mediana,


desviación típica, cuartiles, asimetría y curtosis), de forma conjunta y de forma
separada par los hombres y para las mujeres.

Para realizar el estudio descriptivo que se solicita podemos utilizar la opción “explorar”.
Esta opción permite, como ya se ha visto, disponer de una tabla con los estadísticos
descriptivos principales. Además se pueden solicitar los percentiles más importantes, y
entre ellos se encuentran los cuartiles, y hacer un estudio por grupos.

Iniciamos pues el cálculo de la media, mediana, desviación típica, cuartiles, asimetría


y curtosis, con la opción:

30 
 
Ejercicios con SPSS     

Introducimos la variable “horas de ejercicio” en el cuadro de diálogos y seleccionamos


el botón descriptivos para activar la opción “percentiles”, tal y como se observa en el
siguiente cuadro de diálogo:

De esta forma se obtienen los siguientes resultados:

A continuación se repite el análisis pero diferenciando los resultados por sexo. Para
ello se sigue utilizando la opción “explorar” y basta con indicar en ”lista de factores” la
variable de agrupación.

31 
 
Ejercicios con SPSS     

Los resultados ahora obtenidos son:

b) Estudia de forma separada a los chicos de las chicas en cuanto a la variable


consumo de fruta.

Para analizar el consumo de fruta para los chicos y las chicas usamos se puede
utilizar la opción “Explorar” como se ha indicado en el apartado anterior. Sin embargo,
en esta ocasión se opta por la opción “Dividir archivo” o “Segmentar archivo”. El
resultado buscado es el siguiente:

32 
 
Ejercicios con SPSS     

En ocasiones anteriores se ha
activado la opción “Comparar los
grupos”. Ahora utilizaremos la
opción “Organizar los resultados
por grupos”. Estas dos opciones
simplemente varían en la forma
de presentar los resultados.

Una vez segmentado el archivo lo que se hace es un análisis descriptivo de la


variable “consumo de fruta” y cuyos resultados son los siguientes:

Los estadísticos calculados se ofrecen de forma separada para los chicos y para
las chicas, siendo las tablas resultantes las que se ofrecen a continuación:

Sexo = MUJERES Sexo = HOMBRES

33 
 
Ejercicios con SPSS     

c) Calcula un gráfico de barras para la variable sexo en la que se indique la media


de IMC para cada grupo.

Si se quiere representar conjuntamente los datos de chicos y chicas en torno a la


diferencia que pueda existir en el IMC es necesario contar con los datos al completo.
Esto indica que antes de iniciar cualquier estudio gráfico se debe eliminar la división de
los datos que se hizo anteriormente.

Basta con seleccionar la opción “dividir” y activar la opción “Analizar todos los casos.
No crear grupos”.

Ahora sí procedemos a crear el gráfico de barras que se solicita mediante el generador


de gráficos:

Introducimos en el 
eje de las ordenadas 
(Y) la variable IMC y 
de forma automática 
calcula la media. 

En el eje de las coordenadas X 
se introduce la variable Sexo. 

Tras editar el gráfico y modificarlo el resultado es el siguiente:

34 
 
Ejercicios con SPSS     

d) Estudia gráficamente la asociación que existe entre el IMC en función de las


porciones de fruta consumidas por el niño.

Estudiamos la asociación entre el consumo de frutas y el Índice de Masa Corporal.


Para ello usamos el gráfico de dispersión. En el análisis de las dos variables se toma
el consumo de frutas como variable independiente (X) puesto que puede ser
manipulada para controlar mejor el IMC en el caso en que dichas variables estén
relacionadas.

El resultado obtenido es:

Si editamos el gráfico podemos incluir en el área de representación la recta de


regresión. Esto se realiza activando los puntos del gráfico y seleccionando la opción
del menú desplegable “línea de ajuste total”:

35 
 
Ejercicios con SPSS     

El grafico de dispersión resultante nos ofrece la representación de la recta de


regresión junto con el coeficiente de bondad de ajuste R2=0.356. Este índice de
bondad de ajuste es muy pobre aunque, en algunas áreas como en Ciencias Sociales,
son resultados comunes debido a la dificultad de explicar variables psicosociales. Si se
dan resultados estadísticos partiendo de estos niveles de fiabilidad hay que explicar
bien la débil consistencia del modelo utilizado.

e) ¿Están las variables linealmente asociadas? Calcula la recta de regresión


correspondiente. ¿Es fiable el modelo mínimo cuadrático calculado?

Para estudiar analíticamente la asociación lineal que existe entre las variables lo que
se procede es a calcular el Coeficiente de Correlación de Pearson junto con la recta de
regresión y su coeficiente de bondad de ajuste o fiabilidad o determinación.

Para proceder a realizar el estudio se realiza la opción “Analizar\Regresión\ Lineales”:

Para poder calcular el “Coeficiente de Correlación de Pearson =r=R,” activamos


“Descriptivos” en el botón Estadísticos. Esta opción no es necesaria pero es la única
forma de que el programa muestre la matriz de correlaciones de Pearson.

36 
 
Ejercicios con SPSS     

Si queremos comprobar las hipótesis de normalidad de los residuos estudiamos el


estadístico de Durbin-Watson (aunque no es objeto del estudio actual).

Las tablas de resultados que muestra el programa son las siguientes:

El Coeficiente de Correlación de Pearson es negativo lo que indica 
que la relación entre las variables es inversa. Además no es muy 
elevado y eso señala que la relación es moderada. 

El modelo calculado tiene un R2 = 0.356 muy bajo para considerar el modelo


aceptable.

Si analizamos la tabla ANOVA y la tabla de resultados se puede crear el siguiente


modelo:

18′ 911 0′ 446

En la tabla ANOVA se aprecia como la variabilidad de la variable dependiente (22’628)


es escasamente explicad por el modelo de regresión, solamente 8’061, lo que supone
el 35’6% sobre la variabilidad total.

Mediante esta tabla puede calcularse la varianza residual o lo que es lo mismo, la


variabilidad no explicada por el modelo y que explicarían otras variables no
contempladas en el modelo y la aleatoriedad. Esta varianza residual se calcula como:

siendo 20 el número de casos totales estudiados.

37 
 
Ejercicios con SPSS     

f) ¿Qué IMC se espera para un individuo que consume 5 porciones de fruta?

Para hacer una predicción con el modelo anterior lo que se procede es a incluir en los
datos el nuevo valor para la variable X. En el caso estudiado queremos predecir Y
para un X=5.

Introducimos el valor en los datos:

Y posteriormente se vuelve a realizar el estudio de regresión. En este caso hay que


activar el botón “guardar” para activar la opción de “valores pronosticados no
tipificados”:

Realizada la regresión el programa crea una variable nueva que indica los valores
pronosticados por la regresión según la recta antes indicada. Es decir, muestra los
valores en la vista de datos:

38 
 
Ejercicios con SPSS     

Lo que hace concluir que para un consumo de frutas de 5 unidades al día el IMC
ascendería a 16’68138.

g) ¿Puede mejorarse el estudio anterior diferenciando por sexo? Razona tu


respuesta y ofrece los modelos y sus correspondientes coeficientes para
justificarlo. Realiza también el estudio gráfico que avale los resultados obtenidos.

Evidentemente la variable IMC es una variable que depende mucho, entre otros
factores, del género. Ello hace pensar que el análisis conjunto de hombres y
mujeres no sea en este caso el más adecuado puesto que la variable
dependiente está muy relacionada con el género del individuo.

Por tanto, se procede a realizar un estudio de la asociación entre las variables


consumo de frutas e IMC pero diferenciando por sexos.
Se inicia el estudio con un análisis gráfico. Se opta por el segundo gráfico de
dispersión que permite diferenciar los puntos por colores según las categorías de
una variable cualitativa (en nuestro caso sexo).

39 
 
Ejercicios con SPSS     

El gráfico resultante es el
siguiente:

Otra opción podría haber sido dividir el archivo por sexo y realizar un gráfico de
dispersión como el que se realizó en el apartado anterior.

En este nuevo gráfico se observa como la relación lineal es mayor de forma


separada para cada grupo estudiado, hombres y mujeres. El problema es que de
esta forma no podemos representar conjuntamente las rectas de regresión para
cada grupo.
Se procede entonces a calcular los Coeficientes de Correlación de Pearson para
cada grupo, junto con las rectas de regresión y sus coeficientes de bondad de
ajuste correspondientes.
Ahora sí dividimos los datos para poder hacer el análisis por grupos. Para mejor
interpretación en esta ocasión es mejor organizar los resultados por grupos.

Realizamos el estudio de regresión:

40 
 
Ejercicios con SPSS     

Cuyos resultados son:


Resultados SEXO=MUJER

Ahora el coeficiente r=-0’923 lo que evidencia una relación inversa muy fuerte
entre el consumo de frutas y el IMC para las mujeres.

El modelo es:

IMCmujer=17’822-0’335 Xfrutas_mujer

41 
 
Ejercicios con SPSS     

Y el coeficiente R2=0’852. La recta de regresión explica el 85’2% de la


variablidad del IMC en las mujeres.
Los resultados para los hombres son los siguientes:

Resultados SEXO=HOMBRE

El coeficiente r=-0’864 no es tan elevado como en el caso de las mujeres pero


sigue existiendo una relación inversa muy elevada entre el IMC y el consumo de
frutas en los hombres.
El modelo es el siguiente:

IMChombres=20’035-0’573 Xfrutas_hombre
En este caso el modelo, basado en el consumo de frutas, explica para los
hombres el 74’7% de la variablidad del IMC, tal y como muestra la siguiente
tabla.

42 
 
Ejercicios con SPSS     

Análisis Estadístico de datos. Regresión Lineal Múltiple y no Lineal

Ejercicio Spss 8. Un becario del CSO necesita para su investigación recoger


información, mediante un cuestionario, con el objeto de analizar la relación que existe
entre la percepción de calidad de vida (entre 1 y 10) que tiene y la edad, el salario
mensual (en cientos de euros), el número de días de baja en los últimos tres meses y
el nivel de satisfacción personal (de 1 a 9).
Los datos recogidos son los siguientes:

Días baja
Calidad Salario Edad (últimos 3 Satisfacción personal
meses)
1,0 2,0 35 24 1
1,3 4,0 46 20 1
1,4 4,0 26 20 2
1,5 4,0 28 19 1
1,8 6,0 44 18 1
2,0 6,2 25 12 2
2,3 5,5 36 10 2
3,0 6,6 46 7 3
4,0 7,1 47 6 3
4,3 7,1 43 4 5
4,6 7,9 40 4 5
5,0 9,0 62 2 6
5,4 9,2 56 3 6
5,6 10,0 54 3 5
6,5 10,5 58 2 6
7,0 10,6 46 3 8
7,4 10,8 47 1 6
7,9 10,7 31 1 7
8,0 11,2 40 1 7
8,5 11,6 60 1 8
8,8 13,0 58 0 7
9,0 15,0 46 0 9

Con esta información tiene que elaborar los siguientes informes:

a) Estudio de la relación lineal que existe entre calidad de vida y las diferentes
variables recogidas.
b) Estudio no lineal de la calidad de vida en función del nivel de satisfacción
personal.
c) Análisis del modelo de regresión múltiple tomando la calidad de vida como
variable dependiente. Estudio de las correlaciones y las correlaciones
parciales. ¿Qué variables son las más convenientes para el modelo múltiple
finalmente? ¿Cuáles son eliminada?

43 
 
Ejercicios con SPSS     

SOLUCIÓN:

Definimos las variables de estudio e introducimos los datos.

a) Estudio de la relación lineal que existe entre calidad de vida y las diferentes
variables recogidas.

Inicialmente realizamos un diagrama de dispersión para la variable dependiente


(calidad de vida) con el resto de variables independientes. Para ello, mediante la
opción “Generador de gráficos” realizamos el primer gráfico de dispersión para la
variable Calidad de vida y la variable salario.

Seleccionamos en la galería, el tipo Dispersión/puntos y marcamos en la opción del


gráfico simple. Seguidamente pasamos al eje X la variable independiente (salario) y al
eje Y la variable dependiente (Calidad de vida).

El resultado que se obtiene sería:

44 
 
Ejercicios con SPSS     

Activando el editor de gráfico, usamos


el icono de añadir línea de ajuste total

para pintar la recta de regresión


que describe la calidad de vida en
función del salario. Podemos observar
como el coeficiente de determinación
asociado al modelo de regresión es
0,936, lo que nos adelanta que la
bondad de dicho ajuste es bastante
buena.

Análogamente realizamos los gráficos de dispersión para la variable dependiente con


la variable edad, días de baja y satisfacción personal. Los resultados obtenidos son:

45 
 
Ejercicios con SPSS     

A continuación, realizamos la regresión lineal para la variable dependiente con cada


una de las variables independientes. Comenzamos con la relación entre la calidad de
vida y el salario. Para ello realizamos la frecuencia Analizar/regresión/ lineales y
seleccionamos la variable dependiente y la independiente tal como se muestra en la
siguiente pantalla:

En el botón estadístico vemos que se observa marcados los coeficientes de regresión


y el Ajuste del modelo. Marcamos en Descriptivos para sacar el coeficiente de
Correlación Lineal de Pearson. El resultado obtenido es el siguiente:

46 
 
Ejercicios con SPSS     

Estadísticos principales de 
las variables estudiadas 

Coeficiente de 
correlación Lineal de 
Pearson= R  

Coeficiente de 
determinación  

Coeficientes de regresión 

Según los resultados anteriores, podemos deducir que la recta que explica la calidad
de vida en términos del salario mensual viene dada por:

Calidad de vida=-1,805+0.802*Salario

El coeficiente de correlación lineal de Pearson entre ambas variables es de 0.936, lo


que indica un fuerte relación lineal directa entre las variables y, dado que el valor del
coeficiente de Determinación es de 0.932, nos indica que el 93,2% de la variabilidad
de la variable Calidad de vida viene explicada por la variable salario.

Repitiendo el procedimiento anterior se tiene:

47 
 
Ejercicios con SPSS     

Variable Variable R R2 Ecuación de la recta


dependiente independiente
X2=Edad 0,527 0,242 Calidad=-1,012+0,132*Edad
Calidad de
X3=Días de baja -0,891 0.794 Calidad=7,129-3,14*Días de baja
vida
X4=Satisfacción 0,961 0,921 Calidad=0,213 +1,006*Satisfacción
Personal

b) Estudio no lineal de la calidad de vida en función del nivel de satisfacción


personal.

Estudiaremos los siguientes modelos no lineales que describen la variable calidad de


vida en función de la satisfacción personal:
Cuadrático: Y=b0+b1X4+b2X24
Cubico: Y=b0+b1X4+b2X24 +b3X34
Inverso: Y= b0+b1 /X4
Potencial: Y=b0* X4b1
Exponencial: Y=b0 e b1X4
Para ello realizamos la secuencia Analizar/Regresión/estimación no curvilínea y
completamos el cuadro de dialogo de la siguiente manera:

Obteniendo la siguiente salida:

48 
 
Ejercicios con SPSS     

Podemos observar que el modelo que arroja el mejor R2 es el modelo cúbico cuya
ecuación sería:

Calidad de vida = 1,173+0.028* satisfacción +0.232 Satisfaccion2 -0.016 Satisfacción3

Apreciamos que la diferencia entre el coeficiente de determinación del modelo lineal,


cuadrático, cúbico y potencial es mínima. En este caso, considerando siempre el
modelo más simple, se podría tomar el modelo lineal como buen modelo para predecir
la calidad de vida en término de la satisfacción personal.

c) Análisis del modelo de regresión múltiple tomando la calidad de vida como


variable dependiente. Estudio de las correlaciones y las correlaciones
parciales. ¿Qué variables son las más convenientes para el modelo múltiple
finalmente? ¿Cuáles son eliminada?

Para realizar el modelo de regresión lineal múltiple, al realizar la regresión lineal como
en el apartado a) consideramos todas las variables explicativas como independientes,
como se muestra a continuación:

49 
 
Ejercicios con SPSS     

En el botón Estadístico, marcamos Descriptivos y en Correlaciones Parciales.

Observando el editor de resultados obtenemos, entre otras cosas:


La matriz de correlaciones donde se puede observar el coeficiente de Correlación
Lineal de Pearson de la variable dependiente con cada una de las independientes.
Además, se puede apreciar si existe relación entre las variables independiente.

De hecho, ente las variables salario mensual y días de baja, existe una relación lineal
inversa fuerte (R=-0.898) y además, la variable salario mensual y satisfacción personal
también presentan una fuerte correlación positiva (R=0.938). El hecho de presentar
una relación entre variables independientes mostrará posteriormente que no deben
ser incluidas en la ecuación de la recta.

50 
 
Ejercicios con SPSS     

Aparentemente, el modelo de regresión lineal múltiple sería muy bueno ya que


presenta un R2 igual a 0.961. Sin embargo, no todas las variables que son incluidas en
el modelo describen o tienen alguna influencia sobre la variable Calidad de vida.
Observando las correlaciones parciales, la variable Edad y días de bajas presentan un
coeficiente de correlación parcial prácticamente nulo (-0.088 y -0.008,
respectivamente) por lo que una vez eliminado el efecto del resto de las variables,
estas dos variables no influirían en la variabilidad de la variable calidad de vida.

Usando el método “Adelante” en la regresión lineal, vemos como realmente las


variables Edad y Días de baja son eliminadas del modelo de regresión lineal múltiple.

51 
 
Ejercicios con SPSS     

52 
 
Ejercicios con SPSS     

Análisis Estadístico de datos. Estudio de la relación entre variables cualitativas

Ejercicio Spss 9. Un trabajador del Servicio Sevillano de Empleo desea analizar si


hay relación entre el tipo de contrato que tenía una persona cuando estaba trabajando
y si se ha dado de baja alguna vez en el último año.
Para ello estudia datos relativos a 650 empleados de diversas empresas y los datos
recogidos son los siguientes:

Sí se ha dado de baja No se ha dado de baja


Contrato fijo 165 54
Contrato temporal 123 186
Contrato en prácticas 24 98

Con esta información el empleado que realiza el estudio quiere conocer:


a) El porcentaje de trabajadores que se dan de baja y tienen contrato fijo
b) De aquellos empleados que tienen contrato en prácticas, qué porcentaje se da
de baja y qué porcentaje no se da de baja.
c) ¿Cómo se distribuye, en términos de porcentaje, el total de los trabajadores
que sí se dan de baja en función del contrato que tienen?
d) ¿Se puede decir que las variables están relacionadas?

SOLUCIÓN:

En primer lugar se introducen los datos. Es necesario para no perder información


definir 3 variables y ponderar los datos pues se encuentran agrupados.
El fichero de datos creado es el siguiente:

53 
 
Ejercicios con SPSS     

a) El porcentaje de trabajadores que se dan de baja y tienen contrato fijo

Para poder calcular la tabla de frecuencias conjunta relativas o porcentajes se utiliza la


opción Tablas cruzadas del menú Estadísticos descriptivos. En versiones anteriores se
denominaban “tablas de contingencia”.

Introducimos las variables cualitativas en las filas y columnas, modificando en el botón


“casillas” el resultado que queremos que muestre:

La opción que Spss presenta por defecto es “Recuentos/Observado” y correspondería


con la frecuencia absoluta conjunta. En el problema que se está resolviendo el
investigador necesita la frecuencia relativa o porcentaje conjunto por lo que se marca
la opción “Porcentaje/Total”.

54 
 
Ejercicios con SPSS     

Con ello la tabla que se ofrece como resultado es la siguiente:

Por lo que del total de los 650 empleados investigados, el 25’4% tiene contrato fijo y sí
se da de baja en el último año.

b) De aquellos empleados que tienen contrato en prácticas, qué porcentaje se da


de baja y qué porcentaje no se da de baja.

Para obtener el resultado solicitado en este apartado se opera igual que en el anterior
pero se selecciona la opción “casillas/porcentaje/filas” tal y como se muestra a
continuación:

Siendo la tabla resultante:

55 
 
Ejercicios con SPSS     

Con ello se concluye que de los trabajadores que tienen contrato en prácticas, el 48%
sí se da de baja y el 52% no se da de baja.

c) ¿Cómo se distribuye, en términos de porcentaje, el total de los trabajadores


que sí se dan de baja en función del contrato que tienen?

En este apartado queremos conocer cómo se distribuyen, porcentualmente, los


individuos que se dan de baja en función del tipo de contrato.

Para obtener la información solicitada calculamos la tabla de doble entrada con las
casillas “porcentaje por columnas”, siendo el resultado el siguiente:

d) ¿Se puede decir que las variables están relacionadas?

Para estudiar si existe o no relación entre las variables activamos la opción chi-
cuadrado del botón “Estadísticos”.
Con ello se calculará el test de independencia para variables cualitativas Chi cuadrado
de Pearson. Este test estudia si las dos variables cualitativas son independientes o
están asociadas.

Además, para el caso en el que se dé asociación entre las variables, es conveniente


estudiar el GRADO DE LA ASOCICACIÓN. Ello se hará mediante los coeficientes que
están en los rectángulos inferiores de esta ventana de interacción con el usuario.

56 
 
Ejercicios con SPSS     

Para decidir sobre la asociación o no asociación de las variables “tipo de contrato” y “si
se da de baja” observamos el valor que nos da como Sig.asintótica (dos caras) para el
valor Chi-cuadrado de Pearson.

En el ejercicio estudiado se obtiene un valor en el test chi-cuadrado de 0’000 y ello


significa que las variables están relacionadas.

La regla de decisión para este contraste será la siguiente:


Si el valor “sig. asintótica” obtenido, también denominado p-valor, es menor que 0’05
se considera que hay relación entre las variables. Si el sig. que nos ofrece la tabla es
mayor que 0’05 se pueden considerar a las variables independientes o que no existe
relación entre ellas.
En el ejercicio llevado a cabo, el p-valor es 0’000 por lo que como ya se ha
comentado, las variables están asociadas.

Nota importante: para que este test tenga validez un porcentaje inferior al 20% de
casillas debe tener un recuento menor que 5 y todos los recuentos mínimos esperados
deben ser superior a 1.

Si se observa la nota al pie de la tabla “Pruebas de chi-cuadrado” estas dos


condiciones se cumplen, por lo que el test es totalmente válido. Si no lo fuera tampoco
serían válidos los resultados.

Conocida ya que las variables tienen relación es posible medir el grado de esta
relación. Para ello puede calcularse el coeficiente Phi y algunos más, en los que no
profundizaremos.

Al ser el coeficiente Phi=0’417 la relación existente es moderada. (Cuanto más cerca


de 1 esté el coeficiente, más fuerte será la asociación entre ambas variables)

57 
 
Ejercicios con SPSS     

Ejercicio Spss 10. Un investigador del centro CAMBIO de la UPO está realizando
su tesis doctoral sobre la bacteria A y sus entornos de aparición. Una de sus hipótesis
más importantes es que la bacteria aparece con mayor frecuencia si el clima es
húmero. Para probar su hipótesis estudia 350 muestras en el laboratorio, simulando
climas seco y húmedo, siendo los datos que obtiene los siguientes:

Aparece la bacteria A No aparece la bacteria A


Clima seco 34 159
Clima Húmero 140 17

Con esta información el investigador debe responder a las siguientes cuestiones:

a) Dar una tabla de doble entrada con las frecuencias relativas conjuntas. ¿En
qué porcentaje de muestras realizadas en un entorno húmedo no aparece la
bacteria A?
b) Del total de muestras en las que aparece la bacteria A, ¿qué porcentaje de
ellas se dan con clima seco y qué porcentaje de ellas se dan con clima
húmedo?
c) ¿Son independientes el clima y la aparición de la bacteria A?

SOLUCIÓN:

En primer lugar se definen las variables e introducen en Spss los datos. Para ello es
necesario crear 3 variables tal y como se observa a continuación

Como los datos no están dados de forma individual hay que ponderar el fichero de
datos por la variable Frecuencia. Es necesario indicar en Spss que la fila primera se
debe repetir 34 veces y así con todos los datos.

Una vez definidos correctamente los datos procedemos a estudiar las relaciones que
puedan existir entre las dos variables cualitativas. Todo ello se realiza con la opción
Analizar/ Estadísticos descriptivos/ “Tablas cruzadas” (en versiones anteriores Tablas
de contingencia).

58 
 
Ejercicios con SPSS     

a) Dar una tabla de doble entrada con las frecuencias relativas conjuntas. ¿En
qué porcentaje de muestras realizadas en un entorno húmedo no aparece la
bacteria A?

En este apartado lo que se pide es la tabla con los porcentajes “total” mediante la
activación de la siguiente opción dentro de “casillas”

Esta opción permite estudiar los porcentajes de cada cruce entre las variables con
respecto al total de muestra estudiada.

La tabla de doble entrada con las frecuencias relativas conjuntas que ofrece Spss es:

Para responder a la pregunta “¿En qué porcentaje de muestras realizadas en un


entorno húmedo no aparece la bacteria A?” nos fijamos en el cruce Clima húmedo y
No aparece, siendo el porcentaje solicitado del 4’9%. Este dato se calcula dividiendo
17/350 y luego multiplicándolo por 100.

b) Del total de muestras en las que aparece la bacteria A, ¿qué porcentaje de


ellas se dan con clima seco y qué porcentaje de ellas se dan con clima
húmedo?

Para responder a esta pregunta debemos calcular la tabla de porcentajes pero


haciendo las columnas el 100%. El resultado obtenido sería:

59 
 
Ejercicios con SPSS     

Para comprobar que estamos haciendo la tabla correcta hay que observar el total de la
columna que como se ve ofrece un total del 100% en cada categoría.

A partir de ella podemos afirmar que del 100% de los casos en los que sí aparece la
bacteria, el 19’5% de ellos se da en clima seco mientras que el 80’5% de los casos se
da en un clima húmedo.

De igual manera, la distribución de las muestras en las que NO aparece la bacteria A


según el clima sería: en el 90’3% de los casos hay clima seco y en el 9’7% de los
casos hay clima húmedo.

Esta información descriptiva nos da ya una idea de que las variables cualitativa
pueden estar relacionadas, de forma que con un clima húmedo hay una mayor
incidencia de la aparición de la bacteria A.

Para tener certeza de esta afirmación y comprobarla con suficiencia estadística,


debemos hacer el contraste chi-cuadrado de Pearson de independencia.

c) ¿Son independientes el clima y la aparición de la bacteria A?

Para confirmar las sospechas del investigador se realiza el test chi-cuadrado de


Pearson activándola en el botón “Estadísticos”

60 
 
Ejercicios con SPSS     

El resultado obtenido se puede estudiar en la tabla siguiente:

Como se observa 
se cumplen los 
requisitos para la 
aplicación del test 

En ella se observa como el test chi-cuadrado de Pearson es significativos, es decir, las


variables están asociadas, puesto que el p-valor o sig.asintótica obtenido es inferior a
0’05.
Sin embargo, como la tabla es 2x2, el programa calcula también la “Prueba exacta de
Fisher” que es específica y más conveniente para las tablas 2x2.
Este test nos da un p-valor de 0’000 con lo que se concluye que las variables clima y
aparición de la bacteria están relacionadas y no son independientes.

Para estudiar el grado de la relación se opta por activar los coeficientes Phi, V de
Cramer y Coeficiente de contingencia.

Dichos coeficientes indican un alto grado de relación entre las variables pues son muy
cercanos a 1 en valor absoluto.

Nota importante: El coeficiente V de Cramer y el Coeficiente de contingencia toman


valores entre 0 y 1 mientras que el coeficiente Phi suele tomar valores entre -1 y 1,
llegando incluso a tomar valores superiores en función de las dimensiones de la tabla.

61 
 
Ejercicios con SPSS     

Inferencia

Intervalo de confianza y contrastes de hipótesis para parámetros de una


distribución normal.

Ejercicio Spss 11. Los valores sobre la producción en kg de 50 olivos de una finca
de regadío son los siguientes:

102 98 93 100 98 105 115 110 99 120

115 130 100 86 95 103 105 92 99 134

116 118 89 102 128 99 119 128 110 130

112 114 106 114 100 116 108 113 106 105

120 106 110 100 106 117 109 108 105 106

Suponiendo que la producción de los olivos de dicha finca se distribuye normalmente,


se pide:
a) Hallar un intervalo de confianza para la producción media basado en la muestra de
los 50 olivos al 90% de coeficiente de confianza.
b) Contrastar la hipótesis nula de que la producción media de los olivos es de 100 kg
al nivel α = 10%, basándose en la muestra dada.
c) Comprobar si la producción puede considerarse efectivamente normal.
SOLUCIÓN:
En primer lugar, definimos las variables en vista de variables e introducimos los datos
en vista de datos como aparece en la siguiente pantalla.

62 
 
Ejercicios con SPSS     

a) Para obtener un intervalo de confianza para la producción media al 90% de


coeficiente de confianza, realizamos la siguiente secuencia: Analizar /estadísticos
descriptivos /Explorar

Seleccionamos en “visualización”, únicamente “Estadísticos” y pulsamos en el


botón “Estadísticos” para seleccionar el nivel de confianza igual al 90%.

Obtenemos la siguiente salida en el editor de resultados.

63 
 
Ejercicios con SPSS     

Mirando la tabla de “Descriptivos”, obtenemos que un intervalo de confianza para la


media a un nivel de significación del 90% es (105’817 , 110’943).
b) Para realizar el análisis hacemos la secuencia:
Analizar / Comparar medias / Prueba T para una muestra.
Introducimos en “variables para contrastar” la variable “producción” y en valor de
prueba, el valor con el que queremos contrastar el valor de la media, es decir, 100.

y pulsando Opciones para establecer el nivel de confianza del 90% nos queda:

para obtener:

64 
 
Ejercicios con SPSS     

Estadísticos para una muestra

Desviación Error típ. de


N Media típ. la media
Producción 50 108,38 10,810 1,529

P‐valor del contraste 
Intervalo de 
confianza para la 
diferencia entre el 
verdadero valor de 
Prueba para una muestra
la media y el valor 
Valor de prueba = 100
90% Intervalo de
confianza para la
Diferencia diferencia
t gl Sig. (bilateral) de medias Inferior Superior
Producción 5,482 49 ,000 8,380 5,82 10,94

A partir de la tabla “Prueba para una muestra”, en el contraste de hipótesis de la


producción media igual a 100 kg el p-valor (0’000) es < 0’10, por lo que hay evidencias
para rechazar la hipótesis nula de media igual a 100 a un nivel de significación del
10%.
Observamos que a partir de la tabla “Prueba para una muestra” también podemos
obtener un intervalo de confianza para la producción media al 90% de coeficiente de
confianza. Dado que en dicha tabla se obtiene un intervalo de confianza para
diferencia entre la media  y el valor 100 que estamos suponiendo, basta con sumar a
ambos lados del intervalo el valor 100 para obtener el intervalo de confianza para .,
(100 + 5’82 , 100 + 10’94) = (105’82 , 110’94).
A partir de este intervalo de confianza también podemos contrastar si la media de la
población puede considerarse igual a 100. Observamos que dicho intervalo de
confianza para la media no contiene el valor 100, con lo cual podemos afirmar que la
producción media no es de 100 kg con un nivel de confianza del 90%.
c) Para contrastar la normalidad de los datos hacemos la secuencia:
Analizar / Estadísticos descriptivos / Explorar

65 
 
Ejercicios con SPSS     

y pulsamos en los botones Estadísticos para cambiar el nivel de confianza y en


Gráficos para seleccionar la opción “Gráficos con pruebas de normalidad”

En el visor de resultados obtenemos:


Explorar

Resumen del procesamiento de los casos

Casos
Válidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
Producción 50 100,0% 0 ,0% 50 100,0%

66 
 
Ejercicios con SPSS    P‐valor para el 
 
P‐valor para el 
contraste de 
contraste de 
normalidad
lid d

Producción

Gráfico Q-Q normal de Producción Gráfico Q-Q normal sin tendencias de Producción

4 0,5

0,4

2
0,3
Normal esperado

Desv. de normal

0,2

0,1

0,0
-2

-0,1

-4 -0,2

80 90 100 110 120 130 140 80 90 100 110 120 130 140
Valor observado Valor observado

En la tabla “Descriptivos” se observa el intervalo de confianza para la media, ya


calculado anteriormente.

A partir de la tabla “Pruebas de normalidad”, los p-valores de los contrastes de


Kolmogorov-Smirnov (0’200) y Shapiro-Wilk (0’395) son > 0,10, por lo que no hay
evidencias para rechazar la hipótesis nula de normalidad de los datos a un nivel de
significación del 10%. En consecuencia, a un nivel de significación del 10%,
aceptamos la hipótesis nula de la normalidad de los datos. Esta normalidad de los
datos la corrobora el gráfico Q-Q de normalidad cuyos puntos se ajustan muy bien a la
diagonal.

Ejercicio Spss 12. Una central de productos lácteos recibe diariamente la leche de
dos granjas A y B. Deseando estudiar la calidad de los productos recibidos se extraen
dos muestras, una de cada granja (independientes), y se analiza el contenido de
materia grasa, obteniendo los siguientes resultados:

A 0’32 0’29 0’30 0’28 0’33 0’31 0’30 0’29

0’33 0’32 0’30 0’29

B 0’28 0’30 0’32 0’29 0’31 0’29 0’33 0’32

0’29 0’32 0’31 0’29 0’32 0’31 0’32 0’33

67 
 
Ejercicios con SPSS     

Suponiendo normal la variable estudiada (contenido de materia grasa) en ambas


poblaciones independientes, se pide:
a) Determinar un intervalo de confianza para la diferencia de medias al nivel de
confianza del 99%.
b) Realizar el contraste de hipótesis de igualdad de medias para α = 0’01.

SOLUCIÓN:
Realizaremos los dos apartados simultáneamente. En primer lugar, definimos las
variables e introducimos los datos como se muestran en la siguiente pantalla.

y para realizar el análisis hacemos la secuencia:


Analizar / Comparar medias / Prueba T para muestras independientes.

68 
 
Ejercicios con SPSS     

Dado que queremos contrastar si el contenido medio de grase es igual para ambas
granjas (grupos), la variable a contrastar será “Contenido de materia grasa” y por tanto
la variable de agrupación es la variable “Granja”.

Seleccionando Definir grupos para rellenar el siguiente cuadro donde definimos los
diferentes grupos según el código que le hayamos dado a la variable “Granja”:

obteniendo:

y pulsando Opciones para establecer el nivel de confianza del 99%

69 
 
Ejercicios con SPSS     

Como resultado del análisis obtenemos:


Prueba T

Estadísticos de grupo

Desviación Error típ. de


Tipo de granja N Media típ. la media
Contenido de A 12 ,3050 ,01679 ,00485
materia grasa B 16 ,3081 ,01601 ,00400

Prueba de muestras independientes

Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
99% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
Contenido de Se han asumido
,037 ,849 -,501 26 ,621 -,00312 ,00624 -,02047 ,01422
materia grasa varianzas iguales
No se han asumido
-,497 23,205 ,624 -,00312 ,00628 -,02076 ,01451
varianzas iguales

A partir de la tabla “Prueba de muestras independientes”, observamos inicialmente la


prueba de Levene que nos da el resultado de contrastar la igualdad de varianzas.
Dado que el p-valor o significación es de 0’849, podemos concluir que ambas
distribuciones tienen la misma varianza. Por tanto, a la hora de estudiar la diferencia
entre las medias, observaremos la primera fila de dicha tabla, donde se han asumido
varianzas iguales. Observando dicha fila, un intervalo de confianza para la diferencia
de medias al nivel de confianza del 99% es: (- 0’02047, 0’01422) Observamos que
dicho intervalo de confianza para la diferencia de medias contiene el valor 0, con lo
cual podemos afirmar que no existe diferencia de calidad en media en la producción
de leche de ambas granjas al nivel de confianza del 99%.
El mismo resultado se obtiene según el siguiente razonamiento. A partir de la tabla
“Prueba de muestras independientes”, en el contraste de hipótesis de igualdad de
medias el p-valor es: 0’621 suponiendo igualdad de varianzas. En este caso el p-valor
es > 0’01, por lo que no hay evidencias para rechazar la hipótesis nula de igualdad de
medias a un nivel de significación del 1%. En consecuencia, a un nivel de significación
del 1%, aceptamos la hipótesis nula de igualdad de medias y afirmamos que no existe
diferencia de calidad en media en la producción de leche de ambas granjas.

70 
 
Ejercicios con SPSS     

Ejercicio Spss 13. La Consejería de Agricultura y Pesca está invirtiendo en


investigación para acelerar el proceso de maduración de los frutos (A) y maximizar el
tamaño de los frutos (B). Con el objeto de comparar ambas líneas de investigación, se
extrae una muestra de doscientos cultivos, aplicándole la línea A a cien de ellos y la
línea B a los otros cien. Los datos obtenidos se presentan en la siguiente tabla:

A B

Inversión(en €/Ha) Número de cultivos Inversión (en €/Ha) Número de cultivos

70 10 90 10

80 15 100 15

90 40 110 40

100 25 120 25

110 10 130 10

Suponiendo que la inversión en las dos líneas de investigación se distribuye


normalmente, se pide:
a) ¿Se puede aceptar con un 95% de confianza que la inversión media en
investigación es de 95 €/Ha?
b) ¿Se puede afirmar con un 95% de confianza que la inversión media en las dos
líneas de investigación es la misma?
c) ¿Se puede afirmar con un 95% de confianza que la inversión media en
investigación es de 80 €/Ha para la línea A y de 150 €/Ha para la línea B?

SOLUCIÓN:
En primer lugar, definimos las variables e introducimos los datos como aparece en la
pantalla.

a) Para realizar el análisis hay que ponderar por la variable “Número de cultivos”:
Datos / Ponderar casos

71 
 
Ejercicios con SPSS     

Para contrastar si la inversión media en investigación es de 95 €/Ha hacemos la


secuencia:
Analizar / Comparar medias / Prueba T para una muestra

y pulsamos Opciones para establecer el nivel de confianza del 95% nos queda:

Obtenemos los siguientes resultados:


Prueba T

Estadísticos para una muestra

Desviación Error típ. de


N Media típ. la media
Inversión en
200 101,00 14,836 1,049
investigación (en €/Ha)

72 
 
Ejercicios con SPSS     

Prueba para una muestra

Valor de prueba = 95
95% Intervalo de
confianza para la
Diferencia diferencia
t gl Sig. (bilateral) de medias Inferior Superior
Inversión en
5,719 199 ,000 6,000 3,93 8,07
investigación (en €/Ha)

A partir de la tabla “Prueba para una muestra”, en el contraste de hipótesis de la


inversión media igual a 95 €/Ha el p-valor (0,000) es < 0’05, por lo que hay evidencias
para rechazar la hipótesis nula de media igual a 95 a un nivel de significación del 5%.
Además, en la tabla anterior se puede observar que un intervalo de confianza para la
inversión media al 95% de coeficiente de confianza es (95 + 3’93 , 95 + 8’07) = (98’93 ,
103’07). Observamos que dicho intervalo de confianza para la media no contiene el
valor 95, con lo cual podemos afirmar que la inversión media no es de 95 €/Ha con un
nivel de confianza del 95%.

NOTA: Este apartado también puede resolverse haciendo la secuencia:


Analizar / Estadísticos descriptivos / Explorar

y pulsamos en el botón Estadísticos para seleccionar el nivel de confianza

Obtenemos la siguiente tabla donde podemos observar el intervalo de confianza para


la inversión media.

73 
 
Ejercicios con SPSS     

A partir de la tabla “Descriptivos”, un intervalo de confianza para la inversión media al


95% de coeficiente de confianza es (98’93 , 103’07). Observamos que dicho intervalo
de confianza para la media no contiene el valor 95, con lo cual podemos afirmar que la
inversión media no es de 95 €/Ha con un nivel de confianza del 95%.
b) Para realizar el análisis hacemos la secuencia:
Analizar / Comparar medias / Prueba T para muestras independientes

y seleccionando Definir grupos aparece una ventana que se rellena como sigue:

obteniendo:

74 
 
Ejercicios con SPSS     

Finalmente, pulsamos en Opciones para establecer el nivel de confianza del 95%

Obtenemos:
Prueba T

Estadísticos de grupo

Desviación Error típ. de


Línea de investigación N Media típ. la media
Inversión en A 100 91,00 10,964 1,096
investigación (en €/Ha) B 100 111,00 10,964 1,096

Prueba de muestras independientes

Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
Inversión en Se han asumido
,000 1,000 -12,899 198 ,000 -20,000 1,550 -23,058 -16,942
investigación (en €/Ha) varianzas iguales
No se han asumido
-12,899 198,000 ,000 -20,000 1,550 -23,058 -16,942
varianzas iguales

A partir de la tabla “Prueba de muestras independientes”, en el contraste de hipótesis


de igualdad de medias el p-valor (0’000) es < 0’05, por lo que hay evidencias para
rechazar la hipótesis nula de igualdad de medias a un nivel de significación del 5%.
Además, un intervalo de confianza para la diferencia de medias al nivel de confianza
del 95% es: (- 23’058 , - 16’942). Observamos que dicho intervalo de confianza para la
diferencia de medias no contiene el valor 0, con lo cual podemos afirmar que la
inversión media en las dos líneas de investigación no es la misma con un 95% de
confianza.

75 
 
Ejercicios con SPSS     

c) Para realizar el análisis hacemos la secuencia:


Analizar / Estadísticos descriptivos / Explorar y pulsamos en el botón Estadísticos:

En el editor de resultado obtenemos:


Descriptivos

Línea de investigación Estadístico Error típ.


Inversión en A Media 91,00 1,096
investigación (en €/Ha) Intervalo de confianza Límite inferior 88,82
para la media al 95% Límite superior
93,18

Media recortada al 5% 91,11


Mediana 90,00
Varianza 120,202
Desv. típ. 10,964
Mínimo 70
Máximo 110
Rango 40
Amplitud intercuartil 18
Asimetría -,202 ,241
Curtosis -,396 ,478
B Media 111,00 1,096
Intervalo de confianza Límite inferior 108,82
para la media al 95% Límite superior
113,18

Media recortada al 5% 111,11


Mediana 110,00
Varianza 120,202
Desv. típ. 10,964
Mínimo 90
Máximo 130
Rango 40
Amplitud intercuartil 18
Asimetría -,202 ,241
Curtosis -,396 ,478

A partir de la tabla “Descriptivos”, un intervalo de confianza para la inversión media


para la línea A al 95% de coeficiente de confianza es (88’82 , 93’18). Observamos que
dicho intervalo de confianza para la media no contiene el valor 80, con lo cual
podemos afirmar que la inversión media para la línea A no es de 80 €/Ha con un nivel
de confianza del 95%

76 
 
Ejercicios con SPSS     

A partir de la tabla “Descriptivos”, un intervalo de confianza para la inversión media


para la línea B al 95% de coeficiente de confianza es (108’82 , 113’18). Observamos
que dicho intervalo de confianza para la media no contiene el valor 150, con lo cual
podemos afirmar que la inversión media para la línea B no es de 150 €/Ha con un nivel
de confianza del 95%

NOTA: Este apartado también puede resolverse de la siguiente forma.


En primer lugar, sólo nos interesan los cultivos relativos a la línea de investigación A
para lo que hacemos la secuencia:
Datos / Seleccionar casos

y seleccionando Si obtenemos una ventana que tenemos que rellenar como sigue:

De esta forma, sólo tenemos seleccionados los cultivos de la línea de investigación A.


Para realizar el análisis hacemos la secuencia:
Analizar / Comparar medias / Prueba T para una muestra

77 
 
Ejercicios con SPSS     

Pulsamos en Opciones para establecer el nivel de confianza del 95%

Obtenemos los siguientes resultados:


Prueba T

Estadísticos para una muestra

Desviación Error típ. de


N Media típ. la media
Inversión en
100 91,00 10,964 1,096
investigación (en €/Ha)

Prueba para una muestra

Valor de prueba = 80
95% Intervalo de
confianza para la
Diferencia diferencia
t gl Sig. (bilateral) de medias Inferior Superior
Inversión en
10,033 99 ,000 11,000 8,82 13,18
investigación (en €/Ha)

A partir de la tabla “Prueba para una muestra”, un intervalo de confianza para la


inversión media para la línea A al 95% de coeficiente de confianza es (80 + 8’82 , 80 +
13’18) = (88’82 , 93’18). Observamos que dicho intervalo de confianza para la media
no contiene el valor 80, con lo cual podemos afirmar que la inversión media para la
línea A no es de 80 €/Ha con un nivel de confianza del 95%.
A partir de la tabla “Prueba para una muestra”, en el contraste de hipótesis de la
inversión media para la línea A igual a 80 €/Ha el p-valor (0’000) es < 0’05, por lo que
hay evidencias para rechazar la hipótesis nula de media igual a 80 a un nivel de
significación del 5%.

78 
 
Ejercicios con SPSS     

En segundo lugar, sólo nos interesan los cultivos relativos a la línea de investigación B
para lo que hacemos la secuencia:
Datos / Seleccionar casos

y seleccionando Si obtenemos una ventana que tenemos que rellenar como sigue:

De esta forma, sólo tenemos seleccionados los cultivos de la línea de investigación B.


Para realizar el análisis hacemos la secuencia:
Analizar / Comparar medias / Prueba T para una muestra

79 
 
Ejercicios con SPSS     

Pulsamos en Opciones para establecer el nivel de confianza del 95%:

Obtenemos los siguientes resultados:


Prueba T

Estadísticos para una muestra

Desviación Error típ. de


N Media típ. la media
Inversión en
100 111,00 10,964 1,096
investigación (en €/Ha)

Prueba para una muestra

Valor de prueba = 150


95% Intervalo de
confianza para la
Diferencia diferencia
t gl Sig. (bilateral) de medias Inferior Superior
Inversión en
-35,572 99 ,000 -39,000 -41,18 -36,82
investigación (en €/Ha)

A partir de la tabla “Prueba para una muestra”, un intervalo de confianza para la


inversión media para la línea B al 95% de coeficiente de confianza es (150 – 41’18 ,
150 – 36’82) = (108’82 , 113’18). Observamos que dicho intervalo de confianza para la
media no contiene el valor 150, con lo cual podemos afirmar que la inversión media
para la línea B no es de 150 €/Ha con un nivel de confianza del 95%.
A partir de la tabla “Prueba para una muestra”, en el contraste de hipótesis de la
inversión media para la línea B igual a 150 €/Ha el p-valor (0’000) es < 0’05, por lo que
hay evidencias para rechazar la hipótesis nula de media igual a 150 a un nivel de
significación del 5%.

Ejercicio Spss 14. En una granja manchega se han seleccionado doce corderos
lechales correspondientes al primer semestre del año 2004 y otros doce corderos
lechales correspondientes al segundo semestre de año 2004, siendo sus respectivos
pesos en kg:

Semestre
23’5 20’8 21’6 25’7 24’2 20’2 19’7 21’9 22’6 24’5 21’7 22’6
1

Semestre
22’9 22’6 23’4 25’0 25’1 24’4 22’2 24’9 21’5 25’5 23’3 24’6
2

80 
 
Ejercicios con SPSS     

Trabajando con un nivel de significación del 5%, se pide:


a) Estudiar si las muestras obtenidas se distribuyen según una distribución normal.
b) Estudiar si las muestras son homocedásticas.
c) ¿Se puede aceptar que el peso medio de los corderos lechales en cada uno de los
semestres es el mismo?
d) ¿Se puede afirmar que el peso medio de los corderos lechales en el segundo
semestre es de 22 kg?
SOLUCIÓN:
Antes de comenzar con los apartados del problema debemos introducir los datos. Para
ello creamos dos variables “peso” y “semestre”, según se muestra en la tabla
siguiente:

a) Tenemos que contrastar la normalidad de los datos, es decir, hay que comprobar la
normalidad de los pesos de los corderos lechales correspondientes al primer y
segundo semestres. Para este contraste SPSS nos proporciona el test de Kolmogorov-
Smirnov (para cualquier tamaño muestral) y el test de Shapiro-Wilk (para tamaños
muestrales menores de 50). Siempre que podamos utilizaremos el test de Shapiro-
Wilk, ya que el test de Kolmogorov-Smirnov es muy conservador.

H0: La muestra procede de una población distribuida según una normal.

H1: La muestra procede de una población no distribuida según una normal.

81 
 
Ejercicios con SPSS     

Observamos que tenemos seleccionados sólo los corderos lechales del segundo
semestre, por lo que en primer lugar hay que quitar el filtrado que hicimos en el
apartado anterior.
Para hacer el contraste sobre la normalidad de los datos hacemos la secuencia:
Analizar / Estadísticos descriptivos / Explorar

y pulsamos en el botón Gráficos:

Para hace el apartado a) 
Prueba de normalidad 

Para hace el apartado b) 
Prueba de homocedasticidad 

para obtener:

Resumen del procesamiento de los casos

Casos
Válidos Perdidos Total
Semestre N Porcentaje N Porcentaje N Porcentaje
Peso (en kg) 1 12 100,0% 0 ,0% 12 100,0%
2 12 100,0% 0 ,0% 12 100,0%

82 
 
Ejercicios con SPSS     

Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Semestre Estadístico gl Sig. Estadístico gl Sig.
Peso (en kg) 1 ,126 12 ,200* ,976 12 ,961
2 ,182 12 ,200* ,935 12 ,435
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors

Puesto que el tamaño muestral es menor de 50, nos fijaremos en el test de Shapiro-
Wilk. Para el primer semestre el p-valor (0’961) es > 0’05 y para el segundo semestre
el p-valor (0’435) es > 0’05, por lo que no hay evidencias para rechazar la hipótesis
nula de normalidad al 5% de significación, es decir, no hay evidencias para rechazar la
normalidad de las muestras de los pesos de los corderos lechales para cada uno de
los semestres al 5% de significación.
b) Para analizar la homocedasticidad (igualdad de varianzas) aplicaremos el test de
Levene:
Tal y como hemos estudiado en el apartado anterior, para realizar el test utilizamos la
opción: Analizar / Estadísticos descriptivos / Explorar
El test que aplicamos tiene las siguientes hipótesis:

H0: σ12 = σ22

H1: σ12 ≠ σ22

Los resultados obtenidos para el test de Levene (que nos evalúa si las muestras son
homocedásticas) vienen registrados en la siguiente tabla:

Prueba de homogeneidad de la varianza

Estadístico
de Levene gl1 gl2 Sig.
Peso (en kg) Basándose en la media ,816 1 22 ,376
Basándose en la
,789 1 22 ,384
mediana.
Basándose en la
mediana y con gl ,789 1 17,075 ,387
corregido
Basándose en la media
,814 1 22 ,377
recortada

A partir de la tabla “Prueba de homogeneidad de la varianza”, el p-valor asociado al


contraste es 0’376 > 0’05, por lo que no hay evidencias para rechazar la hipótesis nula
de homocedasticidad al 5% de significación, es decir, aceptamos la igualdad de
varianzas al 5% de significación.
c) Para contrastar si el peso medio de los corderos lechales es igual en cada uno de
los semestres, hay que plantear un contraste sobre la igualdad de medias:

H0: 1 = 2

H1: 1 ≠ 2

83 
 
Ejercicios con SPSS     

Para realizar el análisis hacemos la secuencia:

y seleccionando Definir grupos aparece una ventana que se rellena como sigue:

y pulsando Opciones para establecer el nivel de confianza del 95% nos queda:

84 
 
Ejercicios con SPSS     

para obtener:

Estadísticos de grupo

Desviación Error típ. de


Semestre N Media típ. la media
Peso (en kg) 1 12 22,417 1,8065 ,5215
2 12 23,783 1,3051 ,3768

Prueba de muestras independientes

Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
Peso (en kg) Se han asumido
,816 ,376 -2,124 22 ,045 -1,3667 ,6433 -2,7009 -,0325
varianzas iguales
No se han asumido
-2,124 20,024 ,046 -1,3667 ,6433 -2,7085 -,0248
varianzas iguales

A partir de la tabla “Prueba de muestras independientes”, en el contraste de hipótesis


de igualdad de medias el p-valor 0’045 (asumiendo igualdad de varianzas) es < 0’05,
por lo que hay evidencias para rechazar la hipótesis nula de igualdad de medias a un
nivel de significación del 5%, es decir, se rechaza que el peso medio de los corderos
lechales sea igual para los dos semestres al 5% de significación. Sin embargo, si
consideramos un nivel de significación del 1%, en este caso el p-valor 0’045
(asumiendo igualdad de varianzas) es > 0’01, por lo que no hay evidencias para
rechazar la igualdad de los pesos medios de los corderos lechales de los dos
semestres al 1% de significación.
A partir de la tabla “Prueba de muestras independientes”, un intervalo de confianza
para la diferencia de medias al 95% de confianza es (- 2’7009 , - 0’0325) asumiendo
igualdad de varianzas. De esta forma se puede saber si el peso medio de los corderos
lechales en el primer semestre es superior al peso medio de los corderos lechales en
el segundo semestre. En este caso, el intervalo de confianza sólo contiene valores
negativos, lo que indica que el peso medio de los corderos lechales del primer
semestre es inferior al peso medio de los corderos lechales del segundo semestre.
d) Para contrastar si el peso medio de los corderos lechales en el segundo semestre
es de 22 kg o por el contrario difiere de esta cantidad, hay que plantear el siguiente
contraste:

H0: 2 = 22

H1: 2 ≠ 22

En este apartado sólo nos interesan los corderos lechales del segundo semestre, para
lo que hacemos la secuencia:
Datos / Seleccionar casos

85 
 
Ejercicios con SPSS     

y seleccionando Si obtenemos una ventana que tenemos que rellenar como sigue:

De esta forma, sólo tenemos seleccionados los corderos lechales del segundo
semestre. Para realizar el análisis hacemos la secuencia:
Analizar / Comparar medias / Prueba T para una muestra

86 
 
Ejercicios con SPSS     

y pulsando Opciones para establecer el nivel de confianza del 95% nos queda:

para obtener:

Estadísticos para una muestra

Desviación Error típ. de


N Media típ. la media
Peso (en kg) 12 23,783 1,3051 ,3768

Prueba para una muestra

Valor de prueba = 22
95% Intervalo de
confianza para la
Diferencia diferencia
t gl Sig. (bilateral) de medias Inferior Superior
Peso (en kg) 4,733 11 ,001 1,7833 ,954 2,613

A partir de la tabla “Prueba para una muestra”, en el contraste de hipótesis del peso
medio de los corderos lechales del segundo semestre igual a 22 kg el p-valor (0’001)
es < 0’05, por lo que hay evidencias para rechazar la hipótesis nula de media igual a

87 
 
Ejercicios con SPSS     

22 a un nivel de significación del 5%, es decir, se rechaza que el peso medio de los
corderos lechales del segundo semestre sea de 22 kg al 5% de significación.
A partir de la tabla “Prueba para una muestra”, un intervalo de confianza para el peso
medio de los corderos lechales del segundo semestre al 95% de coeficiente de
confianza es (22 + 0’954 , 22 + 2’613) = (22’954 , 24’613). Observamos que dicho
intervalo de confianza para la media no contiene el valor 22, con lo cual podemos
afirmar que el peso medio de los corderos lechales del segundo semestre no es de 22
kg con un nivel de confianza del 95%.

Ejercicio Spss 15. Un instituto dietético desea comparar dos dietas, para lo cual se
extrae una muestra de veinte individuos con exceso de peso, aplicándose la dieta A a
diez de ellos y la B a los restantes. Después de un tiempo (considerado suficiente para
que las dietas tengan efecto), se comprobaron las pérdidas de peso en kg
experimentadas por los individuos. Suponiendo que las pérdidas de peso se
distribuyen normalmente, ¿se puede aceptar que la pérdida media de peso es la
misma en ambas dietas? Trabajar con un nivel de confianza del 90%.

Dieta A Dieta B

Individuo 1 6’1 Individuo 11 3’2

Individuo 2 2’1 Individuo 12 4’1

Individuo 3 4’5 Individuo 13 3’9

Individuo 4 7’1 Individuo 14 3’1

Individuo 5 3’4 Individuo 15 4’0

Individuo 6 4’9 Individuo 16 4’0

Individuo 7 4’8 Individuo 17 4’8

Individuo 8 5’1 Individuo 18 4’6

Individuo 9 3’8 Individuo 19 5’0

Individuo 10 3’5 Individuo 20 3’4

SOLUCIÓN:
Lo primero que hacemos es introducir los datos tal y como se muestra en la pantalla
siguiente.

88 
 
Ejercicios con SPSS     

Para contrastar si la pérdida media de peso es la misma en ambas dietas, hay que
plantear un contraste sobre la igualdad de medias:

H0: A = B

H1: A ≠ B

Para realizar el análisis hacemos la secuencia:


Analizar / Comparar medias / Prueba T para muestras independientes

y seleccionando Definir grupos aparece una ventana donde indicamos los códigos
para cada grupo.

89 
 
Ejercicios con SPSS     

Marcamos continuar y pulsamos Opciones para establecer el nivel de confianza del


90%:

para obtener:
Prueba T

Estadísticos de grupo

Desviación Error típ. de


Tipo de dieta N Media típ. la media
Pérdida de peso (en kg) A 10 4,530 1,4291 ,4519
B 10 4,010 ,6523 ,2063

Prueba de muestras independientes

Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
90% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
Pérdida de peso (en kg) Se han asumido
3,605 ,074 1,047 18 ,309 ,5200 ,4968 -,3414 1,3814
varianzas iguales
No se han asumido
1,047 12,594 ,315 ,5200 ,4968 -,3619 1,4019
varianzas iguales

Para poder decidir si hay o no evidencias para rechazar la hipótesis de igualdad de


media debemos analizar antes el contraste de igualdad de varianzas (LEVENE).
Estudiando la prueba de Levene para la igualdad de varianzas se observa un p-valor
de 0’074 <0’1 (tomando como nivel de confianza el 90%). A partir de este p-valor
podemos concluir que las muestras son heterocedásticas (hay evidencias estadísticas
para rechazar la igualdad de varianzas).
Esto nos hace fijarnos en el p-valor para la prueba T que se indica en la segunda fila,
0’315>0’10, por lo que no hay evidencias para rechazar la hipótesis nula de igualdad
de medias a un nivel de significación del 10%.
En consecuencia, a un nivel de significación del 10%, aceptamos la hipótesis nula de
igualdad de medias y afirmamos que no existe diferencia en la pérdida de peso
media de ambas dietas.
A través de los datos que nos muestra la tabla anterior también podemos construir un
intervalo de confianza para la diferencia de medias al nivel de confianza del 90%.
Como hemos supuesto que no se da la homocedasticidad debemos fijarnos en el
intervalo de la segunda fila, (- 0’3619, 1’4019).
Observamos que dicho intervalo de confianza para la diferencia de medias contienen
el valor 0, con lo cual podemos aceptar que el peso medio perdido al seguir la dieta A
es el mismo al perdido al seguir la dieta B con una confianza del 90%.

90 
 
Ejercicios con SPSS     

Ejercicio Spss 16. Un experto en nutrición está comparando las dietas de dos
colegios mayores masculinos. Para ello extrae dos muestras independientes de
alumnos de cada uno de los colegios. Suponiendo que los pesos de los alumnos se
distribuyen normalmente, ¿se puede aceptar que los pesos medios de los alumnos de
ambos colegios son los mismos? Trabajar con un nivel de significación del 1%. Los
datos obtenidos se muestran en la siguiente tabla:

Número de alumnos
Peso (en kg)
Colegio mayor A Colegio mayor B

76 0 2

78 1 3

80 2 0

81 1 3

82 1 1

83 1 1

87 1 0

88 2 0

89 1 0

SOLUCIÓN:
Para proceder a estudiar el análisis que nos piden hay que realizar el contraste
paramétrico “prueba T para muestras independientes”, debido a que nos indican en el
enunciado que la hipótesis necesaria de normalidad se cumple.
Una vez introducidos los datos tal y como aparece en la siguiente pantalla debemos
ponderar los datos por la variable “Número de alumnos” o ”Frecuencia” pues vienen
expresados de forma agrupada.

91 
 
Ejercicios con SPSS     

Datos / Ponderar casos

Para contrastar si los pesos medios son los mismos en ambos colegios, hay que
plantear un contraste sobre la igualdad de medias:

H0: A = B

H1: A ≠ B

Para realizar el análisis hacemos la secuencia:


Analizar / Comparar medias / Prueba T para muestras independientes

92 
 
Ejercicios con SPSS     

y seleccionando Definir grupos aparece una ventana que se rellena como sigue:

y pulsando Opciones para establecer el nivel de confianza del 99% nos queda:

para obtener:

Estadísticos de grupo

Desviación Error típ. de


Colegio mayor N Media típ. la media
Peso (en kg) A 10 83,60 4,033 1,275
B 10 79,40 2,503 ,792

Prueba de muestras independientes

Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
99% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
Peso (en kg) Se han asumido
5,142 ,036 2,798 18 ,012 4,200 1,501 -,121 8,521
varianzas iguales
No se han asumido
2,798 15,038 ,013 4,200 1,501 -,222 8,622
varianzas iguales

A partir de la tabla “Prueba de muestras independientes”, en el contraste de hipótesis


de igualdad de medias el p-valor es: 0’012 debido a que no se puede rechazar la
hipótesis de homocedasticidad (p-valor 0’036>0’01).
Como se verifica que el p-valor es 0’012> 0’01, no hay evidencias para rechazar la
hipótesis nula de igualdad de medias a un nivel de significación del 1%.
En consecuencia, a un nivel de significación del 1%, aceptamos la hipótesis nula de
igualdad de medias y afirmamos que no existe diferencia en el peso medio de los
alumnos de ambos colegios.
A partir de la tabla “Prueba de muestras independientes”, un intervalo de confianza
para la diferencia de medias al nivel de confianza del 99% es: (- 0’121 , 8’521)
suponiendo homocedasticidad. Observamos que dicho intervalo de confianza para la
diferencia de medias contienen el valor 0, con lo cual podemos aceptar que el peso
medio de los alumnos de ambos colegios es el mismo con una confianza del 99%.

93 
 
Ejercicios con SPSS     

Ejercicio Spss 17. Un experto en nutrición desea conocer si los pesos medios de
atletas muestreados en cuatro ciudades europeas son iguales o por el contrario
difieren. Se obtuvo una muestra de diez atletas en cada ciudad. Los datos se
presentan a continuación:

Ciudad A Ciudad B Ciudad C Ciudad D

78 78 79 77

88 78 73 69

87 83 79 75

88 81 75 74

83 78 77 74

82 81 78 83

81 81 80 80

80 82 78 75

80 76 83 76

89 76 84 75

Peso (en kg) de atletas de cuatro ciudades europeas

Utilizando un nivel de significación del 5%, se pide:


a) Comprobar si las muestras obtenidas proceden de poblaciones normales.
b) Comprobar si las muestras obtenidas tienen igual varianza.
c) Comprobar si los pesos medios en las diferentes ciudades son iguales o difieren.
SOLUCIÓN:
En primer lugar introducimos los datos y en este caso no hace falta ponderar porque
los datos vienen expresados de forma individual (no hay frecuencias).

94 
 
Ejercicios con SPSS     

a) Tenemos que contrastar la normalidad de los datos, es decir, hay que comprobar la
normalidad de los pesos de los atletas de las ciudades A, B, C y D. Para este
contraste SPSS nos proporciona el test de Kolmogorov-Smirnov (para cualquier
tamaño muestral) y el test de Shapiro-Wilk (para tamaños muestrales menores de 50).
Siempre que podamos utilizaremos el test de Shapiro-Wilk, ya que el test de
Kolmogorov-Smirnov es muy conservador (tiende a no rechazar).

H0: La muestra procede de una población distribuida según una normal.

H1: La muestra procede de una población no distribuida según una normal.

Para hacer el contraste sobre la normalidad de los datos hacemos la secuencia:


Analizar / Estadísticos descriptivos / Explorar

95 
 
Ejercicios con SPSS     

y pulsamos en el botón Gráficos:

Para hace el apartado a) 
Prueba de normalidad 

Para hace el apartado b) 
Prueba de homocedasticidad 

para obtener:

Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Ciudad Estadístico gl Sig. Estadístico gl Sig.
Peso (en kg) A ,200 10 ,200* ,893 10 ,183
B ,239 10 ,112 ,899 10 ,215
C ,152 10 ,200* ,966 10 ,849
D ,215 10 ,200* ,924 10 ,390
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors

En vista de los resultados resaltados podemos afirmar que no hay evidencias


estadísticas para rechazar la hipótesis de normalidad en ninguna de las ciudades.
Puesto que el tamaño muestral es menor de 50, nos fijaremos en el test de Shapiro-
Wilk. Para la ciudad A el p-valor (0’183) es > 0’05, por lo que no hay evidencias para
rechazar la hipótesis nula de normalidad de la muestra de los pesos de los atletas de
la ciudad A al 5% de significación. Para la ciudad B el p-valor (0’215) es > 0’05, por lo
que no hay evidencias para rechazar la hipótesis nula de normalidad de la muestra de
los pesos de los atletas de la ciudad B al 5% de significación. Para la ciudad C el p-
valor (0’849) es > 0’05, por lo que no hay evidencias para rechazar la hipótesis nula de
normalidad de la muestra de los pesos de los atletas de la ciudad C al 5% de
significación. Para la ciudad D el p-valor (0’390) es > 0’05, por lo que no hay
evidencias para rechazar la hipótesis nula de normalidad de la muestra de los pesos
de los atletas de la ciudad D al 5% de significación.
c) Para analizar la homocedasticidad (igualdad de varianzas) aplicaremos el test de
Levene:

H0: σA2 = σB2 = σC2 = σD2

H1: Alguna de las varianzas es distinta.

96 
 
Ejercicios con SPSS     

para obtener la salida del test de Levene (que nos evalúa si las muestras son
homocedásticas):

Prueba de homogeneidad de la varianza

Estadístico
de Levene gl1 gl2 Sig.
Peso (en kg) Basándose en la media ,939 3 36 ,432
Basándose en la
,635 3 36 ,597
mediana.
Basándose en la
mediana y con gl ,635 3 27,309 ,599
corregido
Basándose en la media
,943 3 36 ,430
recortada

A partir de la tabla “Prueba de homogeneidad de la varianza”, el p-valor asociado al


contraste es 0’432 > 0’05, por lo que no hay evidencias para rechazar la hipótesis nula
de homocedasticidad al 5% de significación, es decir, aceptamos la igualdad de
varianzas al 5% de significación.
d) Tenemos que comprobar si los pesos medios de los atletas en las diferentes
ciudades son iguales o difieren. Por tanto, el contraste que hay que plantear es:

H0: μA = μB = μC = μD

H1: Alguna de las medias es distinta.

Este tipo de contrastes se resuelve realizando un análisis de la varianza o ANOVA de


un factor. Para poder aplicar el método del análisis de la varianza se tienen que
cumplir las siguientes hipótesis:
Las poblaciones deben ser independientes.
Las muestras deben ser aleatorias.
Las distribuciones poblacionales deben ser normales.
Las varianzas deben ser iguales (homocedasticidad).
Observamos que por la propia naturaleza de los datos las muestras son
independientes (no se trata de muestras apareadas) y suponemos que son aleatorias.
Puesto que se ha comprobado que se verifican las hipótesis necesarias para aplicar
un ANOVA de un factor, hacemos la secuencia:
Analizar / Comparar medias / ANOVA de un factor

97 
 
Ejercicios con SPSS     

y pulsamos en los botones Post hoc y Opciones respectivamente:

Por si no hemos 
realizado el contraste 
de Levene con 
anterioridad. 

98 
 
Ejercicios con SPSS     

para obtener:
ANOVA de un factor
Descriptivos

Peso (en kg)


Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
A 10 83,60 4,033 1,275 80,71 86,49 78 89
B 10 79,40 2,503 ,792 77,61 81,19 76 83
C 10 78,60 3,307 1,046 76,23 80,97 73 84
D 10 75,80 3,736 1,181 73,13 78,47 69 83
Total 40 79,35 4,353 ,688 77,96 80,74 69 89

Prueba de homogeneidad de varianzas

Peso (en kg) Se observa el mismo sig. que antes 


Estadístico
de Levene gl1 gl2 Sig.
,939 3 36 ,432

ANOVA

Peso (en kg)


Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 312,300 3 104,100 8,781 ,000
Intra-grupos 426,800 36 11,856
Total 739,100 39

Como sig=0’000 rechazamos que los pesos de los atletas sean iguales en las distintas
ciudades. Existen diferencias significativas en el peso de las distintas ciudades.
Para estudiar en qué ciudades se dan estas diferencias analizamos comparaciones
múltiples: Pruebas post hoc
Comparaciones múltiples

Variable dependiente: Peso (en kg)


Scheffé
Intervalo de confianza al
95%
Diferencia de Límite
(I) Ciudad (J) Ciudad medias (I-J) Error típico Sig. Límite inferior superior
A B 4,200 1,540 ,077 -,32 8,72
C 5,000* 1,540 ,025 ,48 9,52
D 7,800* 1,540 ,000 3,28 12,32
B A -4,200 1,540 ,077 -8,72 ,32
C ,800 1,540 ,965 -3,72 5,32
D 3,600 1,540 ,161 -,92 8,12
C A -5,000* 1,540 ,025 -9,52 -,48
B -,800 1,540 ,965 -5,32 3,72
D 2,800 1,540 ,361 -1,72 7,32
D A -7,800* 1,540 ,000 -12,32 -3,28
B -3,600 1,540 ,161 -8,12 ,92
C -2,800 1,540 ,361 -7,32 1,72
*. La diferencia entre las medias es significativa al nivel .05.

99 
 
Ejercicios con SPSS     

En esta tabla se observa como el peso en la ciudad A es distinto al peso de los atletas
en las ciudades C y D. Así mismo se aprecia como el peso en las ciudades B, C y D
pueden considerarse iguales.
Subconjuntos homogéneos

Peso (en kg)


a
Scheffé
Subconjunto para alfa
= .05
Ciudad N 1 2
D 10 75,80
C 10 78,60
B 10 79,40 79,40
A 10 83,60
Sig. ,161 ,077
Se muestran las medias para los grupos en
los subconjuntos homogéneos.
a. Usa el tamaño muestral de la media
armónica = 10,000.

A partir de la tabla “ANOVA”, el p-valor asociado al contraste es 0’000 < 0’05 luego
hay evidencias para rechazar la hipótesis nula al 5% de significación, es decir, hay
evidencias para rechazar que los pesos medios de los atletas en las diferentes
ciudades son iguales al 5% de significación. En consecuencia, existen diferencias
significativas en los pesos medios de los atletas en las diferentes ciudades al 5% de
significación.
A través de la tabla “Comparaciones múltiples” del test de Scheffé podemos averiguar
en qué ciudades se producen estas diferencias. Concretamente, observamos que
existen diferencias significativas en cuanto al peso medio de los atletas de la ciudad A
con las ciudades C y D al 5% de significación. Por otra parte, la tabla “Peso (en kg)”
nos indica que los pesos medios de los atletas de las ciudades B, C y D pueden
considerarse iguales al 5% de significación, y que los pesos medios de los atletas de
las ciudades A y B también pueden considerarse iguales al 5% de significación.

Ejercicio Spss 18. En una cooperativa vinícola manchega se elabora vino a partir
de cinco variedades de uva. Al final del proceso de elaboración del vino y antes de su
filtrado se obtienen residuos, cuya mayor o menor concentración se mide en tantos por
ciento:

A B C D E

0’518 0’713 0’502 0’515 0’713

0’519 0’504 0’511 0’496 0’700

0’481 0’670 0’496 0’506 0’603

0’513 0’697 0’503 0’500 0’693

0’502 0’507 0’700 0’487 0’200

0’648 0’900 0’496 0’400

100 
 
Ejercicios con SPSS     

Suponemos que las muestras han sido elegidas de forma aleatoria y son
independientes. Contrastar, con un nivel de significación del 5%, la hipótesis de que
las cinco variedades de uvas son iguales en cuanto a la cantidad de residuos que
generan. Tipo de contraste que vamos a hacer: contraste de hipótesis de
igualdad de medias en todas las variedades de uva: media uva
SOLUCIÓN: A= media uva B= media uva C,... Con que una no se verifique
En primer lugar introducimos los datos: ya tendremos la hipótesis contraria.

Contraste ANOVA de 1 factor, podemos hacerla porque

Si el p-valor es menor o igual que alpha, rechazo H0 (hipótesis


nula).
A su p-valor = 0,185 (alpha=0,05: lo dice el problema)
B su p-valor = 0,083
C su p-valor= 0,011 (es más pequeño que alpha y por tanto no
se verifica la normalidad de la muestra en C y por tanto la
hipótesis que debe de verificar que las distribuciones son
normales no se verifica)
D y E sí se verifican también como A y B.

Miramos tabla de homogenidad y vemos que no se verifica la


igualdad de varianza (homo

Tenemos que comprobar si la concentración media de residuos es la misma en las


cinco variedades de uva (o vino). Por tanto, el contraste que hay que plantear es:

H0: μA = μB = μC = μD = μE

H1: Alguna de las medias es distinta.

Este tipo de contrastes puede resolverse mediante un análisis de la varianza o ANOVA


de un factor, pero para poder aplicarse este método tienen que cumplirse las
siguientes hipótesis:
Las poblaciones deben ser independientes.
Las muestras deben ser aleatorias.
Las distribuciones poblacionales deben ser normales.
Las varianzas deben ser iguales (homocedasticidad).
A continuación, tenemos que contrastar la normalidad de los datos, es decir, hay que
comprobar la normalidad de las concentraciones de residuos en las variedades de vino
A, B, C, D y E. Para este contraste SPSS nos proporciona el test de Kolmogorov-
Smirnov (para cualquier tamaño muestral) y el test de Shapiro-Wilk (para tamaños
muestrales menores de 50). Siempre que podamos utilizaremos el test de Shapiro-
Wilk, ya que el test de Kolmogorov-Smirnov es muy conservador.

101 
 
Ejercicios con SPSS     

H0: La muestra procede de una población distribuida según una normal.

H1: La muestra procede de una población no distribuida según una normal.

Para hacer el contraste sobre la normalidad de los datos hacemos la secuencia:


Analizar / Estadísticos descriptivos / Explorar

y pulsamos en el botón Gráficos para seleccionar el test de normalidad (Gráficos con


pruebas de normalidad) y el de homocedasticiadad (Dispersión por nivel con prueba
de Levene/Estimación de potencia)
para obtener:

Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Variedad de vino Estadístico gl Sig. Estadístico gl Sig.
Concentración de A ,257 5 ,200* ,847 5 ,185
residuos (en B ,271 6 ,192 ,817 6 ,083
tantos por ciento) C ,375 6 ,008 ,725 6 ,011
D ,172 6 ,200* ,969 6 ,889
E ,264 6 ,200* ,819 6 ,087
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors

Puesto que el tamaño muestral es menor de 50, nos fijaremos en el test de Shapiro-
Wilk. Para la variedad de vino A el p-valor (0’185) es > 0’05, por lo que no hay
evidencias para rechazar la hipótesis nula de normalidad de la muestra de las
concentraciones de residuos en la variedad de vino A al 5% de significación.
Para la variedad de vino B el p-valor (0’083) es > 0’05, por lo que no hay evidencias
para rechazar la hipótesis nula de normalidad de la muestra de las concentraciones de
residuos en la variedad de vino B al 5% de significación.
Para la variedad de vino C el p-valor (0’011) es < 0’05, por lo que hay evidencias
para rechazar la hipótesis nula de normalidad de la muestra de las
concentraciones de residuos en la variedad de vino C al 5% de significación.
Para la variedad de vino D el p-valor (0’889) es > 0’05, por lo que no hay evidencias
para rechazar la hipótesis nula de normalidad de la muestra de las concentraciones de
residuos en la variedad de vino D al 5% de significación.

102 
 
Ejercicios con SPSS     

Para la variedad de vino E el p-valor (0’087) es > 0’05, por lo que no hay evidencias
para rechazar la hipótesis nula de normalidad de la muestra de las concentraciones de
residuos en la variedad de vino E al 5% de significación.
Para analizar la homocedasticidad (igualdad de varianzas) aplicaremos el test de
Levene:

H0: σA2 = σB2 = σC2 = σD2 = σE2

H1: Alguna de las varianzas es distinta.

Prueba de homogeneidad de la varianza

Estadístico
de Levene gl1 gl2 Sig.
Concentración de Basándose en la media 7,875 4 24 ,000
residuos (en Basándose en la
tantos por ciento) 1,783 4 24 ,165
mediana.
Basándose en la
mediana y con gl 1,783 4 11,627 ,199
corregido
Basándose en la media
6,457 4 24 ,001
recortada

A partir de la tabla “Prueba de homogeneidad de la varianza”, el p-valor asociado al


contraste es 0’000 < 0’05, por lo que hay evidencias para rechazar la hipótesis nula de
homocedasticidad al 5% de significación, es decir, rechazamos la igualdad de
varianzas al 5% de significación.
Puesto que no se cumplen las hipótesis necesarias para aplicar un análisis de la
varianza o ANOVA de un factor, tendremos que aplicar la correspondiente técnica no
paramétrica: el test de la H de Kruskal-Wallis. Para ello hacemos la secuencia:
Analizar / Pruebas no paramétricas / K muestras independientes

103 
 
Ejercicios con SPSS     

y seleccionando Definir rango aparece una ventana que se rellena como sigue:

obteniendo:

y pulsando Aceptar obtenemos:

104 
 
Ejercicios con SPSS     

Prueba de Kruskal-Wallis

Rangos

Rango
Variedad de vino N promedio
Concentración de A 5 13,10
residuos (en B 6 20,08
tantos por ciento) C 6 16,00
D 6 9,00
E 6 16,50
Total 29

Estadísticos de contrastea,b

Concentració
n de residuos
(en tantos por
ciento)
Chi-cuadrado 5,645
gl 4 P-valor mayor que el alpha, aceptamos por tanto la hipótesis nula: que
Sig. asintót. ,227 era que todas las muestras proceden de la misma población: no hay
evidencia para afirmar que las muestras son distintas
a. Prueba de Kruskal-Wallis
b. Variable de agrupación: Variedad de vino

A partir de la tabla “Estadísticos de contraste”, el p-valor asociado al contraste es


0’227 > 0’05, por lo que no hay evidencias para rechazar la hipótesis nula al 5% de
significación, es decir, en vista de los resultados muestrales estudiados, no hay
evidencia para afirmar que las
cinco variedades de uvas son distintas en cuanto a la cantidad de residuos que
generan al 5% de significación.

Ejercicio Spss 19. Se estudió la duración de cuarenta yogures sometidos a dos


tipos de conservantes A y B. Los valores obtenidos, medidos en cientos de horas,
fueron:

Conservantes A 18’3 13’5 12’6 14’7 13’2 14’8 13’6 12’8 23’1 14’8

14’9 12’2 14’5 25’1 12’9 15’0 11’4 13’2 18’5 10’2

Conservantes B 26’0 19’4 13’8 17’0 9’4 18’8 16’3 19’9 13’9 19’2

14’2 13’0 16’5 21’2 15’3 22’8 17’6 13’1 15’8 16’9

Utilizando un nivel de significación del 5%, se pide:


Estudiar si las muestras obtenidas se distribuyen según una distribución normal.
¿Se puede decir que la duración de los yogures bajo el conservante A es igual a la
duración de los yogures bajo el conservante B?

105 
 
Ejercicios con SPSS     

SOLUCIÓN:
Tenemos que contrastar la normalidad de los datos, es decir, hay que comprobar la
normalidad de las duraciones de los yogures bajo los conservantes A y B. Para este
contraste SPSS nos proporciona el test de Kolmogorov-Smirnov (para cualquier
tamaño muestral) y el test de Shapiro-Wilk (para tamaños muestrales menores de 50).
Siempre que podamos utilizaremos el test de Shapiro-Wilk, ya que el test de
Kolmogorov-Smirnov es muy conservador.

H0: La muestra procede de una población distribuida según una normal.

H1: La muestra procede de una población no distribuida según una normal.

Para hacer el contraste sobre la normalidad de los datos introducimos los datos tal y
como aparecen en la siguiente pantalla y activamos la secuencia:

Analizar / Estadísticos descriptivos / Explorar, introduciendo las variables

106 
 
Ejercicios con SPSS     

y pulsamos en el botón Gráficos:

para obtener:
Tipo de conservante

Resumen del procesamiento de los casos

Casos
Válidos Perdidos Total
Tipo de conservante N Porcentaje N Porcentaje N Porcentaje
Duración (en A 20 100,0% 0 ,0% 20 100,0%
cientos de horas) B 20 100,0% 0 ,0% 20 100,0%

Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Tipo de conservante Estadístico gl Sig. Estadístico gl Sig.
Duración (en A ,296 20 ,000 ,817 20 ,002
cientos de horas) B ,101 20 ,200* ,980 20 ,937
En el
*. Este es un límite inferior de la significación verdadera.
conservan
te A no se
a. Corrección de la significación de Lilliefors
verifica ,
rechazo
Puesto que el tamaño muestral es menor de 50, nos fijaremos en el test de Shapiro- H0,
Wilk. Para el conservante A el p-valor (0’002) es < 0’05, por lo que hay evidencias rechazo
para rechazar la hipótesis nula de normalidad de la muestra de las duraciones de los normalida
yogures bajo el conservante A al 5% de significación. d
Para el conservante B el p-valor (0’937) es > 0’05, por lo que no hay evidencias para
rechazar la hipótesis nula de normalidad de la muestra de las duraciones de los
yogures bajo el conservante B al 5% de significación.
Tenemos que contrastar si la duración de los yogures bajo el conservante A es igual o
no a la duración de los yogures bajo el conservante B, pero para ello debemos tener
en cuenta el resultado anterior: Una de las poblaciones analizadas no se distribuye
según una variable aleatoria normal.
Esto tiene mucha importancia a la hora de hacer el test que me piden ya que no
puedo usar las técnicas paramétricas del test T de student de igualdad de medias,
vistas hasta ahora.

H0: Las poblaciones de las que provienen las muestras están equidistribuidas.

H1: Las poblaciones de las que provienen las muestras no están equidistribuidas.

107 
 
Ejercicios con SPSS     

Para realizar este contraste aplicaremos el test de la U de Mann-Whitney para dos


muestras independientes haciendo la secuencia:
Analizar / Pruebas no paramétricas / 2 muestras independientes

y seleccionando Definir grupos aparece una ventana que se rellena como sigue:

y pulsando Continuar y luego Aceptar obtenemos:

Le doy también a la de Kolmogorov (test de rachas aunque no


entra)

108 
 
Ejercicios con SPSS     

Prueba de Mann-Whitney

Rangos

Rango Suma de
Tipo de conservante N promedio rangos
Duración (en A 20 16,40 328,00
cientos de horas) B 20 24,60 492,00
Total 40

Estadísticos de contrasteb = Estadístico de prueba

Duración
(en cientos
de horas)
U de Mann-Whitney 118,000
W de Wilcoxon 328,000
Z -2,218
Sig. asintót. (bilateral) ,027 El p-valor es menor que alpha y por tanto rechazamos H0
Sig. exacta [2*(Sig. a
,026
unilateral)]
a. No corregidos para los empates.
b. Variable de agrupación: Tipo de conservante

A partir de la tabla “Estadísticos de contraste”, el p-valor asociado al contraste es


0’027 < 0’05, por lo que hay evidencias para rechazar la hipótesis nula al 5% de
significación, es decir, rechazamos la hipótesis nula de que la duración de los yogures
bajo el conservante A es igual a la duración de los yogures bajo el conservante B al
5% de significación.
Según los resultados analizados, el tipo de conservante afecta a la duración de los
yogures, aun nivel de significación del 5%.

109 
 
Ejercicios con SPSS     

PROBLEMAS SOBRE INTERVALOS DE CONFIANZA Y CONTRASTES


RESUELTOS CON SPSS SIN PANTALLAS

Ejercicio Spss 20. Una cooperativa de agricultores granadinos afirma que el


porcentaje medio de potasio en sus fertilizantes fue 10 la pasada temporada. Los
abonos de diez agricultores elegidos al azar de esta cooperativa presentaron los
siguientes porcentajes de potasio la pasada temporada:

6’1 9’2 11’5 8’6 12’1 3’9 8’4 10’1 9’4 8’9

Suponiendo que el porcentaje de potasio en sus fertilizantes sigue una distribución


normal, se pide:
a) Un intervalo de confianza para el porcentaje medio poblacional de potasio a un
nivel de confianza del 95%.
El intervalo es (7’10 ; 10’538)
b) Contrastar la afirmación de la cooperativa a un nivel de significación del 5%.
P-valor para la prueba T para una muestra: 0’155 >0’05, No existen evidencias para
rechazar la hipótesis. Podemos afirmar que el porcentaje medio de potasio fue de 10 a
un nivel de significación del 95%.

Ejercicio Spss 21. Los siguientes datos corresponden al tiempo de respuesta (en
meses) de dos tratamientos nutricionales A y B sobre dos muestras independientes de
adolescentes bulímicas. Suponiendo que el tiempo de respuesta se distribuye
normalmente, comprobar si existen diferencias significativas entre el tiempo medio de
respuesta de los dos tratamientos a un nivel de significación del 10%.

A 0’7 1’2 0’8 1’4 1’1 0’9 1’0 1’3 0’4 0’2

0’6 1’1 0’7 1’2 0’9 0’1 0’6 0’5 1’1 0’8

B 0’6 1’4 0’7 0’9 1’1 0’6 0’5 0’8 1’5 0’1

0’7 0’7 0’6 0’5

Dado que la varianza del tiempo de respuesta es igual en ambos tratamientos (p-valor
del test de Levene igual a 0.776>0.10), el p-valor para la prueba T para muestras
independiente, suponiendo varianzas iguales es de 0’606>0’10. Por tanto no podemos
rechazar que el tiempo medio de respuesta sea igual con ambos tratamientos.

Ejercicio Spss 22. En un laboratorio sevillano se producen dos tipos de


comprimidos vitamínicos A y B. Se seleccionaron muestras aleatorias e
independientes del número de comprimidos producidos diariamente (en miles de
unidades) para cada uno de los tipos. La información es la siguiente:

Comprimido vitamínico A 13 14 21 19 15 15

Comprimido vitamínico B 18 19 20 22 31 26

110 
 
Ejercicios con SPSS     

Suponemos que ambas poblaciones se distribuyen normalmente y que las varianzas


son iguales. Responde a través de la construcción de un intervalo de confianza a las
siguientes cuestiones:
a) ¿Se puede admitir con un 95% de confianza que la producción media de ambos
tipos de comprimidos es la misma? ¿por qué?
De la tabla correspondiente a la prueba T para muestras independientes, obtenemos
un intervalo de confianza para la diferencia de muestras a un nivel de significación del
5% igual a (-11’838; -1’162). Dado que el 0 no se encuentra en dicho intervalo, NO
podemos considerar que la diferencia de medias es igual a 0, es decir, que la
producción media de ambos tipos de comprimidos NO es la misma a un 95% de
confianza.
b) ¿Se puede admitir con un 95% de confianza que el número medio de comprimidos
del tipo B es igual a 19.500 unidades? ¿por qué?
Inicialmente seleccionamos en Spss únicamente aquellas observaciones
correspondientes al tipo B.
Mediante la prueba T para un muestra, haciendo el contraste para un valor de prueba
igual a 19’5, se obtiene un intervalo de confianza para la diferencia de la producción
media de comprimidos del tipo B y 19’5 (µ2-19’5) igual a (-2’05; 8’05). Como el 0 está
contenido en dicho intervalo, podemos considerar que µ2-19.5=0, es decir, que la
producción media de comprimidos tipo B se puede considerar igual a 19500 a un nivel
de significación del 5%.

Ejercicio Spss 23. Se ensayaron dos tratamientos dietéticos sobre dos grupos de
diez pacientes anoréxicos, con referencia a una escala convencional (a mayor
puntuación, mayor eficacia), valorada después del tratamiento. Los resultados fueron:

Nivel de eficacia del tratamiento

Tratamiento I 12 15 21 17 38 42 10 23 35 28

Tratamiento II 21 18 25 14 52 65 40 43 35 42

Utilizando un nivel de significación del 5%:


a) Estudie la normalidad en ambos tratamientos.
Los P-valores correspondiente al test de Shapiro_wilk para los diferentes tratamientos
son:
Trat. I.------> p-valor: 0’515
Trat. II----> p-valor: 0’761
Dado que ambos p-valores son mayores que 0’05, no existen evidencias para
rechazar la normalidad de los datos.
b) Estudie si las muestras son homocedásticas.
El p-valor correspondiente al test de Levene para la homocedasticidad, es igual a
0’286>0’05 y por tanto, no existen evidencias significativas para rechazar la
homocedasticidad de ambas poblaciones.
c) ¿Se puede aceptar que el nivel medio de eficacia de ambos tratamientos es el
mismo?

111 
 
Ejercicios con SPSS     

El p-valor de la prueba T para muestras independientes, considerando igualdad de


varianzas, es igual a 0’084>0’05 y por tanto no existen evidencias significativas para
rechazar la igualdad de la eficacia media en los dos tratamientos.

Ejercicio Spss 24. Se estudian los hábitos de alimentación de dos especies de


arañas: la Dinopis y la Menneus. Una variable de interés es el tamaño de las presas
(en mm) de cada especie. Los datos se muestran a continuación:

Tamaño presa
5’0 26’0 7’4 7’0 10’5 3’0 7’1 9’9 30’0 11’3
(Dinopis)

Tamaño presa
20’0 6’9 10’9 23’0 10’1 5’3 3’0 10’3 30’0 8’8
(Menneus)

Utilizando un nivel de significación del 5%, se pide:


a) Estudiar si las muestras obtenidas se distribuyen según una distribución normal.
Los p-valores correspondientes al test de Shapiro_wilk para los diferentes tipos de
arañas:
Tipo I. (Dinopis)------> p-valor: 0’009.
Tipo. II (Menneus)----> p-valor: 0’149.

Dado que el p-valor para la normalidad de los datos correspondientes al primer tipo de
araña es inferior a 0’05, existen evidencias para rechazar la normalidad de los datos
a un nivel de significación del 5%.
Los datos en la segunda muestra se distribuyen según una ley normal ya que su p-
valor es mayor que 0’05.

b) Estudiar si se verifica la homocedasticidad.


El p-valor para el test de Levene es de 0’870 y por tanto se puede considerar la
homocedasticidad o igualdad de varianzas.

c) ¿Se puede considerar que el tamaño de las presas en cada una de las especies es
el mismo?
Dado que los datos en la primera muestra no proceden de una distribución normal, no
podemos aplicar la prueba T para muestras independientes. Aplicamos una prueba no
paramétrica. El p-valor correspondiente al test de U de Mann_whitney es de 0’762 y
por tanto se puede considerar que el tamaño de las presas es igual para ambos tipos
de arañas a un nivel de significación del 5%.

112 
 
Ejercicios con SPSS     

Ejercicio Spss 25. Un experto en nutrición divide un muestra de ciclistas en tres


grupos. Al grupo A se le mantiene con la alimentación acostumbrada, al grupo B se le
proporciona un complemento vitamínico y al grupo C una dieta de alimentos altamente
nutritivos. Algún tiempo después se registra el número de minutos empleados por los
ciclistas para correr siete millas:

A B C

14 13 13

16 14 12

15 15 11

17 16 14

15 14 11

Estúdiese las hipótesis apropiadas y efectúese un análisis de la varianza.


Independencia: Se verifica por la propia selección de las muestras.
Normalidad: P-valores correspondiente al test de Shapiro_wilk para los diferentes tipos
de alimentación:
Tipo A. ------> p-valor: 0’814
Tipo. B----> p-valor: 0’814.
Tipo. C----> p-valor: 0’421.
Todas las muestras se pueden considerar que vienen de una distribución Normal.
Homocedasticidad: El p-valor para el test de Levene es de 0’882>0.05 y por tanto se
verifica la homocedasticidad.
Dado que todas las hipótesis se verifican, podemos usar la prueba ANOVA para
realizar la comparación de medias para más de dos poblaciones.
El p-valor correspondiente a la prueba ANOVA es igual a 0’004<0’05 y por tanto
existen evidencias para rechazar la igualdad me medias.

Ejercicio Spss 26. Se ha pesado a una serie de atletas españoles, en concreto a


veinte hombres y veinte mujeres. Los datos (en kg) se presentan en la siguiente tabla:

Hombres 72’0 73’4 76’0 73’6 76’0 74’5 76’8 72’8 73’0 74’9

77’0 78’6 75’8 76’1 76’4 74’9 73’8 76’2 76’3 76’4

Mujeres 71’0 71’6 71’8 72’0 75’0 73’0 74’0 74’5 74’6 73’8

73’6 75’0 75’3 72’6 71’3 76’0 75’8 72’0 74’0 73’8

Utilizando un nivel de significación del 5%, se pide:


a) Estudiar si las muestras obtenidas se distribuyen según una distribución normal.
b) Estudiar si las muestras son homocedásticas.

113 
 
Ejercicios con SPSS     

c) Estudiar si puede considerarse que el peso medio tanto en los hombres como en
las mujeres es igual. Asimismo, dar un intervalo de confianza para la diferencia de
medias al 95%.

Ejercicio Spss 27. Los niveles de monóxido de carbono de dos ciudades se


distribuyen normalmente. Un estudio ambiental afirma que ambas ciudades tienen
igual nivel medio de monóxido de carbono. Los porcentajes de monóxido de carbono
de ocho días seleccionados al azar para cada una de las ciudades fueron las
siguientes:

Ciudad A 2’15 2’61 2’11 2’26 2’01 2’31 2’51 2’80

Ciudad B 2’24 2’53 2’35 2’22 2’21 2’22 2’21 2’01

Con un nivel de significación del 5%:


a) ¿Se puede admitir que ambos niveles medios de monóxido de carbono son
iguales?
b) ¿Se puede admitir que el nivel medio de monóxido de carbono de la ciudad A es
de un 2%?
c) ¿Se puede admitir que el nivel medio de monóxido de carbono de la ciudad B es
de un 2’2%?
Un experto en nutrición divide una muestra de ciclistas en tres

114 
 

You might also like