Professional Documents
Culture Documents
CUANTITATIVA
a) Tipos de muestreo
cuantitativos
Población
• Es el conjunto sobre el que estamos
interesados en obtener conclusiones
(hacer inferencia).
• Normalmente es demasiado grande
para poder abarcarlo.
• Se define arbitrariamente nombrando
sus propiedades particulares, es decir,
alude a la totalidad de los casos que
comparten determinadas
características o variables.
• Incluye a todos los conjuntos de
personas, objetos o reacciones que se
pueden describir como dotados de una
combinación única de cualidades
(variables).
• Es importante acotar el universo y
conocer las unidades que lo
componen.
Muestra
• Es un subconjunto de la población al
que tenemos acceso y sobre el que
realmente hacemos las observaciones
(mediciones) y calculamos los
“estadísticos”.
• Esta formada por miembros extraídos
de la población (individuos, unidades
experimentales).
• Las muestras se dividen en muestras
aleatorias y muestras no aleatorias
(probabilísticas y no probabilísticas).
• Para que las muestras sea
representativas de la población es
necesario recurrir a principios
deducidos del cálculo de
probabilidades (aleatoria).
Parámetros y estadísticos
• Las medidas de las
características de una
muestra son designadas bajo
la denominación genérica de
“estadísticos”.
• Las medidas de las
características de la
población, que se agrupan
bajo el término genérico de
“parámetros”.
• Un “estadístico” es una cifra
que describe a una muestra.
Parámetros y estadísticos
• Para cada tipo de estadístico hay un parámetro correspondiente.
• En base a probabilidad buscamos generalizar los estadísticos para
describir la población (“caracterizarlos como parámetros”).
Tratamos de inferir los parámetros a través de los
estadísticos
Unidad muestral
• Cada parte en que se divide la población para seleccionar la muestra.
• Las unidades muestrales las elige el investigador.
• Deben ser distinguibles e identificables, aunque a veces no están
perfectamente definidas.
• Ejemplos:
• Si la población es una lista de alumnos de los colegios municipales de la
Comuna “X”, la unidad muestral son los alumnos.
• Si la población es una lista de viviendas de un barrio, las unidades
muestrales son cada una de las viviendas.
Marco muestral
• El “marco muestral” corresponde
al “listado” de las unidades
muestrales.
• Asegura la selección aleatoria, por
tanto, es el “gran tema” práctico
del muestreo.
• Mientras más perfectamente
conocemos el marco muestral
mayormente se reducen los sesgos
que se introducen por su
desconocimiento.
• Todas las conclusiones estadísticas
(de comparación de grupos, de
correlaciones entre variables, de
reducción de la dimensionalidad,
etc.) quedan restringidas a las
personas que están en el marco
muestral y no a otras.
Marco muestral
• Es decir, del marco muestral depende si
estamos hablando de estadística inferencial
o de simple estadística descriptiva.
• Si no conocemos el marco muestral
técnicamente no podemos obtener
selección aleatoria.
• Mientras más perfectamente conocemos el
marco muestral mayormente se reducen los
sesgos que se introducen por su
desconocimiento.
• Los marcos muestrales se deducen de los
censos de población.
• El problema es que esa información se va
“envejeciendo”.
Muestras probabilísticas
• Las muestras probabilísticas son útiles cuando:
• Queremos hacer estimación de parámetros.
• Queremos hacer pruebas de hipótesis.
• Las ventajas son:
• Cada caso de la población tiene igual probabilidad de
participar en la muestra.
• Esta probabilidad es conocida de antemano (fracción de
muestreo).
• La elección de cada caso debe ser independiente de la
elección de los demás elección con “reposición”
• Se puede calcular el error muestral y con él hacer
estimaciones
Muestras no probabilísticas
• En general, las muestras no probabilísticas exigen menor número de casos.
• Sin embargo tiene inconvenientes:
• Dificultad para el cálculo del error muestral.
• Introducción de sesgos.
• Los elementos no tienen igual probabilidad de ser parte de la muestra.
• Imposibilidad de hacer “inferencia”.
• Las ventajas son:
• No necesita de un marco muestral.
• Más barato y sencillo.
• El muestreo no probabilístico se usa cuando:
• No tenemos marco muestral.
• Indagación exploratoria (estudios pilotos)
• Estudios cualitativos.
• Estudios de población de difícil registro y localización.
Muestreo aleatorio simple (M.A.S)
• Una vez identificado el “marco muestral” se asigna a
cada individuo de este listado un número de
identificación siguiendo un orden consecutivo.
• Luego, se procede a la extracción aleatoria de los
integrantes de la muestra.
• Se eligen individuos de la población de estudio, de
manera que todos tienen la misma probabilidad de
aparecer, hasta alcanzar el tamaño muestral deseado.
Muestreo aleatorio simple (M.A.S)
• Se puede realizar partiendo de listas de
individuos de la población, y eligiendo individuos
aleatoriamente con un ordenador.
• Normalmente tiene un coste bastante alto su
aplicación.
• La exigencia de disponer de un marco muestral
hace desaconsejable este procedimiento en
poblaciones de elevada cantidad.
Ventajas e inconvenientes del M.A.S.
Muestreo Sistemático
• Al igual que el M.A.S., exige la existencia de un marco muestral, es
decir, requiere de una lista de los individuos de la población de
estudio.
• Las diferencias con el M.A.S. son:
• Sólo el 1º caso de la muestra se elige al azar (mediante una tabla de números aleatorios,
mediante sorteo, etc.).
• La condición es que el número seleccionado sea menor al coeficiente de elevación (es
decir: que el caso seleccionado sea menor al número de individuos de la población
representados por cada uno de la muestra o, lo que es lo mismo, el número de veces que
la muestra se halla contenida en el universo) N / n.
• Los restantes casos de la muestra se seleccionan sumando, de forma sucesiva, el
coeficiente de elevación al número del 1º caso elegido.
Ejemplo
• Tenemos una muestra de 500 personas en una población de 4000.
• El primer paso es calcular el coeficiente de elevación, vale decir: N/n =
4000/500 = 8.
• Luego, debemos elegir aleatoriamente un número menor que 8 (por
ejemplo, el 4).
• Este individuo, casa, colectivo, etc. a la que corresponde dicho número (4)
en el marco muestral será la primera unidad de la muestra.
• Deberemos sumar a esta 1º unidad el coeficiente de elevación 8, hasta
completar el número de la muestra (500 casos).
• Es decir las unidades seleccionadas serían las que en el marco muestral les
corresponden los números: 4, 12, 20, 28, 36….. Hasta completar los 500
casos.
Ventajas e inconvenientes del m. a. sistemático.
Muestreo aleatorio estratificado
• Se aplica cuando sabemos que hay
ciertos factores (variables,
subpoblaciones o estratos) que
pueden influir en el estudio y
queremos asegurarnos de tener
cierta cantidad mínima de individuos
de cada tipo:
• Hombres y mujeres,
• Jóvenes, adultos y ancianos
• Comunas.
PASOS A SEGUIR:
• Listar en un marco muestral todas las regiones del país donde se llevaron a cabo actividades del programa.
• La selección de la muestra nacional de regiones se puede estratificar por tipo de región (rural – urbana) y tamaño
(más de 100.000 habitantes – menos de 100.000 habitantes).
• Elegimos las regiones mediante alguno de los procedimientos de selección aleatoria (simple, sistemática,
estratificada).
• Para cada región elegida se debe extraer una muestra aleatoria de beneficiarios. Para esto debemos recurrir a un
segundo marco muestral: el listado de beneficiarios de las regiones elegidas.
Muestreo no probabilístico: Bola de nieve
• Es un método de muestreo no
probabilístico.
• Se realiza sobre poblaciones en las
que no se conoce a sus individuos o
es muy difícil acceder a ellos. Podrían
ser los casos de sectas secretas,
indigentes, grupos minoritarios, etc.
• El investigador conoce algún
componente de la población y a
través de ellos va completando la
muestra.
• Cada sujeto estudiado propone a
otros, produciendo un efecto
acumulativo parecido al de la bola de
nieve.
Muestreo no probabilístico: por cuotas
Muestreo no probabilístico: por cuotas
► La versión no probabilística del muestreo estratificado.
► Consta de tres fases:
• Por tanto, las categorías deben ser definidas de tal forma que
cualquier caso observado sólo pueda clasificarse en términos
un único atributo o categoría.
• La Forma “A” es el ejemplo incorrecto, pues quiebra el criterio de
la exclusividad.
• Es decir, los casos de personas con 18, 25, 50 y 65 años pueden ser
clasificados en dos categorías al mismo tiempo y no en una sola
exclusivamente.
Clasificación de las preguntas
•Según contestación
•Según naturaleza
•Según función
•Según finalidad
Según contestación
1) Preguntas cerradas
2) Preguntas categorizadas
3) Preguntas abiertas
Según
contestación
1.- PREGUNTAS CERRADAS:
Son las que sólo dan opción a
2 respuestas.
Son sistemas de categorías
dicotómicos.
Hombre / mujer; Si / No;
Afirmativo / Negativo, etc.
Según contestación
2.- PREGUNTAS CATEGORIZADAS:
• También conocidas como “preguntas de cafetería”.
• Presentan como respuestas a una serie de categorías entre las que el encuestado debe
elegir.
• Se clasifican en:
• Equilibradas recogen expresamente las alternativas
Ejemplo: ¿está Ud. a favor o en contra del aborto?
1)a favor
2)en contra
Frequency
19 a 37 65
38 a 46 66
47 a 52 69
53 a 66 59
Total 259
Moda
• Si la variable está medida a nivel nominal, la moda es la categoría que
más se repite (ej: categoría “culpa del sistema educativo en su
conjunto”).
el fracaso del liceo en el simce se debe a
Frequency
Valid pobreza 3
familias mal constituidas 6
droga, alcohol 4
culpa de los profesores 4
culpa del sistema
11
educativo en su conjunto
Total 28
Moda
• Como en la obtención de la moda no intervienen los
valores de la variable sino las frecuencias absolutas,
será posible encontrar la moda sin que tenga
importancia para ello ni la naturaleza de la variable ni
su nivel de medición.
• Por tanto, obtenemos la moda en cualquier nivel de
medición de variable, sin cumplir ningún requisito
especial.
Medidas de tendencia no central
Medidas de tendencia no central: cuantiles.
• Existen ciertas medias que si bien describen la tendencia
de un conjunto de datos, no se encuentran situadas en una
posición central del mismo.
• Estas medidas se suelen denominar cuantiles, siendo una
familia muy amplia donde los más conocidos son los
cuartiles, los deciles, los percentiles (también llamados
centiles).
• En esencia, puede decirse que siguen la misma lógica que
la mediana, la que de hecho es considerada un cuantil más.
• Lo primero que se debe hacer es tener ordenados los datos
de forma ascendente o descendente.
Medidas de tendencia no central: CUARTILES
• Son medidas descriptivas de tendencia no central que dividen los
datos ordenados (ascendente o descendentemente) en cuatro partes
exactamente iguales.
• Se tiene por tanto 3 valores: Q1, Q2, Q3.
• Q1: es el valor tal que bajo él se encuentra el 25% de los datos y
sobre él el 75% de ellos.
• Es el valor que se ubica en la posición …
Medidas de tendencia no central: CUARTILES
• Q2: es el valor tal que bajo él se encuentra el 50% de los datos y sobre él el
otro 50%. En términos prácticos, Q2 es la mediana.
• Es el valor que ocupa la posición
Medidas de tendencia no central: CUARTILES
• Q3: es el valor tal que bajo él se encuentra el
75% de los datos y sobre él se encuentra el 25%
de ellos.
• Por tanto, es el valor que se encuentra ubicado
en la posición
Medidas de tendencia no central: DECILES
• Si en vez de dividir el conjunto de datos en 4 partes iguales,
se divide en 10 partes iguales, será necesario contar con 9
valores para tales efectos.
• D1: es el valor tal que bajo él queda el 10% de los datos y
sobre él queda el 90% de ellos. Será el valor que se
encuentre en la posición
Medidas de tendencia no central: DECILES
• D2: es el valor tal que bajo él se sitúa el 20% de los datos y sobre
él se sitúa el 80%.
• Es el valor que se encuentra en la siguiente posición:
• PERCENTILES (Centiles):
• En este caso se tendrán 99 valores que dividirán el conjunto de datos en 100
partes iguales. Cada uno de estos valores es un percentil.
• P1: es el valor tal que bajo él queda el 1% de los datos y sobre él queda el 99% de
los mismos. Por tanto ocupa la posición:
Osvaldo Blanco
Sociólogo
Gráfico de cajas y bigotes
Medidas de forma
Asimetría y curtosis
Medidas de Forma: Asimetría y Curtosis
• Cuando vimos el uso de la media aritmética, dijimos que ésta
era afectada por valores extremos.
• Al nivel en el que nos encontramos (que no es mucho) la
mejor manera de analizar si nuestra distribución de datos se
“deforma” por los valores extremos (muy bajos o muy altos)
es el estudio de dos coeficientes:
Simetría / Asimetría
Curtosis.
¿Qué decimos cuando hablamos de “forma”
de una distribución de datos?
• El grado más visible cuando analizamos un
gráfico es la forma de la distribución.
• Las medidas de Forma de una distribución son
valores numéricos que complementan el simple
análisis visual (gráfico).
• Son importantes para complementar el análisis
de las medidas de tendencia central.
La forma de una distribución es una noción
eminentemente gráfica
• Teniendo en cuenta que ya sabemos lo que es la Moda,
podemos decir que –gráficamente hablando– es un
valor que puede distinguirse visualmente a partir de
determinar el número de “puntas” o “picos” de la forma
de la distribución.
Simetría y Asimetría
• Ahora bien, la idea central para definir la simetría viene dada en
relación, precisamente, a medidas como las de tendencia central.
• También es muy práctico tener como referente a la mediana,
sabiendo que ésta corta a la distribución en 2 partes exactamente
iguales.
• La distribución de frecuencias perfectamente simétrica es aquella
donde una de las áreas es “imagen” de la otra, por tanto, tienen igual
superficie en ambos lados.
• Hay que hacer notar aquí que el punto crucial es el término “imagen”,
pues puede darse el caso de una distribución que pueda tener igual
superficie en ambos lados, pero éstos no representar imágenes
recíprocas
Medidas de Forma: Asimetría y Curtosis.
• La asimetría se complementa con el análisis de tendencia
central.
• La asimetría es una medida de la desigualdad de la
distribución de los valores de una distribución de
frecuencias.
• En casos de asimetría muy marcada es mejor complementar
el análisis de la media con la mediana, justamente porque las
posiciones relativas de ambas medidas dependen
directamente del tipo de simetría-asimetría de la
distribución.
Distribución perfectamente simétrica.
• En relación a las medidas de tendencia central, se puede decir que
cuando la curva de una determinada distribución es simétrica, la
mediana coincide con la media.
• Si, además, la distribución es unimodal, entonces la moda será igual a
la media y a la mediana.
Asimetría
• Cuando una distribución de frecuencias gráficamente no es simétrica será,
obviamente, asimétrica.
• Hay 2 formas principales de la asimetría: Asimetría positiva y Asimetría negativa.
• Gráficamente, una distribución
de valores será asimétrica
positiva cuando tenga muchos
valores bajos y pocos valores
altos de la variable.
• A su vez, será asimétrica
negativa cuando la variable
comporte pocos valores bajos y
muchos altos.
Asimetría
• Nótese aquí que al hacer referencia a valores “altos” y “bajos” implícitamente
estamos hablando de variables a nivel ordinal e intervalo.
• Hablar de alto o bajo en variables nominales no tiene sentido.
• Pero, además, no hay que confundir un valor “alto” con el pico de la curva que
tiene una elevada frecuencia (el eje Y), sino que hay que entender que un valor
alto es el que está hacia la derecha del eje X, es decir, la abscisa.
Asimetría
• Por otra parte, es posible relacionar la asimetría con las medidas de
tendencia central podemos decir que la asimetría positiva contiene a
las medidas de tendencia central en el siguiente orden (de izquierda a
derecha): moda, mediana y media.
Asimetría
• En la asimetría negativa se observa, de izquierda a
derecha, primero a la media, luego la mediana y por
último la moda.
Curtosis
• La curtosis se define como el grado de apilamiento de los
casos alrededor de un determinado punto en la
distribución.
• Cuando estemos en un caso de distribuciones unimodales
y simétricas, la curtosis puede clasificarse en 3 formas
distintas de grado de apuntamiento:
1) Leptocúrtica
2) Platicúrtica.
3) Mesocúrtica.
Curtosis
• Leptocúrtica: donde la forma de la distribución presenta un
apuntamiento relativamente alto, vale decir, es una distribución de
frecuencias altamente concentrada en un determinado punto (no
necesariamente la media).
• En otras palabras, es que es una distribución unimodal altamente
concentrada.
Curtosis
• Platicúrtica: donde la distribución de frecuencias es más
uniforme, la forma de la curva es más achatada.
• Valores altos, medios y bajos no tienen tantas diferencias en
cuanto a sus frecuencias.
Curtosis
• Mesocúrtica (o forma de campana): es una distribución de
frecuencias con una forma más “normal”, por tanto, ni muy
achatada ni muy apuntada.
Asimetría (interpretación)
Tres resultados:
1) El resultado es 0: Estamos ante una distribución
perfectamente simétrica (forma de campana de
Gauss), una distribución Normal.
2) El resultado es positivo: Significa una asimetría
positiva.
3) El resultado es negativo: Significa una asimetría
negativa.
Curtosis (interpretación)
• La Curtosis es la medida que da cuenta de la presencia de valores
extremos, por lo mismo, los valores positivos indican distribución
leptocúrtica, mientras que valores negativos indican distribución
platicúrtica.
• Es decir, valores mayores que 0 (positivos) indican que la distribución
tiende a concentrarse en torno a la media más que en una
distribución Normal (de ahí su forma leptocúrtica).
• A su vez, los valores negativos o menores que 0 indicarán que la
distribución es más dispersa en torno a la media (de ahí su forma
platicúrtica).
• Un valor igual a 0 indica una simetría perfecta.
La “regla de oro” de los contrastes (test) de hipótesis
(donde α = nivel de significación de 0,05)
p en SPSS = “Sig.”
Chi Cuadrado
Estadístico de asociación para 2 variables cualitativas (nominales u ordinales)
Prueba Chi-cuadrado para la asociación bivariada.
• Cuando construimos una tabla de contingencia lo que hacemos es cruzar 2
variables y analizar la distribución conjunta de ambas variable en los cruces de
sus distintas categorías.
• Lo que hacemos en la prueba de chi-cuadrado de asociación es probar si existe
una relación de asociación o, por el contrario, si existe independencia entre 2
variables de escala nominal u ordinal.
Count
EDAD
joven adulto Total
Es tá Cesante Sí 45 274 319
No 39 126 165
Total 84 400 484
Las Hipótesis en la prueba Prueba Chi-cuadrado para la asociación
bivariada.
• Dos tipos de hipótesis:
• La fórmula es la siguiente:
Prueba Chi-cuadrado para la asociación bivariada.
Count
EDAD
319 · 84 joven adulto Total
fe = = 55.36
Está Cesante Sí 45 274 319
484
No 39 126 165
Total 84 400 484
Prueba Chi-cuadrado para la asociación
bivariada.
Prueba chi-cuadrado con SPSS
Chi-Square Tests
• De todos los estadísticos y sus respectivas significancias Ud. debe preocuparse del Pearson Chi-Square (Chi-
cuadrado de Pearson), el cual tiene un valor de 6.886, un grado de libertad y una significancia o probabilidad
de cometer el error tipo I de 0.009 (0.9%)
• Como 0.009 es menor que 0.05 (e incluso menor que 0.01) concluimos que existe asociación o relación
bivariada.
• Es decir, rechazamos H0 pues 0.009 es menor que el nivel de significación previamente establecido (0.05).
Requisitos a satisfacer para aplicar la prueba
chi-cuadrado
Requisitos a satisfacer para aplicar la prueba chi-cuadrado
• En las figuras 2 y 3 los puntos se agrupan entre sí hacia la derecha e izquierda respectivamente.
Esto quiere decir que en la FIGURA 2 los sujetos que tienen puntuaciones bajas en X (eje horizontal) tienen puntuaciones bajas en Y
(eje vertical), mientras que las puntuaciones altas en una de las variables van acompañadas de puntuaciones altas en la otra.
Este tipo de asociación se denomina asociación lineal positiva.
Por su parte, en la FIGURA 3 los sujetos que tienen puntuaciones bajas en X tienen puntuaciones altas en Y, mientras que la
puntuación en Y va decreciendo a mediada que aumenta el valor de X.
A este tipo de asociación se le conoce como asociación lineal negativa.
Correlación: nociones básicas
• Así como el coeficiente chi-cuadrado es una
medida de la asociación entre variables
categóricas (nominales y ordinales), ahora
entraremos de lleno en el intento por medir
la asociación para 2 variables
cuantitativas.
Correlación: nociones básicas
• En otras palabras, r es útil para determinar si hay relación lineal entre dos variables,
pero no servirá para otro tipo de relaciones (cuadrática, logarítmica, etc.).
Asociación
positiva
El coeficiente r de Pearson
• Un coeficiente r de Pearson igual a 0 indica ausencia de correlación lineal.
• No obstante, no es posible interpretar el valor r = 0 como ausencia de relación.
• Esto porque las variables X e Y pueden estar asociadas de forma curvilínea u otro tipo
aún teniendo un valor r = 0.
• Vale decir, r = 0 sólo señala la ausencia de relación lineal y no de relación curvilínea,
exponencial o de otro tipo que no veremos aquí.
Ausencia de
asociación lineal
(puede haber
asociación de
otro tipo)
Interpretación de r
• Para interpretar específicamente el coeficiente de correlación r de
Pearson se sigue los siguientes criterios:
• Los cálculos deben llevar a explicar el máximo posible de variación, para lo cual se
usa el cuadrado del coeficiente de correlación de Pearson (r2), el cual expresa el
grado en que la ecuación de regresión lineal explica la variación en la variable
dependiente.
Interpretación de r el coeficiente de determinación (r2)
• Es importante entonces que el alumno entienda que para poder interpretar r de Pearson
en términos de la variación explicada e inexplicada es necesario elevarlo al cuadrado (r2):
• r2 es igual a la proporción de la varianza en común.
• Esta varianza común es la variación compartida por X e Y
• Indica la variación de Y que es explicada por la variaxión de X.
• Es decir, por medio de r2 nos podemos hacer una mejor idea de la proporción de la
varianza en una variable dependiente (Y) que queda explicada por su asociación lineal con
otra variable independiente (X).
Interpretación de r el coeficiente de determinación (r2)
• Del cuadro nos queda claro que r debe ser lo suficientemente grande para que obtengamos una
reducción sustancial de las desviaciones estándar.
• Lo que debemos entender de este cuadro es que para cada valor de r existe un r2
• Para cada valor de r2 existe a su vez una variación inexplicada (1 - r2)
Resultados de correlación en
SPSS
Resultados de correlación en SPSS
• Imaginemos que tenemos dos variables intervalo: peso (kg.) y altura (cms).
• Hemos dispuesto que el peso influye en la altura, por tanto, peso será la variable independiente (X) y altura la
dependiente (Y).
• Para poder contrastar si el coeficiente de correlación es estadísticamente significativo sometemos las variables a
una prueba de hipótesis, tal y como lo hemos venido haciendo a lo largo de este semestre.
• La Hipótesis nula es que r = 0.
• Si se obtiene un valor inferior a una significación prefijada (por ejemplo 0,05) rechazamos H0 de inexistencia de
correlación y concluimos que el r obtenido es estadísticamente significativo.
• Luego, usamos r2 (coeficiente de determinación) para dar cuenta de la proporción de la variabilidad de la variable
dependiente que es explicada por la variabilidad de la variable dependiente.
Resultados de correlación en SPSS
Esta tabla de resultados es la matriz de correlaciones (en este caso sólo con dos variables:
altura en cms. y peso en kg.), una indicación de la significancia unilateral de la correlación
(Sig) y el número de observaciones o individuos para cada variable.
No comentaremos por ahora los valores de r y la significación pues los vamos a ver en tablas
más adelante.
Regresión Lineal
En la regresión lineal la serie de
requisitos es la siguiente:
El criterio de los
mínimos cuadrados
minimiza las sumas de
los cuadrados de las
distancias verticales
de los puntos respecto
de la recta y ayuda a
estimar la regresión de
Y sobre X
La recta de los mínimos cuadrados
• Lo importante de la línea de mínimos cuadrados es
que por medio de ella se puede predecir una variable
dependiente Y a partir de la X.
• En esencia, el criterio de ajuste por mínimos
cuadrados tiene que ver con el grado en que la
variable dependiente Y puede predecirse a través de
una ecuación que representa a la línea de regresión.
La recta de los mínimos cuadrados
• Volvemos a insistir en un punto importante: no todas las asociaciones
entre dos variables pueden describirse por medio de una línea recta.
La línea de mejor ajuste es la que viene de una ecuación de regresión que
proporciona menor variabilidad (varianza).
La raíz cuadrada de esta estimación de la varianza de Y en X se conoce como
Error típico de la estimación, el cual implica la magnitud del error en la
predicción de Y por medio de X (cuanto menor es este error mejor es la
predicción).
• De ahí que se explica el porqué hemos dicho que el criterio de los mínimos cuadrados
consiste en encontrar la línea que tenga como característica que la suma de cuadrados
de las desviaciones de los valores reales de Y en relación a dicha recta sea mínima.
Relación entre la ecuación de regresión y la recta de los mínimos
cuadrados.
Relación entre la ecuación de regresión y la recta
de los mínimos cuadrados.
cantidad de licencias
95% Confidence Interval for
Mean
N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum
obreros de planta 22 17.7576 2.5659 .5471 16.6199 18.8952 14.00 22.67
administrativos 22 20.9091 2.8715 .6122 19.6360 22.1822 14.00 24.33
gerencia 22 20.1364 2.8687 .6116 18.8645 21.4083 15.00 25.33
Total 66 19.6010 3.0456 .3749 18.8523 20.3497 14.00 25.33
cantidad de licencias
Sum of
Entre grupos
Squares df Mean Square F Sig.
Between Groups 118.710 2 59.355 7.722 .001
W ithin Groups 484.227 63 7.686
Dentro de Total 602.938 65
grupos
Mean
Difference 95% Confidenc e Interval
(I) tipo de empleado (J) tipo de empleado (I-J) Std. Error Sig. Lower Bound Upper Bound
Tukey HSD obreros de planta administrativos -3.1515* .8359 .001 -5.1580 -1.1451
gerenc ia -2.3788* .8359 .016 -4.3852 -.3723
administrativos obreros de planta 3.1515* .8359 .001 1.1451 5.1580
gerenc ia .7727 .8359 .627 -1.2337 2.7792
gerenc ia obreros de planta 2.3788* .8359 .016 .3723 4.3852
administrativos -.7727 .8359 .627 -2.7792 1.2337
Sc heffe obreros de planta administrativos -3.1515* .8359 .002 -5.2472 -1.0558
gerenc ia -2.3788* .8359 .022 -4.4745 -.2831
administrativos obreros de planta 3.1515* .8359 .002 1.0558 5.2472
gerenc ia .7727 .8359 .654 -1.3230 2.8684
gerenc ia obreros de planta 2.3788* .8359 .022 .2831 4.4745
administrativos -.7727 .8359 .654 -2.8684 1.3230
*. The mean differenc e is significant at the .05 level.
• Anteriormente señalamos que el SPSS usa la prueba de Levene para estimar si es o no razonable suponer que las varianzas
de la población son homogéneas (Levene's Test for Equality of Variances). Esta prueba entrega el valor conocido como
razón F y su significación.
• En este punto se trabaja de manera similar al procedimiento que se sigue para contrastar hipótesis. En efecto, lo que hay
que hacer con estos valores es contrastarlos con el nivel de significación que hemos adoptado (0,05 ó 0,01).
• Si la significación de F es menor que nuestro nivel de significación (0,05 ó 0,01) trabajamos con la fila Equal
variances not assumed (no se han asumido varianzas iguales).
• Si la significación de F es mayor que nuestro nivel de significación (0,05 ó 0,01) trabajamos con la fila Equal
variances assumed (se han asumido varianzas iguales).
Significación de F (sirve para ver
Independent Samples Test con cuál fila se sigue trabajando)
Levene's Test for
Test de Levene Equality of Variances t-test for Equality of Means
95% Confidence
para varianzas Interval of the
homogéneas Mean Std. Error Difference
F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper
actitud hacia el trabajo Equal variances
.121 .728 1.361 1119 .174 .27 .20 -.12 .67
assumed
Equal variances
1.361 1116.861 .174 .27 .20 -.12 .67
not assumed
Prueba t de Student para dos muestras
independientes
Independent Samples Test
• Luego de la prueba de Levene, hay que determinar el contraste del estadístico “t”
propiamente tal.
Std. Error
HÁBITAT N Mean Std. Deviation Mean
ingres os del hogar RURAL 66 188378.79 88249.95 10862.82
URBANO 109 176651.38 90783.77 8695.51
Std. Error
HÁBITAT N Mean Std. Deviation Mean
ingres os del hogar RURAL 66 188378.79 88249.95 10862.82
URBANO 109 176651.38 90783.77 8695.51
• La primera tabla nos presenta relevante información de tipo descriptivo acerca del ingreso en zonas rurales
y urbanas.
• En primer lugar, cabe señalar que el total de personas que residen en zonas rurales son 66, mientras que el
total de personas que residen en zonas urbanas son 109.
• El promedio de ingresos de la zona rural es de $188.378, mientras que el promedio de ingresos de zonas
urbanas alcanza a $176.651
• La desviación típica es una estimación de la variabilidad de las puntuaciones o valores individuales
respecto de la media y se expresa en las mismas unidades que los datos.
• Para zonas rurales llega a $88.249
• Para zonas urbanas llega a $90.783
• Esto significa que algunas personas están por encima y otras por debajo de la media ($88.249 en zonas rurales y
$90.783 en zonas urbanas). Intuitivamente hablando, esto nos sugiere una fuerte desigualdad en el ingreso en
ambos grupos (aunque deberíamos hacer un estudio más profundo para determinar esto).
1° Ejemplo: aceptación de H0
Independent Samples Test
• Pasando a la segunda tabla, sabemos que para leerla debemos seguir dos pasos:
• Prueba de Levene
• Contraste t de Student propiamente tal.
• La significación de F (círculo azul) es de 0.812, por tanto, trabajaremos con la línea que ha
asumido varianzas iguales (Equal variances assumed).
• El valor de t es relativamente bajo (0,837), por tanto no cabe esperar que exista diferencia
significativa entre ambos promedios de ingreso.
• Otro valor interesante es la diferencia entre los promedios de ingreso en ambas zonas geográfica,
valor que aparece en la diferencia de medias (Mean Difference)
1° Ejemplo: aceptación de H0
Independent Samples Test
• Precisamente, la significación del estadístico t (0,404) es mayor que el nivel de significación de 0,05, por lo que
aceptamos con confianza H0 y sostenemos que no existen evidencias para concluir que el promedio de
ingresos difiere significativamente en ambos grupos.
• Como fundamentación aparte, podríamos mencionar el alto valor de la desviación estándar que vimos en el
cuadro anterior, lo que nos señala que con seguridad la diferencia entre los promedios de ingreso en ambos
grupos no es significativa debido a que tanto en zonas rurales como urbanas existe una fuerte deigualdad en la
distribución del ingreso (cuestión que debería ser investigada con un estudio más profundo).
2° Ejemplo: rechazo de H0
2° Ejemplo: rechazo de H0
Group Statistics
Std. Error
Ideología N Mean Std. Deviation Mean
percepción de la Ext.Izquierda 8 6.8750 4.4219 1.5634
situación mundial Centro 141 11.3688 4.9691 .4185
• Imaginemos que estamos haciendo un estudio sobre la percepción que las personas tienes respecto de la
situación social, política y económica del mundo. Esta variable la hemos convertido a nivel de intervalo
mediante la aplicación de una escala de actitud (escala Cantril).
• Tenemos la sospecha de que la percepción de la situación mundial variará respecto de si se trata de personas
de una posición ideológica de extrema izquierda respecto de personas de centro.
• Nótese que de una variable (posición ideológica) que tendría 5 categorías (extrema-izquierda, izquierda,
centro, derecha, extrema-derecha), hemos tomado sólo 2 de estas 5 categorías (extrema izquierda y centro)
para comparar entre sí sus respectivas percepciones de la situación mundial.
• Esto es posible hacerlo con SPSS (ver indicaciones más adelante).
2° Ejemplo: rechazo de H0
Group Statistics
Std. Error
Ideología N Mean Std. Deviation Mean
percepción de la Ext.Izquierda 8 6.8750 4.4219 1.5634
situación mundial Centro 141 11.3688 4.9691 .4185
• La revisión del primer cuadro con resultados nos ofrece algo interesante: el promedio en la
escala de actitudes respecto de la situación mundial varía considerablemente respecto de si
estamos hablando de un grupo de extrema-izquierda y otro de centro. Los de extrema
izquierda tienen un promedio más bajo, es decir, más cercano a una negativa visión de la
situación social, política y económica mundial.
• Otro dato que puede ser interesante es la clara diferencia en los totales de cada grupo (N):
mientras apenas 8 personas se identifican con posiciones ideológicas de extrema- izquierda,
141 personas se identifican con posiciones ideológicas de centro.
2° Ejemplo: rechazo de H0
Independent Samples Test
• Pasando a la tabla del contraste t de student propiamente tal, la significación de F (0.431) nos
señala que debemos trabajar en la fila de varianzas iguales (círculo azul).
• La significación del estadístico t (círculo rojo) es menor que 0.05, por tanto, rechazamos H0 y
señalamos que existe diferencia en cuanto a la percepción de la situación mundial según
estemos hablando de personas identificadas con la extrema-izquierda respecto de personas
identificadas con el centro.
• Imaginemos que nuestra H1 hubiese sido unilateral (por ejemplo, la percepción de la situación
mundial de los extrema-izquierda tiene una puntuación menor que los de centro μ1 < μ2).
• La probabilidad que nos ofreció el programa fue de dos colas (Sig. 2-tailed), por lo que
debemos dividir por 2 el valor de 0.087 (0.087/2 = 0.0435).
• Claramente esta probabilidad es menor que 0,05 por tanto rechazamos H0 y concluimos esta
vez que las personas que tienen una posición ideológica de extrema-izquierda tienen una
percepción de la situación mundial significativamente menor que los de centro.