You are on page 1of 221

MÓDULO 2: INVESTIGACIÓN

CUANTITATIVA
a) Tipos de muestreo
cuantitativos
Población
• Es el conjunto sobre el que estamos
interesados en obtener conclusiones
(hacer inferencia).
• Normalmente es demasiado grande
para poder abarcarlo.
• Se define arbitrariamente nombrando
sus propiedades particulares, es decir,
alude a la totalidad de los casos que
comparten determinadas
características o variables.
• Incluye a todos los conjuntos de
personas, objetos o reacciones que se
pueden describir como dotados de una
combinación única de cualidades
(variables).
• Es importante acotar el universo y
conocer las unidades que lo
componen.
Muestra
• Es un subconjunto de la población al
que tenemos acceso y sobre el que
realmente hacemos las observaciones
(mediciones) y calculamos los
“estadísticos”.
• Esta formada por miembros extraídos
de la población (individuos, unidades
experimentales).
• Las muestras se dividen en muestras
aleatorias y muestras no aleatorias
(probabilísticas y no probabilísticas).
• Para que las muestras sea
representativas de la población es
necesario recurrir a principios
deducidos del cálculo de
probabilidades (aleatoria).
Parámetros y estadísticos
• Las medidas de las
características de una
muestra son designadas bajo
la denominación genérica de
“estadísticos”.
• Las medidas de las
características de la
población, que se agrupan
bajo el término genérico de
“parámetros”.
• Un “estadístico” es una cifra
que describe a una muestra.
Parámetros y estadísticos
• Para cada tipo de estadístico hay un parámetro correspondiente.
• En base a probabilidad buscamos generalizar los estadísticos para
describir la población (“caracterizarlos como parámetros”).
Tratamos de inferir los parámetros a través de los
estadísticos
Unidad muestral
• Cada parte en que se divide la población para seleccionar la muestra.
• Las unidades muestrales las elige el investigador.
• Deben ser distinguibles e identificables, aunque a veces no están
perfectamente definidas.
• Ejemplos:
• Si la población es una lista de alumnos de los colegios municipales de la
Comuna “X”, la unidad muestral son los alumnos.
• Si la población es una lista de viviendas de un barrio, las unidades
muestrales son cada una de las viviendas.
Marco muestral
• El “marco muestral” corresponde
al “listado” de las unidades
muestrales.
• Asegura la selección aleatoria, por
tanto, es el “gran tema” práctico
del muestreo.
• Mientras más perfectamente
conocemos el marco muestral
mayormente se reducen los sesgos
que se introducen por su
desconocimiento.
• Todas las conclusiones estadísticas
(de comparación de grupos, de
correlaciones entre variables, de
reducción de la dimensionalidad,
etc.) quedan restringidas a las
personas que están en el marco
muestral y no a otras.
Marco muestral
• Es decir, del marco muestral depende si
estamos hablando de estadística inferencial
o de simple estadística descriptiva.
• Si no conocemos el marco muestral
técnicamente no podemos obtener
selección aleatoria.
• Mientras más perfectamente conocemos el
marco muestral mayormente se reducen los
sesgos que se introducen por su
desconocimiento.
• Los marcos muestrales se deducen de los
censos de población.
• El problema es que esa información se va
“envejeciendo”.
Muestras probabilísticas
• Las muestras probabilísticas son útiles cuando:
• Queremos hacer estimación de parámetros.
• Queremos hacer pruebas de hipótesis.
• Las ventajas son:
• Cada caso de la población tiene igual probabilidad de
participar en la muestra.
• Esta probabilidad es conocida de antemano (fracción de
muestreo).
• La elección de cada caso debe ser independiente de la
elección de los demás  elección con “reposición”
• Se puede calcular el error muestral y con él hacer
estimaciones
Muestras no probabilísticas
• En general, las muestras no probabilísticas exigen menor número de casos.
• Sin embargo tiene inconvenientes:
• Dificultad para el cálculo del error muestral.
• Introducción de sesgos.
• Los elementos no tienen igual probabilidad de ser parte de la muestra.
• Imposibilidad de hacer “inferencia”.
• Las ventajas son:
• No necesita de un marco muestral.
• Más barato y sencillo.
• El muestreo no probabilístico se usa cuando:
• No tenemos marco muestral.
• Indagación exploratoria (estudios pilotos)
• Estudios cualitativos.
• Estudios de población de difícil registro y localización.
Muestreo aleatorio simple (M.A.S)
• Una vez identificado el “marco muestral” se asigna a
cada individuo de este listado un número de
identificación siguiendo un orden consecutivo.
• Luego, se procede a la extracción aleatoria de los
integrantes de la muestra.
• Se eligen individuos de la población de estudio, de
manera que todos tienen la misma probabilidad de
aparecer, hasta alcanzar el tamaño muestral deseado.
Muestreo aleatorio simple (M.A.S)
• Se puede realizar partiendo de listas de
individuos de la población, y eligiendo individuos
aleatoriamente con un ordenador.
• Normalmente tiene un coste bastante alto su
aplicación.
• La exigencia de disponer de un marco muestral
hace desaconsejable este procedimiento en
poblaciones de elevada cantidad.
Ventajas e inconvenientes del M.A.S.
Muestreo Sistemático
• Al igual que el M.A.S., exige la existencia de un marco muestral, es
decir, requiere de una lista de los individuos de la población de
estudio.
• Las diferencias con el M.A.S. son:
• Sólo el 1º caso de la muestra se elige al azar (mediante una tabla de números aleatorios,
mediante sorteo, etc.).
• La condición es que el número seleccionado sea menor al coeficiente de elevación (es
decir: que el caso seleccionado sea menor al número de individuos de la población
representados por cada uno de la muestra o, lo que es lo mismo, el número de veces que
la muestra se halla contenida en el universo) N / n.
• Los restantes casos de la muestra se seleccionan sumando, de forma sucesiva, el
coeficiente de elevación al número del 1º caso elegido.
Ejemplo
• Tenemos una muestra de 500 personas en una población de 4000.
• El primer paso es calcular el coeficiente de elevación, vale decir: N/n =
4000/500 = 8.
• Luego, debemos elegir aleatoriamente un número menor que 8 (por
ejemplo, el 4).
• Este individuo, casa, colectivo, etc. a la que corresponde dicho número (4)
en el marco muestral será la primera unidad de la muestra.
• Deberemos sumar a esta 1º unidad el coeficiente de elevación 8, hasta
completar el número de la muestra (500 casos).
• Es decir las unidades seleccionadas serían las que en el marco muestral les
corresponden los números: 4, 12, 20, 28, 36….. Hasta completar los 500
casos.
Ventajas e inconvenientes del m. a. sistemático.
Muestreo aleatorio estratificado
• Se aplica cuando sabemos que hay
ciertos factores (variables,
subpoblaciones o estratos) que
pueden influir en el estudio y
queremos asegurarnos de tener
cierta cantidad mínima de individuos
de cada tipo:
• Hombres y mujeres,
• Jóvenes, adultos y ancianos
• Comunas.

• Está directamente relacionado con


los diseños donde queremos
“controlar” ciertas variables
intervinientes.
Ventajas y desventajas del m. a. estratificado
Muestreo aleatorio estratificado
• Si queremos que la muestra represente bien a la
población en esas variables, generamos bloques (que
en muestreo, se denominan “estratos” o “cuotas”),
forzando que la distribución de esas variables sean
iguales en la muestra.
• Los sujetos que están al interior de cada estrato son
similares entre sí (tienen los mismos valores de la
variable que actúa como bloque)
Muestreo aleatorio estratificado
• En el control de variables extrañas, hemos intentado que la
distribución de esas variables sea la misma en las diferentes
condiciones del estudio.
• Se persigue que cada estrato tenga representación en la muestra
final.
• Se realiza entonces un M.A.S. o m. a. sistemático de los individuos en
cada uno de los estratos.
• Al extrapolar los resultados a la población hay que tener en cuenta el
tamaño relativo del estrato con respecto al total de la población.
Muestreo por grupos o conglomerados
• Tiene mucho parecido con el muestreo estratificado,
en cuanto a que divide a la población total en grupos
que luego la muestra deberá representar.
• Sin embargo difiere de él en las siguientes cosas:
1) El muestreo estratificado busca homogeneidad
“intra” y heterogeneidad “inter”, mientras que en el
muestreo por conglomerado es a la inversa.
2) En el muestreo estratificado se selecciona
aleatoriamente una muestra para cada estrato. En
el muestreo por conglomerado se extrae una
muestra aleatoria de conglomerados. Los
integrantes de cada conglomerado seleccionado
conformarán la muestra.
3) En el muestreo estratificado la unidad de muestreo
es el individuo, mientras que en el muestreo por
conglomerados es el conglomerado, o sea, los
conglomerados se consideran en su conjunto. Es
decir, cuando se realiza un muestreo de
conglomerados, éstos participan totalmente en la
muestra: los que son seleccionados participan con
todas sus unidades.
Muestreo por grupos o conglomerados
• Se aplica cuando es difícil tener una lista de todos los individuos que
forman parte de la población de estudio pero que, sin embargo, sabemos
que se encuentran agrupados naturalmente en grupos.
• Regiones con diferente población pueden tener probabilidades diferentes
de ser elegidas: Provincias, Municipios, Hospitales grandes frente a
pequeños, etc.
• En muchas ocasiones, las unidades de la población se disponen de tal
forma que forman aglomeraciones con cierta diversidad interior.
• Los conglomerados, con respecto a la variable que interesa medir,
muestran una gran variabilidad dentro de sí.
• Al igual que en el muestreo estratificado, al extrapolar los resultados a la
población hay que tener en cuenta el tamaño relativo (proporción) de unos
grupos con respecto a otros.
Muestreo por grupos o conglomerados
• Un colegio, por ejemplo, es un caso habitual de conglomerado: hay
niños de todas las edades y niveles formativos, de ambos sexos, con
problemáticas diversas, etc.
• Es como una pequeña población completa.
• Hay mucha diversidad en los colegios, pero también hay que
reconocer que es fácil identificar diversidad entre colegios.
• En reconocimiento de esta circunstancia, los estudios que se realizan
a partir de colegios suelen considerar una muestra de los rurales y
otra de los urbanos, una muestra de los públicos y otra de los
privados, etc.
Muestreo por grupos o conglomerados
• Se realiza eligiendo varios conglomerados al azar, y ya
elegidos algunos podemos estudiar a todos los individuos de
los grupos elegidos o bien seguir aplicando dentro de ellos
más muestreos por grupos, por estratos, aleatorios simples.
• En estos casos, la unidad de muestreo deja de ser el
conglomerado y pasa a ser sus subdivisiones.
• No se toman c/u de los integrantes del conglomerado, sino
sólo una parte de ellos, escogida aleatoriamente.
Muestreo polietápico por conglomerados.
• Se realiza eligiendo varios conglomerados al azar, y ya
elegidos algunos podemos estudiar a todos los individuos de
los grupos elegidos o bien seguir aplicando dentro de ellos
más muestreos por grupos, por estratos, aleatorios simples.
• En estos casos, la unidad de muestreo deja de ser el
conglomerado y pasa a ser sus subdivisiones.
• No se toman c/u de los integrantes del conglomerado, sino
sólo una parte de ellos, escogida aleatoriamente.
Muestreo polietápico por conglomerados
EJEMPLO:
• Un estudio sobre los efectos de la capacitación laboral a jóvenes de escasos recursos, con una encuesta a nivel nacional,
mediante entrevista personal a 1500 beneficiarios.
• Como la población es a nivel nacional, la selección de la muestra siguiendo m.a.s. elevaría demasiado los costos y la
dificultad del trabajo.
• Además, está la dificultad de encontrar un marco muestral para todos los jóvenes que estuvieron en el programa.
• Una forma de solución es acceder a un listado que incluyese al conjunto de regiones donde se aplicó el programa, para
luego de ello extraer una muestra polietápica por conglomerados.

PASOS A SEGUIR:
• Listar en un marco muestral todas las regiones del país donde se llevaron a cabo actividades del programa.
• La selección de la muestra nacional de regiones se puede estratificar por tipo de región (rural – urbana) y tamaño
(más de 100.000 habitantes – menos de 100.000 habitantes).
• Elegimos las regiones mediante alguno de los procedimientos de selección aleatoria (simple, sistemática,
estratificada).
• Para cada región elegida se debe extraer una muestra aleatoria de beneficiarios. Para esto debemos recurrir a un
segundo marco muestral: el listado de beneficiarios de las regiones elegidas.
Muestreo no probabilístico: Bola de nieve
• Es un método de muestreo no
probabilístico.
• Se realiza sobre poblaciones en las
que no se conoce a sus individuos o
es muy difícil acceder a ellos. Podrían
ser los casos de sectas secretas,
indigentes, grupos minoritarios, etc.
• El investigador conoce algún
componente de la población y a
través de ellos va completando la
muestra.
• Cada sujeto estudiado propone a
otros, produciendo un efecto
acumulativo parecido al de la bola de
nieve.
Muestreo no probabilístico: por cuotas
Muestreo no probabilístico: por cuotas
► La versión no probabilística del muestreo estratificado.
► Consta de tres fases:

2. FIJAMOS EL TAMAÑO 3. SELECCIÓN DE PARTICIPANTES


1. SEGMENTACIÓN DE LAS CUOTAS Y COMPROBACIÓN DE CUOTAS
• A continuación, fijamos el objetivo • Por último, se buscan participantes
• Dividimos la población de individuos a encuestar para cada
objeto de estudio en grupos uno de estos grupos. para cubrir cada una de las cuotas
definidas.
de forma exhaustiva (todos • Normalmente definiremos estos
los individuos están en un
objetivos de forma proporcional al
tamaño del grupo en la población.
• En este punto es donde nos alejamos
de un muestreo probabilístico: en el
grupo) y mutuamente • Por ejemplo, si hemos definido unos muestreo por cuotas aceptamos que
exclusiva (un individuo sólo segmentos por sexo en una la selección de individuos no sea
población en la que hay un 60% de aleatoria, puede ser una selección
puede estar en un grupo). mujeres y un 40% de hombres, y
queremos obtener una muestra de mediante muestreo por conveniencia.
• Similar a la división en 1.000 personas, definiremos un
objetivo de 600 mujeres y 400 • Por ejemplo, en un estudio en el que
estratos empleada en el hombres. Estos objetivos se conocen hayamos definido una cuota de 100
como cuotas. En este ejemplo, personas menores de 25 años y 100
muestreo estratificado. tendríamos una cuota por sexo de
600 mujeres y 400 hombres. personas de 25 o más años, podríamos
• Usar alguna variable • En ocasiones se definen cuotas no
salir a la calle y abordar a las personas
sociodemográfica como proporcionales a la población, por que encontramos a nuestro paso,
ejemplo para poder profundizar en el preguntarles su edad y encuestarlas si
sexo, edad, región o clase análisis de un grupo específico. no hemos cubierto nuestro objetivo.
social.
b) Elaboración de encuestas
Pasos en la elaboración de una encuesta
• Determinar los objetivos.
• Determinar la información requerida.
• Diseño del instrumento (cuestionario).
• Determinar la población a estudiar.
• Determinar el número de encuestas a aplicar (tamaño de la muestra).
• Determinar procedimiento de reemplazo.
• Trabajo de campo.
• Conteo y codificación de resultados.
• Análisis y conclusiones.
• Toma de decisiones.
Principales características
• Tipo especial de observación y comunicación humana entre un
encuestado y el encuestador (o investigador).
• Es un instrumento para la obtención de datos de interés.
• Conjunto de preguntas o ítems referidas a las variables que nos
interesan.
• Tratamos de obtener información de la población investigada sobre
las variables que son objeto de investigación.
• Permite una aplicación masiva.
• Mediante los sistemas de muestreo, podemos extender estas
observaciones a comunidades locales, nacionales e internacionales.
Tipos de instrumentos
• CUESTIONARIO: Es aquél en que los
entrevistados realizan una previa lectura y
contestan solo por escrito, sin que alguien
externo intervenga directamente.
• ENTREVISTA: Aplicado a los sujetos
investigados por personas especializadas
(encuestadores), que han sido preparados por
los investigadores.
Operacionalización y la investigación por
encuestas
• Básicamente, una encuesta se construye gracias a la
operacionalización de conceptos.
• La operacionalización es el paso previo y necesario
para hacer un instrumento de recolección de
información.
• El investigador debe desarrollar la habilidad para
traducir los objetivos de la investigación en preguntas
(que comenzaremos a llamar “indicadores” o variables
manifiestas).
Tipos de preguntas
• En general, se puede decir que las preguntas de un cuestionario son
la expresión en forma interrogativa de las variables manifiestas.
• Preguntas de una encuesta = indicadores.
• Al igual que las variables comprenden diferentes elementos de
variación (categorías), las preguntas de un cuestionario comprenden
distintas respuestas.
• Las categorías de las variables tienen directa relación con el nivel de
medición de éstas. En variables cualitativas (escala nominal u ordinal)
las categorías serán discretas, mientras que en variables cuantitativas
(escala o razón), las categorías serán continuas.
Tipos de preguntas y sist. de categorías
• Hay dos tipos de sistemas de categorías:
• Dicotómico
• Politómico

• Dos condiciones deben cumplir los sist. de categorías:


• Ser Exhaustivos
• Ser Excluyentes
Exhaustividad
• Medir el mayor número de categorías posibles con el
objetivo de que ningún caso (evento u observación)
quede sin poder clasificarse.
• Sin embargo, en el caso de muestras muy pequeñas
esto puede ser contraproducente, pues podrían
quedar categorías sin incluir casos, lo que afecta al
cálculo de algunas técnicas de análisis estadístico (por
ejemplo, el chi-cuadrado).
Si la variable
“Grados
Académicos” se
midiese como en
la Forma B se
obtiene una
información más
precisa que en la
Forma A.
Excluyentes

• Se refiere a que las categorías que componen una variable


deben ser mutuamente excluyentes.

• Por tanto, las categorías deben ser definidas de tal forma que
cualquier caso observado sólo pueda clasificarse en términos
un único atributo o categoría.
• La Forma “A” es el ejemplo incorrecto, pues quiebra el criterio de
la exclusividad.

• Es decir, los casos de personas con 18, 25, 50 y 65 años pueden ser
clasificados en dos categorías al mismo tiempo y no en una sola
exclusivamente.
Clasificación de las preguntas
•Según contestación
•Según naturaleza
•Según función
•Según finalidad
Según contestación
1) Preguntas cerradas
2) Preguntas categorizadas
3) Preguntas abiertas
Según
contestación
1.- PREGUNTAS CERRADAS:
Son las que sólo dan opción a
2 respuestas.
Son sistemas de categorías
dicotómicos.
Hombre / mujer; Si / No;
Afirmativo / Negativo, etc.
Según contestación
2.- PREGUNTAS CATEGORIZADAS:
• También conocidas como “preguntas de cafetería”.
• Presentan como respuestas a una serie de categorías entre las que el encuestado debe
elegir.
• Se clasifican en:
• Equilibradas  recogen expresamente las alternativas
Ejemplo: ¿está Ud. a favor o en contra del aborto?
1)a favor
2)en contra

• No equilibradas  son las que se refieren expresamente a una de las


categorías
Ejemplo: ¿Está Ud. a favor del aborto?
¿Está Ud. en contra del aborto?
Según contestación
• Dentro de las preguntas equilibradas hay un tipo
especial que se denominan preguntas de contra-
argumento.
• Ejemplo: ¿Se debería permitir el aborto si así lo desea
la mujer o no se debería poner fin a la vida de un ser
humano?
• Debería permitirse
• No debería permitirse
• NS / NC
Según contestación
• Por lo general, debiese preferirse la forma
equilibrada a la no equilibrada.
• También hay que tener en cuenta la redacción
de los contra-argumentos.
• Las preguntas de contra-argumentos son las más
“cargadas” ideológicamente.
Según contestación
3.- PREGUNTAS ABIERTAS:
• Sólo contienen la pregunta.
• Recomendables para conocer el marco de referencia del encuestado
• También para redactar con posterioridad el sistema de categorías.
• Muy útiles en estudios exploratorios.
• No permiten recoger información de variables manifiestas (por tanto,
no es posible aplicar en ellas un profundo tratamiento estadístico)
Según contestación
• En general, se recomienda el uso de las
preguntas categorizadas.
• Se pueden acompañar por preguntas genéricas
(¿cuál?, ¿cómo?, especifique, etc.).
• Ello sirve para seguir mejorando con
posterioridad el instrumento.
Según naturaleza
• Hay de identificación, opinión, expectativas ante el futuro,
motivación, creencias, actitudes.
• La que necesita una definición más precisa son las preguntas de
“identificación” (las otras pueden inferirse fácilmente).
• Preg. de Identificación: se refieren a las características básicas de las
unidades de observación. (edad, sexo, estado civil, religión, ideología
política, número de hijos, nacionalidad, raza, lugar de nacimiento,
etc.)
• Las preguntas de Identificación suelen ser importantes porque
pueden ser variables independientes y, por lo tanto, de control.
• Las hipótesis suponen que estas preguntas (variables) influyen en las
demás variables e influirían en las variables dependientes.
Según función
• Son bastantes, pero las más destacables son las preguntas de
“filtro”, de “control” y las “baterías” de preguntas.
• FILTRO: son las que se realizan previamente a otra pregunta
a fin de eliminar a los sujetos que no les afecte ésta.
• Ejemplo: si se pregunta sin más ¿piensa Ud. comprarse una
TV plasma? Muchos o algunos que contesten que no puede
ser porque ya tienen una.
• Por tanto, antes se debería hacer una pregunta filtro como la
siguiente: ¿tiene Ud. TV plasma? (Si – No).
Según función
• CONTROL: tienen por finalidad asegurarse del interés y buena fe del
encuestado, así como de la veracidad y fiabilidad de sus respuestas.
• Pueden ser preguntas “trampa” o preguntas similares entre sí, pero
redactadas de distinta manera.

• BATERÍA DE PREGUNTAS: Son un conjunto de preguntas sobre la


misma cuestión, que se complementan unas con otras.
• Generalmente comienzan por preguntarse los aspectos más generales
hasta llegar a los concretos y más precisos.
c) Técnicas de análisis
cuantitativas
Problemas que resuelve la Estadística
2) Análisis de muestras e
1) Descripción de datos inferencia
• Procedimientos para resumir la • Elección de una muestra representativa e
información contenida en los inferencias respecto a la población a
partir de lo observado en la muestra.
datos.
• Se requiere un modelo probabilístico
• Básicamente existen dos tipos (lenguaje formal de la incertidumbre) y la
de procedimientos: resumen utilización de métodos de inferencia.
numérico y resumen gráfico. • El muestreo es solamente un medio, no
un fin en sí mismo.
• El objetivo no es llegar a conclusiones
sobre la muestra, sino sobre la población
a la que pertenece dicha muestra.
Problemas que resuelve la Estadística

3) Medición de relaciones 4) Predicción


• Se determina y mide las relaciones • Predicción de valores futuros que
que pueden existir entre un conjunto suelen obtenerse a partir de la
de variables. observación de regularidades en el
• Por ejemplo, ¿cuál es la relación entre comportamiento del pasado.
la velocidad punta que alcanza un • La predicción puede obtenerse o
automóvil y su peso y/o su potencia? mejorarse estudiando la relación
• ¿Existe relación entre el expediente entre la variable de interés y otras
académico de un recién titulado y el variables.
sueldo inicial del mismo? ¿qué • Se necesitan conocimientos
relación existe entre el gasto en avanzados de Estadística.
teléfono con la renta familiar y el
tamaño de la familia?
Estadística Descriptiva
• Abarca la agrupación, resumen y presentación
de los datos para permitir su interpretación y
poder tomar decisiones basadas en dicha
interpretación.
• La estadística descriptiva utiliza
Técnicas gráficas
Medidas de descripción numéricas
Variables Categóricas

Gráfico de tortas Gráfico de barras


Variables cuantitativas
• Las variables cuantitativas continuas toman un
número considerable de valores.
• Su representación gráfica resulta más clara si se
agrupan los valores próximos de la variable.
• El gráfico más común de la distribución de una
variable cuantitativa continua es un histograma.
Histograma: distribución del salario horario
Medidas de tendencia central
Media, mediana y moda
Tendencia central y niveles de medida
• No todos los estadísticos de tendencia central son adecuados para cualquier nivel
de medición.
• El nivel de medición de la variable determina cuál es la medida de tendencia
central apropiada.
Aspectos de la distribución de datos
• Cuando estamos ante un conjunto de datos, aparte de ordenarlos y
organizarlos en torno a distribuciones que después podemos expresar
en tablas y gráficos, es posible obtener información para describir su
comportamiento.
• De esta forma, es posible atender a nuevos aspectos que se
presentan habitualmente en cualquier distribución de datos.
• Estos aspectos del conjunto de datos son:
1. La tendencia.
2. La dispersión.
3. La forma.
Tendencia
• En estadística, se habla de tendencia de un conjunto de
datos en el sentido de una cierta propensión o inclinación
hacia uno o más valores de la variable.
• El conjunto de datos “tiende” hacia dicho(s) valor(es), los
que están ubicados en algún lugar de ese mismo conjunto.
Ese lugar vendría siendo el “centro” de la distribución.
Tendencia
• Vamos a estudiar dos tipos de tendencias:
1) Tendencia central
2) Tendencia no central
• Las medidas estadísticas básicas de la tendencia
central son: la moda, la media aritmética y la
mediana.
• Las medidas estadísticas básicas de la tendencia no
central se denominan genéricamente cuantiles:
cuartiles deciles, percentiles.
La media
• La media aritmética se designa por X cuando se calcula para
una muestra y por la letra griega μ (“mu”) cuando se calcula
para una población.
• En el cálculo de la media aritmética se suman todos los
valores del conjunto de datos y el resultado se divide por el
número total de casos (n).
La media
• Una de las características de la media es que es muy sensible a los
valores extremos.
Cada puntuación contribuye de distinta manera dependiendo de su valor
numérico: las puntuaciones elevadas contribuyen más a la suma que las
puntuaciones intermedias y bajas.
La media es “atraída” por los valores altos.
• Pese a ello, es muy útil para realizar comparaciones entre grupos ya
que al ser el resultado de una división por el total de elementos de la
distribución de datos (n) “estandariza” (la media es una razón de la
suma de puntuaciones individuales respecto de n).
La media
• Es decir, incorpora a los distintos valores del conjunto
de datos para luego compararlos en función del total
n.
• La media es el “centro de gravedad” de la distribución
de frecuencias.
• Esto nos hace concluir que la media está directamente
asociada a un concepto que veremos más adelante: la
desviación.
La media
• La suma algebraica de los cuadrados de las
desviaciones con respecto a la media aritmética es
siempre menor que la suma de los cuadrados de las
desviaciones respecto a cualquier otro valor.
• Por ahora no necesitan comprender mucho lo recién
dicho, sino sólo entender que la media es quizás el
primer concepto estadístico fundamental que luego
irá complementándose con otros de mayor
complejidad.
La media: nivel de medición
• Por una cuestión obvia, para sacar promedios
necesitamos números, por tanto, no se puede
sacar la media a variables cualitativas.
• En ese sentido, la media es un coeficiente que se
calcula en variables cuantitativas (intervalo o
razón).
La mediana
• La mediana es un valor de la variable que se localiza en una
posición tal que exactamente la mitad (50%) de los datos
queda bajo él y la otra mitad (50%) queda sobre él.
• Dicha posición es el lugar o punto central del conjunto de
datos ordenado en sucesión ascendente o descendente.
La mediana
• Para obtener la mediana será necesario ordenar los
datos en una sucesión, ya sea de mayor a menor o
viceversa.
• Después, se debe encontrar la posición y aquél valor
de la variable que se encuentre situado en esa
posición.
• Si el número total de casos (n) es par, la mediana
siempre se encontrará situada entre dos valores.
• En esos casos se deben sumar los valores extremos y
dividir entre 2.
La mediana
• Supongamos que hemos ordenado de forma ascendente las
edades de 10 personas:
18, 23, 25, 25, 27, 32, 34, 34, 38, 41
• Como n = 10 la mediana será el valor que se encuentre en la
posición
La mediana

• Contando, en la posición 5 se encuentra el valor 27 y en la posición 6 se encuentra el valor


32.
• Por tanto, la mediana será el valor que está exactamente al centro de 27 y 32, es decir:

• Para el conjunto observado, la moda (Md) es igual a 29,5 años.


La mediana
• Por razones obvias, cuando el número total de datos es impar, la
posición es un valor entero.
• La mediana será entonces el valor de la variable situado en dicha
posición.
• Si en el ejemplo anterior, n = 11 en vez de 10, la mediana se habría encontrado en el
lugar 6, por tanto, para ese conjunto de datos, la mediana son 32 años.
La mediana
• Hemos visto que el valor de la mediana está absolutamente
determinado por su posición.
• Esto significa que la mediana no refleja los valores
individuales del conjunto de datos (como sí lo hace la media)
y por consiguiente, es un valor estable que no se ve afectado
por la existencia de valores extremos.
• El nivel de medición para calcular la mediana es ordinal e
intervalo. En el caso de que estemos en un nivel ordinal el
número de categorías debe ser impar.
Moda
• Es aquel valor o categoría que se observa (que ocurre) con la mayor frecuencia.
• La moda puede no existir (todos los valores se repiten la misma cantidad de las veces)
o bien puede no ser única (hay dos o más valores que se repiten más veces).
• Se puede hacer entonces una distinción:
1. Distribuciones amodales.
2. Distribuciones unimodales.
3. Distribuciones bimodales.
4. Distribuciones multimodales.
Moda
• Cuando estamos frente a una distribución con datos agrupados en
categorías, la moda es el punto medio de la clase que contiene a
mayor frecuencia de datos (ej: 49,5 años). A la clase que contiene la
moda se le denomina clase modal (ej: 47 a 52).
edad

Frequency
19 a 37 65
38 a 46 66
47 a 52 69
53 a 66 59
Total 259
Moda
• Si la variable está medida a nivel nominal, la moda es la categoría que
más se repite (ej: categoría “culpa del sistema educativo en su
conjunto”).
el fracaso del liceo en el simce se debe a

Frequency
Valid pobreza 3
familias mal constituidas 6
droga, alcohol 4
culpa de los profesores 4
culpa del sistema
11
educativo en su conjunto
Total 28
Moda
• Como en la obtención de la moda no intervienen los
valores de la variable sino las frecuencias absolutas,
será posible encontrar la moda sin que tenga
importancia para ello ni la naturaleza de la variable ni
su nivel de medición.
• Por tanto, obtenemos la moda en cualquier nivel de
medición de variable, sin cumplir ningún requisito
especial.
Medidas de tendencia no central
Medidas de tendencia no central: cuantiles.
• Existen ciertas medias que si bien describen la tendencia
de un conjunto de datos, no se encuentran situadas en una
posición central del mismo.
• Estas medidas se suelen denominar cuantiles, siendo una
familia muy amplia donde los más conocidos son los
cuartiles, los deciles, los percentiles (también llamados
centiles).
• En esencia, puede decirse que siguen la misma lógica que
la mediana, la que de hecho es considerada un cuantil más.
• Lo primero que se debe hacer es tener ordenados los datos
de forma ascendente o descendente.
Medidas de tendencia no central: CUARTILES
• Son medidas descriptivas de tendencia no central que dividen los
datos ordenados (ascendente o descendentemente) en cuatro partes
exactamente iguales.
• Se tiene por tanto 3 valores: Q1, Q2, Q3.
• Q1: es el valor tal que bajo él se encuentra el 25% de los datos y
sobre él el 75% de ellos.
• Es el valor que se ubica en la posición …
Medidas de tendencia no central: CUARTILES
• Q2: es el valor tal que bajo él se encuentra el 50% de los datos y sobre él el
otro 50%. En términos prácticos, Q2 es la mediana.
• Es el valor que ocupa la posición
Medidas de tendencia no central: CUARTILES
• Q3: es el valor tal que bajo él se encuentra el
75% de los datos y sobre él se encuentra el 25%
de ellos.
• Por tanto, es el valor que se encuentra ubicado
en la posición
Medidas de tendencia no central: DECILES
• Si en vez de dividir el conjunto de datos en 4 partes iguales,
se divide en 10 partes iguales, será necesario contar con 9
valores para tales efectos.
• D1: es el valor tal que bajo él queda el 10% de los datos y
sobre él queda el 90% de ellos. Será el valor que se
encuentre en la posición
Medidas de tendencia no central: DECILES
• D2: es el valor tal que bajo él se sitúa el 20% de los datos y sobre
él se sitúa el 80%.
• Es el valor que se encuentra en la siguiente posición:

• ...y así sucesivamente.


Medidas de tendencia no central:
• Nótese que D5 = Q2 = Md

• PERCENTILES (Centiles):
• En este caso se tendrán 99 valores que dividirán el conjunto de datos en 100
partes iguales. Cada uno de estos valores es un percentil.
• P1: es el valor tal que bajo él queda el 1% de los datos y sobre él queda el 99% de
los mismos. Por tanto ocupa la posición:
Osvaldo Blanco
Sociólogo
Gráfico de cajas y bigotes
Medidas de forma
Asimetría y curtosis
Medidas de Forma: Asimetría y Curtosis
• Cuando vimos el uso de la media aritmética, dijimos que ésta
era afectada por valores extremos.
• Al nivel en el que nos encontramos (que no es mucho) la
mejor manera de analizar si nuestra distribución de datos se
“deforma” por los valores extremos (muy bajos o muy altos)
es el estudio de dos coeficientes:
Simetría / Asimetría
Curtosis.
¿Qué decimos cuando hablamos de “forma”
de una distribución de datos?
• El grado más visible cuando analizamos un
gráfico es la forma de la distribución.
• Las medidas de Forma de una distribución son
valores numéricos que complementan el simple
análisis visual (gráfico).
• Son importantes para complementar el análisis
de las medidas de tendencia central.
La forma de una distribución es una noción
eminentemente gráfica
• Teniendo en cuenta que ya sabemos lo que es la Moda,
podemos decir que –gráficamente hablando– es un
valor que puede distinguirse visualmente a partir de
determinar el número de “puntas” o “picos” de la forma
de la distribución.
Simetría y Asimetría
• Ahora bien, la idea central para definir la simetría viene dada en
relación, precisamente, a medidas como las de tendencia central.
• También es muy práctico tener como referente a la mediana,
sabiendo que ésta corta a la distribución en 2 partes exactamente
iguales.
• La distribución de frecuencias perfectamente simétrica es aquella
donde una de las áreas es “imagen” de la otra, por tanto, tienen igual
superficie en ambos lados.
• Hay que hacer notar aquí que el punto crucial es el término “imagen”,
pues puede darse el caso de una distribución que pueda tener igual
superficie en ambos lados, pero éstos no representar imágenes
recíprocas
Medidas de Forma: Asimetría y Curtosis.
• La asimetría se complementa con el análisis de tendencia
central.
• La asimetría es una medida de la desigualdad de la
distribución de los valores de una distribución de
frecuencias.
• En casos de asimetría muy marcada es mejor complementar
el análisis de la media con la mediana, justamente porque las
posiciones relativas de ambas medidas dependen
directamente del tipo de simetría-asimetría de la
distribución.
Distribución perfectamente simétrica.
• En relación a las medidas de tendencia central, se puede decir que
cuando la curva de una determinada distribución es simétrica, la
mediana coincide con la media.
• Si, además, la distribución es unimodal, entonces la moda será igual a
la media y a la mediana.
Asimetría
• Cuando una distribución de frecuencias gráficamente no es simétrica será,
obviamente, asimétrica.
• Hay 2 formas principales de la asimetría: Asimetría positiva y Asimetría negativa.
• Gráficamente, una distribución
de valores será asimétrica
positiva cuando tenga muchos
valores bajos y pocos valores
altos de la variable.
• A su vez, será asimétrica
negativa cuando la variable
comporte pocos valores bajos y
muchos altos.
Asimetría
• Nótese aquí que al hacer referencia a valores “altos” y “bajos” implícitamente
estamos hablando de variables a nivel ordinal e intervalo.
• Hablar de alto o bajo en variables nominales no tiene sentido.
• Pero, además, no hay que confundir un valor “alto” con el pico de la curva que
tiene una elevada frecuencia (el eje Y), sino que hay que entender que un valor
alto es el que está hacia la derecha del eje X, es decir, la abscisa.
Asimetría
• Por otra parte, es posible relacionar la asimetría con las medidas de
tendencia central podemos decir que la asimetría positiva contiene a
las medidas de tendencia central en el siguiente orden (de izquierda a
derecha): moda, mediana y media.
Asimetría
• En la asimetría negativa se observa, de izquierda a
derecha, primero a la media, luego la mediana y por
último la moda.
Curtosis
• La curtosis se define como el grado de apilamiento de los
casos alrededor de un determinado punto en la
distribución.
• Cuando estemos en un caso de distribuciones unimodales
y simétricas, la curtosis puede clasificarse en 3 formas
distintas de grado de apuntamiento:
1) Leptocúrtica
2) Platicúrtica.
3) Mesocúrtica.
Curtosis
• Leptocúrtica: donde la forma de la distribución presenta un
apuntamiento relativamente alto, vale decir, es una distribución de
frecuencias altamente concentrada en un determinado punto (no
necesariamente la media).
• En otras palabras, es que es una distribución unimodal altamente
concentrada.
Curtosis
• Platicúrtica: donde la distribución de frecuencias es más
uniforme, la forma de la curva es más achatada.
• Valores altos, medios y bajos no tienen tantas diferencias en
cuanto a sus frecuencias.
Curtosis
• Mesocúrtica (o forma de campana): es una distribución de
frecuencias con una forma más “normal”, por tanto, ni muy
achatada ni muy apuntada.
Asimetría (interpretación)
Tres resultados:
1) El resultado es 0: Estamos ante una distribución
perfectamente simétrica (forma de campana de
Gauss), una distribución Normal.
2) El resultado es positivo: Significa una asimetría
positiva.
3) El resultado es negativo: Significa una asimetría
negativa.
Curtosis (interpretación)
• La Curtosis es la medida que da cuenta de la presencia de valores
extremos, por lo mismo, los valores positivos indican distribución
leptocúrtica, mientras que valores negativos indican distribución
platicúrtica.
• Es decir, valores mayores que 0 (positivos) indican que la distribución
tiende a concentrarse en torno a la media más que en una
distribución Normal (de ahí su forma leptocúrtica).
• A su vez, los valores negativos o menores que 0 indicarán que la
distribución es más dispersa en torno a la media (de ahí su forma
platicúrtica).
• Un valor igual a 0 indica una simetría perfecta.
La “regla de oro” de los contrastes (test) de hipótesis
(donde α = nivel de significación de 0,05)

p en SPSS = “Sig.”
Chi Cuadrado
Estadístico de asociación para 2 variables cualitativas (nominales u ordinales)
Prueba Chi-cuadrado para la asociación bivariada.
• Cuando construimos una tabla de contingencia lo que hacemos es cruzar 2
variables y analizar la distribución conjunta de ambas variable en los cruces de
sus distintas categorías.
• Lo que hacemos en la prueba de chi-cuadrado de asociación es probar si existe
una relación de asociación o, por el contrario, si existe independencia entre 2
variables de escala nominal u ordinal.

Count
EDAD
joven adulto Total
Es tá Cesante Sí 45 274 319
No 39 126 165
Total 84 400 484
Las Hipótesis en la prueba Prueba Chi-cuadrado para la asociación
bivariada.
• Dos tipos de hipótesis:

 H0 = No existe asociación entre las dos variables (son variables


independientes)
 H1 = Existe asociación entre las dos variables (ambas variables están
relacionadas).

• La H0 dirá que lo que observamos en la muestra se debe al azar y que cualquier


asociación entre las variables no es estadísticamente significativa.

• En cambio, la H1 nos dirá que lo que observamos en nuestra muestra sí es


estadísticamente significativo y, por tanto, no se debe a un error causado por el azar.
Prueba Chi-cuadrado para la asociación bivariada.

• Cuestiones centrales de la prueba chi-cuadrado (a no


olvidar):
1. El nivel de medición de ambas variables es nominal u ordinal (si estuviéramos
trabajando variables intervalo o razón (cuantitativas) debemos reducirlas a
ordinales).
2. La prueba contrasta la H0, la cual dice que las dos variables son independientes.
3. Cuanto mayor es el estadístico x2 y menor su grado de significación (Asymp.Sig)
más probable que exista relación/dependencia entre ambas variables, por tanto,
mayor probabilidad de rechazar la H0.
4. Admitiremos una relación significativa entre ambas variables (esto es,
rechazaremos H0 y aceptaremos H1) cuando el nivel de significación (valor “p”)
del estadístico x2 obtenido en la prueba sea menor que nuestro nivel de
significación (0.05 ó 0.01).
Prueba Chi-cuadrado para la asociación bivariada.

Otros conceptos que se deben tener en cuenta son:

1. Residuos: Son las diferencias (restas) entre frecuencias


observadas y esperadas. Forman parte de la fórmula de
cálculo del x2.

2. Grados de libertad (df): Número de categorías (k) de la


variable menos 1, esto es: k – 1.
Prueba Chi-cuadrado para la asociación bivariada.

• La prueba chi-cuadrado trabaja con las frecuencias de cada


casilla, contraponiendo las frecuencias observadas con las
frecuencias esperadas.

• La fórmula es la siguiente:
Prueba Chi-cuadrado para la asociación bivariada.

• La noción de “frecuencia esperada” está relacionada con la H0 en el sentido de


que son frecuencias que cabría esperar en el caso de que ambas variables no
estén relacionadas, es decir, sean independientes.
• En este sentido, al comparar las frecuencias observadas (es decir, la distribución
de frecuencias obtenidas en mi muestra) con las frecuencias esperadas (las que
cabría esperar an caso de independencia entre ambas variables), la prueba Chi-
cuadrado establece si existen diferencias significativas.
• Es decir, la prueba Chi-cuadrado nos dice si las frecuencias observadas son
diferentes de lo que pudiera esperarse en caso de ausencia de asociación.
• Esto significa que la noción de “frecuencia esperada” en este caso es la de una
distribución de absoluta independencia entre ambas variables.
Prueba Chi-cuadrado para la asociación
bivariada.
• Recordemos que el Chi-cuadrado se calcula como la diferencia entre lo observado y lo
esperado para cada casilla o celda.
• La frecuencia esperada de cada casilla se calcula a través de la siguiente fórmula:

 Para la siguiente tabla, la frecuencia observada de la casilla joven-cesante es 45,


mientras que su frecuencia esperada sería:

Count
EDAD
319 · 84 joven adulto Total
fe = = 55.36
Está Cesante Sí 45 274 319
484
No 39 126 165
Total 84 400 484
Prueba Chi-cuadrado para la asociación
bivariada.
Prueba chi-cuadrado con SPSS
Chi-Square Tests

As ymp. Sig. Exact Sig. Exact Sig.


Value df (2-sided) (2-sided) (1-sided)
Pearson Chi-Square 6.886b 1 .009
Continuity Correctiona 6.237 1 .013
Likelihood Ratio 6.650 1 .010
Fis her's Exact Test .011 .007
Linear-by-Linear
6.871 1 .009
As sociation
N of Valid Cases 484
a. Computed only for a 2x2 table
b. 0 cells (.0%) have expected count les s than 5. The minimum expected count is
28.64.

• De todos los estadísticos y sus respectivas significancias Ud. debe preocuparse del Pearson Chi-Square (Chi-
cuadrado de Pearson), el cual tiene un valor de 6.886, un grado de libertad y una significancia o probabilidad
de cometer el error tipo I de 0.009 (0.9%)
• Como 0.009 es menor que 0.05 (e incluso menor que 0.01) concluimos que existe asociación o relación
bivariada.
• Es decir, rechazamos H0 pues 0.009 es menor que el nivel de significación previamente establecido (0.05).
Requisitos a satisfacer para aplicar la prueba
chi-cuadrado
Requisitos a satisfacer para aplicar la prueba chi-cuadrado

• Eso suele ocurrir cuando el número de casillas es muy grande, pues


muchas de éstas quedan vacías o, en su defecto, con muy frecuencias
observadas y esperadas muy bajas.

• La solución es anular o bien agrupar categorías con el fin de obtener


valores más altos (se recomienda la recodificación).
Correlación con r de Pearson
Estadístico de asociación para 2 variables cuantitativas
Correlación con r de Pearson
• “Diagrama de dispersión” (“nube de puntos”).
• Un diagrama de dispersión sirve para graficar la relación entre X e Y. El eje horizontal representa
los distintos valores de X, mientras que el eje vertical representa los valores Y. Cada punto
representa las puntuaciones obtenidas por un sujeto dado en las variables X e Y.
• Como se puede observar, en la FIGURA 1 los puntos se dispersan sin sentido o coherencia entre sí.
Esto quiere decir que, en su conjunto, los puntos dan vida a una nube amorfa.
• De esta manera, un valor bajo en el eje X puede dar lugar a un valor alto en Y, pero también
puede dar un valor bajo en la misma variable Y. Es decir, no hay una correspondencia entre
obtener valores bajos o altos en una y otra variable.
Regresión y Correlación: nociones
FIGURA 2
básicas FIGURA 3

• En las figuras 2 y 3 los puntos se agrupan entre sí hacia la derecha e izquierda respectivamente.
 Esto quiere decir que en la FIGURA 2 los sujetos que tienen puntuaciones bajas en X (eje horizontal) tienen puntuaciones bajas en Y
(eje vertical), mientras que las puntuaciones altas en una de las variables van acompañadas de puntuaciones altas en la otra.
 Este tipo de asociación se denomina asociación lineal positiva.
 Por su parte, en la FIGURA 3 los sujetos que tienen puntuaciones bajas en X tienen puntuaciones altas en Y, mientras que la
puntuación en Y va decreciendo a mediada que aumenta el valor de X.
 A este tipo de asociación se le conoce como asociación lineal negativa.
Correlación: nociones básicas
• Así como el coeficiente chi-cuadrado es una
medida de la asociación entre variables
categóricas (nominales y ordinales), ahora
entraremos de lleno en el intento por medir
la asociación para 2 variables
cuantitativas.
Correlación: nociones básicas

• Queremos saber si existe una relación entre dos


atributos o variables cuantitativas (X e Y), y de
haberla, queremos determinar en qué consiste.

• El procedimiento de cálculo está basado en pares de


observaciones de una serie de individuos, donde cada par
de observación individual se compone de las variables X e Y.
Correlación: nociones básicas

• Correlación: remite al estudio de la


variación conjunta de 2 variables, su
intensidad y dirección o sentido.

• La “fuerza” y “dirección” de esta asociación


se mide por medio del coeficiente r de
Pearson.
Correlación: nociones básicas
• De esta forma, tenemos que:
1. Nivel de medición de las variables: ambas debes tener un
nivel intervalo o razón.
2. Hipótesis alternativas: correlacionales. Tenemos las siguientes
posibilidades:
Hipótesis que hablan de - Mientras más X más Y
asociación positiva Todas estas
- Mientras menos X menos Y
son H1
- Mientras menos X más Y posibles de
Hipótesis que hablan de
asociación negativa
- Mientras más X menos Y enunciar

3. Hipótesis nulas: cualquier valor de X (sea alto o bajo) no


influye en los valores de Y.
El coeficiente r de Pearson
• En términos prácticos, el coeficiente r de Pearson es una medida de
la dispersión de la nube de puntos alrededor de la línea de
regresión.
• En otras palabras, r de Pearson mide la cantidad de dispersión en
relación a la ecuación lineal de mínimos cuadrados.
• La dispersión en relación a la recta de regresión podría medirse
mediante el cálculo de la desviación típica de los puntos en relación a
la recta, pero r de Pearson es muy popular.
• Si todos los puntos coinciden con la línea entonces r = –1 ó +1
(dependiendo de la dirección o sentido de la correlación)
El coeficiente r de Pearson
• El coeficiente de correlación lineal r de Pearson nos indica si los puntos tienden a
disponerse alineadamente (excluyendo rectas horizontales y verticales).

• En otras palabras, r es útil para determinar si hay relación lineal entre dos variables,
pero no servirá para otro tipo de relaciones (cuadrática, logarítmica, etc.).

• De esta manera, se puede sostener que la fuerza de la relación bivariada se define


en términos de correlación, término que refleja lo cerca que quedan los puntos de
una determinada línea recta con pendiente positiva o negativa.
El coeficiente r de Pearson

• Por ello, se puede concluir que si todos los


puntos pasan cerca de la recta esto
significará que la relación es fuerte, lo que
sería expresado por el valor de r, mientras
que si muchos de los puntos se encuentran
alejados de la línea podremos decir que la
relación es débil, cuestión que también se
reflejará en el valor de r.

Asociación • El coeficiente r de Pearson varía de –1 a


+1, donde:
negativa
• Valores cercanos a –1 indican una
correlación negativa (mientras más bajos
los valores de X más altos los de Y y
mientras más altos los valores de X más
bajos los de Y)
El coeficiente r de Pearson
• Valores cercanos a +1 indican una correlación positiva (mientras
más bajos los valores de X más bajos los de Y y, viceversa, mientras
más altos los valores de X más altos los de Y).

Asociación
positiva
El coeficiente r de Pearson
• Un coeficiente r de Pearson igual a 0 indica ausencia de correlación lineal.
• No obstante, no es posible interpretar el valor r = 0 como ausencia de relación.
• Esto porque las variables X e Y pueden estar asociadas de forma curvilínea u otro tipo
aún teniendo un valor r = 0.
• Vale decir, r = 0 sólo señala la ausencia de relación lineal y no de relación curvilínea,
exponencial o de otro tipo que no veremos aquí.

Ausencia de
asociación lineal
(puede haber
asociación de
otro tipo)
Interpretación de r
• Para interpretar específicamente el coeficiente de correlación r de
Pearson se sigue los siguientes criterios:

• Ahora bien, si bien el coeficiente r puede sernos útil para


determinar la fuerza de la correlación, no nos dice mucho acerca de
cuánta proporción de Y es explicada por X.

• Para poder establecer esto será necesario obtener un nuevo valor:


r2.
Interpretación de r  el coeficiente de
determinación (r2)
• A esta altura ya sabemos que la ecuación de regresión por mínimos cuadrados
permite predecir las puntuaciones en la variable dependiente Y a partir de los
valores de X con mayor precisión.

• En términos “explicativos”, la recta de regresión ayuda a explicar parte


de la variación en la variable dependiente, quedando sin explicar el
resto de la variación de Y.

• La “variación total” de Y en relación a la media será igual a la suma de la


“variación explicada” más la “variación no explicada”.

• Los cálculos deben llevar a explicar el máximo posible de variación, para lo cual se
usa el cuadrado del coeficiente de correlación de Pearson (r2), el cual expresa el
grado en que la ecuación de regresión lineal explica la variación en la variable
dependiente.
Interpretación de r  el coeficiente de determinación (r2)
• Es importante entonces que el alumno entienda que para poder interpretar r de Pearson
en términos de la variación explicada e inexplicada es necesario elevarlo al cuadrado (r2):
• r2 es igual a la proporción de la varianza en común.
• Esta varianza común es la variación compartida por X e Y
• Indica la variación de Y que es explicada por la variaxión de X.

• Es decir, por medio de r2 nos podemos hacer una mejor idea de la proporción de la
varianza en una variable dependiente (Y) que queda explicada por su asociación lineal con
otra variable independiente (X).
Interpretación de r  el coeficiente de determinación (r2)

• El coeficiente de determinación (r2) es una medida de la bondad del


ajuste del modelo, que da cuenta de la proporción de variación de Y
explicada por éste.

• Esto significa que, contrastados por sí mismos, los valores de r nos


pueden confundir ya que (a excepción de los valores –1, +1 y 0) serán
siempre superiores a los de r2.
 Por ejemplo, tenemos un caso donde r = 0,55 y creemos por ello que estamos frente a
una buena correlación cuando en verdad sólo estamos explicando (0,55)2 = 0,3025,
esto es, el 30% de la variación de la variable dependiente.
Coeficiente r de y r2  a modo de resumen
• De esta manera, a modo de resumen debemos tener claro que:
• El coeficiente r de Pearson da cuenta de la existencia y fuerza de la asociación lineal.

• El coeficiente de determinación (r2) da cuenta de la variación explicada o proporción de la


varianza común.

• Aquella variación no explicada por la variable independiente se denota como 1 – r2


Relaciones numéricas entre r, r2 y
1–r2

• Del cuadro nos queda claro que r debe ser lo suficientemente grande para que obtengamos una
reducción sustancial de las desviaciones estándar.
• Lo que debemos entender de este cuadro es que para cada valor de r existe un r2
• Para cada valor de r2 existe a su vez una variación inexplicada (1 - r2)
Resultados de correlación en
SPSS
Resultados de correlación en SPSS
• Imaginemos que tenemos dos variables intervalo: peso (kg.) y altura (cms).
• Hemos dispuesto que el peso influye en la altura, por tanto, peso será la variable independiente (X) y altura la
dependiente (Y).
• Para poder contrastar si el coeficiente de correlación es estadísticamente significativo sometemos las variables a
una prueba de hipótesis, tal y como lo hemos venido haciendo a lo largo de este semestre.
• La Hipótesis nula es que r = 0.
• Si se obtiene un valor inferior a una significación prefijada (por ejemplo 0,05) rechazamos H0 de inexistencia de
correlación y concluimos que el r obtenido es estadísticamente significativo.
• Luego, usamos r2 (coeficiente de determinación) para dar cuenta de la proporción de la variabilidad de la variable
dependiente que es explicada por la variabilidad de la variable dependiente.
Resultados de correlación en SPSS

De scri ptive Statistics

Mean St d. Deviat ion N


peso k g. 69.57 10.02 30
alt ura cms . 173.27 11.31 30

• La primera tabla es la de los estadísticos descriptivos para los datos de nuestra


muestra.
• En realidad tiene poca importancia como no sea observar en cuál de las dos variables
los individuos presentan mayor variabilidad (desviación estándar).
Resultados de correlación en SPSS
• La segunda tabla entregada por el programa SPSS es más interesante pues entrega los
resultados de la correlación.
• Nótese que esta tabla no la hubiésemos obtenido si no hubiéramos elegido las opciones
adecuadas.
El r = 0,821 nos
Correlations
La significación de la indica que la
altura cms . peso k g.
asociación es menor Pearson Correlation altura cms . 1.000 .821 asociación entre
que nuestro nivel de peso k g. .821 1.000 ambas variables
Sig. (1-tailed) altura cms . . .000
significación (0,05 e peso k g. .000 . es “muy fuerte”.
incluso menor que N altura cms . 30 30
0,01) peso k g. 30 30

 Esta tabla de resultados es la matriz de correlaciones (en este caso sólo con dos variables:
altura en cms. y peso en kg.), una indicación de la significancia unilateral de la correlación
(Sig) y el número de observaciones o individuos para cada variable.
 No comentaremos por ahora los valores de r y la significación pues los vamos a ver en tablas
más adelante.
Regresión Lineal
En la regresión lineal la serie de
requisitos es la siguiente:

• Normalidad e igualdad de varianzas en a variable


dependiente (Y) del modelo para valores fijos de la
independiente o independiente del mismo (X).
• Independencia de las observaciones de Y.
• Linealidad en la relación de variables.
La ecuación de regresión
• Ejemplo: análisis de los años de educación universitaria (variable independiente
X) y los ingresos (variable dependiente Y).
• Si se supone que X es una buena predictora de Y, entonces tenderemos que para
determinados años de escolaridad universitaria habrá cierta distribución de
ingresos.
 La técnica no en sí misma determinista, pues admite cierta variabilidad de los datos.
 Por ejemplo, se acepta que no todas las personas que han terminado la universidad tendrán
exactamente los mismos ingresos, pero se acepta que tales ingresos estarán, en su conjunto,
distribuidos alrededor de alguna media.
 Habrán distribuciones de ingresos de universitarios similares a los egresados de educación básica
o media, así como habrán distribuciones de ingresos de egresados de la universidad que se
diferencien de los egresados de básica y media.

• Lo importante a recordar es que cada una de las n distribuciones de ingresos para


determinados años de educación tendrá una media.
La ecuación de regresión
• Designaremos el curso resultante de estas
Podemos hacer una gráfica de la posición de las medias de las Y para las X (que son
medias. valores fijos, es decir, conocidos por
nosotros) como ecuación de regresión de
Y a X.
• Cuanto menor dispersión de los valores
en torno a la ecuación de regresión
mejores predicciones podemos hacer,
esto es, predicciones más precisas de Y a
partir de los valores conocidos de X.
• Es decir, en un caso en extremo “ideal”,
los puntos caen exactamente en la curva,
y la relación se abstraería como una
función matemática perfecta en la que no
hay más que una sola Y para cada X.
La ecuación de regresión
• El coeficiente r de Pearson usado para el cálculo de la
regresión la concibe como una relación con una
forma puramente lineal.
 Existen otros tipos de relaciones (exponenciales,
logarítmicas, etc.), pero nosotros sólo nos
concentraremos en la más simple de todas: la relación
lineal.
 Precisamente, la ecuación lineal es la ecuación de la
recta que mejor describe la relación entre las variables.
La ecuación de regresión

• Si la ecuación es lineal, entonces la relación se expresa por medio de


la ecuación de la recta:
La ecuación de regresión
 La idea que subyace detrás de la ecuación de regresión es que el valor de Y se
conocerá relacionando a X con dos incógnitas: a y b
• Donde “a” es conocido como “ordenada en el origen” pues representa el punto de la
recta cuya abscisa es el origen de coordenadas. En otras palabras, a representa el punto
donde la línea o recta corta el eje de las Y (o sea, allí donde x = 0)
• Por su parte, “b” representa la cuantía en que varía Y cuando X varía en una unidad. A
este parámetro b se le conoce como “coeficiente angular”, “pendiente de la recta” o
“coeficiente de regresión” y nos indica la pendiente o el ángulo de la línea que mejor se
ajusta a los datos.
La ecuación de regresión
• El hecho de que la relación sea lineal, nos indica que todo cambio de X (por ejemplo en 5
unidades) producirá siempre el mismo cambio en Y (esto es, en b5 unidades, independiente de la
posición sobre el eje de X).
• Ejemplo:
• La siguiente ecuación Y = a + bX , nos señala que Y (ingreso) cambiará de acuerdo a bX (la
incógnita b multiplicado por la variable X o años de escolaridad).
• Si hemos establecido la siguiente fórmula: Y = 1,1 + 1,3X podremos predecir los niveles de
ingresos para los diferentes niveles de escolaridad. (más adelante veremos las fórmulas para
el cálculo de a y b)
• Así, para los años de escolaridad X = 9, el nivel de ingresos sería el siguiente: Y = 1,1 + 1,3 · 9
= 12,8
• De esta forma, por cada nueve años de escolaridad, el ingreso aumenta en torno a 12,8
(12.800 pesos).
• Lo importante por ahora es entender que esta ecuación permite predecir los valores de Y a
partir de conocer a y b, además de X.
La ecuación de regresión
 La pendiente de la recta tiene que ver con el parámetro b.

 Si es mayor que la unidad (-1 ó +1), b dará vida a una


pendiente más rápida o pronunciada, lo que significará que
tanto mayor será el cambio de Y cuando X cambia.

 Si b es menor que la unidad (pero distinto a 0), se requerirá


una cambio mayor de X para producir un cambio en Y.

 Si b = 0, los cambio de X no producen cambios de Y (no hay


relación lineal) y, por tanto, la línea es perfectamente
horizontal.
La ecuación de regresión
 De esta forma, el valor de b será gravitante puesto que cuando b es un número positivo la recta es
creciente (positiva), vale decir, al aumentar los valores de X (variable independiente) aumentarán los
valores de Y
La ecuación de regresión
• Si b es un número negativo la recta es decreciente (negativa) ya que a medida que
aumentan los valores de X disminuirán los valores de Y.
La recta de los mínimos cuadrados
• El criterio que determina si la ecuación de regresión es o no la recta
que mejor se adecua a una nube de puntos es lo que se conoce como
“criterio de los mínimos cuadrados”.
• El criterio de los mínimos cuadrados implica encontrar la recta que
posea como característica el hecho de que la suma de los cuadrados
de las desviaciones de los valores reales de Y respecto de la recta sea
lo más mínima posible.
• Es decir, por medio de los mínimos cuadrados se intenta obtener una
recta que posea como propiedad que la suma de las distancias
verticales positivas y negativas sea igual a 0 y la desviación estándar
de los puntos respecto de aquélla sea mínima.
La recta de los mínimos cuadrados

El criterio de los
mínimos cuadrados
minimiza las sumas de
los cuadrados de las
distancias verticales
de los puntos respecto
de la recta y ayuda a
estimar la regresión de
Y sobre X
La recta de los mínimos cuadrados
• Lo importante de la línea de mínimos cuadrados es
que por medio de ella se puede predecir una variable
dependiente Y a partir de la X.
• En esencia, el criterio de ajuste por mínimos
cuadrados tiene que ver con el grado en que la
variable dependiente Y puede predecirse a través de
una ecuación que representa a la línea de regresión.
La recta de los mínimos cuadrados
• Volvemos a insistir en un punto importante: no todas las asociaciones
entre dos variables pueden describirse por medio de una línea recta.

• Los fenómenos sociales se presentan relativamente dispersos,


aunque en su conjunto los valores pueden ajustarse alrededor de la
línea de regresión.

• El problema radica entonces en situar la línea de regresión de tal


manera que se ajuste lo mejor posible a la nube de puntos.
La recta de los mínimos cuadrados
• Los mínimos cuadrados implican (en terminología, pero también en las fórmulas
matemáticas que no veremos aquí) que la recta que mejor se ajusta a la nube de puntos
es la que posee una menor varianza.

La línea de mejor ajuste es la que viene de una ecuación de regresión que
proporciona menor variabilidad (varianza).
La raíz cuadrada de esta estimación de la varianza de Y en X se conoce como
Error típico de la estimación, el cual implica la magnitud del error en la
predicción de Y por medio de X (cuanto menor es este error mejor es la
predicción).

• De ahí que se explica el porqué hemos dicho que el criterio de los mínimos cuadrados
consiste en encontrar la línea que tenga como característica que la suma de cuadrados
de las desviaciones de los valores reales de Y en relación a dicha recta sea mínima.
Relación entre la ecuación de regresión y la recta de los mínimos
cuadrados.
Relación entre la ecuación de regresión y la recta
de los mínimos cuadrados.

• La interpretación de la fórmula del parámetro a es muy sencilla:


simplemente es la resta de la media de Y por el resultado de
multiplicar b por la media de X.
• Obviamente, se calcula a partir de haber calculado b.

• Sin embargo, lo que debemos aprender es a leer las tablas de SPSS.


ANOVA
• La prueba Anova de un factor tiene como
objetivo comparar medias entre 3 o más grupos.
• Se trata de concluir si el “factor” (la variable
cualitativa con la cual conformamos los grupos) es
determinante o no en la diferencia de medias.
• En otras palabras, se busca analizar el
comportamiento de la variable dependiente
(cuantitativa) en los distintos grupos establecidos
por las categorías de la variable cualitativa
independiente (factor).
• De esta forma, contamos con dos
variables:
Una variable independiente cualitativa
nominal u ordinal (lamada factor) que
determina la conformación de los grupos.
Una variable dependiente cuantitativa
(intervalo o razón) gracias a la cual
obtenemos las medias que comparamos
entre los distintos grupos
• Las hipótesis en la prueba Anova de un
factor son las siguientes:
H0 = No existen diferencias significativas entre
las medias de los distintos grupos, lo cual se
explica por el hecho de que el factor no influye
en la distribución de los valores de la variable
dependiente.
H1 = Las medias de los grupos son distintas
entre sí, lo que se explica por el hecho de que
las puntuaciones o valores de cada grupo están
determinadas por el factor.
Esto implica que al menos existiría una
de las medias que difiere de las demás.
Condiciones para aplicar una
prueba Anova
• La prueba ANOVA es una prueba paramétrica, es decir, se
deben cumplir estrictas condiciones.
• Los supuestos son esencialmente 3:
1) Muestreo aleatorio independiente, es decir, se supone que los sujetos
pertenecientes a todos los grupos conforman una muestra representativa
del grupo al cual pertenecen.
2) Normalidad, es decir, que las poblaciones de las cuales se obtuvieron las
muestras (grupos) están normalmente distribuidas. Si ello no es así,
veremos que nuestros resultados de la prueba de Levene (para la
homogeneidad de la varianza) nos indicarán una violación a este supuesto
y con ello no podremos seguir nuestro análisis.
3) Homogeneidad de la varianza u Homocedasticidad, el cual tiene relación
con la normalidad. Se supone que las poblaciones desde las cuales se
extrajeron los grupos tienen la misma varianza. Este supuesto tiene
directa implicancia pues en el procedimiento se calcula una varianza
común descomponiéndola en 2 componentes.
Proporción explicada de la varianza
• La “variación total” se descompone en variación intra grupo y
variación inter grupo.
1) La variación inter-grupo es la que nos demuestra que el factor
explica en un importante proporción la variabilidad total
(aceptando H1)
2) La variación intra-grupo es la variación inexplicada y tiene que
ver con variables propias de los sujetos que no se
corresponden con el factor analizado. Además, son variables
que nunca podemos controlar (muchas veces ni siquiera
conocer).

• La variación inexplicada se calcula a partir de un procedimiento


que comprende el cálculo de la varianza de los puntajes
individuales respecto de la media de su grupo.
• La variación explicada está basada en el cálculo de la varianza
de las medias grupales respecto de la media global.
Midiendo el efecto del factor: Proporción explicada de la
varianza
• Eta al cuadrado (η2) es una razón entre la suma de cuadrados inter–
grupo y la suma de cuadrados total.
• Por tanto, sirve para determinar si el efecto del factor es grande en
términos de la proporción de la varianza.
• La variación inter-grupo es la variación explicada por la manera como
se han distribuidos los valores en función del factor.
Post - Hoc
• En general, a las técnicas Post Hoc
disminuyen la posibilidad de errores de
tipo I, (aunque a costa de aumentar el
error de tipo II).
• Dicho de otro modo, es probable que en
situaciones donde realmente existan
diferencias entre grupos, las pruebas Post
Hoc no lo detecten.
• Las diferencias entre grupos tienen que
ser realmente grandes para poder ser
reconocidas por estas pruebas.
• Las pruebas post hoc existentes se
clasifican según los siguientes criterios:

1. TEST DE RANGOS: son aquellas que buscan identificar


grupos homogéneos o medias perecidas.
2. COMPARACIONES MÚLTIPLES: son las que buscan
establecer diferencias entre grupos basándose en
diferencias dos a dos.
• Sin embargo la clasificación recién
dada no es estricta, pues pueden
haber técnicas Post Hoc que incluyen
las dos categorías al mismo tempo.
Grupos equilibrados y varianzas similares
• Todos los grupos tienen el mismo número de
individuos. Podemos asumir que están igualmente
dispersos.
Diferencia Honestamente significativa de Tukey
(HSD de Tukey): Se puede considerar como una
técnica de comparaciones múltiples y a la vez de
rangos. Se suele usar cuando se quiere comparar
cada grupo con todos los demás y el número de
grupos es alto (6 o más).
Test de Scheffé: Hace todas las comparaciones
posibles. Por ejemplo, el primer grupo con
respecto a c/u de los restantes, pero también el
primero con respecto al grupo formado por la
unión de dos de los restantes, etc.
Grupos desequilibrados
• Es cuando tenemos un número diferente de
individuos en cada grupo. Podemos elegir las
siguientes pruebas:
LSD de Fisher (sólo si hay 3 grupos).
T3 de Dunnett.
C de Dunnet.
Scheffé
Games-Howell
Varianzas desiguales
• Cuando la prueba de igualdad de varianzas (Levene) nos hace
sospechar que las varianzas no son similares en todos los grupos.
Podemos considerar las siguientes pruebas:
T2 de Tamhane
T3 de Dunnet
C de Dunnet
Games-Howell.
Scheffé *
Ejemplo de rechazo de H0
Variable dependiente
Descriptives

cantidad de licencias
95% Confidence Interval for
Mean
N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum
obreros de planta 22 17.7576 2.5659 .5471 16.6199 18.8952 14.00 22.67
administrativos 22 20.9091 2.8715 .6122 19.6360 22.1822 14.00 24.33
gerencia 22 20.1364 2.8687 .6116 18.8645 21.4083 15.00 25.33
Total 66 19.6010 3.0456 .3749 18.8523 20.3497 14.00 25.33

Grupos (niveles del factor)

• La tabla nos muestra estadísticos descriptivos tales como


medias, desviación estándar y erros estándar.
• Todo ello para cada nivel de factor (grupo) y para el total.
Test of Homogeneity of Variances

Promedio de repitentes por curso


Levene
Statistic df1 df2 Sig.
1.603 4 23 .207

• Esta tabla nos permite evaluar si violamos o no el supuesto


de la homogeneidad de las varianzas (homocedasticidad).
• Si el valor de “Sig.” fuese menor que un nivel de 0,05  las
varianzas de los grupos difieren significativamente. Por tanto,
todo el análisis posterior sería en vano.
ANOVA

cantidad de licencias
Sum of
Entre grupos
Squares df Mean Square F Sig.
Between Groups 118.710 2 59.355 7.722 .001
W ithin Groups 484.227 63 7.686
Dentro de Total 602.938 65
grupos

• El contraste resulta significativo, vale decir, hay


diferencias entre medias (rechazamos H0).
Sig. = 0,001 < 0,05
ANOVA

cantidad de lic enc ias


Sum of
Squares df Mean Square F Sig.
Between Groups 118.710 2 59.355 7.722 .001
W ithin Groups 484.227 63 7.686
Total 602.938 65

• Para poder establecer la proporción explicada de la varianza


(esto es, la proporción de la variación total explicada por el
factor) recurrimos al cálculo del estadístico η2 (eta al
cuadrado) dividiendo la suma de cuadrados inter-grupo por
la suma de cuadrados total.
• Para este ejemplo, el valor η2 se calcula de la siguiente manera:
118.710 / 602.938 = 0.19
 Lo que nos indica que un 19% de la varianza total se explica
por la variación entre grupos.
Post-Hoc con Tukey y Scheffé
Multiple Comparisons

Dependent Variable: c antidad de licenc ias

Mean
Difference 95% Confidenc e Interval
(I) tipo de empleado (J) tipo de empleado (I-J) Std. Error Sig. Lower Bound Upper Bound
Tukey HSD obreros de planta administrativos -3.1515* .8359 .001 -5.1580 -1.1451
gerenc ia -2.3788* .8359 .016 -4.3852 -.3723
administrativos obreros de planta 3.1515* .8359 .001 1.1451 5.1580
gerenc ia .7727 .8359 .627 -1.2337 2.7792
gerenc ia obreros de planta 2.3788* .8359 .016 .3723 4.3852
administrativos -.7727 .8359 .627 -2.7792 1.2337
Sc heffe obreros de planta administrativos -3.1515* .8359 .002 -5.2472 -1.0558
gerenc ia -2.3788* .8359 .022 -4.4745 -.2831
administrativos obreros de planta 3.1515* .8359 .002 1.0558 5.2472
gerenc ia .7727 .8359 .654 -1.3230 2.8684
gerenc ia obreros de planta 2.3788* .8359 .022 .2831 4.4745
administrativos -.7727 .8359 .654 -2.8684 1.3230
*. The mean differenc e is significant at the .05 level.

• Las diferencias que son significativas son marcadas con asterisco *


• Desde aquí podemos empezar a especificar cuál es la media grupal que se distancia de
las otras.
Post-Hoc con Tukey y Scheffé
cantidad de licencias

Subset for alpha = .05


tipo de empleado N 1 2 Los obreros de
Tukey HSD a obreros de planta 22 17.7576 planta conforman
gerencia 22 20.1364 un grupo aparte.
administrativos 22 20.9091
Sig. 1.000 .627
Scheffea obreros de planta 22 17.7576 Gerencia y
gerencia 22 20.1364
Administrativos
administrativos 22 20.9091
Sig. 1.000 .654
tienden a conformar
Means for groups in homogeneous subsets are displayed. ambos un grupo
a. Us es Harmonic Mean Sample Size = 22.000. distinto de los
Obreros.
Prueba t de Student
Para 2 muestras independientes
Tipología de pruebas t de Student
Prueba t de Student para dos muestras
independientes
• La prueba t de Student para dos muestras independientes tiene como objetivo
comprobar si dos grupos tiene la misma media en una variable medida en escala de
intervalo.
• La hemos situado dentro de las técnicas estadísticas de análisis bivariado puesto que, en
efecto, son dos variables la que entran en juego:

• Una variable independiente cualitativa (nominal u ordinas, en esto último


considerando sólo 2 categioías). Esta variable es usada estratégicamente:
sus categorías sirven como 2 grupos a comparar entre sí (por ejemplo:
hombres–mujeres, cesantes–no cesantes, adultos–jóvenes, etc.).
• Una variable dependiente intervalo (discreta o continua), la que cumple la
función de ser la variable a la cual se le calcula la media por cada grupo y se
compara entre sí.
Prueba t de Student para dos muestras
independientes
• Decimos que dos muestras o grupos son independientes cuando los
sujetos incluidos en ellas no tienen ninguna relación con los incluidos
en la otra.
• Por ejemplo: comparar el ingreso de hombre respecto de mujeres.

• Decimos que dos muestras o grupos son dependientes o relacionados


cuando los sujetos que las forman son los mismos o tienen entre sí
alguna relación.
• Por ejemplo: comparar ingresos del mismo grupo de sujetos en
dos momentos del tiempo distintos.
Prueba t de Student para dos muestras independientes

• Cuando realizamos el análisis t de Student


contrastamos la H0.

1. H0: las medias de ambos grupos son iguales.

2. H1: la diferencia de las medias entre ambos grupos es


estadísticamente significativa.
Las hipótesis en la prueba t de Student
• Cabe señalar que aquí aparece el tema del contraste bi y unilateral que vimos inciado el semestre.
• Señalar solamente que si se adopta una estrategia de dos colar (bilateral) damos cabida a la posibilidad de
que el valor de t fuese positivo o negativo.
 Si el valor t es positivo entonces la media del grupo 1 es mayor que la media del grupo 2 (μ1
> μ2)
 Si el valor t es negativo entonces la media del grupo 1 es menor que la media del grupo 2 (μ1
< μ2 )

• En este sentido, contrastar una H1 bilateral incluye la posibilidad de ambos sucesos.


• Cuando queremos determinar si es posible concluir que las medias de ambos grupos son distintas sólo si la
media del grupo 1 es menor que la del grupo 2 entonces estamos señalando una H1 unilateral (μ1 < μ2)
• Pasa lo mismo al revés.
Las hipótesis en la prueba t de Student
• Cuando realizamos un contraste bilateral (Sig. 2-tailed) y el SPSS nos entrega una
probabilidad de una cola (Sig. 1-tailed), en este caso tendremos que multiplicar por
2 la significación arrojada. Si obtenemos una probabilidad mayor o igual que 0,05
aceptaremos H0.

• Cuando estamos realizando un contraste unilateral y el programa nos ofrece una


significación o probabilidad de 2 colas tendremos que dividir por 2 dicho valor. Si
obtenemos una probabilidad menor o igual que 0,05 rechazaremos H0.
Prueba t de Student para dos muestras
independientes
Prueba t de Student para dos muestras independientes

• El cálculo del estadístico t variarán de acuerdo a si las varianzas de las


poblaciones subyacentes son heterogéneas u homogéneas.
• En otras palabras, el uso de estimaciones combinadas o separadas de la varianza
poblacional dependerá de si es o no razonable suponer que las varianzas de la
población son homogéneas.
Si las varianzas de las poblaciones son distintas es porque estamos en presencia
de poblaciones distintas.
• Para determinar si las varianzas son diferentes o iguales (en el fondo, si las
muestras provienen de una misma población o si, por el contrario, son de
poblaciones distintas) SPSS realiza la prueba de la diferencia de la variabilidad de
las 2 muestras, para lo cual hace uso de la distribución muestral F  Esta prueba
se conoce como Prueba de Levene
Prueba t de Student para dos muestras independientes

• De esta manera, la lectura de una tabla de resultados de la prueba


t de Student en SPSS tiene dos pasos básicos:
• La prueba de Levene.
• El contraste t de Student propiamente tal.

Independent Samples Test

Levene's Test for


Equality of Variances t-test for Equality of Means
95% Confidence
Interval of the
Mean Std. Error Difference
F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper
actitud hacia el trabajo Equal variances
.121 .728 1.361 1119 .174 .27 .20 -.12 .67
assumed
Equal variances
1.361 1116.861 .174 .27 .20 -.12 .67
not assumed
Prueba t de Student para dos muestras independientes

• Anteriormente señalamos que el SPSS usa la prueba de Levene para estimar si es o no razonable suponer que las varianzas
de la población son homogéneas (Levene's Test for Equality of Variances). Esta prueba entrega el valor conocido como
razón F y su significación.
• En este punto se trabaja de manera similar al procedimiento que se sigue para contrastar hipótesis. En efecto, lo que hay
que hacer con estos valores es contrastarlos con el nivel de significación que hemos adoptado (0,05 ó 0,01).
• Si la significación de F es menor que nuestro nivel de significación (0,05 ó 0,01) trabajamos con la fila Equal
variances not assumed (no se han asumido varianzas iguales).
• Si la significación de F es mayor que nuestro nivel de significación (0,05 ó 0,01) trabajamos con la fila Equal
variances assumed (se han asumido varianzas iguales).
Significación de F (sirve para ver
Independent Samples Test con cuál fila se sigue trabajando)
Levene's Test for
Test de Levene Equality of Variances t-test for Equality of Means
95% Confidence
para varianzas Interval of the
homogéneas Mean Std. Error Difference
F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper
actitud hacia el trabajo Equal variances
.121 .728 1.361 1119 .174 .27 .20 -.12 .67
assumed
Equal variances
1.361 1116.861 .174 .27 .20 -.12 .67
not assumed
Prueba t de Student para dos muestras
independientes
Independent Samples Test

Levene's Test for


Equality of Variances t-test for Equality of Means
95% Confidence
Interval of the
Mean Std. Error Difference
F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper
actitud hacia el trabajo Equal variances
.121 .728 1.361 1119 .174 .27 .20 -.12 .67
assumed
Equal variances
1.361 1116.861 .174 .27 .20 -.12 .67
not assumed

• En este caso, la razón F (Prueba de Levene) tiene una significación mayor


que 0,05, por lo tanto, trabajamos con la fila que dice “se han asumido
varianzas iguales” (Equal variance assumed).

Profesor: Osvaldo Blanco


Sociólogo
Prueba t de Student para dos muestras
independientes

• Luego de la prueba de Levene, hay que determinar el contraste del estadístico “t”
propiamente tal.

Independent Samples Test

Levene's Test for


Equality of Variances t-test for Equality of Means
95% Confidence
Interval of the
Mean Std. Error Difference
F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper
actitud hacia el trabajo Equal variances
.121 .728 1.361 1119 .174 .27 .20 -.12 .67
assumed
Equal variances
1.361 1116.861 .174 .27 .20 -.12 .67
not assumed

 En este caso, la significación del estadístico t obtenido es 0.174, vale decir, es


mayor que 0.05 por lo que aceptamos H0 y concluimos que no existe
diferencia significativa entre los promedios de actitud hacia el
trabajo en ambos grupos (hombres y mujeres).

Profesor: Osvaldo Blanco


Sociólogo
Ejemplos de contraste t
de Student en SPSS
1° Ejemplo: aceptación de
H0
1° Ejemplo: aceptación de H0
Group Statistics

Std. Error
HÁBITAT N Mean Std. Deviation Mean
ingres os del hogar RURAL 66 188378.79 88249.95 10862.82
URBANO 109 176651.38 90783.77 8695.51

Independent Samples Test

Levene's Test for


Equality of Variances t-test for Equality of Means
95% Confidence
Interval of the
Mean Std. Error Difference
F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper
ingres os del hogar Equal variances
.057 .812 .837 173 .404 11727.41 14012.13 -15929.33 39384.16
as sumed
Equal variances
.843 140.315 .401 11727.41 13914.48 -15781.72 39236.54
not ass umed

• Imaginemos que estamos analizando la diferencia promedio de ingresos para nuestra


muestra según zona geográfica.
• Tenemos entonces 2 variables:
• Variable independiente nominal: zona geográfica (rubano – rural)
• Variable dependiente intervalo: ingreso.
1° Ejemplo: aceptación de H0
Group Statistics

Std. Error
HÁBITAT N Mean Std. Deviation Mean
ingres os del hogar RURAL 66 188378.79 88249.95 10862.82
URBANO 109 176651.38 90783.77 8695.51

• La primera tabla nos presenta relevante información de tipo descriptivo acerca del ingreso en zonas rurales
y urbanas.
• En primer lugar, cabe señalar que el total de personas que residen en zonas rurales son 66, mientras que el
total de personas que residen en zonas urbanas son 109.
• El promedio de ingresos de la zona rural es de $188.378, mientras que el promedio de ingresos de zonas
urbanas alcanza a $176.651
• La desviación típica es una estimación de la variabilidad de las puntuaciones o valores individuales
respecto de la media y se expresa en las mismas unidades que los datos.
• Para zonas rurales llega a $88.249
• Para zonas urbanas llega a $90.783
• Esto significa que algunas personas están por encima y otras por debajo de la media ($88.249 en zonas rurales y
$90.783 en zonas urbanas). Intuitivamente hablando, esto nos sugiere una fuerte desigualdad en el ingreso en
ambos grupos (aunque deberíamos hacer un estudio más profundo para determinar esto).
1° Ejemplo: aceptación de H0
Independent Samples Test

Levene's Test for


Equality of Variances t-test for Equality of Means
95% Confidence
Interval of the
Mean Std. Error Difference
F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper
ingres os del hogar Equal variances
.057 .812 .837 173 .404 11727.41 14012.13 -15929.33 39384.16
as sumed
Equal variances
.843 140.315 .401 11727.41 13914.48 -15781.72 39236.54
not ass umed

• Pasando a la segunda tabla, sabemos que para leerla debemos seguir dos pasos:
• Prueba de Levene
• Contraste t de Student propiamente tal.
• La significación de F (círculo azul) es de 0.812, por tanto, trabajaremos con la línea que ha
asumido varianzas iguales (Equal variances assumed).
• El valor de t es relativamente bajo (0,837), por tanto no cabe esperar que exista diferencia
significativa entre ambos promedios de ingreso.
• Otro valor interesante es la diferencia entre los promedios de ingreso en ambas zonas geográfica,
valor que aparece en la diferencia de medias (Mean Difference)
1° Ejemplo: aceptación de H0
Independent Samples Test

Levene's Test for


Equality of Variances t-test for Equality of Means
95% Confidence
Interval of the
Mean Std. Error Difference
F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper
ingres os del hogar Equal variances
.057 .812 .837 173 .404 11727.41 14012.13 -15929.33 39384.16
as sumed
Equal variances
.843 140.315 .401 11727.41 13914.48 -15781.72 39236.54
not ass umed

• Precisamente, la significación del estadístico t (0,404) es mayor que el nivel de significación de 0,05, por lo que
aceptamos con confianza H0 y sostenemos que no existen evidencias para concluir que el promedio de
ingresos difiere significativamente en ambos grupos.
• Como fundamentación aparte, podríamos mencionar el alto valor de la desviación estándar que vimos en el
cuadro anterior, lo que nos señala que con seguridad la diferencia entre los promedios de ingreso en ambos
grupos no es significativa debido a que tanto en zonas rurales como urbanas existe una fuerte deigualdad en la
distribución del ingreso (cuestión que debería ser investigada con un estudio más profundo).
2° Ejemplo: rechazo de H0
2° Ejemplo: rechazo de H0

Group Statistics

Std. Error
Ideología N Mean Std. Deviation Mean
percepción de la Ext.Izquierda 8 6.8750 4.4219 1.5634
situación mundial Centro 141 11.3688 4.9691 .4185

• Imaginemos que estamos haciendo un estudio sobre la percepción que las personas tienes respecto de la
situación social, política y económica del mundo. Esta variable la hemos convertido a nivel de intervalo
mediante la aplicación de una escala de actitud (escala Cantril).
• Tenemos la sospecha de que la percepción de la situación mundial variará respecto de si se trata de personas
de una posición ideológica de extrema izquierda respecto de personas de centro.
• Nótese que de una variable (posición ideológica) que tendría 5 categorías (extrema-izquierda, izquierda,
centro, derecha, extrema-derecha), hemos tomado sólo 2 de estas 5 categorías (extrema izquierda y centro)
para comparar entre sí sus respectivas percepciones de la situación mundial.
• Esto es posible hacerlo con SPSS (ver indicaciones más adelante).
2° Ejemplo: rechazo de H0

Group Statistics

Std. Error
Ideología N Mean Std. Deviation Mean
percepción de la Ext.Izquierda 8 6.8750 4.4219 1.5634
situación mundial Centro 141 11.3688 4.9691 .4185

• La revisión del primer cuadro con resultados nos ofrece algo interesante: el promedio en la
escala de actitudes respecto de la situación mundial varía considerablemente respecto de si
estamos hablando de un grupo de extrema-izquierda y otro de centro. Los de extrema
izquierda tienen un promedio más bajo, es decir, más cercano a una negativa visión de la
situación social, política y económica mundial.
• Otro dato que puede ser interesante es la clara diferencia en los totales de cada grupo (N):
mientras apenas 8 personas se identifican con posiciones ideológicas de extrema- izquierda,
141 personas se identifican con posiciones ideológicas de centro.
2° Ejemplo: rechazo de H0
Independent Samples Test

Levene's Test for


Equality of Variances t-test for Equality of Means
95% Confidence
Interval of the
Mean Std. Error Difference
F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper
percepción de la Equal variances
.625 .431 -2.501 147 .013 -4.4938 1.7970 -8.0451 -.9425
situación mundial as sumed
Equal variances
-2.777 8.037 .024 -4.4938 1.6184 -8.2229 -.7647
not ass umed

• Pasando a la tabla del contraste t de student propiamente tal, la significación de F (0.431) nos
señala que debemos trabajar en la fila de varianzas iguales (círculo azul).

• La significación del estadístico t (círculo rojo) es menor que 0.05, por tanto, rechazamos H0 y
señalamos que existe diferencia en cuanto a la percepción de la situación mundial según
estemos hablando de personas identificadas con la extrema-izquierda respecto de personas
identificadas con el centro.

Profesor: Osvaldo Blanco


Sociólogo
3° Ejemplo: rechazo de H0
cuando H1 es unilateral
3° Ejemplo: rechazo de H0 cuando H1 es
unilateral
Independent Samples Test

Levene's Test for


Equality of Variances t-test for Equality of Means
95% Confidence
Interval of the
Mean Std. Error Difference
F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper
Edad Equal variances
1,530 ,217 -1,718 313 ,087 -11,326 6,592 -24,296 1,644
as sumed
Equal variances
-4,098 4,843 ,010 -11,326 2,764 -18,499 -4,152
not ass umed

• Imaginemos que nuestra H1 hubiese sido unilateral (por ejemplo, la percepción de la


situación mundial de los extrema-izquierda tiene una puntuación menor que los de
centro  μ1 < μ2).
• La probabilidad que nos ofreció el programa fue de dos colas (Sig. 2-tailed), por lo que
debemos dividir por 2 el valor de 0.087 (0.087/2 = 0.0435).
• Claramente esta probabilidad es menor que 0,05 por tanto rechazamos H0 y concluimos
esta vez que las personas que tienen una posición ideológica de extrema-izquierda tienen
una percepción de la situación mundial significativamente menor que los de centro.
3° Ejemplo: rechazo de H0 cuando
H1 es unilateral
Independent Samples Test

Levene's Test for


Equality of Variances t-test for Equality of Means
95% Confidence
Interval of the
Mean Std. Error Difference
F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper
Edad Equal variances
1,530 ,217 -1,718 313 ,087 -11,326 6,592 -24,296 1,644
as sumed
Equal variances
-4,098 4,843 ,010 -11,326 2,764 -18,499 -4,152
not ass umed

• Imaginemos que nuestra H1 hubiese sido unilateral (por ejemplo, la percepción de la situación
mundial de los extrema-izquierda tiene una puntuación menor que los de centro  μ1 < μ2).
• La probabilidad que nos ofreció el programa fue de dos colas (Sig. 2-tailed), por lo que
debemos dividir por 2 el valor de 0.087 (0.087/2 = 0.0435).
• Claramente esta probabilidad es menor que 0,05 por tanto rechazamos H0 y concluimos esta
vez que las personas que tienen una posición ideológica de extrema-izquierda tienen una
percepción de la situación mundial significativamente menor que los de centro.

Profesor: Osvaldo Blanco


Sociólogo
FIN

You might also like