Professional Documents
Culture Documents
Anlisis bivariado
VARIABLE 1
VARIABLE 2
- Cualitativa
- Cualitativa
- Cuantitativa
- Cuantitativa
- Cualitativa Cualitativa
- Cualitativa Cuantitativa
- Cuantitativa Cuantitativa
2
Anlisis bivariado
Tablas de resumen
Grficos estadsticos
Pruebas estadsticas
Variable cualitativa
dicotmica
Variable cualitativa
politmica
Tablas resumen
Tabla 1. Estadsticas descriptivas de la edad de inicio para fumar
diariamente segn sexo
Hombres
Mujeres
Edad de inicio para fumar [media desviacin estndar] [24.0 10.9] [25.6 9.5]
Grficos estadsticos
60
40
20
0
80
Masculino
Femenino
Pruebas estadsticas
Prueba t - Student
La distribucin t Student es una distribucin
semejante a la distribucin normal.
Y porque usar la distribucin t en vez de la
distribucin Z?
La prueba Z es usada cuando la desviacin estndar
es conocida. Usualmente la desviacin estndar es
desconocida.
t
x1 x2
1 1
S x1x 2
n1 n2
Sx1x2= desviacin estndar combinada
10
3. Observaciones
independientes.
Se asume independencia de los datos
11
Figura 1: Teorema
de lmite central
http://www.gaussianwaves.com/2010/01/central-limit-theorem-2/
12
13
15
2. Igualdad de varianzas
Verificar si las varianzas son iguales en ambos
grupos. Para ello haremos uso de la prueba F.
Decisin,
si valor de p <= nivel de significacin, varianzas
desiguales;
si valor de p > nivel de significacin varianzas
iguales.
De acuerdo a esta decisin usaremos:
Prueba t-student para varianzas iguales.
Prueba t-student para varianzas desiguales.
16
Ejemplo
Nivel de significancia = 5%
F test to compare two variances
data: QS203C by sexo
F = 1.3164, num df = 452, denom df = 95, p-value = 0.1022
alternative hypothesis: true ratio of variances is not
equal to 1
19
Nivel de significacin=5%.
Valor de p>5%
La edad promedio de inicio para fumar diariamente en
hombres no es diferente a la edad promedio de inicio para
fumar diariamente en mujeres.
20
En resumen
Hombres
Edad de inicio para fumar [24.010.9]
Mujeres
Valor de p*
[25.69.5]
p>0.05
21
22
23
24
Fuentes de variacin
Dos medidas de variabilidad:
La variacin dentro de los grupos (intragrupo).
La variacin entre los grupos (intergrupo).
Tabla ANOVA
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Entre grupos
t-1
Dentro de grupos
o Error
N-t
Total
N-1
k
SS factores ni ( y i y )
i
Cuadrado
medio
ni
SSerror ( yij y i )
i
ni
SStotal yij2 N y
25
Ejemplo
Acceso a medios y redes sociales en mujeres en edad
frtil en tres ciudades del Per, nos interesa probar si
las edades de las participantes son diferentes en las 3
ciudades.
26
Ejemplo
Tabla 2. Estadsticas descriptivas de la edad de la participante segn establecimiento
Ciudad
Ciudad AA
Ciudad
Ciudad BB
Ciudad
Ciudad CC
50
[28.066.49]
[29.166.53]
[29.696.59]
Edad [Media Desviacin estndar] [28.06
6.54] [29.14
6.50] [29.21
6.76]
20
30
edad
40
Ciudad A
Ciudad B
Ciudad C
27
Hiptesis estadstica:
La edad de la participante esta relacionada con la ciudad donde
se realiz la entrevista
Observaciones
Ciudad A
Ciudad B
Ciudad C
536
335
418
28
Ejemplo
Igualdad de varianzas a travs de la prueba de Bartlett.
Bartlett test of homogeneity of variances
data: edad by ciudad
Bartlett's K-squared = 0.62098, df = 2, p-value = 0.7331
Nivel de significancia = 5%
Valor de p > 5%
Por lo tanto, las varianzas son iguales.
29
Ejemplo
ANOVA
Ciudad
Residuals
--Signif. codes:
Df
Sum Sq
Mean Sq
F value
2
1302
399
56735
199.43
43.58
4.577
Pr(>F)
0.0105 *
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Nivel de significancia = 5%
Valor de p < 5%
Por tanto, con un nivel de significacin del 5%, al menos una
de las edades promedios de las tres ciudades es diferente al
resto.
30
Comparaciones mltiples
Si concluimos que al menos una de las medias
difiere del resto, no sabemos con exactitud
cual o cuales de las medias difiere del resto.
Dedemos llevar a cabo pruebas adicionales para
determinar donde estn las diferencias.
- Correccin de Bonferroni.
- Procedimiento de Tukey
- Procedimiento de Scheffe, entre otros.
31
Ejemplo
El R-Commander nos ofrece la prueba de Tukey.
Continuando con el ejemplo de la diferencia delas
edades promedios en 3 , obtenemos la siguiente
salida:
Simultaneous Tests for General Linear Hypotheses
Multiple Comparisons of Means: Tukey Contrasts
Fit: aov(formula = edad ~ p1, data = Dataset)
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
Ciudad B - Ciudad A == 0 1.09476
0.46477
2.355
0.0487 *
Ciudad C - Ciudad A == 0 1.07634
0.44150
2.438
0.0394 *
Ciudad C - Ciudad B == 0 -0.01842
0.49351 -0.037
0.9992
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
32
Ejemplo
Simultaneous Tests for General Linear Hypotheses
Multiple Comparisons of Means: Tukey Contrasts
Fit: aov(formula = edad ~ p1, data = Dataset)
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
Ciudad B - Ciudad A == 0 1.09476
0.46477
2.355
0.0487 *
Ciudad C - Ciudad A == 0 1.07634
0.44150
2.438
0.0394 *
Ciudad C - Ciudad B == 0 -0.01842
0.49351 -0.037
0.9992
Muestras pequeas
Ante esta situacin lo adecuado es usar PRUEBAS
ESTADSTICAS NO PARAMETRICAS, los cuales no
presuponen distribucin normal.
34
35
36
RST positive
& RPR
negative
(n=16)
28.1
(6.9)
30.1
(6.3)
24.3
(6.7)
32.0
(5.6)
p<0.05
23
36
43
33
31
14%
22%
26%
20%
19%
1
3
2
6
4
6%
19%
13%
38%
25%
7
7
3
3
2
32%
32%
14%
14%
9%
1
5
11
15
13
2%
11%
24%
33%
29%
p<0.05
1.5
1.1
0.4
(1.5)
(1.2)
(0.8)
2.4
1.6
0.9
(1.2)
(1.0)
(1.0)
1.5
1.0
0.5
(1.7)
(1.3)
(0.8)
2.5
1.9
0.6
(1.5)
(1.3)
(0.8)
p<0.05
p<0.05
0.14
* Test of Kruskall Wallis for age for pregnant and pregnancy history, for age groups we used Chi Square
37
Resumen
Anlisis Bivariado
(dos variables)
Dos variables
cualitativas
Variable cualitativa
dicotmica
Dos variables
cuantitativas
Variable cualitativa
politmica
Prueba T para
varianzas iguales
Prueba T
Prueba T para
varianzas diferentes
Muestras pequeas
Prueba U-Mann
Whitney
Prueba de Wilcoxon
ANOVA
Muestras pequeas
Prueba de
Kruskal- Wallis
38