You are on page 1of 38

Anlisis para una variable

cuantitativa y una cualitativa

Anlisis bivariado
VARIABLE 1

VARIABLE 2

- Cualitativa

- Cualitativa

- Cuantitativa

- Cuantitativa

- Cualitativa Cualitativa
- Cualitativa Cuantitativa

- Cuantitativa Cuantitativa
2

Anlisis bivariado
Tablas de resumen
Grficos estadsticos

Pruebas estadsticas

Anlisis para una variable cuantitativa


y una cualitativa
Una variable cualitativa
y una cuantitativa

Variable cualitativa
dicotmica

Variable cualitativa
politmica

Para variable categrica dicotmica


Nos interesa comparar la edad de inicio para fumar
diariamente es diferente entre hombres y mujeres.
Para ello se tom informacin de la Encuesta
Demogrfica y de Salud Familiar (ENDES) Mdulo de
Salud del ao 2014.

Para variable categrica dicotmica


Para el caso tenemos:
Variable cuantitativa:
Edad que empez a fumar diariamente.

Variable categrica dicotmica:


Sexo de los entrevistados (Masculino o Femenino).

Tablas resumen
Tabla 1. Estadsticas descriptivas de la edad de inicio para fumar
diariamente segn sexo

Hombres

Mujeres

Edad de inicio para fumar [media desviacin estndar] [24.0 10.9] [25.6 9.5]

Grficos estadsticos

60
40
20
0

Edad que empezo a fumar

80

Grfico 1. Grfico de cajas de las edades de inicio para fumar


segn sexo del entrevistado.

Masculino

Femenino

Nos permite observar si hay


8
diferencia en los dos grupos.

Pruebas estadsticas

Si la variable categrica es dicotmica:


Hiptesis nula: igualdad de dos medias
Hiptesis alterna: diferencia de dos medias

Prueba estadstica: Prueba t-Student

Prueba t - Student
La distribucin t Student es una distribucin
semejante a la distribucin normal.
Y porque usar la distribucin t en vez de la
distribucin Z?
La prueba Z es usada cuando la desviacin estndar
es conocida. Usualmente la desviacin estndar es
desconocida.
t

x1 x2
1 1
S x1x 2

n1 n2
Sx1x2= desviacin estndar combinada
10

Requisitos para usar la prueba T


1. Las observaciones se distribuyen normal en
ambos grupos.

TEOREMA DE LMITE CENTRAL

Prueba estadstica: Prueba F


2. Igualdad de varianzas.

3. Observaciones
independientes.
Se asume independencia de los datos

11

Teorema de lmite central


Si el tamao de una muestra es suficientemente
grande, la distribucin de las medias de las muestras
de una poblacin no normal, se distribuye normal.

Figura 1: Teorema
de lmite central

http://www.gaussianwaves.com/2010/01/central-limit-theorem-2/

12

Teorema de lmite central


Las distribuciones de las medias de muestra,
con tamao de 30 elementos o ms se
consideran normalmente distribuidas.

13

Retomemos el caso planteado


Nos interesa comparar la edad de inicio para fumar
diariamente es diferente entre hombres y mujeres. Usar un
nivel de significancia del 5%.
Hiptesis estadstica alterna:
La edad promedio de inicio para fumar diariamente en
hombres es diferente a la edad promedio de inicio para
fumar diariamente en mujeres

La edad de inicio para fumar diariamente est relacionado


con el sexo del entrevistado
Estadstico de prueba
Prueba t-Student
14

Requisitos para uso de prueba t-Student


1. Por Teorema de Lmite Central, asumimos
distribucin normal de los datos.
(Participantes hombres = 453)
(Participantes mujeres = 96)

15

2. Igualdad de varianzas
Verificar si las varianzas son iguales en ambos
grupos. Para ello haremos uso de la prueba F.
Decisin,
si valor de p <= nivel de significacin, varianzas
desiguales;
si valor de p > nivel de significacin varianzas
iguales.
De acuerdo a esta decisin usaremos:
Prueba t-student para varianzas iguales.
Prueba t-student para varianzas desiguales.
16

Ejemplo
Nivel de significancia = 5%
F test to compare two variances
data: QS203C by sexo
F = 1.3164, num df = 452, denom df = 95, p-value = 0.1022
alternative hypothesis: true ratio of variances is not
equal to 1

Valor de p > 5%, concluimos que con un nivel de


significancia del 5%, las varianzas son iguales.
Entonces para nuestros datos el uso de la prueba tstudent para varianzas iguales es la correcta.
17

Prueba t para varianzas iguales


Continuando con el ejemplo de tiempos de edad.Prueba T para
varianzas iguales.
Two Sample t-test
data: QS203C by sexo
t = -1.3569, df = 547, p-value = 0.1754
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.9905408 0.7297792
sample estimates:
mean in group Masculino mean in group Femenino
24.01545
25.64583

Nivel de significancia = 5%.


Valor de p > 5%.
La edad promedio de inicio para fumar diariamente en hombres no
es diferente a la edad promedio de inicio para fumar diariamente
en mujeres.
La edad de inicio para fumar diariamente no esta relacionado con el
18
gnero.

Prueba t para varianzas desiguales


Supongamos que en lugar de obtener varianzas
iguales, hubisemos concluido que las varianzas son
diferentes.

19

Prueba t para varianzas desiguales


Continuando con el ejemplo de edad de..
Welch Two Sample t-test
data: QS203C by sexo
t = -1.4836, df = 152.9, p-value = 0.14
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.8015053 0.5407437
sample estimates:
mean in group Masculino mean in group Femenino
24.01545
25.64583

Nivel de significacin=5%.
Valor de p>5%
La edad promedio de inicio para fumar diariamente en
hombres no es diferente a la edad promedio de inicio para
fumar diariamente en mujeres.
20

En resumen
Hombres
Edad de inicio para fumar [24.010.9]

Mujeres

Valor de p*

[25.69.5]

p>0.05

* Prueba t-student para varianzas iguales

21

Anlisis para una variable cuantitativa


y una cualitativa

Si la variable categrica es politmica:


Hiptesis nula: igualdad de las medias
Hiptesis alterna: al menos una media difiere del resto

22

Anlisis de varianza (ANOVA)


Variable categrica tiene ms de dos
categoras.
Anlisis de varianza conocida como ANOVA,
que es una extensin de la prueba t vista
anteriormente.

23

Premisas para el uso del ANOVA

Las observaciones de la variable de inters


tiene distribucin normal en cada uno de los
grupos.
La varianza de las poblaciones son todas
iguales. Prueba de Bartlett.
Las observaciones son independientes.

24

Fuentes de variacin
Dos medidas de variabilidad:
La variacin dentro de los grupos (intragrupo).
La variacin entre los grupos (intergrupo).
Tabla ANOVA
Fuente de
variacin

Suma de
cuadrados

Grados de
libertad

Entre grupos

t-1

Dentro de grupos
o Error

N-t

Total

N-1
k

SS factores ni ( y i y )
i

Cuadrado
medio

ni

SSerror ( yij y i )
i

ni

SStotal yij2 N y

SStotal SS factores SSerror

25

Ejemplo
Acceso a medios y redes sociales en mujeres en edad
frtil en tres ciudades del Per, nos interesa probar si
las edades de las participantes son diferentes en las 3
ciudades.

26

Ejemplo
Tabla 2. Estadsticas descriptivas de la edad de la participante segn establecimiento
Ciudad
Ciudad AA

Ciudad
Ciudad BB

Ciudad
Ciudad CC

50

[28.066.49]
[29.166.53]
[29.696.59]
Edad [Media Desviacin estndar] [28.06
6.54] [29.14
6.50] [29.21
6.76]

20

30

edad

40

Grfico 2. Grfico de cajas de la


edad de la participante segn
establecimiento

Ciudad A

Ciudad B

Ciudad C

27

Hiptesis estadstica:
La edad de la participante esta relacionada con la ciudad donde
se realiz la entrevista

Al menos una edad promedio de alguna ciudad es diferente al


resto
Prueba estadstica: ANOVA
Observaciones por establecimientos
Ciudades

Observaciones

Ciudad A
Ciudad B
Ciudad C

536
335
418

Asumimos, normalidad de las observaciones en cada grupo.


Observaciones independientes.

28

Ejemplo
Igualdad de varianzas a travs de la prueba de Bartlett.
Bartlett test of homogeneity of variances
data: edad by ciudad
Bartlett's K-squared = 0.62098, df = 2, p-value = 0.7331

Nivel de significancia = 5%
Valor de p > 5%
Por lo tanto, las varianzas son iguales.

29

Ejemplo
ANOVA
Ciudad
Residuals
--Signif. codes:

Df

Sum Sq

Mean Sq

F value

2
1302

399
56735

199.43
43.58

4.577

Pr(>F)
0.0105 *

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Nivel de significancia = 5%
Valor de p < 5%
Por tanto, con un nivel de significacin del 5%, al menos una
de las edades promedios de las tres ciudades es diferente al
resto.
30

Comparaciones mltiples
Si concluimos que al menos una de las medias
difiere del resto, no sabemos con exactitud
cual o cuales de las medias difiere del resto.
Dedemos llevar a cabo pruebas adicionales para
determinar donde estn las diferencias.
- Correccin de Bonferroni.
- Procedimiento de Tukey
- Procedimiento de Scheffe, entre otros.

31

Ejemplo
El R-Commander nos ofrece la prueba de Tukey.
Continuando con el ejemplo de la diferencia delas
edades promedios en 3 , obtenemos la siguiente
salida:
Simultaneous Tests for General Linear Hypotheses
Multiple Comparisons of Means: Tukey Contrasts
Fit: aov(formula = edad ~ p1, data = Dataset)
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
Ciudad B - Ciudad A == 0 1.09476
0.46477
2.355
0.0487 *
Ciudad C - Ciudad A == 0 1.07634
0.44150
2.438
0.0394 *
Ciudad C - Ciudad B == 0 -0.01842
0.49351 -0.037
0.9992
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
32

Ejemplo
Simultaneous Tests for General Linear Hypotheses
Multiple Comparisons of Means: Tukey Contrasts
Fit: aov(formula = edad ~ p1, data = Dataset)
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
Ciudad B - Ciudad A == 0 1.09476
0.46477
2.355
0.0487 *
Ciudad C - Ciudad A == 0 1.07634
0.44150
2.438
0.0394 *
Ciudad C - Ciudad B == 0 -0.01842
0.49351 -0.037
0.9992

Existe diferencias entre la edad promedio de la Ciudad A con


respecto a la edad promedio de la Ciudad B.
Hay diferencia significativa entre la edad promedio de la
Ciudad C con respecto a la edad promedio de la Ciudad A.
No hay diferencia significativa entre la edad promedio de la
Ciudad C con respecto a la edad promedio de la Ciudad B.
33

Muestras pequeas
Ante esta situacin lo adecuado es usar PRUEBAS
ESTADSTICAS NO PARAMETRICAS, los cuales no
presuponen distribucin normal.

34

Variables categricas dicotmicas


Analizando una variable cuantitativa y una variable
categrica dicotmica.
Prueba t Student

Prueba U-Mann Whitney

35

Variables categricas politmicas


Analizando una variable cuantitativa y una variable
categrica politmica.
ANOVA

Prueba de Kruskal Wallis

Prueba de Kruskal Wallis cuando la premisa de


igualdad no se cumple.

36

Estudio sobre implementacin de pruebas


rpidas de sfilis
Se le hizo un seguimiento a las gestantes que resultaron positivas y algunas
negativas a la prueba rpida hasta el momento del parto, y se obtuvieron los
siguientes resultados:
Table 1. Demographic characteristic, pregnancy history for seronegative RST and
RST positive pregnant women.
RST positive (n=83)
Seronegative
RST
(n=166)

Age of mother (Std. Dev.)


Age groups
<20
20-24
25-29
30-34
>35
Pregnancy history*
Previous pregnancy (Std. Dev.)
Previous deliveries (Std. Dev.)
Miscarriage (Std. Dev.)

RST positive
& RPR
negative
(n=16)

RST and low- RST and high p-value


titer
titer
*
(RPR < 8 dil) (RPR >=8 dil)
(n=22)
(n=45)

28.1

(6.9)

30.1

(6.3)

24.3

(6.7)

32.0

(5.6)

p<0.05

23
36
43
33
31

14%
22%
26%
20%
19%

1
3
2
6
4

6%
19%
13%
38%
25%

7
7
3
3
2

32%
32%
14%
14%
9%

1
5
11
15
13

2%
11%
24%
33%
29%

p<0.05

1.5
1.1
0.4

(1.5)
(1.2)
(0.8)

2.4
1.6
0.9

(1.2)
(1.0)
(1.0)

1.5
1.0
0.5

(1.7)
(1.3)
(0.8)

2.5
1.9
0.6

(1.5)
(1.3)
(0.8)

p<0.05
p<0.05
0.14

* Test of Kruskall Wallis for age for pregnant and pregnancy history, for age groups we used Chi Square

37

Resumen
Anlisis Bivariado
(dos variables)

Una variable cualitativa


y una cuantitativa

Dos variables
cualitativas

Variable cualitativa
dicotmica

Dos variables
cuantitativas

Variable cualitativa
politmica
Prueba T para
varianzas iguales

Prueba T
Prueba T para
varianzas diferentes

Muestras pequeas
Prueba U-Mann
Whitney
Prueba de Wilcoxon

ANOVA

Muestras pequeas
Prueba de
Kruskal- Wallis
38

You might also like