Professional Documents
Culture Documents
FACULTAD DE ODONTOLOGIA
UNIDAD DE INVESTIGACION
ODONTOLOGIA BASADA EN LA EVIDENCIA
MODULO 3.3 INFERENCIA ESTADSTICA
LUIS FERNANDO GAMBOA M.
Endodoncista
MSc Epidemiologa Clnica
La Inferencia estadstica persigue la obtencin de conclusiones sobre un gran nmero de datos,
basndose en la observacin de una muestra obtenida de ellos; tambin intenta medir su
significacin, es decir la confianza que nos merecen.
Algunos de nuestros estudios se basan en la normalidad de las distribuciones de los datos de las
variables numricas que empleamos, por lo tanto antes de seguir adelante vamos a repasar la
DISTRIBUCIN NORMAL. Aunque para entender el concepto, primero debemos revisar el teorema
del lmite central.
TEOREMA DEL LMITE CENTRAL
El teorema del lmite central o teorema central del lmite indica que, en condiciones muy
generales, si Sn es la suma de n variables aleatorias independientes (edad, altura, IQ), entonces
la distribucin de Sn se aproxima bien a una distribucin normal (tambin llamada distribucin
gaussiana, curva de Gauss o campana de Gauss). As pues, el teorema asegura que esto ocurre
cuando la suma de estas variables aleatorias e independientes es lo suficientemente grande. En
otras palabras, en muestras grandes la mayora de los datos se distribuyen simtricamente
alrededor del promedio.
La primera demostracin matemtica de esto se llevo a cabo por el fisilogo Sir Francis Galton
(1822-1917).
La mquina de Galton est formada por una tabla vertical en la que hay una serie de filas de clavos
que se encuentran intercalados unos con otros. A travs de un embudo se dejan caer bolitas de
acero, de manera que cada bolita, al encontrarse con un clavo, tiene probabilidad de caer a la
izquierda o a la derecha. Las bolitas forman pequeos montones en el suelo de la mquina, de
manera que las superficies dibujan una curva. En principio esta curva tiene una forma cualquiera,
Ahora, recuerda tus respuestas. Si observas bien lo que nos est diciendo la grafica es que la
mayora de la poblacin, esta alrededor del promedio (100). Se denomina superdotados a aquellos
que poseen un cociente intelectual igual o mayor que 130 (generalmente) y se encuentran por
encima del 98% de la poblacin; es decir, que su resultado se encuentra en la parte derecha ms
extrema de la curva de resultados (una campana de Gauss). Concuerda esto con tus respuestas?.
?Aun no est claro? Piensa en la altura de las personas que te rodean, como son?. Podemos
pensar que la altura de la mayora es normal y que hay algunos muy altos y otros muy bajitos?, si
es as y logras imaginarlos en una grafica observaras que se comporta como una campana de
Gauss.
Si an persisten dudas, no dejes de ver el siguiente video:
http://www.youtube.com/watch?v=PUydiGzSPTE&NR=1
CAMPANA DE GAUSS
Entre las distribuciones continuas la ms importante es la llamada distribucin normal. Fue
introducida por Carl Gauss a principios del siglo XIX en su estudio de los errores de medida. Desde
entonces se ha utilizado como modelo en multitud de variables (peso, altura, calificaciones, etc),
en cuya distribucin los valores ms usuales se agrupan en torno a uno central y los valores
extremos son escasos. La densidad de la normal viene dada por la ecuacin:
Ecuacin:
Esta ecuacin determina la curva en forma de campana que tan bien conocemos.
La distribucin de una variable normal est completamente determinada por dos parmetros, su
media y su desviacin estndar. Como podemos apreciar en la siguiente grafica:
TEST ESTADISTICOS
Estos test nos sirven para analizar, cuantificar y establecer diferencias o similitudes entre las
variables de un estudio. Veamos ejemplos de algunas pruebas estadsticas, que nos van a
familiarizar con ellas. Cuando encontremos pruebas estadsticas diferentes debemos buscar en un
libro de estadstica o en GOOGLE, para que se utiliza y con qu variables aplica.
SHAPIRO WILK
Esta prueba la hacemos a cualquier variable cuantitativa que se encuentre en nuestro estudio. La
normalidad o no de los datos la podemos verificar mediante esta prueba. Esta prueba es el nico
test estadstico que usa unas hiptesis diferentes a todas las dems pruebas.
Ejemplo
Formulemos las hiptesis de SWILK, aunque debemos recordar que son diferentes a todas las
dems
Ho: la distribucin es normal
Ha: la distribucin no es normal
STATA (programa estadstico) nos da la siguiente salida:
Shapiro-Wilk W test for normal data
Variable |
Obs
Prob>z
-------------+------------------------------------------------matage |
500
0.99087
3.071
2.697
0.00350
Podemos concluir con base en el valor p (el cual est en color amarillo), que vamos a quedarnos
con la hiptesis alterna, es decir los datos de la variable edad, tiene una distribucin no normal.
Esto es muy importante, por cuanto si la distribucin de los datos es no normal usaremos test no
paramtricos, si tiene distribucin normal usaremos test paramtricos.
Chi Cuadrado
Se utiliza cuando vamos a comparar la asociacin entre dos variables cualitativas.
Una investigacin quiere conocer si existe asociacin entre bajo peso al nacer (si no) y el sexo
del bebe (M F).
Ejemplo:
Id
1
2
3
BPN
SI
NO
NO
Sexo
M
F
M
La base de datos tiene una muestra de 500. En este momento ya sabemos que las dos variables
son cualitativas nominales dicotmicas.
Como anteriormente explicamos lo primero que debemos hacer es formular las hiptesis del
estudio.
Ho: La proporcin de bajo peso al nacer es igual en nios y nias.
Ha: La proporcin de bajo peso al nacer es diferente en nios y nias
El valor p que nos da STATA es Prob = 0.605. Con este valor aceptamos la hiptesis nula, es decir:
La proporcin de bajo peso al nacer es igual en nios y nias. En otras palabras tener bajo peso al
nacer es independiente del sexo del bebe.
Para recordar: no hacemos pruebas de normalidad, porque estas solo se hacen a variables
cualitativas.
Pretermino
SI
NO
NO
Edad Madre
34
30
35
La base de datos tiene una muestra de 500. En este momento ya sabemos que una variable es
numrica (cuantitativas y de razn), y la otra es nominal dicotmica
Como anteriormente explicamos lo primero que debemos hacer es formular las hiptesis del
estudio.
Ho: la edad de la madre no se asocia con tener un parto pretermino.
Ha: la edad de la madre se asocia con tener un parto pretermino.
Luego evaluamos la distribucin de los datos de la variable numrica, para esto usamos la prueba
Shapiro Wilk, RECUERDE, por cada prueba debemos formular las hiptesis respectivas.
Formulemos las hiptesis de SWILK, aunque debemos recordar que son diferentes a todas las
dems
Ho: la distribucin es normal
Ha: la distribucin no es normal
Prob>z
3.071
2.697 0.00350
Podemos concluir con base en el valor p (el cual est en color amarillo), que vamos a quedarnos
con la hiptesis alterna, es decir los datos de la variable edad, tiene una distribucin no normal.
20
Frequency
40
60
Veamos la grafica:
25
30
35
maternal age
40
45
Hummm... casi casi, pero los casi no valen!. As que podemos concluir que la variable tiene
distribucin no normal, as que vamos a utilizar un test no paramtrico, en este caso la prueba U
de Mann-Whitney.
Formulemos las hiptesis:
El valor p que nos da STATA es Prob = 0.840. Con este valor aceptamos la hiptesis nula, es decir:
la edad de la madre no se asocia con tener parto pretermino.
Es importante resaltar que si el resultado de la prueba SWILK, hubiese sido distinto, es decir la
variable cuantitativa tuviera una distribucin normal, la prueba que debemos utilizar es t test. Con
esta prueba seguimos exactamente el mismo procedimiento.
Variable |
Obs
Prob>z
-------------+-------------------------------------------------a1m |
150
0.79138
4.045
2.764
0.80286
b1m |
150
0.83494
3.200
2.301
0.11070
c1m |
150
0.92449
1.464
0.754
0.22540
d1m |
150
0.97448
0.495
-1.391
0.91794
e1m |
150
0.94051
1.154
0.282
0.38879
Podemos concluir con base en el valor p (el cual est en color amarillo), que vamos a quedarnos
con la hiptesis alterna, es decir los datos de todas las resinas, tienen una distribucin no normal.
Como todos son normales usamos ANOVA (paramtrica), si alguna hubiese sido no normal
usaramos una prueba no paramtrica (KWALLIS).
ANOVA nos arroja el siguiente valor p: Prob = 0.000
Con base en este valor nos quedamos con la hiptesis alterna: Ha: al menos la fuerza de adhesin
de una de las resinas es diferente a las dems. En este caso debemos hacer un anlisis adicional
(Post Hoc), porque debemos saber cual o cuales resinas son diferentes.
Formulamos hiptesis
H0: fuerza de adhesin resina A es igual a fuerza de adhesin resina B
H0: fuerza de adhesin resina A es diferente a fuerza de adhesin resina B
Y as sucesivamente
Comparison of resg1 by grupo1
(Bonferroni)
Row Mean-|
Col Mean |
a1
b1
c1
d1
---------+-------------------------------------------b1 |
-32.5843
0.000
c1 |
-25.181
7.40333
0.000
0.573
d1 |
-8.10833
24.476
17.0727
0.378
0.670
0.490
e1 |
-9.88233
22.702
15.2987
-1.774
0.120
0.870
0.002
1.000
Los valores p estn resaltados con amarillo y nos indican que la resina a es diferente de la resina b
y c. Tambin podemos observar que la resina c es diferente de la resina d.
Con base en lo anterior podemos concluir que:
El primer paso es clasificar las variables
Si hay variables numricas, establecer la normalidad de la distribucin de los datos de dichas
variables
Segundo: Establecer la prueba estadstica que vamos a usar
Tercero: Formular las hiptesis
Cuarto: Con base en el valor p, decidir cual hiptesis es la verdadera
Recuerde todas las pruebas estadsticas funcionan igual, as que lo importante es seguir los pasos
anteriores.