Lectura Estadistica Inferencia I

UNIVERSIDAD EL BOSQUE
FACULTAD DE ODONTOLOGIA
UNIDAD DE INVESTIGACION
ODONTOLOGIA BASADA EN LA EVIDENCIA
MODULO 3.3 INFERENCIA ESTADSTICA
LUIS FERNANDO GAMBOA M.
Endodoncista
MSc Epidemiologa Clnica
La Inferencia estadstica persigue la obtencin de conclusiones sobre un gran nmero de datos,
basndose en la observacin de una muestra obtenida de ellos; tambin intenta medir su
significacin, es decir la confianza que nos merecen.
Algunos de nuestros estudios se basan en la normalidad de las distribuciones de los datos de las
variables numricas que empleamos, por lo tanto antes de seguir adelante vamos a repasar la
DISTRIBUCIN NORMAL. Aunque para entender el concepto, primero debemos revisar el teorema
del lmite central.
TEOREMA DEL LMITE CENTRAL
El teorema del lmite central o teorema central del lmite indica que, en condiciones muy
generales, si Sn es la suma de n variables aleatorias independientes (edad, altura, IQ), entonces
la distribucin de Sn se aproxima bien a una distribucin normal (tambin llamada distribucin
gaussiana, curva de Gauss o campana de Gauss). As pues, el teorema asegura que esto ocurre
cuando la suma de estas variables aleatorias e independientes es lo suficientemente grande. En
otras palabras, en muestras grandes la mayora de los datos se distribuyen simtricamente
alrededor del promedio.
La primera demostracin matemtica de esto se llevo a cabo por el fisilogo Sir Francis Galton
(1822-1917).
La mquina de Galton est formada por una tabla vertical en la que hay una serie de filas de clavos
que se encuentran intercalados unos con otros. A travs de un embudo se dejan caer bolitas de
acero, de manera que cada bolita, al encontrarse con un clavo, tiene probabilidad de caer a la
izquierda o a la derecha. Las bolitas forman pequeos montones en el suelo de la mquina, de
manera que las superficies dibujan una curva. En principio esta curva tiene una forma cualquiera,
pero cuando el nmero de bolitas es lo suficientemente grande, la distribucin de las bolitas

adopta la forma de la campana de Gauss (en la mquina original se emplearon 800 bolitas).
Preguntmonos:
Que tan inteligente soy?, cul es tu respuesta? Normal, superdotado
Ahora de nuevo preguntmonos:
Que tan inteligentes son mis compaeros del Postgrado? cul es tu respuesta? Normales,
superdotados
Ahora de nuevo preguntmonos:
Que tan inteligentes son la gente que conozco? cul es tu respuesta? Normales, superdotados
Supongo que la respuesta fue
Bueno sobre este tema del Cociente Intelectual (Coeficiente, CI, IQ), mucho se ha escrito y se ha
llegado a la siguiente conclusin, la cual se presenta grficamente para mayor claridad.
Ahora, recuerda tus respuestas. Si observas bien lo que nos est diciendo la grafica es que la
mayora de la poblacin, esta alrededor del promedio (100). Se denomina superdotados a aquellos
que poseen un cociente intelectual igual o mayor que 130 (generalmente) y se encuentran por
encima del 98% de la poblacin; es decir, que su resultado se encuentra en la parte derecha ms
extrema de la curva de resultados (una campana de Gauss). Concuerda esto con tus respuestas?.
?Aun no est claro? Piensa en la altura de las personas que te rodean, como son?. Podemos
pensar que la altura de la mayora es normal y que hay algunos muy altos y otros muy bajitos?, si
es as y logras imaginarlos en una grafica observaras que se comporta como una campana de
Gauss.
Si an persisten dudas, no dejes de ver el siguiente video:
http://www.youtube.com/watch?v=PUydiGzSPTE&NR=1
CAMPANA DE GAUSS
Entre las distribuciones continuas la ms importante es la llamada distribucin normal. Fue
introducida por Carl Gauss a principios del siglo XIX en su estudio de los errores de medida. Desde
entonces se ha utilizado como modelo en multitud de variables (peso, altura, calificaciones, etc),
en cuya distribucin los valores ms usuales se agrupan en torno a uno central y los valores
extremos son escasos. La densidad de la normal viene dada por la ecuacin:
Ecuacin:
Esta ecuacin determina la curva en forma de campana que tan bien conocemos.
La distribucin de una variable normal est completamente determinada por dos parmetros, su
media y su desviacin estndar. Como podemos apreciar en la siguiente grafica:
Propiedades de la distribucin normal:

La distribucin normal posee ciertas propiedades importantes que conviene destacar:
i.
Tiene una nica moda, que coincide con su media y su mediana.
ii.
La curva normal es asinttica al eje de abscisas. Por ello, cualquier valor entre -y +
es tericamente posible. El rea total bajo la curva es, por tanto, igual a uno.
iii.
Es simtrica con respecto a su media. Segn esto, para este tipo de variables existe
una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de
observar un dato menor.
iv.
La distancia entre la lnea trazada en la media y el punto de inflexin de la curva es
igual a una desviacin tpica (s). Cuanto mayor sea, ms aplanada ser la curva de la
densidad.
v.
El rea bajo la curva comprendida entre los valores situados aproximadamente a dos
desviaciones estndar de la media es igual a 0,95. En concreto, existe un 95% de
posibilidades de observar un valor comprendido en el intervalo
vi.
La forma de la campana de Gauss depende de los parmetros promedio y ds.
HIPOTESIS
Una hiptesis puede definirse como una solucin provisional (tentativa) para un problema dado.
La hiptesis nula: a=b; la representaremos por H0, es la hiptesis que se desea contrastar. La
hiptesis nula es en general una hiptesis simple que permite hacer predicciones sin ambigedad.
El adhesivo A y el adhesivo B tienen la misma fuerza de adhesin.
La hiptesis alterna: ab; la representaremos por Ha, es la hiptesis que contradice a la hiptesis
nula.
El adhesivo A y el adhesivo B tienen diferente fuerza de adhesin.
VALOR P
El proceso de aceptacin o rechazo de la hiptesis lleva implcito un riesgo que se cuantifica con el
valor de la "p", que es la probabilidad de aceptar la hiptesis alternativa como cierta, cuando la
cierta podra ser la hiptesis nula.
En el protocolo de nuestra investigacin, decidimos con que valor p o significancia estadstica
vamos a trabajar, existen tres valores p (0.1, 0.05, 0.01), aunque existe un consenso internacional
para trabajar con 0.05. Despus de tener los resultados del estudio, estos son comparados,
mediante un test estadstico, al final este test estadstico nos va a dar un valor p que se analiza de
la siguiente manera:
El valor de "p" que indica que la asociacin es estadsticamente significativa ha sido
arbitrariamente seleccionado y por consenso se considera en 0.05 o menor. Una seguridad del
95% lleva implcito una p< de 0.05 y una seguridad del 99% lleva implcita una p< 0.01. Cuando
rechazamos la Ho (hiptesis nula) y aceptamos la Ha (hiptesis alternativa) como probablemente
cierta afirmando que hay una asociacin, o que hay diferencia, estamos diciendo en otras palabras
que es muy poco probable que el azar fuese responsable de dicha asociacin.
Del mismo modo si la p>0.05 decimos que el azar no puede ser excluido como explicacin de dicho
hallazgo y no rechazamos la Ho (hiptesis nula) que afirma que ambas variables no estn
asociadas o correlacionadas.
RECUERDE:
En el protocolo de investigacin debe establecer las hiptesis del estudio.
En el protocolo debe establecer el valor p con el cual desea analizar.
Cuando tenga los datos, los enviamos a un estadstico.
El estadstico nos devuelve un valor p (o varios segn el nmero de hiptesis)

Con base en el valor p decido si me quedo con H0 o con Ha.
TEST ESTADISTICOS
Estos test nos sirven para analizar, cuantificar y establecer diferencias o similitudes entre las
variables de un estudio. Veamos ejemplos de algunas pruebas estadsticas, que nos van a
familiarizar con ellas. Cuando encontremos pruebas estadsticas diferentes debemos buscar en un
libro de estadstica o en GOOGLE, para que se utiliza y con qu variables aplica.
SHAPIRO WILK
Esta prueba la hacemos a cualquier variable cuantitativa que se encuentre en nuestro estudio. La
normalidad o no de los datos la podemos verificar mediante esta prueba. Esta prueba es el nico
test estadstico que usa unas hiptesis diferentes a todas las dems pruebas.
Ejemplo
Formulemos las hiptesis de SWILK, aunque debemos recordar que son diferentes a todas las
dems
Ho: la distribucin es normal
Ha: la distribucin no es normal
STATA (programa estadstico) nos da la siguiente salida:
Shapiro-Wilk W test for normal data
Variable |
Obs
Prob>z
-------------+------------------------------------------------matage |
500
0.99087
3.071
2.697
0.00350
Podemos concluir con base en el valor p (el cual est en color amarillo), que vamos a quedarnos
con la hiptesis alterna, es decir los datos de la variable edad, tiene una distribucin no normal.
Esto es muy importante, por cuanto si la distribucin de los datos es no normal usaremos test no
paramtricos, si tiene distribucin normal usaremos test paramtricos.
Chi Cuadrado
Se utiliza cuando vamos a comparar la asociacin entre dos variables cualitativas.
Una investigacin quiere conocer si existe asociacin entre bajo peso al nacer (si no) y el sexo
del bebe (M F).
Ejemplo:
Id
1
2
3
BPN
SI
NO
NO
Sexo
M
F
M
La base de datos tiene una muestra de 500. En este momento ya sabemos que las dos variables
son cualitativas nominales dicotmicas.
Como anteriormente explicamos lo primero que debemos hacer es formular las hiptesis del
estudio.
Ho: La proporcin de bajo peso al nacer es igual en nios y nias.
Ha: La proporcin de bajo peso al nacer es diferente en nios y nias
Vamos a usar la prueba chi cuadrado.

STATA, nos da el siguiente resultado:
Pr = 0.605
El valor p que nos da STATA es Prob = 0.605. Con este valor aceptamos la hiptesis nula, es decir:
La proporcin de bajo peso al nacer es igual en nios y nias. En otras palabras tener bajo peso al
nacer es independiente del sexo del bebe.
Para recordar: no hacemos pruebas de normalidad, porque estas solo se hacen a variables
cualitativas.
TEST U de Mann-Whitney (no paramtrico)

Una investigacin quiere conocer si existe asociacin entre parto pretermino y la edad de la mujer.
Ejemplo:
Id
1
2
3
Pretermino
SI
NO
NO
Edad Madre
34
30
35
La base de datos tiene una muestra de 500. En este momento ya sabemos que una variable es
numrica (cuantitativas y de razn), y la otra es nominal dicotmica
estudio.
Ho: la edad de la madre no se asocia con tener un parto pretermino.
Ha: la edad de la madre se asocia con tener un parto pretermino.
Luego evaluamos la distribucin de los datos de la variable numrica, para esto usamos la prueba
Shapiro Wilk, RECUERDE, por cada prueba debemos formular las hiptesis respectivas.
dems

Variable | Obs
Prob>z
-------------+------------------------------------------------matage | 500 0.99087
3.071
2.697 0.00350
con la hiptesis alterna, es decir los datos de la variable edad, tiene una distribucin no normal.
20
Frequency
40
60
Veamos la grafica:
25
30
35
maternal age
40
45
Hummm... casi casi, pero los casi no valen!. As que podemos concluir que la variable tiene
distribucin no normal, as que vamos a utilizar un test no paramtrico, en este caso la prueba U
de Mann-Whitney.
Formulemos las hiptesis:
Ho: la edad de la madre no se asocia con tener un parto pretermino.

Ha: la edad de la madre se asocia con tener un parto pretermino.
El valor p que nos da STATA es Prob = 0.840. Con este valor aceptamos la hiptesis nula, es decir:
la edad de la madre no se asocia con tener parto pretermino.
Es importante resaltar que si el resultado de la prueba SWILK, hubiese sido distinto, es decir la
variable cuantitativa tuviera una distribucin normal, la prueba que debemos utilizar es t test. Con
esta prueba seguimos exactamente el mismo procedimiento.
ANOVA DE UNA VIA (paramtrico)

Una investigacin quiere conocer si existen diferencias entre las fuerzas de adhesin de 5 resinas.
La base de datos tiene una muestra de 150 dientes para cada resina. En este momento ya
sabemos que todas las variable son numricas (cuantitativas y de razn).
estudio.
Ho: la fuerza de adhesin de todas las resinas son iguales
Ha: al menos la fuerza de adhesin de una de las resinas es diferente a las dems.
Luego evaluamos la distribucin de los datos de las variables numricas, para esto usamos la
prueba Shapiro Wilk, RECUERDE, por cada prueba debemos formular las hiptesis respectivas.
dems
Variable |
Obs
Prob>z
-------------+-------------------------------------------------a1m |
150
0.79138
4.045
2.764
0.80286
b1m |
150
0.83494
3.200
2.301
0.11070
c1m |
150
0.92449
1.464
0.754
0.22540
d1m |
150
0.97448
0.495
-1.391
0.91794
e1m |
150
0.94051
1.154
0.282
0.38879
con la hiptesis alterna, es decir los datos de todas las resinas, tienen una distribucin no normal.
Como todos son normales usamos ANOVA (paramtrica), si alguna hubiese sido no normal
usaramos una prueba no paramtrica (KWALLIS).
ANOVA nos arroja el siguiente valor p: Prob = 0.000
Con base en este valor nos quedamos con la hiptesis alterna: Ha: al menos la fuerza de adhesin
de una de las resinas es diferente a las dems. En este caso debemos hacer un anlisis adicional
(Post Hoc), porque debemos saber cual o cuales resinas son diferentes.
Formulamos hiptesis
H0: fuerza de adhesin resina A es igual a fuerza de adhesin resina B
H0: fuerza de adhesin resina A es diferente a fuerza de adhesin resina B
Y as sucesivamente
Comparison of resg1 by grupo1
(Bonferroni)
Row Mean-|
Col Mean |
a1
b1
c1
d1
---------+-------------------------------------------b1 |
-32.5843
0.000
c1 |
-25.181
7.40333
0.000
0.573
d1 |
-8.10833
24.476
17.0727
0.378
0.670
0.490
e1 |
-9.88233
22.702
15.2987
-1.774
0.120
0.870
0.002
1.000
Los valores p estn resaltados con amarillo y nos indican que la resina a es diferente de la resina b
y c. Tambin podemos observar que la resina c es diferente de la resina d.
Con base en lo anterior podemos concluir que:
El primer paso es clasificar las variables
Si hay variables numricas, establecer la normalidad de la distribucin de los datos de dichas
variables
Segundo: Establecer la prueba estadstica que vamos a usar
Tercero: Formular las hiptesis
Cuarto: Con base en el valor p, decidir cual hiptesis es la verdadera
Recuerde todas las pruebas estadsticas funcionan igual, as que lo importante es seguir los pasos
anteriores.

Lectura Estadistica Inferencia I

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Lectura Estadistica Inferencia I

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD EL BOSQUE

pero cuando el nmero de bolitas es lo suficientemente grande, la distribucin de las bolitas

Propiedades de la distribucin normal:

El estadstico nos devuelve un valor p (o varios segn el nmero de hiptesis)

Vamos a usar la prueba chi cuadrado.

TEST U de Mann-Whitney (no paramtrico)

STATA (programa estadstico) nos da la siguiente salida:

Shapiro-Wilk W test for normal data

-------------+------------------------------------------------matage | 500 0.99087

Ho: la edad de la madre no se asocia con tener un parto pretermino.

ANOVA DE UNA VIA (paramtrico)

Shapiro-Wilk W test for normal data

You might also like