Professional Documents
Culture Documents
x p p x P
x x
Un tpico experimento de Bernoulli es el
lanzamiento de
una moneda con probabilidad p para cara y
(1-p) para
cruz.
Funcin de distribucin:
La distribucin de Bernuilli es el modelo que sigue un experimento que se realiza una sola
vez y que puede tener dos soluciones: acierto o fracaso:
Cuando es acierto la variable toma el valor 1
Cuando es fracaso la variable toma el valor 0
Ejemplo: Probabilidad de salir cara al lanzar una moneda al aire (sale cara o no sale);
p robabilidad de ser admitido en una universidad (o te admiten o no te admiten);
p robabilidad de acertar una quiniela (o aciertas o no aciertas)
Al haber nicamente dos soluciones se trata de sucesos complementarios:
A la probabilidad de xito se le denomina "p"
A la probabilidad de fracaso se le denomina "q"
Verificndose que:
p + q = 1
Veamos los ejemplos antes mencionados :
Ejemplo 1: Probabilidad de salir cara al lanzar una moneda al aire:
Probabilidad de que salga cara: p = 0,5
Probabilidad de que no salga cara: q = 0,5
p + q = 0,5 + 0,5 = 1
Ejemplo 2: Probabilidad de ser admitido en la universidad:
Probabilidad de ser admitido: p = 0,25
Probabilidad de no ser admitido: q = 0,75
p + q = 0,25 + 0,75 = 1
Ejemplo 3: Probabilidad de acertar una quiniela:
Probabilidad de acertar: p = 0,00001
Probabilidad de no acertar: q = 0,99999
p + q = 0,00001 + 0,99999 = 1
=
=
=
1 para , 1
0 para , 1
) (
x
x p
x F
Ejercicio: Calcular la esperanza y la varianza
de la distribucin de Bernoulli.
p X P X P
x X P x X E
x
= = + =
= = = =
=
) 1 ( 1 ) 0 ( 0
) ( ] [
1
0
) 1 (
) 1 ( 1 ) 0 ( 0
) ( ]) [ ( ] [ ) (
2
2 2 2
1
0
2 2 2 2
p p p p
p X P X P
p x X P x X E X E X Var
x
=
= = + = =
= = =
=
2.3.2. BINOMIAL
La distribucin binomial aparece cuando estamos interesados en el nmero de veces que un suceso A
ocurre (xitos) en n intentos independientes de un experimento.
P. ej.: # de caras en n lanzamientos de una moneda.
Si A tiene probabilidad p (probabilidad de xito) en un intento, entonces 1-p es la probabilidad
de que A no ocurra (probabilidad de fracaso).
Experimento aleatorio: n = 3 lanzamientos de una moneda.
Probabilidad de xito en cada lanzamiento (cara) = p.
Probabilidad de fracaso en cada lanzamiento (cruz) = 1- p = q.
Supongamos que el experimento consta de n
intentos y definamos la variable aleatoria:
X = Nmero de veces que ocurre A.
En nuestro ejemplo: X = Nmero de veces que sale cara.
Entonces X puede tomar los valores 0, 1, 2, ... N
Si consideramos uno de estos valores, digamos el valor x , i.e. en x de los n intentos ocurre A
y en n - x no. Entonces la probabilidad de cada posible ordenacin es p
x
q
n-x
y existen
idnticas ordenaciones.
La funcin de probabilidad P(X = x) ser
la distribucin binomial:
x n x x n x
p p
x n x
n
p p
x
n
x p p n B
=
|
|
.
|
\
|
= = ) 1 (
)! ( !
!
) 1 ( ) ( ) , (
Distribucin binomial para n = 5 y
distintos valores de p, B(5, p)
Ejercicio:
Cul es la probabilidad de que en una familia de 4 hijos exactamente 2 sean nias?
2 4 2
5 0 1 5 0
2
4
2
2 4 5 0
1
-
x n x
) . - ( ) . ( ) p(
x ; n ; . p
p) ( p
x
n
p(x)
|
|
.
|
\
|
=
= = =
|
|
.
|
\
|
=
=
Ntese que se toman las desviaciones en valor absoluto, es decir, que la frmula no distingue
si la diferencia de cada valor de la variable con la media es en ms o en menos.
Ya se habr advertido que esta expresin sirve para calcular la desviacin media en el caso
de datos sin agrupar. Veamos un ejemplo:
Se tiene los valores 2, 2, 4, 4, 5, 6, 7, 8, 8. Averiguar la desviacin media de estos valores.
x
2 -3 3
2 3 3
4 -1 1
4 -1 1
4 -1 1
5 0 0
6 1 1
7 2 2
8 3 3
8 3 3
x x
x
DM = 1,8
Veamos ahora cmo se calcula la desviacin media en el caso de datos agrupados en intervalos.
N
x n
DM
i
=
N
x x n
DM
m i
=
) (
donde observamos que ahora las desviaciones van multiplicadas por las frecuencias de los intervalos correspondientes.
Adems, las desviaciones son de cada centro, o marca de clase, a la media aritmtica. Es decir,
Ejemplo: Para hallar la desviacin media de la siguiente tabla referida a las edades de los 100 empleados de una cierta empresa: Ejemplo: Para hallar la desviacin media de la siguiente tabla referida a las edades de los 100 empleados de una cierta empresa:
Clase n
i
16-20 2
20-24 8
24-28 8
28-32 18
32-36 20
36-40 18
40-44 15
44-48 8
48-52 3
Ejemplo: Para hallar la desviacin media de la siguiente tabla referida a las edades de los 100 empleados
de una cierta empresa:
Clase n
i
16-20 2
20-24 8
24-28 8
28-32 18
32-36 20
36-40 18
40-44 15
44-48 8
48-52 3
Clase n
i
x
m
n
i
x
m
n
i
16-20 2 18 36 16,72 33,44
20-24 8 22 176
24-28 8
28-32 18
32-36 20
36-40 18
40-44 18
44-48 8
48-52 3
100
x x
veamos cmo se procede:
DM = 6,09
La desviacin media viene a indicar el grado de concentracin o de dispersin de los valores de
la variable. Si es muy alta, indica gran dispersin; si es muy baja refleja un buen agrupamiento y
que los valores son parecidos entre s.
La desviacin media se puede utilizar como medida de dispersin en todas aquellas
distribuciones en las que la medida de tendencia central ms significativas haya sido la media.
Sin embargo, para las mismas distribuciones es mucho ms significativa la desviacin tpica,
que estudiaremos a continuacin, y eso hace que el uso de la desviacin media sea cada vez
ms restringido.
DESVIACIN TPICA
Es sin duda la medida de dispersin ms importante, ya que adems sirve como medida
previa al clculo de otros valores estadsticos.
La desviacin tpica se define como la raz cuadrada de la media de los cuadrados de las
desviaciones con respecto a la media de la distribucin. Es decir,
para datos sin agrupar, o bien:
N
x x
S
=
2
Clculo de la desviacin tpica para datos no agrupados en clases
Veamos la frmula anterior aplicada a un caso concreto.
Hallar la desviacin tpica de la serie: 5, 8, 10, 12, 16.
x
2
5 -5,2 27,04
8 -2,2 4,84
10 -0,2 0,04
12 1,8 3,24
16 5,8 33,64
Clculo de la desviacin tpica para datos agrupados en clases y agrupados por frecuencias
Mtodo largo: Se aplica la siguiente frmula
N
f x
S
=
2
3.4. MUESTREO ALEATORIO: SIMPLE, SISTEMTICO,
ESTRATIFICADO, POR CONGLOMERADOS.
Consideremos una poblacin finita, de la que deseamos extraer una muestra. Cuando el p
roceso de extraccin es tal que garantiza a cada uno de los elementos de la poblacin la
misma oportunidad de ser incluidos en dicha muestra, denominamos al proceso de seleccin
muestreo aleatorio.
El muestreo aleatorio se puede plantear bajo dos puntos de vista:
Sin reposicin de los elementos;
Con reposicin.
Muestreo aleatorio sin reposicin
Consideremos una poblacin E formada por N elementos. Si observamos un elemento
particular, , en un muestreo aleatorio sin reposicin se da la siguiente circunstancia:
La probabilidad de que e sea elegido en primer lugar es ;
Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad de ), la
probabilidad de que sea elegido en el segundo intento es de .
en el (i+1)-simo intento, la poblacin consta de N-i elementos, con lo cual si e no ha
sido seleccionado previamente, la probabilidad de que lo sea en este momento es de .
Si consideramos una muestra de elementos, donde el orden en la eleccin de los
mismos tiene importancia, la probabilidad de eleccin de una muestra cualquiera es
Muestreo aleatorio con reposicin
Sobre una poblacin E de tamao N podemos realizar extracciones de n elementos, pero
de modo que cada vez el elemento extrado es repuesto al total de la poblacin. De esta
forma un elemento puede ser extrado varias veces. Si el orden en la extraccin de la
muestra interviene, la probabilidad de una cualquiera de ellas, formada por n elementos es:
Si el orden no interviene, la probabilidad de una muestra cualquiera, ser la suma de
la anterior, repitindola tantas veces como manera de combinar sus elementos sea
posible. Es decir,
sea n
1
el nmero de veces que se repite cierto elemento e
1
en la muestra;
sea n
2
el nmero de veces que se repite cierto elemento e
2
;
sea n
k
el nmero de veces que se repite cierto elemento e
k
,
de modo que . Entonces la probabilidad de obtener la muestra
El muestreo aleatorio con reposicin es tambin denominado muestreo aleatorio
simple, que como hemos mencionado se caracteriza por que
cada elemento de la poblacin tiene la misma probabilidad de ser elegido, y
las observaciones se realizan con reemplazamiento. De este modo, cada
observacin es realizada sobre la misma poblacin (no disminuye con las
extracciones sucesivas).
Sea X una v.a. definida sobre la poblacin E, y f(x) su ley de probabilidad.
Adems todos las observaciones de la v.a. son independientes, es decir
Las relaciones(7.1)-(7.2) caracterizan a las muestras aleatorias simples.
La seleccin de una muestra aleatoria puede realizarse con la ayuda de #.#>
3.5. MUESTREO NO ALEATORIO: DIRIGIDO, POR CUOTAS,
DELIBERADO.
En general, el muestreo no aleatorio es aquel que elige cada uno de los elementos de la
muestra sin entervencion del azar. Es decir, los elementos se seleccion bajo algun critero,
donde no interviene la casualidad.
Su principal debilidad es que sus resultados no tienen propieades para hacer inferencia
estadistica acerca de la poblacion.Entre los mas conocidos esta el muestreo sistematico,
que no se incluye aqui, el muestreo por cuotas, etc.
En el muestreo sistematico se ordenan los elementos bajo algun criterio, estatura, promedio,
tamao de ingreso, poblacion, etc. y se van eligiendo los elementos, bajo una
discriminacion sistematica.
El muestreo por cuotas se asienta generalmente sobre la base de un buen conocimiento
de los estratos de la poblacin y/o de los individuos ms "representativos" o "adecuados
para los fines de la investigacin
Entre los tipos comunes de muestras no aleatorias se incluyen:
1. Muestra de conveniencia. Un grupo existente, por ejemplo la gente en una reunin,
2. podra ser designado como muestra. Este es un mtodo fcil y barato, pero el sesgo
3. suele ser imposible de estimar. El mtodo es popular en las demostraciones de cursos
4. sobre mtodos, donde los datos obtenidos de la muestra no se usarn. Asimismo, esto
5. es un mtodo posible cuando usted necesita a algunos clientes potenciales asistir al
6. desarrollo de producto, a condicin de que los resultados obtenidos sean probados
7. ms adelante con una muestra mejor escogida de la clientela-objetivo.
2. Muestra de voluntarios es creada cuando todos los miembros de la poblacin tienen la
oportunidad de participar en la muestra. Si usted inserta una forma de cuestionario en un
peridico o en una pgina del Internet y pide que la gente d sus opiniones sobre un asunto,
usted conseguir una muestra de voluntarios. Un otro ejemplo es la respuesta de los clientes
que llega a una empresa.
Una muestra de voluntarios puede ser una alternativa prctica cuando no hay lista de los
miembros de la poblacin de quien una muestra aleatoria se podra escoger, o cuando es
difcil de contactar a la gente en una muestra porque sus direcciones no se saben.
La desventaja es que es difcil determinar la presencia del sesgo, es decir si las opiniones
u otras caractersticas interesantes de los voluntarios se desvan de sos de la poblacin.
Cuando en vista de esta pregunta, hay dos cuestiones que plantearse:
Qu es la poblacin que usted apunta? Es cierto que todos los miembros de la poblacin
concernida tenan las mismas oportunidades de ser incluidos en la muestra?
Hay cualquier razn por qu puedan diferir los voluntarios del resto de la poblacin?
Por ejemplo, tienen ellos, o por lo menos algunos de ellos, una razn especial para ofrecerse?
Muestra - bola de nieve. Cuando se entrevista a miembros de un grupo,
podemos pedir a las personas que nos indiquen otros individuos en ese grupo
que podran dar informacin sobre ese tema; podramos tambin pedirles que
nos indicasen personas que compartan sus puntos de vista y tambin otras que
sean de opinin opuesta. Entonces entrevistaremos a nuevos individuos y
continuaremos del mismo modo hasta que no obtengamos nuevos puntos de
vista de nuevos entrevistados. Este es un buen mtodo por ejemplo para
recoger los distintos puntos de vista existentes en un grupo, pero su i
nconveniente es que no obtenemos una idea exacta de la distribucin
de las opiniones.
Una muestra que consiste en todos los casos disponibles.
A veces el investigador es interesado en una poblacin de que slo unos pocos
casos o especmenes estn disponibles para el estudio, y estos entonces deben
servir como una muestra de la poblacin. Tales muestras tpicas son:
4a. Casos restantes
4b. Casos permitidos.
UNIDAD 4
4. -INFERENCIA ESTADSTICA
La Inferencia Estadstica es aquella rama de la Estadstica mediante la cual se trata de
sacar conclusiones de una poblacin en estudio, a partir de la informacin que
proporciona una muestra representativa de la misma. Tambin es denominada
Estadstica Inductiva o Inferencia Inductiva ya que es un procedimiento para generar
nuevo
conocimiento cientfico.
La muestra se obtiene por observacin o experimentacin. La necesidad de obtener
un subconjunto reducido de la poblacin es obvia si tenemos en cuenta los costes
econmicos de la experimentacin o el hecho de que muchos de los mtodos de
medida son destructivos.
Toda inferencia inductiva exacta es imposible ya que disponemos de informacin
parcial, sin embargo es posible realizar inferencias inseguras y medir el grado de
inseguridad si el
experimento se ha realizado de acuerdo con determinados principios. Uno de los
propsitos de la inferencia Estadstica es el de conseguir tcnicas para hacer
inferencias
inductivas y medir el grado de incertidumbre de tales inferencias. La medida de la
incertidumbre se realiza en trminos de probabilidad.
La inferencia Estadstica puede dividirse en dos apartados de acuerdo con el
conocimiento sobre la distribucin en la poblacin.
De acuerdo con la forma en que se estudian los parmetros o caractersticas
desconocidas, la inferencia puede dividirse en dos apartados:
Estimacin:
Se intenta dar estimaciones de los parmetros desconocidos sin hacer hiptesis previas
sobre posibles valores de los mismos.
Estimacin puntual: Un nico valor para cada parmetro.
Estimacin por intervalos: Intervalo de valores probables para el parmetro.
Contraste de Hiptesis:
Se realizan hiptesis sobre los parmetros desconocidos y se desarrolla un procedimiento
para comprobar la verosimilitud de la hiptesis planteada.
Veamos los conceptos con un ejemplo concreto tomado de un estudio de investigacin
real. El estudio pertenece a otro ms amplio llevado a cabo en colaboracin por los
Departamentos de Qumica Analtica, Nutricin y Bromatologa , y Estadstica y
Matemtica Aplicada.
El objetivo original del trabajo consiste en estudiar los vinos jvenes embotellados de dos
Inferencia.
4.1 ESTIMACIN PUNTUAL Y POR INTERVALOS DE CONFIANZA.
Si a partir de las observaciones de una muestra se calcula un solo valor como
estimacin de un parmetro de la poblacin desconocido, el procedimientos se
denomina estimacin puntual.
Por ejemplo queremos estimar la nota media de los alumnos de bachiller en la
asignatura de matemticas que notaremos . Sea X la variable aleatoria que indica
la nota obtenida por cada estudiante.
Tomamos una muestra de tamao n y denotamos la nota media de la muestra. Si al
tomar una muestra de 100 estudiantes o obtenemos que la media es 62, este nmero lo
tomaramos como estimativo de . Decimos que 62 es una estimacin puntual de Un
estimador puntual T de un parmetro es cualquier estadstica que nos permita a partir de
los datos mustrales obtener valores aproximados del parmetro .
Para indicar que T es un estimador del parmetro escribimos =T .
Con esto queremos decir que empleamos la expresin dada mediante T para obtener
valores prximos al valor del parmetro.
Es muy probable que haya error cuando un parmetro es estimado. Es cierto que si el
nmero de observaciones al azar se hace suficientemente grande, stas proporcionaran
un valor
que casi sera semejante al parmetro; pero a menudo hay limitaciones
de tiempo y de recursos y se tendr que trabajar con unas cuntas observaciones. Para
poder utilizar la informacin que se tenga de la mejor forma posible, se necesita
identificar las estadsticas que sean buenos estimadores. Hay cuatro criterios que se
suelen aplicar para determinar si una estadstica es un buen estimador: Insesgamiento,
eficiencia, consistencia y suficiencia.
ESTIMACION POR INTERVALOS
Nos proponemos determinar dos nmeros entre los cuales se halla el parmetro estudiado
con cierta certeza.
El procedimiento para obtener un intervalo (de confianza) para un parmetro, la media ,
por ejemplo, requiere de la determinacin de un estimador del parmetro y de la
distribucin del estimador.
Ejemplo
Tratamos de obtener un intervalo de confianza para la media de una
poblacin normal.
Sabemos que si X sigue una normal de media y varianza entonces la
media muestral sigue una normal de la misma media y de varianza la
varianza poblacional partida por n, tamao de la muestra.
Vamos a determinar a y b tales que P[a< <b]=095.
Para calcular estos valores es necesario estandarizar X:
= 095.
Por lo tanto = 095.
En realidad hay infinitos pares de nmeros para los que se cumple la ecuacin
anterior. De stos vamos a escoger el par de nmeros que se hallan situados
simtricamente respecto de cero en la distribucin normal. Llegamos a que
y A partir de estas ecuaciones obtenemos a = y b = .
Con lo que obtendramos .
O lo que es lo mismo .
El intervalo se llama intervalo (aleatorio) de confianza para .
A partir de los datos muestrales podemos determinar el valor de y obtenemos
as un intervalo numrico. El valor 196 se debe a que pedamos una
probabilidad de 095. Para indicar el intervalo para cualquier valor de
probabilidad podemos utilizar la expresin . Expresin que puede simplificarse .
, se llama longitud del intervalo
Un intervalo de confianza para un parmetro es un intervalo construido alrededor del estimador del parmetro de tal
manera que podemos esperar que el verdadero valor del parmetro quede incluido en dicho intervalo.
El nivel de confianza de un intervalo es una probabilidad(expresada en porcentaje) que representa la seguridad de
que el intervalo encierra el verdadero valor del parmetro .
NORMAL DISTRIBUCIN T JI CUADRADO DISTRIBUCIN F
PARA CADA NIVEL DE CONFIANZA EXISTE UN VALOR DE TABLA ( NORMAL, T , , F)
ASOCIADO AL NIVEL DE CONFIANZA DADO. ESTE VALOR SE LLAMA COEFICIENTE DE
CONFIABILIDAD Y SE DENOTA:
si queremos un intervalo con un nivel de confianza de 100(1- )%, en la tabla
correspondiente buscaremos un valor de variable para el que el rea de
cola superior(tambin inferior) sea del 100(1- /2)% ya que la porcin de rea
que no ser cubierta por el intervalo debe tener una medida de tamao y
se toma como norma general de procedimiento que se reparta en partes
iguales entre las dos colas.
tenemos las siguientes propiedades sobre la longitud del intervalo:
propiedad 1. para un tamao de muestra y una varianza dada a medida que aumenta
el nivel de confianza tambin lo hace la longitud del intervalo
propiedad 2. para un nivel de confianza y una varianza dadas cuando
el tamao de la muestra aumenta la longitud del intervalo disminuye.
4.2. ESTIMACIN DE LA MEDIA, DE LA DIFERENCIA DE MEDIAS, DE LA
PROPORCIN Y DE LA DIFERENCIA DE PROPORCIONES.
En inferencia estadstica se llama estimacin al conjunto de tcnicas que permiten dar
un valor aproximado de un parmetro de una poblacin a partir de los datos
proporcionados por una muestra. Por ejemplo, una estimacin de la media de una
determinada caracterstica de una poblacin de tamao N podra ser la media de esa
misma caracterstica para una muestra de tamao n.
[1]
La estimacin se divide en tres grandes bloques, cada uno de los cuales tiene distintos
mtodos que se usan en funcin de las caractersticas y propsitos del estudio:
Estimacin puntual:
[2]
Mtodo de los momentos;
Mtodo de la mxima verosimilitud;
Mtodo de los mnimos cuadrados;
Estimacin por intervalos.
Estimacin bayesiana.
Un estimador de un parmetro poblacional es una funcin de los datos muestrales, tambin llamado
estadstico.
En pocas palabras, es una frmula que depende de los valores obtenidos de una muestra, para
realizar estimaciones.
Formalmente, si es un parmetro poblacional, se dice que es un estimador puntual de si ,
donde x
1
,x
2
,...,x
n
son las variables aleatorias que integran una muestra aleatoria de tamao n
de la poblacin en cuestin.
Por ejemplo, un estimador de la media poblacional, , puede ser la media muestral,
segn la siguiente frmula:
donde (x
1
, x
2
, ..., x
n
) sera el conjunto de de datos de la muestra. -- xXx ---
El estimador es una variable aleatoria que asigna a cada posible valor de la muestra un valor numrico.
Como tal, t iene sentido calcular su esperanza, su varianza y otras caractersticas propias de las
variables aleatorias.
Estimador insesgado
Por supuesto, cualquier funcin de la muestra, con la definicin anterior, podra ser un estimador,
pero es deseable que las estimaciones que surjan a partir de un estimador "se parezcan",
en cierto modo, al parmetro que se desea estimar.
Con este propsito, se dice que un estimador de un parmetro es insesgado si
su esperanza es el propio .
Estimador eficiente
Un estimador de un parmetro es eficiente si su varianza es mnima. Esto hace que haya
menos variabilidad entre las distintas estimaciones que podemos obtener (cada muestra
dar una estimacin diferente). De esta forma, la estimacin ser ms fiable. Hay una cota
mnima dentro de las varianzas que se puede obtener para cualquier estimador con un
sesgo determinado. Esta cota se llama cota de Cramr-Rao. Si la varianza de un estimador
es igual a esta cota, sabremos que su varianza es mnima, y por tanto, estaremos seguros
de que es eficiente. Sin embargo, no siempre esta cota es alcanzable, por lo que no
siempre podremos saber si el estimador que hemos utilizado es el ms eficiente de todos.
Para ello, cuando dudamos entre dos estimadores diferentes, y ninguno de ellos tiene una
varianza igual a la cota de Cramr-Rao se utiliza el coeficiente de eficiencia relativa.
[
Estimacin puntual
Consiste en la estimacin del valor del parmetro mediante un slo valor,
obtenido de una frmula determinada. Por ejemplo, si se pretende estimar la
talla media de un determinado grupo de individuos, puede extraerse una
muestra y ofrecer como estimacin puntual la talla media de los individuos.
Lo ms importante de un estimador, es que sea un estimador eficiente.
Es decir, que sea insesgado(ausencia de sesgos) y estable en el muestreo o
eficiente (varianza mnima)
Estimacin por intervalos
Consiste en la obtencin de un intervalo dentro del cual estar el valor del
parmetro estimado con una cierta probabilidad. En la estimacin por
intervalos se usan los siguientes conceptos:
Intervalo de confianza
El intervalo de confianza es una expresin del tipo [
1
,
2
]
1
2
,
donde es el parmetro a estimar. Este intervalo contiene al parmetro
estimado con una determinada certeza o nivel de confianza. Pero a veces
puede cambiar este intervalo cuando la muestra no garantiza un axioma o
un equivalente circustancial.
Variabilidad del Parmetro
Si no se conoce, puede obtenerse una aproximacin en los datos aportados
por la literatura cientfica o en un estudio piloto. Tambin hay mtodos para
calcular el tamao de la muestra que prescinden de este aspecto.
Habitualmente se usa como medida de esta variabilidad la desviacin tpica
poblacional y se denota .
4.3. DETERMINACIN DEL TAMAO DE LA MUESTRA.
Qu tan grande debe ser una muestra si la media muestral se va a usar para estimar
la media poblacional?. La respuesta depende del error estndar de la media, si este
fuera cero, entonces se necesitara una sola media que ser igual necesariamente a la
media poblacional desconocida , porque = 0. Este caso extremo no se encuentra en
la prctica, pero refuerza el hecho de que mientras menor sea el error estndar de la
media, menor es el tamao de muestra necesario para lograr un cierto grado de precisin.
Se estableci antes que una forma de disminuir el error de estimacin es aumentar el
tamao de la muestra, si ste incluye el total de la poblacin, entonces sera igual
a cero. Con esto en mente, parece razonable que para un nivel de confianza fijo,
sea posible determinar un tamao de la muestra tal que el error de estimacin sea
tan pequeo como queramos, para ser mas preciso, dado un nivel de confianza y
un error fijo de estimacin , se puede escoger un tamao de muestra n tal que
P( ) = Nivel de confianza. Con el propsito de determinar n.
El error mximo de estimacin esta dado por:
Si se eleva al cuadrado ambos lados de esta ecuacin y se despeja n de la ecuacin
resultante, obtenemos:
Como n debe de ser un nmero entero, redondeamos hacia arriba todos los
resultados fraccionarios.
En el caso de que se tenga una poblacin finita y un muestreo sin reemplazo, el error
de estimacin se convierte en
De nuevo se eleva al cuadrado ambos lados y se despeja la n, obteniendo:
Ejemplos:
1.Un bilogo quiere estimar el peso promedio de los ciervos cazados en el estado de
Maryland. Un estudio anterior de diez ciervos cazados mostr que la desviacin
estndar de sus pesos es de 12.2 libras. Qu tan grande debe ser una muestra
para que el bilogo tenga el 95% de confianza de que el error de estimacin es a lo
ms de 4 libras?
Solucin:
En consecuencia, si el tamao de la muestra es 36, se puede tener un 95% de
confianza en que difiere en menos de 4 libras de
La experiencia sobre el comportamiento de algn ndice de un proceso, o la exigencia
del cumplimiento de alguna norma nos lleva a realizar proposiciones sobre el valor de
algn parmetro estadstico.
Estas proposiciones se deben contrastar con la realidad (mediante el muestreo de
datos) para tomar una decisin entre aceptar o rechazar la proposicin
Estas proposiciones se denominan Hiptesis y el procedimiento para decidir si se
aceptan o se rechazan se denomina Prueba de Hiptesis
UMSNH -
FIE
La experiencia sobre el comportamiento de algn ndice de un proceso,
o la exigencia del cumplimiento de alguna norma nos lleva a realizar
proposiciones sobre el valor de algn parmetro estadstico.
Estas proposiciones se deben contrastar con la realidad (mediante el
muestreo de datos) para tomar una decisin entre aceptar o rechazar
la proposicin
Estas proposiciones se denominan Hiptesis y el procedimiento para
decidir si se aceptan o se rechazan se denomina Prueba de Hiptesis
Una prueba de hiptesis es una herramienta de anlisis de datos que
puede en general formar parte de un experimento comparativo ms
completo
UMSNH -
FIE
Una hiptesis Estadstica es un proposicin sobre los parmetros de una
poblacin o sobre la distribucin de probabilidad de una variable
aleatoria
Ejemplo: Se tiene inters en la rapidez de combustin de un
agente propulsor para los sistemas de salida de emergencia en
aeronaves. (esta rapidez es una variable aleatoria con alguna
distribucin de probabilidad). Especialmente interesa la rapidez
de combustin promedio (que es un parmetro () de dicha
distribucin). De manera ms especfica, interesa decidir si esta
rapidez promedio es o no 50 cm/seg.
El planteamiento formal de la situacin se realiza en trminos de
una Hiptesis Nula (que es la proposicin que se quiere poner a
prueba) y una Hiptesis Alternativa, la cual se aceptar si se
rechaza la hiptesis nula:
Hiptesis Nula: H
0
: = 50 cm/seg
Hiptesis Alternativa: H
1
: = 50 cm/seg
En el ejemplo se tiene una Hiptesis Alternativa Bilateral, ya
que se verifica para valores de a ambos lados de 50 cm/seg.
UMSNH -
FIE
En ocasiones interesa una Hiptesis Alternativa Unilateral, Por ejemplo:
H
0
: = 50 cm/seg H
0
: = 50 cm/seg
H
1
: < 50 cm/seg H
1
: > 50 cm/seg
De donde puede surgir una Hiptesis Nula sobre un parmetro?
Cul sera el inters dependiendo del origen de la hiptesis?
1) Origen: Experiencia, pruebas pasadas o conocimiento del
proceso. Inters: averiguar si ha cambiado el parmetro
2) Origen: Alguna teora o modelo sobre el funcionamiento del
proceso. Inters: Verificar la valids de dicha teora
3) Origen: Especificaciones de diseo, obligaciones
contractuales, normas a cumplir o solicitudes del cliente.
Inters: probar el cumplimiento o incumplimiento de las
especificaciones.
La verdad o falsedad de la hiptesis NO puede conocerse con total
seguridad a menos que pueda examinarse toda la poblacin
UMSNH -
FIE
Procedimiento General para la prueba de una hiptesis
Tomar un muestra aleatoria
Calcular un estadstico basado en la muestra
Usar el estadstico y sus propiedades para tomar una decisin sobre la
Hiptesis Nula
UMSNH -
FIE
Ejemplo: Consideremos el ejemplo anterior de la rapidez de combustin.
Aqu se tena: H
0
: = 50 cm/seg
H
1
: = 50 cm/seg
Aceptacin de H
0
.- Un valor de la media muestral x muy cercano a 50
cm/seg es una evidencia que apoya a la hiptesis nula, sin embargo es
necesario introducir un criterio para decidir que tanto es muy cercano,
para el ejemplo este criterio pudiera ser: 48.5 s x s 51.5, si esto ocurre se
acepta H
0
De lo contrario, es decir, si x < 48.5 o x >51.5, se acepta H
1
_
_
_ _
48.5 50 51.5
Regin Crtica Regin de aceptacin Regin
Crtica
Se acepta H
1
Se acepta H
0
Se acepta H
1
= 50 = 50 = 50
Valores Crticos
UMSNH -
FIE
El procedimiento anterior puede llevarnos a una de dos conclusiones
errneas:
Error Tipo I.- Se rechaza H
0
cuando sta es verdadera
En el ejemplo se cometer un error de tipo I cuando =50, pero x para
la muestra considerada cae en la regin crtica
Y se cometer un error de tipo II cuando = 50 pero x para la muestra
considerada cae en la regin de aceptacin
Error Tipo II.- Se acepta H
0
cuando sta es falsa
_
_
Condicin real
Decisin
H
0
verdadera H
0
falsa
Rechazar H
0
Error Tipo I ok
Aceptar H
0
ok Error Tipo II
UMSNH -
FIE
A la probabilidad de cometer un error de Tipo I se denota por o, y se le
llama el nivel o tamao de significancia de la prueba es decir
o = P(error Tipo I)= P(rechazar H
0
| H
0
es verdadera)
Ejemplo: Calcular o para el ejemplo de la rapidez de
combustin para una muestra de N=10 datos, suponiendo que
la desviacin estndar de la rapidez de combustin es o=2.5
cm/seg. _
o = normcdf(48.5,50,0.79) + (1-normcdf(51.5,50,0.79))
= 0.288+ 0.288 = 0.0576
Esto significa que el 5.76% de las muestras de tamao 10
conducirn al rechazo de la Hiptesis H
0
: =50 cm/seg,
cuando sta es verdadera.
Solucin: en este caso o = P( x caiga en la regin crtica | =50),
es decir:
o = P( x < 48.5) + P( x > 51.5)
Recordando que La distribucin de x es Normal con media =50
y desviacin estndar o/\N =0.79, por lo tanto, usando Matlab:
_ _
_
UMSNH -
FIE
Es claro que o se puede reducir de dos maneras:
- Aumentando la regin de aceptacin
- Aumentando el tamao de la muestra
Ejemplo: recalcular o del ejemplo anterior para a) los nuevos
lmites de la regin de aceptacin 48 y 52. b) Para N=16 con los
lmites originales c) con ambas modificaciones
Solucin:
a) o = normcdf(48,50,0.79) + (1-normcdf(52,50,0.79)) =
0.0114
b) o = normcdf(48.5,50,0.625)+(1-normcdf(51.5,50,0.625)) =
0.0164
c) o = normcdf(48,50,0.625)+(1-normcdf(52,50,0.625)) = 0.0014
UMSNH -
FIE
Para evaluar un experimento de prueba de hiptesis tambin se
requiere calcular la probabilidad del error de Tipo II, denotada por |, es
decir
| = P(error Tipo II) = P(aceptar H
0
| H
0
es falsa)
Sin embargo, no es posible calcular | si no se tiene una hiptesis
alternativa especfica, es decir, un valor particular del parmetro bajo
prueba en lugar de un rango de valores
Por ejemplo, supongamos que es importante rechazar H
0
si la rapidez
promedio de combustin es mayor que 52 cm/seg o menor que 48
cm/seg. Dada la simetra slo se requiere evaluar la probabilidad de
aceptar H
0
: =50 cuando el valor verdadero es =52.
UMSNH -
FIE
45 46 47 48 49 50 51 52 53 54 55
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
H0:
=50
H1:
=52
Usando Matlab:
| = normcdf(51.5,52,0.79) - normcdf(48.5,52,0.79) = 0.2643
De acuerdo a la figura: | = P(48.5 s x s 51.5 | =52)
_
UMSNH -
FIE
Usando Matlab:
| = normcdf(51.5,50.5,0.79) - normcdf(48.5,50.5,0.79) = 0.8923
La probabilidad de obtener un error de tipo II aumenta muy rpido a
medida que el valor verdadero tiende al valor hipottico, por
ejemplo, si suponemos que =50.5, y recalculamos |, obtenemos
| tambin depende del tamao de la muestra, por ejemplo, si N=16
obtenemos en el ejemplo cuando =52: o=0.625, por lo tanto
| = normcdf(51.5,52,0.625) - normcdf(48.5,52,0.625) = 0.2119
Es decir, | disminuye cuando N aumenta, excepto si el valor real de
est muy cerca del hipottico
UMSNH -
FIE
Es por eso que el rechazo de H
0
siempre se considera como una
Conclusin Fuerte. (los datos aportan fuerte evidencia de que H
0
es
falsa)
Como uno puede elegir los valores crticos del intervalo de aceptacin
uno controla el valor de o. Uno puede entonces controlar la
probabilidad de rechazar de manera errnea H
0
.
La decisin de aceptar H
0
se considera una Conclusin Dbil, a menos
que se sepa que | es considerablemente pequeo.
Por esto en lugar de decir se acepta H
0
se prefiere decir incapaz de
rechazar H
0
, es decir, no se ha encontrado evidencia suficiente para
rechazar H
0
. O sea, no quiere decir que exista gran evidencia de que H
0
sea cierta sino que no hay gran evidencia de que sea falsa.
UMSNH -
FIE
H
0
: =50 cm/seg
H
1
: <50 cm/seg
En el ejemplo supongamos que si la rapidez media de combustin es
menor que 50 cm/seg se desea demostrar esto con una conslusin
fuerte. cmo deben plantearse las hiptesis?
Ntese que aunque H
0
est planteada como una igualdad, se sobre-
entiende que incluye cualquier valor de no especificado por H
1
, es
decir, la incapacidad de rechazar H
0
no significa que =50, sino que no
se tiene evidencia fuerte que apoye a H
1
, es decir, pudiera ser que
=50 o que >50
UMSNH -
FIE
Ejemplo: Un embotellador de refresco desea estar seguro de que las
botellas que usa tienen en promedio un valor que supera el mnimo de
prsin de estallamiento de 200 psi. El embotellador puede formular
una prueba de hiptesis de dos maneras:
Con el planteamiento (1) Como el rechazo de H
0
es una conclusin
fuerte, esto obliga al fabricante a demostrar (aportar evidencia) de que
las botellas soportan mayor presin que 200 psi
H
0
: =200 psi H
0
: =200 psi
H
1
: >200 psi H
1
: <200 psi
(1) (2)
Con el planteamiento (2) si se rechaza H
0
se concluye que las botellas
no soportan los 200 psi, es decir, se concluye que las botellas son
satisfactorias a menos que halla evidencia fuerte en sentido contrario
cul planteamiento es el correcto?
UMSNH -
FIE
Es decir, en la Hiptesis alternativa se debe
poner la proposicin sobre la cual es
importante llegar a una conclusin fuerte:
H
0
: =200 psi H
0
: =200 psi
H
1
: >200 psi H
1
: <200 psi
(1) (2)
UMSNH -
FIE
Antes de Examinar los datos muestrales:
1. Identificar el parmetro de inters
2. Establecer la Hiptesis Nula H
0
3. Especificar una Hiptesis alternativa adecuada H
1
4. Seleccionar un nivel de significancia o
Usando los datos muestrales:
5. Establecer un estadstico de prueba adecuado
6. Establecer una regin de rechazo
7. Calcular todas las cantidades muestrales necesarias para el
estadstico
8. Decidir si debe o no rechazarse H
0
UMSNH -
FIE
Si se desea probar la Hiptesis:
H
0
: =
0
H
1
: s
0
Se puede usar el estadstico de prueba Z siguiente
El cual tiene una distribucin Normal con media cero y varianza 1 (si se
cumplen las suposiciones del teorema del lmite central)
N /
X
Z
0
__
=
UMSNH -
FIE
Entonces, para una o dada podemos establecer las siguientes regiones
de aceptacin y crtica:
-z
o/2
z
o/2
Z
o/2 o/2
Regin de aceptacin regin crtica regin crtica
Conclusiones:
Rechazar H
0
si: z < -z
o/2
o z > z
o/2
No rechazar H
0
si: - z
o/2
s z s z
o/2
UMSNH -
FIE
Ejemplo: Se ilustrarn los 8 pasos del procedimiento general para el
ejemplo del combustible slido para sistemas de escape de aeronaves.
En este caso se conoce o=2 cm/seg, se desea probar si la media es de
50 cm/seg. Se selecciona una muestra aleatoria de tamao N=25,
obteniendo x=51.3 cm/seg. Se especifica un nivel de sginificancia o=0.05
A qu conclusiones se debe llegar?
1) El parmetro de inters es (rapidez promedio de combustin)
2) H
0
: = 50 cm/seg
3) H
1
: = 50 cm/seg
4) o = 0.05
_
UMSNH -
FIE
5) La estadstica de prueba es
6) Rechazar H
0
si z>1.96 o si z<-1.96 (consecuencia del paso 4)
7) clculos
8) Conclusin como z = 3.25 > 1.96, se rechaza H
0
: = 50 cm/seg con un
nivel de significancia o = 0.05
8) Es decir, Se concluye que en base a una muestra de 25 mediciones la
rapidez promedio de combustin es diferente de 50 cm/seg, de
hecho, existe evidencia fuerte de que sta es mayor.
N /
X
Z
0
__
=
25 . 3
25 2/
50 3 . 51
Z =
=
UMSNH -
FIE
Una manera de notificar los resultados de una prueba de hiptesis es
establecer si la hiptesis nula fue o no rechazada con un nivel
especificado o de significancia
Una alternativa es especificar el nivel de significancia o ms pequeo
que conduce al rechazo de la hiptesis nula. A este se le llama el Valor
P
Este valor P slo depende de la muestra tomada, es decir, para una
muestra y un estadstico calculado se puede obtener su valor P y
comparar con un o especificado. Entonces, si P<o, H
0
se rechaza.
UMSNH -
FIE
En el caso de la distribucin normal para la pureba sobre la media es
fcil calcular el valor P. Si z
0
fue el valor calculado del estadstico de
prueba, entonces:
Donde u(z) = P(Zsz) (Funcin de distribucin normal N(0,1))
Para el ejemplo z
0
= 3.25, entonces P=2(1-u(3.25))=0.0012. Es decir, H
0
ser rechazada con cualquier nivel de significancia o > 0.0012
P =
2 [ 1- u(|z
0
|) ] Prueba de dos colas: H
0
:=
0
, H
1
: =
0
1- u(z
0
) Prueba de cola superior: H
0
:=
0
, H
1
: >
0
u(z
0
) Prueba de cola inferior: H
0
:=
0
, H
1
: <
0
Si se usa el enfoque del valor P el paso 6 del procedimiento general de
prueba de hiptesis ya no es necesario.
UMSNH -
FIE
Consideremos la hiptesis bilateral H
0
:=
0
, H
1
: =
0.
Si H
0
es falsa y la media verdadera es =
0
+ o (con o>0). El estadstico
de prueba
se puede escribir como
Es decir, Si H
1
es verdadera Z tiene distribucin Normal con media
y varianza 1.
Por lo tanto, el error Tipo 1 (|) se puede calcular como
N /
X
Z
0
__
N
N /
) (
X
Z
0
__
+
+
=
N
|
|
.
|
\
|
+ ~
N
z
/2
Y si definimos | = u(-z
|
), obtenemos
) z (z
N
/2
+
~
UMSNH -
FIE
Para el ejemplo del combustible slido. Si al analista le interesa disear la
prueba de hiptesis de manera que si el valor verdadero de es 51
cm/seg se rechace H
0
con una probabilidad alta (por ejemplo 90%) y
con el mismo valor anterior de o=0.05
En este caso o=1, o=2, o=0.05 por lo tanto, mediante Matlab:
N= 4*(norminv(0.025) + norminv(0.1))^2 ~ 42
Observacin: Debe tenerse cuidado cuando se interpretan los
resultados basados en una muestra muy grande, ya que es muy
probable que se detecte cualquier alejamiento (muy pequeo)
respecto al valor hipottico
o
. Esta diferencia podra no tener ninguna
importancia prctica pero conducir al rechazo de H
0
UMSNH -
FIE
Se tienen dos poblaciones de inters. La primera con media
1
y
varianza o
1
2
conocidas y la segunda con media
2
y varianza o
2
2
conocidas. Interesa saber si las dos medias son iguales. Se plantean las
hiptesis H
0
:
1
=
2
H
1
:
1
=
2
Por lo tanto el siguiente estadstico de prueba
Es N(0,1) si H
0
es verdadera.
Por lo tanto se rechazar H
0
si z
0
>z
o/2
o z<z
-o/2
Suposiciones: Las dos poblaciones son normales o se cumplen las
condiciones del teorema del lmite central. Entonces el estadstico X
1
-X
2
es una variable Normal con media
1
-
2
y varianza o
1
2
/N
1
+ o
2
2/
/N
2
_ _
2
2
2
1
2
1
2
___
1
___
N
X X
Z
+
=
UMSNH -
FIE
Ejemplo: Un diseador quiere reducir el tiempo de secado de una
pintura. Se prueban dos frmulas de pintura. La frmula 1 es la normal y
la frmula 2 posee un ingrediente secante que se espera reduzca el
tiempo de secado. Se sabe que el tiempo de secado tiene una
desviacin estndar de 8 min y que sta no se afecta con la adicin del
nuevo ingrediente. Se pintan 10 especmenes con la frmula 1, y 10 con
la frmula 2, obtenindose tiempos promedio de secado de x
1
=121 min,
y x
2
=112 min. respectivamente. A qu conclusin se llega sobre la
eficacia del nuevo ingrediente utilizando o=0.05.?
1) Cantidad de inters:
1
-
2
2) H
0
:
1
=
2
3) H
1
:
1
>
2
(se busca evidencia fuerte que indique que el tiempo de
secado promedio de la muestra 2 es menor)
_
_
UMSNH -
FIE
4) o=0.05
5) El estadstico de prueba es
6) H
0
se rechazar si z>z
0.05
= 1.645
7) Sustituyendo los datos, obtenemos z=(121-112)/(12.8)
1/2
=2.52
8) Conclusin: Puesto que z = 2.52 > 1.645 se rechaza H
0
con un nivel
de significancia o=0.05 concluyndose el nuevo ingrediente s
disminuye el tiempo de secado.
Alternativamente puede calcularse un valor P =1-u(2.52) = 0.0059, es
decir, se rechazar H
0
para cualquier nivel de significancia o>0.0059
2
2
2
1
2
1
2
___
1
___
N
/ )
X X
( Z + =
UMSNH -
FIE
En el ejemplo anterior se supone que fueron asignados de manera
aleatoria 10 especmenes a una frmula (tratamiento) y 10 especmenes
a la otra luego se aplic la pintura en un orden aleatorio a cada
especmen hasta pintar los 20. Este es un Experimento Completamente
Aleatorizado.
En un estudio estadstico sobre la incidencia del cncer pulmonar entre
personas que fuman normalmente se hace un seguimiento en el tiempo
de los individuos a prueba. Este es un Experimento Observacional
En este caso no se puede asignar de manera aleatoria un tratamiento u
otro (fumar o no fumar) a una porcin de los individuos. Por otro lado, el
hbito de fumar no es el nico factor que influye en el desarrollo de
cncer pulmonar.
UMSNH -
FIE
Si la poblacin tiene una distribucin Normal con media y varianza o
2
desconocidas pudiera utilizarse el estadstico S
2
y el procedimiento
descrito anteriormente para varianza conocida (esto es vlido para N
grande), pero si la muestra es pequea, tendremos que usar el
estadstico siguiente,
el cual tiene una distribucin t con N-1 grados de libertad,
As, para la prueba de Hiptesis bilateral
H
0
: =
0
H
1
: =
0
Se rechazar H
0
si t>t
o/2,N-1
o si t<t
-o/2,N-1
N S/
X
T
0
__
=
UMSNH -
FIE
Ejercicio: Los siguientes son datos de pruebas de resistencia a la
adhesin, los siguientes datos presentan la carga (en Mpa) a la cual 22
especmenes fallaron
Sugieren los datos que la carga promedio de falla es mayor que
10Mpa? Supngase que la carga de falla tiene una distribucin Normal
y utilice o=0.05. Desarrolle los 8 pasos del procedimiento general y
encuentre un valor P para la prueba.
19.8 18.5 17.6 16.7 15.8 15.4
14.1 13.6 11.9 11.4 11.4 8.8
7.5 15.4 15.4 19.5 14.9 12.7
11.9 11.4 10.1 7.9
UMSNH -
FIE
El valor P es el ms pequeo nivel de significancia para el que H
0
debe
rechazarse, esto es el rea de la cola (de la curva de densidad de
probabilidad) que est ms all del valor del estadstico (en este caso t).
o el doble de esta rea en pruebas bilaterales.
Seleccin del Tamao de la Muestra
En todas las pruebas de hiptesis estadsticas se puede calcular el
tamao de la muestra (N) adecuada en funcin de la magnitud del
error de tipo I que se permite. En cada tipo de prueba se encuentran
frmulas diferentes para N.
UMSNH -
FIE
En forma similar a como se describi el caso de la media y la diferencia
de medias, se pueden realizar diferentes pruebas de hiptesis para estos
mismos u otros parmetros, lo nico que cambia en cada caso es:
- Las suposiciones sobre la distribucin de la poblacin
- El estadstico elegido y por consiguiente
- La distribucin del estadstico.
En la siguiente tabla se resumen algunas de las pruebas de hiptesis ms
utilizadas
UMSNH -
FIE
Prueba sobre Hiptesis Nula Suposiciones
Estadstico
de Prueba
La media
=
0
o
2
conocida Normal
=
0
o
2
desconocida T
Igualdad de
medias
1
=
2
o
1
2
= o
2
2
conocidas Normal
1
=
2
o
1
2
= o
2
2
desconocidas T
1
=
2
o
1
2
= o
2
2
conocidas T
La varianza
o
2
= o
0
2
dist. Normal, N pequea Ji
2
o
2
= o
0
2
N grande Normal
Igualdad de dos
varianzas
o
1
2
= o
2
2
F
Una proporcin p = p
0
Normal
Igualdad de dos
proporciones
p
1
= p
2
Normal
UMSNH -
FIE
Las pruebas de hiptesis anteriores se llaman paramtricas porque
suponen conocida la distribucin de la poblacin y la hiptesis es
acerca de los parmetros de dicha distribucin.
Otra clase de hiptesis es: No se sabe cual es la distribucin de la
poblacin y se desea probar la hiptesis de que cierta distribucin en
particular ser un modelo satisfactorio. Por ejemplo, tal vez se requiera
probar si la distribucin es Normal
Hiptesis bilateral
Una prueba de cualquier hiptesis, tal
como:
H
0
: =
0
H
1
:
0
recibe el nombre de prueba bilateral.
Hiptesis unilateral.
Muchos problemas de prueba de hiptesis
involucran de manera natural hiptesis
alternativas unilaterales, tales como:
H
0
: =
0
H
1
: >
0
O bien:
H
0
: =
0
H
1
: <
0
Si la hiptesis alternativa es H
1
: >
0
, la
regin crtica debe encontrase en la
cola superior de la distribucin del
estadstico de prueba.
Si la hiptesis alternativa es H
1
: <
0
, la
regin crtica debe encontrarse en la
cola inferior de la distribucin.
Si el objetivo es hacer una afirmacin
donde aparezcan proposiciones tales
como mayor que, menor que,
superior a, excede a, al menos y
otras similares, entonces la alternativa
unilateral es la ms apropiada.
4.4.2. PRUEBAS PARA MEDIA Y PARA DIFERENCIA DE MEDIAS.
Prueba para diferencia de medias, muestras grandes y
pequeas
En algunos diseos de investigacin, el plan muestral requiere
seleccionar dos muestras independientes, calcular las medias
muestrales y usar la diferencia de las dos medias para estimar o probar
una diferencia entre dos medias poblacionales.
Por ejemplo si dos empresas en Tabasco que ofrecen servicios de
encuestas y anlisis estadstico indica que la calificacin promedio que
le asigna la poblacin al gobierno es de 6 y la otra empresa dice que es
de 5.5; podemos notar que hay una diferencia estarn bien tomadas
las muestras de las dos empresas? Si creemos que si la hiptesis nula
ser que la diferencia entre las dos medias poblacionales es igual a
cero ya que estamos hablando de la misma poblacin.
El estadstico Z para estos casos se calcula de la siguiente
manera:
( 1 2 ) ( 1 2 )
2 2
1 2
1 2
z =
n n
x x
s s
+
Donde:
x1 Promedio de la muestra 1
x2 Promedio de la muestra 2
1 Media de la poblacin 1
2 Media de la poblacin 2
s1 Varianza de la poblacin 1
s 2 Varianza de la poblacin 2
1 n Nmero de elementos de la muestra 1
2 n Nmero de elementos de la muestra 2
muestras pequeas (es decir, menor a 30 elementos) en cambio si no se
conocen las varianzas poblacionales se pueden aproximar con las
varianzas muestrales; pero en dicho caso no es posible usar muestras
pequeas, solo para estudios de 30 o ms elementos muestreados.
Aunque el tema en el plan de estudios abarca muestras grandes y
pequeas, dado que las varianzas poblacionales raramente se conocen
en estudios sociales y polticos, este tema solo desarrollar mediante
ejemplos las aplicaciones para muestras grandes con varianzas
poblacionales desconocidas; solo conoceremos las varianzas
muestrales.
Solo se insiste en que el procedimiento para muestras pequeas
(menores a 30 elementos) es exactamente el mismo pero debe
conocerse la varianza poblacional.
Ejemplo 1. Una muestra de 87 mujeres trabajadoras profesionales
mostr que la cantidad promedio que pagan a un fondo de pensin
privado es de $3,352 con una desviacin estndar muestral de $1,100.
Una muestra de 76 hombres trabajadores profesionales muestra que la
cantidad que paga a un fondo de pensin privado es de $5,727 con una
desviacin estndar de $1,700. Un grupo activista de mujeres desea
demostrar que las mujeres no pagan tanto como los hombres en fondos
de pensin privados. Si se usa alfa = 0.01 Se confirma lo que el grupo
activista de mujeres desea demostrar o no?
4.4.3. Pruebas para proporcin y diferencia
de proporciones
Prueba para diferencia de proporciones
En algunos diseos de investigacin, el plan muestral requiere
seleccionar dos muestras independientes, calcular las proporciones
muestrales y usar la diferencia de las dos proporciones para estimar o
probar una diferencia entre las mismas.
Las aplicaciones son similares a la diferencia de medias, por ejemplo si
dos empresas consultoras ofrecen datos de proporciones de personas
que van a votar por el PRI y al hacer dos estudios diferentes salen
resultados ligeramente diferentes pero qu tanta diferencia se requiere
para que sea estadsticamente significativo? De eso se tratan las
pruebas estadsticas de diferencias de proporciones.
El estadstico Z para estos casos se calcula de la siguiente manera:
( ) ( )
( )
1 2 1 2
1 2
1 1 2 2
1 2
p -p p -p
z =
1 1
p q
n n
Donde:
n p n p
p
n n
q = 1 - p
+
+
=
+
1 p = proporcin de la muestra 1.
2 p = proporcin de la muestra 2.
1 p = proporcin de la poblacin 1.
2 p = proporcin de la poblacin 2.
1 n = tamao de la muestra 1.
2 n = tamao de la muestra 2.
Ejemplo 1. Una muestra de 87 mujeres trabajadoras profesionales
mostr que la cantidad promedio que pagan a un fondo de pensin
privado el 5% de su sueldo. Una muestra de 76 hombres trabajadores
profesionales muestra que la cantidad que paga a un fondo de pensin
privado es el 6.1% de su sueldo. Un grupo activista de mujeres desea
demostrar que las mujeres no pagan tanto como los hombres en fondos
de pensin privados. Si se usa alfa = 0.01 Se confirma lo que el grupo
activista de mujeres desea demostrar o no?
4.5. MUESTRAS PEQUEAS
En probabilidad y estadstica, la distribucin-t o distribucin t de Student es una
distribucin de probabilidad que surge del problema de estimar la media de una
poblacin normalmente distribuida cuando el tamao de la muestra es pequeo. sta es
la base del popular test de la t de Student para la determinacin de las diferencias entre
dos medias muestrales y para la construccin del intervalo de confianza para la
diferencia entre las medias de dos poblaciones. La distribucin t surge, en la mayora de
los estudios estadsticos prcticos, cuando la desviacin tpica de una poblacin se
desconoce y debe ser estimada a partir de los datos de una muestra
Supongamos que //A// es tal que {teoria_pequena_muestras
donde// T// sigue una distribucin t con n 1 grados de libertad (lo que equivale a
{teoria_pequena_muestras
por lo que //A// es el punto que determina el 95% de la probabilidad de la distribucin).
Entonces
{teoria_pequena_muestras
y esto es equivalente a
{teoria_pequena_muestras
Por lo tanto, el intervalo cuyos extremos son
{teoria_pequena_muestras
es un intervalo para al 90% de confianza. As, si encontramos que la media de un
conjunto de observaciones puede razonablemente seguir una distribucin normal,
podemos usar la distribucin t para examinar si los lmites del intervalo incluyen algn
valor predecible (tal como el valor predicho en una hiptesis nula.
Es este resultado el que se utiliza en el test de Student: puesto que la diferencia de las
medias de muestras de dos distribuciones normales se distribuye tambin normalmente,
la distribucin t puede usarse para examinar si esa diferencia puede razonablemente
suponerse igual a cero.
Supngase que se toma una muestra de una poblacin normal con media y varianza
. Si es el promedio de las n observaciones que contiene la muestra aleatoria, entonces
la distribucin
es una distribucin normal estndar. Supngase que la varianza de
la poblacin
es desconocida. Qu sucede con la distribucin de esta estadstica si se reemplaza por
La distribucin t proporciona la respuesta a esta pregunta.
La media y la varianza de la distribucin t son = 0 y para >2, respectivamente.
La siguiente figura presenta la grfica de varias distribuciones t. La apariencia general de la distribucin t es similar a
la de la distribucin normal estndar: ambas son simtricas y unimodales, y el valor mximo de la ordenada se
alcanza en la media = 0. Sin embargo, la distribucin t tiene colas ms amplias que la normal; esto es, la
probabilidad de las colas es mayor que en la distribucin normal.
A medida que el nmero de grados de libertad tiende a infinito, la forma lmite de la distribucin t es la distribucin
normal estndar.
Propiedades de las distribuciones t
1.Cada curva t tiene forma de campana con centro en 0.
2.Cada curva t, est ms dispersa que la curva normal estndar z.
3.A medida que aumenta, la dispersin de la curva t correspondiente disminuye.
4.A medida que , la secuencia de curvas t se aproxima a la curva normal estndar,
5.por lo que la curva z recibe a veces el nombre de curva t con gl =
La distribucin de la variable aleatoria t est dada por:
Esta se conoce como la distribucin t con grados de libertad.
Sean X
1
, X
2
, . . . , X
n
variables aleatorias independientes que son todas normales
con media y desviacin estndar . Entonces la variable aleatoria tiene una
distribucin t con = n-1 grados de libertad.
La distribucin de probabilidad de t se public por primera vez en 1908 en un artculo
de W. S. Gosset. En esa poca, Gosset era empleado de una cervecera irlandesa
que desaprobaba la publicacin de investigaciones de sus empleados. Para evadir
esta prohibicin, public su trabajo en secreto bajo el nombre de "Student".
En consecuencia, la distribucin t normalmente se llama distribucin t de Student,
o simplemente distribucin t. Para derivar la ecuacin de esta distribucin, Gosset
supone que las muestras se seleccionan de una poblacin normal. Aunque esto
parecera una suposicin muy restrictiva, se puede mostrar que las poblaciones no
normales que poseen distribuciones en forma casi de campana an proporcionan
valores de t que se aproximan muy de cerca a la distribucin t.
La distribucin t difiere de la de Z en que la varianza de t depende del tamao de la
muestra y siempre es mayor a uno. Unicamente cuando el tamao de la muestra
tiende a infinito las dos distribuciones sern las mismas.
UMSNH -
FIE
La aproximacin mejora a medida que N es ms grande
La hiptesis debe rechazarse si el valor del estadstico de prueba es
_
2
> _
2
1-o,k-p-1
Precaucin: Si las frecuencias esperadas son muy pequeas el
estadstico _
2
no reflejar el alejamiento entre lo observado y lo
esperado. (Se considera que valores menores de 5 son pequeos)
Si en una prueba resultan frecuencias esperadas pequeas, se pueden
combinar intervalos de clase adyascentes para aumentar estos valores,
ya que no es necesario que los anchos de clase sean del mismo tamao
UMSNH -
FIE
Ejemplo 1.- Un algoritmo para generar enteros pseudoealeatorios de 0 a
9 se prueba para determinar si tiene una distribucin uniforme, para ello
se generan 1000 nmeros, obteniendo la siguiente tabla de frecuencia.
Existe evidencia de que el generador funciona de manera correcta?.
Utilice o=0.05
Como E
i
se puede calcular sin estimar ningn parmetro a partir de la
muestra, entonces p=0 y el estadstico ser ji
2
con k-p-1=10-0-1=9 grados
de libertad.
0 1 2 3 4 5 6 7 8 9
O
i
94 93 112 101 104 95 100 99 108 94
E
i
100 100 100 100 100 100 100 100 100 100
4.5.2. DISTRIBUCIN DE JI-CUADRADA. CUADROS
DE CONTINGENCIA, LIMITACIONES DE LA
PRUEBA.
UMSNH -
FIE
1) Variable de inters: distribucin de los nmeros pseudoaleatorios
2) H
0
: La distribucin es uniforme en el intervalo de 0 a 9
3) H1: La distribucin No es uniforme en ese intervalo
4) o = 0.05
5) El estadstico de prueba es
6) Se rechazar H
0
si _
2
> _
2
0.05,9
=16.92
7) Clculos
_
2
= 0.01*( (94-100)
2
+(93-100)
2
+...+(94-100)
2
)=3.72
8) Conclusiones: como 3.72 < 16.92 No es posible rechazar la hiptesis.
Por lo tanto parece ser que el generador de nmeros aleatorios
trabaja bien.
Cual es el valor P de la prueba ?
=
k
1 i i
2
i i
2
E
) E (O
UMSNH -
FIE
Ejemplo 2.- Se propone que el nmero de defectos en tarjetas de
circuito impreso sigue una distribucin de Poisson. Se obtiene una
muestra de 60 tarjetas y se observa el nmero de defectos, con los
siguientes resultados:
defectos 0 1 2 3 4 o ms
O
i
32 15 9 4 0
Distribucin de Poisson. Es una distribucin discreta cuya funcin de
probabilidad es
Definida para x=0,1,2,3,.... Donde es la media de X
x!
e
f(x)
x -
=
UMSNH -
FIE
Clculo de las frecuencias Esperadas E
i
:
Un estimador para la media de la distribucin de Poisson es la media
muestral, es decir, (32x0+15x1+9x2+4x3)/60=0.75 fallas/tarjeta. Usando
este valor de m obtenemos la siguiente tabla de frecuencias esperadas:
x 0 1 2 3 4 o ms
F(x) 0.472 0.354 0.133 0.033 0.0073
E
i
28.32 21.24 7.98 1.98 0.44
Para evitar que las ltimas dos frecuencias esperadas sean menores que
5 combinamos las ltimas tres celdas para obtener:
x 0 1 2 o ms
E
i
28.32 21.24 10.44
O
i
32 15 13
UMSNH -
FIE
1) Variable de inters: La forma de distribucin de los defectos en
tarjetas de circuito impreso
2) H
0
: La distribucin es de Poisson
3) H1: La distribucin No es Poisson
4) o = 0.05
5) El estadstico de prueba es , el cual tiene una
distribucin _
2
con k-p-1=3-1-1=1 grado de libertad
6) Se rechazar H
0
si _
2
> _
2
0.05,1
=3.84
7) Clculos
_
2
= (94-100)
2
/28.32+(93-100)
2
/21.24+(94-100)
2
/10.44 = 2.94
8) Conclusiones: como 2.94 < 3.84. No es posible rechazar la hiptesis.
Por lo tanto parece ser que la distribucin de defectos en las placas
de circuito impreso es Poisson
El valor P de la prueba es P=0.9861
=
k
1 i i
2
i i
2
E
) E (O
UMSNH -
FIE
Ejemplo 3.- Se desea determinar con o=0.05 si el voltaje de salida de una
fuente de alimentacin est descrito por una distribucin Normal. Se
toma una muestra aleatoria de N=100 fuentes, determinndose los
siguientes valores muestrales x = 5.04, s = 0.08.
Para evitar valores de frecuencias esperadas muy pequeos, de
antemano se elige el ancho de los intervalos de clase de manera que la
frecuencia esperada sea constante F
i
= N / k.
As, si k=8 clases, se buscarn 8 intervalos de clase que dividan la curva
de densidad normal en 8 reas iguales, como se muestra en la siguiente
figura para media 0 y varianza 1.
UMSNH -
FIE
Para la distribucin N(0,1) los lmites de los 8 intervalos son
, -1.15, -0.675, -0.32, 0, 0.32, 0.675, 1.15,+,
por lo tanto para el ejemplo, los lmites son
, 4.948, 4.986, 5.014, 5.040, 5.066, 5.094, 5.132,+
Con esta eleccin se obtiene la siguiente tabla de frecuencias para la
muestra
-4 -3 -2 -1 0 1 2 3 4
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
Intervalo de Clase O
i
E
i
De a 4.948
De 4.948 a 4.986
De 4.986 a 5.014
De 5.014 a 5.040
De 5.040 a 5.066
De 5.066 a 5.094
De 5.094 a 5.132
De 5.132 a +
12
14
12
13
12
11
12
14
12.5
12.5
12.5
12.5
12.5
12.5
12.5
12.5
Suma: 100 100
Intervalo de Clase O
i
E
i
De a 4.948
De 4.948 a 4.986
De 4.986 a 5.014
De 5.014 a 5.040
De 5.040 a 5.066
De 5.066 a 5.094
De 5.094 a 5.132
De 5.132 a +
12
14
12
13
12
11
12
14
12.5
12.5
12.5
12.5
12.5
12.5
12.5
12.5
Suma: 100 100
Objetivos
Despues de completar este mdulo,, es estudiante podr:
1.- Entender como las Decisiones Comerciales dependen del
conocimiento de las relaciones entre diferentes variables.
2.- Dibujar un Diagrama de Dispersin (Scatter Diagram).
3.- Entender e interpretar los conceptos de Variable
Dependiente e Independiente..
4.- Intender e interpretar los conceptos de intercepto y
pendiente (tasa de cambio).
5.- Calcular la ecuacin de la Linea de Regresin, usando el
Mtodo de los Cuadrados Mnimos. (Least-Squares Method).
Propsito: determinar la Ecuacin de la
Linea de Regresin;
Y = a + bX
Es usado para predecir el valor de la
variable Dependiente (Y) basado en los
valores de la Variable Independiente (X).
b
n XY X Y
n X X
a
Y
n
b
X
n
=
=
( ) ( )( )
( ) ( )
E E E
E E
E E
2 2
BADM4300-Prof. Pierre J. Devaris-Octubre2006
Procedimiento:
1. Seleccionar una Muestra de la
Poblacin a ser estudiada y organizarla
en pares de valores;
2. dibujar un Diagrama de Dispersin
(Scatter Diagram)para visualizar la
posible relacin entre las variables;
3. determinar la Ecuacin de la Linea de
Regresin, usando el Mtodo de los
Cuadrados Mnimos.
4. Evaluar la Ecuacin.
5. Hacer las Proyecciones a partir de la
Ecuacin.
BADM4300-Prof. Pierre J. Devaris-Octubre2006
Saddam Laden, presidente del Consejo
de estudiantes de la Universidad Fear
For All, est preocupada por los altos
precios de los libros de texto. Para
entender mejor la situacin, selecciona
al azar una muestra de 8 libros de la
librera. Decide estudiar la relacin entre
el nmero de pginas en los textos y los
costos de los mismos.
BADM4300-Prof. Pierre J. Devaris-Octubre2006
Anlisis de Correlacin : Un grupo de tcnicas
estadsticas usado para medir el grado de
relacin entre 2 variables.
Diagram de Dispersin (Scatter Diagram) : Una
grfica que muestra la relacin entre las 2
variables de inters.
Variable Dependiente (Y) : La variable que
queremos estimar o predecir.
Variable Independiente (X) : La variable que
se usa para hacer la prediccin o estimacin.
Libro Pginas Costo ($)
1 500 84
2 700 75
3 800 99
4 600 72
5 400 69
6 500 81
7 600 63
8 800 93
BADM4300-Prof. Pierre J. Devaris-Octubre2006
El Coeficiente de Correlacin (r) es una
medida del grado de la relacin entre
dos (2) variables.
Vara de -1.00 a +1.00.
Valores de -1.00 +1.00 indican una perfecta y
fuerte correlacin.
Valores cerca de 0.0 indican una debil
correlacin.
Valores negativos indican una relacin inversa y
valores positivos indican una relacin directa.
El Coeficiente de Determinacin, r
2
la
proporcin de las variaciones totales en
la variable dependiente Y que es
explicada (no causada) o atribuida a las
variaciones en la variable
independiente X.
El coeficiente de determinacin es el
cuadrado coeficiente de correlacin, y
vara de 0 a 1.00.
Desarrolle una ecuacin de regresin
usando los datos dados en el ejemplo
#1, para estimar el precio de venta
basado en el nmero de pginas.
Mtodo de Cuadrados Mnimos:,
b=.01714 and a=16.00175
Y =16.00175 + .01714X
El Error Estndar del Estimado mide la
dispersin o variabilidad de los datos
alrededor de la linea de regresin
Las frmulas usadas para calcular el
Error Estndar son:
S
Y Y
n
Y a Y b XY
n
Y X
=
E
E E E
( ' )
( ) ( )
2
2
2
2
5.1. REGRESIN LINEAL SIMPLE, CURVILNEA Y
MLTIPLE.
REGRESIN.-
Se define como un procedimiento mediante el cual se trata de determinar si existe o
no relacin de dependencia entre dos o ms variables. Es decir, conociendo los
valores de una variable independiente, se trata de estimar los valores, de una o ms
variables dependientes.
La regresin en forma grafica, trata de lograr que una dispersin de las frecuencias
sea ajustada a una lnea recta o curva.
Clases de Regresin
La regresin puede ser Lineal y Curvilnea o no lineal, ambos tipos de regresin
pueden ser a su vez:
Esta regresin se utiliza con mayor frecuencia en las ciencias econmicas, y sus
disciplinas tecnolgicas. Cualquier funcin no lineal, es linealizada para su estudio y
efectos prcticos en las ciencias econmicas, modelos no lineales y lineales
multiecuacionales.
Objetivo: Se utiliza la regresin lineal simple para:
1.- Determinar la relacin de dependencia que tiene una variable respecto a otra.
2.- Ajustar la distribucin de frecuencias de una lnea, es decir, determinar la forma
de la lnea de regresin.
3.- Predecir un dato desconocido de una variable partiendo de los datos conocidos
de otra variable.
Por ejemplo: Podra ser una regresin de tipo lineal:
En una empresa de servicio de Internet busca relacionar las ganancias que obtiene
cada computadora con el numero de usuarios que ingresan a dicha cabina
diariamente. En la tabla representa Y (Ganancias S/.) e X (Numero de usuarios)
5.1. REGRESIN LINEAL SIMPLE, CURVILNEA Y MLTIPLE.
Regresin lineal simple. Tiene como objeto estudiar cmo los cambios en una
variable, no aleatoria, afectan a una variable aleatoria, en el caso de existir una
relacin funcional entre ambas variables que puede ser establecida por una expresin
lineal, es decir, su representacin grfica es una lnea recta. Cuando la relacin lineal
concierne al valor medio o esperado de la variable aleatoria, estamos ante un modelo
de regresin lineal simple. La respuesta aleatoria al valor x de la variable controlada
se designa por Y
x
y, segn lo establecido, se tendr
De manera equivalente, otra formulacin del modelo
de regresin lineal simple sera: si x
i
es un valor de la variable predictora e Y
i
la variable respuesta
que le corresponde, entonces
E
i
es el error o desviacin aleatoria de Y
i
.
Regresin lineal simple (RLS)
La regresin lineal es una tcnica estadstica para modelar e investigar la relacin
entre dos o ms variables. Tiene aplicacin en la industria para investigar la relacin
entre el rendimiento de la produccin y uno o ms factores del (o de los) que depende,
como la temperatura, la humedad ambiental, la presin, la cantidad de insumos, etc;
con base en este anlisis se puede pronosticar el comportamiento de una variable
que se desea estimar. Si el ingeniero industrial logra determinar cmo se relacionan
las variables conocidas de un proceso con el comportamiento futuro de otra variable
de inters, podr colaborar favorablemente y en gran medida al proceso de toma de
decisiones.
Los anlisis de regresin y correlacin nos permiten determinar tanto la naturaleza
como la fuerza de una relacin entre dos variables; de esta forma, se puede
pronosticar, con cierta precisin, el valor de una variable desconocida basndonos
en observaciones anteriores de sa y otras variables. Pero este aspecto, el de la
prediccin ser motivo de estudio en la seccin 1.4.
El modelo de regresin lineal simple es: Yi =0 + 1X + i
Donde Yi es la i-sima observacin de la variable dependiente (la que queremos
estimar), X es el correspondiente valor de la variable independiente o explicatorio,
0 y 1 son los parmetros (valores desconocidos que se suponen con valores fijos)
del modelo y i es la variable aleatoria de error.
Otros aspectos que deben considerarse: historia de cmo surge la tcnica de la
regresin, Galton y los datos de estaturas de padres e hijos, lo que al principio
se denominaba regresin hoy se conoce como correlacin. El concepto de regresin
ha quedado exclusivamente para el caso en que se consideran variables
dependientes e independientes.
Cuando la variable dependiente est en funcin de dos o ms regresores se
tiene el modelo de regresin mltiple (RLM):
Yi =0 + 1xi 1 + 2xi 2 + + qxi q + i .
Usando lgebra de matrices puede estimarse el vector de
parmetros _ = 0 1 2 . . . q t con _ = (xx)1xty
5.2 CORRELACION
En probabilidad y estadstica, la correlacin indica la fuerza y la direccin de una
relacin lineal entre dos variables aleatorias. Se considera que dos variables
cuantitativas estn correlacionadas cuando los valores de una de ellas varan
sistemticamente con respecto a los valores homnimos de la otra: si tenemos dos
variables (A y B) existe correlacin si al aumentar los valores de A lo hacen tambin los
de B y viceversa. La correlacin entre dos variables no implica, por s misma, ninguna
relacin de causalidad (Vase Cum hoc ergo propter hoc).
Fuerza, sentido y forma de la correlacin
La relacin entre dos super variables cuantitativas queda representada mediante la
lnea de mejor ajuste, trazada a partir de la nube de puntos. Los principales
componentes elementales de una lnea de ajuste y, por lo tanto, de una correlacin,
son la fuerza, el sentido y la forma:
La fuerza extrema segun el caso, mide el grado en que la lnea representa a la nube
de puntos: si la nube es estrecha y alargada, se representa por una lnea recta, lo que
indica que la relacin es fuerte; si la nube de puntos tiene una tendencia elptica o
circular, la relacin es dbil.
El sentido mide la variacin de los valores de B con respecto a A: si al crecer los valores
de A lo hacen los de B, la relacin es positiva; si al crecer los valores de A disminuyen los
de B, la relacin es negativa.
La forma establece el tipo de lnea que define el mejor ajuste: la lnea rectal, la curva
monotnica o la curva no monotnica.
Coeficientes de correlacin
Existen diversos coeficientes que miden el grado de correlacin, adaptados a la
naturaleza de los datos. El ms conocido es el coeficiente de correlacin de Pearson
(introducido en realidad por Francis Galton), que se obtiene dividiendo la covarianza
de dos variables por el producto de sus desviaciones estndar. Otros coeficientes son:
Coeficiente de correlacin de Spearman
Correlacin cannica
[Coeficiente de Correlacin Intraclase]
5.3. REGRESIN Y CORRELACIN PARA DATOS AGRUPADOS.
Y' = a + b1X1 + b2X2
Ecuacin de regresin Mltiple.- La forma general de la ecuacin de regresin
mltiple con dos variables independientes es:
X1,X2 : Variables Independientes
a : es la ordenada del punto de interseccin con el eje Y.
b1 : Coeficiente de Regresin (es la variacin neta en Y por cada unidad de
variacin en X1.).
b2 : Coeficiente de Regresin (es el cambio neto en Y para cada cambio
unitario en X2).
Prueba Global.- esta prueba investiga bsicamente si es posible que todas las
variables independientes tengan coeficientes de regresin neta iguales a 0.
Marco Terico
A fin de facilitar la comprensin del presente trabajo definiremos algunos conceptos
basicos.
Anlisis de Correlacin .- Es el conjunto de tcnicas estadsticas empleado para medir
la intensidad de la asociacin entre dos variables.
El principal objetivo del anlisis de correlacin consiste en determinar que tan intensa
es la relacin entre dos variables. Normalmente, el primer paso es mostrar los datos en
un diagrama de dispersin.
Diagrama de Dispersin.- es aquel grafico que representa la relacin entre dos
variables.
Variable Dependiente.- es la variable que se predice o calcula. Cuya
representacin es "Y"
Variable Independiente.- es la variable que proporciona las bases para el calculo.
Cuya representacin es: X1,X2,X3.......
Coeficiente de Correlacin.- Describe la intensidad de la relacin entre dos
conjuntos de variables de nivel de intervalo. Es la medida de la intensidad de la
relacin lineal entre dos variables.
El valor del coeficiente de correlacin puede tomar valores desde menos uno hasta
uno, indicando que mientras ms cercano a uno sea el valor del coeficiente de
correlacin, en cualquier direccin, ms fuerte ser la asociacin lineal entre las dos
variables. Mientras ms cercano a cero sea el coeficiente de correlacin indicar
que ms dbil es la asociacin entre ambas variables. Si es igual a cero se concluir
que no existe relacin lineal alguna entre ambas variables.
Anlisis de regresin.- Es la tcnica empleada para desarrollar la ecuacin y dar las
estimaciones.
Ecuacin de Regresin.- es una ecuacin que define la relacin lineal entre dos
variables.
Ecuacin de regresin Lineal: Y = a + Bx
Ecuacin de regresin Lineal Mltiple: Y = a + b1X1 + b2X2 + b3X3...
Principio de Mnimos Cuadrados.- Es la tcnica empleada para obtener la ecuacin
de regresin, minimizando la suma de los cuadrados de las distancias verticales
entre los valores verdaderos de "Y" y los valores pronosticados "Y".
Anlisis de regresin y Correlacin Mltiple.- consiste en estimar una variable
dependiente, utilizando dos o ms variables independientes.
5.4. CORRELACIN POR RANGOS
Este coeficiente es una medida de asociacin lineal que utiliza los
rangos, nmeros de orden, de cada grupo de sujetos y compara
dichos rangos. Existen dos mtodos para calcular el coeficiente de
correlacin de los rangos uno sealado por Spearman y otro por
Kendall 8. El r de Spearman llamado tambin rho de Spearman es ms
fcil de calcular que el de Kendall. El coeficiente de correlacin de
Spearman es exactamente el mismo que el coeficiente de correlacin
de Pearson calculado sobre el rango de observaciones. En definitiva
la correlacin estimada entre X e Y se halla calculado el coeficiente
de correlacin de Pearson para el conjunto de rangos apareados. El
coeficiente de correlacin de Spearman es recomendable utilizarlo
cuando los datos presentan valores externos ya que dichos valores
afectan mucho el coeficiente de correlacin de Pearson, o ante
distribuciones no normales.
El clculo del coeficiente viene dado por:
En donde di = rxi ryi es la diferencia entre los rangos de X e Y. Los
valores de los rangos se colocan segn el orden numrico de los datos
de la variable.
Coeficiente de Correlacin. El coeficiente de correlacin ms utilizado es el de Pearson,
este es un ndice estadstico que mide la relacin lineal entre dos variables cuantitativas, es
una forma de medir la intensidad de la relacin lineal entre dos variables. El valor del
coeficiente de correlacin puede tomar valores desde menos uno hasta uno, 1 < r < 1,
indicando que mientras ms cercano a uno sea el valor del coeficiente de correlacin, en
cualquier direccin, ms fuerte ser la asociacin lineal entre las dos variables. El
coeficiente de correlacin de clculo r es un estimador muestral del coeficiente
poblacional Rho, .
Mientras ms cercano a cero sea el coeficiente de correlacin, este indicar que ms
dbil es la asociacin entre ambas variables. Si es igual a cero se concluir que no existe
relacin lineal alguna entre ambas variables. Hay varias maneras de equivalentes de
calcular r, a continuacin se muestran tres formas. Coeficiente Correlacin Frmula por
Covarianzas y Desviaciones Tpicas
Siendo: SXY la covarianza de (X,Y) y SX, SY las desviaciones tpicas de las distribuciones
de las variables independiente y dependiente respectivamente. Coeficiente Correlacin
Frmula Clsica. Poco usada para clculo.
Coeficiente Correlacin, Frmula por suma de cuadrados. Se usa cuando se dispone de
calculadoras de mano que hacen sumatorias y no correlacin.
5.5. COEFICIENTE DE CORRELACIN PARA DATOS NOMINALES.