You are on page 1of 37

http://www.conocimientosweb.net/dcmt/ficha702.html http://ntic.educacion.es/w3//eos/MaterialesEducativos/mem2001/estadistica/index2.

htm

INTRODUCCIN

Hasta ahora, hemos estudiado estadstica descriptiva, una serie de procedimientos y tcnicas, que permitan un conocimiento descriptivo de las caractersticas bsicas de una poblacin. Pero en general, no podremos casi nunca tratar con poblaciones al completo. Ya sea porque la poblacin a estudiar es muy grande, ya sea por motivos econmicos, de falta de personal cualificado, o para una mayor rapidez en la recogida y presentacin de los datos, lo que se suele hacer es obtener los datos, de tan slo una muestra de la poblacin. No podemos estudiar todos los coches que salen de una cadena de produccin para determinar su calidad, ni es posible ensayar un medicamento en todas las personas, ni podemos costearnos preguntar a todos los espaoles sobre una cuestin cualquiera (salvo en referendums, votaciones, o en el censo, siendo estos los pocos casos en que un estudio comprende a toda la poblacin).

En consecuencia, deberemos contentarnos con utilizar muestras, que sean capaces de revelarnos algo acerca de la poblacin de las que han sido extradas. De la forma de elegirlas, y las condiciones que han de verificar, hablaremos en el siguiente epgrafe. La Estadstica inferencial se ocupa de extender o extrapolar a toda una poblacin, informaciones obtenidos de una muestra, as como de la toma de decisiones.

Observa desde muy de cerca la imgen de la derecha. Observar esa imgen de esta manera, es equivalente a tomar una muestra de una poblacin. En principio solo tienes en tu mente un conjunto de datos, que no te dicen nada. Sin embargo, si te alejas unos 5 metros y observas de nuevo la imgen, empezars a extraer ms informacin, y posiblemente adivines que representa esta imgen ( puedes ver la imgen original haciendo clic sobre ella) . Habrs hecho una inferencia de los datos muestrales, para tener una imgen del conjunto. Esta es en resumidas cuentas el objeto de las tcnicas que se describen en este curso: Obtener muestras e inferir datos sobre la poblacin

As por ejemplo, cuando se pretende conocer de antemano los resultados de unas elecciones, se suelen hacer encuestas sobre intencin de voto, a una muestra de ciudadanos. Se trata en este caso, de extrapolar para toda la poblacin, los resultados derivados de la encuesta. La Estadstica Inferencial nos ayuda en este caso, aunque siempre existir una probabilidad de equivocarse, y un margen de error en los resultados obtenidos. En otros casos, lo que se pretende es tomar decisiones, ya sea a partir de la estimacin o de la contrastacin de un test, y aqu tambin la estadstica inferencial nos lo permite, siempre con un margen controlado de error. En los prximos epgrafes iremos desgranando todos estos aspectos.

TEORA DE MUESTRAS

Como ya hemos dicho, nuestro objetivo va a ser a partir de ahora, el tratamiento estadstico de muestras.

Pero bajo que condiciones, resulta apropiada una muestra?.Existen una serie de factores que inciden en la respuesta de esta pregunta, y que resultan fundamentales en estadstica inferencial. Una primera cuestin, es el tamao que ha de tener. Parece evidente, que a mayor tamao, ms se acercaran los parmetros que calculemos, a los de la poblacin ( y es cierto siempre que se tenga en cuenta la representatividad de la muestra, que es un aspecto que desarrollaremos ahora). En la prctica real, el nmero de elementos de una muestra est determinado por una serie de factores: grado de fiabilidad deseado, dificultad en la eleccin de los elementos que la compongan, tiempo necesario para la eleccin, gastos originados,... La segunda y ms importante cuestin es cmo deben ser elegidos los elementos que la compongan?. Para ser vlidas,las muestras han de ser representativas, esto es, si queremos inferir de los resultados de una muestra, en ella se ha de reproducir en igual porcentaje el carcter estudiado, que en la poblacin total. Por tanto, ser necesario, que en el momento de la eleccin de los elementos de la muestra, verifiquemos que todos los elementos de la poblacin tiene igual probabilidad de ser elegidos para la muestra. Cuando no se tienen en cuenta estos dos principios bsicos, las inferencias realizadas son deficientes. Existe una variedad de "mentiras estadsticas", procedentes de afirmaciones basadas en pequeas muestras , o en muestras no representativas. As por ejemplo,si se dice "7 de cada 10 dentistas consultados recomiendan el dentfrico X", no debemos inferir que el 70% de los dentistas los recomiendan, hasta saber de que forma fueron elegidos los dentistas consultados,y cuntos fueron en total. Las consideraciones referentes al tamao de la muestra, se estudiarn ms adelante. Las referentes a la forma de elegir la muestra, sern estudiadas ahora.

TIPOS DE MUESTREOS Existen bsicamente dos tipos de muestreo, los aleatorios y los no aleatorios. En los primeros, el aspecto principal, es que todos los miembros de la muestra han sido elegidos al azar, de forma que cada miembro de la poblacin tuvo igual oportunidad de salir en la muestra. Este tipo de muestreo, que es el ms consistente, es al mismo tiempo el que resulta ms costoso, y el que utilizaremos siempre en el desarrollo de los prximos epgrafes. Los centros oficiales como el INE, utilizan siempre muestreos aleatorios. Los segundos, carecen del grado de representatividad de los primeros, pero permiten un gran ahorro en los costes. Se eligen los elementos, en funcin de que sean representativos, segn la opinin del investigador. Es el mtodo que utilizan generalmente las empresas privadas, y presenta el inconveniente de que la precisin de los resultados no es muy grandes, y es difcil medir el error de muestreo.

MUESTREOS ALEATORIOS SIMPLE Su utilizacin es muy sencilla, una vez que todos los elementos de la poblacin han sido identificados y numerados ( y ste es probablemente su mayor inconveniente ). A partir de aqu, decidido el tamao n de la muestra, los elementos que la compongan se han de elegir aleatoriamente entre los N de la poblacin. El mtodo ms adecuado para la eleccin en nuestro caso, es la utilizacin de tablas de nmeros aleatorios. Si queremos elegir una muestra formada por 40 elementos de una poblacin de 600, iremos tomando cifras aleatorias de tres en tres. Si la cifra considerada es menor de 600, ya tendremos elegido un elemento de la muestra. Siguiendo este proceso, y saltndonos las cifras superiores a 600, podremos elegir todos los elementos que compondrn la muestra.

SISTEMTICO Es anlogo al anterior, aunque resulta ms cmoda la eleccin de los elementos. Si hemos de elegir 40 elementos de un grupo de 600, se comienza por calcular el cociente 600/40 que nos dice que existen 40 grupos de 15 elementos entre los 600. Se elige un elemento de salida entre los 15 primeros, y suponiendo que sea el k-simo, el resto de los elementos sern los k-simos de cada grupo. En concreto, si el elemento de partida es el nmero 6, los restantes sern los que tengan los nmeros: 15+6 ,2x15+6,......,39x15+6 Este procedimiento simplifica enormemente la eleccin de elementos, pero puede dar al traste con la representatividad de la muestra, cuando los elementos se hayan numerados por algn criterio concreto, y los k-simos tienen todos una determinada caracterstica, que haga conformarse una muestra no representativa.

ESTRATIFICADO A veces nos interesa, cuando las poblaciones son muy grandes, dividir stas en subpoblaciones o estratos, sin elementos comunes, y que cubran toda la poblacin. Una vez hecho esto podemos elegir, por muestreo aleatorio simple, de cada estrato, un nmero de elementos igual o proporcional al tamao del estrato. Este procedimiento tiene la gran ventaja de que se puede obtener una mayor precisin en poblaciones no homogneas (aunque en este curso no estudiaremos los mtodos necesarios) Si decidiramos hacer una encuesta sobre la incidencia del tabaco en nuestro centro, podramos razonar de la siguiente forma:

Nuestro centro tiene 2000 alumnos, 720 en 3 de ESO, 700 en 4 de ESO, 340 en 1 de Bachillerato, y 240 en 2 de Bachillerato. Si deseamos tomar una muestra de 100 alumnos, para analizar la incidencia del tabaco en la adolescencia, bastara tomar un nmero igual de alumnos de cada estrato, es decir 25. Si embargo, si lo que se quiere es hacer una encuesta para conocer la opinin que tiene el alumnado sobre una medida que ha tomado el Consejo Escolar, es ms representativo elegir de cada estrato, y en nmero proporcional a su tamao, los elementos que compondrn la muestra. Si 3 de ESO representa al 36% del alumnado, el 36% de la muestra (es decir 36 alumnos) se elegirn de este estrato por muestreo aleatorio simple, 35 para 4 de ESO, y as hasta completar los 100 elementos de la muestra.

POR CONGLOMERADOS A veces, para simplificar los procesos de toma de datos, se empieza por elegir ciertos conglomerados (que pueden ser bloques de viviendas, municipios, urnas electorales,...) y dentro de ellos se realiza el muestreo aleatorio.

ACTIVIDADES 1.-Encuentra en un peridico o revista, un artculo o informacin en la que a tu juicio se est haciendo uso de una muestra. 2.-Utilizando una tabla de nmeros aleatorios, elige 15 elementos de una poblacin numerada del 1 al 89. 3.- D de que forma elegiras una muestra de 50 alumnos de tu instituto, por muestreo aleatorio simple, sistemtico y estratificado (cada estrato una clase, o un nivel). 4.- Establece un mtodo para elegir una muestra de vecinos de una calle. 5.- De los 500 directores de complejos tursticos de nuestras Islas, 300 corresponden a complejos de 20 o menos habitaciones, 150 a complejos de entre 20 y 50 habitaciones y por ltimo 50 corresponden a complejos de ms de 50 habitaciones 6. Si pretendieras hacer una encuesta a una muestra de tamao 50, cmo la tomaras?, sera indiferente el aspecto estadstico que tuvieras que estudiar? 6.- Un hospital dispone de un listado de los pacientes, organizados por reas de atencin (neurologa, traumatologa,....). D que tipos de muestreo podran realizarse, y como los haras.

7.- Para realizar una encuesta sobre el consumo de un producto en una ciudad, se tom una muestra de forma que de cada barrio se consultaba a un nmero de personas proporcional a la superficie ocupada por el barrio. Te parece un mtodo fiable?. Escribe un comentario. 8.- Un mayorista de alimentos, quiere enviar muestras de sus productos, a una muestra de supermercados. Elige de las 5 grandes cadenas de supermercados , una muestra de cada, y manda sus productos para ponerlos a prueba. Qu tipo de muestreo est utilizando?

Aunque hemos descrito los ms importantes mtodos de muestreo aleatorio, en lo que sigue supondremos siempre que el muestreo utilizado es el aleatorio simple.

TOMA DE DATOS: LA ENCUESTA Una vez decidido el tamao y la forma de elegir la muestra, aparece el problema de cmo realizar la toma de datos. La encuesta es el instrumento idneo para este fn. Se debe establecer en primer lugar el objetivo de la encuesta, desmenuzando el problema a investigar, eliminando lo que resulte superfluo, y centrndonos en los aspectos ms relevantes. A partir de aqu, se elabora un cuestionario, formado por un conjunto de preguntas que han de ser respondidas por los encuestados. De la calidad de ste ltimo depende en gran parte el resultado del trabajo. Existen una serie de factores que se han de tener en cuenta a la hora de redactar el cuestionario, entre los que destacan los siguientes: Las preguntas han de ser pocas (no ms de 30) y cortas. Cerradas ( es decir que aparezcan todas las posibles repuestas ). Si preguntamos a un encuestado si le gustan las matemticas, no podemos dejar que aparezcan respuestas de todo ndole, sino que responda de acuerdo a una escala numrica o de valor. Por ejemplo podemos valorar su gusto de 1 a 5, o bien : Nada, Poco, Normal, Mucho, Muchsimo. Numricas o al menos codificables ( es decir que podamos traducir las respuestas a nmeros, por ejemplo asignando nmeros del 1 al 5 a las respuestas del apartado anterior). Deben ser redactadas de forma concreta y precisa (sin palabras abstractas o ambiguas), de manera que las repuestas puedan ser inequvocas. A partir de aqu, debe ser realizado el "trabajo de campo", es decir las entrevistas previstas, por medio de los encuestadores. Este trabajo tambin ha de hacerse bajo unas ciertas condiciones, que garanticen que las respuestas sean sinceras. Una vez recopilados todos los datos, se procede a tabularlos, y describirlos, utilizando las tcnicas que ya conoces de cursos anteriores.

ACTIVIDADES Confecciona una pequea encuesta encaminada a conocer los gustos de tu clase sobre algn aspecto de tu eleccin, haciendo uso de las tcnicas descritas

TEOREMA CENTRAL DEL LMITE

DISTRIBUCIONES MUESTRALES DE MEDIAS Hemos dicho ya, que el objetivo de nuestro estudio es poder extender a la poblacin lo que obtengamos de una muestra. Imagina que de la poblacin formada por todos los alumnos del instituto, extraes aleatoriamente una muestra de 40 alumnos, y les preguntas por su edad, encontrando que la edad media obtenida es de 15,8 aos . Pero, qu ocurrira, si extrajramos otra muestra?. Coincidiran las medias ?. Y coincidiran con la media de la poblacin?. Lo cierto es que parece lgico pensar que aunque no tengan porqu coincidir, si deberan estar bastante prximas. Pero, cunto de prximas?, dependera esta proximidad del tamao de las muestras que elegimos?. Parece necesario, que estudiemos la variabilidad de las medias obtenidas de las muestras que repetidamente se extraigan. El siguiente resultado, responde claramente a las preguntas planteadas. EL TEOREMA CENTRAL DEL LMITE (TCL) Imagina que tienes una poblacin con media y desviacin tpica . y que extraes aleatoriamente todas las posibles muestras, todas ellas de tamao n. Si obtuvieras las medias de todas estas muestras, y las consideras una distribucin de datos (la distribucin muestral de medias), comprobaras que: a) La media de los datos, es la media de la poblacin , es decir la media de las medias de las muestras, es igual que la media de la poblacin. b) Estas medias se distribuyen alrededor de la media de la poblacin, con una desviacin tpica (llamada desviacin tpica de la media, ) igual a la de la poblacin dividida por la raz de n, es decir, la d.t. de la media es

c) La distribucin de las medias muestrales, es una distribucin de tipo "normal", siempre que la poblacin de procedencia lo sea, o

incluso si no lo es, siempre que el tamao de las muestras sea 30 o mayor. En consecuencia, "si una poblacin tiene media y d.t. , y tomamos muestras de tamao n ( de tamao al menos 30, o cualquier tamao, si la poblacin es "normal"), las medias de estas muestras siguen aproximadamente la distribucin

(1) Adems, cuanto mayor es el valor de n, mejor es la aproximacin "normal". Hemos nombrado un concepto importante: la d.t. de la media , que es el grado de variabilidad de las medias muestrales. Cuanto menor sea, ms ajustadas a la media de la poblacin sern las medias que obtengamos de una muestra. De su propia definicin, es fcil darse cuenta de que cuanto mayor es el tamao de la muestra, menor es este grado de variabilidad, y por tanto ms similar a la media de la poblacin ser la media obtenida de la muestra.
Observa el grfico interactivo. La lnea negra, representa la distribucin de los datos de la poblacin (que en este caso es normal N( , )). La morada, la de las medias muestrales, es decir (1). Puedes cambiar los valores de n, el tamao de la muestra, y d.t., la desviacin tpica de la poblacin y observar como se comportan ambas distribuciones dependiendo de dichos valores.

NOTAS IMPORTANTES Nuestra afirmacin de que la desviacin tpica de la media es

, se hace asumiendo que la poblacin es infinita ( o el muestreo se realiza con reemplazamiento ). En caso contrario, se debe utilizar el "factor de correccin para poblaciones finitas", de forma que la d.t. de la media quedara:

donde N es el tamao de la poblacin y n el de la muestra. En la prctica y como regla general, se usa el coeficiente anterior tan slo cuando el tamao de una muestra es superior al 5% de la poblacin. Nosotros no tendremos en cuenta este factor, pues no se resta profundidad a los conceptos estudiados al tiempo que se simplifica su estudio. Adems estudiaremos tan slo el caso correspondiente a muestras de ms de 30 elementos. llamadas "muestras grandes". Para muestras de menor tamao, se han de utilizar distribuciones distintas de la Normal, y est fuera del alcance de este curso. Habremos de suponer que conocemos la desviacin tpica de la poblacin (s), (aunque resulta improbable conocerla y desconocer la media), o bien al menos la desviacin tpica muestral (s) (tambin llamada cuasivarianza, que resulta ser una buena aproximacin de la desviacin tpica de la poblacin para muestras grandes).

Este ltimo parmetro se define como donde es la media de la muestra. Es decir es la desviacin tpica de la muestra corregida dividiendo por n-1 en lugar de por n . Al hacer esto, el valor de s aumentar. Se trata pues de hacer una sobreestimacin de la desviacin tpica, para compensar el error cometido al tomar una muestra. En las calculadoras que utilizamos se obtiene pulsando .

En trminos mas coloquiales, lo que en definitiva establece el TCL, es que la distribucin de la media, o de las sumas , de diferentes valores da como resultado una distribucin normal. De ah la omnipresente aparicin de distribuciones normales. Piensa en los factores biolgicos y antropomtricos. Por ser el resultado de diferentes combinaciones genticas y suma de muchos diferentes factores, dan como resultados distribuciones normales. Tambin por anlogas razones muchsimos parmetros sociolgicos, econmicos, fsicos,.. siguen distribuciones de este tipo.

EJEMPLO: Una compaa area sabe que el equipaje de sus pasajeros tiene como media 25 kg. con una d.t. de 6 kg. Si uno de sus aviones

transporta a 50 pasajeros, el peso medio de los equipajes de dicho grupo estar en la distribucin muestral de medias

La probabilidad de que el peso medio para estos pasajeros sea superior a 26 kg sera:

Si el avin no debe cargar ms de 1300 kg en sus bodegas, la media del conjunto de los 50 pasajeros no debe superar los

En consecuencia en un 11,9% de los casos los aviones de esta compaa superan el margen de seguridad.

ACTIVIDADES 1.-Sabemos que el tiempo medio de espera en las colas del Banco "El inters interesado" es de 15 min. con una desviacin tpica de 5 minutos. Si tomasemos al azar a un grupo de 35 clientes: a) Cul es la probabilidad de que el tiempo medio de espera del grupo fuera menor de 17 minutos? b) Cul es la probabilidad de que estuviera entre 12 y 16 minutos? c) Entre qu valores se encontrara el tiempo medio con una seguridad del 95%?. Y del 99%?. 2.-En un almacn se trabaja con bultos de igual volmen, cuyo peso se distribuye segn N(250,45) expresados en kg. Los elevadores encargados de su transporte dentro del almacn, pueden aguantar hasta un peso mximo total de 2000 kg. Si la empresa decide que las carretillas se carguen con 7 bultos cada vez: a) Cul es la probabilidad de que se supere el peso mximo de seguridad? b) Cuntos bultos de cada vez haran falta para que dicha probabilidad fuera menor del 0,1%? 3.-En unos grandes almacenes, la media de los salarios es de 105.000 pts, con una d.t. de 25.000 pts. Si preguntaramos a 35 empleados elegidos

aleatoriamente, por su sueldo, Cul es la probabilidad de que la media correspondiente a los 35 fuera inferior a 100.000 pts? 4.- En unas negociaciones sindicales correpondientes al sector turstico, la patronal alega que en un establecimiento tipo de 40 empleados, en el 90% de los casos la suma de los sueldos mensuales pagados superan los 5.000.000 de pts. Los sindicatos disponen de cifras oficiales segn las cuales, en el sector la media de sueldos es de 120.000 pts con una d.t. de 10.000 pts. Pueden rebatir "estadsticamente" lo alegado por la patronal? Los sindicatos te piden redactar un informe ilustrado con cifras que les permita contestar a la patronal.

Hemos estudiado ya el T.C.L., que nos permite conocer de que forman se distribuyen las medias de las muestras de una poblacin. Ahora invertiremos el caso: se selecciona una muestra de una poblacin de la que se desconoce la media, y se calcula la media muestral. A partir de aqu haremos una inferencia sobre la media poblacional, con base en la media muestral. Imaginemos que preguntamos a una muestra de 40 alumnos, por el recorrido en km. que tienen que hacer todos los das para llegar al instituto, y que la media de tal muestra es de 3 km. Las dos preguntas siguientes responden a las dos formas de inferencia que estudiaremos en este curso: 1.- Si nos haban dicho que la media de distancia de todo el instituto era el ao pasado de 3,8 km, es significativamente diferente esta media?, o lo que es lo mismo, podemos decir que la media del instituto ha cambiado este ao, o por el contrario la diferencia de medias es normal y se debe al azar al elegir los elementos de la muestra? Esta pregunta implica una decisin, que podremos tomar a travs de los denominados test de contraste de hiptesis. 2.- Tomando como base la muestra (es decir si suponemos que desconocemos la distancia media), qu estimacin puede hacerse sobre la media poblacional ( es decir la de todo el Instituto) ? Esta pregunta implica una estimacin, que aprenderemos a hacer ahora.

ESTIMACIN

Llamaremos as al procedimiento utilizado cuando se quiere conocer las caractersticas de un parmetro poblacional, a partir del conocimiento de la muestra. Imaginemos que hemos hecho la encuesta a la que se aluda en el apartado anterior, y queremos saber cual es la verdadera media del instituto. Podemos hacer una primera aproximacin, utilizando la media muestral km. Sin embargo , este valor est sesgado debido a que solo representa a una muestra. Podramos decir que la media buscada es prxima a 3, pero cunto de prxima?. Digamos que 200 metros ms o menos?. Esto significara que la media estara entre 2,8 y 3,2. Esto ltimo se denomina estimar por intervalo, y es el mtodo que ahora vamos a ver. INTERVALO DE CONFIANZA Se llama as a un intervalo en el que sabemos que est un parmetro, con un nivel de confianza especfico Si dijramos que la media se encuentra en el intervalo (2,8 , 3,2) con un nivel de confianza del 95%, lo que decimos es que si hiciramos muestras de tamao 40, y furamos contabilizando sus medias, a la larga, en el 95% de los casos, la media calculada estara en dicho intervalo. Adems, al valor 0,2 (200 metros), que mide la mitad de la anchura del intervalo, se le denomina error mximo de la estimacin. Lo anteriormente argumentado se expresa en trminos estadsticos como: "A un nivel de confianza del 95%, la media poblacional es 3 km, con un error mximo de estimacin de km." Por tanto: NIVEL DE CONFIANZA Probabilidad de que el parmetro a estimar se encuentre en el intervalo de confianza. Los valores que se suelen utilizar para el nivel de confianza son el 95%, 99% y 99,9% ERROR DE ESTIMACIN MXIMO Es el radio de anchura del intervalo de confianza. Este valor nos dice en qu margen de la media muestral se encuentra la media poblacional al nivel de confianza asignado. Durante este curso aprenderemos a realizar estimaciones sobre la media y la proporcin de una caracterstica en una poblacin. La estimacin de otros parmetros poblacionales, tales como la desviacin tpica, quedar fuera de nuestro estudio. ESTIMACIN DE LA MEDIA DE UNA POBLACIN

Para estimar la media poblacional por medio de intervalos de confianza, ser necesario recordar que el Teorema Central del Lmite nos daba informacin de como se hallaban distribuidas las medias muestrales: "normalmente" con una media igual a la de la poblacin original (que es la que ahora tratamos de conocer) y desviacin tpica

Supongamos que hemos analizado la muestra ya nombrada de media Km., y que sabemos que la desv. tpica de la poblacin es de =0,4 km., y que nos planteamos estimar la media de todo el instituto, con un nivel de confianza del 95% .El proceso para realizar la estimacin es el siguiente: Sabemos por el T.C.L. que las medias muestrales se distribuyen segn

La siguiente figura nos ilustrar:

Hallamos el valor k de forma que p(-k<Z<k)=0,95 , o lo que es lo mismo p(Z<k)=0,975. Consultando nuestra tabla de la distribucin normal, encontraremos que k=1.96 . Este valor nos dice que la medias muestrales se encuentran en un 95% de los casos como mximo a 1.96 desviaciones tpicas de la media buscada, es decir, nuestra media , en un 95% de los casos, dista de la media poblacional menos de 1,96.0,063=0,124 km. Si tomamos un intervalo con centro en dicha media muestral , y radio 0,124, en un 95% de los casos la media buscada estar dentro del intervalo. Encontramos por tanto que a un nivel de confianza del 95%, la media poblacional es de 3 km. con un error mximo de

o lo que es lo mismo, existe una probabilidad del 95%, de que la media buscada se encuentre en el intervalo de confianza (3-0,124 , 3+0,124) = (2,976 , 3,124 ).

As pues en general para un proceso de estimacin de la media, el intervalo de confianza ser: ( -E, + E)

siendo

la media de la muestra, y

el error de estimacin. Para entender mejor el proceso, observa el grfico interactivo en el que se supone que la verdadera media de la poblacin es =3.1 km. Comenzamos con el valor k=1,96, que corresponde a una confianza del 95%. Luego hallamos el rea roja, que corresponde a las medias muestrales que tienen una probabilidad de aparicin del 95%. Si la media muestral (mm) obtenida es, como en el caso que nos ocupa, , puedes comprobar como el intervalo de confianza contiene a la media de la poblacin. Vara el nivel de confianza, y anota que le ocurre al intervalo de confianza. As mismo, puedes variar el valor de la media muestral, e investigar, qu valores dan lugar a intervalos que no contienen a la media de la poblacin y cul es la probabilidad de ocurrencia de dichos valores.

TAMAO DE LA MUESTRA

Pero imaginemos ahora, que nos disponemos a elegir una muestra para poder determinar con un 95% de confianza la media, con un margen de error de 50 metros. Desde luego har falta una muestra mayor para tener tan poco margen de error Cul deber ser el tamao de la muestra para conseguirlo? . Despejando en

obtenemos que

Como k=1,96 , E=0,05 y =0,4 calculando obtendremos que n=245,8 es decir, redondeando, har falta una muestra correspondiente a 246 estudiantes para que el margen de error sea de tan slo 50 metros. De la expresin del tamao de la muestra, se deduce muy fcilmente, que deber ser mayor cuanto mayor sea: a) El nivel de confianza asignado b) El grado de variabilidad de los datos originales Por el contrario, cuanto mayor sea el tamao de la muestra, menor ser el error de la estimacin. Resultar muy interesante que adems de las siguientes, realices las actividades de la hoja de clculo "Estimacin de la media" ACTIVIDADES 1.- El Ayuntamiento de Las Palmas, para planificar su poltica social, ha hecho en un barrio una encuesta, basada en un muestreo aleatorio a 36 adultos, sobre los ingresos medios mensuales, obtenindose 72800 pts de media y s=12000 pts. Estimar el valor medio de los ingresos en dicho barrio con un intervalo de confianza del 95% y del 99%. 2.- "El Corte Ingls" desea conocer cuanto gastan como media los poseedores de una de sus tarjetas, a lo largo de un mes. Ha diseado un muestra de 1000 clientes, y sabe por experiencia que la desv. tpica poblacional es de 25.000 pts. Si desea tener una confianza del 99% en la estimacin, cul ser el error mximo que cometer? 3.- Se desea establecer , con un nivel de confianza del 95%, el peso medio de las naranjas de un barco que acaba de atracar, de forma que el error no sobrepase los 15 gramos. Si la desviacin tpica (conocida por numerosos casos anteriores) es de 60 g., cuntas naranjas debern ser escogidas al azar para poder establecer dicha media? 4.- Razona que efecto tiene cada uno de los siguientes conceptos sobre el ancho de un intervalo de confianza: a) Nivel de confianza b) Tamao muestral c) Variabilidad de las caractersticas que se miden 5.- Para conocer con un 95% de confianza y un error mximo de 500 pts, se quiere hacer una encuesta a jovenes, sobre sus gastos durante el fn de semana. Cul deber ser el tamao de la muestra? (supngase que s=750 pts) 6.- Una encuesta realizada sobre 40 aviones comerciales, revela que la antigedad media de estos es de 13,41 aos, con una desviacin tpica muestral s=8,28

a) Cul es con un 90% de confianza la antigedad media de toda la flota comercial? b) Si se quisiera obtener un nivel de confianza del 95%, cometiendo el mismo error que en el apartado anterior, y suponiendo tambin s=8,28, cuntos elementos deberan componer la muestra? 7.- Al medir el tiempo de reaccin , un psiclogo estima que la desviacin tpica del mismo es de 0,5 segundos. Cul ser el nmero de medidas que deber hacer para que sea del 99% la confianza de que el error de su estimacin no exceder de 0,1 segundos? (P.A.U. 1996) 8.- En una muestra de 50 jvenes encontramos que la dedicacin media diaria al ocio es de 400 minutos y la desviacin tpica muestral de 63 minutos. Calcular el intervalo de confianza de la media de la poblacin al 95% de nivel de confianza. (P.A.U. 1996). 9.- La duracin de las bombillas fabricadas por una empresa sigue una distribucin normal de media desconocida y desviacin tpica 50 horas. Para estimar la duracin se experimenta con una muestra de tamao n. Calcular el valor de n para que, con un nivel de confianza del 95%, se consiga un error en la estimacin inferior a las 5 horas. (P.A.U. 1996). 10.- Una muestra aleatoria de 60 personas tiene una media de 235 mg/dl (miligramos por decilitro) en medidas de colesterol. Suponiendo que la desviacin tpica de la variable que mide las unidades de colesterol es =28 mg/dl, se pide: a) Calcular el intervalo de confianza , con un nivel de confianza 0'95 para la media de la poblacin. b) Determinar el tamao muestral necesario para reducir el intervalo de confianza anterior a la mitad. (P.A.U. 1996)

ESTIMACIN DE UNA PROPORCIN

INTRODUCCIN

Como recordars, la distribucin binomial B(n,p), nos permite conocer como se distribuye el nmero de xitos, correspondiente a un experimento realizado n veces, y en el que la probabilidad de xito en cada experimento es p. Dicha distribucin tiene media y desviacin tpica:

Supongamos que sea X la variable que mide el nmero de xitos. Ya sabes que los posibles valores de X son 0,1,2,...,n. Si utilizaramos la nueva variable,

sta tomara los valores correspondientes a las proporciones (en tanto por uno) de xito. Si por ejemplo n=200, se tendra: X=0 , (0 xitos ) equivale a Y=0 ( es decir un 0% de xitos) X=1 , (1 xito ) equivale a Y=0,005 ( es decir 0,5% de xitos) X=2 , Y=0,01 ( es decir 2 xitos equivalen a un 1% de xitos) .... X=n , Y=1 ( n xitos = 100% de xitos) Dividiendo por n, obtendremos la media y desviacin tpica de la variable Y que representa la proporcin de xitos:

Si ademsnp>5, nq>5, utilizando la aproximacin normal a la binomial,podremos afirmar que las proporciones de xito para un experimento binomial de n pruebas con probabilidad de xito p en cada prueba, se distribuyen segn:

DISTRIBUCIN MUESTRAL DE PROPORCIONES

Imaginemos que sabemos que la proporcin del alumnado de nuestro centro que es favorable a realizar una huelga es del 60%. Cuando elegimos a un alumno, y nos preguntamos si es favorable a la huelga, es como si realizaramos una prueba binomial con probabilidad de xito p=0,6. Cuando elijamos muestras aleatorias de digamos 70 alumnos, el nmero de ellos favorable a la huelga, deber seguir una distribucin B(70, 06), o bien, la proporcin de ellos que es favorablese debe distribuir segn

( Debe notarse que en este caso, n=70, p=0,6, q=0,4 y por tanto np>5, nq>5), o lo que es lo mismo, las proporciones que vayamos encontrando para muestras de tamao 70, se iran distribuyendo de forma "normal" alrededor del 60%, con una desviaicin tpica del 5,8%. Por tanto, si en una poblacin, una determinada caracterstica de tipo binomial (es decir la poblacin se divide entre los que la tienen y los que no), se presenta en una proporcin p, al tomar muestras de tamao n, las proporciones p' obtenidas, se distribuirn segn

(a partir de este momento supondremos siempre que np>5,nq>5). A esta distribucin se la denomina distribucin muestral de proporciones. Resultar muy interesante que hagas las actividades de la hoja de clculo Distribucin Muestral de Proporciones EJEMPLO: En una empresa est establecido que si una mquina opera correctamente, como mximo un 5% de su produccin es defectuosa. Si se elige aleatoriamente una muestra de 40 artculos producidos por una mquina y 15 de ellos son defectuosos, existe razn para pensar que la mquina est averiada?. Las proporciones muestrales para muestras de tamao 40 en una mquina normal se distribuyen segn

es decir se distribuyen de forma "normal" alrededor del 5% con una d.t. del 3'4%.
,

En consecuencia, la probabilidad de valores como el registrado

resulta ser:

y podemos asegurar "estadsticamente" que la mquina est averiada. Ahora que sabemos como se distribuyen las proporciones muestrales, por un proceso similar al utilizado para estimar la media poblacional, podremos realizar estimaciones sobre la proporcin poblacional de un carcter, conociendo la proporcin en una muestra. ESTIMACIN DE UNA PROPORCIN Imaginemos que hemos tomado una muestra aleatoria de 500 personas, y que les preguntamos si creen que el Presidente del Gobierno debe dimitir, obteniendo el S un 70%. Supongamos que nos planteamos un intervalo de confianza del 90% para poder estimar el porcentaje p de toda la poblacin que dira S Segn todo lo dicho, las proporciones del S en las muestras, se distribuirn segn:

Como quiera que no conocemos la verdadera proporcin p, no podemos conocer la desviacin tpica de la distribucin muestral

por lo que utilizaremos como sustituto para p, la proporcin muestral p'=0,7, que causar poco cambio en los resultados finales. En consecuencia, las proporciones muestrales, siguen la distribucin N(p,0,02) (Nota: puesto que utilizamos tantos por uno, deberemos utilizar en los clculos una precisin de al menos centsimas, mejorando el resultado si precisamos ms)

Llevando a cabo los mismos pasos que en el caso de la estimacin de medias, vemos que un 90% de las proporciones muestrales que se obtengan estarn a como mximo 1,65 desviaciones tpicas de p (es decir a

) , y en consecuencia, si suponemos que p' es una de tales proporciones ( y ser acertado suponerlo en un 90% de los casos ), la verdadera proporcin quedar siempre en el intervalo (p'-0'033 , p'+0'033)=(0'667,0'733). Esto lo podemos expresar como: "Con un nivel de confianza del 90%, la proporcin de espaoles que creen que el Presidente del Gobierno debe dimitir es de un 70%, con un error mximo de 3,3 % " Para entender mejor el proceso, observa el grfico interactivo en el que se supone que la verdadera proporcin es p=0.72 Comenzamos con el valor k=1.65, que corresponde a una confianza del 90%. Luego hallamos el rea roja, que corresponde a las proporciones muestrales que tienen una probabilidad de aparicin del 90%. Si la proporcin muestral (p) obtenida es, como en el caso que nos ocupa, p=0.7 , puedes comprobar como el intervalo de confianza contiene a la verdadera proporcin. Vara el nivel de confianza, y anota que le ocurre al intervalo de confianza. As mismo, puedes variar el valor de la proporcin muestral, e investigar, qu valores dan lugar a intervalos que no contienen a la media de la poblacin y cul es la probabilidad de ocurrencia de

dichos valores.

TAMAO DE LA MUESTRA Como ya sabemos, el error mximo depende del tamao de la muestra: a muestras mayores corresponden errores menores. Normalmente, cuando queremos hacer una estimacin, con un determinado margen de confianza, nos plantearemos que el error mximo tenga un determinado valor. Imaginemos por ejemplo que queremos conocer el porcentaje de alumnos de nuestro centro , que es favorable a hacer la Fuga de San Diego el da 12 de Noviembre (este carcter se considerar como xito) en contraposicin con los que la quieren hacer en otra fecha. Nos marcamos un nivel de confianza del 90%, y queremos que el error mximo no sobrepase el 10%. Puesto que el error mximo es

, el tamao de la muestra habr de ser

Existe un problema: no conocemos p, ni tan siquiera el valor p' de la muestra puesto que an no ha sido realizada la encuesta (a no ser que por anteriores sondeos, pueda tenerse un valor fiable para p). Si se tiene informacin previa sobre el valor de p, puede utilizarse, pero si no, se utilizar inicialmente p=0,5, pues se puede demostrar que para este valor se obtiene el mximo valor del tamao de la muestra ( mirar grafico siguiente) y en consecuencia, quedar asegurado que el error es como mximo del 10% En este caso concreto, tomando E=0,1 , p=0,5 , k=1,65, obtendremos que n=68,08 es el tamao de la muestra que debemos tomar. Aunque el error mximo fijado es del 10%, en la prctica resultar en general ms pequeo, a medida que la verdadera proporcin p se

aleje del valor 0,5. En particular, si en lugar de tomar inicialmente p=0,5 , hubieramos supuesto que p=0,95 , el error mximo que cometeramos utilizando 68 personas en la muestra sera: E= 0,043, es decir un 4,3%. Una vez estimado p, podremos reajustar el margen de error cometido. En la prctica normalmente no dispondremos de informacin previa sobre el valor de p, y deberemos partir de p=0,5 , tal y como vers que se explicita en la ficha tcnica de los estudios que se publican.

El grafico de la izquierda nos permitir analizar numricamente el valor de E.

Observa como vara el error para p=0,5 y para el resto de valores de p y comprueba lo argumentado en los prrafos anteriores

EJEMPLO 1: Utiliza el grfico anterior para comentar numricamente las frases: "Se obtiene ms informacin (en trminos de error) de una muestra de 1000 personas de un colectivo de 100.000.000 , que de 50 de un colectivo de 250". "Si queremos aumentar la confianza en una estimacin por intervalo, deberemos manejar un mayor margen de error" EJEMPLO 2: Imagina que queremos estimar con un error mximo del 3%, el porcentaje de audiencia de un programa de TV, y queremos un 95% de confianza para nuestros resultados. No disponemos de informacin previa sobre el posible valor de p. Cuntos telespectadoeres debern ser encuestados? Para un nivel de confianza del 95% deberemos tomar k=1,96. Puesto que desconocemos p , tomaremos p=0,5, con lo que n=1068 (redondeado). Tenemos pues un 95% de confianza en que el porcentaje que encontremos se halle a menos de tres puntos porcentuales de la proporcin exacta.Teniendo en cuenta que este nmero de telespectadores es muy pequeo respecto del total de

telespectadores, nos daremos cuenta de la potencia del mtodo de estimacin. Utiliza el grfico anterior para tomando los valores de k y n, comprobar los resultados del ejercicio. Para un estudio grfico ms detallado sobre la influencia de k y n sobre el error, haz las actividades de la hoja de clculo: Errores en la estimacin de proporciones

ACTIVIDADES 1.- Una revista, tras comentar los resultados de una encuesta, afirma, "En teora en 19 de cada 20 casos, los resultados de esta encuesta, difieren en un punto porcentual de la proporcin que se obtendra si hubiramos encuestado a todos los espaoles". Podras decir, cual fu el nivel de confianza y el tamao de la muestra empleados en esta encuesta?. 2.- Se pretende conocer la proporcin de alumnos que beben alcohol durante el fn de semana. Se establece un margen de confianza del 95%, y se quiere que el error mximo sea del 3%. cuntos elementos deberan componer la muestra? 3.-En una muestra aleatoria de 1000 personas, estn a favor del divorcio el 65%. Halla con un 99% de confianza el intervalo para la proporcin real en la poblacin. En una encuesta realizada un ao antes nos haba salido un 69% de favorables al divorcio. Cae este valor dentro del intervalo de la actual encuesta? Qu interpretacin das al resultado? 4.-La ficha tcnica de un estudio publicado fu: Ambito: Nacional excepto Ceuta, Melilla y la Islas Canarias Universo:Personas mayores de 18 aos Muestra: 1008 casos Entrevistas: Personales en el hogar del encuestado Seleccin: Aleatoria de secciones censales para la determinacin del hogar y por estratificado por edad y sexo para el entrevistado. Trabajo de campo: Del 19 al 29 de diciembre de 1993 Margen de error: 3,1% para p=q=0,5, y un nivel de confianza del 95,5% Instituto responsable: Intergallup, S.A

a) Calcula el error correspondiente a las estimaciones. b) Si en una de las preguntas ha contestado afirmativamente el 68,3% de los encuestados, cul es el intervalo de confianza segn los datos tcnicos? 5.-a) En una encuesta realizada, se ha detectado que de 2000 adultos encuestados (elegidos aleatoriamente), 1280 tenan alguna cuenta corriente. Halla una estimacin con un 95% de confianza de la verdadera proporcin de adultos con cuenta corriente. b) Si hubiera sido menor el nmero de encuestados, explica razonadamente cul habra sido la repercusin sobre el error de estimacin. c) Cuntos elementos deberan haber compuesto la muestra para que el error fuera del 2%, suponiendo un 95% de confianza, y que no se tiene informacin previa sobre la verdadera proporcin? 6.- El presidente de una compaa mand una carta a una empresa de investigacin estadstica, en la que argumentaba: " Cuando ustedes o cualquier otro intentan decirme que 1223 personas, sirven para conocer las opiniones y gustos en Espaa, me vuelvo loco!. Cmo se atreven!. Deberan ustedes ser detenidos y encarcelados" Ms adelante, afirmaba: " Dado que 1223 personas representan a 40 millones, mi carta representa la opinin de 32706 personas (divisin de 40 millones entre 1223) que comparten mi punto de vista" a) Encuentra para n=1223, a un nivel de confianza del 95%, el margen de error que se comete al estimar una proporcin. b) Este seor argumenta que 1223 personas es una muestra demasiado pequea para tener significancia. ests de acuerdo?. Escribe una respuesta para apoyar o refutar sus tesis. c) Tambin argumenta que l representa a 32706 personas. Es correcto este argumento?. Razona la respuesta. 7.-En un sondeo a 800 personas elegidas al azar, realizado antes de una eleccin con slo dos candidatos A y B, se obtuvo el siguiente resultado: 57% para A y 43% para B. Cul es la probabilidad de que A gane las

elecciones?Y si la muestra hubiera estdao formada por 2000 personas? 8.-Se realiz una encuesta a 350 familias, preguntando si posean ordenador en casa o n, encontrandose que 75 de ellas lo posean. Estima la proporcin real de familias que dispone de ordenador, con un intervalo de confianza del 95%. Cul es el error mximo de la estimacin? (P.A.U. 1996)

La estimacin de proporciones es de gran importancia en la vida cotidiana, dado que influyen por ejemplo en la programacin de la tv, los productos que consumimos, las leyes que se legislan,..... En los peridicos, revistas, televisin y los informativos de radio, es muy corriente que se den informes de encuestas. Sin embargo frecuentemente, se dan porcentajes, sin ninguna indicacin del grado de confianza, el margen de error o el tamao de la muestra. Sin conocer estos datos, no podemos tener una idea clara de la calidad de los resultados obtenidos, por lo que deberas siempre de tratar de conocer la ficha tcnica de estos estudios.

TESTS DE CONTRASTE DE HIPTESIS

INTRODUCCIN

Veremos ahora la forma de tomar una decisin en base a datos estadsticos, controlando el margen de error que podemos cometer. Supongamos que una empresa privada, decide otorgar una premio a aquellos centros, en los que la nota media de una prueba realizada por los alumnos supere los 7 puntos. Como no puede (por razones econmicas, de tiempo, disponibilidad, etc) realizar la prueba en todos los alumnos en cada centro, decide elegir una muestra aleatoria de 45 alumnos de cada centro, y que sean ellos los que realicen la prueba. Imagina que en nuestro centro, se han obtenido los siguientes resultados: (recuerda que s poda considerarse un buen sustituto de la desviacin tpica de la poblacin, y que por tanto a partir de ahora asumiremos que =2'95) Ahora bien, la empresa se plantea la siguiente duda, puede afirmar con seguridad que la media del centro es superior a 7, o por el contrario el resultado obtenido se debe al azar en la eleccin de la muestra ( es decir, en la muestra entraron por casualidad muchos empollones)?. Nuestro centro, dado su convencimiento de merecer el premio, propone el siguiente proceso: Para probar que " la media es superior a 7 " (1), supondremos en principio lo contrario, es decir que " la media es menor o igual que 7 " (2), y veremos en trminos probabilsticos la posibilidad de que esto ltimo ocurra. Llegan al acuerdo de que si la probabilidad de que " la media sea menor o igual a 7 " es menor del 5%, se aceptar la hiptesis del centro y se conceder el premio. El centro argumenta lo siguiente: Si la hiptesis (2) fuera cierta, es decir, la media menor o igual a 7,en el caso extremo la media sera 7, y la distribucin muestral de medias sera N(7, 0'44). Si esto es as, en como mnimo (*) el 95% de los casos, la media muestral habra de ser menor que el valor t=7,726 para el que se verifica que

(*) Cambia el valor de la media hasta por ejemplo 6.5. La probabilidad de valores superiores a t (rea gris) es inferior a la que corresponde en el caso extremo (rojo). (**) Cambia el nivel de significacin (cambiando el valor asociado k), y podrs observar el efecto sobre la regin crtica.

Este valor t se obtiene buscando en primer lugar la puntuacin tpica k para la que p(Z<k)=0,95 , que resulta ser k=1,65. Los valores que se encuentran a ms de 1,96 desviaciones de la media, es decir, superiores a t=7+1,65x0,44=7,726 son los que forman la regin crtica, es decir las notas medias que tienen una probabilidad de producirse menor del 5%.

Podra ocurrir que la hiptesis (2) fuera cierta y la media muestral 7'9 perteneciera a esa distribucin y fuera un valor correspondiente a la regin crtica (y la probabilidad de que ello ocurra es del 5%), o bien que lo que ocurra realmente, es que (2) sea falsa, y la media obtenida pertenezca a una distribucin muestral con media superior ( por ejemplo 7,5 ), con lo cual tal valor no sera tan raro. En estadstica, "se apuesta" a lo que tiene mayor probabilidad de ocurrir, por lo que se considera que la segunda eleccin es la correcta. (aunque nunca podremos saber si lo que realmente sucede es esto) Puesto que suponiendo que la media muestral es como mximo 7 en al menos 95 de cada 100 muestras la media muestral debera de ser menor que 7,726, y dado que la media muestral obtenida fue 7,9 (que se encuentra en la regin crtica), el centro concluye que: "Con un nivel de significacin del 5%, ( probabilidad de equivocarnos al rechazar que la media pueda ser menor o igual a 7), existe evidencia suficiente de que la media del centro es superior a 7 ". Si el nivel de significacin fuera menor , la regin crtica disminuira, y tendremos ms confianza en una decisin de rechazo de la hiptesis nula (**)

Si hubiramos obtenido de la muestra que , al nivel de significacin especificado no podramos rechazar que realmente la media del centro fuera inferior a 7, es decir., "no existira evidencia suficiente de que la media fuera superior a 7". Es evidente que al no rechazar que la media poblacional sea menor o igual a 7, tambin estaramos arriesgndonos a cometer un error. En cualquier caso, lo que hacemos es tomar una decisin, una vez vistas las evidencias (datos obtenidos de la muestra), y asumido un margen de error para nuestra decisin. ELEMENTOS DE LOS TESTS DE HIPTESIS El proceso que hemos descrito en el apartado anterior se denomina "test de contraste de hiptesis", y ahora detallaremos de forma ms precisa, los elementos que intervienen en l. En primer lugar se han de hacer dos hiptesis (1) y (2) que barran el conjunto de posibilidades para la media ( o en general el parmetro poblacional sobre el que se quiere tomar una decisin). En el caso estudiado fu:

A la hiptesis (2) que en principio se consider cierta, se la denomina hiptesis nula (H0 ) ,por ser el punto de partida, y siempre ha de incluir una igualdad . Esta es la hiptesis que se trata de contrastar, de forma que al final del proceso, la rechazaremos o no. A la hiptesis (1) que es complementaria de la (2), se la denomina hiptess alternativa (HA ) El rechazo de la hiptesis nula lleva emparejado la aceptacin de la hiptesis alternativa. Cuando se lleva a cabo un test de contraste de hiptesis, se ha de comenzar por establecer las hiptesis nula y alternativa, recordando que la hiptesis nula ha de contener obligatoriamente una igualdad. Por lo general, se establece como hiptesis alternativa, la que trata de probar algo que significa un cambio sobre lo que se encuentra preestablecido (por resultados anteriores al test o por inercia) y que est representado por la hiptesis nula. La hiptesis nula es siempre conservadora, frente a la alternativa que propugna el cambio. Establecidas las hiptesis nula y alternativa, Se toma la muestra, y se calculan los datos necesarios para el contraste, en nuestro caso, la media, y la desviacin tpica muestral En segundo lugar se establece el nivel de significacin que es la probabilidad de que rechacemos la hiptesis nula, siendo en realidad cierta. Utilizaremos la letra para denominarlo. Este nivel de significacin es la cantidad de error que nos podemos permitir, y su eleccin depende en cada caso de la persona que realiza el test. Los ms usuales son 10%, 5%, 1% , 0,1%. Se le denomina error de tipo I Puede tambin ocurrir que no rechacemos la hiptesis nula, y sea en realidad falsa. Este tipo de error denominado de tipo II y denotado con la letra , es un error que va directamente ligado al valor Se comentar ms extensamente en el ANEXO 2 Para este nivel de significacin habr de estudiarse la regin crtica asociada. En el caso anterior, dado que la hiptesis nula establece que la media es igual o inferior a 7, la

regin crtica queda a la derecha. Cuando la hiptesis nula establezca que la media es igual o superior a un valor, la regin crtica quedar a la izquierda. Por ltimo, si la hiptesis nula establece que la media tiene un valor determinado, la regin crtica se habr de establecer a ambos lados, de forma que el rea total que ocupen las dos subregiones sea igual al nivel de significacin:

Se estudia para el nivel de significacin dado, si se puede rechazar o no la hiptesis nula. Esto se hace viendo si la media obtenida se encuentra dentro de la regin crtica asociada al nivel de significacin, o si por el contrario, est fuera. Si "se rechaza la hiptesis nula", la conclusin debe ser redactada: "Existe evidencia suficiente al nivel de significacin para indicar que ..(significado de la hiptesis alternativa)" Si por el contrario la decisin es "no se puede rechazar la hiptesis nula", la conclusin debera ser redactada: "No existe suficiente evidencia al nivel de significacin que indique que ...(significado de la hiptesis alternativa)" Veremos ahora varios ejemplos que nos ilustrarn sobre el proceso y los diferentes casos que pueden presentarse. Un mtodo alternativo para realizar los tests est expuesto en el ANEXO 1 Para la comprensin de todos estos conceptos, resultar muy recomendable hacer las actividades propuestas en la hoja de clculo: Tests de contraste de hiptesis Para complementar lo que has ledo sobre el contraste de hiptesis, puedes realizar la lectura: Naturaleza del Contraste de Hiptesis EJEMPLO 1: El instituto cree poder probar que la edad media de los alumnos del turno de Noche es inferior a los 30 aos. Se ha tomado una muestra de 40 alumnos, y ha resultado que la media es 29,5 , y la desviacin tpica muestral es s=2. Se deber en primer lugar establecer las hiptesis nula y alternativa, que deberan ser:

En segundo lugar elegimos nivel de significacin. Dado que no es demasiado grave equivocarse, se elige un nivel del 10%.

Razonando de forma similar al ejemplo anterior, la regin crtica correspondiente a un 10% de significacin, sera la que correspondiese a la figura:

Donde y k=1'28 es la puntuacin tpica asociada a un 10% de significacin. Puesto que la media muestral 29,5 est dentro de la regin crtica, tendremos que rechazar la hiptesis nula, y por tanto: "A un nivel de significacin del 10%, existe evidencia suficiente de que la media de edad en el turno de noche es inferior a 30 aos" EJEMPLO 2: Un estudiante, ha ledo en la prensa, que el coste medio de un men en las cafeteras de Las Palmas es de 500 pts. Como no est conforme, hace un test de hiptesis, para tratar de probar que no es as. Establece como hiptesis: H0: HA: Fija un nivel de significacin del 5%, y obtiene una muestra aleatoria de 45 cafeteras, obteniendo como media 518 pts, y s=70 pts. La regin crtica asociada a este nivel de significacin para las hiptesis planteadas sera:

Ahora k=1'96 y por tanto ,y

En consecuencia, no puede rechazarse a este nivel de significacin la hiptesis nula y por tanto: "A un nivel de significacin del 5% no existe evidencia suficiente de que la media de precios sea diferente de 500 pts." De hecho, esto no significa que sea cierta la hiptesis nula, sino slo que no se puede rechazar a este nivel de significacin. Si hubiramos tomado un nivel de significacin del 10%, la regin crtica correspondiente habra estado delimitada por los valores 482'78 y 517'22, con lo que habramos rechazado la hiptesis nula para ese nivel de significacin. De la misma forma que hemos estado realizando tests sobre medias, pueden ser realizados tests sobre otros parmetros de una poblacin. En particular resulta muy interesante hacerlo sobre una proporcin en una determinada poblacin. Veremos ahora un ejemplo de como hacerlo: EJEMPLO 3: Antonio dice a Luis que al menos un 15% de los alumnos del Instituto, tiene una moto. Como discrepan, Luis realiza una encuesta aleatoria a 200 compaeros del Instituto, y encuentra que 18 de ellos tiene moto. A un nivel de significacin del 10%, cual de los dos tiene estadsticamente la razn? Establecemos la hiptesis nula y alternativa.

Encontramos que la proporcin buscada en la muestra es p'= 18/200=0,09. Supongamos que H0 es cierta, y que por tanto en el peor de los casos sera p=0,15. Sabemos que si as fuera, las proporciones muestrales, se habran de distribuir segn:

Puesto que a un nivel de significacin del 10%, la regin crtica es la correspondiente a valores menores que k=0,15-1,65x0,0252=0,108 , sta la forman los porcentajes inferiores al 10,8%. El porcentaje obtenido en la muestra queda dentro de esta regin y por tanto rechazamos la hiptesis nula, redactando la conclusin como: "A un nivel de significacin del 10%, existe suficiente evidencia de que la proporcin de alumnos con bicicleta es inferior al 15%". Aunque el resultado d la razn a Luis, podemos habernos equivocado (con una probabilidad del 10%), . Si hubiera sido otro el resultado, y le hubiramos dado la razn a Antonio, tambin podramos habernos equivocado (recuerda el error de tipo II).

ACTIVIDADES 1.- La directiva de la U.D. Las Palmas, alega que en una escala de 1 a 10, sobre satisfaccin de los socios, la puntuacin que obtiene el club es mayor o igual a 5. T has hecho una encuesta a 50 socios

elegidos al azar y obtienes una puntuacin media de 4,5 (s=0,5). Podras afirmar ante un periodista, que a un nivel de significacin del 1%, existe evidencia suficiente de que la puntuacin media es menor? 2.- Una compaa de seguros calcula las primas de seguro de incendios en funcin de la distancia a la estacin de bomberos. Para un barrio, estiman que como media, esta distancia es superior a 5 km. Los miembros de la asociacin de vecinos en cambio, la media no llega a 5 km, por lo que hacen una encuesta aleatoria de 64 viviendas del barrio, obteniendo como media 4,5 km. Suponiendo que s=2,5 km, proporciona la muestra sufieciente evidencia para respaldar la opinin de los vecinos, a un nivel de significacin del 5%? 3.- Has sido nombrado, director de personal de una gran compaa, y se requiere de t, que establezcas, el nmero medio por empleado de das de baja laboral. Has realizado un estudio basado en 40 empleados elegidos aleatoriamente, y obtienes una media de 16 das por ao, con una desviacin tpica muestral de 2,4 das. Podras decir a tus superiores que la media es de 18 das con un nivel de significacin del 5%? 4.- El ayuntamiento estima que el n medio de hijos para las familias que residen en un determinado barrio es menor o igual a 1,54. Sin embargo una asociacin de vecinos, no est de acuerdo, y solicita tus servicios para conseguir demostrar que ello no es as. Describe el proceso que seguiras para poder conseguirlo. 5.- Se asegura, que el peso medio de las alumnas de la ULPGC, es de 54,4 kg. Uno de los profesores, no cree que esto sea correcto, por lo que rene una muestra aleatoria de 100 alumnas, obteniendo una media muestral de peso de 53,75 kg (s=5,4kg). A un nivel de significacin del 5%, se puede rechazar que el peso medio sea de 54,4 kg. ? 6.- Un fabricante de lmparas utilizadas por un gran Centro Comercial, asegura que la vida til de sus lmparas es por lo menos de 1600 horas. El Jefe de mantenimiento del Centro Comercial, que no estaba de acuerdo, hizo un seguimiento sobre la duracin de 100 lmparas seleccionadas aleatoriamente. Respalda una media muestral de 1562,3 horas su parecer de que la duracin efectiva es menor que 1600 horas a un nivel de significacin del 2%? (Supngase que la desviacin tpica poblacional es de 150 horas) (P.A.U. 1996) 7.- Una empresa comercializa una bebida refrescante, en un envase en cuya etiqueta se puede leer: "Contenido 250 cc". El "Departamento de Consumo", toma aleatoriamente 36 envases, y estudia el contenido medio, obteniendo una media de 234 cc y una desviacin tpica muestral de 18 cc. Puede afirmarse con un 1% de significacin que se est estafando al pblico? (Consideraremos estafa que el contenido sea menor que el expresado en la etiqueta) (P.A.U. 1996)

ANEXOS ANEXO 1: CONTRASTE DE HIPTESIS A PARTIR DEL P-VALOR

El entrenador de nuestro equipo de baloncesto asegura que en los entrenamientos sus jugadores encestan ms del 90% de los tiros libres. Para investigar esta afirmacin, se ha seleccionado aleatoriamente 50 lanzamientos de los que 42 han sido canasta. evidencia esto que el entrenador se equivoca, o no? La proporcin encontrada en la muestra es p'=42/50=0,84. Las hiptesis que hay que establecer son:

Suponiendo cierta la hiptesis nula, y en el mejor de los casos si p=0,9 , las proporciones muestrales se deberan distribuir segn :

Los valores menores o iguales a 0,85 tienen una probabilidad de ocurrencia:

(I) En consecuencia, si el nivel de significacin que se tome es inferior al 7,93% se puede rechazar la hiptesis nula, y habr que aceptarla en cualquier otro caso. Esta forma de abordar los tests, nos permite una visin ms amplia, por cuanto nos d informacin de para qu niveles de significacin puede rechazarse la hiptesis nula, y para cuales no se puede. Al valor calculado en la expresin (I) se le denomina p-valor, y al procedimiento expresado para realizar el test de hiptesis, mtodo del p-valor.

ANEXO II: ERROR DE TIPO II - CLCULO

Hemos comentado ya, que cuando se establecen la hiptesis nula y alternativa, y se lleva a cabo el test, pueden ocurrir cada uno de los cuatro casos:

La hiptesis nula es verdadera No se rechaza la H.Nula Se rechaza la H.Nula Decisin correcta Error tipo I

La hiptesis nula es falsa Error tipo II Decisin correcta

Para estimar la diferencia existente entre cada uno de los casos, imagina a un mdico que acaba de llegar al lugar de un accidente, y debe contrastar la hiptesis nula: "esta vctima est viva". Mirando la tabla anterior, podemos ver los 4 resultados posibles, y la gravedad de cada tipo de error. Aunque nos gustara que no existiera posibilidad de error, esto es imposible dado que utilizamos para tomar nuestra decisin informacin muestral y no poblacional. Se trata pues de que estos errores sean lo menores posibles. En cada caso en concreto se debera de estudiar la gravedad de cada tipo de error, para minimizar los riesgos inherentes a un proceso de decisin de este tipo. En general, en la prctica, se fijan siempre el nivel de significacin (error tipo I) y el tamao de la muestra (que deber ser tan grande como las posibilidades de tiempo, costo,... nos permitan). Ahora veremos el procedimiento para el clculo del error del tipo II, suponiendo que ya han sido fijados el de tipo I y el tamao de la muestra. Imaginemos el caso con el que se introdujeron los tests de contraste en el que :

y habamos asignado un nivel de significacin razonado de la siguiente forma:

=0'05 . Recordemos que habamos

"Si H0 es cierta, en el mejor de los casos =7, y por tanto en al menos un 95% de los casos, la media muestral que obtengamos habr de ser menor que 7'726"

Es decir, rechazaremos la hiptesis nula, siendo en realidad cierta en como mximo un 5% de los casos ( los correspondientes a la regin sombreada). Imaginemos que H0 fuese en realidad falsa, es decir que por ejemplo =7'5. Cul es el riesgo de que aceptemos que la media es menor o igual a 7?

Si un valor es menor que 7,726, estaremos aceptando que la media es menor que 7, a pesar de ser 7'5. La probabilidad de que esto ocurra es , sobre N(7'5,0'44). Podemos observar a la vista de lo expuesto, que fijado el valor de n, cuanto menor es el valor del riesgo , mayor es el valor del riesgo , o lo que es lo mismo, para un determinado tamao muestral, no podemos reducir simultneamente los dos errores, de forma que deberemos de sacrificar uno de los errores si queremos disminuir el otro. Asimismo, se observa que si est prefijado, al aumentar el tamao muestral n, disminuiremos la variabilidad muestral y en consecuencia, tambin disminuir el riesgo , es decir la manera de reducir simultneamente los dos tipos de error es aumentar el tamao muestral. Por ltimo, vemos que el riesgo de aceptar errneamente una hiptesis nula es funcin del veradero parmetro poblacional, de forma que cuanto ms alejado est ste de los valores ponderados en la hiptesis nula, menor es el riesgo es decir, mayor la probabilidad de tomar la decisin correcta.

You might also like