Estadística Aplicada

Estadstica aplicada Se denomina estadstica aplicada al rea de la estadstica que se ocupa de inferir resultados sobre una poblacin a partir
de una o varias muestras. Estadstica La estadstica es una ciencia formal que estudia la recoleccin, anlisis e interpretacin de datos de una muestra representativa, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algn fenmeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo, la estadstica es ms que eso, es decir, es el vehculo que permite llevar a cabo el proceso relacionado con la investigacin cientfica. Probabilidad La probabilidad es la posibilidad que existe entre varias posibilidades, que un hecho o condicin se produzcan . La probabilidad, entonces, mide la frecuencia con la cual se obtiene un resultado en oportunidad de la realizacin de un experimento sobre el cual se conocen todos los resultados posibles gracias a las condiciones de estabilidad que el contexto supone de antemano . Concepto de poblacin Se denomina poblacin a la suma de personas que conviven dentro de un pueblo, provincia, pas, u otra rea geogrfica, y pose en comnmente, caractersticas en comn. Tambin se dice poblacin a la accin o acto de poblar. Muestra: La muestra es una representacin significativa de las caractersticas de una poblacin, que bajo, la asuncin de un error (generalmente no superior al 5%) estudiamos las caractersticas de un conjunto poblacional mucho menor que la poblacin global. "Se llama muestra a una parte de la poblacin a estudiar que sirve para representarla ". Murria R. Spiegel (1991). "Una muestra es una coleccin de algunos elementos de la poblacin, pero no de todos ". Levin & Rubin (1996). "Una muestra debe ser definida en base de la poblacin determinada, y las conclusiones que se obtengan de dicha muestra solo podrn referirse a la poblacin en referencia", Cadenas (1974). Mtodos de Muestreo Probabilsticos: 1- Muestreo Aleatorio Simple: Es la forma ms comn de obtener una muestra en la seleccin al azar, es decir, cada uno de los individuos de una poblacin tiene la misma posibilidad de ser elegido. Si no se cumple este requisito, se dice que la muestra es viciada. Para tener la seguridad de que la muestra aleatoria no es viciada, debe emplearse para su constitucin una tabla de nmeros aleatorios. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad prctica cuando la poblacin que estamos manejando es muy grande. Ejemplo: Supongamos que nos interesa elegir una muestra aleatoria de 5 estudiantes en un grupo de estadstica de 20 alumnos. 20C5 da el nmero total de formas de elegir una muestra no ordenada y este resultado es 15,504 maneras diferentes de tomar la muestra. Si listamos las 15,504 en trozos separados de papel, una tarea tremenda, luego los colocamos en un recipiente y despus los revolvemos, entonces podremos tener una muestra aleatoria de 5 si seleccionamos un trozo de papel con cinco nombres. Un procedimiento ms simple para elegir una muestra aleatoria sera escribir cada uno de los 20 nombres en pedazos separados de papel, colocarlos en un recipiente, revolverlos y despus extraer cinco papeles al mismo tiempo. Otro mtodo parea obtener una muestra aleatoria de 5 estudiantes en un grupo de 20 utiliza una tabla de nmeros aleatorios. Se puede construir la tabla usando una calculadora o una computadora. Tambin se puede prescindir de estas y hacer la tabla escribiendo diez dgitos del 0 al 9 en tiras de papel, las colocamos en un recipiente y los revolvemos, de ah, la primera tira seleccionada determina el primer nmero de la tabla, se regresa al recipiente y despus de revolver otra vez se selecciona la seguida tira que determina el segundo nmero de la tabla; el proceso contina hasta obtener una tabla de dgitos aleatorios con tantos nmeros como se desee.
Hay muchas situaciones en las cuales el muestreo aleatorio simple es poco prctico, imposible o no deseado; aunque sera deseable usar muestras aleatorias simples para las encuestas nacionales de opinin sobre productos o sobre elecciones presidenciales, sera muy costoso o tardado. 2- Muestreo Aleatorio Sistemtico: Es una tcnica de muestreo que requiere de una seleccin aleatoria inicial de observaciones seguida de otra seleccin de observaciones obtenida usando algn sistema o regla. Ejemplo: Para obtener una muestra de suscriptores telefnicos en una ciudad grande, puede obtenerse primero una muestra aleatoria de los nmeros de las pginas del directorio telefnico; al elegir el vigsimo nombre de cada pgina obtendramos un muestreo sistemtico, tambin podemos escoger un nombre de la primera pgina del directorio y despus seleccionar cada nombre del lugar nmero cien a partir del ya seleccionado. Por ejemplo, podramos seleccionar un nmero al azar entre los primeros 100; supongamos que el elegido es el 40, entonces seleccionamos los nombres del directorio que corresponden a los nmeros 40, 140, 240, 340 y as sucesivamente. 3- Muestreo Aleatorio Estratificado: Una muestra es estratificada cuando los elementos de la muestra son proporcionales a su presencia en la poblacin. La presencia de un elemento en un estrato excluye su presencia en otro. Para este tipo de muestreo, se divide a la poblacin en varios grupos o estratos con el fin de dar representatividad a los distintos factores que integran el universo de estudio. Para la seleccin de los elementos o unidades representantes, se utiliza el mtodo de muestreo aleatorio. En sntesis, requiere de separar a la poblacin segn grupos llamados estratos, y de elegir despus una muestra aleatoria simple en cada estrato. La informacin de las muestras aleatorias simples de cada estrato constituira entonces una muestra global. Ejemplo: Supongamos que nos interesa obtener una muestra de las opiniones de los profesores de una gran universidad. Puede ser difcil obtener una muestra con todos los profesores, as que supongamos que elegimos una muestra aleatoria de cada colegio, o departamento acadmico; los estratos vendran a ser los colegios, o departamentos acadmicos. 4- Muestreo Aleatorio por rea o Conglomerado: Requiere de elegir una muestra aleatoria simple de unidades heterogneas entre s de la poblacin llamadas conglomerados. Cada elemento de la poblacin pertenece exactamente a un conglomerado, y los elementos dentro de cada conglomerado son usualmente heterogneos o dismiles. Ejemplo: Supongamos que una compaa de servicio de televisin por cable est pensando en abrir una sucursal en una ciudad grande; la compaa planea realizar un estudio para determinar el porcentaje de familias que utilizaran sus servicios, como no es prctico preguntar en cada casa, la empresa decide seleccionar una parte de la ciudad al azar, la cual forma un conglomerado. En el muestreo por conglomerados, stos se forman para representar, tan fielmente como sea posible, a toda la poblacin; entonces se usa una muestra aleatoria simple de conglomerados para estudiarla. Los estudios de instituciones sociales como iglesias, hospitales, escuelas y prisiones se realizan, generalmente, con base en el muestreo por conglomerados. Como desventaja se debe mencionar el error de muestreo, producto de la variabilidad intrnseca que poseen los elementos de todo universo o poblacin. El trmino error no debe entenderse como sinnimo de equivocacin. Ejemplo: Estatura de nios: 117, 120, 125, 125, 130 Tamao 2 2 2 3 3 3 4 4 4 Media poblacional E. Valores muestrales 117, 120 125, 130 125, 120 125, 130, 125 125, 125, 120 125, 117, 125 120, 117, 125, 125 130, 117, 125, 125 117, 125, 125, 120 123.4 Media muestral 118.50 127.50 122.50 126.66 123.33 122.33 123.00 124.25 121.75
Tambin suelen introducirse errores por otras vas, los cuales se denominan errores sistemticos: Los cuales son:
Parmetro estadstico
Imputables al observador. Imputables al mtodo de observacin o medicin. Imputables a lo observado (unidad de muestreo).
En estadstica, un parmetro es un nmero que resume la ingente cantidad de datos que pueden derivarse del estudio de una variable 1 estadstica. El clculo de este nmero est bien definido, usualmente mediante una frmula aritmtica obtenida a partir de datos de la 23 poblacin. Los parmetros estadsticos son una consecuencia inevitable del propsito esencial de la estadstica: crear un modelo de la realidad.
4
Estadgrafo: es la medida que en Estadstica se aplica sobre una muestra. En general se utilizan dos tipos: Los de Tendencia Central y los de Dispersin. Entre los primeros tenemos: a) las medidas denominadas promedios, osea aquellas que tratan de localizarse hacia el centro de la serie; moda, media y mediana; y b) los cuartiles y deciles, o cuartas y dcimas partes de las observaciones; esto slo se aplican en los datos agrupados. Entre los de Dispersin estn: la desviacin media, la desviacin mediana, la varianza, la desviacin tpica o estndar, la dispersin absoluta y relativa. Mtodos de seleccin de la muestra. Tamao Muestral Si esta parte del estudio no est bien realizada, nos encotraremos en situaciones en que no existiran diferencias significativas entre las muestras. Adems todo muestra superior a la necesaria, supondr un aumento del tiempo del estudio y de los costes del mismo, lo que puede suponer su viabilidad econmica. Para realizar correctamente el tamao muestral, debemos trabajar dos herramientas de la inferencia estadstica que aportarn la validez de las conclusiones, como son la estimacin de parmetros y el contraste de hiptesis. ESTIMACIN DE PARMETROS Pretende realizar el clculo aproximado del valor de estudio en la poblacin, mediante el estudio de la muestra de la poblacin. Para ello necesitamos conocer la variabilidad del parmetro, que la podemos obtener de la bibliografa sobre este o realizando un estudio piloto en la poblacin. Tambin podemos utilizar la desviacin tpica poblacional, en el estudios cuantutativos, y en caso de estudios cualitativos es necesario trabajar con probabilidadades de xito p(p-1). Otro de los datos que debemos conocer es el error de estimacin, que nos ofrece precisin, que podemos corregir mediante el intervalo de confianza, es decir cuando el error de estimacin es demasiado elevado, se puede aumentar la muestra, de manera que se amplia el intervalo de confianza. Ello supone que aumentar el nivel de confianza, o lo que es lo mismo, que existen mayores probabilidades de que el valor de la poblacin est dentro de el intervalo de confianza del estudio. Muestra Representativa La muestra es una herramienta que no admite el calificativo de representativa. La estrategia de muestreo se dice representativa si el estimador aplicado en la muestra seleccionada tiene la capacidad de reproducir algunos totales poblaciones. Intervalo (matemtica) Saltar a: navegacin, bsqueda Un intervalo (del latn intervallum) es un conjunto comprendido entre dos valores. Especficamente, un intervalo real es un subconjunto conexo de la recta real , es decir, una porcin de recta entre dos valores dados. Clases de Muestreo. Muestreo probabilstico Consiste en elegir una muestra de una poblacin al azar. Podemos distinguir varios tipos de muestreo:
Muestreo aleatorio simple Para obtener una muestra, se numeran los elementos de la poblacin y se seleccionan al azar los n elementos que contiene la muestra. Muestreo aleatorio sistemtico Se elige un individuo al azar y a partir de l, a intervalos constantes, se eligen los dems hasta completar la muestra. Por ejemplo si tenemos una poblacin formada por 100 elementos y queremos extraer una muestra de 25 elementos, en primer lugar debemos establecer el intervalo de seleccin que ser igual a 100/25 = 4. A continuacin elegimos el elemento de arranque, tomando aleatoriamente un nmero entre el 1 y el 4, y a partir de l obtenemos los restantes elementos de la muestra. 2, 6, 10, 14,..., 98 Muestreo aleatorio estratificado Se divide la poblacin en clases o estratos y se escoge, aleatoriamente, un nmero de individuos de cada estrato proporcional al nmero de componentes de cada estrato. En una fbrica que consta de 600 trabajadores queremos tomar una muestra de 20. Sabemos que hay 200 trabajadores en la seccin A, 150 en la B, 150 en la C y 100 en la D.
Un muestreo puede hacerse con o sin reposicin, y la poblacin de partida puede ser infinita o finita. En todo nuestro estudio vamos a limitarnos a una poblacin de partida infinita o a muestreo con reposicin . Si consideremos todas las posibles muestras de tamao n en una poblacin, para cada muestra podemos calcular un estadstico (media, desviacin tpica, proporcin, ...) que variar de una a otra. As obtenemos una distribucin del estadstico que se llama distribucin muestral. Muestreo mltiple El procedimiento bajo este mtodo es similar al expuesto en el muestreo doble, excepto que el nmero de muestras sucesivas requerido para llegar a una decisin es ms de dos muestras. Mtodos de muestreo clasificados de acuerdo con las maneras usadas en seleccionar los elementos de una muestra. Los elementos de una muestra pueden ser seleccionados de dos maneras diferentes: a. Basados en el juicio de una persona. b. Seleccin aleatoria (al azar)
Muestreo de juicio Una muestra es llamada muestra de juicio cuando sus elementos son seleccionados mediante juicio personal. La persona que selecciona los elementos de la muestra, usualmente es un experto en la medida dada. Una muestra de juicio es llamada una muestra probabilstica, puesto que este mtodo est basado en los puntos de vista subjetivos de una persona y la teora de la probabilidad no puede ser empleada para medir el error de muestreo, Las principales ventajas de una muestra de juicio son la facilidad de obtenerla y que el costo usualmente es bajo. Muestreo Aleatorio Una muestra se dice que es extrada al azar cuando la manera de seleccin es tal, que cada elemento de la poblacin tiene igual oportunidad de ser seleccionado. Una muestra aleatoria es tambin llamada una muestra probabilstica son generalmente preferidas por los estadsticos porque la seleccin de las muestras es objetiva y el error muestral puede ser medido en trminos de probabilidad bajo la curva normal. Los tipos comunes de muestreo aleatorio son el muestreo aleatorio simple, muestreo sistemtico, muestreo estratificado y muestreo de conglomerados. A. Muestreo aleatorio simple Una muestra aleatoria simple es seleccionada de tal manera que cada muestra posible del mismo tamao tiene igual probabilidad de ser seleccionada de la poblacin. Para obtener una muestra aleatoria simple, cada elemento en la poblacin tenga la misma probabilidad de ser seleccionado, el plan de muestreo puede no conducir a una muestra aleatoria simple. Por conveniencia, este mtodo pude ser reemplazado por una tabla de nmeros aleatorios. Cuando una poblacin es infinita, es obvio que la tarea de numerar cada elemento de la poblacin es infinita, es obvio que la tarea de numerar cada elemento de la poblacin es imposible. Por lo tanto, ciertas modificaciones del muestreo aleatorio simple son necesarias. Los tipos ms comunes de muestreo aleatorio modificado son sistemtico, estratificado y de conglomerados. B. Muestreo sistemtico. Una muestra sistemtica es obtenida cuando los elementos son seleccionados en una manera ordenada. La manera de la seleccin depende del nmero de elementos incluidos en la poblacin y el tamao de la muestra. El nmero de elementos en la poblacin es, primero, dividido por el nmero deseado en la muestra. El cociente indicar si cada dcimo, cada onceavo, o cada centsimo elemento en la poblacin va a ser seleccionado. El primer elemento de la muestra es seleccionado al azar. Por lo tanto, una muestra sistemtica puede dar la misma precisin de estimacin acerca de la poblacin, que una muestra aleatoria simple cuando los elementos en la poblacin estn ordenados al azar. C. Muestreo Estratificado Para obtener una muestra aleatoria estratificada, primero se divide la poblacin en grupos, llamados estratos, que son ms homogneos que la poblacin como un todo. Los elementos de la muestra son entonces seleccionados al azar o por un mtodo sistemtico de cada estrato. Las estimaciones de la poblacin, basadas en la muestra estratificada, usualmente tienen mayor precisin (o menor error muestral) que si la poblacin entera muestreada mediante muestreo aleatorio simple. El nmero de elementos seleccionado de cada estrato puede ser proporcional o desproporcional al tamao del estrato en relacin con la poblacin. CLASIFICACIN DE LA HIPTESIS La hiptesis puede adoptar diferentes y clasificarles de acuerdo a la convivencia de cada autor: a. b. c. d. e. f. Hiptesis general: es cuando trata de responder de forma amplia a las dudas que el investigador tiene acerca de la relacin que existe entre las variables. Hiptesis especfica: es especfica aquella hiptesis que se deriva de la general, estas tratan de concretizar a la hiptesis general y hace explcitas las orientaciones concebidas para resolver la investigacin. Hiptesis estadstica: la hiptesis estadstica es aquella hiptesis que somete a prueba y expresa a las hiptesis operacionales en forma de ecuaciones matemticas. Problema: se quiere determinar si el entrenamiento en tcnicas de estudio mejora el rendimiento acadmico de los estudiantes de la UNELLEZ. Hiptesis especfica: los alumnos del subproyecto lenguaje y comunicacin del I semestre, programa educacin integral, entrenados en tcnicas de estudio, obtendrn altas calificaciones al mejorar sus tcnicas de aprendizajes. Hiptesis operacional: el promedio de rendimiento de los alumnos del subproyecto lenguaje y comunicacin, sometidos a entrenamientos en tcnicas de estudio (grupo experimental), ser mayor que el promedio de rendimiento de aquellos alumnos no sometidos al entrenamiento (grupo control). a. Hiptesis nula: (X1) = (X2); no existe relacin en los promedios obtenidos por los estudiantes entrenados en tcnicas de estudio (X1) y los no entrenados (X2)
b.
Hiptesis alternativas: X1 > X2; los alumnos sometidos a entrenamientos en tcnicas de elaboracin de resumen (X1) obtuvieron mejor promedio de rendimiento que aquellos alumnos que no recibieron ningn tipo de entrenamiento (X2).
g.
La hiptesis nula consiste en una afirmacin acerca de la poblacin de origen de la muestra. Usualmente, es ms simple (menor nmero de parmetros, por ejemplo) que su antagonista. Se designa a la hiptesis nula con el smbolo H0. h. La hiptesis alternativa es igualmente una afirmacin acerca de la poblacin de origen. Muchas veces, aunque no siempre, consiste simplemente en negar la afirmacin de H0. La hiptesis alternativa se designa con el smbolo H1. i. De momento trataremos el caso ms sencillo, en el cual las dos hiptesis se refieren a un nico valor del parmetro. En esta situacin general, las hiptesis se refieren a un parmetro (theta). La formulacin es: j. H0: 0 k. H1: = 1 l. En la teora del contraste de hiptesis este tipo de planteamiento se conoce como contraste de hiptesis simple contra simple. m. As pues, una hiptesis simple postula que el parmetro slo puede tomar un valor o bien, ms tcnicamente, que el conjunto de parmetros asociado a una hiptesis simple consiste en un slo punto. Ejemplos de hiptesis que se han de contrastar
Caso 1: hiptesis para dirimir la controversia acerca del nmero de hembras. Caso 2: hiptesis a contrastar en el problema de la tasa de statdrolona.
Errores de tipo I y de tipo II Saltar a: navegacin, bsqueda En un estudio de investigacin, el error de tipo I tambin denominado error de tipo alfa () o falso positivo, es el error que se comete cuando el investigador no acepta la hiptesis nula ( ) siendo esta verdadera en la poblacin. Es equivalente a encontrar un resultado falso positivo, porque el investigador llega a la conclusin de que existe una diferencia entre las hiptesis cuando en realidad no existe. Se relaciona con el nivel de significancia estadstica. La hiptesis de la que se parte aqu es el supuesto de que la situacin experimental presentara un estado normal. Si no se advierte este estado normal, aunque en realidad existe, se trata de un error estadstico tipo I. Algunos ejemplos para el error tipo I seran: Se considera que el paciente est enfermo, a pesar de que en realidad est sano ; hiptesis nula: El paciente est sano. Se declara culpable al acusado, a pesar de que en realidad es inocente; hiptesis nula: El acusado es inocente. No se permite el ingreso de una persona, a pesar de que tiene derecho a ingresar ; hiptesis nula: La persona tiene derecho a ingresar.
1
En un estudio de investigacin, el error de tipo II, tambin llamado error de tipo beta () ( es la probabilidad de que exista este error) o falso negativo, se comete cuando el investigador no rechaza la hiptesis nula siendo esta falsa en la poblacin. Es equivalente a la probabilidad de un resultado falso negativo, ya que el investigador llega a la conclusin de que ha sido incapaz de encontrar una diferencia que existe en la realidad. Se acepta en un estudio que el valor del error beta est entre el 5 y el 20%. Contrariamente al error tipo I, en la mayora de los casos no es posible calcular la probabilidad del error tipo II. La razn de esto se encuentra en la manera en que se formulan las hiptesis en una prueba estadstica. Mientras que la hiptesis nula representa siempre una afirmacin enrgica (como por ejemplo Promedio = 0) la hiptesis aternativa, debido a que engloba todas las otras
posibilidades, es generalmente de naturaleza global (por ejemplo Promedio 0 ). El grfico de la derecha ilustra la probabilidad del error tipo II (rojo) en dependencia del promedio desconocido. Significacin estadstica Saltar a: navegacin, bsqueda En estadstica, un resultado es estadsticamente significativo cuando no es probable que haya sido debido al azar. Una "diferencia estadsticamente significativa" solamente significa que hay evidencias estadsticas de que hay una diferencia; no significa que la diferencia sea grande, importante, o significativa en el sentido estricto de la palabra. El nivel de significacin de un test es un concepto estadstico asociado a la verificacin de una hiptesis. En pocas palabras, se define como la probabilidad de tomar la decisin de rechazar la hiptesis nula cuando sta es verdadera (decisin conocida como error de tipo I, o "falso positivo"). La decisin se toma a menudo utilizando el valor P (o p-valor): si el valor P es inferior al nivel de significacin, entonces la hiptesis nula es rechazada. Cuanto menor sea el valor P, ms significativo ser el resultado. En otros trminos, el nivel de significacin de un contraste de hiptesis es una probabilidad P tal que la probabilidad de tomar la decisin de rechazar la hiptesis nula - cuando sta es verdadera - no es mayor que P.
Figura 7. Regin de rechazo de la hiptesis nula Ejemplo Consideramos el mismo ejemplo anterior. Visto que no hemos podido rechazar el que la talla media de la poblacin sea igual a 174 cm, deseamos realizar el contraste sobre si la talla media es menor de 174 cm. Solucin: Ahora el contraste es Ho: m = 174 cm H1: m < 174 cm De nuevo la tcnica a utilizar consiste en suponer que H0 es cierta y ver si el valor que toma el estadgrafo T es aceptable bajo esta hiptesis, con un nivel de confianza del 95%. Se aceptar la hiptesis alternativa (y en consecuencia se rechazar la hiptesis nula) si: To < t 24, a = -t 24, 1 - a = t 24, 0.95 = -1.71 Recordamos que el valor de To obtenido fue de: To = -2 < Tt = -1.71 or ello hemos de rechazar la hiptesis nula y por tanto, aceptar la alternativa Podemos observar en el grfico, que el valor To est en la regin crtica, por tanto existe una evidencia significativa en contra de H0, y a favor de H1.
Es importante observar este hecho curioso: Mientras que en el ejemplo anterior no exista una evidencia significativa para decir que m 174 cm, el ``simple hecho" de plantearnos un contraste que parece el mismo pero en versin unilateral nos conduce a rechazar de modo significativo que m =174 cm y aceptamos que m < 174 cm. Esto no es raro que suceda, de hecho se plantea que al usar pruebas unilaterales las diferencias encontradas suelen ser mucho ms significativas que si se aplica el test bilateral. Por ello, es aceptable la actitud conservadora de muchos investigadores que sistemticamente emplean contrastes bilaterales. Poblacin que no presenta una distribucin normal. Si, como ocurre con frecuencia, la muestra en la cual se basa la prueba de hiptesis acerca de la media de una poblacin proviene de una distribucin desconocida o diferente de la normal, si la muestra es grande, mayor o igual que 30, es posible aplicar el teorema del lmite central y usar el mismo estadgrafo Z visto con anterioridad, incluso en el caso en que no conocemos la varianza se puede sustituir sta por la varianza muestral.
~ N (m0 ,
El resto del contraste se realiza de forma similar a lo visto anteriormente. Observaciones Es necesario que aclaremos algunos aspectos antes de continuar, los cuales sern vlidos para el resto de la seccin. Valor crtico Se representa por Z/2. Es el valor de la abscisa en una determinada distribucin que deja a su derecha un rea igual a /2, siendo 1 - el nivel de confianza. Normalmente los valores crticos estn tabulados o pueden calcularse en funcin de la distribucin de la poblacin. Por ejemplo, para una distribucin normal, de media 0 y desviacin tpica 1, el valor crtico para = 0,1 se calculara del siguiente modo: se busca en la tabla de la distribucin ese valor (o el ms aproximado), bajo la columna "rea"; se observa que se corresponde con -1,28. Entonces Z/2 = 1,64. Si la media o desviacin tpica de la distribucin normal no coinciden con las de la tabla, se puede realizar el cambio de variable t =(X-)/ para su clculo. Con estas definiciones, si tras la extraccin de una muestra se dice que "3 es una estimacin de la media con un margen de error de 0,6 y un nivel de confianza del 99%", podemos interpretar que el verdadero valor de la media se encuentra entre 2,7 y 3,3, con una probabilidad del 99%. Los valores 2,7 y 3,3 se obtienen restando y sumando, respectivamente, la mitad del error, para obtener el intervalo de confianza segn las definiciones dadas. Para un tamao fijo de la muestra, los conceptos de error y nivel de confianza van relacionados. Si admitimos un error mayor, esto es, aumentamos el tamao del intervalo de confianza, tenemos tambin una mayor probabilidad de xito en nuestra estimacin, es decir, un mayor nivel de confianza. Otros usos del trmino El trmino estimacin tambin se utiliza en ciencias aplicadas para hacer referencia a un clculo aproximado, que normalmente se apoya en la herramienta estadstica aunque puede no hacerlo. En este sentido, un ejemplo clsico son los poco conocidos pero tiles en economa problemas de Fermi. Planteamiento clsico del contraste de hiptesis Se denomina hiptesis nula lo cual sugiere que a la hiptesis que se desea contrastar. El nombre de "nula" significa sin valor, efecto o consecuencia,
debe identificarse con la hiptesis de no cambio (a partir de la opinin actual); no diferencia, no mejora, etc. nunca se considera probada, aunque puede ser rechazada por los datos. Por ejemplo, la hiptesis
representa la hiptesis que mantendremos a no ser que los datos indiquen su falsedad, y puede entenderse, por tanto, en el sentido de neutra. La hiptesis
de que dos poblaciones tienen la misma media puede ser rechazada fcilmente cuando ambas difieren mucho, analizando muestras suficientemente grandes de ambas poblaciones, pero no puede ser "demostrada" mediante muestreo, puesto que siempre cabe la posibilidad de que las medias difieran en una cantidad lo suficientemente pequea para que no pueda ser detectada, aunque la muestra sea muy grande. A partir de una muestra de la poblacin en estudio, se extrae un estadstico (esto es, una valor que es funcin de la muestra) cuya distribucin de probabilidad est relacionada con la hiptesis en estudio y sea conocida. Se toma entonces como regin de rechazo al conjunto de valores que es ms improbable bajo la hiptesis, esto es, el conjunto de valores para el que rechazaremos la hiptesis nula si el valor del estadstico observado entra dentro de l. La probabilidad de que se obtenga un valor del estadstico que entre en la regin de rechazo an siendo cierta la hiptesis puede calcularse. De esta manera, se puede escoger dicha regin de tal forma que la probabilidad de cometer este error sea suficientemente pequea. Siguiendo con el anterior ejemplo de la moneda trucada, la muestra de la poblacin es el conjunto de los treinta lanzamientos a realizar, el estadstico escogido es el nmero total de caras obtenidas, y la regin de rechazo est constituida por los nmeros totales de caras iguales o superiores a 25. La probabilidad de cometer el error de admitir que la moneda est trucada a pesar de que no lo est es igual a la probabilidad binomial de tener 25 "xitos" o ms en una serie de 30 ensayos de Bernoulli con probabilidad de "xito" 0,5 en cada uno, entonces: 0,0002, pues existe la posibilidad, aunque poco probable, que la muestra nos d ms de 25 caras sin haber sido la moneda trucada. Procedimientos de prueba Un procedimiento de prueba es una regla con base en datos muestrales, para determinar si se rechaza Ejemplo Una prueba de : p = .10 contra : p < .10, podra estar basada en el examen de una muestra aleatoria de n = 200 objetos. Representamos con X el nmero de objetos defectuosos de la muestra, una variable aleatoria binomial; x representa el valor observado de X. si defectuosos si es verdadera, E(X) = np = 200(.10) = 20, mientras, podemos esperar menos de 20 objetos as que si x15 .
es verdadera. Un valor de x ligeramente debajo de 20 no contradice de manera contundente a solo si x es considerablemente menor que 20. Un procedimiento de prueba es rechazar
es razonable rechazar
y no rechazar de otra forma. En este caso, la regin de rechazo esta formada por x = 0, 1, 2, , y 15. si x= 16, 17,, 199 o 200. Un procedimiento de prueba se especifica por lo siguiente: 1. 2.
no ser rechazada
Un estadstico de prueba: una funcin de los datos muestrales en los cuales se basa la decisin de rechazar rechazar . Una regin de rechazo, el conjunto de todos los valores del estadstico de prueba para los cuales
o no
ser rechazada.
Entonces, la hiptesis nula ser rechazada si y solo si el valor observado o calculado del estadstico de prueba se ubica en la regin de rechazo En el mejor de los casos podran desarrollarse procedimientos de prueba para los cuales ningn tipo de error es posible. Pero esto puede alcanzarse solo si una decisin se basa en un examen de toda la poblacin, lo que casi nunca es prctico. La dificultad al usar un procedimiento basado en datos muestrales es que debido a la variabilidad en el muestreo puede resultar una muestra no representativa. Un buen procedimiento es aquel para el cual la probabilidad de cometer cualquier tipo de error es pequea. La eleccin de un valor particular de corte de la regin de rechazo fija las probabilidades de errores tipo I y II. Estas probabilidades de error son representadas por y , respectivamente.
Enfoque actual de los contrastes de hiptesis El enfoque actual considera siempre una hiptesis alternativa a la hiptesis nula. De manera explcita o implcita, la hiptesis nula, a la que se denota habitualmente por los casos en los que no se especifica es falsa. , se enfrenta a otra hiptesis que denominaremos hiptesis alternativa y que se denota de manera explcita, podemos considerar que ha quedado definida implcitamente como . En
Si por ejemplo deseamos comprobar la hiptesis de que dos distribuciones tienen la misma media, estamos implcitamente considerando como hiptesis alternativa ambas poblaciones tienen distinta media. Podemos, sin embargo considerar casos en los que no es la simple negacin de . Supongamos por ejemplo que sospechamos que en un juego de azar con un dado, este est trucado para obtener 6. Nuestra hiptesis nula podra ser el dado no est trucado que intentaremos contrastar, a partir de una muestra de lanzamientos realizados, contra la hiptesis alternativa el dado ha sido trucado a favor del 6. Cabra realizar otras hiptesis, pero, a los efectos del estudio que se pretende realizar, no se consideran relevantes. Un test de hiptesis se entiende, en el enfoque moderno, como una funcin de la muestra, corrientemente basada en un estadstico. Supongamos que se tiene una muestra de una poblacin en estudio y que se han formulado hiptesis sobre un parmetro relacionado con la distribucin estadstica de la poblacin. Supongamos que se dispone de un estadstico cuya distribucin con respecto a formulacin siguiente: , se conoce. Supongamos, tambin, que las hiptesis nula y alternativa tienen la
Un contraste, prueba o test para dichas hiptesis sera una funcin de la muestra de la siguiente forma:
Donde
significa que debemos rechazar la hiptesis nula, ). A
(aceptar .
)y
, que debemos aceptar
(o que no hay evidencia estadstica contra basta con escoger el estadstico del contraste Se escoge
se la denomina regin de rechazo. En esencia, para construir el test deseado,
y la regin de rechazo
de tal manera que la probabilidad de que T(X) caiga en su interior sea baja cuando se da
Errores en el contraste Artculo principal: Errores de tipo I y de tipo II. Una vez realizado el contraste de hiptesis, se habr optado por una de las dos hiptesis, o , y la decisin escogida coincidir o no con la que en realidad es cierta. Se pueden dar los cuatro casos que se exponen en el siguiente cuadro: es cierta Se escogi Se escogi es cierta
No hay error Error de tipo II Error de tipo I No hay error
Si la probabilidad de cometer un error de tipo I est unvocamente determinada, su valor se suele denotar por la letra griega , y en las mismas condiciones, se denota por la probabilidad de cometer el error de tipo II, esto es:
En este caso, se denomina Potencia del contraste al valor 1-, esto es, a la probabilidad de escoger .
cuando sta es cierta
Cuando es necesario disear un contraste de hiptesis, sera deseable hacerlo de tal manera que las probabilidades de ambos tipos de error fueran tan pequeas como fuera posible. Sin embargo, con una muestra de tamao prefijado, disminuir la probabilidad del error de tipo I, , conduce a incrementar la probabilidad del error de tipo II, . Usualmente, se disean los contrastes de tal manera que la probabilidad sea el 5% (0,05), aunque a veces se usan el 10% (0,1) o 1% (0,01) para adoptar condiciones ms relajadas o ms estrictas. El recurso para aumentar la potencia del contraste, esto es, d isminuir , probabilidad de error de tipo II, es aumentar el tamao muestral, lo que en la prctica conlleva un incremento de los costes del estudio que se quiere realizar. Contraste ms potente El concepto de potencia nos permite valorar cual entre dos contrastes con la misma pr obabilidad de error de tipo I, , es preferible. Si se trata de contrastar dos hiptesis sencillas sobre un parmetro desconocido, , del tipo:
Se trata de escoger entre todos los contrastes posibles con prefijado aquel que tiene mayor potencia, esto es, menor probabilidad de incurrir en el error de tipo II. En este caso el Lema de Neyman-Pearson garantiza la existencia de un contraste de mxima potencia y determina cmo construirlo. Contraste uniformemente ms potente En el caso de que las hiptesis sean compuestas, esto es, que no se limiten a especificar un nico posible valor del parmetro, sino que sean del tipo:
donde
son conjuntos de varios posibles valores, las probabilidades y ya no estn unvocamente determinadas, sino que tiene tamao si
tomarn diferentes valores segn los distintos valores posibles de . En este caso se dice que un contraste
esto es, si la mxima probabilidad de cometer un error de tipo I cuando la hiptesis nula es cierta es . En estas circunstancias, se pue de considerar como una funcin de , puesto que para cada posible valor de en la hiptesis alternativa se tendra una probab ilidad distinta de cometer un error de tipo II. Se define entonces
y, la funcin de potencia del contraste es entonces
esto es, la probabilidad de discriminar que la hiptesis alternativa es cierta para cada valor posible de dentro de los val ores posibles de esta misma hiptesis. Se dice que un contraste es uniformemente ms potente de tamao cuando, para todo valor es mayor o igual que el de cualquier otro contraste del mismo tamao. En resumen, se trata de un contraste que garantiza la mxima potencia para todos los valores de en la hiptesis alternativa. Es claro que el caso del contraste uniformemente ms potente para hiptesis compuestas exige el cumplimiento de condiciones ms exigentes que en el caso del contraste ms potente para hiptesis simples. Por ello, no existe un equivalente al Lema de NeymanPearson para el caso general. Sin embargo, s existen muchas condiciones en las que, cumplindose determinadas propiedades de las distribuciones de probabilidad implicadas y para ciertos tipos de hiptesis, se puede extender el Lema para obtener el contraste uniformemente ms potente del tamao que se desee. Aplicaciones de los contrastes de hiptesis Los contrastes de hiptesis, como la inferencia estadstica en general, son herramientas de amplio uso en la ciencia en general. En particular, la moderna Filosofa de la ciencia desarrolla el concepto de falsabilidad de las teoras cientficas basndose en los conceptos de la inferencia estadstica en general y de los contrastes de hiptesis. En este contexto, cuando se desea optar entre dos posibles teoras cientficas para un mismo fenmeno (dos hiptesis) se debe realizar un contraste estadstico a partir de los datos disponibles sobre el fenmeno que permitan optar por una u otra. Las tcnicas de contraste de hiptesis son tambin de amplia aplicacin en muchos otros casos, como ensayos clnicos de nuevos medicamentos, control de calidad, encuestas, etctera . Diagrama de dispersin Saltar a: navegacin, bsqueda
El tiempo de espera entre las erupciones y la duracin de la erupcin del giser Old Faithful en el Parque Nacional Yellowstone, Wyoming, EE.UU. Este grfico sugiere que por lo general hay dos "tipos" de erupciones: uno de corta espera y corta duracin y otro de larga espera y larga duracin. Un diagrama de dispersin es un tipo de diagrama matemtico que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos. Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posicin en el eje horizontal 1 y el valor de la otra variable determinado por la posicin en el eje vertical. Un diagrama de dispersin se llama tambin grfico de dispersin.
Anlisis de la regresin Saltar a: navegacin, bsqueda La regresin estadstica o regresin a la media es la tendencia de una medicin extrema a presentarse ms cercana a la media en una segunda medicin. La regresin se utiliza para predecir una medida basndonos en el conocimiento de otra. Modelos de regresin Regresin lineal Artculo principal: Regresin lineal. Regresin lineal simple
Dadas dos variables (Y: variable dependiente; X: independiente) se trata de encontrar una funcin simple (lineal) de X que nos permita aproximar Y mediante: = a + bX a (ordenada en el origen, constante) b (pendiente de la recta) A la cantidad e=Y- se le denomina residuo o error residual. As, en el ejemplo de Pearson: = 85 cm + 0,5X Donde es la altura predicha del hijo y X la altura del padre: En media, el hijo gana 0,5 cm por cada cm del padre. Regresin lineal mltiple
Ajuste por el mtodo de los mnimos cuadrados: recta de regresin
Una vez tenemos sobre los ejes de coordenadas la nube de puntos, se plantea el problema de ajustar una recta sobre la misma. Cul es la recta qu mejor se ajusta sobre la nube de puntos? Evidentemente, esta pregunta no tendra respuesta si no se establece un criterio de ajuste. El criterio que se propone es el de los mnimos cuadrados. En qu consiste? Sea la muestra observada de valores del par de variables ( X, Y): (x1, y1), (x2, y2), (x3, y3), ..., (xn, yn) Se trata de obtener los valores a y b de manera que se minimice la funcin:
La solucin es la siguiente:
Sustituyendo los valores a y b anteriores, tenemos la recta:
y = a + bx
que es conocida como la recta de regresin Y/X.

Estadística Aplicada

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Estadística Aplicada

Uploaded by

Copyright:

Available Formats

Estadstica aplicada Se denomina estadstica aplicada al rea de la estadstica que se ocupa de inferir resultados sobre una poblacin a partir

significa que debemos rechazar la hiptesis nula, ). A

, que debemos aceptar

se la denomina regin de rechazo. En esencia, para construir el test deseado,

No hay error Error de tipo II Error de tipo I No hay error

cuando sta es cierta

y, la funcin de potencia del contraste es entonces

Ajuste por el mtodo de los mnimos cuadrados: recta de regresin

Sustituyendo los valores a y b anteriores, tenemos la recta:

que es conocida como la recta de regresin Y/X.

You might also like