You are on page 1of 125

MTODOS CUANTITATIVOS APLICADOS

FACULTAD DE AGRONOMA
Universidad del Tolima

Estadstica General
Para las carreras de Agronoma, Agroindustrial

Manual de clases Tericas y


Prcti
Prcticas 2010

Dagoberto Salgado Horta

Pgina 1

INTRODUCCIN A LA ESTADSTICA
Estadstica: la ciencia de la obtencin y anlisis de datos.
Como en cualquier otra rama de la ingeniera, en las ciencias agropecuarias nos encontramos con
situaciones que se presentan como un problema a resolver, un ingeniero que debe abordar la tarea
y un conjunto de herramientas de las cuales el ingeniero podr valerse para realizar su tarea. Y
entre las herramientas con las cuales el ingeniero puede contar se encuentra la Estadstica con
todo su bagaje terico y metodolgico.
La teora estadstica se apoya en la Matemtica de la cual puede considerarse una rama y
los mtodos estadsticos son las herramientas que el ingeniero puede usar para responder preguntas tales como a cuntas personas debera encuestarse antes de una eleccin como para poder
hacer una prediccin vlida del resultado de la votacin? o cul de varios herbicidas es el ms
recomendable con vistas al control de una determinada maleza de los cultivos de maz?
Ahora, cundo ser necesario recurrir a los mtodos estadsticos? Los mtodos estadsticos sern tiles en todas aquellas situaciones en las cuales deban tomarse decisiones o hacer
elecciones o emitir opiniones bajo incertidumbre. Es decir, dada una determinada cantidad y calidad de informacin, debe decidirse el camino a seguir y para ello, la Estadstica provee los elementos necesarios para que esas decisiones puedan ser tomadas en forma racional. A su vez, el grado de racionalidad de las decisiones estar determinado por la calidad y cantidad de teora y de la
calidad y cantidad de mtodos de extraccin y anlisis de la informacin de los que se disponga. En este curso elemental e introductorio, expondremos los elementos bsicos de la teora estadstica y de los mtodos que se sustentan sobre ella buscando, en todo momento, enfocarlos
sobre las aplicaciones prcticas ms comunes en la ingeniera agronmica.
La situacin ms comn en la que el ingeniero suele encontrarse es aquella en cual dispone de un conjunto de datos extrados de una masa de informacin mucho ms grande y, probablemente, desconocida y de los cuales debe obtener algn tipo de informacin especfica que responda a sus intereses o interrogantes. Las dudas o interrogantes estarn referidos, la inmensa
mayora de las veces, a una poblacin grande y por grande estamos entendiendo que la poblacin est compuesta por una cantidad de unidades inabarcable por parte del analista y de la
cual deber extraerse una pequea cantidad de unidades denominada muestra.
Podemos definir a la poblacin como un conjunto de elementos fsicos o conceptuales
acerca de los cuales se desea extraer informacin a travs de uno o ms procedimientos. Por
ejemplo, todas las plantas de lamo en explotacin comercial en el delta del Paran.
Por otra parte, una muestra es el conjunto de unidades experimentales realmente observadas o consideradas en un procedimiento de extraccin de informacin. Ejemplo: un conjunto de
50 plantas de lamo que fueron observadas en una dada localidad del delta del Paran en un momento determinado.
Finalmente, una unidad experimental es la mnima cantidad de elementos de una poblacin pasibles de ser observados o considerados en un procedimiento de extraccin de informacin.
Ejemplo: cada planta de lamo en explotacin comercial en el delta del Paran.
En la poblacin est contenida la masa total de informacin que sera deseable (pero,
quizs, imposible) conocer totalmente. En la muestra, est contenida la porcin de informacin que
resulta posible conocer enteramente (los datos) y que servir para, mtodos estadsticos mediante,
deducir o conjeturar cmo es todo el resto de la informacin de la poblacin. A veces, se conoce
toda la informacin contenida en la poblacin. Se trata de poblaciones pequeas o de poblaciones
que, an siendo grandes, admiten, por una u otra razn ser accedidas por el investigador y, por
tanto, en esos casos, puede conocerse toda la informacin y no es necesario tomar ninguna muestra, sino que, directamente, se realiza un censo de toda la poblacin.
Tanto la informacin contenida en una muestra como la contenida en la poblacin total estarn referidas a una o varias magnitudes o variables y pueden ser reducidas o resumidas por una
o unas pocas medidas que las representen. Es decir, comnmente, no es necesario conocer todos
y cada uno de los valores de las variables de inters sino que bastar con conocer solamente alguna medida resumen de ellos. Las medidas resumen que se calculan a partir de los datos de la

Dagoberto Salgado Horta

Pgina 2

muestra se denominan estadsticas o estadsticos y las correspondientes medidas de dichas


variables en la poblacin total, se denominan parmetros.
La primera seccin del curso se dedicar a exponer los mtodos de organizacin, presentacin y descripcin de los datos. Es lo que se denomina Estadstica Descriptiva. Luego, para el
caso ms general en que no se puede acceder a toda la informacin contenida en la poblacin,
para tener la posibilidad hacer conjeturas o pronsticos acerca del resto de la informacin, es decir,
acerca de los parmetros, ser necesario sentar las bases tericas de los mtodos estadsticos
que permiten hacerlo. Por esto, la segunda seccin del curso se destinar al estudio de la teora de
probabilidades, de las variables aleatorias, de los modelos de probabilidad ms comunes y del
muestreo de distribuciones. Finalmente, la tercera seccin, estar abocada al empleo de los mtodos estadsticos que nos permiten hacer conjeturas racionales acerca de los parmetros de la poblacin y, entre ellos, veremos cmo es posible estimarlos, y decidir si, a partir de lo que se lee en
la muestra, un parmetro es reconocido como perteneciente (o se asume que pertenece) a un determinado conjunto de nmeros, o no. Es lo que se denomina Estadstica Inferencial.
Como se dijo antes, en general, lo que ms interesa conocer no son esos valores concretos de las observaciones muestrales sino los valores de la poblacin total (de todas las observaciones posibles) de la cual provinieron; por ejemplo, la probabilidad de obtener un 5 al arrojar un
dado balanceado, o el porcentaje de nacimientos de nias en la Repblica Argentina durante el
prximo ao. Una de las preguntas que la Estadstica Inferencial permite responder es si un conjunto dado de observaciones podran considerarse como debidas al azar o si, por el contrario, reflejan el efecto de algn factor. Este modo de proceder se ha convertido en el mtodo caracterstico
de la ciencia moderna. El cientfico que descubre fenmenos nuevos, relaciones de dependencia,
tendencias o efectos de otro tipo, establece con ellos una hiptesis de trabajo y para constatar su
validez deber garantizar de algn modo que los resultados observados no se deben nicamente
al azar. Todo estudio de este tipo se basa en la consideracin de muestras aleatorias, es decir,
muestras tales que todas las unidades de la poblacin tengan la misma probabilidad de ser elegidas. Si la poblacin total constara de diversas subpoblaciones parciales bien diferenciadas entre
ellas, se tomarn muestras estratificadas. As, por ejemplo, para examinar la calidad panadera de
los trigos producidos en la regin triguera argentina, que comprende 5 subregiones agroecolgicas
con distintos escenarios productivos (ver figura), no podra considerarse como representativa una
bolsa de cereal cosechado en la Subregin IV, ni otra proveniente de la Subregin III o de la V; en
todo caso, podra ser til una bolsa que incluyera cereal cosechado en las cinco subregiones. Todava mejor sera extraer muestras de cada una de las subregiones por separado (Figura 1). En los
sorteos de lotera se emplean mtodos mecnicos para obtener muestras aleatorias. En general,
para obtener una muestra aleatoria se enumeran las unidades de la poblacin y a continuacin se
recurre a una tabla de nmeros aleatorios o a un programa de computadora generador de nmeros
aleatorios. Una vez asignado un nmero a cada unidad perteneciente a la poblacin, se elegirn
aquellas cuyos nmeros coincidan con los nmeros obtenidos en el proceso generador aleatorio.

Dagoberto Salgado Horta

Pgina 3

Figura 1.1.

La razn fundamental por la cual se debe garantizar un proceso aleatorio de extraccin de


las muestras reside en el hecho de que podran subyacer procesos dentro de la poblacin que
afecten sistemticamente a algunas unidades y a otras no, esto es, procesos que afecten a ciertas
unidades especficas poseedoras de alguna caracterstica. Si el muestreo es verdaderamente al
azar, las chances de ser elegidas sern iguales para todas las unidades, tanto las afectadas por el
proceso sistemtico como las no afectadas. En cambio, si el muestreo se realiza siguiendo alguna
preferencia o idea personal por parte del investigador, podra darse el caso de que su idea o preferencia coincida con el patrn de variacin de aquel proceso sistemtico y, entonces, podran resultar elegidas preferentemente las unidades de la poblacin que posean tal caracterstica y los valores numricos calculados a partir de dicha muestra no reflejarn fielmente lo que pasa en el conjunto total de unidades de la poblacin.

Variables Estadsticas: tipos y escalas de registro.


Las variables en estudio pueden ser de dos tipos: Cualitativas o Cuantitativas.
Las variables cualitativas o atributos clasifican o describen a las unidades experimentales.
Los valores que pueden asumir no constituyen un espacio mtrico y, por ello, las operaciones de
clculo no son significativas en ellas. Ejemplos: gnero, nacionalidad, especie, marca registrada,
color, olor, etc.
Las variables cuantitativas o numricas cuantifican a las unidades experimentales. Los
valores que pueden asumir constituyen un espacio mtrico y, por lo tanto, las operaciones de
clculo son significativas en ellas. Ejemplos: cantidad de hojas, nmero de hijos, kilmetros recorridos, tiempo de vuelo, ingreso familiar, longitud de una espiga, etc. Estas variables cuantitativas
pueden a su vez ser distinguidas en discretas o continuas. Las variables cuantitativas discretas
solo pueden asumir una cantidad finita de valores de manera que, entre dos valores cualesquiera,
siempre hay huecos. La operacin que caracteriza a las variables cuantitativas discretas es la operacin de contar. Ejemplos: cantidad de materias aprobadas, cantidad de hijos, nmero de frutos
sanos, nmero de animales marcados, etc. Las variables cuantitativas continuas pueden asumir
cualquier valor dentro de un rango dado. La operacin que caracteriza a las variables cuantitativas
continuas es la operacin de medir. Se pueden medir longitudes, tiempos, superficies, densidades,
volmenes, sumas de dinero, etc. Ejemplos: peso de un animal al nacer, altura de un rbol, litros
de aceite producidos, tiempo de viaje entre dos ciudades, etc.
Para obtener informacin sobre las variables estadsticas se utilizan diferentes escalas de
registro acorde con el tipo de variable. Entre estas escalas de registro se cuentan las escalas nominal, de intervalo y continua.

Dagoberto Salgado Horta

Pgina 4

Escala nominal.
En la escala nominal, las unidades experimentales slo pueden ser clasificadas en categoras sin
ningn ordenamiento ni jerarqua entre ellas. Es aplicable a variables cualitativas. Ejemplos: ciudad
natal, apellido, color de cabello, color de flor, etc.
Escala de intervalo.
En las escala de intervalo, las unidades experimentales pueden ser clasificadas en categoras las
cuales pueden ser ordenadas o jerarquizadas y, adems, se pueden establecer diferencias entre
categoras. Esta escala es aplicable a las variables cuantitativas discretas. Ejemplos: nmero de
personas con empleo, nmero de plantas con flor, etc.
Escala continua.
En la escala continua, las unidades experimentales pueden ser clasificadas en categoras que
pueden ser ordenadas o jerarquizadas y, adems, se pueden establecer diferencias entre categoras y las variables pueden tomar cualquier valor real. Slo es aplicable a las variables cuantitativas
continuas. Ejemplos: gramos de harina, litros de aceite, tiempo de decantacin, etc.

Dagoberto Salgado Horta

Pgina 5

DESCRIPCIN DE LA INFORMACIN
Tal como lo hemos apuntado en el captulo 1, el proceso de extraccin de informacin consiste, en
la mayora de los casos, en la obtencin de una muestra aleatoria de una poblacin grande y, una
vez obtenida la muestra, se procede al estudio de la informacin que ella contiene. El estudio de la
muestra comienza con la que se denomina descripcin de la informacin la cual consiste, a su
vez, en la presentacin, organizacin y resumen de los datos de la muestra.

Ordenamiento, clasificacin y presentacin de los


datos
La primera forma con la que usualmente el analista se encuentra, es una tabla de datos crudos, es
decir, los datos dispuestos de la manera en que los tom el operador. Comnmente, los datos se
registran en cuadros, tablas o planillas. Por ejemplo, el Cuadro 1 contiene 100 datos
correspondientes a las mediciones de dimetros de espigas de maz en milmetros tal como fueron
registrados por el tcnico en el campo experimental, es decir, en el orden en que fueron ledos.
Viendo el Cuadro 2.1, se podran detectar algunas caractersticas aisladas de los nmeros tales
como nmeros muy grandes o muy pequeos en comparacin con los dems o, quizs, algn
vaco de valores en algn segmento del Cuadro, pero no mucho ms que eso. Para poder extraer
ms informacin de los datos, stos deben estar clasificados u organizados.
Cuadro 2.1. Cien mediciones de
dimetros de espigas de maz, en
milmetros

56.0
41.0
53.1
46.0
40.2
53.8
47.7
51.6
44.4
52.7
44.6
51.5
47.2
47.5
44.0
50.0
48.4
54.0
46.0
51.3

51.8 54.4 53.0


51.0 51.8 54.4
46.1 44.9 49.0
45.6 58.0 55.4
45.2 52.3 55.4
51.1 49.0 65.2
48.3 51.0 63.8
47.6 53.3 59.1
51.2 60.7 52.6
50.1 54.7 61.0
46.4 56.5 53.0
40.0 52.7 51.4
55.1 55.5 61.0
52.5 52.3 57.2
51.1 50.0 55.3
51.7 49.5 56.3
54.3 52.0 58.7
50.6 53.5 51.4
46.7 55.0 64.6
47.7 43.0 54.2
Total: 5093.1

Dagoberto Salgado Horta

54.3
52.5
53.8
53.7
54.6
59.6
60.0
55.3
39.7
43.0
42.0
39.7
44.6
42.6
43.0
39.0
46.9
41.6
43.3
46.7

Cuadro 2.2. Datos del Cuadro 2.1.,


clasificados en orden ascendente.

39.0
39.7
39.7
40.0
40.2
41.0
41.6
42.0
42.6
43.0
43.0
43.0
43.3
44.0
44.4
44.6
44.6
44.9
45.2
45.6

46.0
46.0
46.1
46.4
46.7
46.7
46.9
47.2
47.5
47.6
47.7
47.7
48.3
48.4
49.0
49.0
49.5
50.0
50.0
50.1

50.6
51.0
51.0
51.1
51.1
51.2
51.3
51.4
51.4
51.5
51.6
51.7
51.8
51.8
52.0
52.3
52.3
52.5
52.5
52.6

Pgina 6

52.7 55.3
52.7 55.3
53.0 55.4
53.0 55.4
53.1 55.5
53.3 56.0
53.5 56.3
53.7 56.5
53.8 57.2
53.8 58.0
54.0 58.7
54.2 59.1
54.3 59.6
54.3 60.0
54.4 60.7
54.4 61.0
54.6 61.0
54.7 63.8
55.0 64.6
55.1 65.2

Una forma muy simple de organizar la informacin contenida en los datos consiste en
disponerlos en orden a su magnitud, es decir, clasificarlos en orden ascendente o descendente. En
el Cuadro 2.2 se han dispuesto las 100 mediciones del Cuadro 2.1 en orden ascendente.
Con los datos clasificados como en el Cuadro 2.2 se pueden hacer algunas cosas ms que
con los datos crudos como, por ejemplo, detectar cules son los valores mximo y mnimo del
conjunto o ver si hay alguna discontinuidad en la secuencia de los nmeros, o ver si los nmeros
tienen alguna tendencia a agruparse en alguna zona determinada. Pero, an con las ventajas que
presenta, en la mayora de los casos la clasificacin no le basta al investigador o al ingeniero para
alcanzar sus objetivos. Un paso ms decisivo en ese sentido lo representa la condensacin de los
datos en una tabla o distribucin de frecuencias. En el Cuadro 2.3 se presenta la tabla de
frecuencia correspondiente a los datos de los Cuadros 2.1 y 2.2.
Cuadro 2.3. Tabla de frecuencias correspondiente a los datos de los cuadros 2.1 y 2.2.

Punto medio
(mi)
37.5
42.5
47.5
52.5
57.5
62.5
67.5

Clase
(35 40]
(40 45]
(45 50]
(50 55]
(55 60]
(60 65]
(65 70)
Total

Frecuencia de
clase (fi)
4
14
21
40
15
5
1
100

La tabla de frecuencias consiste en el agrupamiento de la masa de datos clasificados en un


nmero reducido de grupos o clases delimitados por valores preestablecidos (intervalos de clase).
Ya no existen ms los valores individuales de los datos. Esta reduccin implica, ciertamente, un
cierto grado de prdida de informacin porque, por ejemplo, del dato correspondiente al dimetro
de 46.9 slo sabemos ahora que est en algn lugar dentro de la tercera clase de la tabla de
frecuencias. En este curso solo veremos distribuciones de frecuencia con intervalos de clase
uniformes, es decir que las tablas de frecuencia tendrn todos los intervalos con el mismo ancho.
En la distribucin del Cuadro 2.3, todos los intervalos tienen un ancho igual a 5 milmetros.
Los valores extremos de cada intervalo de clase son los lmites inferior y superior del
intervalo. Por ejemplo, el lmite inferior de la cuarta clase de la tabla es 50 mm y el lmite superior
de la misma es 55 mm. Debemos notar que el valor del lmite superior de una clase puede coincidir
con el del lmite inferior de la siguiente pero el dato correspondiente a ese valor debe pertenecer a
una y solo una de las clases. Para eludir esta ambigedad se utiliza el smbolo ] para indicar la
inclusin y el smbolo ( para indicar la exclusin de ese valor. Por ejemplo, el dato 50 pertenece a
la 3 clase y no a la 4. En la tercera columna de la tabla se escriben las frecuencias absolutas
correspondientes a cada clase. Las frecuencias absolutas no son otra cosa que la cantidad de
datos que hay en cada clase. Por ejemplo, hay 40 datos dentro de la 4 clase y 15 datos dentro de
la 5. La suma de las frecuencias de clase (fi) debe ser, obviamente, igual al total de datos en la
muestra (usaremos el smbolo n para denotar el nmero de datos cuando se trate de una muestra
y el smbolo N, cuando se trate de una poblacin). Otro punto importante de cada clase es la
marca de clase que no es otra cosa que el punto medio entre ambos lmites. Por ejemplo, la
marca de la 6 clase es 62.5. En cuanto al nmero de clases a emplear para construir la tabla de
frecuencias, eso depende de varias consideraciones pero, a modo de regla emprica, digamos que
el nmero de clases debera estar entre 5 y 15. En nuestro ejemplo hay 100 datos y la amplitud
total (es decir, la diferencia entre el mximo y el mnimo) es de 65.2 39.0 = 26.2. Para estos
datos se eligi un ancho para los intervalos de clases de 5 mm y, por tanto, un total de 7 clases.
La tabla de frecuencias, a pesar de la reduccin en la informacin que implica, presenta una
serie de ventajas. Por ejemplo, utilizando tablas de frecuencias es ms fcil comparar dos
conjuntos de datos. Adems, es ms fcil obtener las medidas que permiten resumir la informacin

Dagoberto Salgado Horta

Pgina 7

en unos pocos nmeros. Finalmente, la tabla de frecuencias hace mucho ms fcil la obtencin de
grficos representativos de la distribucin de los datos en la muestra o en la poblacin.

Representaciones grficas
Existen muchas maneras de representar grficamente una distribucin de frecuencias. En este
curso veremos tres de las ms importantes: el histograma, el polgono de frecuencias y el
diagrama de caja y bigotes. Un histograma es una representacin en la cual se inscriben en el
eje de abscisas los valores de la variable en estudio y en el eje de ordenadas los valores de las
frecuencias. El histograma correspondiente a los datos del Cuadro 2.3 se presenta en la figura
siguiente:

Figura 2.1. Histograma


correspondiente a los
datos del cuadro 1.3.

El polgono de frecuencias se obtiene, simplemente, uniendo mediante una lnea poligonal


los puntos medios en la cima de la barras del histograma de la distribucin. En la siguiente figura
se representan conjuntamente el polgono de frecuencia y el histograma correspondientes a los
datos del cuadro 2.3:
Figura 2.2. Polgono de
frecuencia e histograma
correspondientes a las
datos del cuadro 2.3.

El histograma es una representacin muy completa de la distribucin de frecuencias y


superior al polgono pero, con todo, el polgono tiene utilidad en muchas instancias. Por ejemplo, el
polgono es especialmente til cuando se desean comparar dos distribuciones puesto que la
superposicin de los histogramas dara un grfico confuso y difcil de interpretar mientras que la
superposicin de los polgonos deja espacio para una lectura cmoda y rpida. Otra ventaja del
polgono de frecuencias es que puede, en ocasiones, ayudar a descubrir si hay alguna funcin
matemtica que pueda describir eficazmente la distribucin real subyacente a la totalidad de los
datos de la poblacin.

Dagoberto Salgado Horta

Pgina 8

De los polgonos de frecuencias a las curvas poblacionales


Si tomsemos una muestra muy grande podramos acercarnos a la verdadera
distribucin de frecuencias de la poblacin y cuanto ms grande sea la muestra
ms cerca de aquella estaremos. Pero raras veces se puede tomar una muestra
tan grande que pueda absorber las irregularidades causadas por el tamao de
las muestras pequeas. En cambio, una muestra pequea eficientemente
tomada puede ser muy til en sugerir la verdadera curva de la poblacin (curva
poblacional) mediante una funcin matemtica derivada de los datos. Los tipos
de curva poblacional ms comunes se presentan en la siguiente figura:

(a)

(c)

(b)

Figura 3.3. Ejemplos ms frecuentes


de curvas poblacionales:
(a) Distribucin normal.
(b) Distribucin bimodal.
(c) Curva asimtrica positiva.
(d) Curva de J invertida

(d)

Poder contar con una descripcin matemtica ajustada de la distribucin de una


variable en la poblacin puede ser muy til en el momento de tomar decisiones a
partir de datos muestrales. Algunas clases ms adelante haremos suposiciones
acerca de las distribuciones de las variables en las poblaciones basndonos en
distribuciones aproximadas desde las muestras.
Los tipos de curva poblacional ms comunes se representan en la figura con las
letras (a), (b), (c) y (d). La curva (a) representa una distribucin de frecuencias
muy comn de hallar en la naturaleza y en los problemas de ingeniera y que
describiremos en un captulo posterior: la distribucin normal. La curva (b) es
una distribucin bimodal, es decir, una distribucin que presenta dos puntos de
mxima frecuencia denominados modas. Definiremos a la moda algunas
pginas ms adelante. Las curvas bimodales suelen observarse en poblaciones
que esconden dos distribuciones internas. La curva del tipo (c) es una curva
asimtrica positiva, es decir, una curva asimtrica con su cola ms larga hacia
la derecha de los valores del eje x. Finalmente, la curva (d) es una curva en
forma de J invertida

El tercer tipo de representacin que veremos es el diagrama de caja y bigotes. Este tipo
de grfico presenta los valores de la variable en el eje de ordenadas, contrariamente al histograma
y al polgono que presentan los valores de la variable sobre el eje de abscisas. Consiste en una
caja que representa el 50% central de la distribucin de los datos ordenados, es decir, desde el
dato que deja por detrs suyo (en orden ascendente) al 25% de los datos, hasta el dato que deja
por detrs suyo (en orden ascendente) al 75% de los datos. Mediante los bigotes pueden
representarse diferentes medidas aunque lo ms comn es que se represente a los valores
mximo y mnimo de la distribucin. Finalmente, mediante un smbolo especial (una estrella, un
segmento, un cuadrado, etc.) se representa la mediana de la distribucin, es decir, el valor que

Dagoberto Salgado Horta

Pgina 9

tiene por debajo suyo al menos el 50% de los datos y por encima al menos el otro 50%.
Definiremos ms delante a la mediana. En la siguiente figura se presenta el diagrama de caja y
bigotes de la distribucin de frecuencias del Cuadro 2.3.

Figura 2.4. Diagrama


de caja y bigotes de la
distribucin
de
frecuencias del cuadro
2.3.

Frecuencias relativas
Las frecuencias relativas se obtienen a partir de las frecuencias absolutas de una manera muy
simple: se divide cada frecuencia absoluta por el nmero total de datos de la muestra (o de la
poblacin), es decir, fi/n fi/N y se las denota como fri. En el siguiente cuadro se presenta la
distribucin de frecuencias relativas correspondiente a los datos de dimetro.
Cuadro 2.4. Frecuencias relativas correspondientes a los datos de dimetro de
espigas de maz. (Muestra 1)

Clase
(35 40]
(40 45]
(45 50]
(50 55]
(55 60]
(60 65]
(65 70]
Total

100

Frecuencia
(fi)

Frecuencia
relativa (fri)

4
14
21
40
15
5
1

0.040
0.140
0.210
0.400
0.150
0.050
0.010
1.000

Una de las grandes utilidades de la distribucin de frecuencias relativas es que permite


comparar distribuciones de frecuencias correspondientes a datos de diferente magnitud. Veremos
un ejemplo de su utilidad. Supongamos que queremos comparar nuestra distribucin de
frecuencias de dimetros de espigas de maz con otra distribucin tambin de dimetros de
espigas de maz pero correspondiente a una muestra ms grande de n = 200.
Los datos correspondientes a la primera muestra (n = 100) se presentan en el cuadro 2.4.
Los datos correspondientes a la segunda muestra (n = 200) con la cual se desea comparar la
primera, se presentan en Cuadro 2.5.

Dagoberto Salgado Horta

Pgina 10

Cuadro 2.5. Frecuencias relativas correspondientes a los datos de dimetro de


espigas de maz. (Muestra 1)

Los
polgonos
de
Frecuencia
Frecuencia
frecuencias
de
Clase
(fi)
relativa (fi)
ambas
(35 40]
5
0.025
distribuciones
(40 45]
10
0.050
permitirn
observar cul
(45 50]
37
0.185
es la utilidad
(50 55]
70
0.350
del clculo de
(55 60]
40
0.200
las
(60 65]
29
0.145
frecuencias
(65 70]
9
0.045
relativas. En
la figura 2.5.
Total
200
1.000
se presentan
las frecuencias absolutas de ambas distribuciones y, como puede verse claramente, ambos
polgonos no se pueden comparar, simplemente, porque la segunda muestra es ms grande que la
primera y, por esta razn, el polgono de frecuencias absolutas refleja este hecho.
En cambio, si graficamos los polgonos de frecuencias relativas de ambas muestras la
comparacin resulta vlida y pueden verse las diferencias entre ambas muestras sobre una base
homognea. En la figura 2.6. pueden verse los polgonos de las frecuencias relativas de ambas
muestras y se nota claramente como, por ejemplo, en la muestra 2 las espigas con dimetros
superiores son un poco ms frecuentes, en trminos relativos, que en la muestra 1 mientras que
las espigas con dimetros bajos son menos frecuentes, en general, en la muestra 1 que en la
muestra 2.
Figura 2.5. Polgonos de
frecuencias absolutas de la
muestra 1 y la muestra 2.

Figura 2.6. Polgonos


de frecuencias relativas
de las muestras 1 y 2.

Frecuencias acumuladas
Dagoberto Salgado Horta

Pgina 11

Muchas veces, el inters del investigador no est puesto en la frecuencia absoluta o relativa de un
determinado valor o intervalo de clase sino en el conjunto de valores que est por encima o por
debajo de un valor especfico. Por ejemplo, el nmero o porcentaje de animales de un rodeo que
pesa, por lo menos, 350 kg, o el nmero de plantas de trigo que presentan, a lo sumo, dos espigas
infectadas por un hongo patgeno. Para poder contestar rpidamente este tipo de preguntas se
calculan las denominadas frecuencias acumuladas, tanto absolutas como relativas.
El clculo de las frecuencias acumuladas (Fi o Fi/n) se puede hacer en forma ascendente o
descendente y es muy simple: en el primer caso, consiste en acumular los valores de las
frecuencias absolutas (o relativas) hasta alcanzar el mximo valor, n (o 1); en segundo, consiste en
ir restando o desacumulando las frecuencias absolutas (o relativas) desde el mximo valor, n (o 1)
hasta llegar a 0. Ahora se aplicarn estos clculos al ejemplo de los dimetros de las espigas de
maz con el que se viene trabajando.
Cuadro 2.6. Clculo de frecuencias acumuladas.

Creciente
Clase
(35 40]
(40 45]
(45 50]
(50 55]
(55 60]
(60 65]
(65 70]

fi

Fi

4
14
21
40
15
5
1

4
18
39
79
94
99
100

Decreciente
Fi/n
0.04
0.18
0.39
0.79
0.94
0.99
1.00

Fi
100
96
82
61
21
6
1

Fi/n
1.00
0.96
0.82
0.61
0.21
0.06
0.01

Las frecuencias acumuladas se representan mediante el grfico como el de la figura 2.7.:


Figura 2.7. Ojiva,
representacin de
frecuencias
acumuladas.

La distribucin de frecuencias acumuladas se utiliza para calcular grficamente valores


tanto sobre el eje de abscisas como sobre el eje de ordenadas. En la figura anterior, sobre el eje
de ordenadas de la izquierda, se representaron las frecuencias absolutas acumuladas y sobre el
eje de ordenadas de la derecha, las frecuencias relativas acumuladas. Por ejemplo, como se
muestra en la figura, si queremos conocer la frecuencia acumulada absoluta correspondiente a los
47.5 mm de dimetro, solo tenemos que ascender en lnea recta desde la posicin 47.5 sobre el
eje de abscisas hasta llegar a la ojiva y, a partir de ella, seguir en lnea recta horizontal hasta
interceptar el eje de ordenadas de la izquierda, para obtener el valor 39. Tambin podemos usar la
ojiva en forma inversa. Por ejemplo, si queremos saber cul es el valor que acumula el 50% de la
observaciones de dimetro, partimos del punto 0.50 sobre el eje de ordenadas de la derecha,
seguimos en lnea recta horizontal hasta llegar a la ojiva y, desde all, descendemos en lnea recta
vertical hasta llegar al eje de abscisas, para obtener un valor aproximado de 49 mm.

Dagoberto Salgado Horta

Pgina 12

Variables cualitativas
Hasta ahora hemos visto tablas de frecuencias y representaciones grficas para variables
cuantitativas pero todo esto tambin puede hacerse para variables cualitativas. La tabla de
frecuencias correspondiente a una variable cualitativa muestra, simplemente, las frecuencias, tanto
absolutas como relativas, tanto simples como acumuladas, para cada una de las categoras en las
que est clasificada la variable. Supongamos, por ejemplo, que se recibe una encomienda de 200
unidades de un material clasificado segn su grado de pureza en 5 categoras: muy puro, puro,
mediano, impuro y muy impuro. Una vez hecho el recuento se obtienen los resultados de la
siguiente tabla:
Cuadro 1.7.

La
representacin
Relativa
grfica
que
Muy puro
35
0.175
puede usarse
Puro
59
0.295
es
un
diagrama
de
Mediano
52
0.260
barras
Impuro
42
0.210
verticales
u
Muy impuro
12
0.060
horizontales
Total
200
1.000
en el que se
indican
las
categoras de la variable sobre el eje de abscisas y las frecuencias, sobre el de ordenadas. A
continuacin se presenta un diagrama de barras verticales correspondiente al ejemplo de la pureza
de los materiales. Cabe aclarar que los anchos de las barras son enteramente arbitrarios y no
tienen significado prctico aunque deben ser iguales entre s.
Frecuencia
Absoluta

Figura 1.8. Diagrama


de barras verticales.

Medidas resumen de la informacin


El proceso de resumen de la informacin no se detiene con la distribucin de frecuencias. An se
puede resumir mucho ms sin que por eso se pierda la posibilidad de rescatar la informacin
verdaderamente til y que resulta de inters. El proceso contina con la obtencin de las
denominadas medidas resumen. Veremos dos clases bsicas de medidas: (a) las medidas de
posicin (tambin llamadas medidas de tendencia central) y, (b) las medidas de dispersin.

Medidas de posicin
Las medidas de posicin o de tendencia central dan una idea de cmo es la estructura de los
datos, especialmente, la regin central de la distribucin de los mismos y, por ese motivo, reciben

Dagoberto Salgado Horta

Pgina 13

la denominacin general de promedios. Aunque no siempre, algunas medidas de posicin no


estn relacionadas con la regin central de la distribucin sino con otras partes de la misma. Las
medidas promedio guardan cierta semejanza con el concepto de centro de gravedad de un cuerpo
fsico. Hay muchas medidas de posicin pero en este curso veremos solamente tres: (i) los
cuantiles y la mediana, (ii) la moda y, (iii) la media aritmtica.
Los cuantiles
Los cuantiles son medidas que se obtienen sobre la distribucin de los datos clasificados. Una vez
ordenados los datos en orden ascendente, se buscan en los mismos, ciertas posiciones
especficas de inters. Las tres clases de cuantiles ms comunes son: (i) los cuartiles, (ii) los
deciles y, (iii) los percentiles. Los cuartiles son posiciones que dividen la distribucin de los datos
en cuatro secciones. La primera va desde el valor mnimo hasta el valor que deja por debajo suyo,
por lo menos, al 25% de los datos y por encima suyo, por lo menos, al 75% de los mismos; este
valor recibe el nombre de primer cuartil y se lo simboliza q1. La segunda va desde el primer cuartil
hasta el valor que deja por debajo suyo, por lo menos, al 50% de los datos y por encima suyo, por
lo menos, al otro 50% de los mismos; este valor recibe el nombre de segundo cuartil o mediana
de la distribucin y se lo simboliza q2, o x.5. La tercera va desde la mediana hasta el valor que deja
por debajo suyo, por lo menos, al 75% de los datos y por encima suyo, por lo menos, al 25% de los
mismos; ste valor recibe el nombre de tercer cuartil y se lo simboliza q3. Y la ltima que va desde
q3 hasta el valor mximo.
La moda
La moda simbolizado xm, es, simplemente, el valor ms frecuente de la distribucin. Dada su
definicin, es posible encontrarse con distribuciones cuyos valores tengan, todos, la misma
frecuencia: en ese caso, la distribucin de los datos carece de moda. O podra darse el caso de
una distribucin que posea ms de una moda. Por ejemplo, en la seccin sobre curvas
poblacionales, vimos una curva que posea dos modas (curva bimodal).
La media aritmtica
La media aritmtica es, simplemente, el resultado de dividir la suma de todos los valores por n, el
tamao de la muestra (o N, si se tratara de una poblacin) y se la simboliza x :

x + x2 + + x n
x= 1
n
(2.1)

1 n
= xi
n i =1

Las calculadoras de bolsillos con modo estadstico (SD) permiten calcular la media aritmtica
(aparecen con el smbolo x ). Aplicando la frmula a los datos de muestra del cuadro 2.1,
obtenemos:

x=

1 n
xi
n i =1

1
(5093.1)
100
= 50.931 mm
=

La media aritmtica tiene las siguientes dos propiedades de gran inters para el anlisis de datos:

Dagoberto Salgado Horta

Pgina 14

I.

que la suma de los desvos de todos los valores de la muestra con respecto a la media
aritmtica es igual a 0:

(x

x) = 0

II.

que la suma de las desviaciones de los datos con respecto a la media elevadas al
cuadrado, es menor que la suma de las desviaciones de los datos con respecto a
cualquier otro valor elevadas al cuadrado.

(x

x ) = mn .
2

La ltima propiedad cobrar relevancia cuando se definan las medidas de dispersin.


Cuando la muestra presenta valores repetidos muchas veces, conviene utilizar la media
aritmtica ponderada que se calcula con la frmula general que se dio ms arriba salvo que se
indica mediante factores (ponderaciones) la cantidad de veces que se repite cada valor. Por
ejemplo, supongamos la siguiente muestra: 1, 1, 3, 3, 3, 3, 3, 4, 5, 5, 5, 5, 5, 5, 5, 6, 7, 7, 7, 8, 8, 8,
8, 8, 8, 8, 8, 9 ,9, 9, 9, 9, 9, 9, 13, 15, 15, 15, 15, 15, 18, 23, 23, 24, 24, 24, 24, 24, 25, 25. Son 50
datos, algunos de los cuales se repite varias veces. Entonces, en lugar de calcular la media con la
frmula anterior, sumando los valores uno por uno, se multiplica cada valor por su ponderacin y
se divide el total por n (en este ejemplo, n = 50):

x=

1 2 + 3 5 + 4 1 + 5 7 + 6 1 + +7 3 + + 24 5 + 25 2 532
=
= 10.64
2 + 5 +1+ 7 +1+ 3 ++ 5 + 2
50
Una frmula general para este clculo es:

xw =

1
xi wi

wi i

(2.2)

donde x w es la media aritmtica ponderada, xi son los valores de las observaciones individuales y
wi son las ponderaciones

Medidas de dispersin
Las medidas de posicin, especialmente los promedios (media, mediana y moda), como se dijo
antes, dan una idea de cul es el centro de gravedad de la masa de datos pero nada dicen de
cmo estn distribuidos los datos alrededor de esos puntos centrales. Por ejemplo, la distribucin
formada por los nmeros 1, 4, 8, 13, 18, 22 y 25 y la distribucin formada por los nmeros 10, 11,
12, 13, 14, 15 y 16 tienen, ambas, la misma media aritmtica, x = 13 pero no cabe ninguna duda
de que la primera de las distribuciones tiene los datos ms dispersos alrededor del punto central,
que la segunda. Entonces, para completar la caracterizacin de una distribucin de frecuencias, se
necesita contar con alguna medida de esa dispersin. En este curso veremos tres principales, la
amplitud, la amplitud intercuartil y la variancia y otras dos que derivan de la variancia: el desvo
standard y el coeficiente de variacin.
Amplitud
La amplitud es la medida de dispersin ms simple. Esta medida tambin se la conoce con el
nombre de rango, aunque es ms apropiado el trmino amplitud. En un conjunto de n
observaciones x1, x2, x3, ...xn la amplitud se define como la diferencia entre el mximo (xmax) y el
mnimo (xmin). A pesar de la facilidad de clculo y la simpleza de esta medida, la amplitud puede
resultar insensible a la variacin de los datos, sobretodo en conjuntos grandes de datos.

Dagoberto Salgado Horta

Pgina 15

Amplitud intercuartil
La amplitud intercuartil, como su nombre lo indica claramente, es la diferencia, en valor absoluto,
entre q1 y q3 e incluye, por esta misma razn, el 50% central de la distribucin de frecuencias. Es la
que determina la longitud de la caja en el diagrama de caja y bigotes que vimos pginas atrs.

Variancia y desvo standard


La variancia indica la dispersin existente en los datos alrededor de la media aritmtica y se define
como el promedio de los cuadrados de las diferencias entre los datos y su media.

1 n
Variancia ( X ) = ( xi x )2
n i =1

(2.3)

El los captulos siguientes estimaremos la variancia de una poblacin a partir de los datos
de una muestra, utilizando la frmula, ligeramente diferente de la presentada en 2.3., que
indicamos a continuacin.

s n21 =

n
1
2
( xi x )
n 1 i =1

(2.4)

Como la variancia es un promedio de desvos elevados al cuadrado, sus son las unidades
originales elevadas al cuadrado. Para eliminar esta inconveniencia, se suele medir la dispersin de
los datos por medio del desvo standard que no es otra cosa que la raz cuadrada de la variancia.
Las calculadoras de bolsillos con modo estadstico (SD) permiten calcular tanto sn como sn-1
(aparecen con los smbolos xn y xn-1).
Ilustraremos el clculo de la variancia con un ejemplo. En el siguiente cuadro se presentan
los registros de los rendimientos en grano de un hbrido de girasol (en Kg/parcela) en 10 ensayos
experimentales:

125 120 118 133 127 119 130 124 131 121
Para aplicar la frmula, primeramente debemos calcular la media aritmtica la cual resulta
ser

1248
= 124.8 . Luego, podemos ordenar las cifras en forma de cuadro para facilitar los
10

x=

clculos (x representa el rendimiento, en Kg/parcela):


X

( xi x )

120
2

125

118

133

127

119

130

124

131

121

23.04 0.04 46.24 67.24 4.84 33.64 27.04 0.64 38.44 14.44 255.6

Luego:

s (2n ) X =

255 .6
= 25.56 s ( n ) X = 25.56 5.055 Kg/parcela;
10

y:

s (2n 1) X =

1248

255.6
28.4 s ( n1) X = 28.4 5.329 Kg/parcela.
(10 1)

Dagoberto Salgado Horta

Pgina 16

La muestra ha sido pequea y, por esta razn, hay una diferencia ms o menos notoria
entre ambas frmulas de variancia pero, con muestras ms o menos grandes (digamos, n > 30), la
diferencia se hace insignificante.
Coeficiente de Variacin
Cuando se necesita comparar el grado de variabilidad en la informacin entre dos muestras
correspondientes a poblaciones diferentes en la magnitud de los datos, el solo uso del desvo
standard no es suficiente porque surgirn diferencias que se deben a la naturaleza de los datos y
no a las variaciones de las muestras en s. En ese caso, se recurre a una medida relativa de la
variabilidad denominada coeficiente de variacin (cv) que es, simplemente, el cociente entre el
desvo standard y la media aritmtica, multiplicado por 100. Para sn-1 tenemos:

cv =

s n 1
100
x

(2.5)

Ejemplo.
Se cuenta con una muestra de pesos de cerdos y con otra muestra de pesos de gallinas, y
se desea saber cul es comparativamente ms variable. Los valores de medias y desvos
son los siguientes:
Cerdos:

x1 = 324

Kg.; s( n1)1 = 38.8 Kg.;

Gallinas: x2 = 1.6 Kg.; s( n1) 2 = 0.299 Kg.


Obviamente, los pesos de los cerdos tienen una variabilidad absoluta mucho mayor
pero, son realmente, ms variables en relacin con su media? Calculemos los respectivos
cv:

cv(x1 ) =

s( n 1)1
x1

38.8
100
324
= 12

cv(x 2 ) =

s( n 1) 2
x2

0.299 .
1.600
= 18.7
=

Vemos que la variabilidad relativa en las gallinas es un 57% mayor que la


correspondiente a los cerdos, aunque su desvo standard sea menor.

Clculos de media y variancia partiendo de distribuciones de frecuencia (datos agrupados)

Dagoberto Salgado Horta

Pgina 17

La media aritmtica y la variancia suelen calcularse al mismo tiempo para datos


agrupados, porque, para ambas medidas, puede usarse la misma hoja de trabajo. Advirtase que
ambas medidas requieren todos los valores individuales de la muestra. Pero sabemos que esos
valores se pierden en el proceso de organizar una distribucin de frecuencias. Esta dificultad se
evita si usamos el punto medio (mi) de la i-sima clase para representar todos y cada uno de los
valores individuales de dicha clase.
Repitiendo este procedimiento para todas las clases se obtiene el valor total de toda la
distribucin. En consecuencia, la media aritmtica para datos agrupados, con k clases, puede
definirse como:

x=

f 1 m1 + f 2 m2 + + f k mk 1 k
= f i mi
f1 + f 2 + + f k
n i =1

(2.6)

En trminos de datos agrupados, la variancia puede definirse como:

s n2 =

1 k
2
f i (mi x )

n i =1

s n21 =

1 k
2
f i (mi x )

n 1 i =1

o, ms sencillamente:
Para los datos del Cuadro 3:
mi 37.5 42.5 47.5 52.5 57.5 62.5 67.5 Total
fi

14

21

40

15

100

obtenemos:

x=

4 37.5 + 14 42.5 + + 1 67.5 5085


=
= 50.85 mm.
4 + 14 + + 1
100

Para la variancia:

mi

37.5

42.5

47.5

52.5

57.5

62.5

67.5

mi x -13.35 -8.35 -3.35 +1.65 +6.65 +11.65 +16.65


fi

s n2 =

14

21

40

15

( 13.35)2 4 + ( 8.35)2 14 + + (+ 16.65)2 1 = 3652.75 = 36.5275


100

y s n21 =

100

100
36.5275 = 36.8965 .
100 1

Las desviaciones standard: sn = 6.044 mm y sn-1 = 6.074 mm.

Dagoberto Salgado Horta

Pgina 18

(2.7)

(2.8)

Ejercicios
2.1

Un fabricante de medicamentos veterinarios est interesado en la proporcin de


animales que padecen infecciones locales cuya condicin puede ser controlada por un
nuevo producto desarrollado por la empresa. Se condujo un estudio en el que participaron
5000 animales que padecen infecciones locales y se encontr que en el 80% de los
animales se puede controlar la infeccin con el medicamento. Suponiendo que los 5000
animales son representativos del grupo de animales con infecciones locales, conteste las
siguientes preguntas:

a.
b.
c.
d.
e.
2.2

Cul es la poblacin?
Cul es la muestra?
Identifique el parmetro de inters.
Identifique la estadstica y proporcione su valor.
Se conoce el valor del parmetro?

En los siguientes incisos, indique cul es la variable en estudio y qu clase de variable es:

a.
b.
c.
d.
e.
f.
g.

Color de flores.
Razas de bovinos.
Punto de fusin del manganeso.
Altura de tallo.
Salarios por hora.
Porcentaje de asistencia.
Nmero de ptalos de una flor.
h. Monto de las acciones vendidas.
2.3

Cargar los datos del Cuadro 1 en una planilla Infostat y realizar las
siguientes tareas:

a. construir una tabla de frecuencias con las mismas especificaciones


que la del Cuadro 3;
b. construir un histograma de frecuencias absolutas como el de la pgina 7
solicitndole al programa que incluya las marcas de clase;
c. solicitarle a Infostat que inscriba el polgono de frecuencias sobre el histograma
construido en el punto (b);
d. construir un diagrama de caja y bigote como el de la pgina 9;
e. construir una tabla de frecuencias relativas con las mismas especificaciones que
la de la pgina 9 para n = 100;
f. construir una tabla de frecuencias acumuladas crecientes con las mismas
especificaciones que la de la pgina 11;
g. construir una ojiva con las frecuencias absolutas obtenidas en la tabla del punto
(f);
h. construir una ojiva con las frecuencias relativas obtenidas en la tabla del punto
(f);

Dagoberto Salgado Horta

Pgina 19

i. utilizando las ojivas obtenidas en el punto (h) , determine aproximadamente los


valores q1, q2 y q3;
j. Utilizando la opcin Medidas Resumen de Infostat, calcule los valores q1, q2, q3, la
media, la variancia y el coeficiente de variacin de los datos del Cuadro 1.
2.4

Los siguientes datos representan el nmero de tomates rechazados por da en un mercado


mayorista. Los datos corresponden a 50 das seleccionados aleatoriamente:
29
12
83
95
28

a.
b.
c.
d.
e.
f.

2.5

58
73
23
63
91

80
54
71
86
87

35
91
63
42
15

30
45
47
22
67

23
28
87
44
10

88
61
36
88
45

49
61
8
27
67

35
45
94
20
26

97
84
26
33
19

Construya una tabla de frecuencias con 10 clases.


Construya un histograma y la ojiva que corresponda a la tabla anterior.
Construya un diagrama de caja y bigotes.
Qu valor de la variable es superado por el 50% de las observaciones?
Cul es el valor de la variable que se presenta un mayor nmero de veces?
Utilice todos los datos y la tabla de frecuencias para encontrar la media, el desvo
standard y el coeficiente de variacin de los nmeros de tomates que se rechazan.

El cultivo de soja en nuestro pas se encuentra en expansin. En la provincia de Buenos


Aires, el INTA determin el rendimiento de 40 plantaciones (en toneladas/ha),
obteniendo los siguientes resultados:
Rendimiento (tn/ha)

N de campos

0-1
1-2
2-3
3-4
4-5
>5

2
9
10
13
5
1

a.
b.
c.
d.
e.

Clasificar y definir la variable.


Identificar la unidad experimental, la muestra y la poblacin en el estudio.
Calcular el rendimiento promedio de soja.
Cul es el rendimiento ms frecuente?
Cul es el valor de la variable superado por el 50 % de las observaciones de los
rendimientos?
f. Durante el mismo perodo, en el sur de Santa Fe, se registr un rendimiento
promedio de 3.3 tn/ha, con un desvo estndar de 0.62 tn/ha. Cul de las 2
producciones medias fue mayor y cul ms variable?
g. Cul es el rendimiento superado por el 90 % de los campos muestreados?

Nota: Para realizar los clculos tome como marca de la ltima clase el valor 5.5.

Dagoberto Salgado Horta

Pgina 20

2.6

El bicho taladro (Platypus mutatus) es una de las plagas ms importantes que afecta la
calidad de la madera para uso comercial. Se determin la presencia de esa plaga segn
el nmero de orificios activos que presentaban los fustes de lamos de una plantacin
comercial. Los resultados fueron los siguientes:
N de orificios activos 0
N de fustes

5 6 7 8 9

12 38 28 16 13 11 9 7 5 1

a. Clasificar y definir la variable.


b. Identificar la unidad experimental, la muestra y la poblacin en el estudio.
c. Se considera que la madera es apta para comercializarse si presenta, a lo sumo,
2 orificios activos.
i. Qu porcentaje de los rboles no podrn comercializarse?
d. Cul es el promedio de orificios en los lamos que pueden comercializarse y
cul, en los que no pueden?
e. En qu caso el nmero de orificios activos por fuste es ms homogneo
teniendo en cuenta las dos categoras definidas previamente (comercializables
y no comercializables)?
f. Cul es el nmero ms frecuente de orificios activos por fuste?
g. Cuntos orificios activos por fuste poseen el 25 % de los lamos ms
afectados?
h. Entre qu valores se encuentra al 80 % de las observaciones centrales.
i. Dibujar e interpretar el diagrama de caja en trminos del problema.
2.7

En una importante empresa lctea hay 600 empleados que cobran $400, 500 que cobran
$600, 100 que cobran $2200 y 5 socios que perciben $100.000 cada uno. Calcular la
media, mediana y la moda y discutir cul de estos 3 estadsticos de tendencia central
estima mejor el sueldo medio de los empleados de la empresa.

2.8

Ambos histogramas representan la distribucin de tamaos (DAP: dimetro a la altura


del pecho) de una poblacin de Prosopis caldenia (caldn) localizada en Luan Toro,
provincia de La Pampa. (a) histograma de frecuencias relativas y (b) histograma de
frecuencias relativas acumuladas. En base a los mismos responda:

Dagoberto Salgado Horta

Pgina 21

D is t r ib u c i n d e t a m a o s

D is t r ib u c i n d e t a m a o s
1 .0 0

Frec. rel. acum uladas

Frecuen cias relativas

0 .5 0

0 .2 5

0 .0 0
0 .0 0

1 6 .0 0

3 2 .0 0

4 8 .0 0

6 4 .0 0

8 0 .0 0

0 .7 5

0 .5 0

0 .2 5

0 .0 0
0 .0 0

1 6 .0 0

3 2 .0 0

4 8 .0 0

6 4 .0 0

8 0 .0 0

D AP (c m )

D AP ( c m )

(a)

(b)

a. Es la distribucin unimodal? Justifique. Cul es el valor aproximado de la o las


modas?
b. Qu porcentaje de fustes comercializables existe si el criterio es que superen
los 48 cm de dimetro?
c. Qu porcentaje de individuos no superan los 16 cm de dimetro?
d. Qu porcentaje aproximado de individuos se hallan dentro del rango de 30 a 50
cm de dimetro?
2.9

Los siguientes diagramas de caja representan la distribucin de la carga parasitaria en


campos de cra de ganado vacuno de la Depresin del Salado, provincia de Buenos Aires.
En base a los mismos responda:

C arga paras itaria (pars itos /anim al)

150.00

112.50

75.00

37.50

0.00
Campo A

Campo B

Campo C

a. Cules campos presentan distribuciones asimtricas? Justifique su respuesta.


b. Si usted fuera el asesor de la zona, en cules campos cree que se realiza un buen
manejo sanitario del rodeo? Discuta y justifique su respuesta.
c. Cules campos presentan una mediana no superior a 66 parsitos por animal

Dagoberto Salgado Horta

Pgina 22

CLCULO DE PROBABILIDADES
En el captulo 1 hemos presentado formas para organizar, describir y presentar los datos
de una variable aleatoria registrados en una muestra. El anlisis de los datos muestrales tiene, en
realidad, la finalidad la finalidad de conocer algo acerca de una poblacin de la cual la muestra fue
extrada. Utilizar informacin contenida en una muestra para extraer conclusiones acerca de la
informacin desconocida contenida en una poblacin implica un riesgo basado en la
incertidumbre implcita en dicha decisin. La Estadstica provee una manera racional de
cuantificar y acotar tal incertidumbre y para ello utiliza una medida de la incertidumbre denominada
probabilidad. La utilizacin del concepto de probabilidad y de los mtodos para su clculo
constituye la base sobre la que se asienta la toma de decisiones. Como hemos dicho en una
seccin anterior, la toma de decisiones estar, generalmente, referida a la eleccin de un valor
determinado para un parmetro desconocido o a la eleccin de algn conjunto de valores al cual
se asume que dicho parmetro desconocido pertenece.
La existencia de incertidumbre acerca de un proceso fsico implica la existencia de estados
alternativos posibles para el mismo. Se cuenta con una determinada cantidad de informacin y se
desea conocer una cantidad de informacin adicional, ordinariamente, la porcin restante de la
informacin total. Para ello, se debe contar con una enumeracin del total de estados posibles del
proceso. Adems, se debe tener una medida de la posibilidad de ocurrencia para cada uno de
dichos estados. Daremos, ahora, algunas definiciones.
Un experimento aleatorio es un proceso cuyos resultados no se conocen a priori. El
conjunto de todos los resultados de un experimento aleatorio se denomina espacio muestral lo
que denotaremos S. Cada uno de los resultados posibles contenidos en un espacio muestral es un
evento simple. Dado que los estados posibles del proceso son alternativos, ellos no pueden
ocurrir simultneamente, por lo cual se los considera mutuamente excluyentes. Adems,
asumiremos que el espacio muestral contiene todos y cada uno de esos estados alternativos, por
lo cual se dice que ese conjunto de eventos simples es colectivamente exhaustivo.
Ejemplos:
1. Se arroja un dado de 6 caras, con una determinada cantidad de puntos en cada una de sus
caras. Una cara contiene 1 punto, otra contiene 2 puntos, otra contiene 3 puntos, otra
contiene 4 puntos, otra contiene 5 puntos y la ltima, 6 puntos. Por tanto, S = {1,2,3,4,5,6}.
2. Se arroja al aire una moneda equilibrada. Entonces, S = {C,X}, donde C representa las
caras y X, las cruces.
Un subconjunto de eventos simples del espacio muestral constituye un evento compuesto y se los
suele denotar con letras maysculas.
Ejemplo:
3. Cuando se arroja un dado, un evento compuesto es el subconjunto de las caras con un
nmero impar de puntos: A = {1,3,5}. Otro evento compuesto es el subconjunto de las
caras con una cantidad de puntos superior a 3: B = {4,5,6}.

Dagoberto Salgado Horta

Pgina 23

Conjuntos
Repasaremos algunas operaciones bsicas que se realizan entre conjuntos.
Unin de dos conjuntos
La unin de dos conjuntos A y B es el conjunto de elementos que pertenecen a
por lo menos uno de los conjuntos A y B es decir, a A o a B o a ambos.
Simbolizamos esta operacin como A B (se lee A unin B).
Ejemplos

Consideremos, por ejemplo A = {a,b,c,d,e,f} y B = {a,e,i,o,u}, los cuales son


subconjuntos del conjunto de todas las letras del alfabeto. El conjunto
cuyos elementos estn en A o en B o en ambos es el conjunto
A B = {a,b,c,d,e,f,i,o,u}.

Si A = {x: x es un entero impar positivo} y


B = {x: x es un entero impar positivo menor que 100},
entonces, A B = {x: x es un entero impar positivo}.

Interseccin
La interseccin de dos conjuntos A y B es el conjunto de elementos que
pertenecen a A y a B. Simbolizamos esta operacin como A B (se lee A
interseccin B).
Ejemplo.

Sean A = {1,2,3,4,5} y B = {4,5,6,7,8}; entonces A B = {4,5}


Complemento
c

Cuando hablamos de complemento de B, lo que denotamos B , entendemos el


conjunto de todos los elementos del universo que no estn en el conjunto B.
Ejemplo
c

Sea S = {1,2,3,4,5,6,7,8,9,0} y U = {1,3,5,7,9}. Luego, U = {2,4,6,8,0}.


Diferencia
La diferencia de dos conjuntos es el conjunto de todos los elementos del primer
c
conjunto que no estn en el segundo. A B= A B
Ejemplo

Sean, otra vez, A = {1,2,3,4,5} y B = {4,5,6,7,8}.


Entonces, A B = {1,2,3} y B A = {6,7,8}.

Aproximaciones a la medida de probabilidad


Supuesto de eventos simples igualmente probables
Utilizando este supuesto, consideramos que todos los eventos incluidos en el espacio muestral
tienen las misma chances de ocurrir. Por ejemplo, si arrojamos una moneda de masa homognea,
esperaremos que los dos eventos posibles, tendrn las mismas chances de ocurrir y dado que su
suma debe ser igual a 1 (por el primer axioma), entonces, la probabilidad de cada evento ser igual
a 1/2, es decir que P(X) = P(C) = 1/2. Similarmente, si arrojamos el dado de 6 caras de masa
homognea que se mencion en la pgina anterior, bajo el supuesto de eventos igualmente

Dagoberto Salgado Horta

Pgina 24

probables, P(1) = P(2) = = P(6) = 1/6. En general, cuando hay K resultados posibles igualmente
probables, la probabilidad de cada uno de ellos ser igual a 1/K.
Entonces, si un espacio muestral tiene K resultados posibles y si un evento, A, que forma
parte de ese espacio muestral contiene k eventos, la probabilidad de dicho evento es,
simplemente, el cociente entre k y K:

P ( A) =

k
K

(3.1)

Ejemplos:
1. Se extrae un naipe de una baraja inglesa de 52 cartas. Sea A el evento corazn. Entonces,
teniendo en cuenta que hay 13 corazones en total en la baraja:

P ( A) =

13 1
=
52 4

2. Otra vez, se extrae un naipe de una baraja inglesa de 52 cartas. Sea B el evento nmero
menor a 6. Hay 5 cartas menores a 6 en cada palo, por lo cual, recordando que hay 4
palos, hay un total de 45 = 20 cartas cuyo nmero es menor a 6. As que:

P ( B) =

20 5
=
52 13

3. Finalmente, se extrae un naipe de la baraja inglesa de 52 cartas. Sea A el evento de que


salga un corazn o un trbol. Hay 13 corazones y 13 trboles en la baraja. As que:
P ( A) =

26 1 o
=
52 2

P (C T ) = P (C ) + P (T ) =

13 13 26 1
+
=
=
52 52 52 2

Frecuencia relativa de un evento


Cuando no es posible sostener el supuesto de eventos igualmente probables, es decir, cuando no
hay razones suficientes para sostenerlo o cuando, por el contrario, hay razones suficientes para no
sostenerlo, es necesario recurrir a otra manera de calcular las probabilidades. Volviendo al ejemplo
de la moneda, si el supuesto de masa homognea no se puede sostener, qu probabilidades
habr que asignarles a los eventos C y X? Para poder responder a esa pregunta se recurre al
clculo de las frecuencias relativas de cada evento mediante experimentos repetidos. Se lanza
repetidamente la moneda en cuestin y se registra la cantidad de cruces que salen. Y esa
cantidad, en relacin al total de veces que se lanz la moneda, se toma como la probabilidad de
que salga una cruz en el futuro.
Si se lanza la moneda, digamos, 200 veces y sale cruz 80 veces, es razonable suponer
que la probabilidad de que salga cruz al lanzar esa moneda se estima a 80/200, o sea 0.40. Queda
claro que cuantas ms veces se lance la moneda, ms cercano a la probabilidad verdadera ser el
resultado que se obtenga. Por eso, la definicin de probabilidad utilizando este enfoque es:

k
K K

P ( X ) = lim

Dagoberto Salgado Horta

(3.2)

Pgina 25

donde K es la cantidad de veces que se repite el ensayo y k es el nmero de veces en que ocurri
el evento X. Esta es la definicin estricta. Pero nunca repetiremos un ensayo infinitas veces. Por
tanto, utilizaremos como medida de la probabilidad de X, ensayos donde K sea un nmero grande.

Postulados de la teora de probabilidades


Los tres postulados bsicos de la teora de probabilidades son los siguientes.
I.

La probabilidad de un evento A, P(A), es un valor numrico que se encuentra en el intervalo


[0,1]. Es decir,
0 P(A) 1.

II. La probabilidad de la totalidad del espacio muestral es igual a 1:


P(S) = 1.
III. Dados dos eventos mutuamente excluyentes M y N, pertenecientes al espacio muestral S, la
probabilidad de la ocurrencia de uno u otro de ellos es igual a:
P(M
N) = P(M) + P(N).
IV. Si M y N son dos eventos no mutuamente excluyentes definidos en un mismo espacio
muestral, entonces:
P(M
N) = P(M) + P(N) P(M
N)
Ejemplo
Se extrae al azar una carta de una baraja de 52 naipes Cul es la probabilidad de que
dicha carta sea una figura (F) o un corazn (C)?
P(C) = (1/4)
P(F) = (12/52) = (3/13) y
P(FC) = (3/52) puesto que hay 3 figuras de corazones.
Finalmente:
P(FC) = P(F) +P(C) P(FC) = (3/13) + (1/4) (3/52) = (11/26).
Este postulado puede ser aplicado a cualquier cantidad de eventos. Por ejemplo, para el
caso de 3 eventos, A, B y C:
P(ABC) = P(A)+P(B)+ P(C) P(AB) P(AC) P(BC) + P(ABC).
Ejemplo
Un instituto de enseanza de nivel medio ofrece cursos de 3 materias simultneamente para
240 estudiantes: Matemtica (M), Fsica (F) e Informtica (I). Un total de 50 estudiantes
cursan Matemtica, 25 cursan Fsica, 18 cursan Informtica, 12 cursan Matemtica y Fsica,
10 cursan Matemtica e Informtica, 5 cursan Fsica e Informtica y 3 cursan las 3 materias.
Cul ser la probabilidad de que un alumno elegido al azar curse, por lo menos, una de las
tres materias?

P( A B C ) =

50
25
18
12
10
5
3
+
+

+
240 240 240 240 240 240 240
69
.
=
240
= 0.2875

Dagoberto Salgado Horta

Pgina 26

V. Sea X el evento complementario del evento X, es decir que los eventos X


mutuamente excluyentes y colectivamente exhaustivos Entonces,

y X son

P(X ) = 1 P(X),
Ejemplo
Supongamos que se extrae una carta de una baraja inglesa. Cul es la probabilidad de que
no sea un rey? Hay 4 reyes en la baraja as que la probabilidad de rey es igual a (4/52) =
(1/13). Por tanto, aplicando el teorema vemos que la probabilidad de que la carta extrada no
sea un rey ser igual a 1 (1/13) = (12/13)

Combinatoria
Repasaremos algunas operaciones bsicas de conteo.
Permutaciones
Una permutacin de un nmero de objetos es una disposicin de estos objetos
en un orden definido. El nmero de permutaciones de un conjunto de N
elementos, tomados todos juntos es igual a N! Designando este nmero por NPN,
obtenemos que NPN = N! donde N! se lee N factorial y es el producto de todos
los nmeros enteros desde 1 hasta N, es decir: N! = 123(N 2)(N 1)N. En
particular, 1! = 1; 2! = 12! = 2, 3! = 123 = 6, 4! = 1234 = 24. Finalmente,
definimos 0! = 1.
El nmero total de disposiciones de N objetos tomados de a n cada vez, con n
N, es:

Pn =

N!
.
(N n ) !

Ejemplo. Cuatro banderas de seales han de ser izadas, una encima de la otra,
en un mstil. Cuntas seales diferentes pueden ser transmitidas izando 6
banderas diferentes de a 4 cada vez?:

P4 =

6!
2!3 4 5 6
=
= 360 .
2!
(6 4) !

Combinaciones
Una combinacin es una seleccin de objetos considerados sin relacin con su
orden. El nmero total de combinaciones de un conjunto de N elementos
tomados de a n cada vez, es:

NC n

N
y es igual a:
n

N
N!
=
C
=
.
N
n
n n!(N n ) !

Por ejemplo, de cuntas maneras distintas se pueden elegir 3 letras tomndolas


de a 2 cada vez?:

3!
3
3 P2 (3 2) !
3!
=
=3
3 C2 =
2 = 2! =
2!
2!(3 2) !

Es importante recordar que en una permutacin el orden cuenta mientras que

Dagoberto Salgado Horta

Pgina 27

en una combinacin, el orden no cuenta.


Ejemplo. Un equipo de bsquet que est de viaje tiene 10 jugadores. El
entrenador debe escoger un equipo inicial para el prximo juego. Cuntos
equipos diferentes de 5 jugadores pueden ser designados para este objetivo?
Aqu no nos interesan las posiciones de cada uno de los 5 jugadores en cada
equipo. Por tanto, es un problema de combinaciones, y:

10

C5 =

10!
= 252
5!(10 5) !

Si al escoger un equipo, el entrenador tambin designa las posiciones, entonces


el orden cuenta y el problema es de permutaciones:
10

P5 =

10!
= 30240
(10 5) !

Probabilidades condicionales
Cuando se rene informacin adicional a la que se dispona inicialmente, el espacio muestral
puede resultar redimensionado. Es decir, cuando hay una reduccin de la incertidumbre (ya sea
por aumento en la informacin disponible o por el empleo de supuestos por parte del ingeniero),
puede que haya puntos muestrales que desaparezcan del espacio muestral resultando ste,
reducido. Por ejemplo, frente al experimento aleatorio de lanzar un dado homogneo, decimos que
la probabilidad de que salga un 5 es igual a 1/6. Ahora, si se ha lanzado el dado pero solamente se
puede saber que ha salido un nmero impar, pero no qu nmero ha salido, sigue habiendo una
grado de incertidumbre, pero no cabe duda de que dicha incertidumbre es menor puesto que ya se
sabe que sali un nmero impar: el nuevo espacio muestral es, ahora, S = {1,3,5}. Ahora, la
probabilidad de que el dado haya salido 5 ya no es 1/6 sino 1/3. Las probabilidades calculadas en
espacios muestrales reducidos por informacin o supuestos adicionales se denominan
probabilidades condicionales. Veamos un ejemplo.
Supongamos que se toma una muestra de 100 estudiantes y a cada uno de ellos se le
hacen dos preguntas: (1) si ha aprobado el curso de Estadstica y, (2) si le gustan las carreras de
autos. Los resultados de la encuesta son los siguientes:
Cuadro 3.1.

Aprob Estadstica
No aprob Estadstica
Total

Le gustan las
carreras
de autos
28
12
40

No le gustan las carreras


de autos

Total

52
8
60

80
20
100

Se elige un estudiante al azar en dicha muestra y se definen dos eventos: X (el estudiante
aprob Estadstica) e Y (al estudiante le gustan las carreras de autos). Entonces:

P( X ) =

80
40
= 0.80 y P (Y ) =
= 0.40 .
100
100

Ahora, supongamos que la eleccin es realizada entre los estudiantes que han aprobado
Estadstica. Entonces, cul es la probabilidad de el estudiante elegido sea afecto a las carreras
de autos? Hay una informacin adicional que cambia el espacio muestral: se est dando por cierto
que el estudiante aprob Estadstica y la nica incertidumbre que queda es si le gustan las
carreras de autos o no le gustan. Por tanto, el nuevo espacio muestral est restringido a la

Dagoberto Salgado Horta

Pgina 28

segunda fila del cuadro: S = {le gustan las carreras, no le gustan las carreras} con un tamao igual
a 80 (el total de estudiantes que aprobaron Estadstica). Entonces, la probabilidad buscada es:

P (Y / X ) =

28
= 0.35 .
80

De la misma manera se pueden calcular otras probabilidades condicionales como, por


ejemplo, la probabilidad de que haya aprobado Estadstica dado que le gustan las carreras de
autos. En ese caso:

P( X / Y ) =

28
= 0.70 .
40

Tambin se podra haber transformado todo el cuadro en probabilidades, dividiendo por el


total:
Cuadro 3.2.

Aprob
Estadstica
No aprob
Estadstica
Total

Le gustan las
careras de autos
(28/100) = 0.28

No le gustan las
careras de autos
(52/100) = 0.52

Total
(80/100) = 0.80

(12/100) = 0.12

(8/100) = 0.08

(20/100) = 0.20

(40/100) = 0.40

(60/100) = 0.60

(100/100) = 1.00

y calcular las probabilidades condicionales de la siguiente manera:

P (Y / X ) =

0.28
= 0.35 y
0.80

P( X / Y ) =

0.28
= 0.70 .
0.40

Las probabilidades que estn en los mrgenes del cuadro (0.80, 0.20, 0.40 y 0.60) se
denominan probabilidades marginales y las probabilidades que estn en el cuerpo del cuadro
(0.28, 0.52, 0.12 y 0.08) se denominan probabilidades conjuntas.
En general, se presentan tres tipos de problemas:
(i)

(ii)
(iii)

se conoce la probabilidad conjunta de dos eventos y una de las probabilidades


marginales y se desea conocer una probabilidad condicional; es el caso del ejemplo de
ms arriba, donde se conocen las probabilidades conjuntas y las marginales y, con
eso, se pueden calcular probabilidades condicionales;
se conoce una probabilidad condicional y una probabilidad marginal y se desea
calcular una probabilidad conjunta;
se conoce una probabilidad condicional y una probabilidad conjunta y se desea
calcular una probabilidad marginal.

La ecuacin correspondiente al caso (i) es:

Dagoberto Salgado Horta

Pgina 29

P (Y / X ) =

P( X Y )

P( X )

P( X / Y ) =

P( X Y )
P (Y )

(3.3)

Para el caso (ii):


P(XY) = P(Y/X)P(X)
P(XY) = P(X/Y)P(Y)

(3.4)

Y para el caso (iii):

P( X ) =

P( X Y )
P(Y / X )

P(Y ) =

P( X Y )
P( X / Y )

(3.5)

Eventos independientes
Se dice que dos eventos son estadsticamente independientes cuando la ocurrencia de uno de
ellos no afecta la probabilidad de ocurrencia del otro y, entonces, la probabilidad de su ocurrencia
simultnea (probabilidad conjunta) es igual al producto de sus probabilidades individuales: P(XY)
= P(X)P(Y). Contrariamente, si la ocurrencia de uno de los eventos afecta la probabilidad de la
ocurrencia del otro, entonces se dice que esos dos eventos son estadsticamente dependientes
y, entonces, su probabilidad conjunta es igual al producto de la ocurrencia de uno de ellos por la
probabilidad condicional de la ocurrencia del segundo dado que ha ocurrido el primero: P(XY) =
P(X)P(Y/X).

Ejercicios
3.1

Un turno de exmenes consta de 5 fechas diferentes. Un alumno debe rendir 3 materias.


De cuntas maneras diferentes se puede anotar para rendir sus exmenes si slo puede
rendir una materia por fecha?

3.2

A continuacin se muestra una tabla probabilstica acerca del nivel de instruccin de


productores de una zona y la implementacin de nuevas tcnicas de cultivo y sea A el
evento nivel de instruccin bajo y B, el evento no implementa nuevas tcnicas de cultivo.
Implementacin de nuevas tcnicas de cultivo
No
S
Nivel de
instruccin

Bajo
Alto

0.40
0.10

0.20
0.30

a. Calcular P(AB).

Dagoberto Salgado Horta

Pgina 30

b. Son independientes el nivel de instruccin de los productores de esa zona y la


implementacin de nuevas tcnicas de cultivo?
3.3

Cierto artculo es inspeccionado visualmente por dos inspectores. Cuando aparece un


artculo defectuoso, la probabilidad de que no sea detectado por el primer inspector es
igual a 0.1. De aquellos no detectados por el primer inspector, el segundo inspector slo
detecta 5 de cada 10. Qu fraccin de defectuosos no son detectados por ninguno de
los inspectores?

3.4

El 34% de los rboles de un bosque tienen ms de 15 aos. El 54% son de la variedad A.


De los de la variedad A, el 7% tiene ms de 15 aos. Si se elige un rbol al azar:

a. Cul es la probabilidad de que tenga ms de 15 aos y sea de la variedad A?


b. Cul es la probabilidad de que teniendo menos de 15 aos, sea de la variedad A?
3.6

Se echan dos monedas equilibradas; demuestre que el hecho "cara en la primera moneda"
y el hecho "las dos monedas quedan igual" son independientes.

3.7

Un analista econmico est investigando ciertos indicadores de bienestar referidos a un


grupo de pases que han sido clasificados como altamente desarrollados,
medianamente desarrollados y subdesarrollados. El objetivo del trabajo era analizar
cierta cantidad de hogares urbanos, observando si los mismos contaban o no con red
cloacal. El 10% de los hogares analizados pertenecan a pases con alto nivel de desarrollo
y el 50% de los hogares, a pases medianamente desarrollados. Se pudo determinar que
el 60% de los hogares estudiados posean red cloacal, pero dicha proporcin era
notoriamente ms alta en los hogares estudiados que provenan de pases altamente
desarrollados, ya que entre ellos, el 90% posea red cloacal. El 80% de los hogares sin
red cloacal provena de pases subdesarrollados. Sobre la base de esta informacin,
hallar:

a. la probabilidad de que un hogar elegido al azar pertenezca a un pas altamente


desarrollado y que no tenga red cloacal;
b. la probabilidad de que un hogar pertenezca a un pas subdesarrollado, dado que no
tiene red cloacal;
c. la probabilidad de que un hogar no pertenezca a un pas subdesarrollado o no tenga
red cloacal.

Dagoberto Salgado Horta

Pgina 31

DISTRIBUCIONES DE PROBABILIDADES
Variables aleatorias
En la aplicacin de las probabilidades para el anlisis de la informacin proveniente de
experimentos aleatorios, se trabaja con variables definidas a partir de los espacios muestrales.
Dichas variables reciben el nombre de variables aleatorias. Las variables aleatorias, dado que
provienen de un espacio muestral, son variables que pueden asumir un determinado conjunto de
valores diferentes con determinadas probabilidades. Los anlisis estadsticos involucran a la
distribucin de probabilidades de la variable aleatoria de inters. Estas variables aleatorias
pueden ser de dos clases: variables aleatorias discretas y variables aleatorias continuas.

Variables aleatorias discretas


Las variables aleatorias discretas slo pueden tomar valores nominales o valores cuantitativos
discretos. A cada uno de esos valores o categoras, le corresponder una probabilidad. As queda
constituida la distribucin de probabilidades de la variable aleatoria discreta. La suma de las
probabilidades correspondientes a todos los valores o categoras que puede tomar de una variable
aleatoria discreta es igual a 1.
Ejemplos:
1. Sea la variable aleatoria estado sanitario de un animal con dos categoras, sano (H) y
enfermo (E). Entonces, el espacio muestral es S = {H,E}.
2. Sea la variable aleatoria nmero de puntos obtenidos al arrojar un dado equilibrado.
Entonces, el espacio muestral es S = {1,2,3,4,5,6}. La distribucin de probabilidades
correspondiente a esta variable es
N de puntos

Probabilidad

1/6

1/6

1/6

1/6

1/6

1/6

Entonces, escribimos: P(1) = P(2) = P(3) = P(4) = P(5) = P(6) = (1/6). Si denotamos a una
variable aleatoria discreta con el smbolo X, y a cada uno de los valores particulares que
puede tomar xi, entonces, la probabilidad de un valor particular xi, se denotar P(xi).
Las distribuciones de probabilidades de variables discretas se pueden representar
grficamente mediante un diagrama de barras verticales en el cual se inscriben los distintos
valores que la variable aleatoria puede tomar en el eje de abscisas y sus respectivas
probabilidades en el eje de ordenadas.
Ejemplo:
3. Sea la variable aleatoria discreta nmero de cruces que se pueden obtener al lanzar tres
monedas equilibradas. Si los lanzamientos de las tres monedas son eventos
independientes, la distribucin de probabilidades de esta variable aleatoria es la siguiente:

Dagoberto Salgado Horta

Pgina 32

N de cruces en 3 monedas
Probabilidad

1/8

3/8

3/8

1/8

La representacin grfica de esta distribucin de probabilidades se muestra en la Figura


4.1.:
Figura
Distribucin
variable
discreta.

4.1.
de
aleatoria

Distribucin de probabilidades acumulativa


Como se coment cuando se present el tema de las frecuencias acumuladas en la clase anterior,
muchas veces se desea conocer la probabilidad, no ya de un suceso puntual particular, sino de un
conjunto de sucesos y, entonces, surge la necesidad de acumular probabilidades. Aqu estamos
tratando otra vez con ese concepto y por eso presentamos la distribucin de probabilidades
acumulativa de una variable aleatoria discreta como la probabilidad de que la variable aleatoria
asuma un valor tope o menor, es decir, interesa conocer la probabilidad P(X xi).
Ejemplo.
Utilizando otra vez el ejemplo anterior, se desea conocer la probabilidad de que al lanzar 3
monedas equilibradas, se obtengan, a lo sumo, 1 cruz. Entonces:
P(X 1)
= P(X = 0) + P(X = 1)
= (1/8) + (3/8) = (4/8)
= (1/2).
En el siguiente cuadro se representan la distribucin de probabilidades y la distribucin de
probabilidades acumulativa del experimento de lanzar 3 monedas:
N de cruces en 3 monedas
Probabilidad
Probabilidad acumulada

0
1/8
1/8

1
3/8
4/8

2
3/8
7/8

3
1/8
8/8

Y la representacin grfica de la distribucin de probabilidades acumuladas es:

Dagoberto Salgado Horta

Pgina 33

Figura
Distribucin
probabilidades
acumuladas.

4.2.
de

Esperanza matemtica o media poblacional de una variable aleatoria discreta


La esperanza matemtica de una variable aleatoria discreta es el promedio de todos los valores
que tomara en una serie infinita de experimentos aleatorios. Como por definicin, la frecuencia
relativa de cada valor de la variable infinita es justamente su probabilidad la esperanza matemtica
puede ser calculada como:

E ( X ) = xi P ( xi )

(4.1)

La esperanza matemtica de X se suele simbolizar X y es tambin llamada valor esperado de X o


media poblacional de X.
Ejemplos:
1. Para el caso del lanzamiento de las 3 monedas:
E(X ) = X
= 0(1/8) + 1(3/8) + 2(3/8) + 3(1/8)
= (3/2).
2. Para el caso de la variable aleatoria nmero de puntos obtenidos al arrojar un dado
equilibrado:
E(X) = X
= 1(1/6) + 2(1/6) + 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6)
= 3.5.

Propiedades de esperanza matemtica de una variable discreta:

Sea k una constante arbitraria. Entonces, si se suma k a cada uno de los valores de una
variable aleatoria X, resulta:
E(X + k) = E(X) + k.

(4.2)

Ejemplo.
Si sumamos la constante 2 a la variable aleatoria nmero de puntos obtenidos al arrojar un
dado equilibrado, resulta: E(X + 2) = E(X) + 2. En efecto:
E(X + 2) = X+2
= (1+2)(1/6) + (2+2)(1/6) + (3+2)(1/6) + (4+2)(1/6) +

Dagoberto Salgado Horta

Pgina 34

+ (5+2)(1/6) + (6+2)(1/6)
= 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6) + 7(1/6) + 8(1/6)
= (33/6)
= 5.5
= 3.5 + 2.

Sea k una constante arbitraria. Entonces, si multiplica por k a cada uno de los valores de una
variable aleatoria X, resulta:
E(Xk) = E(X)k.

(4.3)

Ejemplo.
Si multiplicamos por la constante 2 a la variable aleatoria nmero de puntos obtenidos al
arrojar un dado equilibrado, resulta: E(X2) = E(X)2. En efecto:
E(X2) = X2
= (12)(1/6) + (22)(1/6) + (32)(1/6) + (42)(1/6) +
+ (52)(1/6) + (62)(1/6)
= 2(1/6) + 4(1/6) + 6(1/6) + 8(1/6) + 10(1/6) + 12(1/6)
= (42/6)
= 7.0
= (3.5)2.

Juntando las dos propiedades 4.2. y 4.3. en una sola, obtenemos que :
E(k1X + k2) = k2 + k1E(X)

(4.4)

donde k1 y k2 son constantes arbitrarias. Se deja como ejercicio para el lector, aplicar esta ltima
propiedad a la variable aleatoria nmero de puntos obtenidos al arrojar un dado equilibrado.

La propiedad 4.1. tiene implica que si una variable aleatoria X tiene esperanza E(X) = ;
entonces
E(X - ) = 0

(4.5)

Variancia poblacional de una variable aleatoria discreta


Similarmente a lo apuntado en el captulo de Descripcin de la Informacin, la variancia de una
variable aleatoria mide la dispersin de los valores que toma en la poblacin alrededor de su
esperanza matemtica. La variancia de una variable aleatoria discreta X se define como:

V ( X ) = X2

= p ( xi ) ( xi )2

(4.6)

i
Comparando la frmula 4.2. con la 4.6. es posible visualizar que la variancia poblacional no es otra
2
cosa que V(X) = E[(X-) ], el valor esperado de los cuadrados de los desvos de X con respecto a
su media poblacional .
Propiedades de la variancia de una variable aleatoria discreta:

Dagoberto Salgado Horta

Pgina 35

Si sumamos una constante a una variable aleatoria, su variancia no altera.


V(X + k) =
2
= E [(X + k E(X+k)) ]
2
= E [(X + k E(X) k) ]
2
= E [(X E(X) ) ]
= V(X)

(4.7)

Si multiplicamos una variable aleatoria por una constante, su variancia resulta multiplicada por
dicha constante elevada al cuadrado. En efecto
V(k X) =
2
= E [(k X E(k X)) ]
2
= E [(k X k E(X)) ]
2
2
= E [k (X E(X)) ]
2
2
= k E [(X E(X)) ]
2
= k V(X)

(4.8)

Combinando las propiedades (i) y (ii) resulta que


2

V(k1X + k2) = k1 V(X)

(4.9)

Desvo standard poblacional y coeficiente de variacin


El desvo standard poblacional es simplemente la raz cuadrada de la variancia poblacional y el
coeficiente de variacin es el cociente del desvo standard sobre la esperanza matemtica,
multiplicado por 100.
Ejemplo.
Siguiendo con la variable aleatoria discreta nmero de puntos obtenidos al arrojar un dado
equilibrado, resulta:

= V (X )
35
12
= 1.708
=

y .

(4.10)

1.708
100
3.5
= 48.8

cv

Variables aleatorias continuas


Las variables aleatorias continuas toman valores en el campo de los nmeros reales y, por lo tanto,
su distribucin de probabilidades est representada por una funcin continua puesto que la
variable puede tomar infinitos valores.

Dagoberto Salgado Horta

Pgina 36

Ahora, dada esta caracterstica de continuidad, la probabilidad de que la variable X tome


un valor particular infinitesimalmente exacto, es igual a 0. Esto nos obliga a que, cuando se trata de
variables aleatorias continuas, tengamos que calcular probabilidades de intervalos entre dos
valores y no para un dado valor nico. Ya no escribiremos P(X = xi) sino P(X xi) o P(xi X xj).
As que, ahora, la probabilidad resultar ser un rea en la representacin grfica y estar
determinada por una integral bajo la curva de una funcin que se denomina funcin de densidad
de probabilidad, f(x). En el siguiente grfico se esquematizan estos conceptos:
Figura 4.3. Curva de la
funcin de densidad de
probabilidad.

De manera que cuando calculamos probabilidades para variables aleatorias continuas,


estamos calculando probabilidades acumuladas. Simbolizaremos las probabilidades de que la
variable X sea menor o igual a un valor particular x como F(x) que es, como se dijo antes, la
integral de la funcin de densidad f(x), desde - hasta x, es decir, F(x) = P(X x). F(x) se
denomina funcin de distribucin de probabilidades. Asimismo, para un intervalo [x1,x2], resulta
que P(x1 < X < x2) = F(x2) F(x1). Todas estas consideraciones nos llevan a la conclusin de que el
rea total bajo la curva de la funcin de densidad (que representa, en este caso, la probabilidad de
todo el espacio muestral) debe ser, necesariamente, igual a 1.
Para ser funcin de densidad, una funcin debe cumplir dos requisitos fundamentales:
(a) debe ser no negativa en todo su intervalo de definicin;
(b) la integral definida de la funcin calculada sobre todo el intervalo de definicin debe ser
igual a 1.

Esperanza y variancia poblacionales de una variable aleatoria continua


Sea la variable aleatoria X con funcin de densidad f(x) definida en el intervalo [a,b]. Entonces su
esperanza matemtica o media se define como:

E(X ) =
b

= x f ( x ) dx

(4.11)

a
y su variancia, como:

Dagoberto Salgado Horta

Pgina 37

V (X ) = 2
b

= ( x ) 2 f (x ) dx

(4.12)

Las propiedades de la esperanza (4.2., 4.3, 4.4 y 4.5) y de la variancia (4.7, 4.8 y 4.9) de una
variable aleatoria discreta se aplican para variables aleatorias continuas, es decir:

E(X + k) = E(X) + k;
E(Xk) = E(X)k;
E(k1X + k2) = k2 + k1E(X), donde k1 y k2 son constantes arbitrarias;
Sea la variable aleatoria X con E(X) = ; entonces E(X - ) = 0.

Variables aleatorias estandarizadas


Como veremos ms adelante, muchas veces resulta conveniente trabajar con las variables
transformadas a travs del proceso de estandarizacin, en lugar de hacerlo con las variables
originales. El proceso de estandarizacin consiste, simplemente, en transformar cada uno de los
valores de la variable restndole la media aritmtica (o sea, la esperanza matemtica) y dividiendo
dicha resta por el desvo standard. La nueva variable se simboliza con la letra Z:

Z=

X X

(4.13)

La nueva variable se denomina variable aleatoria estandarizada o variable aleatoria


standard y, dado que surge de restar la media y dividir por el desvo standard, tendr media igual
a 0 y variancia igual a 1, pues:

X X

E (Z ) = E
X
E(X ) E(X )
=
y

=0
La variancia de una variable estandarizada es siempre igual a 1 porque:

Dagoberto Salgado Horta

Pgina 38

X X

V (Z ) = V
X
1
=
V (X X )

X2

V (X )

X2

=1

Algunas distribuciones de probabilidades de uso comn


Hay una gran cantidad de fenmenos naturales y sociales que se caracterizan por compartir un
patrn de comportamiento similar. Adems, se han descubierto modelos matemticos sencillos que
tienen la capacidad de describir muy ajustadamente dichos comportamientos. Por estas razones es
que se ha consagrado su uso como herramienta de anlisis. En este curso veremos un modelo
para variables aleatorias discretas y tres modelos para variables aleatorias continuas, aunque
poniendo especial nfasis en uno de ellos.

Un modelo de variable aleatoria discreta


El modelo binomial
Este modelo se emplea con variables aleatorias discretas que slo pueden asumir dos valores o
categoras que pueden denominarse de varias formas equivalentes: 0 y 1, xito y fracaso,
defectuoso y no defectuoso, etc., dependiendo del problema de que se trate. Uno de esos dos
estados tiene una probabilidad constante que designaremos con la letra y, por tanto, el otro
estado alternativo tendr una probabilidad 1 - ya que es el evento complementario.
Este tipo de variables se denominan dicotmicas y su distribucin de probabilidades se
genera mediante la repeticin de n experimentos aleatorios independientes, en cada uno de los
cuales se mantienen constantes las probabilidades de los dos estados posibles de la variable
aleatoria.
Ejemplos:
1. La variable aleatoria faz de una moneda es un tpico ejemplo de variable aleatoria
dicotmica puesto que slo puede asumir dos estados, cara y cruz y, por tanto, su
distribucin de probabilidades es bien descripta por la distribucin binomial. Un proceso
binomial con una moneda podra consistir en lanzar la moneda 20 veces y estudiar el
nmero de cruces que han salido en esos 20 lanzamientos.
La funcin de distribucin de probabilidades binomial permite calcular la cantidad x de
veces que se produce un dado resultado de una variable binomial, en n experimentos
aleatorios independientes y se define de la siguiente manera:

n
n x
b( x; n, ) = x (1 )
x

(4.14)

n
es un nmero combinatorio como hemos visto en la clase anterior, y es la
x

donde

probabilidad (constante de experimento en experimento) del resultado buscado. De modo

Dagoberto Salgado Horta

Pgina 39

que una distribucin de probabilidades binomial queda completamente definida conociendo


los valores de n y .
2. En un lote de 12 plantas, 3 tienen flores prpura. Si se extrae del lote una muestra al azar
de 3 plantas, con reposicin, cul es la probabilidad de que: (a) exactamente 1 planta
tenga flores prpura, y (b) a lo sumo 1 planta tenga flores prpura? El muestreo con
reposicin asegura la independencia de las elecciones sucesivas, as que se puede aplicar
el modelo binomial. Como = (3/12) = 0.25, entonces:
1)

3
b(1;3,0.25) = 0.2510.7531 y
1
= 0.42

3
0
3 3

b
(
0
;
3
,
0
.
25
)
+
b
(
1
;
3
,
0
.
25
)
=

0
.
25
0
.
75
+ 0.2510.752

2)
0
1
= 0.84
Como toda distribucin de probabilidades, la distribucin binomial tambin permite calcular
probabilidades acumuladas. La distribucin de probabilidades acumuladas permite calcular la
probabilidad de obtener a lo sumo m resultados en n ensayos:

B(m; n, ) = P( X m )
= b(0; n, ) + b(1; n, ) + + b(m; n, )
=

b(x; n, )

x =0
Ejemplo:

3. Una moneda equilibrada es arrojada 10 veces: cul es la probabilidad de obtener 8 o ms


caras (es decir, por lo menos 8 caras)? Aqu tenemos un modelo binomial con n = 10, =
0.5. La probabilidad buscada es la de obtener 8, 9 10 caras. Entonces:
10

x =8

x =0

b(x;10,0.5) = 1 b(x;10,0.5)
1 0.94531

= 0.05469
Se puede demostrar que la esperanza matemtica de una distribucin binomial es igual a n y que
su variancia es igual a n(1 - ). Por ejemplo, una moneda es lanzada 10 veces la esperanza del
nmero de caras obtenidas es E(X) = 100.5 = 5 y la variancia es V(X) = 100.50.5 = 2.5.

Un modelo de variable aleatoria continua


La distribucin normal
La distribucin normal es el modelo de probabilidades que se utiliza con mayor frecuencia en
ciencias, en ingeniera y en economa. Su funcin de densidad de probabilidad es bastante
complicada pero no hay que preocuparse por eso porque las probabilidades normales estn
completamente tabuladas. Adems, hay muchos programas de computadora que las calculan
fcilmente.

Dagoberto Salgado Horta

Pgina 40

Los dos componentes ms importantes de la funcin de densidad normal son su media ()


2
y su variancia ( ): son los parmetros de la distribucin normal. Conociendo la media y la
variancia de una variable aleatoria que tiene distribucin normal se conoce completamente su
distribucin. Una forma especial de la distribucin normal es la distribucin normal standard que
resulta de restar, a cada uno de los valores de la variable, la media y el desvo standard de la
distribucin, como hemos visto algunas pginas atrs:

Z=

X X

(4.13)

El grfico de la distribucin normal se presenta en la siguiente figura junto con algunas de


sus propiedades ms importantes.
Figura 4.6.

Como ocurre con toda distribucin de probabilidades, el rea bajo la curva de la funcin de
densidad, es igual a 1 (es la probabilidad de la totalidad del espacio muestral). Adems, la funcin
es perfectamente simtrica alrededor de su media de lo que resulta que n( - x;,) = n( + x;,),
es decir, el valor de la densidad para la abscisa - x es igual al valor de densidad para la abscisa
+ x. Por ejemplo, P( - < X < ) = P( < X < + ) 0.34 y P( - < X < + ) 0.68.
Los porcentajes de rea que aparecen al pie de la figura son equivalentes a las
probabilidades entre los puntos indicados. Por ejemplo, entre -
y + est
(aproximadamente) el 68% del rea total bajo la curva lo que equivale a decir que la probabilidad
de que la variable est entre - y + es, aproximadamente, igual a 0.68 y la probabilidad de
que la variable est entre - 2 y + 2 es, aproximadamente, igual a 0.95.
La funcin presenta su densidad mxima cuando la variable es igual a para luego ir
decreciendo y acercndose asintticamente al eje de abscisas sin cortarlo nunca. La distribucin
normal es, en realidad, una familia de distribuciones que difieren en su media y/o en su variancia.
La representacin grfica de distribuciones normales con la misma variancia pero con distinta
media se ve, aproximadamente, as:

Dagoberto Salgado Horta

Pgina 41

Figura 4.7.

En el prrafo anterior se dijo aproximadamente puesto que, por la naturaleza de las


magnitudes, la variancia tiende a incrementarse con el incremento de la media. Por tanto, la figura
es vlida siempre y cuando las diferencias en las medias no sean demasiado grandes.
En cambio, la representacin grfica de distribuciones normales con la misma media pero
con distintas variancias se ve as:
Figura 4.8

La distribucin normal standard (Z) es, simplemente, una distribucin normal con media
igual a 0 y variancia igual a 1 y sus probabilidades estn extensivamente tabuladas. Dada la
transformacin de una variable normal (X) en normal standard (Z), la probabilidad acumulada
correspondiente a un valor particular de X se puede leer fcilmente en una tabla de la distribucin
de Z puesto que:

N ( x; , ) = P ( X x )

= P[( + Z ) x ]

= P Z

= N
;0,1

As que, dados N(,) y dos nmeros reales cualesquiera x1 y x2, con x1 < x2, tendramos:

P (a X b ) = N (b; ; ) N (a; ; )

= N
;0;1 N
;0;1

La representaciones grficas de la distribucin normal standard (a) y de su distribucin de


probabilidades acumuladas (b) son las siguientes:

Dagoberto Salgado Horta

Pgina 42

Figura 4.9.

Ejemplo:
Una fbrica de objetos de aluminio produce, entre otras cosas, cierto tipo de canal de aleacin
2
de aluminio. Por experiencia se sabe que la rigidez, medida en libras por pulgada sigue una
2
2
distribucin normal con media = 2425 (lb/pulg ) y = 115 (lb/pulg ). Esta distribucin se
representa por la figura (a). Si se escoge al azar un canal de aleacin de aluminio de este
2
proceso, cul es la probabilidad de que tenga un valor: entre 2250 y 2425 lb/pulg ?; (2) entre
2
2
2
2250 y 2500 lb/pulg ?; (3) entre 2525 y 2625 lb/pulg ?; (4) mayor de 2500 lb/pulg ?; (5) menor
2
de 2200 lb/pulg ?
(1)

P(2250 X 2425) = P( X 2425) P ( X 2250)


2425 2425
2250 2425

= P z <
P z <

115
115

N (0) N (11,52)
= 0,5000 0,0643
= 0,4357
Figura 4.10.

Dagoberto Salgado Horta

Pgina 43

Figura 4.11.

Figura 4.12.

Figura 4.13

Figura 4.14

Dagoberto Salgado Horta

Pgina 44

(2)

2500 2425
2250 2425

P (2250 X 2500 ) = P z <


P z <

115
115

N (0,65) N (1,52)
= 0,7422 0,0643
= 0,6779
figura (b);

(3)

2625 2425
2525 2425

P (2525 X 2625) = P z <


P z <

115
115

N (1,74) N (0,87)
= 0,9591 0,8078
= 0,1513
figura (c);
(4)
P(X > 2500) = 1 P(X 2500)
= 1 P(z < 0.65) 1 0.7422
= 0.2578; figura (d);
(5)

2200 2425

P ( X < 2200 ) = P z <

115

N (1,96)
figura (e).
Ahora presentaremos 3 distribuciones que se emplean para el clculo de probabilidades en
situaciones especiales que veremos algunas clases ms adelante.

La distribucin 2
Si Z1, Z2,, Z, son variables normales standard independientes, la suma de sus cuadrados se dice
2
que es una variable (lase ji cuadrado) con grados de libertad. Es decir:

2 = Z12 + Z12 + + Z2

(4.14)

El concepto de grados de libertad es un concepto del lgebra de espacios vectoriales. Es


el nombre dado al nmero de observaciones inicialmente independientes que hay en una suma de
cuadrados. No discutiremos aqu la base terica de este concepto sino que lo abordaremos
heursticamente.
2
2
El parmetro define a la distribucin y hay una distribucin para cada valor de ,
como puede verse en el siguiente grfico

Dagoberto Salgado Horta

Pgina 45

Figura 4.15.

Las tablas de la distribucin presentan los valores de para algunas probabilidades


especficas (ver Tabla en la pgina 128 y el men Probabilidades y Cuantitles de Infostat).
2

Veamos dos ejemplos de utilizacin de las tablas para

152 :

P(X > 7.26) = P(7.26 < 15 < )


2

= 0.95 y P(X > 5.23)


= P(5.23 < 15 < )
2

= 0.99.

La distribucin t de Student
Una distribucin t de Student resulta de dividir una distribucin normal standard por la raz
2
cuadrada de una distribucin dividida por sus grados de libertad:

t n 1 =

Z0

1
Z12 + Z 22 + + Z n21
n 1

2 n 1

(4.15)

n 1

donde Z0, Z1, Z2,..., Zn, son n + 1 variables normales standard independientes. Esta es una
distribucin t de Student con n 1 grados de libertad. (En la pgina 127 se presenta la tabla de
esta distribucin. Ver, tambin, el men Probabilidades y Cuantitles de Infostat).
En la siguiente figura se representan una distribucin t de Student y una distribucin normal
con finales comparativos:

Dagoberto Salgado Horta

Pgina 46

Figura 4.15.

Ejercicios
4.1

En una operacin comercial se puede obtener una utilidad de $1000 o sufrir una prdida
de $500. Si la probabilidad de una utilidad es de 0.6, demuestre que la utilidad esperada
en dicha operacin es de $400.

4.2

Sea X una variable aleatoria discreta que slo toma los valores 0, 1, 2, 3, 4 y 5 y que
tiene la distribucin de probabilidad dada por la siguiente tabla.

X
0
1 2 3
4
5
P(X) 0.05 0.30 ? 0.20 0.10 0.05
a. Calcule P(2).
b. Calcule y .
c. Localice el intervalo [ - 2; + 2] sobre el eje x de grfico de distribucin de
probabilidad.
4.3.

Existen insectos como el Tatadios (Mantis religiosa) que son considerados tiles para la
agricultura porque se alimentan de otros insectos que daan a los cultivos. Si cuando un
encuentra un insecto presa tiene una probabilidad de capturarlo de 0,25

a. Cuntos insectos debe encontrar para que la probabilidad de que capture al menos uno sea se 0,8?
Si encontrara esa cantidad de insectos presa por da:
b. Cul sera el nmero esperado insectos que captura por da?
c. Cunto variara el nmero de insectos que captura por da?
4.4

Un plan de control de calidad acepta un lote grande de artculos, si una muestra de siete
artculos no produce ninguno defectuoso. Cul es la probabilidad de aceptar el lote si
ningn artculo del lote es defectuoso? Y si 1/10 son defectuosos? Si 1/2 son
defectuosos?

4.5

La probabilidad de infeccin con odio (enfermedad fngica) en plantas de zapallito


redondo en las quintas del cinturn hortcola del Gran Buenos Aires es 0.15. Si usted es
contratado por el Ministerio de Asuntos Agrarios de la provincia de Buenos Aires para

Dagoberto Salgado Horta

Pgina 47

elaborar un informe acerca del estado de la enfermedad en dicha rea y decide visitar
15 quintas, cul es la probabilidad esperada para los siguientes sucesos:

a. A lo sumo 3 quintas presenten cultivos infectados.


b. Slo 5 quintas presenten cultivos infectados.
c. Al menos 4 quintas presenten cultivos infectados.
4.6

El 40% de los animales de un rodeo son de raza A y el resto, de raza B. El peso de los
animales de la raza A sigue una distribucin normal con media 250 kg y varianza 400 kg2.
El peso de los animales de la raza B sigue una distribucin normal con media 270 kg y
desvo tpico 30 kg. Qu porcentaje de animales tiene peso superior a 240?

4.7

Un proceso industrial produce tornillos cuyos dimetros tienen una distribucin normal
con media y desviacin estndar iguales a 0.498 y 0.002 respectivamente. Si las
especificaciones requieren que el dimetro sea igual a 0.500 0.004 centmetros qu
fraccin de la poblacin ser inaceptable?

4.8

Se ha estudiado la variable circunferencia basal [cm] en rboles de 5 aos de edad de


una especie forestal y se hall que la funcin de densidad f(c) = -0.01c2 + 0.4c (8/3)
describa muy ajustadamente las observaciones en muchas poblaciones de la especie (10
c 20).

a. Comprobar que f(c) es una funcin de densidad y graficarla en el intervalo de


definicin.
b. Calcular la funcin de distribucin de probabilidades.
c. Si se elige un rbol al azar de una poblacin:
i. cul es la probabilidad de que tenga una circunferencia basal menor a 1.2 cm?
ii. cul es la probabilidad de que tenga una circunferencia basal mayor a 1.7 cm?
iii. cul es la probabilidad de que tenga una circunferencia basal mayor a 1.2 cm y
menor a 1.7 cm?
iv. Por qu las probabilidades de los puntos i, ii y iii suman 1?

d. Calcular media, variancia y coeficiente de variacin de la variable circunferencia


basal.
4.11

El dimetro de las tortas de girasol, en una dada poblacin de plantas, se distribuye


normalmente con media 18 cm y desvo tpico 6 cm.

a. Qu porcentaje de las tortas tienen un dimetro entre 16 y 21 cm?


b. Cul es el dimetro superado por el 90% de las plantas?
c. En una muestra de 10 tortas, cul es la probabilidad de encontrar a lo sumo 3 con
dimetro inferior a 16 cm?
4.12 Sea Z una variable aleatoria normal estndar. Hallar el nmero h tal que Z es:

Dagoberto Salgado Horta

Pgina 48

c. menor que h con probabilidad 0.7


b. menor que h con probabilidad 0.25
c. mayor que h con probabilidad 0.02
d. mayor que h con probabilidad 0.6.
4.13 Una compaa que produce fertilizantes est preocupada por el contenido de impurezas
en sus productos granulados. Se estima que el peso de las impurezas por lote se
distribuye segn una normal con media 12.2 gramos y desviacin tpica 2.8 gramos. Se
elige un lote al azar.

a. Cul es la probabilidad de que contenga menos de 10 gramos de impurezas?


c. Cul es la probabilidad de que contenga ms de 15 gramos de impurezas?
c. Cul es la probabilidad de que contenga entre 12 y 15 gramos de impurezas?

Dagoberto Salgado Horta

Pgina 49

DISTRIBUCIONES POR MUESTREO


El procedimiento estadstico de extraccin de informacin til es una secuencia que comienza con
la obtencin de una muestra aleatoria de n unidades muestrales tomadas al azar de una
poblacin de tamao N, contina con el registro de los valores que toma una variable aleatoria
en cada una de las unidades muestrales y culmina con la aplicacin de la Teora de Probabilidades
para realizar una afirmacin acerca de los valores de uno o ms parmetros de la distribucin de
probabilidad de la variables aleatoria en la poblacin. Esta ltima afirmacin es conocida como
inferencia estadstica y es realizada a partir de funciones de los valores muestrales de la variable
aleatoria denominadas genricamente estadsticas.
Las estadsticas muestrales son entonces funciones de las los valores registrados de la
variable aleatoria. Un ejemplo de una estadstica es la media aritmtica de los valores registrados
en la muestra. Tanto la media aritmtica muestral como cualquier otra estadstica es por lo tanto
una funcin de variables aleatorias, por ello es tambin una variable aleatoria. Su valor vara de
muestra en muestra de modo que, antes de obtener la muestra, hay incertidumbre acerca de qu
valor tomar exactamente la estadstica. Como cualquier variable aleatoria, cada estadstica tiene
una distribucin de probabilidad. Para poder hacer inferencia estadstica resulta necesario conocer
la distribucin de probabilidades de las estadsticas utilizadas. La distribucin de una estadstica
particular depende de (a) la distribucin de probabilidad de la variable aleatoria registrada en la
poblacin, (b) del tamao de la muestra aleatoria.
Para que la muestra sea realmente una muestra aleatoria es necesario que contenga un
conjunto de n unidades muestrales extrados de la poblacin utilizando un procedimiento de sorteo
que otorgue igual probabilidad de entrar en dicho conjunto a todas las unidades de la poblacin. De
este modo, las realizaciones de la variable aleatoria X1, X2, ..., Xn registradas en cada una de las
unidades muestrales extradas (ai) son todas independientes entre ellas y (b) provienen de la
misma distribucin de probabilidades. Estas condiciones son necesarias para que los estadsticos
calculados tengan las distribuciones de probabilidad que presentamos aqu.

La media muestral y la variancia muestral


De los distintos estadsticos que se pueden calcular a partir de los datos contenidos en una
muestra, resaltan dos, por su importancia y sus aplicaciones: la media muestral y la variancia
muestral. Tal como la hemos definido en clases anteriores, la media muestral ( x ) y la variancia
2

muestral ( s n 1 ) se definen como:

x=

s n21 =

1 n
xi y
n i =1

(5.1)

1 n
( x i x )2

n 1 i =1

(5.2)

La razn por la cual son tan importantes estos dos estadsticos es que, la mayor parte de
las veces, hay inters en conocer la media y la variancia de alguna variable en la poblacin total y,
dado que no se pueden conocer todos los datos de la poblacin, se debe recurrir a los
equivalentes muestrales de dichos parmetros. Ahora, un estadstico, dado que no es otra cosa
que una cantidad que se calcula a partir de los datos de una muestra, es, como los datos de la
muestra, una variable aleatoria. Entonces, cuando se tomen muchas muestras, mostrarn la
variacin propia de una variable aleatoria de muestra en muestra. As que se deben conocer las

Dagoberto Salgado Horta

Pgina 50

propiedades de estas dos variables aleatorias tan importantes, es decir, cmo se espera que sea
su comportamiento al extraer muestras y, sobre todo, cmo cambiarn sus propiedades, al cambiar
el tamao de las muestras que se tomen. Por ejemplo, una propiedad fundamental de la media
muestral es su esperanza. Es muy fcil deducir que si la esperanza de una variable aleatoria x es
igual a , entonces la esperanza de su media muestral ser, tambin: E( x ) = . Como se dijo
antes, en el muestreo de una poblacin, la esperanza de todas las medias muestrales que se
pueden calcular es igual a la media poblacional (). Pero se debe considerar que dichas medias
muestrales mostrarn una variacin de muestra en muestra, es decir, entre todos los valores
posibles que la media muestral puede tomar: esa es la variancia de la media muestral,

(x ) .

Dado que la variancia de la variable aleatoria x en la poblacin es igual a , la variancia de la


2

media muestral es igual a

(x ) = E [(x )

] y es fcil demostrar que

(x ) =

2
n

, que es una

propiedad muy importante de la variancia de la media muestral puesto que est indicando que la
distribucin de la media muestral se concentra cada vez ms en el entorno de , a medida que
aumenta el tamao de la muestra (n). Esto es lo mismo que decir que, cuanto mayor sea el tamao
muestral, ms confianza se podr tener en que la media de la muestra estar ms cerca de la
media poblacional desconocida ().

Generacin de la distribucin por muestreo


de una estadstica
Veremos un ejemplo de cmo se puede generar la distribucin por muestreo de una estadstica.
Supongamos que una distribuidora de bebidas vende un refresco en 3 tamaos de botella: 500
3
3
3
3
3
cm , 750 cm y 900 cm . El 50% de los refrescos que vende son de 500 cm , el 30%, de 750 cm y
3
el 20% restante de 900 cm . En un puesto de venta aparecen 2 clientes. Sea X1 el tamao de
botella que compra el primer cliente y X2 el tamao de botella que compra el segundo cliente y
supongamos que X1 y X2 son independientes, es decir, suponemos que la compra realizada por el
primer cliente no influye para nada en la compra que habr de hacer el segundo cliente. Tanto X1
como X2 tiene la distribucin de probabilidad que se mencion antes, es decir:
Cuadro 5.1

500

750

900

P(x)

0.50

0.30

0.20

As que los dos clientes constituyen una muestral aleatoria de esta distribucin de
probabilidades. La siguiente tabla enumera todos los posibles pares de valores de X1 y X2 con sus
respectivas probabilidades calculadas bajo el supuesto de independencia y los valores de media
( x ) resultantes.

Dagoberto Salgado Horta

Pgina 51

Cuadro 5.2

x1
500
500
500
750
750
750
900
900
900
Por tanto, la distribucin por muestreo de

x2 p(x1;x2)
500 0.25
750 0.15
900 0.10
500 0.15
750 0.09
900 0.06
500 0.10
750 0.06
900 0.04

x
500
625
700
625
750
825
700
825
900

x es:

Cuadro 5.3

x
P(

x)

500

625

700

750

825

900

0.25

0.30

0.20

0.09

0.12

0.04

Tanto la media de la distribucin original como la media de la distribucin de

x son iguales

x ) = . La variancia de la distribucin original es 26725 mientras que la


2
2
variancia de la distribucin de x es igual a 13362.5, confirmando que ( x ) = ( /n). En nuestro

a 655, confirmando que E(

ejemplo n = 2 as que 13362.5 = 26725/2. Adems, vemos que la distribucin de probabilidad de


x es diferente de la de X, primero porque como vimos recin, x tiene menor variancia que X y
tambin porque la probabilidad est algo ms concentrada en los valores cercanos a ., la media
poblacional. Para muestras de mayor tamao, estas caractersticas son ms acentuadas.
La relacin entre el tamao las muestras y la distribucin de probabilidad de la media
muestral es definida por el teorema ms importante de la estadstica, denominado Teorema
Central del Lmite cuyo enunciado se presenta a continuacin. Este teorema es fundamental para
desarrollar todas las herramientas de inferencia estadstica que veremos ms adelante para, por
ejemplo, estimar la media poblacional de una variable aleatoria con una precisin deseada y
conocida.

El Teorema Central del Lmite


El Teorema Central de Lmite (TCL) en palabras, dice que si una poblacin tiene una media y
2
variancia , finitas, entonces, a medida que el tamao de la muestra (n) aumenta, la distribucin
de la media de la muestra ( x ), tiende a la distribucin normal con media y variancia

2
n

. En

trminos de la distribucin normal standard:

x
P( x x0 ) = N 0

/ n

(5.8)

donde x 0 es un valor particular de x .


La precisin de esta probabilidad depende del tamao de la muestra y de la distribucin de
la variable aleatoria X. Si X tiene distribucin normal, las probabilidades sern exactas, sin importar

Dagoberto Salgado Horta

Pgina 52

cun pequea sea la muestra. Si no se conoce la distribucin de X, la probabilidad ser ms


exacta cuanto mayor sea n. La regla emprica que suele seguirse en Estadstica es que, para que
las aproximaciones sean razonablemente buenas, n no debera ser menor a 30 o 40.
Ejemplo.
Una empresa produce bolsas de un producto agroqumico con un peso medio de 50 kg y
2
una variancia de 4 kg . Se toma una muestra de 100 bolsas. Asumiendo que los pesos de
las bolsas son independientes, segn el TCL, el peso medio de una muestra, M, debera
distribuirse de manera aproximadamente normal as que, podemos calcular probabilidades.
Por ejemplo;

P(M < 49.7 )


49.7 50

= P z <

2 / 100 ,

P(z < 1.5)


0.0668

P (M > 50.4 )
50.4 50

= 1 P z <

2 / 100

1 P(z < +2.0)


1 0.9773
= 0.0227

P (49.8 M 50.6)
50.6 50
49.8 50

= P z <
P z <
.
2 / 100
2 / 100

0.84000
A continuacin, aplicando el TCL, veremos cmo es la distribucin de algunos estadsticos
de uso muy comn, cuando se efectan muestreos sobre distintos tipos de poblaciones.

Distribucin por muestreo de la media


Hemos visto, al principio del captulo, que la media muestral, x , tiene esperanza igual a y
variancia igual

( n) y, por ende, error standard igual a (


2

n y que cuando n ,

x 0.

Aplicamos una vez ms el TCL y esperamos que, para n grande, la funcin de distribucin
acumulativa de x sea:

Dagoberto Salgado Horta

Pgina 53

P( x x0 ) N 0

(5.14)

Distribucin por muestreo de la diferencia entre


dos medias (muestras independientes)
Asimismo, ms all del inters en estimar la probabilidad de una media muestral determinada,
muchas veces lo que interesa realmente es la diferencia entre dos medias muestrales, o sea, la
comparacin de dos medias muestrales. Dadas dos muestras tomadas independientemente una
de la otra (de dos poblaciones con medias 1 y 2), con tamaos muestrales n1 y n2, con medias x1
y x 2 , nos interesa utilizar la diferencia entre las medias muestrales, x

= x1 x 2 para estimar la

verdadera diferencia entre los parmetros poblacionales, es decir, entre 1 y 2, = 1 - 2. Segn


el TCL, la distribucin por muestreo de x se aproxima a una distribucin normal con media y
error standard ( x ) =

12
n1

22
n2

, (donde 1 y 2 son las variancias de la variable de inters en


2

las dos poblaciones, respectivamente) cuando n1 y n2 son grandes. As que la probabilidad de una
dada diferencia puede aproximarse mediante la expresin:

P(x x0 ) N 0
(x )

(5.17)

Ejemplo.
El rendimiento medio en [Kg/Ha] de maz en la localidad A es de 4700 con una variancia de
2
47000 [Kg/ha] y en la localidad B, es de 4200 [Kg/Ha] con una variancia de 100000
2
[Kg/Ha] . Si se eligen al azar 49 establecimientos de la localidad A y 80 de la localidad B y
se determinan sus rendimientos medios de maz, cul es la probabilidad de que el
rendimiento medio de la muestra A sea por lo menos 550 [Kg/Ha] mayor que el de la
muestra B?
= 4700 4200 = 500 [Kg/Ha] y ( x ) =

47000 100000
+
47.00 .
49
80

La probabilidad buscada es:

550 500
P (x 550) 1 N
1 N (1.064 ) 0.1446 y
47

Dagoberto Salgado Horta

Pgina 54

Distribucin por muestreo de la variancia muestral


Si la variable aleatoria x tiene distribucin normal en la poblacin, entonces la distribucin por
2

muestreo de la variancia muestral, s n 1 , puede obtenerse de: s n 1


estadstico muestral que tiene distribucin es
2

(n 1) s n21
2

= n21

2
n 1

, es decir que el

, donde n 1 es una distribucin con


2

n 1 grados de libertad y es la variancia de x en la poblacin.


2

Distribucin por muestreo de la media cuando


no se conoce 2
Cuando los tamaos muestrales son pequeos (digamos, menores a 30), entonces los estadsticos
de muestra siguen otras distribuciones diferentes de la normal. Cuando n es pequeo y no se
conoce , ya no se puede utilizar la variable
2

del TCL, puesto que no se conoce y,

adems, la aproximacin no ser buena debido al tamao muestral pequeo. En ese caso, x ya no
sigue la distribucin normal sino la distribucin t de Student que presentamos en el captulo
anterior. As, dada una muestra de tamao n:

P ( x < x0 ) = P t n 1 < 0

s
n

(5.18)

donde s es el desvo standard muestral y tn-1 es una variable t de Student con n 1 grados de
libertad.

Ejercicios
5.1

Una compaa azucarera envasa azcar en bolsas de 500 gr. La cantidad de azcar por
bolsa vara de acuerdo a una distribucin normal. Una muestra de 25 bolsas es
seleccionada a partir de la produccin diaria y si el promedio es menor que 498 gramos
por bolsa, el llenado de las bolsas se incrementar. Si el promedio para la produccin
diaria es de 500 gramos por bolsa y el desvo es de 5 grs., cul es la probabilidad que el
llenado de las bolsas se incremente?

5.2

Suponga que una muestra aleatoria de tamao n = 25, es seleccionada de una poblacin
con media , y desvo estndar . Para cada uno de los siguientes valores de y ,
determine los valores de

x y x . (a) = 10 y = 3; (b) = 100 y = 25; (c) = 20 y

= 40; (d) = 10 y = 100.


5.3

Considere la siguiente distribucin de probabilidad:

Dagoberto Salgado Horta

Pgina 55

x
1
2
3
8
P(x) 0.1 0.4 0.4 0.1
a. Hallar , 2 y .
b. Hallar la distribucin por muestreo de una muestra de tamao n = 2, de esta
distribucin, determinando todos los posibles valores de x , y encontrar los valores
de probabilidad asociados a cada uno de ellos.

c. Use el resultado encontrado en (b) para obtener x y x .


5.5

El contenido neto de un frasco de dulce est distribuido normalmente con = 850 grs y
= 8 grs.

a. Describa la distribucin de X.
b. Encuentre la probabilidad de que un frasco escogido al azar contengo entre 848 y
855 grs.
c. Describa la distribucin de la media muestral, a partir de una muestra aleatoria de
24 frascos.
d. Encuentre la probabilidad de que una muestra aleatoria de 24 frascos tenga un
peso promedio entre 848 y 855 grs.
5.4

El siguiente conjunto de datos representa un censo efectuado sobre el tamao


de manzanas en una lnea de empaque del Alto Valle del Ro Negro durante la
poca de cosecha. De acuerdo a estos datos, el tamao de las manzanas
(dimetro en milmetros) sigue una distribucin Normal con = 78 mm y = 4 mm. En
base a esta tabla, escoja 10 muestras aleatorias de n =10 y pruebe la distribucin de los
estimadores y su relacin con los parmetros.

1
2
3
4
5
6
7
8
9
10

5.6

10

80.1
72.9
74.6
77.6
78.4
79.8
75.7
77.5
82.3
74.8

81.0
81.2
79.3
79.7
77.0
81.7
85.0
78.9
78.3
78.6

76.1
82.5
76.2
78.7
76.4
81.8
83.6
87.3
77.2
72.6

77.9
71.4
79.5
84.2
80.2
83.1
86.2
75.4
79.9
80.8

73.3
71.8
78.2
85.5
68.7
75.6
76.8
77.7
73.1
80.5

70.5
73.5
73.9
79.4
76.5
75.8
75.9
76.0
77.3
80.3

81.4
76.7
84.6
79.1
81.1
76.6
83.4
69.8
74.9
82.0

76.9
78.8
75.3
77.1
74.5
78.5
80.6
80.7
83.9
71.0

72.1
79.2
82.2
82.7
73.7
74.2
77.8
81.5
74.3
82.9

78.0
77.4
72.4
74.0
75.0
75.2
80.0
78.1
79.0
81.7

La velocidad del viento en una isla del Atlntico Sur sigue una distribucin
aproximadamente Normal con = 45 Km/h y = 9 Km/h.

Dagoberto Salgado Horta

Pgina 56

a. Encuentre la probabilidad de que la velocidad del viento supere los 60 Km/h.


b. Encuentre la probabilidad de que la media de una muestra aleatoria de 9
observaciones supere los 60 Km/h.
c. Calcule la desviacin estndar de la media muestral.

Dagoberto Salgado Horta

Pgina 57

ESTIMACIN DE PARMETROS
En un estudio acerca de la disponibilidad de alimento para la dieta de elefantes marinos en la
Pennsula de Valds, se necesita determinar la biomasa promedio de las presas disponibles de
una determinada especie. Obviamente es imposible pesar a todas las presas de esa especie que
se encuentran en el espacio que los elefantes marinos pueden explorar en la plataforma
continental en una temporada. En cambio, se puede disear un muestreo aleatorio que abarque el
rea de distribucin de elefantes marinos en el mar (descripta por seguimiento satelital en
campaas anteriores), capturar en cada sitio una presa de la especie en cuestin y pesarla. El
conjunto de las capturas tomadas al azar constituye una muestra aleatoria, representativa de la
poblacin formada por todos los animales que hubieran podido ser capturados. El peso es una
variable aleatoria que puede tomar diferentes valores segn cual sea el animal capturado.
Nuestra intencin al tomar una muestra es la de hacer una inferencia. Este trmino lo
usamos en Estadstica para denominar al procedimiento con el que hacemos afirmaciones acerca
de parmetros de la poblacin mediante los nmeros que observamos en la muestra. En el caso
del estudio sobre la dieta de los elefantes marinos, el parmetro sobre el cual se hace inferencia es
el peso promedio de todas las presas de la poblacin. Para hacer esta inferencia, es fundamental
que cualquier individuo de la poblacin de inters haya tenido igual probabilidad de entrar en la
muestra. En ese caso, la muestra es representativa de la poblacin. Una muestra aleatoria formada
por n unidades de observacin provee una coleccin de n valores (realizaciones) de la variable
aleatoria. Estas realizaciones (a) son independientes y (b) provienen de la misma distribucin de
probabilidad.
Para tener una idea del valor del parmetro que desconocemos tomamos una muestra de
los pesos de las presas. Supongamos que son 100 presas en la muestra. Con una balanza de la
precisin adecuada y con mucho cuidado, medimos los pesos de las 100 presas de la muestra y
calculamos su promedio. Qu nos dice el valor de la media de la muestra acerca de la media de
la poblacin? Por un lado, definitivamente no esperamos que el valor de la media de la muestra
coincida exactamente con el de la poblacin. Por otra parte, no tenemos mejor informacin
respecto a la media de la poblacin que la que extraigamos de la muestra. Por ltimo, sera muy
extrao que si la poblacin de presas tiene, por decir algo, un peso promedio de 250g, nos tocarn
100 presas en la muestra con un promedio de, digamos, 50g. Fjese que no decimos imposible
sino raro o extrao. Adems, si alguien nos preguntara: cunto es el peso promedio de la
poblacin de presas?, le contestaramos diciendo el valor que hayamos visto en la muestra y a
nuestra afirmacin deberamos agregarle alguna advertencia tal como: "ms o menos'', o
``aproximadamente''.
A un valor calculado con los datos de una muestra para jugar el papel de decir,
aproximadamente, el valor de un parmetro de la poblacin, lo denominamos estimador. Cuando
decimos que se trata de un estimador puntual queremos decir que para estimar el parmetro
estamos usando un valor nico. Volviendo al ejemplo de las presas de los elefantes marinos: si la
muestra de 100 presas arroja un valor del promedio de 235 g, diramos que estimamos el
promedio de la poblacin en 235 g.
Es decir que dada una poblacin de una variable aleatoria claramente identificada, el
proceso de toma de muestras desemboca en el anlisis de los valores de dicha variable aleatoria
en la muestra con el fin de extraer de ella alguna conclusin acerca de la informacin contenida en
la poblacin, que seguir siendo objetivamente desconocida. En clases anteriores habamos
definido a las cantidades calculadas a partir de los datos de la muestra como estadsticos y a las
cantidades desconocidas contenidas en la poblacin como parmetros. Entonces, si se habr de
decidir acerca de un parmetro basndose en lo que el estadstico dice, se pueden hacer dos
cosas: (i) especular acerca del valor del parmetro poblacional desconocido basndose en la
informacin que brinda un estadstico muestral conocido o, (ii) decidir si se acepta que el valor del
parmetro es igual, mayor o menor que una cantidad dada. En ambos casos se estar haciendo

Dagoberto Salgado Horta

Pgina 58

una inferencia estadstica. En el primer caso, se estar haciendo una estimacin del parmetro y
al estadstico que se utiliza para estimar al parmetro se le llama, justamente, estimador. En el
segundo, se estar poniendo a prueba una hiptesis. En este captulo nos concentraremos en la
estimacin de parmetros y en el siguiente trataremos el tema de las pruebas de hiptesis acerca
de los parmetros poblacionales.
La estimacin de un parmetro puede consistir simplemente en proponer un valor posible
para el parmetro basndose en el valor que tiene el estimador, como hicimos en el ejemplo de los
pesos de las presas de los elefantes marinos. Este tipo de estimacin se denomina estimacin
puntual. Otra manera de estimar un parmetro consiste en proponer, con un grado calculado de
riesgo de cometer un error, un intervalo de valores posibles para el parmetro, lo que se
denomina estimacin por intervalo.

Estimacin puntual
En lo sucesivo emplearemos el smbolo

para designar a un parmetro genricamente, al

smbolo para designar a su estimador y n ser el tamao de la muestra.


La funcin matemtica que define al estimador ser, en general, la misma que define al
parmetro. Por ejemplo, si el parmetro desconocido es la proporcin () de alguna caracterstica
en una poblacin de tamao N - es decir que = (X/N), donde X es la cantidad de unidades que
poseen dicha caracterstica en la poblacin entonces, el estimador ser el valor p = (x/n), donde x
es la cantidad de unidades que poseen dicha caracterstica en una muestra de tamao n y p es la
proporcin de las mismas.
Cuando se tiene una frmula para estimar y se aplica a una muestra aleatoria, el resultado
es aleatorio, es decir los estimadores son variables aleatorias. Como cualquier variable aleatoria, el
estimador tiene

distribucin de probabilidad.

valor esperado: E( ).

Variancia y desvo standard.

Caractersticas deseables en un buen estimador

Ausencia de sesgo en la estimacin


El valor esperado de un estimador nos da un valor alrededor del cual es muy probable que
se encuentre el valor del estimador. Ya que es muy probable que el valor del estimador
est cerca de su valor esperado, una propiedad muy deseable es que el valor esperado del
estimador coincida con el del parmetro que se pretende estimar. Al menos, quisiramos
que el valor esperado no difiera mucho del parmetro estimado. Por esa razn es
importante la cantidad que, tcnicamente llamamos sesgo. El sesgo es la diferencia entre
el valor esperado del estimador y el parmetro que estima:
Sesgo = E( ) - .

(6.1)

Si el sesgo es cero, se dice que el estimador es insesgado y sta es una


caracterstica buena para un estimador. Un estimador insesgado tiene una alta
probabilidad de tomar un valor cercano al valor del parmetro.

Variancia mnima

Dagoberto Salgado Horta

Pgina 59

Supongamos que 1 y 2 son dos estimadores insesgados de . Aunque la distribucin de


cada uno de los dos estimadores tiene media igual a las dispersiones de sus valores
alrededor de podran ser diferentes. Entre todos los estimadores insesgados de ,

conviene seleccionar aqul que tenga menor variancia. El resultante se denomina


estimador insesgado con variancia mnima de . As que el estimador insesgado con
variancia mnima es el que, entre todos los estimadores insesgados, tendr mayor
probabilidad de producir una estimacin cercana al verdadero valor .

Estimacin consistente
Una vez obtenido un valor para a partir de la muestra, es posible que exista una
diferencia entre ese valor y el verdadero valor del parmetro (). A la diferencia - se la
denomina error muestral, y se debe, como su nombre lo indica, a que cuando se toman
varias muestras, stas no sern todas idnticas sino que diferirn entre ellas. Entonces,
otra caracterstica deseable en un buen estimador es que las estimaciones que genere
estn cercanas al valor del parmetro, o sea, que no tengan error muestral o que tenga
una alta probabilidad de no tenerlo. Se dice que un estimador es consistente si

P > 0 cuando n . En palabras, un estimador es consistente si, a medida


que aumenta el tamao de la muestra, la probabilidad del error muestral tiende a ser ms
pequea que cualquier cantidad pequea () que podamos imaginar.

Mtodos de estimacin
Hay varios mtodos de estimacin pero en este curso presentaremos solamente tres. En esta clase
veremos dos de ellos (el mtodo de mxima verosimilitud y el mtodo de los momentos) y en la
clase correspondiente a Regresin Lineal veremos el otro (el mtodo de mnimos cuadrados).

El mtodo de los momentos


Se denomina momento de orden 1 de una distribucin de probabilidades para una variable
discreta X, o de una funcin de densidad para una variable continua X, al valor de E(X).
2
Anlogamente, el momento de orden 2 de tales funciones ser E(X ). Los momentos pueden
estar centrados en algn nmero de la distribucin. Por ejemplo, el momento de orden 2
2
centrado en la media es E[(X - ) ] o sea, la variancia.
Este es el mtodo ms sencillo y directo y consiste, simplemente, en igualar los momentos
de orden 1 y 2 muestrales a los correspondientes momentos poblacionales y, de all, despejar y
.
Ejemplo. Se efectan 100 lanzamientos de 3 monedas y se obtienen los siguientes
resultados: 11 veces result en 3 cruces, 36 veces result en 2 cruces y 1 sol, 38 veces
result en 1 cruz y 2 soles y 15 veces result en 3 soles. Obtenga la estimacin del
parmetro de la correspondiente distribucin binomial de la variable nmero de soles.
Calculamos la media muestral de la variable y la igualamos a la media poblacional:

x=

Dagoberto Salgado Horta

0 11 + 1 36 + 2 38 + 3 15
= 1.57 ;
100

Pgina 60

= n = 3 = 1.57 = 0.523 .

(6.2)

El mtodo de mxima verosimilitud


Lo que caracteriza al mtodo de MV es que provee estimadores consistentes aunque no siempre
proporciona estimadores insesgados. Lo presentaremos mediante un ejemplo.
Supngase que se obtiene una muestra de 10 plantas de las cuales la segunda, la tercera
y la octava han florecido mientras que las 7 restantes no lo han hecho. Si designamos a las
variables aleatorias que representan a la presencia de flor y a su ausencia como Xi, siendo su valor
igual a 1 si hay flor y 0 si no la hay, entonces los valores de las xi observados en la muestra
obtenida son: 0,1,1,0,0,0,0,1,0,0. Por tanto, si la probabilidad de que haya flores es igual a p y la de
que no haya flores es igual a q = 1 p, entonces la probabilidad de la muestra observada es igual
3 7
a: qppqqqqpqq = p q .
La pregunta que nos hacemos al emplear el mtodo de MV es, para que valor de sera
ms probable que hubiera ocurrido la muestra que se observ?, es decir, cual es el valor de que
hace que la probabilidad de que ocurra lo que se observ sea mxima? Entonces tenemos que
3 7
encontrar el valor de que haga mxima la probabilidad p q . Esto se puede hacer tomando
logaritmos y derivando con respecto a p:
3

L = ln(p q ) = 3ln(p) + 7ln(q);

(6.3)

dL 3
7
=
dp p 1 p
3
3
= 0 p = =
10
10
Este es el concepto de mxima verosimilitud. Presentaremos directamente los
estimadores de MV de los parmetros ms comunes.
(a) Estimador de MV de . El estimador de MV de es la proporcin muestral p:
E(p) = y p

(1 )
n

= p con:

, as que p es un estimador insesgado y consistente de .

(b) Estimador de MV de . El estimador de MV de es la media muestral x :

x
n

= x . La

media muestral es un estimador insesgado, consistente y de mnima variancia de la media


poblacional.
(c) Estimador de MV de . El estimador de MV de de una distribucin normal es la variancia
2

muestral, s

2
n 1 :

= s
2

2
n 1 .

2
n 1 es

un estimador insesgado de .
2

Estimacin por intervalo


Los estimadores puntuales, con todo lo buenos que pueden ser, no nos proporcionan un valor para
el error muestral que se podra estar cometiendo, es decir, slo obtenemos un valor puntual y
ninguna medida del error. En cambio, una estimacin por intervalo de confianza (de all su
nombre), ms que proporcionar un valor puntual, permite obtener un rango o intervalo de valores

Dagoberto Salgado Horta

Pgina 61

de los cuales se espera, con un dado margen de confianza, que lleguen a cubrir el verdadero valor
del parmetro.
La estimacin por intervalo de confianza consiste en la obtencin de dos valores extremos,
denominados lmite superior y lmite inferior del intervalo, que son variables aleatorias. Para
establecer dichos lmites, se utilizan los datos de una muestra de tamao n. Luego, se establece la
probabilidad deseada de que dicho intervalo alcance a cubrir el verdadero valor del parmetro
(desconocido), lo que se denomina nivel de confianza del intervalo y se simboliza 1 - . Lo que la
muestra debe proporcionar es, en primer lugar, la estimacin puntual del parmetro ( ); luego, se
necesita conocer el tamao de la muestra (n) y el desvo standard del estimador. En smbolos:

()

( )}

P h + h = 1

(6.4)

Como puede verse en la expresin, el intervalo de confianza es simtrico con lmite inferior

()

()

igual a h y lmite superior igual a + h , ambos variables aleatorias. El factor de


confianza h es una cola de la distribucin por muestreo del estimador: puede ser una distribucin
normal, una t de Student, etc.
Como puede deducirse de la expresin general, el ancho del intervalo de confianza, o sea

()

()

el valor de h depende de h y de , el desvo standard del estadstico muestral el cual, a


su vez, depender de manera inversamente proporcional del tamao muestral n. Es decir que
cuanto mayor sea el tamao de muestra, menor ser el ancho del intervalo de confianza (el
intervalo de confianza ser ms preciso) y, a su vez, cuanta mayor sea la confianza que se desea
tener (o sea, cuanto menor se emplee) mayor ser el ancho del intervalo.

Intervalo de confianza para la media poblacional


Variancia poblacional conocida y variable aleatoria
con distribucin normal
Hemos anticipado ya que la media muestral, x , es un estimador puntual insesgado, consistente y
de mnima variancia de la media poblacional, . Tambin vimos, en una clase anterior, que el
desvo standard de este estimador es ( x ) =

. Si la distribucin de la poblacin es normal, o la

muestra es grande, de manera que se aplique el Teorema Central del Lmite, el intervalo con una
confianza 1 - , ser:

P x z1
x + z1
= 1
2
2
n
n

(6.5)

Ejemplo.
Una muestra aleatoria de 50 calificaciones en Matemtica mostr una media de 75. Se
sabe que el desvo estndar poblacional es igual a 10.
(a) Construir un intervalo de confianza del 95% (IC95) para la media poblacional.
(b) Con qu grado de confianza se puede decir que la media de las notas es 75 1?
(a) Dado que se conoce el desvo estndar de la poblacin, usamos la distribucin normal:

P x z1
x + z1
= 1
2
2
n
n

Dagoberto Salgado Horta

Pgina 62

75 z1
2

10
10
75 + z1
2
50
50

Dado que el nivel de confianza es del 95% resulta que 1

75 1.96

= 0.975 , as que z = 1.96 y:

10
10
o sea que 72.23 < < 77.77 es el IC95 buscado.
75 + 1.96
50
50

(b) Aqu hay que averiguar el valor de z tal que se obtenga un valor de

z1
2

10
igual a
50

1. Luego:

z1 = 0.707
2

= 0.24

= 0.48
1 - = 0.52.

Varianza poblacional desconocida y variable aleatoria normal


Si el desvo estndar de la poblacin es desconocido se usa al desvo estndar de la muestra, sn-1,
como estimador del desvo standard poblacional . En este caso, si la distribucin de la variable
aleatoria es normal, o la muestra es grande, de manera que se aplique el Teorema Central del
Lmite, en lugar de utilizar z como estadstico en el intervalo, utilizamos la distribucin t de Student,
con n - 1 grados de libertad:

s
s

P x t1 ;n1 n1 x + t1 ;n1 n1 = 1 .
2
2
n
n

(6.6)

Ejemplo.
Supongamos que deseamos obtener una estimacin por intervalo de la longitud promedio
de cariopse en una variedad de maz colorado. Podemos extraer primero una muestra
aleatoria de, por ejemplo, 17 cariopses para observacin. Supongamos, adems que
encontramos, que x = 10 mm y que s n 1 = 0.3 mm. Con estos datos, puede construirse el
siguiente IC95:

x t16;0.975

s n 1
n

0 .3
= 10 2.120

17
o sea 9.846 10.154.

Dagoberto Salgado Horta

Pgina 63

Determinacin del tamao de muestra (n)


para un grado dado de precisin
A partir de la expresin del IC se puede hacer una determinacin inversa a la que se ha hecho en
la parte (a) del ejemplo anterior, es decir, en lugar de determinar el nivel de confianza a partir de un
dado valor de n, se tratar de determinar el valor de n a partir de un deseado nivel de confianza o
para un dado valor del error muestral, utilizando la expresin: z1

. Dado un valor de
n

precisin o error (e) para un IC:

n=

z12 2
2

(6.7)

e2

Siguiendo con la parte (a) del ejemplo anterior, el error (e) del IC fue 1.96

10
50

= 2.772 .

Con este mismo nivel de error, la confianza del intervalo cambiara si se modificara n. Si se
aumentara n, la aumentara. Por ejemplo, cunto tendra que aumentar n si se deseara trabajar
con una confianza del 98%? Luego:

n=

2.327 2 10 2
= 70.47 71 .
2.772 2

Intervalo de confianza para la proporcin poblacional


Considrese ahora el estadstico p como la proporcin de xitos en una muestra de tamao n
extrada de una poblacin con distribucin binomial cuyo parmetro es , la proporcin poblacional
de xitos. Si la muestra es grande (n 30), el IC para

es:

p z1
2

p (1 p )
p + z1
2
n

p (1 p )
.
n

(6.8)

Ejemplo.
Una encuesta hecha a una muestra aleatoria de 100 electores mostr que el 59% de ellos
est a favor de un candidato. Hallar el IC95 para la proporcin de todos los electores que
estn a favor de dicho candidato.

p (1 p )
n

0.59 (1 0.59) .
100
= 0.0492

Aqu p = 0.59 y =

Luego:

0.59 1.96 0.0492 0.59 + 1.96 0.0492 ,


o sea que 0.494 0.686.

Dagoberto Salgado Horta

Pgina 64

Intervalo de confianza para una diferencia entre dos medias


con muestras independientes y varianzas poblacionales
desconocidas pero supuestamente iguales
A veces, como se dijo antes, el inters central no est en la estimacin de un promedio () sino en
la estimacin de una diferencia entre promedios (). Similarmente al caso del IC para una media
poblacional con varianza poblacional desconocida, la diferencia entre dos medias se distribuye
como una t de Student. En este caso, el nmero de grados de libertad es igual a n1 + n2 2.

x t n +n 2;1 sa
1

donde

sa =

1 1
1 1
+
x + tn +n 2;1 sa
+ (6.9)
1
2
2
n1 n2
n1 n2

(n1 1) s (2n1),1 + (n2 1) s (2n1),2


n1 + n 2 2

(6.10)

es el desvo standard amalgamado entre los desvos standard de las dos muestras.
Ejemplo.
Supongamos que nos interesan las diferencias entre los rendimientos promedios de maz
(en Kg/Ha) de dos localidades, A y B. Tomamos una muestra aleatoria de 12
establecimientos de la localidad A (n1) y de 15 establecimientos de la localidad B (n2). Las
medias y variancias muestrales resultan ser:

x1 = 6000 , s (2n 1),1 = 565000 , x 2 = 5400 y


s (2n 1), 2 = 362500 ,
as que

sa =

x = 6000 5400 = 600 ; y:

11 565000 + 14 362500
672 .
12 + 15 2

Luego, el IC95 es:

x t n + n 2;1 s a
1

n1 + n2
n + n2
x + t n + n 2;1 s a 1
1
2
2
n1 n2
n1 n2

63.86 1136.14.

Dagoberto Salgado Horta

Pgina 65

o sea

Ejercicios
6.1

En cada uno de los siguientes diagramas, los nmeros I y II representan las


distribuciones muestrales de dos estadsticos que pueden usarse para estimar al
parmetro . En cada caso, identifique el estadstico que considere como el mejor
estimador y justifique su eleccin.

6.2

II

II

II

El peso medio al nacer de 50 terneros Shorthorn por Hereford es de 50 kg. Se sabe, por
experiencias anteriores, que la desviacin tpica es de 7 kg.

a) Calcule e interprete el IC90 para el parmetro que corresponda.


b) Cul ser el tamao de muestra necesario para generar un intervalo con un una
confianza del 95% y una precisin de 1.5 kg?
c) Cul ser el nivel de confianza de un intervalo si n = 70 y los lmites inferior y
superior del IC resultaron ser 48.7311 y 51.2689?
6.3

Se seleccion un conjunto de 100 ovinos que padecan una cierta enfermedad y se les
aplic un tratamiento. Se obtuvo un tiempo medio de supervivencia de 46 meses. Se sabe
por experiencias anteriores que la varianza es de 36 meses2.

a. Construya e interprete el IC95 para el tiempo medio de supervivencia.


b. Cul es el mnimo tamao de muestra necesario para obtener un intervalo con
confianza del 99% y con un error de muestreo de 1.176?
c. Si n = 120 y los lmites de confianza son de 44.82 y 47.176, cul es el nivel de
confianza con el que se calcul?
6.4

El administrador de un gran rodeo est interesado en conocer la edad promedio de las


vacas de cra en un ao dado. Toma una muestra de tamao 50, lo que arroja un promedio
de 5.3 aos y conoce que esta variable tiene una distribucin normal con varianza
poblacional de 2.25 aos2. Calcule los lmites inferior y superior para la edad promedio
poblacional con una confianza del 95%.

Dagoberto Salgado Horta

Pgina 66

6.5

La siguiente planilla muestra las alturas (en centmetros) de una poblacin de 100
personas. La distribucin es normal y la varianza poblacional es igual a 103.13 cm2.

a. Tome una muestra al azar de tamao n = 3 y realice un IC90. Repita el proceso 3


veces.
b. Repita lo hecho en el punto anterior, pero con una muestra de tamao n=6.
caso
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
6.6

altura
186
177
197
183
178
175
163
165
176
181
166
149
175
190
161
181
168
164
164
163

caso
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39

altura
168
146
171
171
181
177
183
177
184
167
170
167
178
171
167
158
184
169
168
180

caso
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59

altura
140
179
173
164
173
153
167
160
174
161
173
158
173
169
168
163
174
171
189
146

caso
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79

altura
176
179
171
179
170
169
167
172
170
175
170
153
152
178
165
173
161
162
178
171

caso
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99

altura
165
179
171
176
178
164
188
170
145
176
173
153
164
153
163
169
160
172
172
166

En una investigacin se desea estimar el porcentaje medio de incremento de sacarosa en


la caa de azcar, luego de habrsele aplicado un producto compuesto con sales de
molibdeno y otros metales que tienden a inhibir procesos enzimticos. Fueron
seleccionadas 7 plantas de caa de azcar a las cuales se les aplic el producto,
obtenindose una media de 0.84 por ciento y una desviacin estndar de 0.18 por ciento.
Se sabe que la distribucin de la variable en estudio es normal.

a. Estime con un IC90, con un IC95 y con un IC99.


b. Compare el ancho de cada uno de los IC. Qu puede decirse acerca del error de
estimacin?
6.7

La propaganda de cierta marca de cigarrillos sostiene que el contenido


promedio de nicotina de su producto es menor de 0.7 miligramos por
cigarrillo. Para determinar el parmetro toman una muestra al azar de 30
cigarrillos y miden el contenido de nicotina de cada uno de ellos, encontrando los
siguientes valores:

Dagoberto Salgado Horta

Pgina 67

0.71 0.75 0.67 0.68 0.72 0.58 0.69 0.70 0.61 0.67 0.74 0.72 0.61 0.63 0.75
0.73 0.59 0.60 0.63 0.59 0.68 0.69 0.77 0.80 0.63 0.62 0.64 0.78 0.76 0.75

Estime con IC99. Qu puede decir acerca de la afirmacin de la propaganda?


6.8

En un experimento piloto se us Dextran como un sustituto del plasma sanguneo y se


encontr un aumento medio en el volumen del plasma de aproximadamente 800 cm3
despus de 6 hs de infusin continua de Dextran; la desviacin estndar fue de 350 cm3,
calculada sobre 20 individuos. Realice la estimacin del parmetro por intervalo de
confianza.

6.9

En una regin agrcola se siembra predominantemente una variedad de trigo que tiene un
rendimiento medio de 3.5 toneladas por hectrea. Una compaa productora
de semillas ha desarrollado una nueva variedad y sostiene que el rendimiento
promedio es mayor que en la variedad comnmente usada. Para probar esta
aseveracin se siembran nueve lotes experimentales con la nueva variedad y se obtienen
los siguientes rendimientos (en Ton/Ha):
3.15

3.92

4.26

3.72

4.19

3.42

4.38

4.50

3.36

Construya un IC95. Qu puede decir acerca de la aseveracin de la compaa?


6.10 Al estimar la media poblacional mediante un IC90 se obtuvieron los siguientes lmites:
[95; 110]. Sabiendo que se trabaj con una muestra de 36 individuos, d el valor del
promedio y de la varianza de la muestra que se utiliz para el clculo de dicho intervalo.
6.11

En una muestra de 100 semillas elegidas al azar entre las cosechadas en un ensayo, se vio
que el 23% de ellas estaban atacadas por gorgojos. Halle los lmites de confianza del
95% y del 99% para la proporcin de semillas daadas.

6.12 Una muestra de 100 productores elegidos al azar entre todos los de un distrito dado,
indic que el 55% de ellos estaban a favor de las polticas agropecuarias vigentes. Hallar
los lmites de confianza del 95% para la proporcin de todos los productores que estaban
a favor de dichas polticas.

Dagoberto Salgado Horta

Pgina 68

PRUEBAS DE HIPTESIS ESTADSTICAS


En el captulo anterior hemos presentado una de las tcnicas apropiadas para hacer
conjeturas acerca del valor de un parmetro desconocido, la estimacin del valor del parmetro. En
esta clase, nos referiremos a la segunda tcnica que se puede aplicar al decidir si se acepta que el
valor del parmetro es igual, mayor o menor que una cantidad dada: la prueba de hiptesis.
Bsicamente diremos que la tcnica de la prueba de hiptesis permite al ingeniero tomar una
decisin acerca del valor de un parmetro a partir de la informacin que puede extraer de una
muestra. Esa decisin consistir en elegir entre dos cursos de accin: dado un valor del estadstico
muestral, un valor de dispersin para dicho estadstico y una distribucin por muestreo supuesta,
se tomar la decisin de aceptar o rechazar que el valor del parmetro pertenece a un conjunto de
valores posibles.
Hay dos tipos de hiptesis estadsticas: (i) la hiptesis nula, denotada H0, y, (ii) la
hiptesis alternativa, denotada H1. Frente a una situacin de incertidumbre acerca del valor de un
parmetro (), se comienza por plantear una hiptesis que dice que dicho valor (desconocido)
corresponde a un dado valor o conjunto de valores (hiptesis nula) y una hiptesis que contempla
todos los otros valores posibles. Posteriormente, a travs de clculos basados en la distribucin
por muestreo del estadstico, se toma la decisin de aceptar H0 es decir, aceptar que es igual al
valor que especifica H0, o que pertenece al conjunto de valores que especifica H0 o la decisin
alternativa de rechazar H0 - es decir, rechazar que es igual al valor que especifica H0, o que
pertenece al conjunto de valores que especifica H0.
Usualmente, las hiptesis nula y alternativa se plantean en dos formas, segn el problema de
que se trate:
(a) hiptesis a dos colas o bilateral. H0: = 0 vs. H1: 0, donde0 es un valor dado de .
(b) hiptesis a una cola o unilateral. La hiptesis unilateral, a su vez, puede ser de dos
clases:
(b1) hiptesis unilateral izquierda o hiptesis de cola izquierda:
H0: 0 vs. H1: < 0.
(b2) hiptesis unilateral derecha o hiptesis de cola derecha:
H0: 0 vs. H1: > 0.
Ejemplo.
Para lanzar al mercado un nuevo hbrido de maz, una compaa de semillas debe superar
la marca de 11200 Kg/Ha de rendimiento promedio. Para decidir si su ltima creacin
gentica est en condiciones de salir a competir al mercado, seran apropiadas las
siguientes hiptesis:
H0: 11200; si H0 es cierta, no sale el hbrido nuevo;
H1: > 11200, si H1 es cierta, sale el hbrido nuevo.
Este es un claro ejemplo de hiptesis de cola derecha, donde la hiptesis nula se
rechaza para valores altos (a la derecha de la distribucin).

Dagoberto Salgado Horta

Pgina 69

Tipos de error que se pueden cometer cuando se pone a prueba una


hiptesis
El hecho de que se tome una decisin acerca del valor de , no significa necesariamente que se
ha tomado una decisin correcta. La decisin de aceptar H0 implica dos resultados posibles: si el
verdadero valor de pertenece al conjunto de valores especificado por H0, entonces se ha tomado
una decisin correcta, pero si el verdadero valor de no pertenece al conjunto de valores
especificado por H0 sino al especificado por H1, entonces se ha cometido un error. Similarmente, la
decisin rechazar H0 implica dos resultados posibles: si el verdadero valor de pertenece al
conjunto de valores especificado por H0, entonces se ha cometido un error, pero si el verdadero
valor de no pertenece al conjunto de valores especificado por H0 sino al especificado por H1,
entonces se tomado una decisin correcta. El error de rechazar H0 cuando es cierta se denomina
error de tipo I (eI) y su probabilidad se denota usualmente con la letra y el error de aceptar H0
cuando es falsa se denomina error de tipo II (eII) y su probabilidad se denota usualmente con la
letra . Podramos resumir estas cuatro situaciones en el siguiente cuadro:
Cuadro 7.1.

H0 verdadera
Decisin

H1 verdadera

Se acept H0 Decisin correcta Error de tipo II


Se rechaz H0 Error de tipo I
Decisin correcta

En este curso trataremos solamente con los casos en los cuales se determina la
probabilidad de cometer un error de tipo I, es decir, cuando se determina un valor para . Frente a
un dado planteo de hiptesis, se especifica un valor de determinado, al que se le denomina nivel
de significacin de la prueba, y una vez calculado el valor de la distribucin del estadstico
muestral que corresponde a dicha probabilidad (), al que se denomina valor crtico, se toma una
decisin. Una vez conocido el valor crtico, el conjunto de valores posibles del estadstico de
prueba queda dividido en dos subconjuntos: el conjunto de valores para los cuales se aceptar H0
(denominado regin de aceptacin) y el conjunto de valores para los cuales se rechazar H0
(denominado regin de rechazo).

Protocolo general de la prueba de hiptesis


Se puede resumir el procedimiento a seguir en las pruebas de hiptesis en los siguientes pasos.
1. Planteo de las hiptesis nula y alternativa.
2. Eleccin de un nivel de significacin para la prueba ().
3. Eleccin de un estadstico de prueba. La distribucin por muestreo del estadstico de
prueba se basa en el supuesto de que H0 es cierta.
4. Determinacin del valor crtico de la prueba en base a , a la distribucin por muestreo del
estadstico de prueba y al tipo de hiptesis que se han planteado.
5. Clculo del valor del estadstico de prueba y su error standard para la muestra que se
utiliz y comparar dicho valor con el valor crtico.
6. Decisin: se acepta o se rechaza H0.
Prueba unilateral derecha (H0: 0 vs. H1: > 0)
Supongamos que la distribucin por muestreo del estadstico de prueba que se ha elegido es la
distribucin normal standard (z). Entonces, dado un valor de , el valor crtico de z correspondiente
a dicho nivel de significacin ( c ) ser c

()

= 0 + z1

, donde 0 es el valor del estadstico

()

muestral, z1- es el valor de z correspondiente a la probabilidad 1 - y es el valor del error

Dagoberto Salgado Horta

Pgina 70

standard del estadstico muestral. En la Figura 1 de la pgina siguiente se representa el caso de


una prueba de cola derecha, con distribucin normal standard del estadstico muestral y para dos
valores de : 0.05 y 0.01 donde R representa la regin de rechazo, A, la regin de aceptacin, 1.65
es el valor de z correspondiente a un valor de probabilidad 1 - = 0.95 (es decir, = 0.05), 2.33 es
el valor de z correspondiente a un valor de probabilidad 1 - = 0.99, (es decir, = 0.01). As que,
para una prueba unilateral derecha, la decisin ser, si usamos = 0.05 (o 0.01), rechazar H0 si el
valor del estadstico muestral (en este caso, z) es superior a 1.65 (o a 2.33). Caso contrario,
aceptar H0.
Figura 7.1. Representacin esquemtica de
la regin crtica o regin de rechazo (R), de
la regin de aceptacin (A) y de las reas
correspondientes a dos niveles de
significacin, 0.01 y 0.05, para el caso de
una prueba unilateral derecha.

Prueba unilateral izquierda (H0: 0 vs. H1: < 0)


Otra vez, supongamos que la distribucin por muestreo del estadstico de prueba que se ha
elegido es la distribucin normal standard (z). Entonces, dado un valor de , el valor crtico de z
correspondiente a dicho nivel de significacin ( c ) ser

()

c = 0 + z

Dagoberto Salgado Horta

(7.1)

Pgina 71

Figura
7.2.
Representacin
esquemtica de la
regin crtica o regin
de rechazo (R), de la
regin de aceptacin
(A) y de las reas
correspondientes a dos
niveles
de
significacin, 0.01 y
0.05, para el caso de
una prueba unilateral
izquierda.

De manera que, para una prueba unilateral izquierda, la decisin ser, si usamos = 0.05
(o 0.01), rechazar H0 si el valor del estadstico muestral (en este caso, z) es inferior a -1.65 (o a 2.33). Caso contrario, aceptar H0.
Prueba bilateral (H0: = 0 vs. H1: 0)
En este caso, la regin crtica estar dividida en dos segmentos de igual longitud situados
(simtricamente) a ambos extremos de la distribucin del estadstico (Figura 7.3).
Figura 7.3.
Representacin
esquemtica de las
dos regiones crticas
o de rechazo (R), de
la regin de
aceptacin (A) y de
las reas
correspondientes a
dos niveles de
significacin, 0.01 y
0.05, para el caso de
una prueba bilateral.

De modo que habr dos valores crticos, uno a la izquierda y el otro a la derecha:

Dagoberto Salgado Horta

Pgina 72

()
( )

cI = 0 + z
2

cD = 0 + z1

(7.3)
(7.4)

Por ejemplo, siguiendo con el ejemplo de la distribucin normal standard, si = 0.05,


entonces, z/2 = -1.96 y z1-/2 = +1.96; si = 0.01, z/2 = -2.58 y z1-/2 = +2.58. Por tanto, la decisin

en este caso ser aceptar H0 si cI

< < cD . Caso contrario, se rechaza H0.

El valor p
Con el advenimiento del uso de computadoras y de software estadstico, se ha generalizado una
manera alternativa de tomar decisiones acerca del valor de un parmetro. Frente a un dado
conjunto de datos de muestra, el software estadstico calcula el valor del estadstico de prueba y el
valor de probabilidad que le corresponde (valor p), segn la distribucin por muestreo asumida
para el mismo. Entonces, en lugar de fijar de antemano un nivel de significacin y observar si el
valor del estadstico calculado est por debajo o por encima del valor crtico, el ingeniero toma su
decisin sobre la base de dicho valor p. En este curso, ejemplificaremos el uso de ambas
estrategias.

Prueba de hiptesis sobre la media poblacional


de una variable con distribucin normal
La media poblacional es una medida cuyo conocimiento o, en su defecto, estimacin, usualmente,
resulta muy necesario. Por ejemplo, un nuevo cultivar de trigo, puede elevar el rendimiento
promedio de las cosechas en una determinada localidad, si es adoptado? Se ha elevado el
ingreso per capita real en la Argentina en el ltimo ao? Alcanz el cultivo de maz de un lote el
lmite de humedad necesario para cosecharlo?
En todos estos casos con los datos de una muestra necesitamos extraer conclusiones acerca de la
media de la poblacin. Como hemos visto, el estadstico que se emplea para estimar la media
poblacional () es la media muestral ( x ). Cuando se trata de una variable con distribucin normal
o la muestra es suficientemente grande para que opere el teorema central del lmite, entonces el
estadstico

t n 1 =

x 0
s n 1
n

(7.4)

t de Student con n-1 grados de libertad siempre y cuando la hiptesis nula = 0 sea cierta. Esto
permite poner a prueba la hiptesis nula como en el siguiente ejemplo.
Ejemplo.
Supongamos que una mquina enfardadora produce fardos con un ancho de 80 cm. Para
controlar el funcionamiento de la mquina se tom una muestra de 20 fardos en la cual el
ancho medio result ser de 77 cm con un desvo standard de 12 cm. Probar la hiptesis de
que la mquina est trabajando correctamente con = 0.10.

Dagoberto Salgado Horta

Pgina 73

En este caso, se debe considerar que la mquina est trabajando correctamente si


produce empaques que no sean demasiado grandes ni demasiado pequeos as que se
trata claramente de una prueba bilateral.
1] Hiptesis. H0: = 80; H1: 80.
2] Nivel de significacin. = 0.10.
3] Estadstica de prueba.

t n 1 =

x 0
s n 1
n

que se distribuye como una t19.

4] Regin crtica. Puesto que P(t19 < -1.729 t19 > +1.729) = 0.10, se rechazar H0 si
t < -1.729 t > +1.729.
5] Clculos. n = 20, x = 77, s n 1 = 12 y

t19 =

77 80
3
=
= 1.118 .
12 20 2.683

6] Decisin. Dado que el valor del estadstico de prueba no cae en ninguna de las dos
regiones crticas, H0 no es rechazada.
7] Con el men Estadsticas Probabilidades y cuantiles de Infostat, podemos
calcular el valor p de la prueba. Elegimos v = 19, que es el nmero de grados de
libertad. El valor p es, aproximadamente, igual a 0.2779 que es muy superior a 0.10.

Prueba de hiptesis sobre la diferencia entre las medias de dos variables


con distribucin normal
Cuando el inters del investigador o del ingeniero no est ya en una media poblacional sino en la
diferencia entre dos medias poblacionales, el parmetro poblacional ser el parmetro diferencia
( = 1 - 2) y su estimador muestral ser la diferencia en la muestra (x = x1 x2 ) . Segn cmo
han sido obtenidos los datos, aparecen dos situaciones diferentes para poner a prueba hiptesis
acerca del valor de ; en la primera situacin, las unidades muestrales que integran las dos
muestras estn apareadas y en el segundo son independientes. Las pruebas de hiptesis
apropiadas difieren entre estas dos situaciones.
Muestras apareadas
En algunas situaciones conviene comparar las medias de dos poblaciones a partir de muestras
relacionadas de modo tal que las unidades de muestreo formen parejas. Por ejemplo, para
comparar el rendimiento medio obtenido con dos hbridos de maz, cada par estara constituido por
dos lotes de cultivo de una misma localidad y cada miembro del par est cultivado con uno de los
hbridos. De esta manera, cada diferencia entre los rendimientos obtenidos en cada localidad
constituye un estimador de la diferencia entre los mtodos bajo condiciones determinadas
existentes en la localidad correpondiente. Los datos que se van a analizar consisten en una
muestra de n diferencias los rendimientos en n localidades. El objetivo del muestreo apareado es
generar pares que sean lo ms homogneos posible en los factores diferentes del que se est
analizando (p.ej, el hbrido de maz utilizado), de manera de poder atribuir las diferencias
encontradas a dicho factor.
En estos casos, la informacin est formada por n pares seleccionados de manera
independiente (x1,y1), (x2,y2), , (xn,yn), con E(xi) = 1 y con E(yi) = 2. Sea, entonces, la variable di
= xi yi tal que el valor de di sea las diferencias entre ambas muestras dentro del par i. Se partir
del supuesto que las di tienen distribucin normal con variancia d .
2

Dagoberto Salgado Horta

Pgina 74

Estamos interesados en poner a prueba la hiptesis H0: d = 1 - 2 = 0, donde 0 es una


diferencia particular. El estadstico a utilizar en la prueba de hiptesis ser:

t n 1 =

d
sd

(7.10)

que tiene distribucin t de Student con n 1 grados de libertad;

d =
i

di
n

es la media aritmtica de las diferencias, donde n es el nmero de parejas. El estimador del desvo
standard de esta media aritmtica de las diferencias es

sd
n
con:

sd =

(d
i

d )2

(n 1)

n d i2 ( d i )

n (n 1)

Ejemplo.
Supongamos que se desea saber si un nuevo hbrido de maz (B) es superior a otro hbrido
anterior (A) por su rendimiento promedio en 10 localidades de la regin maicera de la
provincia de Buenos Aires. Se eligieron al azar 10 establecimientos y se obtuvieron los
resultados que se presentan el cuadro siguiente en el cual ya se han calculado las
diferencias para cada localidad y sus respectivos cuadrados.
Cuadro 7.4.

Localidad
I
II
III
IV
V
VI
VII
VIII
IX
X
Total

Hbrido A
8450
7929
8126
8847
9059
8732
8346
8009
8859
8642
84999

Hbrido B
8239
8130
8255
8750
9147
8643
8442
8112
9047
8540
85305

(di)
di
+211 44521
-201 40401
-129 16641
+97
9409
-88
7744
+89
7921
-96
9216
-103 10609
-188 35344
+102 10404
-306 192210

1] Hiptesis. H0: 1 2; H0: 1 < 2.


2] Nivel de significacin. = 0.01.

Dagoberto Salgado Horta

Pgina 75

3] Estadstica de prueba. t n 1

d
sd

que tiene distribucin t de Student con n 1

grados de libertad.
4] Regin crtica. Para n = 10, obtenemos que P(t9 < -2.821) = 0.01 y se rechazar H0
si, y solo si, t9 < -2.821.
5] Clculos.

d =
i

d i 306
=
= 30.6 ;
n
10
2

n d d i
2
i
i
= 10 192210 ( 306 ) = 142.535
;
n (n 1)
10 (10 1)
2
i

1]

2]

sd =

sd
n

142.535
10

= 45.074 ; t n 1 =

30.6
= 0.679
45.074

6] Decisin. Puesto que -0.679 > -2.281, H0 no es rechazada y concluimos en que no


hay diferencias entre las medias de rendimiento de los dos hbridos de maz, en esta
regin.
7] Calculamos el valor p de la prueba con Infostat con v = 9 grados de libertad. El
valor p es, aproximadamente, igual a 0.2571 que es muy superior a = 0.010.
Tambin se puede calcular un intervalo de confianza para la media de las
diferencias, por ejemplo podemos calcular un IC99 para :

d t n 1;1
2

sd
n

= -

30.6 3.25045.074 o sea: -177.09 115.88.


Este ejercicio puede ser realizado con Infostat. Para ello se deben cargar los datos de
rendimiento de los dos hbridos en dos columnas distintas. Luego se debe recurrir al
men Estadsticas Inferencia basada en dos muestras Prueba t apareada y,
all, elegir como Variables, a la Columna 1 y a la Columna 2. Luego, tildar en la casilla
Intervalo de Confianza indicando 99 en la casilla para el nivel de confianza.
Finalmente se obtiene una salida como la siguiente:

Muestras independientes
En este punto tratamos con muestras tomadas independientemente una de la otra.
Consideraremos slo el caso en el cual las poblaciones de las cuales provienen las muestras
tienen igual variancia. En este caso, nuestro estimador insesgado de dicha variancia (que es la
misma para ambas poblaciones) es:

2
2
2 (n1 1) s( n 1),1 + (n2 1) s( n 1), 2
sa =
n1 + n2 2

(7.8)

Este estimador, frecuentemente denominado la variancia amalgamada, es un promedio ponderado


(amalgamado) de los estimadores de la variancia derivados de las dos muestras.
Consecuentemente, el estimador del desvo standard (o error standard) de la diferencia entre las
medias aritmticas muestrales es

Dagoberto Salgado Horta

Pgina 76

sa

1
1
+
n1 n2

(7.9)

En este caso, el estadstico

t=

( x1 x2 ) 0
1
1
sa
+
n1 n2

(7.10)

tiene distribucin t de Student con n1 + n2 2 grados de libertad siempre y cuando la hiptesis nula
que dice = 0 sea cierta. Esto permite poner a prueba la hiptesis nula como en el ejemplo que
sigue.
Ejemplo.
En una estacin experimental agropecuaria se desea evaluar el efecto de cierto herbicida
sobre la produccin de cebada. Con ese fin, se seleccionan 28 parcelas de tierra, a 14 de
ellas se las trata con herbicida y a las otras 14 no. La produccin promedio de cebada de
las parcelas no tratadas fue de 5 toneladas con un desvo standard igual a 0.5 toneladas.
La produccin promedio de las parcelas tratadas fue de 5.3 toneladas con un desvo
standard igual a 0.7 toneladas. Extraer una conclusin con = 0.05 y determinar el valor p
de la prueba de hiptesis.
Cuadro 7.3.

Con herbicida Sin herbicida


n1 = 14
n2 = 14
x1 = 5.3
x 2 = 5.0
s1 = 0.7
s2 = 0.5
Podemos resumir la informacin muestral as:
1] Hiptesis. H0: 1 = 2; H1: 1 2;
2] Nivel de significacin. = 0.05.
3] Estadstica de prueba.

t=

x1 x 2

1
1
sa
+
n1 n2

que tiene distribucin t donde = n1 +

n2 2 = 26.
4] Regin crtica. Con = 0.05 para una prueba bilateral: t26 < -2.056 y t26 > +2.056.
Por tanto, se rechazar H0 si t26 < -2.056 o t26 > +2.056.
5]Clculos.

sa =

(n1 1) s (2n 1),1 + (n 2 1) s (2n 1),2

Dagoberto Salgado Horta

n1 + n 2 2

13 0.49 + 13 0.25
= 0.608
14 + 14 2

Pgina 77

sa

1 1
1 1
+
= 0.608
+
= 0.230
n1 n2
14 14

t=

x1 x 2 5.3 5.0
=
= 1.304 .
0.230
0.230

6] Decisin. El valor de t calculado no es significativo (no cae en la regin de rechazo


de la hiptesis nula). Al 5% de significacin se decide no rechazar la H0, es decir que
no hay evidencias de un efecto del herbicida estadsticamente significativo sobre los
rendimientos.
7] Ahora calculamos el valor p de la prueba con Infostat. Elegimos v = 26, que es el
nmero de grados de libertad. El valor p es, aproximadamente, igual a 0.2036 que es
muy superior a 0.05.

Ejercicios
La propaganda de cierta marca de cigarrillos sostiene que el contenido promedio de
nicotina de su producto es menor de 0.7 miligramos por cigarrillo. Suponiendo una
distribucin normal para el contenido de nicotina, su aseveracin es que < 0.7. Entonces,
se desea probar: H0: 0.7 en oposicin a H1: < 0.7
La hiptesis se quiere probar con un nivel de significacin () igual a 0.01, ya que si se
rechaza H0 se deber autorizar que en la publicidad aparezca esta afirmacin, y solo
estamos dispuestos a hacerlo si la evidencia en contra de H0 es fuerte. Para realizar la
prueba determinamos el contenido de nicotina en 30 cigarrillos tomados al azar,
encontrando los siguientes valores:
0.71 0.75 0.67 0.68 0.72 0.58 0.69 0.70 0.61 0.67 0.74 0.72 0.61 0.63 0.75
0.73 0.59 0.60 0.63 0.59 0.68 0.69 0.77 0.80 0.63 0.62 0.64 0.78 0.76 0.75
Cul es la conclusin? Compare estos resultados con los obtenidos en el ejercicio 7 del
captulo anterior.
7.6

En una regin agrcola se siembra predominantemente una variedad de trigo


que tiene un rendimiento medio de 3.5 toneladas por hectrea. Una compaa
productora de semillas ha desarrollado una nueva variedad y sostiene que el
rendimiento promedio es mayor que en la variedad comnmente usada. Para probar esta
aseveracin se siembran nueve lotes experimentales con la nueva variedad y se obtienen
los siguientes rendimientos (en Ton/Ha):
3.15 3.92 4.26 3.72 4.19 3.42 4.38 4.50 3.36
Suponiendo que el rendimiento de trigo sigue una distribucin normal, conteste: tiene la
nueva variedad un rendimiento mayor al rinde promedio de la zona? Use = 0.05.

7.7

Un investigador est interesado en conocer el nivel promedio de una enzima (A) en hojas
de ceibo, para lo cual toma muestras de hojas de 16 rboles y determina el nivel de
enzima por gramo de hoja para cada rbol. Con estos valores estima un nivel promedio de

Dagoberto Salgado Horta

Pgina 78

2.2 mg de enzima A por gramo de hoja y un desvo estndar muestral de 0.67 mg/gramo
de hoja.

a) Estime con una confianza de 90%, el nivel promedio de enzima por gramo de hoja.
b) En otra variedad de ceibo se conoce que el nivel promedio de la enzima es de 2.1
mg por gramo por hoja. Se puede considerar que la variedad estudiada por el
investigador presenta una concentracin de enzima significativamente diferente?
Use un nivel de significacin de 5%.

7.1

A continuacin se indican los valores correspondientes al contenido de


grasa butirosa de la leche [g grasa/100g leche] de 20 vacas Holando, de
3 aos, seleccionadas al azar de los registros de produccin de un tambo
que suplementa con concentrado a base de maz:
3.32
3.82

4.23
4.05

4.60
4.10

3.66
4.42

3.96
3.66

4.24
4.05

4.03
4.33

3.83
4.00

3.74
3.77

3.48
4.10

a.
b.
c.
d.

Defina y clasifique la variable en estudio.


D los valores de los estimadores puntuales de la media y de la varianza.
Construya un IC99 para la media poblacional.
Pruebe la hiptesis, al 1%, de que el contenido de grasa butirosa promedio es
mayor a 3.5%.
e. Qu conclusiones puede extraer comparando los resultados de los puntos (c) y
(d)?
7.9

Un fabricante de alimentos para pollos asegura que luego de un mes de utilizar sus
productos se logra un peso promedio superior a los 700 g por animal. Para verificarlo
suministra una racin a un lote de 50 animales y al cabo de 30 das se observa que el
peso promedio logrado es de 730 g, con un desvo de 40 g. Puede asegurarse, con un
nivel de significacin del 1 %, que lo afirmado por el fabricante es cierto?

7.15 En un estudio para predecir el peso de novillos de raza britnica sin balanza,
a partir del permetro torcico, se compararon las evaluaciones hechas
mediante una cinta mtrica de origen norteamericano con los obtenidos
mediante el pesado por mtodo nacional. Las observaciones para cada animal fueron las
siguientes:
Novillo

Peso por mtodo nacional

Peso por mtodo norteamericano

1
2
3
4
5
6
7

335
362
338
329
333
371
356

355
367
367
342
349
399
342

Dagoberto Salgado Horta

Pgina 79

8
9
10

341
334
335

349
355
322

a. Compare los pesos medios obtenidos por ambos mtodos.


b. Realice el intervalo de confianza para la diferencia de los pesos
medios entre los dos mtodos ( = 0.05).
7.16 Mediante dos procesos se fabrican alambres galvanizados lisos para alambrados rurales.
Los tcnicos de la fbrica desean determinar si los dos procesos tienen diferentes
efectos en la resistencia media de ruptura del alambre. Se somete a una dada tensin a
varias muestras independientes de alambre y se registra la resistencia hasta la ruptura.
Usando los datos de la siguiente tabla, y sabiendo que la resistencia a la ruptura sigue
una distribucin normal y suponiendo varianzas iguales, pruebe la hiptesis de que las
medias de resistencia a la ruptura segn los dos procesos son iguales con un nivel de
significacin del 5%.
Prueba n 1 9

4 10 7

10

Prueba n 2 14 9 13 12 13 8

10

7.18 Los pesos de los vellones, en kg, de ovinos de 6 dientes de raza Corriedale, en dos
estancias vecinas de Tierra del Fuego son los siguientes:
Estancia I

4.3 3.8 3.9 4.0 4.4 4.5 3.9 4.6 4.2 3.8

Estancia II 3.9 4.3 3.8 4.0 4.1 4.0 3.6 3.9

a. Es sustentable la hiptesis de que ambas muestras provienen de una misma


poblacin, con un nivel de significacin del 5 %? Suponga que las varianzas
poblacionales son iguales y que la variable se distribuye normalmente.
b. Construya un IC95 para la diferencia de medias.
7.19 La siguiente tabla representa el rendimiento de la cosecha de un cereal en
diez pares de parcelas ubicadas en distintas localidades. Las parcelas que
forman cada par son homogneas con similares caractersticas de suelo y
clima. La principal diferencia entre los miembros de cada par es que una parcela recibi
abono fosforado y la otra no. Se podra concluir, a partir de estas observaciones, que el
abono utilizado es eficaz?
Parcela
1
2
3

10

Con abono

6.5 5.6 6.6 6.1 5.8 6.0 6.4 6.3 6.1 6.6

Sin abono

5.4 5.8 5.4 5.8 5.7 5.4 5.7 6.0 5.3 6.0

7.20 Un investigador estaba interesado en comparar el efecto de 2 hormonas


(A y B) de crecimiento sobre la longitud total alcanzada por una
leguminosa. Para ello se tom una muestra de 20 plantas, asignando al azar

Dagoberto Salgado Horta

Pgina 80

10 a cada hormona. Los resultados en cm. fueron los siguientes:


Hormona A

10 10 13 12 17 8 12 11

Hormona B

15 11

16 15

16 17 18 9 14 12 15 16

Determine si hay diferencias significativas entre los crecimientos producidos por ambas
hormonas a un nivel del 5%. Suponga distribucin normal y varianzas poblacionales iguales.

Dagoberto Salgado Horta

Pgina 81

ANLISIS DE LA ASOCIACIN ENTRE


DOS VARIABLES
Hasta ahora, hemos estado tratando con muestras en las cuales se registraban o medan los valores de una variable aleatoria. Sin embargo, la mayor parte de los problemas en la ciencia y la
tcnica involucran ms de una variable y en las muestras que se toman con el fin de analizar estadsticamente un problema o para tratar de contestar una pregunta en trminos probabilsticos, se
registran o miden varias variables. En esta clase slo veremos el caso en que se registran dos
variables.
Hay dos tipos bsicos de problemas:
1. ambas variables son aleatorias, es decir, que en las unidades que componen las muestras
que se toman aleatoriamente se miden dos variables que denotaremos X e Y este tipo de
muestras se llaman muestras bivariadas y no existe ninguna relacin de dependencia
clara entre ambas variables aleatorias, y,
2. una de las variables (Y), llamada variable respuesta o variable dependiente, es una variable aleatoria claramente dependiente de la otra (X) a la que se llama variable predictora
o independiente, que asume valores fijos dictados por el ingeniero o el experimentador.
Para analizar el primer tipo de problema, utilizaremos dos tcnicas estadsticas denominadas
anlisis de correlacin y anlisis de regresin; para el segundo utilizaremos el anlisis de regresin. En un caso como ste en el que slo tratamos con dos variables, la regresin se dice que es
simple y dado que slo utilizaremos funciones lineales elementales para describir el tipo de relacin entre X e Y, la tcnica que utilizaremos ser la del anlisis de regresin lineal simple.
El concepto de covariancia
Consideremos el siguiente ejemplo de una muestra bivariada, donde X es el contenido de un micronutriente en el suelo (en ppm) e Y es contenido de un macronutriente (en ppm), para un grupo
de muestras de suelo:
X 0.01 0.18 0.23 0.29 0.47 0.59 0.88 0.99 1.06 1.38
Y 55.2 59.9 77.3 79.0 92.1 118.3 121.5 129.4 152.7 144.6
Los datos de una muestra bivariada pueden ser grficamente representados en un representados
en un diagrama de dispersin como el que se muestra en la Figura 8.1. En este caso, el diagrama de dispersin mostrado permite observar que existe una asociacin positiva entre las dos variables (cuando aumenta X tambin aumenta Y).

Dagoberto Salgado Horta

Pgina 82

Figura 8.1. Diagrama


de dispersin.

As como existen medidas de tendencia central (medias, medianas, etc.) y de dispersin (variancia, desvo standard, coeficientes de variacin, etc.) para describir la distribucin de una variable
aleatoria, tambin existen medidas que sirven para describir la asociacin entre dos variables o,
ms especficamente, la manera en que dos variables aleatorias varan en forma conjunta. La medida principal del tipo de asociacin entre dos variables aleatorias se denomina covariancia entre
las variables X e Y, y se denota Cov(X,Y). La Cov(X,Y) se calcula de la siguiente manera:

Cov( X , Y ) = E [( X X ) (Y Y )]

(8.1)

donde X es la media de X, Y es la media de Y, y E(XY) es la esperanza de los productos XY.


Para el caso de una muestra aleatoria bivariada de tamao n, la covariancia se estima como:

( X i X ) (Yi Y )
n 1

(8.2)

Y as como existe el coeficiente de variacin como medida de dispersin relativa independiente de las unidades de medicin, tambin existe una medida relativa de la asociacin estadstica entre dos variables que es, tambin, independiente de las unidades de medicin, que se denomina coeficiente de correlacin. Para el caso de una poblacin, el coeficiente de correlacin
poblacional entre dos variables es un parmetro que se denota con la letra y que se define de la
siguiente manera:

(X ,Y ) =

Cov( X , Y )

(8.3)

V ( X ) V (Y )

Para el caso de una muestra bivariada de tamao n, estimamos el coeficiente de correlacin mediante el coeficiente de correlacin muestral que se denota mediante la letra r y se calcula de la siguiente manera:

r=

(X X ) (Y Y )
(X X ) (Y Y )
i

(8.4)

La covariancia puede tomar cualquier valor en la escala de los nmeros reales, y tanto valores positivos como negativos mientras que el coeficiente de correlacin, por su naturaleza relativa, slo puede tomar valores en el intervalo [-1,+1]. Ambas medidas, cuando son positivas, describen una asociacin de tipo directo entre las variables (es decir, cuando aumenta una de ellas, la
otra tambin tiende a aumentar) mientras que cuando son negativas, describen una asociacin de
tipo inverso entre las variables (es decir, cuando aumenta una de ellas, la otra tiende a disminuir).

Dagoberto Salgado Horta

Pgina 83

Ejemplos
1. Los coeficientes descriptos permiten describir la asociacin positiva entre los contenidos del micro y del macronutriente del suelo que se visualiza en la Figura 8.1.
Entonces:

( X i X ) (Yi Y ) = 135.30 = 15.03 y


n 1

r=

(X X ) (Y Y )
(X X ) (Y Y )
i

135.30
= 0.9563
141.479

En la Tabla 8.1 se presentan los clculos.


Tabla 8.1

Obs.

(X

X ) (Yi Y ) ( X i X ) (Yi Y ) 2 ( X i X ) (Yi Y )


2

0.01 55.2

-0.598

-47.8

0.3576

2284.84

28.584

0.18 59.9

-0.428

-43.1

0.1832

1857.61

18.447

0.23 77.3

-0.378

-25.7

0.1429

660.49

9.715

0.29

-0.318

-24

0.1011

576

7.632

0.47 92.1

-0.138

-10.9

0.0190

118.81

1.504

0.59 118.3

-0.018

+15.3

0.0003

234.09

-0.275

0.88 121.5 +0.272

+18.5

0.0740

342.25

5.032

0.99 129.4 +0.382

+26.4

0.1459

696.96

10.085

1.06 152.7 +0.452

+49.7

0.2043

2470.09

22.464

10

1.38 144.6 +0.772

+41.6

0.5960

1730.56

32.115

1.8244

10971.7

135.303

Suma

79

6.08 1030

2. Sea la siguiente muestra bivariada donde X es el nmero de horas de fro recibidas por
un grupo de semillas e Y es el nmero de das transcurridos desde siembra a germinacin:
X
Y

18
32

23
30

29
23

31
22

42
20

47
16

59
15

66
12

88
10

116
5

El grfico de dispersin correspondiente se presenta en la Figura 8.2.

Dagoberto Salgado Horta

Pgina 84

Figura 8.2. Diagrama


de dispersin.

En este caso, puede visualizarse que la asociacin entre las dos variables es negativa. Esto concuerda con los valores negativos de la covarianza y del coeficiente de correlacin estimados:

( X i X ) (Yi Y ) = 2257.5 = 250.833 y


r=

n 1
(X i X ) (Yi Y )

(X

X ) (Yi Y )
2

2257.5
= 0.9373
2408.39

Regresin lineal simple


Podemos distinguir dos tipos principales de relacin entre variables:
1)
2)

relacin funcional y,
relacin estadstica.

La primera puede ser expresada por una frmula o modelo matemtico. Es el caso de la relacin entre el costo de un traslado de mercadera (Y) y la distancia a recorrer (X), cuando el costo
fijo por el traslado es de $30 y se suman $5 por cada km de recorrido. En este caso el costo total
del traslado se puede calcular exactamente mediante la siguiente funcin:
Y = 30 + 5X
Se trata de una funcin que representa a una lnea recta, donde la ordenada al origen es
30 (precio que nos cobra el flete slo por haber sido contratado y llegar al lugar de partida, aunque
luego decidamos no realizar el transporte) y la pendiente es 5 (incremento del costo por cada km
de aumento del recorrido). Si se desea calcular el costo de un traslado a 6 km, basta con reemplazar en la funcin, la variable X por el valor 6 y realizar la cuenta, para enterarnos que deberemos
pagar $60. En la figura 8.3 se observa que todos los puntos que satisfacen la relacin se encuentran sobre la misma lnea recta y que a cada valor de X le corresponde un nico valor de Y.
A diferencia de la relacin funcional, la relacin estadstica no es una relacin perfecta. En
general, las observaciones no caen directamente sobre una lnea recta. Por ejemplo, si se estudia el
tiempo hasta floracin de una especie, en funcin de la temperatura, se puede obtener una muestra
de datos como la siguiente, que representa la suma de temperaturas (X) por encima de un umbral y
los das hasta floracin (Y) para la especie en cuestin

Dagoberto Salgado Horta

Pgina 85

18

23

31

31

42

59

19

78

47

59

66

23

36

66

60

32

30

25

22

20

12

26

16

15

12

26

18

Figura 8.3.

El diagrama de dispersin correspondiente a esta muestra, que se presenta en la Figura


8.4, sugiere que hay claramente una relacin lineal entre la suma de temperaturas y el tiempo hasta floracin, en el sentido de que a mayor temperatura, la floracin ocurre ms temprano.
Figura 8.4.

Sin embargo, puede verse que la relacin no es perfecta: para cada valor de suma de temperaturas no existe un nico tiempo hasta floracin, sino que hay una dispersin de puntos sugiriendo que parte de la variacin en el tiempo hasta floracin no se explica por la suma de temperaturas. En este caso el tiempo hasta floracin es la variable dependiente o variable respuesta (Y)
y la suma de temperaturas, la variable independiente o variable predictora (X).
La Figura 8.5 muestra la recta que describe la relacin estadstica entre las variables estudiadas (luego explicaremos como obtenerla). La dispersin de puntos alrededor de la lnea representa la variacin en tiempo a floracin que no est asociada linealmente a la suma de temperaturas.

Dagoberto Salgado Horta

Pgina 86

Figura 8.5.

La tcnica de anlisis de regresin lineal simple se utiliza para analizar la relacin estadstica entre dos variables. Debe quedar claro desde ahora que la relacin entre las dos variables que
se pretende determinar es de naturaliza estadstica y no solamente matemtica, siempre habr un
grado de incertidumbre en cuanto a las relaciones que se establezcan y en cuanto a las estimaciones y pruebas de hiptesis que se hagan.
Emplearemos la relacin funcional ms simple: la lnea recta que queda completamente
definida una vez conocidos su ordenada al origen y su pendiente. El objetivo de la tcnica consiste
en encontrar la lnea recta que mejor describa la relacin entre las variables predictora (X) y respuesta (Y).
Ejemplo:
El ejemplo consiste en 10 lotes de Picea en un gran vivero de Bariloche. En dicha muestra
se midieron dos variables: el tamao del lote de produccin y el nmero de Horas-Hombre
insumidas para producir arbolitos en dicho lote.
El nmero de Horas-Hombre es la variable dependiente o variable respuesta (Y)
y el tamao del lote, la variable independiente o variable predictora (X). En la Tabla 2 se
muestran los datos. La Figura 6 muestra la dispersin de los datos. Se nota claramente en
el grfico que la relacin entre las dos variables es directa: a mayor tamao de lote, mayor
cantidad de Horas-hombre necesarias para producirlo.
De conocer todos los valores posibles de ambas variables (estaramos tratando
con una poblacin), entonces se podra buscar una recta que describa ajustadamente la relacin entre las dos variables, es decir que, si se hallara dicha recta, se conoceran sus
parmetros: la ordenada al origen ( 0) y la pendiente ( 1). Pero si eso no es posible, solo
se podr disponer de los datos de una muestra. La cuestin ahora es encontrar la recta
que mejor ajuste los puntos del diagrama de dispersin, es decir que, a partir de los datos
de la muestra se debern encontrar estimadores de los parmetros 0 y 1 de la recta verdadera (en la poblacin) a los que denotaremos como b0 y b1.

Dagoberto Salgado Horta

Pgina 87

Tabla 8.2.

Salida de
produccin
(i)
1
2
3
4
5
6
7
8
9
10

Tamao
de lote
(Xi)
30
20
60
80
40
50
60
30
70
60

Horas
-Hombre
(Yi)
73
50
128
170
87
108
135
69
148
132

Figura 8.6.

No esperaremos que todos los puntos muestrales caigan exactamente sobre ella sino que
habr una diferencia debida al error de la muestra. Para expresar la relacin estadstica entre las
dos variables tendremos que escribir el modelo de regresin:

Modelos de regresin
Un modelo de regresin es una manera formal de expresar los dos ingredientes esenciales de
una relacin estadstica:

una tendencia de la variable dependiente Y a variar conjuntamente con la variacin de


la (o las) variable(s) independiente(s) de una manera sistemtica y,

una dispersin de las observaciones alrededor de la curva de la relacin estadstica.

Estas dos caractersticas estn implcitas en un modelo de regresin postulando que:

en la poblacin de observaciones asociadas con el proceso que fue muestreado, hay


una distribucin de probabilidades de Y para cada nivel de X.

las medias de estas distribuciones de probabilidades varan de una manera sistemtica


al variar X.

Siguiendo con el ejemplo, para cada tamao de lote, se asume que hay una distribucin de
probabilidades de Y. La Figura 7 muestra esa distribucin para X = 30 que es el tamao de lote

Dagoberto Salgado Horta

Pgina 88

para la primera salida de produccin. Entonces, la cantidad real de Horas-Hombre (73) es vista
como una seleccin aleatoria a partir de esta distribucin de probabilidades.
Figura 8.7.

La Figura 8.7 tambin muestra las distribuciones de probabilidades de Y para los tamaos
de lote 50 y 70 (X = 50 y X = 70). Ntese que las medias de las distribuciones de probabilidades
guardan una relacin exacta con el nivel de X. Esta relacin exacta se denomina funcin de regresin de Y sobre X. El grfico de la funcin de regresin se denomina curva de regresin. En
la figura la funcin de regresin es lineal. Para nuestro ejemplo, esto implicara que el nmero esperado (es decir, la media) de Horas-Hombre vara de manera lineal con la variacin en el tamao
del lote. El nmero de Horas-Hombre podra estar relacionado de otra manera con el tamao del
lote - no necesariamente deber ser una lnea recta pero en este curso slo estudiaremos relaciones lineales.
Objetivos del anlisis de regresin
El anlisis de regresin persigue tres grandes objetivos: (1) descripcin, (2) control y, (3) prediccin.
En los estudios observacionales, es decir, cuando se observa un proceso sin incidir sobre el mismo (o tratando de no hacerlo) el propsito es claramente descriptivo. Por ejemplo, en el estudio de
la influencia de la cantidad de dixido de azufre en el aire (X) sobre el porcentaje de plantas atacadas por un insecto en un bosque (Y), se tomarn muestras bivariadas y se registrarn los valores
de ambas variables con el fin de describir ese proceso de contaminacin-infestacin. En los estudios tcnicos donde el ingeniero manipula una variable (X) y observa cmo cambia otra (Y), el
propsito es controlar el proceso con fines tcnicos o econmicos. Por ejemplo, la manipulacin de
dosis de fertilizantes sobre el rendimiento de un cultivo: un ensayo permitira hallar una relacin
estadstica entre rendimientos y dosis de fertilizante en el cultivo para fijar los gastos en ese rubro.
Finalmente, conocer la relacin estadstica funcional entre dos variables permite predecir el comportamiento futuro de una de ellas dado que se conoce el valor de la otra. Por ejemplo, si se conoce la relacin funcional que liga el porcentaje de humedad en el ambiente con el porcentaje de
plantas infectadas por un hongo patgeno en un cultivo, se puede lanzar una alarma cuando el
nivel de humedad llegue a un nivel crtico. Pero los distintos objetivos suelen superponerse. El
ejemplo de los tamaos de lotes y las Horas-Hombre permite la prediccin del requerimiento en
Horas-Hombre para la prxima salida de produccin dado un tamao de lote, a los fines de la estimacin de los costos y la programacin de la produccin. Despus que la produccin se complet,
los ingenieros pueden comparar las Horas-Hombre reales con las horas predichas por el modelo a
los fines del control administrativo.

Dagoberto Salgado Horta

Pgina 89

Modelo de regresin lineal


El modelo bsico del que hemos venido hablando puede formalizarse de la siguiente manera:
Yi = 0 + 1Xi + i
i ~ Normal (0, )
cuando i j
Cov(i;j) = 0

(8.6)

donde Yi es el valor de la variable respuesta en el i-simo ensayo, 0 y 1 son parmetros, Xi es el


valor de la variable independiente en el i-simo ensayo y i es un trmino de error aleatorio con

distribucin normal, media E(i) = 0 y variancia ; i yj no estn correlacionados de manera que


Cov(i;j) = 0 para todas las i y j, con i j e i = 1,2,,n.
Como puede verse el valor de Yi resulta de sumar un componente exacto determinado por
los coeficientes 0 y 1 y por el valor de Xi y un componente no exacto o aleatorio determinado por
el valor de i. Por este motivo, el valor de Yi tambin ser aleatorio y, como tal:
1. tendr una distribucin de probabilidades y, puesto que hemos asumido que los errores
aleatorios pueden tener valores tanto positivos como negativos con media total igual a 0,
dicha distribucin de probabilidades tendr media igual a: E(Yi) = E( 0 + 1Xi + i) = 0 +
1Xi + E(i) = 0 + 1Xi, es decir, el valor de la funcin de regresin lineal y la diferencia
entre esa media y el valor observado (Yi) y 0 + 1Xi es, justamente, el valor del error
correspondiente a esa unidad (i);
2. puesto que la variancia de los i es igual a , V(Yi) = V( 0 + 1Xi + i) = 0 + V(i) = para cualquier nivel de X, y
2

3. puesto se supone que los i son independientes, tambin se supone que los diferentes
resultados obtenidos, Yi, son completamente independientes (es decir que el valor de
uno de ellos no tiene ninguna influencia sobre el valor de otro de ellos).
Siguiendo con el ejemplo, supongamos que un modelo de regresin lineal se puede aplicar al
ejemplo de los tamaos de lote y que dicho modelo es: Yi = 9.5 + 2.1Xi + i. La siguiente figura
contiene una representacin de la funcin de regresin E(Y) = 9.5 + 2.1X. Supongamos que en la
i-sima unidad se produce un lote de Xi = 45 unidades y que el nmero observado de HorasHombre es Yi = 108. En este caso, el trmino del error es i = +4 porque E(Yi) = 9.5 + 2.1(45) =
104 e Yi = 108 = 104 + 4.
La Figura 8.8 muestra la distribucin de probabilidad de Y cuando X = 45 e indica dnde est
la observacin Yi = 108 en esta distribucin. Ntese otra vez que el trmino del error i es, simplemente, la desviacin de la observacin con respecto a su valor promedio E(Yi). La figura tambin
muestra la distribucin de probabilidad de Y cuando X = 25. Ntese que esta distribucin muestra
la misma variabilidad que la distribucin de probabilidad correspondiente a X = 45, de conformidad
con los requerimientos del modelo lineal simple.

Dagoberto Salgado Horta

Pgina 90

Figura 8.8.

Parmetros de la regresin
Los parmetros 0 y 1 se denominan coeficientes de regresin. 1 es la pendiente de la lnea
de regresin e indica el cambio en la media de la distribucin de probabilidad de Y por cada unidad de incremento en X. El parmetro 0 es la ordenada al origen (intercepcin) de la lnea de regresin. Si el rango de valores del modelo llega hasta X = 0, 0 da la media de la distribucin de
probabilidad de Y en X = 0. Cuando el rango del modelo no llega hasta X = 0, 0 no tiene ningn
significado particular como trmino en el modelo de regresin.
Ejemplo.
La Figura 8.9 muestra la funcin de regresin E(Y) = 10 + 2X para el ejemplo anterior de
los tamaos de lotes. La pendiente 1 = 2 indica que un incremento de una unidad en el
tamao del lote lleva a un incremento en la media de la distribucin de probabilidad de Y
de 2 Horas-Hombre. La ordenada al origen 0 = 10 indica el valor de la funcin de regresin en X = 0, pero como el modelo de regresin lineal fue formulado para que se aplique a
tamaos de lote que iban desde 20 hasta 80 unidades, 0 no tiene ningn significado por s
mismo y, en particular, no indica necesariamente el tiempo promedio al comienzo del proceso, es decir el nmero promedio de Horas-Hombre antes de que comience la produccin.

Figura 8.9.

Dagoberto Salgado Horta

Pgina 91

Estimacin de la funcin de regresin


Como hemos dicho antes, se puede realizar un experimento controlando los valores de la variable
independiente (Xi) y obteniendo, as, datos experimentales, o un estudio observacional donde, simplemente, se registran los valores de ambas variables en una muestra bivariada. Sea como sea,
los valores de los parmetros 0 y 1 sern, en general, desconocidos y debern, por ello, ser estimados. En la clase correspondiente a Estimacin de Parmetros, se explic un mtodo de estimacin (el mtodo de mxima verosimilitud) y se anunci que en esta clase de Regresin Lineal se
explicara el otro (el mtodo de cuadrados mnimos). Aqu lo haremos.
Mtodo de estimacin por mnimos cuadrados
Tal como se indicara en la clase sobre Estimacin de Parmetros, otro de los mtodos de estimacin que vemos en este curso es el mtodo de mnimos cuadrados. Se supone que las observaciones de la muestra tienen la forma (para el caso de un parmetro nico, ):
Yi = fi() + i,

i = 1,2,,n

(8.7)

donde fi() es una funcin conocida del parmetro y las i son variables aleatorias de las cuales
se asume, comnmente, que tiene esperanza igual a 0, es decir, E(i) = 0. Con el mtodo de mnimos cuadrados, para un conjunto de observaciones mueestrales dado, la suma de cuadrados:
n

Q = [Yi f i ( )]

(8.8)

i =1

es considerada como una funcin de . El estimador de mnimos cuadrados de se obtiene minimizando Q con respecto a , es decir, derivando Q con respecto a e igualando a 0. En muchas
instancias, los estimadores de mnimos cuadrados son insesgados y consistentes.Este mtodo
utiliza los cuadrados de las diferencias entre las observaciones Yi y sus valores esperados:
n

Q = (Yi 0 1 X i )

(8.9)

i =1

Y buscar los valores b0 y b1 que hagan que Q tenga su valor mnimo: sos sern los estimadores de los parmetros 0 y 1. Como es sabido, para hallar mnimos se debe recurrir al clculo
de derivadas. En este caso que nos ocupa, tendremos un sistema de ecuaciones en derivadas
parciales (denominadas ecuaciones normales) del cual se pueden despejar los valores de b0 y b1:
(VER ANEXO I)
Como dijimos, el objetivo del mtodo de mnimos cuadrados es hallar estimaciones b0 y b1
para 0 y 1, respectivamente, para las cuales Q sea mnima. Despus de las correspondientes
manipulaciones algebraicas (que aqu no detallaremos), se llega a las siguientes dos expresiones
para b0 y b1:

b1 =

( X X ) (Y Y )
(X X )
i

b0 = Y b1 X

(8.10)

donde X e

Y son las medias de X e Y, respectivamente.

Ejemplo.
Para ilustrar el clculo de los estimadores de mnimos cuadrados b0 y b1, utilizaremos,
nuevamente, el ejemplo de los tamaos de lotes en el vivero de Picea en Bariloche, cuyos

Dagoberto Salgado Horta

Pgina 92

datos muestrales se presentaron y se graficaron en la pgina 89. Los clculos se presentan


en la Tabla 8.3.
Tabla 8. 3

Luego:

b1 =

30
20
60
80
40
50
60
30
70
60
Suma

73
50
128
170
87
108
135
69
148
132

(X

X)

(Yi Y ) 2 ( X i X ) (Yi Y )

400
1369
740
900
3600
1800
100
324
180
900
3600
1800
100
529
230
0
4
0
100
625
250
400
1681
820
400
1444
760
100
484
220
3400
13660
6800
SCX = 3400, SCY = 13660 y SPXY = 6800.

( X X ) (Y Y ) = SP
SC
(X X )
i

XY

= 2.0

b0 = Y b1 X = 110 2(50) = 10,


donde X = 50 e

Y = 110 son las medias de X e Y, respectivamente.

SCY es una medida de la variacin total de la respuesta y su utilidad se ver ms adelante.


Obtenemos, b0 = 10 y b1 = 2. As, estimamos que el nmero medio de Horas-Hombre aumenta en 2.0 horas por cada unidad de incremento en el tamao del lote, como indica la pendiente
b1 = 2.0. La ordenada al origen b0 = 10 indica el valor de la funcin de regresin en X = 0, pero
como el modelo de regresin lineal fue formulado para que se aplique a tamaos de lote que iban
desde 20 hasta 80 unidades, 0 (y, por lo tanto b0) no tiene ningn significado por s mismo y, en
particular en este ejemplo, no indica el tiempo promedio para lotes de dimensin igual a cero.

Estimacin de la media de Y dado X


Los estimadores de 0 y 1, respectivamente b0 y b1, pueden ser usados para estimar los valores de
la media de Y correspondientes a valores dados de la variable independiente X usando la frmula

Y = b0 + b1 X , donde el signo sobre la Y se lee estimado o ajustado y es el valor de la funcin


de regresin correspondiente a un valor de X. La diferencia entre un valor observado y el
correspondiente valor ajustado por la recta de regresin se denomina residual de dicha
observacin: ei

= Yi Yi . En el cuadro de la izquierda presentamos los clculos correspondientes

al ejemplo que venimos utilizando.


En este caso de los tamaos de lotes, hallamos que las estimaciones de mnimos cuadrados de los coeficientes de regresin eran b0 = 10.0 y b1 = 2.0; por tanto, la funcin de regresin
estimada es Y = 10.0 + 2.0 X . Si estamos interesados en el nmero medio de Horas-Hombre
cuando el tamao de lote es, por ejemplo, X = 55, nuestra estimacin puntual sera

Dagoberto Salgado Horta

Pgina 93

Y = 10.0 + 2.0 55 = 120 . As, estimaramos que el nmero medio de Horas-Hombre para los
lotes de tamao X = 55 es igual a 120. Esto significa que si se producen muchas tandas con lotes
de tamao 55 bajo las condiciones de las 10 tandas de la muestra, el tiempo de trabajo promedio
para cada tanda ser de alrededor de 120 horas. Desde ya que el tiempo de trabajo para un lotea
de tamao 55 cualquiera es probable que sea ms alto o ms bajo que la respuesta media debido
a la variabilidad inherente en el sistema, tal como se representa mediante el trmino del error en el
modelo. La Figura 8.10 contiene un grfico de la funcin de regresin estimada Y
as como los datos originales.

= 10.0 + 2.0 X ,

Figura 8.10

Los valores ajustados para los datos muestrales son obtenidos sustituyendo los valores de
X de la muestra en la ecuacin de regresin estimada. Por ejemplo, para los datos de la muestra
del ejemplo, X1 = 30. Por tanto, el valor ajustado es: Y = 10.0 + 2.0 30 = 70 . Esto se compara
con el valor observado de Horas-Hombre, Y = 73. La Tabla 4 contiene los valores de la variable
independiente (Xi), las respuestas (Yi), los valores ajustados por el modelo de regresin lineal ( Yi ),
los residuales y sus cuadrados.
Residuales
El i-simo residual es la diferencia entre el valor observado Yi y el correspondiente valor ajustado Yi :

ei = Yi Yi = Yi b0 b1 X i .
La Figura 8.11 muestra los 10 residuales del ejemplo. Las magnitudes de los residuales se
muestran mediante lneas verticales entre cada observacin y el valor ajustado sobre la lnea de
regresin estimada. Debemos distinguir entre el valor del trmino del error del modelo, i = Yi
E(Yi), y el residual,

ei = Yi Yi . El primero se refiere a la desviacin vertical de Yi con respecto a

la lnea de regresin poblacional desconocida y, por tanto, es desconocido. Por otra parte, el residual es la desviacin vertical observada de Yi con respecto a la lnea de regresin ajustada.
Los residuales son muy tiles para estudiar si un modelo de regresin es apropiado para
los datos con los cuales se est trabajando.

Dagoberto Salgado Horta

Pgina 94

Figura 8.11.

Tabla 8.4.

Observ.
1
2
3
4
5
6
7
8
9
10
Total

Tamao de Horas-Hombre Respuesta media


lote (Xi)
(Yi)
estimada Yi

( )

30
20
60
80
40
50
60
30
70
60
500

73
50
128
170
87
108
135
69
148
132
1100

Residual

Residual al cuadrado

ei = Yi Yi

70
50
130
170
90
110
130
70
150
130
1100

ei2 = Yi Yi

+3
0
-2
0
-3
-2
+5
-1
-2
+2
0

9
0
4
0
9
4
25
1
4
4
Q = 60

Propiedades de la lnea de regresin ajustada


La lnea de regresin ajustada por el mtodo de mnimos cuadrados tiene ciertas propiedades que
vale la pena mencionar.
n

La suma de los residuales es igual a 0:

e
i =1

= 0 y, como consecuencia de esta propie-

dad, tenemos la propiedad de que la suma de los valores observados Yi es igual a la suma
de los valores ajustados, Yi :

Y = Y .
i =1

i =1

2
i

La suma de los residuales elevados al cuadrado,

La lnea de regresin siempre pasa por el punto ( x; y ) .

, es un mnimo.

Estimacin de la variancia del error (2)


La variancia del error, , es tambin una medida de qu tan bueno es el ajuste realizado por la
funcin de regresin. Es necesario tener una estimacin de la variancia del error a partir de los
datos de la muestra.
2

Dagoberto Salgado Horta

Pgina 95

Para poder obtener una estimacin de , es necesario conocer los valores de los residuales del
2

anlisis de regresin, Yi

Yi = ei , y obtener la suma de sus cuadrados, que denotaremos SCE:


n

SC E = Yi Yi
i =1

) = (Y b
2

i =1

b1 X i ) = ei2
2

(8.12)

i =1

Finalmente, calcularemos la variancia correspondiente a dicha suma de cuadrados que


se denomina cuadrado medio del error y que denotaremos CME - dividindola por sus grados de
libertad:

SC E
n2
2
(Yi Yi )

CM E =
=
=
=

n2
2
(Yi b0 b1 X i )

(8.13)

n2

2
i

n2

y ste es el estimador de la variancia del error que estamos buscando: E(CME) = 2.


Para realizar las inferencias necesarias para tomar decisiones, debemos suponer una distribucin para los trminos del error. Para el modelo que estamos utilizando supondremos que los
errores tienen distribucin normal con media igual a 0 y variancia igual a , es decir que el modelo
2

de regresin completo es el siguiente: Yi

= 0 + 1 X i + i , donde Yi es el valor de la variable

respuesta correspondiente a la i-sima unidad, Xi es el valor de la variable independiente en esa


misma unidad, 0 y 1 son los parmetros de la regresin y los i son los errores independientes
que tienen distribucin normal con media 0 y variancia .
2

Coeficiente de determinacin
2

El coeficiente de determinacin, R , es una medida descriptiva del grado de asociacin lineal entre
las dos variables. Est compuesto por la Suma de Cuadrados Total (SCTOT), que mide la variacin
total en las observaciones Yi, y la Suma de Cuadrados de Error (SCE) que mide la variacin residual en las Yi cuando se emplea el modelo de regresin. Una medida natural de la magnitud del
efecto de X de reducir la variacin en Y es:

R2 =

SCTOT SC E
SC R
=
SCTOT
SCTOT

(8.14)

donde:
n

SC TOT = SCY = ( y i y )

(8.15)

i =1

Dagoberto Salgado Horta

Pgina 96

SC E = (ei )

(8.16)

i =1

que es lo mismo que:

SC E = (Yi Yi ) = (Yi b0 b1 X i ) = ei2


n

i =1

i =1

(8.17)

i =1

El coeficiente R indica la proporcin de la variacin total de Y puede ser explicada por la


2
dependencia lineal de X. Entonces, 0 R 1. Si todas las observaciones caen en la recta ajustada
2
y sta no es horizontal, entonces la SCE = 0 y R = 1. La variable X explica toda la variacin en las
observaciones Yi. La variacin en Y est completamente ligada a X, por lo tanto, al cambiar X,
cambia tambin Y, de tal forma que todos los puntos (x;y) se ubican sobre una recta.
2
Si no existe regresin lineal, R = 0, SCE = SCTOT, lo que indica que no hay asociacin lineal entre X e Y y que la variacin en X no es de ninguna ayuda para explicar la variacin de las observaciones Yi. Es decir que los valores de Y cambian en forma totalmente aleatoria con respecto a
2
X o forman otro tipo de asociacin que no es lineal simple. En la prctica no es probable que R
sea exactamente igual a 0 o a 1: lo ms comn es que se encuentre entre ambos valores. Cuanto
ms cerca de 1 est el valor, ms grande ser el grado de asociacin lineal entre X e Y. As, un
2
valor de R = 0.80 est indicando que el 80 % de la variabilidad en Y es explicada por la dependencia lineal de Y con respecto a X. Para el ejemplo de los lotes de Picea:

R2 =

SCTOY SC E 13660 60
=
= 0.995
SCTOT
13660

es decir que el 99.5% de la variabilidad en el nmero de Horas-Hombre de trabajo, es explicada


por el tamao del lote.

Inferencias en el anlisis de regresin


Inferencias para 1
Como se dijo antes, 1 es la pendiente de la lnea de regresin y obtener una estimacin de este
parmetro nos permite tener una idea del cambio esperado en la variable respuesta ante un cambio determinado en la variable predictora. La prueba de hiptesis ms comn acerca de 1 es la
siguiente: H0: 1 = 0 vs. H1: 1 0. Si H0 es cierta, entonces se estima que no existe asociacin
alguna entre X e Y. En la Figura 12 se muestra un caso en que 1 = 0, es decir que E(Y) = 0 + 0X
= 0.
Distribucin por muestreo de b1
Como se adelant al principio de la clase, el estimador puntual de 1 es b1:

b1 =

(X X ) (Y Y )
(X X )
i

(8.18)

y su distribucin por muestreo es normal, con las siguientes media y variancia:


E(b1) = 1 y

Dagoberto Salgado Horta

2 (b1 ) =

(X

X)

(8.19)

Pgina 97

Figura 8.12.

Distribucin por muestreo de

b1 1
s(b1 )

El estadstico que utilizaremos para las pruebas de hiptesis acerca de 1 es el estadstico estan-

b1 1
que tiene distribucin normal standard y estimaremos (b1) mediante s(b1). Fi (b1 )
b1 1
tiene distribucin tn-2 para el modelo que estamos utilizando, siendo
nalmente, bajo H0,
s(b1 )
CM E
(8.20)
s 2 (b1 ) =
2
( xi x )
darizado

Intervalos de confianza para 1


Sabido que

b1 1
tiene distribucin t, el IC1-
s(b1 )
Resulta:

Sea:

P b1 t1

b 1
P t ;n 2 1
t1 ;n 2 = 1 , o
2
s(b1 )
2

;n 2

s (b1 ) 1 b1 + t1

;n 2

s (b1 ) = 1

(8.21)

(8.22)

Ejemplo. Siguiendo con el ejemplo de los tamaos de lote, supongamos que se desea obtener un IC95 para 1. Los clculos necesarios son los siguientes:

= 50 ; b0 = 10.0; b1 = 2.0;
Y = 10.0 + 2.0 X ; SCE = 60;

n = 100; X

CME = 7.5;

(X X ) = 3400 ;
(X X ) (Y Y ) = 6800 ;
2

Dagoberto Salgado Horta

Pgina 98

(Y

s 2 (b1 )

Y ) = 13660 ;
2

CM E
7 .5
=
= 0.002206
2
3400
(
)
X

X
i

y s(b1) = 0.04697.
Para el IC95 hallamos que t8;0.975 = 2.306 y, entonces:
2.0 2.306(0.04697) 1 2.0 + 2.306(0.04697),
es decir, 1.89 1 2.11.
As que, con una confianza del 95%, estimamos que el nmero medio de Horas-Hombre se
incrementa entre 1.89 y 2.11 por cada incremento de
Pruebas de hiptesis para 1
Prueba bilateral.
Supongamos que se desea probar si existe alguna asociacin lineal entre los tamaos de los lotes
y el nmero de Horas-Hombre, es decir: H0: 1 = 0; H1: 1 0.
La estadstica de prueba es: t* =

b1
y la regla de decisin con un nivel de significacin
s (b1 )

es:
si |t*|

t1

;n 2

, se acepta H0; si |t*| >

t1

;n 2

, se rechaza H0.

Para el ejemplo de los tamaos de lote, con = 0.05, b1 = 2.0, s(b1) = 0.04697 y t8;0.975 =
2.306 la regla de decisin es aceptar H0 si |t*| 2.306 y rechazar H0 si |t*| > 2.306. Dado que:

t* =

2 .0
= 42.58 > 2.306
0.04697

se decide rechazar H0 y concluir en que 1 0, o sea que existe una asociacin lineal entre los
tamaos de los lotes y el nmero de Horas-Hombre. Mediante el men Estadsticas Probabilidades y cuantiles de Infostat podemos ver que el valor p para el resultado de la muestra es casi
0. Y, por tanto, el valor de p bilateral tambin es casi 0.
Prueba unilateral.
En este caso las hiptesis son: H0: 1 0; H1: 1 > 0 y la regla de decisin basada en la prueba t:
si |t*|

t1 ;n 2

se acepta H0; si |t*| >

t1 ;n 2

se rechaza H0. Con = 0.05, t8;0.95 = 1.860 y t* =

42.58, decidimos rechazar H0, o sea que concluimos en que 1 es positivo.


Inferencias para 0
Distribucin por muestreo de b0
Como se indic antes, el estimador puntual b0 es b0

= Y b1 X

y la distribucin por muestreo de b0 es normal con media y variancia E(b0) = 0

Dagoberto Salgado Horta

Pgina 99

X2

,
(b0 ) = +
2
n ( X i X )
2

(8.23)

respectivamente.

Un estimador de (b0) se obtiene reemplazando por su estimador puntual CME:


2

X2

s 2 (b0 ) = CM E +
2
n ( X i X )
Distribucin por muestreo de

(8.24)

b0 0
.
s (b0 )

b0 0
tiene distribucin tn-2. Por tanto, se pueden establecer intervalos de confianza y pruebas
s (b0 )
de hiptesis usando la distribucin t.
Intervalo de confianza para 0
Lmites de confianza con 1 - para 0:

b0 t n 2;1 s(b0 ) .
2

Ejemplo. Si se desea construir un IC90, hallaramos primero t8;0.95 y s(b0). T8;0.95 = 1.860 y, por los
resultados previos, sabemos que:

1
X2
50 2

s 2 (b0 ) = CM E +
=
7
.
5

= 6.26471 y
2
n (X i X )
10 3400
s(b0) = 2.50294.
Y el IC90 para 0 es: 10.0 1.860(2.50294) 0 10.0 + 1.860(2.50294), es decir, 5.34 0
14.66.
Inferencias para la media de Y dado X
Otro aspecto fundamental del anlisis de regresin es que, conociendo la funcin de regresin que
ajusta los datos, tambin se puede conocer el valor esperado de la variable respuesta, E(Yk), correspondiente a un valor determinado de la variable predictora, Xk, Por tanto, tambin se pueden
construir intervalos de confianza con respecto a Yk. El estimador puntual de E(Yk)
es Yk : Yk

= b0 + b1 X k .

Distribucin por muestreo de Yk

Dagoberto Salgado Horta

Pgina 100

La distribucin por muestreo de Yk es normal con las siguientes media y variancia:


2
1
(
Xk X )
2
2

E( Yk ) = E(Yk) y Yk = +
2
n ( X i X )

( )

Cuando CME es sustituido por se obtiene s


2

(Y ), la variancia estimada de Y :
k

1
(X k X )
s 2 Yk = CM E +
2
n (X i X )

( )

Distribucin por muestreo de

(8.25)

(8.26)

Yk E (Yk )
s Y

( )
k

Yk E (Yk )
tiene distribucin tn-2 y, por esto, las inferencias acerca de E(Yk) se realizan con la diss Y

( )
k

tribucin t.
Intervalo de confianza para E(Yk)
Un IC de 1 - para E(Yk) es: Yk

( ).

t n 2;1 s Yk
2

Ejemplo 1. Buscar un IC90 para E(Yk) para Xk = 55. Hallamos la estimacin puntual

Y55 = 10.0 + 2.0 (55) = 120 .


Luego, s( Yk ): s

50 )
(Y ) = 7.5 101 + (553400
55

Yk :

= 0.80515 ,

de manera que

( )

s Y55 = 0.89730 .
Para un coeficiente de confianza del 90% tenemos t8;0.95 = 1.860. Luego, el IC90 es:
120 1.860(0.89730) E(Y55) 120 + 1.860(0.89730),
es decir, 118.3 E(Y55) 121.7.

ANEXO 1
Ecuaciones Normales
Las ecuaciones normales pueden ser derivadas mediante el clculo. Para un conjunto de observaciones muestrales dado, (Xi,Yi), la cantidad Q de la pgina 95 es una funcin de 0 y 1. Obtenemos:

Dagoberto Salgado Horta

Pgina 101

Q
= 2 (Yi 0 1 X i )
0

Q = 2 X (Y X )
i i 0 1 i
1
Posteriormente, igualamos estas derivadas a 0, utilizando b0 y b1 para denotar los valores particulares de 0 y 1, respectivamente, que minimizan a Q:

2 (Yi b0 b1 X i ) = 0

2 X i (Yi b0 b1 X i ) = 0
Simplificando, obtenemos:

n
(Yi b0 b1 X i ) = 0
i =1
n
X (Y b b X ) = 0
i
i
0
1
i

i =1
Disociando la suma obtenemos:

Yi nb0 b1 X i = 0

2
X i Yi b0 X i b1 X i = 0
de las cuales, reordenando los trminos, se obtienen las ecuaciones normales [9].
El clculo las derivadas segundas mostrara que, con los estimadores de mnimos cuadrados b0 y
b1, lo que se obtuvo es un mnimo.

Yi = n b0 + b1 X i

2
X i Yi = b0 X i + b1 X i
Como dijimos, el objetivo del mtodo de mnimos cuadrados es hallar estimaciones b0 y b1 para 0
y 1, respectivamente, para las cuales Q sea mnima. Despus de las correspondientes manipulaciones algebraicas (que aqu no detallaremos), se llega a las siguientes dos expresiones para b0 y
b1:

b1 =

(X X ) (Y Y )
(X X )
i

donde X e

1
b0 = (Yi b1 X i ) = Y b1 X
n

Y son las medias de X e Y, respectivamente.

Ejercicios.

Dagoberto Salgado Horta

Pgina 102

8.1

Mediante el men Grficos Diagrama de dispersin de Infostat, construya un diagrama


de dispersin para los datos de la tabla 8.2.

8.2

Cargar en una planilla Infostat los datos de la tabla 8.2y mediante la opcin Estadsticas
Regresin Lineal elegir como Variable dependiente a la Columna 2 y como Variable
Regresora, a la Columna 1. Luego, en la solapa General del cuadro de dilogo, tildar las
opciones Coeficientes de regresin y estadsticos asociados y Ordenada al origen. En
la solapa Diagnstico, tildar las opciones Residuos, Predichos, Graficar ajuste, Graficar
bandas de Confianza y Graficar bandas de prediccin.

8.3

En la publicacin peridica: Revista Chapingo Serie Horticultura, se public el siguiente


trabajo: ESTUDIOS EN CARACTERES DE INTERES AGRONOMICO EN AGUACATE
(Persea americana Mill.), En el mismo se discute el siguiente prrafo:
Se realiz un estudio sobre ocho caracteres en poblaciones de aguacate establecidas

en Coatepec Harinas, Mxico. En virtud de que la obtencin de variedades de porte bajo es uno de los objetivos del fitomejorador, se puso especial nfasis en la determinacin de la correlacin entre algunos criterios de seleccin en rboles de tres aos de
edad. Se encontr una correlacin negativa y altamente significativa entre altura y
proporcin de rea transversal de corteza y positiva y altamente significativa entre
altura y dimetro del tallo. No se encontr correlacin entre altura y
nmero de entrenudos. Comente como podra utilizar esta informacin.
8.4

Marcos, un becario de INTA Castelar, realiz un ensayo, para estudiar el efecto de la


compactacin del suelo labrado sobre el rendimiento en maz. Para esto midi el grado de
compactacin del suelo (en hectopascales) con un aparato conocido como penetrmetro.
Las mediciones fueron realizadas a dos profundidades: a 5 cm y a 20 cm de la superficie
del suelo. Finalizado el ensayo, cosech las parcelas y midi el rendimiento y lo expres
en kilogramos por hectrea. Los datos que obtuvo se muestran en la tabla de la izquierda.
Marcos se hace las siguientes preguntas:
Compactacin

Dagoberto Salgado Horta

a 5 cm

a 20 cm

Rendimiento

700
560
735
735
595
350
595
420
490
560
768
140

1890
2030
1295
2380
1295
1610
945
2555
1295
1295
1890
1750

13775.4
13775.4
15543.2
14732.1
12800.3
13568.9
16365.5
16084.2
15434.3
16689.9
13219.8
16874.8

Pgina 103

350
785
945
700
140
595
315
350
420
210
1260
1120

1505
1050
1120
1330
1015
1050
1120
1260
1435
1190
1365
1120

15825.8
13886.1
15808.2
15020.7
18045.5
16356.7
16222.6
13714.4
16492.3
16151.3
14646.6
12566.6

a. se relaciona de manera lineal el rendimiento con la compactacin sufrida por el


suelo a los 5 cm? Y a los 20 cm?
b. puede obtener un modelo para predecir el rendimiento en funcin de la compactacin del suelo a los 5 cm? Cul sera su ecuacin?
Utilice el procedimiento Regresin Lineal del men Estadsticas de Infostat para contestar las preguntas que se hizo Marcos.
8.5

Para una nueva variedad de repollo se desea conocer si el crecimiento est relacionado
linealmente con las dosis de fertilizante de uso habitual en otras variedades de la misma
especie. Para comprobarlo, se realiza un experimento en 14 parcelas cultivadas con la
nueva variedad. Se aplican distintas dosis de fertilizante y se mide el crecimiento promedio del dimetro de la hortaliza al cabo de tres semanas. A continuacin se presentan
el caudro con las observaciones y el grfico de dispersin:
20.00

crecim ie nto(cm )

15.00

10.00

5.00

0.00
0.00

0.63

1.25

1.88

2.50

D o s is (l/m 2)

Dagoberto Salgado Horta

Pgina 104

Parcela

1
2

Dosis (l/m )

10 11 12 13 14

0.0 0.5 0.5 0.8 0.9 1.0 1.2 1.2 1.3 1.5 1.6 1.8 1.8 2.0

Crecimiento (cm) 4

10 11

13 15 14 16 16 16 19

El anlisis de regresin produjo los siguientes resultados:

R2 = 0.9295

Coeficientes

Error standard

t Student Valor p

Intercepcin

2.63

0.79

3.33

0.0060

Pendiente

7.78

0.62

12.58

< 0.0001

a. Presente el modelo de regresin lineal estimado para predecir el crecimiento en


dimetro de las plantas de repollo de la nueva variedad en funcin de la dosis
de fertilizante. Identifique los estimadores de los parmetros y las variables
explicativa y de respuesta.
b. Qu interpretacin biolgica puede darse a una pendiente significativa de
7.78 en este contexto? Indique las unidades en que se expresa la pendiente.
c. Calcule el valor estimado y el residual de la observacin correspondiente a la
parcela 11.
8.6

En una estacin experimental de Rafaela, Santa Fe se realiz un ensayo para evaluar el


efecto del nivel de suplementacin con alimento balanceado (Kg/da/animal) sobre la
produccin de leche (lts/da/animal) en vacas Holando-Argentino. En las siguientes tablas y figuras se resumen los resultados obtenidos de un anlisis de regresin lineal
efectuado por los investigadores que condujeron el estudio.
Analisis de Regresin Lineal
Variable
Leche

N
9

R
0.93

Coeficientes de regresin
Coef. Estimad.
Interc.
18.36
Pendiente
1.30

Dagoberto Salgado Horta

Error
0.65
0.14

LI(95%) LS(95%) t
p
16.82 19.89 28.25 <0.0001
0.98
1.62
9.53 <0.0001

Pgina 105

30.00

Litros leche/dia animal

28.00
26.00
24.00
22.00
20.00
18.00
16.00
0.00

2.00

4.00

6.00

8.00

10.00

Balanceado [kg/da]

a. Escriba la ecuacin de regresin lineal ajustada e interprete en trminos


agronmicos los estimadores de los parmetros. Indique en el grfico el valor
de la ordenada al origen.
b. Segn la ecuacin propuesta en (a), qu produccin de leche promedio puede
obtenerse con un nivel de suplemento de 5.5 Kg. diarios de balanceado por animal?
c. Interprete el valor p < 0.001 de la pendiente.
Se quiere conocer la relacin funcional entre la edad al primer parto (das) y la prdida
de peso post parto (kg) en vacas Jersey. Con este objetivo se toma una muestra al azar de 15

8.7

vacas de un tambo, se miden ambas variables y se realiza un anlisis de regresin en planilla de


clculo que produce los siguientes resultados:
Estadsticas de la regresin
2
Coeficiente de determinacin (R ): 0.945; Error standard: 0.920; N = 15.

Intercepcin
Pendiente

Coeficientes

Error standard

Probabilidad

LI 95%

LS 95%

55.2843

0.8378

65.98

8.310-18

53.4742

57.0943

-0.4213

-0.3148

-0.368

0.0246

-14.93

1.510

-9

a. Identifique las variables.


b. Escriba el modelo lineal correspondiente y describa cada parmetro desde el
punto de vista del problema. Calcule y grafique la recta de regresin.
c. Estime la varianza de la variable dependiente.
d. Ponga a prueba la hiptesis que sostiene que a medida que aumenta la edad de
la vaca, la prdida de peso post parto es menor.
e. Estime un IC95 para 1.
f. Interprete el Coeficiente de Determinacin desde el punto de vista del
problema.

Dagoberto Salgado Horta

Pgina 106

8.8

En el siguiente cuadro se indican las cantidades de nitrgeno en el suelo despus de su


tratamiento con compost de residuos urbanos. Para cada uno de los niveles de tratamiento: 0, 6, 12 y 36 tn/ha de compost se realizaron 4 determinaciones. Los resultados fueron los siguientes:

Observacin

Dosis compost

Total nitrgeno

1
2
3
4

0
0
0
0

180
153
152
140

5
6
7
8

6
6
6
6

195
185
150
175

9
10
11
12

12
12
12
12

195
165
200
175

13
14
15
16

18
18
18
18

188
214
204
199

a. Identifique las variables.


b. Realice el grfico de dispersin y comente.
c. Escriba el modelo lineal correspondiente y describa cada parmetro en
trminos del problema. Calcule y grafique la recta de regresin.
d. Estime la varianza de la variable dependiente
e. Ponga a prueba las hiptesis de que los parmetros del modelo valen cero ( =
0.05).
f. Construya IC95 para los parmetros.
g. Para una dosis de 3 Tn/Ha de compost, cul sera el total de nitrgeno en el
suelo? Y para una dosis de 25 Tn/Ha?
h. Calcule el residual para la 5 observacin.
i. Calcule e interprete el coeficiente de determinacin
8.9

Se analizaron los datos correspondientes a la cantidad de protena en subproductos alimentarios de porotos de soja, en funcin de la cantidad de cido ascrbico (en ppm) que
se agregaban en el proceso. Se ensayaron dosis de cido ascrbico desde 50 a 54. El
anlisis de los datos arroj los siguientes resultados:

Constante
cido

Dagoberto Salgado Horta

Coeficientes

Error standard

Valor p

-58.0000
2.00000

27.9501
0.53730

-2.08
3.72

0.0493
0.0011

Pgina 107

R2 = 0.3759 ; Error standard: 3.79931; SCREG = 200.000; SCE: 332.000


a. Escriba el modelo correspondiente, especificando cada trmino.
b. Cul es la recta de ajuste para el modelo planteado en (a)?
c. Es la pendiente de la recta de ajuste significativamente distinta de cero? Explique cmo lo determina estadsticamente y que significado tiene en trminos
del problema que la pendiente sea cero o no.
d. Qu porcentaje de protena se espera encontrar con 52 ppm de cido ascrbico?
e. Qu proporcin de la variacin de la variable dependiente es explicada por el
modelo?
f. Grafique la recta de regresin y agregue como las curvas de los intervalos de
confianza y prediccin, si bien Ud carece de los datos exactos para dibujarlos
interesa la forma y ubicacin de los mismos. Explique porque toman la forma dibujada.
8.10 Un Ingeniero Forestal intenta estimar el carbono atrapado por una plantacin de eucaliptos. Entre las variables que necesita conocer para obtener dicho valor est la materia
seca de hojas (MS). Dado que es complicado obtener una medicin directa de la misma
quiere predecir su valor indirectamente a travs del dimetro a la altura del pecho
(DAP) o a travs de la altura de los rboles (altura). Para esto toma las mediciones de 20
rboles al azar de una plantacin de referencia. En la tabla de la izquierda se presentan
las observaciones. En funcin de los resultados obtenidos, responda las siguientes preguntas.

a. Cul es el modelo de regresin que ajusta a cada variable?


b. Qu variable debera utilizar como predictora?
c. Que hiptesis plante en el punto (b); explique su significado desde el punto
de vista del problema?
d. Calcule e interprete el coeficiente de determinacin y coeficiente de regresin
para cada variable.

Anlisis de Regresin Lineal


Variable
N
mshojas
20
Variable
mshojas

Dagoberto Salgado Horta

N
20

R
0.17
2

R
0.69

0.

Pgina 108

Coeficientes de regresin
Coef.
const
altura

Est.
6.69
0.84

E.E.
6.13
0.43

t
1.09
1.94

p
0.29
0.07

const
dap

Coef.
-5.22
1.17

Est.
3.85
0.18

E.E.
-1.36
6.38

t
0.19
0.00

DAP

Altura

MS

9.20
11.40
12.10
14.70
9.70
14.60
12.40
17.75
22.00
24.00
31.50
18.75
23.00
25.50
32.50
11.70
26.00
31.55
20.55
24.50

8.20
9.10
10.30
9.50
7.50
8.40
8.00
10.00
17.40
8.00
20.95
19.90
10.00
22.50
23.30
14.30
17.70
14.00
14.00
12.00

6.13
9.03
12.55
20.94
4.70
14.00
9.00
12.20
21.00
36.00
24.50
13.90
12.80
15.50
38.30
5.20
28.70
38.21
11.77
21.36

Dagoberto Salgado Horta

Pgina 109

ANALISIS DE DATOS CATEGORICOS


La distribucin que hemos visto en los captulos sobre Estimacin de Parmetros y de Pruebas
de hiptesis con relacin a variancias muestrales, tiene un gran campo de aplicacin en el anlisis
de variables de naturaleza categrica, es decir, cuando se trata de datos de frecuencia. En ciencia
e ingeniera, muchas veces se cuenta con informacin acerca de la cantidad de veces que aparece
una determinada caracterstica en una muestra y en esta clase se ver cmo se puede recurrir al
2
empleo de la distribucin para analizar este tipo de datos. Concretamente, se vern dos aplicaciones directas: (i) las pruebas de bondad del ajuste, y (ii) tablas de contingencia. Entre estas
ltimas veremos las pruebas de homogeneidad y las pruebas de independencia.
2

Pruebas de Bondad del Ajuste


Estas pruebas se aplican cuando se desea contrastar una distribucin de frecuencias observada
en una muestra con una distribucin de frecuencias terica o que responde a un determinado mo2
delo o situacin preconcebida. Para aplicar la prueba de de bondad del ajuste se necesita una
tabla donde se encuentren registradas las frecuencias observadas y las frecuencias tericas o
esperadas segn el modelo. El estadstico que se utiliza en estas pruebas es el siguiente:
k

(oi ei )2

i =1

ei

=
2

(9.1)

donde k es el nmero de categoras y oi y ei son las frecuencia observada y esperada en la i-sima


2
categora, respectivamente. Este estadstico tiene una distribucin con un nmero de grados de
libertad () igual a la cantidad de categoras menos 1. Una aclaracin muy importante: tanto oi
como ei deben ser frecuencias absolutas, no frecuencias relativas o proporciones.
Ejemplo.
Son conocidos en Gentica los experimentos clsicos conducidos por Mendel en los albores de esa ciencia, en los que se buscaba determinar el modo de herencia de una serie de
caracteres cualitativos observados en plantas de arveja. Uno de los caracteres estudiados
por Mendel era el tipo de tegumento de la semilla. Mendel tena arvejas con dos tipos de
tegumento: rugoso y liso. Segn su hiptesis, en cruzamientos realizados entre ciertos tipos de plantas, el esperaba que aparecieran en la descendencia de dichos cruzamientos,
arvejas de tegumento liso y rugoso en la proporcin 3:1, es decir, 3 semillas de tegumento
liso por cada semilla de tegumento rugoso. Supongamos que en un experimento en el cual
se obtiene una descendencia compuesta por 100 semillas, un genetista encuentra 285 semillas de tegumento liso y 115 de tegumento rugoso. Sera razonable, con = 0.05, pensar que esa proporcin observada no est demasiado alejada de la proporcin 3:1 dictada
por la ley de Mendel?
1. Hiptesis. H0: la proporcin es 3:1; H1: la proporcin no es 3:1.
2. Nivel de significacin. = 0.05.
3. Estadstica

de

la

prueba.

(oi ei )2

i =1

ei

=
2

que

se

distribuye

como 1 puesto que, para esta prueba k = 2 y, por consiguiente, = 2 1 = 1.


2

Dagoberto Salgado Horta

Pgina 110

4. Regla de decisin. P

2
1

> 3.84 = 0.05 . Rechazamos H0 s, y slo s, el va-

lor de calculado es mayor que 3.84. En caso contrario, se acepta H0.


2

5. Clculos.
Cuadro 9.1.

Tegumento
Liso
Rugoso
Total

oi
285
115
400

oi - ei
-15
15
---

ei
400(3/4) = 300
400(1/4) = 100
400

(oi - ei) /ei


0.75
2.25
3.00

6. Decisin. Puesto que 3.0 < 3.84 no puede rechazarse H0 con = 0.05. Los
datos de la muestra no constituyen una prueba suficiente como para dudar de
que las proporciones verdaderas son 3:1.

Tablas de contingencia
En una tabla de contingencia la informacin tambin est formada por cuentas o frecuencias organizadas en f filas y c columnas y se dice entonces que se tienen dos criterios de clasificacin.
Se pueden describir dos situaciones posibles.
(1) Hay f poblaciones de inters, cada una en una fila de la tabla, y en cada poblacin se
describen c categoras o atributos. Se toma una muestra de cada poblacin y las frecuencias se
anotan en las celdas de la tabla.
(2) Hay una sola poblacin de inters y cada individuo es clasificado respecto a dos factores diferentes. Hay f categoras de un factor y c categoras del otro factor. Se toma una sola
muestra y se anota el nmero de individuos en cada categora de ambos factores.
Las situaciones de tipo (1) se conocen como pruebas de homogeneidad y las situaciones
de tipo (2) como pruebas de independencia. Estas pruebas son muy parecidas; de hecho en
ambas se utilizan tablas de contingencia y se calculan los valores esperados y los grados de libertad de manera similar. Lo que diferencia ambas pruebas son las hiptesis. El estadstico que se
utiliza es el mismo que el empleado en las pruebas de bondad del ajuste:
c

=
2

j =1

i =1

(o

ij

eij )

(9.2)

eij

donde f es el nmero de filas, c nmero de columnas, oij y eij son las frecuencia observada y espe2
rada en la celda ij, respectivamente. Este estadstico tiene una distribucin con un nmero de
grados de libertad igual a = (f 1)(c 1). Por ejemplo, si la tabla de contingencia fuera 2 2,
tendramos una cantidad de grados de libertad igual a = (2 1)(2 1) = 1.

Pruebas de homogeneidad
Estas pruebas se utilizan cuando se desea determinar si las proporciones de las diferentes categoras son las mismas para todas las poblaciones. La hiptesis nula establece que las poblaciones
son homogneas con respecto a las categoras y la alternativa establece que no lo son. Otra manera de abordar el mismo problema es preguntar si las muestras provienen o no de la misma poblacin.

Dagoberto Salgado Horta

Pgina 111

Obtencin de los valores esperados


Con base en la hiptesis nula, se espera que las proporciones de las distintas categoras dentro de
cada poblacin, son iguales para todas las poblaciones y, por tanto, a las proporciones marginales.
Esto equivale a decir que para la celda i,j el nmero esperado ser igual a:

n. j
ni.
n. j =
ni.
n..
n..

eij =

(9.3)

donde ni. es el total de la fila i, n.j es el total de la columna j, y n.. es el total general.
Ejemplo.
En la siguiente tabla se resume la informacin sobre el tipo de marcas encontradas en
hojas de trboles blancos muestreados en un sitio no pastoreado y en otro pastoreado. En
cada sitio se muestrearon 550 y 450 individuos respectivamente.
Cuadro 9.2.

Tipo de marca
L LL Y O Total
No pastoreado 409 11 22 8 450
Sitio Pastoreado 512 4 14 20 550
Total
921 15 36 28 1000
Viendo la forma en que es planteado el problema, una hiptesis nula apropiada
que puede ponerse a prueba sera que la proporcin de individuos con los diferentes tipos
de marcas en las hojas es la misma para las dos poblaciones, o sea en cada sitio.
Luego:
1. Hiptesis: H0: p1j = p2j; donde j = 1,2,3,4 son las 4 marcas e i = 1,2 son los dos sitios.
H1: p1j p2j
2. Nivel de significacin. = 0.05.
3. Estadstica de la prueba.

f c

(oi ei )2

i =1

ei

que se distribuye aproximadamente

como 3 . Aqu = (2 1)(4 1) = 3.


2

4. Regla de decisin. P

2
3

> 7.81) = 0.05 . Rechazamos H0 si, y solo si, el valor de 2

calculado es mayor que 7.81. En caso contrario, se acepta H0.


5. Clculos.
f c

(oi ei )2

i =1

ei

=
2
3

2
2
2
(
(
409 414.45) (11 6.75)
20 15.4)
=
+
++

414.45
11.82
Dagoberto Salgado Horta

6.75

15.4

Pgina 112

6. Decisin. Puesto que 11.82 > 7.81 se rechaza H0 con = 0.05. La proporcin de individuos con diferentes tipos de marcas no es la misma en las dos poblaciones o sea
que las dos poblaciones de trboles no son homogneas en cuanto a su distribucin
de marcas.

Pruebas de independencia
Este tipo de prueba se aplica cuando existe inters en determinar si dos atributos categricos presentan algn tipo de asociacin entre ellos o, si por el contrario, son independientes. En otras palabras concentramos nuestra atencin en la relacin entre dos factores diferentes de la misma
poblacin. En esta prueba tomamos una muestra de la poblacin y caracterizamos cada individuo
segn dos criterios de clasificacin dispuestos en i filas y j columnas. A diferencia de las pruebas
de homogeneidad donde en muchos casos los totales de filas estn fijos por anticipado, en las
pruebas de independencia solo el tamao muestral es fijo y tanto los totales de filas como los de
columnas son variables aleatorias. La hiptesis nula establece que la categora de un individuo con
respecto al factor A es independiente de la categora con respecto al factor B. En otras palabras y
recordando el captulo de probabilidades, la hiptesis nula establece que los eventos son indepen.
dientes y por lo tanto P(A B) = P(A) P(B).
Ejemplo.
En el partido de Balcarce se realiz una encuesta a 930 productores de trigo-soja y se los
clasific segn el mtodo de siembra empleado (siembra convencional o siembra directa) y
el rea sembrada. Se consideraron 3 categoras: (1) rea menor a 100 ha; (2) rea entre
100 y 500 ha y;(3) rea superior a 1000 ha. Los resultados se muestran en la siguiente tabla de contingencia:
Cuadro 9.3.

rea

1
2
3
Total

Tipo de siembra
SC
SD
94
180
116
320
140
80
350
580

Total
274
436
220
930

Si el mtodo de siembra y el rea sembrada son independientes, esperaramos


que la proporcin de productores que usan siembra convencional sea (350/930) = 0.376,
sea cual fuere el rea sembrada. Y, por ejemplo, el nmero esperado productores que
usan siembra convencional y tienen un rea sembrada reducida (categora 1) sera:
(274)(350/930) = 103.1. Las frecuencias esperadas para nuestro ejemplo entonces son:
Cuadro 9.4.

Tipo de siembra
SC
SD
Total
1
103.12 170.88 274
2
164.09 271.91 436
rea
3
82.8
137.20 220
Total
350
580
930
y dado que la tabla de contingencia es una tabla a 3 2, tenemos 2 grados de libertad.
Con esta evidencia obtenida en la muestra, se puede sostener la hiptesis de que el
mtodo de siembra y el rea sembrada son independientes ( = 0.01)?

Dagoberto Salgado Horta

Pgina 113

1. Hiptesis. H0: el mtodo de siembra y el rea sembrada son independientes. H1:


estn relacionados (son dependientes). H0: pij = pi.p.j i, j; H1: pij pi.p.j para
algn par i,j.
2. Nivel de significacin. = 0.01.
f c

=
2

3. Estadstica de la prueba.
4. Regla de decisin. P

2
2

(oi ei )2

i =1

ei

que se distribuye como 2 .


2

> 9.21 = 0.01 . Rechazamos H0 si, y solo si, el valor de

2 calculado es mayor que 9.21. En caso contrario, se acepta H0.


5. Clculos.

f c

(oi ei )2

i =1

ei

22 =
=

(94 113.12)2 + (180 170.88)2 + ........+ (80 137.20)2

113.12
= 87.26
1

170.88

137.20

Decisin. Dado que 87.26 > 9.21 se rechaza H0 con = 0.01. Hay evidencia suficiente para rechazar la hiptesis de que el mtodo de labranza y el rea sembrada
son independientes.

Ejercicios
9.1

Se cree que tres razas distintas de roya se encuentran distribuidas en una zona con una
proporcin de 3 de raza A, 2 de raza B y 1 de raza C. Para probar esta hiptesis se
extrajo una muestra de 100 plantas atacadas por roya y luego de examinar el tipo de
roya que las atac, se arrib al siguiente resultado:
Tipo de roya

Nmero de plantas atacadas

5
2

3
7

11

Se ajustan los datos observados al modelo poblacional que se plantea con = 0.01?
9.2

Alber's fabrica y distribuye tres tipos de cerveza: ligera, clara y oscura. En un anlisis
de segmentacin de mercado para las tres cervezas, el grupo de investigacin encargado
ha planteado la duda de si las preferencias para las tres cervezas son diferentes entre
los consumidores hombres y mujeres. Si la eleccin del tipo de cerveza fuera independiente del gnero del consumidor, se iniciara una campaa de publicidad para todas las

Dagoberto Salgado Horta

Pgina 114

cervezas de Alber's. Sin embargo, si la eleccin depende del gnero del consumidor, se
ajustarn las promociones para tener en cuenta los distintos mercados meta. Se toma
una muestra aleatoria de 150 bebedores de cerveza y despus de saborear cada una, se
les pide expresar su preferencia o primera alternativa. Los datos de la siguiente tabla
constituyen las frecuencias observadas para las seis clases o categoras:
Cerveza preferida

Gnero

Ligera

Clara

Oscura

Masculino

20

40

20

Femenino

30

30

10

En base a estos resultados determine ( = 0.05) si existe relacin entre la eleccin del
tipo de cerveza y el gnero de la persona que elige.
9.3

Un semillero intenta probar un hbrido nuevo de maz aparentemente resistente a heladas. Para ello se escogen 279 parcelas donde se realiza una siembra temprana (alta probabilidad de heladas). 139 parcelas escogidas al azar son sembradas con el hbrido tradicional y las otras 140 son sembradas con el hbrido nuevo. Luego de transcurrido el perodo de heladas, se comprob que en 31 parcelas sembradas con el hbrido tradicional se
observaron problemas de densidad de cultivo (debido a muerte de plantas por heladas),
mientras que slo 17 parcelas sembradas con el hbrido nuevo presentaron este problema. Qu podra usted concluir con respecto a la resistencia a heladas de estos dos
hbridos? Concluya con un nivel de significacin del 5%. Si un productor quiere sembrar
temprano el maz y le consulta sobre cul hbrido utilizar (tradicional o nuevo), qu le
dira? En qu basara su respuesta?

9.4

La Secretara de Agricultura espera para el partido de Pergamino una relacin de lotes


sembrados de soja, maz, trigo y girasol de 9:3:3:1. Se realiza un estudio donde se escogen al azar lotes de Pergamino, se los visita para comprobar el cultivo sembrado y se observa que en 190 lotes hay soja, en 85 hay maz, en 80 hay trigo y en 35 hay girasol. Se
ajustan estos datos a la relacin esperada? Use = 0.05 y establezca el valor de p.

a.
b.
c.
d.
e.
f.
g.

Qu estamos estudiando? Cul es la poblacin en estudio?


Cul es la pregunta?
Cul es la variable y de qu tipo es?
Qu queremos poner a prueba? (escriba H0 y H1).
Cul es el experimento para poner a prueba la hiptesis?
Cuntos lotes se muestrearon?
Si lo que dice la secretara fuera cierto y el experimento coincidiera absolutamente con eso, cuntos de los n lotes muestreados seran de soja, cuntos de maz,
cuntos de trigo y cuntos de girasol?
h. Es muy distinta la cantidad de lotes de maz esperada (calculada en el punto anterior) con la observada en el experimento? Y con los otros cultivos?

9.5

Se clasific a un grupo de 400 plantas de maz, segn su variedad y la cantidad de mazorcas por plantas. Probar ( = 0.05) en base a los datos, si

Dagoberto Salgado Horta

Pgina 115

hay alguna asociacin entre las dos caractersticas estudiadas.


Variedad

Menos de 4 mazorcas

4 o ms mazorcas

V1
V2
V3

42
86
24

84
120
44

9.6

Un vendedor de maquinara agrcola sabe, por recoleccin de datos histricos, que durante la primavera las ventas ms comunes son tractores 50%, pulverizadoras 35%, cosechadoras 10% y otras mquinas 5%. Durante la primavera de 2005 ocurrieron las siguientes ventas: tractores 90, pulverizadoras 80, cosechadoras 30 y otras mquinas 20.
Cree Ud. que estos datos estn en concordancia con los datos histricos ( = 0.05)?

9.7

En la frontera fitosanitaria de la Patagonia se revisaron cargamentos de


frutas de distinta procedencia para evaluar la posibilidad de introduccin
de mosca de las frutas (Ceratitis capitata), una plaga importante de los
frutales, en reas no infestadas. La informacin de cargamentos con presencia de la plaga se resume en la siguiente tabla:
Presencia de la
plaga

Regin de procedencia del cargamento


Cuyo

NOA

NEA

22
67

32
5

33
10

Con mosca
Sin mosca

a. Pruebe si existe alguna dependencia entre la regin de procedencia y la presencia


de la plaga con un nivel de significacin = 0.01.
b. Sobre qu tipo de cargamentos intensificara el control? Justifique su respuesta.
9.8

Se puso a prueba la calidad de 4 marcas de maz para hacer pochoclos. Se probaron 100
granos de cada marca y en cada prueba se anot el nmero de granos que no reventaron.
La informacin se recopil en la siguiente tabla:
Marca
A
B
C
D

Nmero de granos
Total
sin reventar
14
8
11
15

100
100
100
100

a. Indique qu tipo de prueba de 2 corresponde hacer aqu. Justifique su respuesta.


b. Sera razonable rechazar la hiptesis de que las 4 marcas tienen la misma calidad
( = 0.05)?

Dagoberto Salgado Horta

Pgina 116

Ejercicios adicionales con algunas respuestas

1] En un campo se pesaron 11 novillos. Al final de la operacin se obtuvieron los siguientes


datos:

Individuo Peso [Kg/animal]


12453
450
13458
375
854
350
1234
425
5864
400
84952
415
12448
380
13221
395
953
430
7531
440
1035
390

El criterio establecido por la agroempresa para enviar la hacienda al remate/feria es un peso


mayor a 390 Kg. Responda:
a) Qu cantidad de animales de este lote ser vendida?
Rta: 7 animales.
b) Qu porcentaje representa? Rta: 63.63%
c) Construya un histograma de frecuencias a partir de los datos de la tabla con solo dos clases (0-390 Kg, y ms de 390 Kg).
d) Construya un diagrama de caja y bigotes para todos los datos.
----------------------------------------------------------------------------------

Dagoberto Salgado Horta

Pgina 117

PRODUCTOR
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

PROVINCIA
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
BUENOS AIRES
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE
SANTA FE

TIPO
MIXTO
MIXTO
MIXTO
AGRICOLA
AGRICOLA
MIXTO
MIXTO
GANADERO
MIXTO
GANADERO
MIXTO
MIXTO
AGRICOLA
MIXTO
AGRICOLA
MIXTO
MIXTO
AGRCOLA
MIXTO
MIXTO
MIXTO
MIXTO
MIXTO
MIXTO
MIXTO
AGRCOLA
MIXTO
AGRCOLA
MIXTO
AGRCOLA

2] Se realiz una encuesta a 30 productores rurales de la zona norte de Buenos Aires y Sur
de Santa Fe. A cada productor se le pregunt qu tipo de produccin tena (agrcola, ganadera o mixta). A partir de los resultados genere una tabla de doble entrada y conteste:
a) Qu porcentaje del total de productores tiene una explotacin mixta? Rta: 66,67%
b) De los productores con explotacin netamente agrcola, qu porcentaje se encuentra en
la provincia de Buenos Aires? Rta: 50%.
---------------------------------------------------------3] Dos candidatos a los consejos de administracin A y B, compiten por el control de una
corporacin. Las probabilidades de ganar de estos candidatos son 0.7 y 0.3,
respectivamente. Si gana A, la probabilidad de introducir un nuevo producto es 0.8; si gana
B, la correspondiente probabilidad es 0.4. Demuestre que, antes de las elecciones, la
probabilidad de que sea introducido un nuevo producto es igual a 0.68.

Dagoberto Salgado Horta

Pgina 118

-----------------------------------------------------------4] Un productor desea presentarse a una licitacin de granos embolsados y por ello presta
especial atencin a que el peso de cada bolsa no se aparte excesivamente del promedio. Si
el promedio es de 63 kg con un desvo estndar de 2 kg:
(a) Cul es la probabilidad de que una bolsa no se aparte ms de 3 kg. del
promedio?;
(b) Si se toma una bolsa al azar, cul es la probabilidad de que pese menos de 60
kg.?;
(c) Si se toma al azar un lote de 10 bolsas, cul es la probabilidad de que a lo sumo
una pese menos de 60 kg.?;
(d) Si se toma un lote de 1000 bolsas, cul es la probabilidad de que a lo sumo 100
pesen menos de 60 kg.?
Rtas: (a) 0.8664; (b) 0.0668 c) 0.85945 d) Aproximadamente 1
------------------------------------------------------------------------------------------------------------------------5] Sea X una variable aleatoria con distribucin binomial, con n = 10 y = 0.5.
(a) Determinar las probabilidades de que X se encuentre dentro de una desviacin estndar
de la media y a dos desviaciones estndares de la media.
(b) Cmo cambiaran las respuestas en (a) si n = 15 y = 0.4?

Rtas: (a) x: 4 a 6, p = 0.65625 y x: 2 a 8, p = 0.9785


----------------------------------------------------------------------------------------------------------------------------6] Sea Z una variable aleatoria normal estndar. Hallar:
(a) P(Z < 1.20); (b) P(Z >1.33); (c) P(Z < -1.70); (d) P(Z > -1.00); (e) P(1.20 < Z< 1.33);
(f) P(-1.70 < Z < 1.20); (g) P(-1.70 < Z < -1.00)

Rtas. (a) 0.8849, (b) 0.0918, (c) 0.0446, (d) 0.8413, (e) 0.0233, (f) 0.8403, (g) 0.1141.
----------------------------------------------------------------------------------------------------------------------------7] Una compaa recibe un lote de insumos muy grande. Se analiza una muestra aleatoria
de 16 artculos, y se acepta el lote si menos de dos resultan defectuosos. Cul es la probabilidad de aceptar un envo que contenga:
(a) un 5% de artculos defectuosos? Rta: 0.8107
(b) Un 15% de artculos defectuosos? Rta: 0.2840
(c) Un 25% de artculos defectuosos? Rta: 0.0635
----------------------------------------------------------------------------------------------------------------------------8] Se sabe que el dinero que gastan al ao los estudiantes de la Universidad de Agronoma
en libros de texto sigue una distribucin normal con media $ 125 y desviacin tpica $ 25.

Dagoberto Salgado Horta

Pgina 119

(a) Cul es la probabilidad de que un estudiante elegido aleatoriamente gaste menos de


$ 60 en libros de texto al ao?
(b) Cul es la probabilidad de que un estudiante elegido aleatoriamente gaste ms de $
150 en libros de texto al ao?
(c) Cul es la probabilidad de que un estudiante elegido aleatoriamente gaste entre $
80 y $ 135 en libros de texto al ao?
(d) Se quiere encontrar un rango de gastos en libros en el cual se incluyan el 80% de los
estudiantes de esta universidad. Explicar por qu pueden encontrarse infinitos rangos que cumplan esta condicin, y encontrar el rango menos costoso.

Rta: (a) 0.0047, (b) 0.1587, (c) 0.6195, (d) el rango menos costoso: de $0 a $146.04
----------------------------------------------------------------------------------------------------------------------------9] El 90% de los rboles plantados en un monte forestal sobreviven hasta la tala final del
rodal. Cul es la probabilidad de que sobrevivan 10 o ms de 15 rboles que acaban de ser
plantados?
Rta: p = 0.99776
----------------------------------------------------------------------------------------------------------------------------10] La duracin de lmparas de luz producidas por un cierto fabricante tiene una media de
mil doscientas horas y una desviacin tpica de cuatrocientas horas y se sabe que la poblacin sigue una distribucin normal. Supongamos que adquirimos 9 lmparas, que pueden
ser consideradas como una muestra aleatoria de la produccin del fabricante.
(a)
(b)
(c)
(d)

Cul es la esperanza de la media muestral de la duracin de estas lmparas?


Cul es la varianza de la media muestral?
Cul es el error estndar de la media muestral?
Cul es la probabilidad de que el tiempo medio de duracin de las lmparas adquiridas sea menor a 1050 horas?

Rta: (a) 1200, (b) 17777, (c) 133.33, (d) 0.13


----------------------------------------------------------------------------------------------------------------------------11] El dueo de una tienda de discos ha comprobado que el 20% de los clientes que entran
en su tienda realizan una compra. Cierta maana, entraron en esta tienda 180 personas, que
pueden ser consideradas como una muestra aleatoria de todos sus clientes.
a) Cul ser la media de la proporcin muestral de clientes que realizaron alguna compra?
b) Cul es la varianza de la proporcin muestral?
c) Cul es el error estndar de la proporcin muestral?
d) Cul es la probabilidad de que la proporcin muestral sea menor que 0,15?

Rta: (a) 0.20; (b) 0.000889; (c) 0.0298; (d) 0.04669


----------------------------------------------------------------------------------------------------------------------------Dagoberto Salgado Horta

Pgina 120

12] Una corporacin ha recibido 120 solicitudes de trabajo de estudiantes que acaban de
terminar su carrera de agronoma. Suponiendo que estas solicitudes pueden ser consideradas como una muestra aleatoria de todos los ingenieros, cul es la probabilidad de que
entre un 35% y un 45% de las solicitudes correspondan a mujeres si se sabe que el 40% de
los ingenieros agrnomos que acaban de terminar su carrera son mujeres? Rta: 0.8686
----------------------------------------------------------------------------------------------------------------------------13] Suponga que una muestra aleatoria de tamao n = 25, es seleccionada de una poblacin
con media , y desvo standard . Para los siguientes valores de y , determine los valo-

x y x . (a) = 100 y = 50; (b) = 750 y = 25. Rtas: (a) x = 100 y


x = 10 ; (b) x = 750 y x = 5 .

res de

----------------------------------------------------------------------------------------------------------------------------14] Despus de seleccionar una muestra y calcular el IC para , una persona dice: "tengo
una confianza del 88% de que la media de la poblacin flucta entre 106 y 122". Qu es lo
que realmente est diciendo?
(a) que hay una probabilidad de 0.88 de que flucte ente 106 y 122?
(b) qu hay una probabilidad de 0.88 de que el valor real de sea 114 (el punto medio del
intervalo)?
(c) qu el 88% de los intervalos obtenidos de las muestras de este tamao contendrn la
media de la poblacin?
(d) (a), (b) y (c) son correctas.

Rta: c
----------------------------------------------------------------------------------------------------------------------------15] Una muestra de 30 parcelas sembradas con algodn, arroj un rendimiento medio de
950 kg/ha. Sabiendo que los rendimientos tienen distribucin normal con desvo tpico 25
kg/ha, estimar el verdadero rendimiento medio, mediante un IC95 y un IC99.
Rta: IC95: 950 8.95kg ; IC99: 950 11.73kg
----------------------------------------------------------------------------------------------------------------------------16] Un ensayo de un nuevo hbrido de maz arroj los siguientes resultados (Tn/ha).
12.4 11.0 10.5 11.7 9.9 12.0 8.9

9.7 11.5 11.1

Son estos resultados evidencia suficiente para afirmar que este hbrido es mejor que otro
que tiene una media de rendimiento de 10 Tn/ha? ( = 0.05).

Rta: Prueba de hiptesis de una cola, varianza estimada a partir de la varianza muestral. Valor t = 2.48, valor p = 0.0176. Los resultados aportan evidencia suficiente para
afirmar que los rindes del nuevo hbrido son mayores a 10 Tn/ha.

Dagoberto Salgado Horta

Pgina 121

----------------------------------------------------------------------------------------------------------------------------17] Se estudian dos raciones, A y B, para el engorde de cerdos. Se tomaron 8 lotes de cerdos, cada uno formado por hermanos de la misma lechigada, y se le suministraron las raciones aleatoriamente en cada lote. Los resultados, en kg, se presentan en la siguiente tabla:
(a) Probar si ambas raciones producen
igual engorde ( = 0,05)
(b) Estimar el parmetro de inters con
una confianza del 95%.
(c) Podra decir cul es la mejor racin?
Justifique estadsticamente de acuerdo sus resultados anteriores.

Lotes
1 2 3 4 5 6 7 8
A 75 80 80 72 72 75 78 82
Raciones
B 85 79 90 68 75 81 88 90

Rtas: (a) Prueba de hiptesis de comparacin de medias apareadas. Valor t = -2.74,


valor p = 0.0289. Se rechaza la hiptesis nula. (b) -5.25 4.53;(c) La racin B produce
mejores resultados que la racin A. Esto queda justificado por el valor p de la prueba
y por los extremos del IC.
----------------------------------------------------------------------------------------------------------------------------18] Se desea poner a prueba si el tipo de labranza influye sobre el nivel de malezas de los
lotes. Para ello, se tom una muestra aleatoria de 184 lotes y se los clasific segn el tipo
de labranza (siembra directa, labranza convencional o labranza vertical) y el nivel de malezas (alto, medio, bajo); los resultados se observan en la siguiente tabla.
Nivel de Malezas
Alto Medio Bajo
28
22
16
Directa
Tipo de Labranza
22
22
18
Vertical
20
24
Convencional 12
Existe relacin entre el tipo de labranza y el nivel de malezas? Use = 0.05.

Rta: Prueba de Independencia; 2 calculado: 7.63; p = 0.1061; G de L = 4, = 0.05, 2


tabla: 9.4877. Valor p > , entonces no se rechaza H0. No hay evidencia de que el nivel
de malezas sea dependiente del tipo de labranza.
----------------------------------------------------------------------------------------------------------------------------19] Al finalizar un curso de asistencia no obligatoria, un profesor realiz la siguiente agrupacin basada en la aprobacin o no del curso y la asistencia al mismo. Usando = 0.05, a
qu conclusin puede llegar? Cul es el valor p?
Nota en el Curso
Nmero de das ausente
Aprobado Reprobado
0-3
84
5
4-6
60
8
Ms de 6
10
25

Dagoberto Salgado Horta

Pgina 122

Rta: Prueba de Independencia. 2 calculado: 72.81; p = 1.546510-16; G de L = 2, =


0.05, 2 tabla: 5.9914. Valor p < ; entonces se rechaza H0. Por lo tanto la calificacin
no es independiente de la asistencia.
----------------------------------------------------------------------------------------------------------------------------20] Una empresa de agroqumicos sabe por datos histricos que durante el verano la venta
de sus productos se distribuye de la siguiente manera: 60 % herbicidas, 30 % fungicidas y
10 % de otros compuestos. Durante el verano del 2005 se registran las siguientes ventas:
100 corresponden a herbicidas, 15 a funguicidas, y 20 a otros productos. Las ventas del
verano de este ao estn en concordancia con los datos histricos? Utilice = 0.05.
Rta: Prueba de bondad de ajuste. 2 calculado: 23.64; p = 7.348910-6; G de L = 2, =
0.05, 2 tabla: 22;0.05 = 5.9915 . Valor p < ; entonces se rechaza H0. Por lo tanto las
ventas de verano del 2005 no coinciden con lo esperado segn datos histricos.
----------------------------------------------------------------------------------------------------------------------------21] Una revista agropecuaria dispone de datos suministrados por varias empresas que fabrican y distribuyen agroqumicos sobre sus ventas y los gastos incurridos por cada empresa
en publicidad en esa revista. Ambas variables estn expresadas en pesos. La siguiente tabla
resume los resultados obtenidos en un anlisis de regresin lineal sobre estas variables:
Variable
Ventas

N
31

R
0.94

Matriz de coeficientes de regresin


Coef.
Interc.
Pendiente

Est.
-19212.74
1.76

E.E.
15251.77
0.08

LI(95%)
-50406.10
1.58

LS(95%)
11980.62
1.93

T
-1.26
20.78

p
0.22
0.00

(a) Escriba la ecuacin ajustada correspondiente y describa las estimaciones de los parmetros en trminos del problema. Datos sobre cuntas empresas fueron considerados en este
anlisis?
(b) Usted es gerente de una empresa de agroqumicos, considerando su respuesta en a) decidira invertir en publicar avisos en esta revista?. Justifique su respuesta.
(c) Calcule el valor de ventas estimado para una empresa que invirti 200 000 $ en publicidad en esta revista (asuma que este valor est dentro del rango de estimacin posible del
modelo).

Rtas: (a) -19212.74 + 1.76x; -19212.74 es la ordenada al origen, en otras palabras el


volumen de ventas estimado cuando el gasto en publicidad es igual a 0. Aunque en este
caso no tiene significado prctico. 1.76 es la pendiente o sea el cambio en ventas por
cada unidad de gasto (pesos) en publicidad realizado. (b) La pendiente es significativa
y positiva. Los gastos en publicidad explican el 94 % del volumen de ventas. Por lo
tanto decidira invertir en publicidad en esta revista. (c) y = 332787.26 $, para x =
200 000.
-----------------------------------------------------------------------------------------------------------------------------22] La Secretara de Agricultura y el Ministerio de Economa estn interesados en determinar cunto ser el rendimiento de maz en la localidad de San Lorenzo en el
Dagoberto Salgado Horta

Pgina 123

ao 2004. Se dispone de los siguientes datos sobre rendimiento (en quintales por ha) y precipitaciones (en mm) desde 1992 hasta 2001.

Rendmiento
Precipitaciones

78
91
85
62
85
88 112 46 106 66
1328 1289 1371 1401 1350 1271 1215 1517 1285 1431

(a) Ajuste un modelo lineal entre ambas variables. Cul es la variable dependiente y cul
la independiente?
(b) Describa los parmetros incluidos en el modelo e incluya las unidades en las que deben
ser expresados. Que significa en trminos del problema que exista una pendiente negativa?
(c) San Lorenzo es una zona de elevada precipitacin que es frecuentemente afectada por
inundaciones. Se espera que el 2004 sea un ao relativamente hmedo con 1500 mm de
precipitaciones cul seria el rendimiento esperado?.
Rtas: (a) modelo lineal 365.86 0.21x; Variable dependiente: rendimiento, Variable independiente: precipitaciones; (b) 365.86 es la ordenada al origen, el rendimiento estimado
cuando la precipitacin es igual a 0, aunque no tiene significado biolgico. 0.21 quintalesha-1/ mm es la pendiente o sea el cambio en rendimiento por cada unidad (mm) de precipitacin. Una pendiente negativa indica que a medida que la precipitacin aumenta, el
rendimiento disminuye. (c) rendimiento para x = 1500 mm: 50.86 quintales ha-1
----------------------------------------------------------------------------------------------------------------------------23+ En la siguiente tabla se detalla la inversin hecha y la ganancia obtenida en miles de
pesos para 12 explotaciones agropecuarias en la prov. de Buenos Aires durante el ao 2002:

inversin 16 11 14 16 18 20 31 14 20 19 11 15
ganancia 5 2 3 5 3 7 10 6 10 5 6 6
(a) Presente la estimacin del modelo de regresin lineal para predecir la ganancia esperada
en funcin de la inversin de capital hecha.
(b) Presenta este modelo suficiente evidencia a un nivel de significacin de 0.05 de que la
ganancia en las explotaciones agropecuarias de la provincia de Bs. As. est determinada por
la inversin realizada? Justifique su respuesta.
(c) Segn el modelo propuesto que ganancia se espera para una inversin de 30000 $?
(d) Usando el modelo propuesto sera correcto predecir la ganancia esperada para un establecimiento que invierte 100000$. Justifique su respuesta.

Rtas: (a) 0.17 + 0.32x; (b) Si, presenta suficiente evidencia. R2 = 0.47, p = 0.01; (c) Ganancia esperada para x = 30: 9.77 miles de $; (d) No es correcto predecir la ganancia
esperada para x = 100 porque cae fuera del rango de prediccin del modelo.
-----------------------------------------------------------------------------------------------------------------------------

Dagoberto Salgado Horta

Pgina 124

Bibliografa de consulta
Devore Jay L. (2003) Probabilidad y estadstica para ingeniera y ciencias. 5ta. edicin. International Thomson Editores, S. A.
Wackerly D, Mendenhall W y Scheaffer R. (2002) Estadstica Matemtica con Aplicaciones.. 6ta.
ed. Thomson: Mxico
Steel R and Torrie J.(1980) Principles and Procedures of Statistics. McGraw-Hill: NY
Mendenhall, W. (1990) Estadstica para administradores. Grupo Editorial Iberoamericana.
Ya Lun Chou. (1978) Anlisis Estadstico. Interamericana: Mxico.

Dagoberto Salgado Horta

Pgina 125

You might also like