You are on page 1of 60

Mtodos estadsticos

Roberto Javier Velasco Carbajal


Septiembre 2003
Prefacio.

El presente trabajo fue elaborado para la acreditacin de la materia de Mtodos


estadsticos, de la licenciatura en psicologa, ante la Universidad Abierta de San Luis
Potos.

Para la elaboracin del presente ensayo, segu el temario conceptual de la materia que
se encuentra en la pagina de internet, sin embargo, con el objeto de no ser tan
especifico en los temas tratados, inclu algunos otros que encontr afines o
complementarios en los libros que consulte, por tal motivo, el ndice varia un poco del
antes sealado.

Tambin cabe sealar que los temas tratados en este ensayo, solo son los elementales
de esta materia, sin embargo, considero que son muy interesantes y afines en el campo
de la investigacin, tanto de la psicologa, como de cualquier otro campo.
INDICE.
Estadstica.

INTRODUCCION................................................................................................................... 1

1 REPRESENTACIONES ESTADSTICAS Y ANLISIS DE GRFICAS.................................2


1.1 DISTRIBUCIONES DE FRECUENCIAS..................................................................................2
1.2 INTERVALOS DE CLASE........................................................................................................ 2
1.3 HISTOGRAMASY POLGONOS DE FRECUENCIAS..............................................................4
1.4 CURVAS DE FRECUENCIAS.................................................................................................. 5
1.5 DISTRIBUCIONES DE FRECUENCIAS ACUMULADAS.........................................................7
1.6 DISTRIBUCIONES DE FRECUENCIAS RELATIVAS..............................................................8
1.7 DISTRIBUCIN DE FRECUENCIAS DEL TIPO "Y MENOR QUE".........................................8
1.8 DIAGRAMAS DETALLO Y HOJAS...........................................................................................8
1.9 DIAGRAMAS DE PUNTOS.................................................................................................... 10
1.10 DIAGRAMAS DE PARETO..................................................................................................... 10
1.11 DIAGRAMAS DE BARRAS Y GRFICAS DE LINEAS..........................................................11
1.12 GRFICAS DE CORRIDAS................................................................................................... 13
1.13 DIAGRAMAS CIRCULARES.................................................................................................. 14

2 DESCRIPCION DE DATOS ECONMICOS Y ADMINISTRATICVOS:


MEDIDAS DE POSICIN............................................................................................ 15
2.1 MEDIDAS DE POSICIN EN CONJUNTOS DE DATOS.......................................................15
2.2 MEDIA ARITMTICA.............................................................................................................. 15
2.3 MEDIA PONDERADA............................................................................................................. 16
2.4 MEDIANA ......................................................................................................................... 17
2.5 MODA ......................................................................................................................... 17
2.6 ELACIN ENTRE MEDIA Y MEDIANA..................................................................................18
2.7 CRITERIOS MATEMTICOS SATISFECHOS POR LA MEDIANA Y LA MEDIA...................18
2.8 USO DE MEDIA, MEDIANA Y MODA....................................................................................19
2.9 USO DE LA MEDIA EN EL CONTROL ESTADSTICO DE PROCESOS...............................21
2.10 CUARTILES, DECILES Y PERCENTILES.............................................................................21
2.11 RESULTADOS EN COMPUTADORA.....................................................................................22

3 DESCRIPCION DE ATOS ECONOMICOS Y ADMINISTRATICOS:


MEDIDAS DE VARIABILIDAD.................................................................................23
3.1 MEDIDAS DE VARIABIELIDAD EN CONJUNTOS DE DATOS..........................................23
3.2 RANGO............................................................................................................................... 23
3.3 RANGOS MODIFICADOS................................................................................................... 24
3.4 DIAGRAMAS DE CAJA....................................................................................................... 24
3.5 DESVIACIN MEDIA ABSOLUTA (DMA)...........................................................................25
3.6 VARIANZAY DESVIACIN ESTNDAR................................................................................26
3.7 CLCULOS SIMPLIFICADOS DE LA VARIANZA Y LA DESVIACIN ESTNDAR..............28
3.8 CRITERIO MATEMTICO ASOCIADO CON LA VARIANZA Y LA
DESVIACIN ESTNDAR........................................................................................ 29
3.9 USO DE LA DESVIACIN ESTNDAR EN LA DESCRIEPCIN DE DATOS.......................30
3.10 USO DEL RANGO Y LA DESVIACIN ESTNDAR EN EL CONTROL
ESTADSTICO DE PROCESOS............................................................................31
3.11 COEFICIENTE DE VARIACIN............................................................................................. 32
3.12 COEFICIENTE DE ASIMETRA DE PEARSON.....................................................................33
4 POBLACIONES Y MUESTRAS.................................................................................................... 34

5 MUESTREO ALEATORIO............................................................................................................. 36

Probabilidad
INTRODUCCIN................................................................................................................ 41

6 ESPACIOS MUESTRALES Y EVENTOS............................................................................41

7 LOS POSTULADOS DE LA PROBABILIDAD.....................................................................48

8 PROBABILIDADES Y POSIBILIDADES..............................................................................52

9 PROBABILIDAD CONDICIONAL........................................................................................ 57

10 TEOREMA DE BAYES........................................................................................................ 62

Resumen y conclusiones ........................................................................................ 67

Bibliografa................................................................................................................86
Mtodos estadsticos 1

Introduccin.

Antes de entrar en materia, comenzaremos por dar una definicin de estadstica:

Estadstica, rama de las matemticas que se ocupa de reunir, organizar


y analizar datos numricos y que ayuda a resolver problemas como el
diseo de experimentos y la toma de decisiones.

Estadstica n. f. ,
1. Ciencia cuyo objeto es reunir una informacin cuantitativa
concerniente a individuos, grupos, series de hechos, etc., y deducir de
ella, gracias al anlisis de estos datos, unos significados precisos o
unas previsiones para el futuro.
2. Cuadro numrico de un hecho que se presta a la estadstica:
estadstica de natalidad.

Definicin de estadstica aplicada a la administracin y la economa:

La estadstica es el conjunto de tcnicas que se emplean para la


recoleccin, organizacin, anlisis e interpretacin de datos. Los datos
pueden ser cuantitativos, con valores expresados numricamente, o
cualitativos, en cuyo caso se tabulan las caractersticas de las
observaciones. La estadstica sirve en administracin y economa para
tomar mejores decisiones a partir de la comprensin de las fuentes de
variacin y de la deteccin de patrones y relaciones en datos
econmicos y administrativos.
Mtodos estadsticos 2

1 Representaciones estadsticas y anlisis de


grficas.
1.1 DISTRIBUCIONES DE FRECUENCIAS

Una distribucin de frecuencias es una tabla en la cual se agrupan en clases


valores posibles de una variable y donde se registra el nmero de valores
observados correspondientes a cada clase. Los datos organizados en una
distribucin de frecuencias se llaman datos agrupados. En contraste con ello, en el
caso de datos no agrupados enlistan todos los valores observados de la variable
aleatoria.

EJEMPLO En la tabla 1.1 aparece una distribucin de frecuencias de salarios


semanales. Obsrvese que las cantidades han sido consignadas de acuerdo con
el dlar ms cercano. Cuando el residuo por redondear es de "exactamente 0.5"
(exactamente $0.50 en este caso), el procedimiento convencional es redondear al
nmero par ms cercano. As, un salario semanal de $259.50 se redondeara a
$260 como parte del proceso de agrupamiento de datos.

Tabla 1.1 Distribucin de frecuencias de salarios semanales de 100 trabajadores


no calificados.

1.2 INTERVALOS DE CLASE

En cada una de las clases de una distribucin de frecuencias, los lmites


nominales de clase inferior y superior indican los valores incluidos dentro de la
clase. (Vase la primera columna de la tabla 1.1) A diferencia de ello, los lmites
exactos de clase, o fronteras de clase, son los puntos especficos que sirven para
separar clases adyacentes en una escala de medicin de variables continuas. Los
lmites exactos de clase pueden determinarse identificando los puntos intermedios
entre los lmites nominales de clase superior e inferior, respectivamente, de clases
adyacentes. El intervalo de clase identifica el rango de valores incluidos dentro de
una clase y puede determinarse restando del lmite exacto de clase superior de la
Mtodos estadsticos 3

clase el lmite exacto de clase inferior. Cuando no es posible identificar lmites


exactos, el intervalo de clase puede determinarse restando del lmite nominal
inferior de la clase el lmite nominal inferior de la clase adyacente inferior.
Finalmente, para ciertos propsitos es comn que los valores de una clase sean
representados por el punto medio de clase, el cual puede determinarse sumando
la mitad del intervalo de clase al lmite exacto inferior de la clase.

EJEMPLO En la tabla 1.2 se presentan los lmites exactos de clase y los puntos
medios de clase de la distribucin de frecuencias de la tabla 1.1.

Tabla 1.2 Salarios semanales de 100 trabajadores no calificados

* En general, en los lmites exactos de clase slo se expresa un


dgito adicional significativo, en comparacin con los lmites
nominales de clase. Sin embargo, dado que en el caso de las
unidades monetarias la unidad de medida ms precisa relativa al
"dlar ms cercano" suele definirse como "el centavo ms cercano",
conviene expresar dos dgitos adicionales.

EJEMPLO Calculado con los dos mtodos, el intervalo de clase de la primera


clase de la tabla 1.2 es $259.50 $239.50 = $20 (resta del lmite exacto de clase
inferior al lmite exacto de clase superior de la clase) $260 - $240 = $20 (resta del
lmite nominal de clase inferior de la clase al lmite nominal de clase inferior de la
clase adyacente superior)

Para efectos de clculo, por lo general es deseable que todos los intervalos de
clase de una distribucin de frecuencias dada sean iguales. La siguiente frmula
puede emplearse para determinar el intervalo de clase aproximado por usar:
Mtodos estadsticos 4

EJEMPLO En referencia a los datos originales no agrupados que se agruparon en


la tabla 1.1, supongamos que el salario observado ms alto fue de $358 y el
salario observado ms bajo de $242. Dado que el objetivo es disponer de seis
clases con iguales intervalos de clase,

As, el tamao de clase conveniente ms cercano al valor calculado es $20.

En el caso de datos distribuidos en forma notoriamente no uniforme, como los


datos del sueldo anual para una amplia variedad de ocupaciones, pueden ser
requeridos intervalos desiguales de clase. En este caso, los intervalos de clase
mayores se utilizan para los rangos de valores con relativamente escasas
observaciones.

1.3 HISTOGRAMASY POLGONOS DE FRECUENCIAS

Un histograma es una grfica de barras de una distribucin de frecuencias. Tal


como se indica en la figura 1-1, se acostumbra colocar los lmites exactos de clase
en el eje horizontal de la grfica y los nmeros de observaciones en el eje vertical.
Sin embargo, tambin se usan puntos medios de clase en lugar de lmites de clase
para identificar las clases.

Fig. 1-1
Mtodos estadsticos 5

EJEMPLO En la figura 1-1 se muestra un histograma de la distribucin de


frecuencias de los salarios semanales de la tabla 1.2.

Un polgono de frecuencias es una grfica de lneas de una distribucin de


frecuencias. Tal como se indica en la figura 1-2, los dos ejes de esta grfica son
similares a los del histograma, salvo que en el eje horizontal suele identificarse el
punto medio de cada clase. El nmero de observaciones de cada clase se
representa con un punto por encima del punto medio de la clase, puntos que se
unen despus con una serie de segmentos lineales para formar un polgono o
"figura de muchos lados".

EJEMPL0 En la figura 1-2 se muestra un polgono de frecuencias de la


distribucin de salarios semanales de la tabla 1.2.

Fig. 1-2

1.4 CURVAS DE FRECUENCIAS

Una curva de frecuencias es un polgono de frecuencias suavizado.

EJEMPLO La figura 1-3 es una curva de frecuencias de la distribucin de salarios


semanales de la tabla 1.2.

En trminos de asimetra, una curva de frecuencias puede ser: 1) asimtrica


negativa: no simtrica con la ..cola- a la izquierda; 2) asimtrica positiva: no
simtrica con la cola" a la derecha, o 3) simtrica.
Mtodos estadsticos 6

Fig. 1-3

EJEMPLO El concepto de asimetra de las curvas de frecuencias se ilustra


grficamente en la figura 1-4.

En trminos de curtosis, una curva de frecuencias puede ser: 1) platicrtica: plana,


con las observaciones distribuidas en forma relativamente pareja entre las clases;
2) leptocrtica: afilada, con las observaciones concentradas en un estrecho rango
de valores, o 3) mesocrtica: ni plana ni afilada en trminos de la distribucin de
los valores observados.

Fig. 1-4

EJEMPLO En la figura 1-5 aparecen los diversos tipos de curvas de frecuencias


en trminos de curtosis.

Fig. 1-5
Mtodos estadsticos 7

1.5 DISTRIBUCIONES DE FRECUENCIAS ACUMULADAS

Una distribucin de frecuencias acumuladas identifica el nmero acumulado de


observaciones incluidas bajo el lmite exacto superior de cada clase de la
distribucin. Las frecuencias acumuladas de una clase pueden determinarse
sumando las frecuencias observadas de esa clase a las frecuencias acumuladas
de la clase anterior.

EJEMPLO El clculo de las frecuencias acumuladas se ilustra en la tabla 1.3.

Tabla 1.3 Clculo de las frecuencias acumuladas de los datos de salarlos


semanales de la tabla 1.2

La grfica de una distribucin de frecuencias acumuladas se llama ojiva. En el


caso de distribuciones acumuladas del tipo "y menor que", esta grfica indica las
frecuencias acumuladas bajo cada lmite exacto de clase de la distribucin de
frecuencias. Si esa grfica de lneas se suaviza, se obtiene la curva llamada ojiva.

EJEMPLO En la figura 1-6 se observa una ojiva de la distribucin acumulada de


la tabla 1.3.

Fig.1-6
Mtodos estadsticos 8

1.6 DISTRIBUCIONES DE FRECUENCIAS RELATIVAS

Una distribucin defrecuencias relativas es aquella cuyo nmero de observaciones


asociadas con cada clase se ha convertido en una frecuencia relativa dividiendo
entre el nmero total de observaciones de toda la distribucin. De este modo, cada
frecuencia relativa es una proporcin, la cual puede convertirse en un porcentaje
multiplicndola por 100.

Una de las ventajas de la elaboracin de distribuciones de frecuencias relativas es


que su distribucin acumulada y su ojiva indican la proporcin acumulada (o
porcentaje) de observaciones hasta los diversos valores posibles de la variable.
Un valor percentil es el porcentaje acumulado de observaciones hasta un valor
designado de una variable.

1.7 DISTRIBUCIN DE FRECUENCIAS DEL TIPO "Y MENOR QUE"

Los lmites de clase de las distribuciones de frecuencias obtenidas por


computadora suelen ser del tipo "y menor que". En estos lmites, los lmites
nominales de clase son al mismo tiempo los lmites exactos que definen la clase.
Los valores agrupados en cualquier clase son iguales a o mayores que el lmite de
clase inferior y hasta el valor del lmite de clase superior, sin incluir a ste. Un
medio descriptivo para la presentacin de estos lmites de clase es:

5 y menor que 8

8 y menor que 11

Adems de ser ms fcil de aplicar en software de cmputo, este tipo de


distribucin tambin suele representar un modo ms "natural" de recoleccin de
datos. Por ejemplo, la edad de las personas se registra por lo general en
correspondencia con su aniversario anterior, no con el prximo. As, un individuo
de 24 aos de edad tiene 24 corno mnimo, pero menos de 25.

1.8 DIAGRAMAS DETALLO Y HOJAS

Un diagrama de tallo y hojas es una modalidad relativamente simple de


organizacin y presentacin de medidas en un formato de grfica de barras
jerrquicamente ordenado. Se trata de una tcnica comn en el anlisis
exploratorio de datos. Como su nombre lo indica, el anlisis exploratorio de datos
es un conjunto de tcnicas de anlisis preliminar de datos para la deteccin de
patrones y relaciones. Tambin las distribuciones de frecuencias y tcnicas
grficas asociadas expuestas en las secciones anteriores de este captulo suelen
emplearse con este propsito. En cambio, el anlisis confirmatorio de datos
incluye los principales mtodos de inferencia estadstica. El anlisis confirmatorio
de datos persigue la extraccin de conclusiones estadsticas definitivas sobre
patrones y relaciones presentes en los datos.
Mtodos estadsticos 9

Aunque muy semejante a un histograma, un diagrama de tallo y hojas se


diferencia de ste en que es ms fcil de elaborar y en que muestra los valores
reales de los datos, pues los valores especficos no se pierden por efecto de su
agrupamiento en clases definidas. No obstante, esta tcnica slo es aplicable y
significativa si el primer dgito de la medicin, o quiz los dos primeros, sirve
efectivamente de base para la separacin de los datos en grupos. En
consecuencia, cada grupo es anlogo a una clase o categora en una distribucin
de frecuencias. Cuando nicamente se usa el primer dgito para agrupar las
medidas, la denominacin tallo y hojas" alude al hecho de que el primer dgito es
el tallo, mientras que cada una de las medidas con valor a partir de ese primer
dgito pasa a ser una hoja en el contexto de esta representacin.

EJEMPLO En la tabla 1.4 se presenta el puntaje obtenido por 50 estudiantes en


un examen de contabilidad financiera de 100 puntos. La figura 1-7 es el diagrama
de tallo y hojas de ese puntaje. Advirtase que. adems del patrn general del
puntaje, tambin es posible observar el puntaje individual. En la lnea
correspondiente al tallo de 6, por ejemplo, los dos valores de 2 de las hojas
representan a los dos puntajes de 62 incluidos en la tabla 1.4.

Tabla 1.4 Puntajes obtenidos por 50 estudiantes en un examen de contabilidad


financiera

Fig. 1-7 Diagrama de tallo y hojas


Mtodos estadsticos 10

1.9 DIAGRAMAS DE PUNTOS

Un diagrama de puntos se asemeja a un histograma en el sentido de que consiste


en una representacin grfica de una distribucin de los valores de los datos. Sin
embargo, se diferencia de ste en que los valores se representan individualmente,
en lugar de agruparse en clases. Los diagramas de puntos se aplican
preferentemente a pequeos conjuntos de datos, en cuyo caso no se garantiza el
agrupamiento de valores en clases de una distribucin de frecuencias. Son
particularmente tiles en la comparacin de dos conjuntos de datos diferentes, o
de dos subgrupos de un conjunto de datos.

1.10 DIAGRAMAS DE PARETO

Un diagrama de Pareto se asemeja a un histograma, excepto que es una grfica


de barras de frecuencias de una variable cualitativa, no de datos cuantitativos
agrupados en clases. Las barras de la grfica, que pueden representar
frecuencias o frecuencias relativas (porcentajes) se organizan en orden
descendente de izquierda a derecha. Esta disposicin da como resultado la
ubicacin de las categoras ms importantes de datos, segn su frecuencia de
ocurrencia, en las posiciones iniciales de la grfica. Los diagramas de Pareto se
usan en el control de procesos para tabular las causas asociadas con variaciones
de causas atribuibles en la calidad del producto del proceso. Es comn que
solamente unas cuantas categoras de causas se asocien con la mayora de los
problemas de calidad, de modo que los diagramas de Pareto permiten que tanto
equipos de trabajadores como gerentes se concentren en las reas ms
importantes en las que se necesitan acciones correctivas.

EJEMPLO Se encontr que los refrigeradores que no fueron aprobados en la


inspeccin final en una planta ensambladora de aparatos elctricos durante el
ltimo mes tenan defectos debidos a las siguientes causas: ensamble, acabado
de laca, fallas elctricas, abolladuras u otras causas. La figura 1-8, obtenida con
Minitab, es el diagrama de Pareto para la representacin grfica tanto de las
frecuencias como de las frecuencias relativas de cada causa de falla en
inspeccin. Como puede verse, la gran mayora de fallas en inspeccin se deben
a defectos en el ensamble y el acabado de laca.
Mtodos estadsticos 11

Diagrama de Pareto de: Defectos

Fig. 1-8

1.11 DIAGRAMAS DE BARRAS Y GRFICAS DE LINEAS

Una serie de tiempo es un conjunto de valores observados, tales como datos de


produccin o ventas, durante una serie de periodos temporales secuencialmente
ordenados. Para efectos de representacin grfica, tanto los diagramas de barras
como las grficas de lneas son de gran utilidad. En un diagrama de barras, una
serie de barras representa cantidades de una serie de tiempo.

EJEMPLO En el diagrama de barras de la figura 1-9 se recoge la informacin de


ganancias netas (en millones de dlares) de un importante banco comercial
durante una secuencia de aos codificados.

En un diagrama de barras de componentes se marcan subdivisiones en las barras


del diagrama. Por ejemplo, cada barra de la figura 1-9 podra subdividirse en
distintas partes (tal vez diferenciadas con colores) para indicar la contribucin
relativa de cada segmento de la empresa a las ganancias netas de cada ao.

Una grfica de lneas contiene cantidades de series de tiempo unidas entre s por
segmentos lineales.
Mtodos estadsticos 12

Fig. 1-9 Diagrama de barras.

EJEMPLO Los datos de la figura 1-9 se presentan en forma de grfica de lneas


en la figura 1-10.

Fig. 1-10 Grfica de lneas.


Mtodos estadsticos 13

1.12 GRFICAS DE CORRIDAS

Una grfica de corridas es una grfica de valores de datos en el orden secuencial


temporal en que fueron observados. Los valores trazados pueden ser valores
observados individuales o valores compendiados, como en el caso de una serie de
medias muestrales. Cuando a una grfica de este tipo se le agregan los lmites
inferior y superior del muestreo de aceptacin, se le llama grfica de control. La
determinacin de esos lmites.

EJEMPLO En la figura 1-11 se muestra una grfica de corridas de la secuencia


de pesos medios de muestras de cuatro paquetes de papas fritas tomadas en 15
momentos distintos con el mtodo de muestreo de subgrupos racionales. La
secuencia de pesos medios de las muestras fue la siguiente: 14.99, 15.08, 15.05,
14.95, 15.04, 14.91, 15.01, 14.84, 14.80, 14.98, 14.96, 15.00, 15.02, 15.07 y 15.02
onzas. La especificacin de peso neto promedio por empacar en el proceso es de
15.00 onzas. La determinacin de si considerar o no como una desviacin
significativa a cualquiera de las desviaciones de estas medias muestrales.

Fig. 1-11 Grfica de corridas.


Mtodos estadsticos 14

1.13 DIAGRAMAS CIRCULARES

Un diagrama circular es una figura en forma de pastel cuyas piezas representan


divisiones de una cantidad total, como podra serio la distribucin de las ventas en
dlares de una compaa.

Un diagrama circular de porcentajes es aquel cuyos valores han sido convertidos a


porcentajes para facilitar su comparacin.

EJEMPLO La figura 1-12 es un diagrama circular en el que se describen los


ingresos y el porcentaje de ingresos totales de Xerox Corporation durante un ao
reciente de acuerdo con las categoras actividad principal (que Xerox denomina
"zona de importancia decisiva) mercados en crecimiento, pases en desarrollo y
nichos de oportunidad.

Fig. 1-12 Diagrama circular.


Mtodos estadsticos 15

2 Descripcin de datos econmicos y


administrativos: medidas de posicin

2.1 MEDIDAS DE POSICIN EN CONJUNTOS DE DATOS

Una medida de posicin es un valor calculado de un grupo de datos que sirve para
describir a stos de alguna manera. Lo comn es que nos interese que este valor
sea representativo de todos los valores del grupo, motivo por el cual es de desear
cierto tipo de promedio. En sentido estadstico, un promedio es una medida de la
tendencia - central de una serie de valores. Este captulo trata de los diversos
procedimientos estadsticos relativos a las medidas de posicin.

2.2 MEDIA ARITMTICA

La media aritmtica, o promedio aritmtico, es la suma de los valores del grupo de


datos dividida entre el nmero de valores.

En estadstica, una medida descriptiva de una poblacin, o parmetro de la


poblacin, se representa por lo general con alguna de las letras del alfabeto
griego, mientras que una medida descriptiva de una muestra, o estadstica
muestral, se representa con alguna de las letras del alfabeto latino. As, la media
aritmtica de una poblacin de valores se representa con el smbolo m (mu), en
tanto que la media aritmtica de una muestra de valores se representa con el
smbolo X (equis barra). Las frmulas de la media poblacional y la media muestral
son

Operacionalmente, ambas frmulas son idnticas: en ambos casos se suman


todos los valores (de X) y se les divide despus entre el nmero de valores. Sin
embargo, la distincin entre los denominadores es que en el anlisis estadstico la
N mayscula indica habitualmente el nmero de elementos de la poblacin,
mientras que la n minscula indica el nmero de elementos de la muestra.

EJEMPLO Durante uno de los meses del verano, los ocho vendedores de una
empresa de servicios de calefaccin y 2 acondicionado vendieron el siguiente
Mtodos estadsticos 16

nmero de unidades centrales de aire acondicionado: 8, 11, 5, 14, 8, 11, 16, 11.
-Considerando ese mes como la poblacin estadstica de inters, el nmero medio
de unidades vendidas es

Nota: Para efectos de reporte, las medidas de posicin contienen por lo general un
dgito adicional al nivel original de medicin.

2.3 MEDIA PONDERADA

La media ponderada o promedio ponderado es una media aritmtica en donde


cada uno de los valores se pondera de acuerdo con su importancia en el grupo en
general. Las frmulas de la media ponderada poblacional y muestral son idnticas:

Operacionalmente, cada valor del grupo (X) se multiplica por el factor de


ponderacin correspondiente (w), tras de lo cual los productos se suman para
posteriormente dividirse entre la suma de las ponderaciones.

EJEMPLO El margen de utilidad en el ltimo ao fiscal de las cuatro lneas de


productos de una compaa fabricante de mltiples bienes fue: lnea A, 4.2%; lnea
B, 5.5%; lnea C, 7.4%, y lnea D, 10.1%. El margen de utilidad medio no
ponderado es

Pero como las ventas de los cuatro productos no son iguales, este promedio no
ponderado es incorrecto. Partiendo de los totales de ventas de la tabla 2.1, la
media ponderada describe correctamente el promedio global.
Mtodos estadsticos 17

Tabla 2.1 Margen de utilidad y volumen de ventas de cuatro lneas de productos

2.4 MEDIANA

La mediana de un grupo de elementos es el valor del elemento intermedio cuando


todos los elementos del grupo siguen, en trminos de valor, un orden ascendente
o descendente. En un grupo con un nmero par de elementos, se supone que la
mediana se halla a medio camino entre los dos valores adyacentes al punto
intermedio. Cuando el grupo contiene un gran nmero de valores, se emplea la
siguiente frmula para determinar la posicin de la mediana en el grupo ordenado:

EJEMPLO Los ocho vendedores mencionados en el ejemplo 1 vendieron el


siguiente nmero de unidades centrales de aire acondicionado, en orden
ascendente: 5, 8, 8, 11, 11, 11, 14, 16. El valor de la mediana es

El valor de la mediana se halla entre el cuarto y quinto valores del grupo ordenado.
Dado que en este caso ambos valores son de " 11 ", la mediana es igual a 11.0.

2.5 MODA

La moda es el valor que ocurre ms frecuentemente en un conjunto de valores, A


esta distribucin se le conoce como unimodal. Un conjunto pequeo de datos en el
que no se repiten valores medidos carece de moda. Cuando dos valores no
adyacentes son casi iguales en cuanto a frecuencias mximas asociadas con
ellos, la distribucin se llama bimodal. Las distribuciones de medidas con varias
modas se llaman multimodales.
Mtodos estadsticos 18

EJEMPLO Los ocho vendedores mencionados en el ejemplo 1 vendieron el


siguiente nmero de unidades centrales de aire acondicionado: 8, 11, 5, 14, 8, 11,
16 y 11. La moda de este grupo de valores es el valor con mayor frecuencia, o
moda = 11.0.

2.6 RELACIN ENTRE MEDIA Y MEDIANA

En toda distribucin simtrica, media, mediana y moda coinciden en valor* [vase


figura 2-1 a)]. En una distribucin asimtrica positiva, la media siempre es mayor
que la mediana [vase figura 2-1b)]. En una distribucin asimtrica negativa, la
media siempre es menor que la mediana [vase figura 2-1c)]. Estas dos ltimas
relaciones son siempre verdaderas, independientemente de que la distribucin sea
unimodal o no. Una medida de asimetra en estadstica, basada en la diferencia
entre los valores de la media y la mediana de un grupo de valores, es el
coeficiente de asimetra de Pearson.

Fig. 2-1

EJEMPLO En los datos de ventas considerados en los ejemplos 1, 3 y 4, la


media es 10.5, mientras que la mediana es 11.0. Puesto que la media es menor
que la mediana, la distribucin de valores observados tiende a ser asimtrica
negativa; es decir, sesgada a la izquierda.

2.7 CRITERIOS MATEMTICOS SATISFECHOS POR LA MEDIANA Y


LA MEDIA

Uno de los propsitos de la determinacin de cualquier medida de tendencia


central, como la mediana o la media, es emplearla para representar el nivel
general de los valores incluidos en el grupo. Tanto la mediana como la media son
medidas representativas "aceptables", pero desde el punto de vista de criterios u
objetivos matemticos diferentes. La mediana es el valor representativo que
reduce al mnimo la suma de los valores absolutos de las diferencias entre cada
valor del grupo y la mediana. Esto es, la mediana reduce al mnimo la suma de las
desviaciones absolutas respecto de los valores individuales representados. En
contraste con ello, la media aritmtica se concentra en la reduccin al mnimo de
Mtodos estadsticos 19

la suma de las desviaciones al cuadrado respecto de los valores individuales del


grupo. El criterio cuyo objetivo es reducir al mnimo la suma de las desviaciones al
cuadrado asociada con un valor representativo se llama criterio de mnimos
cuadrados. Este criterio es uno de los ms importantes en la inferencia estadstica
basada en datos muestrales, como se expondr detalladamente en la siguiente
seccin.

EJEMPLO En los datos de ventas considerados en los ejemplos anteriores, la


mediana es 11.0 y la media 10.5. Los montos de venta ordenados se presentan en
la primera columna de la tabla 2.2. Las dems columnas de esa tabla se dedican a
la determinacin de la suma de las desviaciones absolutas y de las desviaciones
al cuadrado de los valores individuales respecto tanto de la mediana como de la
media. Ntese que la suma de las desviaciones absolutas respecto de la mediana,
20, es menor que la suma correspondiente de 21.0 respecto de la media. Por otro
lado, si se aplica el criterio de mnimos cuadrados, la suma de las desviaciones al
cuadrado respecto de la media, 86.00, es menor que la suma correspondiente de
88 respecto de la mediana. Ningn valor diferente a la media puede tener una
suma de desviaciones cuadradas menor a la de sta.

Tabla 2.2 Criterios matemticos satisfechos por la mediana y la media


(Med = 11.0; Media = 10.5)

2.8 USO DE MEDIA, MEDIANA Y MODA

Consideraremos primero el uso de estas medidas de promedio para la


representacin de datos de la poblacin. El valor de la moda indica la posicin de
la mayora de los valores observados, como los ndices salariales por hora en una
compaa. Puede ser til como medida descriptiva de un grupo de la poblacin,
aunque slo si existe una moda claramente perceptible. Por su parte, la mediana
es siempre una medida excelente para representar el nivel "tpico" de los valores
Mtodos estadsticos 20

observados, como los ndices salariales, de una poblacin. Esto es as


independientemente de la existencia de ms de una moda o de que la distribucin
de la poblacin sea asimtrica o simtrica. La falta de simetra no es en este caso
un problema especial, porque el ndice salarial mediano, por ejemplo, siempre es
el ndice salarial de la "persona intermedia" cuando los ndices salariales se
enlistan en orden de magnitud. Tambin la media aritmtica es excelente como
valor representativo de una poblacin, aunque slo si la poblacin es claramente
simtrica. En datos no simtricos, los valores extremos (unos cuantos ndices
salariales muy elevados de especialistas tcnicos, por ejemplo) distorsionarn el
valor de la media como valor representativo. As, la mediana es por lo general una
mejor medida de posicin de datos para la descripcin de datos de la poblacin.

Consideremos ahora el uso de las tres medidas de posicin en relacin con datos
muestrales. El propsito de la inferencia estadstica con datos muestrales es
producir enunciados de probabilidad sobre la poblacin de la que fue seleccionada
la muestra. La moda no es una medida aceptable de posicin respecto de datos
muestrales, porque su valor puede variar ampliamente de una muestra a otra. La
mediana es mejor que la moda, porque su valor es ms estable entre muestra y
muestra. No obstante, el valor de la media es el ms estable de estas tres
medidas. La razn de la relativa estabilidad de la media muestral de una muestra
a otra es que se trata de la medida de posicin que satisface el criterio de mnimos
cuadrados. En consecuencia, la mejor medida de posicin en el caso de datos
muestrales es generalmente la media aritmtica.

EJEMPLO Se han recopilado los ndices salariales de los 650 empleados por
horade una empresa manufacturera. La medida ms representativa del ndice
salarial tpico es la mediana, porque en este caso est implicada una poblacin y
la mediana no se ve relativamente afectada por la posible falta de simetra de los
ndices salariales. Efectivamente, es probable que datos como ndices salariales y
montos de sueldos sean de asimetra positiva, con relativamente pocos montos
salariales o de sueldos excepcionalmente elevados y ubicados por lo tanto en la
cola derecha de la distribucin.

EJEMPLO Una muestra aleatoria de n= 100 ndices salariales se obtiene en una


compaia con varios miles de empleados por hora. El ndice salarial ms
representativo de estos varios miles de empleados es la media muestral. Aunque
es improbable que la media muestral sea exactamente igual al ndice salarial
medio de toda la poblacin, por lo general se hallar mucho ms cerca de la
media poblacional que la mediana muestral como estimador del ndice salarial
mediano de la poblacin.
Mtodos estadsticos 21

2.9 USO DE LA MEDIA EN EL CONTROL ESTADSTICO DE


PROCESOS
En la seccin anterior se seal que una grfica de corridas es una grfica de
valores de datos en el orden secuencial temporal en que fueron observados y que
los valores representados pueden ser valores individuales o promedios de
muestras secuenciales. Es preferible usar promedios que valores individuales,
porque por lo general cualquier promedio ser ms estable (menos variable) de
una muestra a otra que las observaciones individuales. Como se indic en la
seccin anterior, la media muestral es ms estable que la mediana o la moda. Por
esta razn, el propsito de las grficas de corridas referentes a promedios
muestrales es trazar las medias muestrales.

A estas grficas se les llama grficas Y, y son la base para la determinacin de si


un proceso es estable o existe en l una variacin con una causa atribuible por
corregir.

EJEMPLO Remtase a la grfica de corridas de la figura 1-11 del captulo anterior.


Esta grfica de corridas de la secuencia de pesos medios de muestras de n = 4
paquetes de papas fritas es caracterstica del tipo de grficas elaboradas para
efectos del control estadstico de procesos, como se explica e ilustra en el captulo
20.

2.10 CUARTILES, DECILES Y PERCENTILES

Cuartiles, deciles y percentiles se asemejan a la mediana en que tambin


subdividen una distribucin de medidas de acuerdo con la proporcin de las
frecuencias observadas. Mientras que la mediana divide una distribucin en
mitades, los cuartiles la dividen en cuartos, los deciles en dcimos y los puntos
percentiles en 100 partes. De la mediana se modifica segn el punto fraccionario
de inters. Por ejemplo,
Mtodos estadsticos 22

EJEMPLO Los ocho vendedores mencionados en el ejemplo 1 vendieron el


siguiente nmero de unidades centrales de aire acondicionado, en orden
ascendente: 5, 8, 8, 11, 11, 11, 14, 16. Determine las posiciones del primer cuartil y
el tercer cuartil de esta distribucin.

La posicin del primer cuartil se halla a medio camino entre el segundo y tercer
valores de la serie ordenada. Puesto que ambos valores son de 8, el valor del
primer cuartil es de 8.0. El valor del tercer cuartil se halla a medio camino entre el
sexto y sptimo valores de la serie, o a medio camino entre 11 y 14, lo que
equivale a 12.5.

2.11 RESULTADOS EN COMPUTADORA

Se dispone de software de cmputo para determinar varias medidas de promedio.


El problema 2.17 ilustra su uso para la determinacin de los valores de la media y
la mediana de una muestra de tiempos de ensamble de un producto.
Mtodos estadsticos 23

3 Descripcin de datos econmicos y


administrativos: medidas de variabilidad

3.1 MEDIDAS DE VARIABIELIDAD EN CONJUNTOS DE DATOS.

Las medidas de tendencia central descritas en el captulo anterior son tiles para
la identificacin del valor "representativo" de un grupo de valores. Por su parte, las
medidas de variabilidad, o dispersin, se ocupan de la descripcin de la
variabilidad entre los valores. Se dispone de diversas tcnicas para medir el grado
de variabilidad en conjuntos d datos. Las que describiremos en este captulo son
el rango, los rangos modificados, la desviacin media, la varianza, la desviacin
estndar y el coeficiente de variacin.

EJEMPLO Supongamos que de dos diferentes mquinas empacadoras resultan


paquetes de cereal con un peso medio de 10 gramos, pero que en un caso el peso
de todos los paquetes vara en un sentido o en otro en no ms de 0. 10 gr,
mientras que en el otro puede variar en hasta 1.0 gr en cualquier direccin, En
este caso, la medicin de la variabilidad, o dispersin, de las cantidades por
empacar sera tan importante como la medicin del promedio.

3.2 RANGO

El rango, o R, es la diferencia entre los valores ms alto y ms bajo incluidos en


un conjunto de datos. As, cuando My representa al mayor valor del grupo y Mn al
menor, el rango de datos no agrupados es

R = My - Mn

EJEMPLO Durante un mes de verano, los ocho vendedores de una empresa de


equipos de calefaccin y aire acondicionado vendieron los siguientes nmeros de
unidades centrales de aire acondicionado: 8,11, 5,14,8,11, 16, 11. El rango del
nmero de unidades vendidas es

R =My - Mn = 16 - 5 = 11.0 unidades

Nota: Para efectos de comparacin, generalmente reportamos las medidas de


variabilidad con un decimal adicional al nivel original de medicin.
Mtodos estadsticos 24

3.3 RANGOS MODIFICADOS

Un rango modificado es un rango que se construye eliminando algunos de los


valores extremos de cada una de las porciones finales de la distribucin. El 50%
central es el rango entre los valores en el 25o. punto percentil y el 75o. punto
percentil de la distribucin. De este modo, tambin es el rango entre el primer y
tercer cuartiles de la distribucin. Por este motivo, al rango del 50% central suele
llamrsele rango intercuartil (RIC). As,

RIC = Q3 Q1,

Otros rangos modificados de uso comn son el 80% central, el 90% central y el
95% central.

EJEMPL0 Los datos de ventas de unidades centrales de aire acondicionado


presentados en el ejemplo anterior son, en orden ascendente: 5, 8, 8, 11, 11, 11,
14, 16. En consecuencia, el nmero de observaciones es N= 8 en estos datos de
la poblacin. Para calcular el rango intercuartil, primero debemos determinar los
valores en Q3 (el 75o. punto percentil) y Q1, (el 25o. punto percentil) y despus
restar Q1, de Q3:

3.4 DIAGRAMAS DE CAJA


Un diagrama de caja es una grfica que describe la distribucin de un conjunto de
datos en referencia a los valores en los cuartiles como medidas de posicin y al
valor del rango intercuartil como medida de referencia de variabilidad. Constituye
un medio relativamente sencillo para la graticacin de datos y la observacin del
grado de asimetra de la distribucin. Es por lo tanto una alternativa ms fcil a la
construccin de una distribucin de frecuencias y el trazo de un hstograma,
descrtos en las secciones 1.1 a 1.3. Tambin se le conoce corno diagrama de
caja y brazos, por razones que resultarn obvias en el ejemplo 4, inmediatamente
posterior. Debido a su relativa facilidad de uso, es una de las principales tcnicas
del anlisis exploratorio de datos, descrito en la seccin 1.8 en relacin con los
diagramas de tallo y hojas.

EJEMPLO En la figura 3-1 se presenta el diagrama de caja de los datos de


ventas de unidades del ejemplo anterior. Los lmites inferior y superior de la caja
rectangular de la grfica se llaman goznes y se ubican por lo general en Q1 y Q3
As, con base en los valores de los cuartiles determinados en el ejemplo 3, el
gozne inferior se halla en 8,0 y el gozne superior en 12.5. La lnea vertical dentro
Mtodos estadsticos 25

de la caja indica la posicin de la mediana (o Q2), la cual se encuentra en 11.0.


Las lneas horizontales punteadas a izquierda y derecha de la caja se llaman
brazos y se extienden hasta las "barreras internas", ubicadas a 1.5 unidades del
rango intercuartil en cada direccin. De esta manera, los brazos se extienden a:

Las "barreras externas" de la figura 3-1 se extienden a 3.0 unidades del rango
intercuartil en cada direccin a partir de Q1 Y Q3 o a -5.5 y 25.5 para las barreras
externas inferior y superior, respectivamente. Advirtase en este ejemplo que la
barrera externa inferior se halla para efectos prcticos en el valor de 0, ya que es
imposible que existan unidades negativas de ventas. Todos los valores ubicados
entre las barreras interna y externa se consideran datos anmalos moderados,
mientras que los valores localizados ms all de las barreras externas son datos
anmalos extremos. Para el caso de todos los datos anmalos, investigamos si
tales valores fueron recolectados en las mismas circunstancias que los dems
valores y si pudo ocurrir un error de medicin. Es evidente que nuestro reducido
grupo de ocho valores carece de datos anmalos, puesto que todos los valores de
ventas enlistados en el ejemplo anterior se hallan dentro de las barreras internas.

Fig. 3-1

3.5 DESVIACIN MEDIA ABSOLUTA (DMA)

La desviacin media absoluta (DMA) se basa en el valor absoluto de la diferencia


entre cada valor del conjunto de datos y la media del grupo. Se determina
entonces el promedio de estos valores absolutos. Se usan los valores absolutos
de las diferencias porque la suma de todas las diferencias positivas y negativas
(no de las diferencias absolutas) siempre es igual a cero. As, las frmulas
respectivas de la DMA de la poblacin y de la muestra son:
Mtodos estadsticos 26

EJEMPLO En referencia a los datos de ventas de equipos de aire acondicionado


dados en el ejemplo anterior, la media aritmtica es 10.5 unidades (vase seccin
2.2). Con base en los clculos de la tabla 3.1, la desviacin media absoluta se
determina de la siguiente manera:

Tabla 3.1 Hoja de trabajo para el clculo de la desviacin media de los datos de
venta (m = 10.5)

Por lo tanto, podemos decir que, en promedio, la venta de unidades de equipo de


aire acondicionado de un vendedor difiere en 2.6 unidades respecto de la media
grupal, en cualquier direccin.

3.6 VARIANZAY DESVIACIN ESTNDAR

La varianza se asemeja a la desviacin media absoluta en que se basa en la


diferencia entre cada valor del conjunto de datos y la media del grupo. Pero se
distingue de ella en un muy importante aspecto: cada diferencia se eleva al
cuadrado antes de sumarse. En el caso de una poblacin, la varianza se
representa con V(X) o, ms habitualmente, con la letra griega minscula o 2
("sigma cuadrada"). La frmula es
Mtodos estadsticos 27

A diferencia de lo que ocurre con las dems estadsticas muestrales ya expuestas,


la varianza de una muestra no equivale exactamente, en trminos de clculo, a la
varianza de una poblacin. El denominador de la frmula de la varianza muestral
es un tanto distinto. En esencia, en esta frmula se incluye un factor de correccin,
a fin de que la varianza muestral sea un estimador insesgado de la varianza de la
poblacin. La varianza muestral es representada por s 2; su frmula es

En general, es difcil interpretar el significado del valor de una varianza, porque las
unidades en las que se le expresa son valores elevados al cuadrado. Debido en
parte a esta razn, es ms frecuente el uso de la raz cuadrada de la varianza,
representada por la letra griega a (o por s en el caso de una muestra) y llamada
desviacin estndar. Las frmulas son:

Desviacin estndar de la poblacin:

Desviacin estndar de la muestra:

La desviacin estndar es particularmente til en conjuncin con la as llamada


distribucin normal.

EJEMPLO En relacin con los datos de ventas de equipo de aire acondicionado


dados en el ejemplo anterior, la media aritmtica es 10.5 unidades (vase seccin
2.2). Considerando estos datos de ventas mensuales como la poblacin
estadstica de inters, la desviacin estndar se determina como sigue, de
acuerdo con los clculos de la tabla 3.2:
Mtodos estadsticos 28

Tabla 3.2 Hoja de trabajo para el clculo de la desviacin estndar de la


poblacin de los datos de ventas (u= 10.5)

3.7 CLCULOS SIMPLIFICADOS DE LA VARIANZA Y LA


DESVIACIN ESTNDAR

Las frmulas de la seccin 4.6 se llaman frmulas de desviaciones, porque en


cada caso deben determinarse las desviaciones especficas de los valores
individuales respecto de la media. Sin embargo, se han derivado ya otras
frmulas, matemticamente equivalentes pero que no requieren de la
determinacin de cada desviacin. Dado que por lo general estas frmulas son
ms fciles de utilizar en la realizacin de clculos, se llaman frmulas de clculo.

Las frmulas de clculo son:

Varianza de la poblacin:

Desviacin estndar de la poblacin:

Varianza de la muestra:

Desviacin estndar de la muestra:


Mtodos estadsticos 29

EJEMPLO En referencia a los datos de ventas de equipos de aire acondicionado


presentados en el ejemplo anterior, calculamos a continuacin la desviacin
estndar de la poblacin con el uso de la frmula de clculo alternativa y de la
tabla 3.3 para demostrar que la respuesta es la misma que la obtenida con la
frmula de desviacin del ejemplo 6. La media de estos datos es 10.5 unidades.

Tabla 3.3 Hoja de trabajo para el clculo de la desviacin estndar de la


poblacin de los datos de ventas

3.8 CRITERIO MATEMTICO ASOCIADO CON LA VARIANZA Y LA


DESVIACIN ESTNDAR

En la seccin 2.7 describimos el criterio de mnimos cuadrados y establecimos que


la media aritmtica es la medida de posicin de datos que satisface este criterio.
Remitmonos ahora a la frmula para advertir que la varianza es de hecho una
media aritmtica, en el sentido de que es la suma de algo (desviaciones al
cuadrado en este caso) dividida entre el nmero de tales valores. Exclusivamente
desde este punto de vista, la varianza se asocia por lo tanto con el criterio de
mnimos cuadrados. Ntese tambin que la suma de las desviaciones al cuadrado
en el numerador de la frmula de la varianza es precisamente la suma que se
reduce al mnimo al usar la media aritmtica como medida de posicin. Por
consiguiente, la varianza y su raz cuadrada, la desviacin estndar, tienen una
estrecha relacin matemtica con la media, y ambas se emplean en inferencia
estadstica con datos muestrales.

EJEMPLO Remtase a la tabla 3.2, la hoja de trabajo que se us para calcular la


desviacin estndar de los datos de ventas del ejemplo anterior. Obsrvese que la
suma de las desviaciones al cuadrado, 86.00, la cual es el numerador de la
Mtodos estadsticos 30

frmula de la desviacin estndar, no puede reducirse optando por cualquier otra


medida de posicin con un valor diferente a la media de la poblacin de 10.5.

3.9 USO DE LA DESVIACIN ESTNDAR EN LA DESCRIEPCIN


DE DATOS

Tal como se asent en la seccin anterior, la desviacin estndar se emplea junto


con varios mtodos de inferencia estadstica expuestos en posteriores captulos
de este libro. La descripcin de esos mtodos escapa al inters del presente
captulo. Sin embargo, aparte de los usos de la desviacin estndar en la
inferencia, introduciremos brevemente aqu un uso de la desviacin estndar en la
descripcin de datos. Considrese una distribucin de valores de datos tanto
simtrica como mesocrtica (ni plana ni afilada). La curva de frecuencias de una
distribucin de este tipo se llama curva normal. En un conjunto de valores con
distribucin normal, siempre ocurre que aproximadamente 68% de los valores
quedan incluidos dentro de un margen de una desviacin estndar respecto de la
media y que aproximadamente 95% de los valores quedan incluidos dentro de un
margen de dos unidades de desviacin estndar respecto de la media. Estas
observaciones se representan como diagramas en las figuras 3-2a) y b),
respectivamente. As, adems de asociarse con el criterio de mnimos cuadrados,
la media y la desviacin estndar se emplean tambin en el anlisis de variables
con distribucin normal.

Fig. 3-2

EJEMPLO Se observa que las cuentas de energa elctrica de una zona


residencial correspondientes al mes de junio tienen una distribucin normal. Si se
calcula que la media de estas cuentas es de $84.00, con una desviacin estndar
de $24.00, de ello se desprende que aproximadamente 68% de las cantidades
facturadas se encuentran dentro de un margen de $24.00 respecto de la media, o
entre $60.00 y $108,00. Asimismo se desprende tambin que aproximadamente
95% de las cantidades facturadas se hallan dentro de un margen de $48.00
respecto de la media, o entre $36.00 y $132.00.
Mtodos estadsticos 31

3.10 USO DEL RANGO Y LA DESVIACIN ESTNDAR EN EL


CONTROL ESTADSTICO DE PROCESOS

Tal como se coment en la seccin 2.9, la media muestral se utiliza en el control


de procesos para la obtencin de promedios mediante la elaboracin de grficas
Y. Pero adems del control de promedios de procesos, interesa al menos en igual
medida el control de la variabilidad de los procesos. Para vigilar y controlar la
variabilidad se determinan ya sea los rangos o las desviaciones estndar de los
subgrupos racionales que constituyen las muestras secuenciales. En ambos
casos, los valores se manejan en forma idntica a la grfica de corridas de la
secuencia de pesos medios muestrales de la figura 1-11. La grfica de rangos
muestrales se llama grfica R, mientras que la grfica de desviaciones estndar
muestrales se llama grfica s.

EJEMPLO La grfica de corridas de la figura 1-11 se refiere a la vigilancia del


peso medio de los paquetes de papas fritas. Supongamos que los valores de los
rangos de las 15 muestras de n = 4 paquetes de papas fritas son: 0.36, 0.11, 0.20,
0.13, 0.10, 0.15, 0.20, 0.24, 0.31, 0.14, 0.33, 0.13, 0. 11, 0. 15 y 0.27 onzas. Esto
es, en la primera muestra de cuatro paquetes hubo una diferencia de 0.36 oz entre
los pesos de los dos paquetes con el peso ms alto y ms bajo, y as
sucesivamente en el caso de las otras 14 muestras. La figura 3-3 es la grfica de
corridas de estos rangos. La consideracin acerca de si cualquiera de las
desviaciones de los rangos muestrales respecto del promedio medio global de la
totalidad de los rangos puede representar o no una desviacin significativa.

Grafica 3-3 Grfica de corridas


Mtodos estadsticos 32

Desde el punto de vista del uso de la medida de variabilidad ms estable, es


preferible la grfica s, orientada a los mnimos cuadrados. Tradicionalmente, el
rango se ha usado con mayor frecuencia para vigilar la variabilidad de procesos a
causa de que puede determinrsele fcilmente con unos cuantos clculos. No
obstante, la disponibilidad de dispositivos de ponderacin ms sofisficados,
programados para calcular tanto la media muestral como la desviacin estndar,
ha resultado en un uso creciente de grficas s.

3.11 COEFICIENTE DE VARIACIN

El coeficiente de variacin (CV) indica la magnitud relativa de la desviacin


estndar en comparacin con la rnedia de la distribucin de las medidas,
expresada como porcentaje. As, las frmulas son

Poblacin:

Muestra:

El coeficiente de variacin es til cuando se desea comparar la variabilidad de dos


conjuntos de datos en relacin con el nivel general de los valores (y por lo tanto
con la media) de cada conjunto.

EJEMPLO En dos emisiones de acciones ordinarias de la industria electrnica, el


precio medio de mercado al cierre durante un periodo de un mes fue de $150 con
una desviacin estndar de $5 en el caso de las acciones A. En el de las acciones
3. el precio medio fue de $50 con una desviacin estndar de $3. Con base en
una comparacin absoluta, la variabilidad del precio de las acciones A fue mayor, a
causa de una mayor desviacin estndar. Pero en cuanto al nivel de los precios,
deben compararse los respectivos coeficientes de variacin:

En consecuencia, en relacin con el nivel promedio de precios de cada emisin


accionaria podemos concluir que las acciones B fueron casi dos veces ms
variables en su precio que las acciones A.
Mtodos estadsticos 33

3.12 COEFICIENTE DE ASIMETRA DE PEARSON

El coeficiente de asimetra de Pearson mide la desviacin respecto de la simetra


expresando la diferencia entre la media y la mediana en relacin con la desviacin
estndar del grupo de medidas. Las frmulas son:

En una distribucin simtrica, el valor del coeficiente de asimetra ser siempre de


cero, porque la media y la mediana son iguales entre s en valor En una
distribucin asimtrica positiva, la media siempre es mayor que la mediana; en
consecuencia, el valor del coeficiente es positivo. En una distribucin asimtrica
negativa, la media siempre es menor que la mediana; por lo tanto, el valor del
coeficiente es negativo.

EJEMPLO En relacin con los datos de ventas de equipos de aire acondicionado


presentados en el ejemplo anterior, la media es 10.5 unidades, la mediana 11.0
unidades (con base en las secciones 2.2 y 2.4) y la desviacin estndar 3.3
unidades. El coeficiente de asimetra es

As, la distribucin de cantidades de ventas es en cierto modo asimtrica negativa,


o sesgada a la izquierda.
Mtodos estadsticos 34

4 POBLACIONES Y MUESTRAS

Antes de estudiar descripciones estadsticas particulares, permtanos hacer la


siguiente diferencia:

Si un conjunto de datos consta de todas las observaciones


concebibles (o hipotticamente) posibles de un fenmeno
determinado, lo llamamos una poblacin; si un conjunto de datos
consiste slo en una parte de estas observaciones, se le conoce
como una muestra.

Aqu, agregamos la frase "hipotticamente posibles" para tomar las precauciones


necesarias en cuanto a dichas situaciones evidentemente hipotticas como
cuando observamos los resultados (caras o cruces) de 12 lanzamientos de una
moneda al aire como una muestra del nmero potencialmente infinito de
lanzamientos de una moneda al aire, cuando observamos los pesos de todos los
carneros (del pasado, el presente y el futuro) de 30 das de edad criados en un
rancho determinado o cuando observamos cuatro determinaciones del contenido
de uranio de un mineral como una muestra de las muchas determinaciones que de
modo concebible se podran hacer. De hecho, observamos los resultados de un
experimento como una muestra de lo que podramos obtener si repitiramos el
experimento una y otra vez.

Originalmente, la estadstica manejaba la descripcin de poblaciones humanas,


contabilidades de censo y actividades similares (vase pgina 5), pero conforme
su alcance se tom ms amplio, el trmino "poblacin" cobr la ms vasta
connotacin de sus orgenes. Ya sea que parezca extrao o no referirse como
poblaciones a las alturas de todos los rboles de un bosque o las velocidades de
todos los automviles que pasan por un punto de revisin, esto es ajeno al punto
en cuestin; en estadstica, "poblacin" es un trmino tcnico que cuenta con un
significado propio.

A pesar de que somos libres de designar cualquier grupo de artculos como una
poblacin, lo que se hace en la prctica depende del contexto en el que se deben
considerar los artculos. Por ejemplo, suponga que se nos ofrece un lote de 400
losetas cermicas, que podemos comprar o no dependiendo de su dureza. Si
medimos el esfuerzo de ruptura de 20 de estas losetas para estimar la fuerza de
ruptura promedio de todas las piezas, estas 20 medidas son una muestra de la
poblacin que consiste del esfuerzo de ruptura de las 400 losetas. Sin embargo,
en otro contexto, si consideramos la celebracin de un contrato a largo plazo para
la entrega de decenas de miles de dichas losetas, observaramos los esfuerzos de
ruptura de las 400 piezas originales slo como muestra. De modo similar,
podemos observar como una poblacin o una muestra las cifras completas de un
ao reciente, considerando los intervalos entre las solicitudes y los mandatos de
las demandas de divorcio del Condado de San Diego. Si slo nos interesaran el
Mtodos estadsticos 35

Condado de San Diego y ese ao particular, observaramos los datos como una
poblacin; por otro lado, observaramos. los datos como una muestra si
deseramos generalizar el tiempo que se requiere para el mandato de divorcio en
todo Estados Unidos, en algn otro condado o en algn otro ao.

Como la hemos aplicado aqu, la palabra "muestra" tiene en gran medida el mismo
significado que en el lenguaje coloquial. Un peridico considera que las actitudes
de 150 lectores hacia una fianza escolar propuesta son una muestra de las
actitudes de todos sus lectores hacia la fianza. Un consumidor considera un
paquete de dulces Mrs. See como una muestra del producto de la empresa. Ms
tarde, debemos usar la palabra "muestra" slo para referirnos a datos que pueden
servir razonablemente como la base para generalizar acerca de las poblaciones
de su origen; en este sentido ms tcnico, muchos conjuntos de datos que por lo
regular se conocen como muestras no lo son en absoluto.

En este captulo y el captulo siguiente, debemos describir las cosas


estadsticamente sin hacer ninguna generalizacin. No obstante, para referencia
futura, an aqu es importante distinguir entre poblaciones y muestras. As,
debemos utilizar distintos smbolos dependiendo de lo que se describa,
poblaciones o muestras.
Mtodos estadsticos 36

5 MUESTREO ALEATORIO

En la seccin 2.1 diferenciamos entre poblaciones y muestras, sealando que una


poblacin consiste en todas las observaciones concebible (o hipotticamente)
posibles de un fenmeno determinado, mientras que una muestra es slo una
parte de una poblacin. En seguida, tambin diferenciaremos entre dos clases de
poblaciones: las poblaciones finitas y las poblaciones infinitas.

Una poblacin es finita si consta de un nmero finito o fijo de elementos, medidas


u observaciones. Como ejemplos de poblaciones finitas podemos mencionar los
pesos netos de 3,000 latas de pintura de cierta produccin, las calificaciones SAT
de todos los estudiantes de primer ao admitidos en una preparatoria determinada
en el otoo de 1991 y las temperaturas diarias registradas en una estacin
meteorolgica durante los aos de 1987 a 1991.

A diferencia de las poblaciones finitas, una poblacin infinita, al menos


hipotticamente, contiene una infinidad de elementos. Este es el caso, por
ejemplo, cuando observamos un valor de una variable aleatoria continua y hay una
infinidad de resultados distintos. Tambin es el caso cuando observamos los
totales obtenidos en lanzamientos repetidos de un par de dados, cuando medimos
en repetidas ocasiones el punto de ebullicin de un compuesto de silicio y cuando
tomamos una muestra con reemplazo de una poblacin finita. No hay lmite para
los nmeros de veces que podemos lanzar un par de dados, para el nmero de
veces que podemos medir el punto de ebullicin del

compuesto de silicio, ni para el nmero de veces que podemos tomar una muestra
de una poblacin finita y reemplazarla antes de tomar la siguiente.

Para presentar la idea del muestreo aleatorio de una poblacin finita, primero
veamos cuntas muestras diferentes de tamao n podemos tomar de una
poblacin finita de tamao N. Refirindonos a la regla para el nmero de
combinaciones de n objetos tomando r a la vez, encontramos que, con un cambio
de las letras,

La respuesta es
Mtodos estadsticos 37

EJEMPLO Cuntas muestras distintas de n podemos tomar de una poblacin


finita de tamao N, cuando

Con base en el resultado de que hay muestras distintas de tamao n de una


poblacin finita de tamao N, presentaremos la siguiente definicin de una
muestra aleatoria (en ocasiones conocida tambin como muestra aleatoria simple)
de una Poblacin finita:

Una muestra de tamao n de una poblacin finita de tamao N es


una variable aleatoria si se selecciona de manera tal que cada una

de las muestras posibles tiene la misma probabilidad, , de


ser seleccionada.

Por ejemplo, si una poblacin consiste en los N = 5 elementos a, b, c, d y e (que


podran ser los ingresos anuales de cinco personas, los pesos de cinco vacas o

los precios de cinco artculos), hay muestras posibles de tamao n = 3.


Estas constan de los elementos abc, abd, abe, acd, ace, ade, bcd, bce, bde y cde.
Si seleccionamos una de estas muestras de tal forma que cada muestra tenga una
probabilidad de 1/10 de ser seleccionada, decimos que sta es una muestra
aleatoria.

A continuacin sigue la pregunta de cmo se toman las muestras aleatorias en a


prctica real en una situacin simple como la que acabamos de describir,
podramos escribir cada una de las diez muestras aleatorias en una tira de papel,
ponerlas en un sombrero, revolverlas bien y luego retirar una sin ver. Empero, es
obvio que esto sera poco prctico en una situacin real complicada en la que n y
N o slo N son grandes. Por ejemplo, para n = 4 y N = 200 tendramos que

clasificar = 64,684,950 tiras de papel y retirar una de stas.


Mtodos estadsticos 38

Por fortuna, podemos tomar una muestra aleatoria de una poblacin finita sin
hacer una lista de todas las muestras posibles, que hemos mencionado aqu slo
para enfatizar el punto de que la seleccin de una muestra aleatoria debe
depender por completo del azar. En vez de hacer una lista de todas las muestras
posibles, podemos escribir cada uno de los N elementos de la poblacin finita en
una tira de papel y retirar n de stas a la vez sin reemplazo, asegurndonos de
que cada vez que retiremos otro papel todos los elementos restantes de la
poblacin tengan la misma posibilidad de ser seleccionados.

tambin lleva a la misma probabilidad, , para cada muestra posible.

Podemos simplificar an ms este procedimiento relativamente fcil seleccionando


nmeros aleatorios en vez de retirar tiras de papel o bien, podemos dejar que una
computadora haga todo el trabajo. Las tablas editadas de nmeros aleatorios
(como la que se condens en la tabla XI, de este libro) consisten en pginas en las
que se disponen los dgitos 0, 1, 2,..., y 9 en forma parecida a si se generaran por
medio de unjuego de probabilidad o azar que da a cada dgito la misma
probabilidad, 1/10, de aparecer en cualquier lugar determinado de la tabla.

EJEMPLO Tome una muestra aleatoria de tamao n = 12 de la poblacin


consistente en las cantidades de impuestos sobre las ventas cobradas por 247
farmacias de una ciudad en diciembre de 1990 numerando las farmacias como
001, 002, 003,..., y 247 (digamos, en el orden en que aparecen en el directorio
telefnico) y leyendo nmeros aleatorios de tres dgitos de la segunda pgina de la
tabla XI, usando la vigesmasexta, la vigesimosptima y la vigesimaoctava
columnas empezando en el sexto rengln y continuando pgina abajo.

Solucin Siguiendo estas instrucciones, obtenemos

046 230 079 022 119 150 056 064 193 232 040 146

donde ignoramos los nmeros mayores que 247; si cualquier nmero se hubiera
repetido, tambin lo habramos ignorado. Los doce nmeros que tenemos aqu
son los nmeros asignados a las farmacias; las cifras de impuestos sobre las
ventas correspondientes constituyen la muestra aleatoria deseada.

El procedimiento que usamos en este ejemplo fue bastante sencillo, pero lo habra
sido ms si hubiramos tenido el software que deja la mayor parte del trabajo a
una computadora. Por ejemplo, la impresin de la figura 5.1 presenta una muestra
aleatoria generada por computadora de tamao n = 12 de la poblacin finita que
consta de los nmeros 1, 2, 3,..., 246 y 247. Los valores de la muestra son 197,
147, 82, 171, 60, 39, 51, 129, 71, 45, 86 y 224.
Mtodos estadsticos 39

FIGURA 5.1 Muestra aleatoria generada por computadora.

Cuando tenemos acceso a listas de manera que podemos numerar artculos


fcilmente, es sencillo tomar muestras aleatorias con la ayuda de tablas de
nmeros aleatorios o computadoras. Por desgracia, no obstante, hay muchas
situaciones en que es imposible proceder del modo en que acabamos de describir.
Por ejemplo, si queremos utilizar una muestra para estimar el dimetro exterior
medio de miles de balas para todamientos empacadas en un lote grande o si
deseamos estimar la altura media de los rboles de un bosque, sera imposible
numerar las balas o los rboles, seleccionar nmeros aleatorios y luego localizar y
medir las balas o rboles correspondientes. En stas y en muchas situaciones
similares, todo lo que podemos hacer es proceder de acuerdo con la definicin del
diccionario de la palabra "aleatorio", especficamente, "al azar, sin objetivo o
propsito". Esto es, no debemos seleccionar o rechazar ningn elemento de una
poblacin porque parezca tpico o no, tampoco debemos favorecer o ignorar
ninguna parte de la poblacin por su disponibilidad o falta de la misma y as
sucesivamente. Con cierta reserva, a menudo podemos tratar algunas de dichas
muestras, de hecho, como si fueran muestras aleatorias.

Hasta ahora hemos analizado el muestreo aleatorio slo en relacin con las
poblaciones finitas. Para las poblaciones infinitas, decimos que

Una muestra de tamao n de una poblacin infinita es aleatoria si


consta de valores de variables aleatorias independientes que tienen
la misma distribucin.

Como lo sealamos en relacin con las distribuciones binomiales y normales, sta


es la 41 misma" distribucin a la que nos referimos como la poblacin de la que
efectuamos un muestreo. As mismo, por "independiente" queremos decir que las
probabilidades relacionadas con cualquiera de las variables aleatorias son las
mismas sin que tengan importancia los valores que se hayan observado para las
otras variables aleatorias.

Por ejemplo, si en doce lanzamientos de un dado obtenemos 2, 5, 1, 3, 6, 4, 4, 5,


2, 4, 1 y 2, estos nmeros constituyen una muestra aleatoria si son valores de
Mtodos estadsticos 40

variables aleatorias independientes que tienen la misma distribucin de la


probabilidad

Para dar otro ejemplo de una muestra aleatoria de una poblacin infinita, suponga
que ocho estudiantes obtuvieron las siguientes lecturas del punto de ebullicin de
un compuesto de silicio: 136, 153, 170, 148, 157, 152, 143 y 150 grados Celsius.
De acuerdo con la definicin, estos valores constituyen una muestra aleatoria si
son valores de variables aleatorias independientes que tienen la misma
distribucin, digamos, la distribucin normal con m = 152 y o = 10. Para juzgar si
en realidad ste es el caso, tendramos que cerciorarnos, entre otras cosas, de
que las tcnicas de medida de los ocho estudiantes sean igualmente precisas (de
modo que sea la misma para cada una de las variables aleatorias), que no haya
colaboracin (que pueda hacer que las variables aleatorias sean dependientes) y
que no haya impurezas en las materias primas. En la prctica, no es fcil decidir si
un conjunto de datos se puede considerar como una muestra aleatoria.
Mtodos estadsticos 41

PROBABILIDAD

Introduccin.
En el estudio de la probabilidad hay tres tipos fundamentales de preguntas:

1. Qu significa que la probabilidad de un evento sea, digamos,


0.50, 0.78 o 0.40

2. Cmo se determinan o miden en la prctica los nmeros que


llamamos probabilidades?

3. Cules son las reglas matemticas que las probabilidades deben


observar?

En su mayor parte, ya hemos estudiado los dos primeros tipos de preguntas en el


captulo 5. En relacin con el concepto clsico de probabilidad, nos interesan las
posibilidades igualmente probables, el conteo de las posibilidades favorables y el
uso de la frmula s/n. En cuanto a la interpretacin de la frecuencia, nos
interesamos en las proporciones de "xitos" a la larga y en basar nuestras
estimaciones en lo que ha sucedido en el pasado. Por lo que respecta a las
probabilidades subjetivas, nos interesamos en una medida de la creencia de una
persona. Estudiaremos la manera en que se pueden determinar realmente tales
probabilidades subjetivas.

En este captulo, despus de algunas preliminares de la seccin siguiente, nos


concentraremos en las reglas que las probabilidades deben observar,
especficamente, en la teora de la probabilidad. Se incluyen los postulados
bsicos, la relacin entre las probabilidades y las posibilidades, las reglas de la
adicin, la definicin de la probabilidad condicional, las reglas de la multiplicacin
y, por ltimo, el teorema de Bayes.

6 ESPACIOS MUESTRALES Y EVENTOS

En estadstica, la palabra "experimento" se usa en un sentido muy amplio e


informal. Como consecuencia de la falta de un trmino ms adecuado,
"experimento" se refiere a cualquier proceso de observacin o medida. As, un
experimento puede consistir en contar el nmero de ausencias de un estudiante;
puede consistir en un simple proceso de observar si un foco enciende o no, o si
una persona es soltera o casada; o puede consistir en un proceso muy complicado
de obtencin y evaluacin de datos para pronosticar tendencias econmicas,
identificar la fuente de intranquilidad social o estudiar la causa de una enfermedad.
Mtodos estadsticos 42

Los resultados que se obtienen de un experimento, sea que se trate de lecturas de


un instrumento, conteos, respuestas de "s o no" o valores obtenidos por medio de
clculos extensos, se conocen como los resultados de un experimento.

Para cada experimento el conjunto de todos los resultados posibles se llama el


espacio muestral y por lo regular se expresa como S. Por ejemplo, si un zologo
debe seleccionar tres de 24 conejillos de Indias para un experimento, el espacio
muestral consiste en (243) = 2,024 maneras en que se puede hacer la seleccin, si
el decano de una universidad debe asignar a dos de 84 miembros de la facultad
como consejeros del club de ciencias polticas, el espacio muestral consiste en
(842) = 3,486 maneras en que se puede efectuar esto. As mismo, si nos
interesamos en el nmero de das que llueve en Chicago durante el mes de enero,
el espacio muestral es el conjunto

S = { 0, 1, 2, 3, 4, ... , 30, 31 }

Cuando estudiamos los resultados de un experimento, por lo regular identificamos


las diversas posibilidades con nmeros, puntos o algunas otras clases de
smbolos, de modo que podemos manejar matemticamente todas las preguntas
pertinentes sin la necesidad de descripciones verbales de lo que ha acontecido,
que est aconteciendo o que acontecer. Por ejemplo, si hay ocho candidatos
para una beca y determinamos que a, b, c, d, e, f, g y h demuestran que sta se
otorga a la seora Adam, el seor Bean, la seorita Clark y as sucesivamente,
entonces el espacio muestral para este experimento es

S = { a, b, c, d, e, f, g, h }

El uso de puntos en lugar de letras o nmeros presenta la ventaja de que facilita


visualizar las distintas posibilidades y quiz descubrir caractersticas especiales
que varios de los resultados pueden tener en comn.

EJEMPLO Un vendedor de autos usados tiene dos Camaros Chevrolet 1984 en


su lote y nos interesamos en saber cuntos de estos automviles vendern dos
vendedores en una semana determinada.

(a) Usando dos coordenadas de modo que, por ejemplo, (0, 1)


represente el resultado de que el primer vendedor no vender
ninguno de los Camaros y que el segundo vendedor vender uno, (1,
1) represente el resultado de que cada uno de los vendedores
vender uno de los Camaros y (2, 0) represente el resultado de que
el primer vendedor vender los dos automviles, elabore una lista de
todos los resultados posibles de este experimento.

(b) Trace una figura que demuestre los puntos correspondientes del
espacio muestral.
Mtodos estadsticos 43

Solucin

(a) Los seis resultados posibles son (0,0), (1,0), (0,1), (2, 0), (1, 1) y
(0, 2).

(b) Los puntos correspondientes aparecen en la figura 6. 1, a partir


de la cual se puede apreciar, por ejemplo, que en dos de las seis
posibilidades venden la misma cantidad de Camaros 1984 y que
venden ambos automviles en tres de las seis posibilidades.

Generalmente, clasificamos los espacios muestrales de acuerdo con el nmero de


elementos o puntos que contienen. Los espacios muestrales que hasta ahora
hemos mencionado en esta seccin contenan 2,024, 3,486, 32, 8 y 6 elementos y
nos referimos a todos estos como finitos. En este captulo consideraremos slo
espacios muestrales que son finitos, pero en captulos posteriores consideraremos
tambin espacios muestrales infinitos. Un espacio muestra] infinito tiene lugar, por
ejemplo, cuando lanzamos un dardo hacia un tablero y hay un continuo de puntos
en que puede caer.

En estadstica, cualquier subconjunto de un espacio muestral se conoce como un


evento. Por subconjunto nos referimos a cualquier parte de un conjunto incluyendo
el conjunto como un todo y el conjunto vaco, que se expresa con - la notacin 0,
el cual no tiene elementos en absoluto. Por ejemplo, en el caso del nmero de
das que llueve en Chicago durante el mes de enero,

F = { 18, 19, 20, 21, 22, 23, 24 }


Mtodos estadsticos 44

FIGURA 6.1 Espacio muestral del ejemplo de los dos vendedores.

es el evento de que habr de 18 a 24 das lluviosos y

G = { 20, 21, 22---.., 30, 31 }

es el evento de que como mnimo habr 20 das lluviosos. Como se acostumbra,


asignamos letras maysculas a estos eventos.

EJEMPLO En relacin con la figura 6. 1, exprese con palabras los eventos


representados por

(a) C {(0, 0), (1, 1)};

(b) D {(l, 0), (1, l)};

(e) E = {(0, 2)}.

Solucin

(a) C es el evento de que los dos vendedores vendern la misma cantidad


de Camaros Chevrolet 1984.

(b) D es el evento de que el primer vendedor vender uno y slo uno de los
dos automviles.

(c) E es el evento de que el segundo vendedor vender ambos


automviles.

En este ejemplo, los eventos C y E no tienen elementos en comn. Dichos


eventos se conocen como mutuamente excluyentes, implicando que no pueden
ocurrir al mismo tiempo. Si los dos vendedores venden la misma cantidad de estos
automviles (evento C), entonces es imposible que el segundo vendedor venda
los dos (evento E).

Observe tambin que los eventos C y D no son mutuamente excluyentes porque


ambos contienen el resultado (1, l), en el cual cada uno de los vendedores vende
uno de los automviles.

En muchos problemas de probabilidad nos interesamos en eventos que se


pueden expresar en trminos de dos o ms eventos que forman uniones,
Intersecciones y complementos. En general, la unin de los eventos A y B,
expresada como A B es el evento que consiste en todos los elementos
(resultados) contenidos en A, en B o en ambos; la interseccin de los eventos A y
B expresada como A B es el evento que consiste en todos los elementos
contenidos tanto en A como en B; y el complemento de A, que se expresa como A'
Mtodos estadsticos 45

es el evento que consiste en todos los elementos del espacio muestral no


contenidos en A. Normalmente leemos como "o", como "y" y A' como "no A".
En ocasiones, encontramos smbolos como Ac o A- para referirse a "no A".
Nosotros usaremos la notacin A'.

EJEMPLO Refirindose al ejemplo sobr el nmero de das que llueve en


Chicago en. enero y los eventos F y G que se definen en la pgina 115, elabore
una lista de resultados que comprenda cada uno de los eventos siguientes y
tambin exprselos con palabras:

Solucin

(a) Dado que F G contiene todos los elementos de F, G o


ambos, encontramos que

y ste es el evento de que por lo menos habr 18 das lluviosos.

(b) Puesto que F G contiene todos los elementos tanto de F


como de G, encontramos que

y ste es el evento de que habr de 20 a 24 das lluviosos.

(c) Ya que G' contiene todos los elementos del espacio muestral
que no pertenecen a G, encontramos que

y ste es el evento de que a lo sumo habr 19 das lluviosos.

(d) Ya que F G' contiene todos los elementos del espacio


muestral que no pertenecen ni a F ni a G, encontramos que

y ste es el evento de que como mximo habr 17 das lluviosos.


Mtodos estadsticos 46

A menudo, los espacios muestrales y eventos, particularmente las relaciones entre


eventos, se ilustran por medio de diagramas de Venn tales como los de las figuras
6.2 y 6.3 de la pgina 11 S. En cada caso, el espacio muestral se representa con
un rectngulo y los eventos se ilustran con crculos o partes de crculos dentro del
rectngulo. Las zonas sombreadas de los cuatro diagramas de Venn de la figura
6.2 representan el evento X, el complemento del evento X, la unin de los eventos
X y Y y la interseccin de los eventos X y Y.

EJEMPLO Cules son los eventos que se representan mediante las zonas
sombreadas de los cuatro diagramas de Venn de la figura 6.2 si X es el evento de
que el seor Green es un ciudadano naturalizado y Y es el evento de que su
esposa es una ciudadana naturalizada?

Solucin

La zona sombreada del primer diagrama representa el evento de que el seor


Green es un ciudadano naturalizado; la zona sombreada del segundo diagrama
representa el evento de que el seor Green no es un ciudadano naturalizado; la
zona sombreada del tercer diagrama representa el evento de que el seor Green,
su esposa o ambos son ciudadanos naturalizados; y la zona sombreada del cuarto
diagrama representa el evento de que tanto el seor Green como su esposa son
ciudadanos naturalizados.

FIGURA 6.2 Diagrama de Venn.


Mtodos estadsticos 47

FIGURA 6.3 Diagrama de Venn.

Cuando trabajamos con tres eventos, trazamos crculos como en la figura 6.3. En
este diagrama, los crculos dividen el espacio muestra en ocho zonas numeradas
de 1 a 8 y es sencillo determinar si los eventos correspondientes pertenecen a X o
X', a Y o Y' y a Z o Z'

EJEMPLO Si X es el evento de que se servirn hamburguesas en el da de campo


de la compaa, Y es el evento de que se servir cerveza y Zes el evento de que
se servir sandia, exprese con palabras los eventos que se representan por medio
de las siguientes zonas del diagrama de Venn de la figura 6.3:

(a) zona 3;

(b) zonas 1 y 2;

(c) zonas 4, 6, 7 y 8.

Solucin

(a) Puesto que esta zona forma parte de Y y Z, pero no de X,


representa el evento de que en el da de campo se servir cerveza y
sanda, pero no se servirn hamburguesas.

(b) Ya que esta zona pertenece tanto a X como a Y, representa el


evento de que se servirn hamburguesas y cerveza.

(c) Dado que estas zonas constituyen toda el rea ajena a Y, el


evento es que no se servir cerveza.
Mtodos estadsticos 48

7 LOS POSTULADOS DE LA PROBABILIDAD

Las probabilidades siempre pertenecen al acontecimiento de eventos y ahora que


hemos aprendido cmo tratar matemticamente los eventos, enfoqumonos en
las reglas que las probabilidades deben obedecer. Para formular estas reglas,
continuaremos la prctica de representar los eventos con letras maysculas y
expresar la probabilidad del evento A como ^A), la probabilidad del evento B como
P(B) y as en forma consecutiva. Al igual que antes, expresaremos el conjunto de
todos los resultados posibles, el espacio muestral, con la letra S.

Las reglas ms fundamentales de la probabilidad son los tres postulados, los


cuales, como los presentaremos aqu, se aplican cuando el espacio de la muestra
S es finito. Empezando con los dos primeros, decimos que

Primeros dos postulados de la probabilidad

1. Las probabilidades son nmeros reales positivos o cero;


simblicamente, P(A) 0 para cualquier evento A.

2. Todo espacio muestral tiene la probabilidad 1;


simblicamente, P(S) = 1 para cualquier espacio muestral S.

Para justificar estos dos postulados, as como el tercero, que presentaremos a


continuacin, demostremos que concuerdan con el concepto clsico de
probabilidad al igual que con la interpretacin de la frecuencia. En la seccin 6.3,
estudiaremos el grado en el que los postulados tambin son compatibles con las
probabilidades subjetivas.

Los primeros dos postulados concuerdan con el concepto clsico de probabilidad


porque la fraccin sn siempre es positiva o cero y para el espacio muestral entero
(que comprende los n resultados) la probabilidad es sn = nn = 1. Cuando se trata
de la interpretacin de la frecuencia, la proporcin del tiempo en que un evento
ocurrir no puede ser un nmero negativo y uno de los resultados del espacio de
la muestra tiene que ocurrir el 100% del tiempo, esto es con la probabilidad 1.

Aunque una probabilidad de 1 se identifica por tanto con la certeza, en la prctica


real tambin asignamos una probabilidad de 1 a eventos de los que se est
"prcticamente seguro" de que ocurrirn. Por ejemplo, asignaramos una
probabilidad de 1 al evento de que como mnimo una persona votar en la
siguiente eleccin presidencial, aunque esto no es lgicamente imposible. De
modo similar, asignaramos una probabilidad de 1 al evento de que no todos los
estudiantes que ingresaron a la universidad en otoo de 1990 harn solicitud de
admisin en la Princeton University.
Mtodos estadsticos 49

El tercer postulado de la probabilidad es de especial importancia,


pero no es tan obvio como los otros dos.

Tercer postulado de la probabilidad

3. Si dos eventos son mutuamente excluyentes, la probabilidad


de que uno u otro ocurra equivale a la suma de sus
probabilidades. Simblicamente,

P(A B) = P(A) + P(B)

para dos eventos mutuamente excluyentes cualesquiera, A y B.

Por ejemplo, si la probabilidad de que las condiciones climatolgicas mejoren


durante una semana determinada es 0.62 y la probabilidad de que permanezcan
constantes es 0.23, entonces la probabilidad de que mejoren o permanezcan sin
cambios es 0.62 + 0.23 = 0.85. En forma similar, si las probabilidades de que un
estudiante obtenga una A o una B en un curso son 0. 13 y 0.29, entonces la
probabilidad de que obtenga una A o una B es 0. 13 + 0.29 = 0.42.

Para demostrar que el tercer postulado tambin es compatible con el concepto


clsico de la probabilidad, expresemos el nmero de posibilidades igualmente
probables que comprenden los eventos A y B como si y S2. Ya que A y B son
mutuamente excluyentes, ninguna de estas dos posibilidades son parecidas y
todos los si + S2 de stos comprenden el evento A B. As,

y P(A) + P(B) = P(A B).

Por lo que atae a la interpretacin de la frecuencia, si un evento acontece,


digamos, 36% de las veces, otro evento ocurre 41 % del tiempo, y los dos no
pueden ocurrir al mismo tiempo (es decir, son mutuamente excluyentes), entonces
uno u otro ocurrir 36 + 41 = 77% del tiempo. Esto concuerda con el tercer
postulado.

Usando los tres postulados de la probabilidad, podemos derivar muchas reglas


adicionales de acuerdo con las probabilidades que deben "observar"; es fcil
probar algunas de estas reglas pero no otras, no obstante, todas tienen
aplicaciones importantes. Entre las consecuencias inmediatas de los tres
postulados encontramos que las probabilidades nunca pueden ser mayores que 1,
que un evento que no puede ocurrir tiene una probabilidad 0 y que las
Mtodos estadsticos 50

probabilidades de que un evento acontezca y de que no lo haga siempre suman


hasta 1. Simblicamente,

Reglas adicionales de la probabilidad

P(A) 1 para cualquier evento A


P( ) = 0
P(A) = 1 para cualquier evento A

El primero de estos resultados simplemente expresa el hecho de que no puede


haber ms resultados favorables de los resultados que hay o que un evento no
puede ocurrir ms del 100% de las veces. El segundo resultado expresa el hecho
de que cuando un evento no puede acontecer hay s = 0 resultados favorables o
que tal evento ocurre 0% del tiempo. En la prctica real, tambin asignamos una
probabilidad 0 a eventos que son tan improbables que estamos "prcticamente
seguros" de que no sucedern. Por ejemplo, al lanzar una moneda al aire
asignamos una probabilidad de 0 al evento de que la moneda caiga sobre el
canto.

El tercer resultado tambin se puede derivar de los postulados de la probabilidad y


es fcil apreciar que es compatible con el concepto clsico de probabilidad y la
interpretacin de la frecuencia. Si en el concepto clsico hay s "xitos" y n - s

"fracasos", las probabilidades correspondientes son , y su suma es

De acuerdo con la interpretacin de la frecuencia, podemos decir que si algunas


inversiones determinadas tienen xito 22% de las veces, entonces no tienen xito
78% del tiempo, las probabilidades correspondientes son 0.22 y 0.78 y su suma es
1.

Los siguientes ejemplos demuestran la manera en que se disponen en la prctica


real los postulados y las reglas que hemos presentado.

EJEMPLO Si A es el evento de que un estudiante permanecer en su casa para


estudiar y B es el evento de que en su lugar ir al cine, P(A) = 0.64 y P(B) = 0.21,
encuentre

(a) P(A'); (b) P(A u B); (e) P(A n B).


Mtodos estadsticos 51

Solucin

(a) Usando la regla final, encontramos que la probabilidad de A', el


evento de que el estudiante no permanecer en su casa para
estudiar, es 1- P(A) = 1 - 0.64 = 0.36.

(b) Ya que A y B son mutuamente excluyentes, podemos usar el


tercer postulado y expresar que P(A B) = P(A) + P(B) = 0.64 + 0.21
= 0.85 para la probabilidad de que el estudiante se quede en casa o
vaya al cine.

(c) Puesto que A y B son mutuamente excluyentes, no es posible que


ambos ocurran y, por tanto, P(A B) = P() = 0.

En problemas como ste, a menudo es til trazar un diagrama de Venn, completar


las probabilidades asociadas con las diversas zonas y luego contestar las
respuestas directamente a partir del diagrama.

EJEMPLO Si C es el evento de que a las 9:30 A.M. cierto doctor est en su


consultorio y D es el evento de que est en el hospital, P(C) = 0.48 y P(D) = 0.27,
encuentre, P(C' D' ) , que es la probabilidad de que no est ni en su contenido ni
en el hospital.

Solucin

Elaborando un diagrama de Venn corno el de la figura 6.7, primero


damos una probabilidad de 0 a la zona 1 porque los eventos C y D
son mutuamente excluyentes. De ah que la probabilidad 0.48 del
evento C debe pertenecer a la zona 2, la probabilidad 0.27 del
evento D tiene que formar parte de la zona 3 y dado que la
probabilidad del espacio muestra entero debe sumar 1, damos una
probabilidad 1 - (0.48 + 0.27) = 0.25 a la zona 4. Ya que el evento C'
D' se representa como la zona ajena a ambos crculos,
especficamente, la zona 4, encontramos que la respuesta es P(C'
D) = 0.25.
Mtodos estadsticos 52

FIGURA 6.7 Diagrama de Venn.

8 PROBABILIDADES Y POSIBILIDADES

Si un evento tiene el doble de posibilidades de ocurrir que de no ocurrir, decimos


que las posibilidades de que ocurra son de 2 a 1; si las posibilidades de que
acontezca son del triple de que no acontezca, decimos que las posibilidades son
de 3 a 1; si un evento tiene diez veces ms de posibilidades de suceder que de no
suceder, decimos que las posibilidades son de 10 a 1; y as en forma consecutiva.
En general:

Las posibilidades de que un evento ocurra se determinan


mediante la razn de la probabilidad de qu ocurra a la
probabilidad de que no ocurra.

Simblicamente, si la probabilidad de un evento es p, las posibilidades de que


ocurra son a a b, donde a y b son valores positivos tales que

Se acostumbra expresar las posibilidades en trminos de enteros positivos que no


tienen factores en comn.

EJEMPLO Cules son las posibilidades de que un evento ocurra si su


probabilidad es de

(a) 5/9 ;
(b) 0.85?

solucin

(a) Por definicin, las posibilidades son 5/9 a 1- 5/9 = 4/9, o 5 a 4.

(b) Por definicin, las posibilidades son 0.85 a 1 - 0.85 = 0. 15, 85 a


15 o mejor, 17 a3.

Si un evento tiene ms posibilidades de ocurrir que de no ocurrir, se suelen citar


las posibilidades de que no acontezca ms que las posibilidades de que
acontezca.

EJEMPLO Cules son las posibilidades, si la probabilidad de un evento es 0.20?

Solucin
Mtodos estadsticos 53

Las posibilidades de que este evento ocurra son de 0.20 a 1 - 0.20 =


0.80 o 1 a 4, pero en su lugar, convencionalmente se dice que las
posibilidades en contra del acontecimiento del evento son de 4 a 1.

En el medio de las apuestas, la palabra "posibilidades" tambin se


usa para referir se a la razn de la apuesta de una parte a la apuesta
de la otra. Por ejemplo, si un apostador dice que dar posibilidades
de 3 a 1 al acontecimiento de un evento, significa que est dispuesto
a apostar $3 contra $1 (o tal vez $30 contra $10 o $1,500 contra
$500) a que el evento ocurrir. Si tales posibilidades de apuesta en
realidad equivalen a las posibilidades de que el evento ocurra,
decimos que las posibilidades de apuesta son justas. Si un
apostador realmente piensa que una apuesta es justa, entonces, por
lo menos en principio, est dispuesto a apostar a cualquier
posibilidad. El apostador que est en esta situacin tambin estara
dispuesto a apostar $1 contra $3 (o $10 contra $30 o $500 contra
$1,500) a que el evento no ocurrir.

EJEMPLO Los registros demuestran que 1/12 de los camiones que se pesan en
cierto punto de revisin en Nevada transportan una carga excesiva. Son justas
estas posibilidades de apuesta si alguien ofrece apostar $40 contra $4 a que el
siguiente camin que se pese en este punto de revisin no tendr una carga
excesiva?

Solucin

Ya que la probabilidad de que el camin no transporte una carga


excesiva es de 1 1/12 = 11/12 las posibilidades son de 11 a 1 y la
apuesta sera justa si la persona ofreciera apostar $44 contra $4 a
que el siguiente camin que se pese en el punto de revisin no
tendr una carga excesiva. Por tanto, la apuesta de $40 contra $4
no es justa; favorece a la persona que ofrece la apuesta.

En la mayora de las situaciones de apuesta ajenas a los casinos, se desconocen


las posibilidades reales de que un evento acontezca y las opiniones sern
diferentes. Suponga, por ejemplo, que est por celebrarse un partido de ftbol
entre los Wildcats y los Magpies. Suponga tambin que Al piensa que las
posibilidades de que los Wildcats ganen son de 2 a 3 y que Bob cree que las
posibilidades de que este equipo gane son de 1 a 1.

Obsrvese que Al pretende apostar $20 a los Wildcats para ganar


$30. Tambin est dispuesto a apostar $30 a los Magpies para ganar
$20.
Mtodos estadsticos 54

Dado que Bob piensa que eljuego esjusto, est dispuesto a apostar
$25 a cualquier equipo para ganar $25.

Si Al y Bob en realidad analizan juntos el juego, quiz hagan una apuesta del
orden de $27 a $23. En este ejemplo, Al apostar $27 a los Magpies y Bob
apostar $23 a los Wildcats. Ambos piensan que es una buena apuesta. (Los
importes verdaderos en dlares dependen de la habilidad de negociacin. Los
importes de la apuesta bien podran ser de $29 a $2 l.)

Este estudio de las posibilidades y las posibilidades de apuesta representa los


fundamentos de una manera en que se pueden medir las probabilidades
subjetivas. Si un empresario "cree" que las posibilidades de xito de una nueva
tienda de ropa son de 3 a 2, significa que est dispuesto a apostar (o considera
que esjusto apostar) $300 contra $200 o tal vez $3,000 contra $2,000 a que la
nueva tienda tendr xito. De esta manera, est expresando su opinin
relacionada con la incertidumbre asociada con el xito de la tienda y para

convertirla en una probabilidad tomamos la ecuacin y despejamos p.


Presentando los detalles en el ejercicio 6.57, sealemos simplemente el resultado
de que

Frmula que relaciona las probabilidades con las posibilidades

Si las posibilidades de que un evento. lo ocurra son de a a b, la


probabilidad de que acontezca es

EJEMPLO Convierta las posibilidades de xito de 3 a 2 de la nueva tienda de


ropa del empresario en una probabilidad.

Solucin

Sustituyendo a = 3 y b = 2 en la frmula de p, obtenemos

EJEMPLO Si una solicitante de un puesto gerencial piensa que las posibilidades


de que obtenga el trabajo son de 7 a 4, qu probabilidad est asignando a la
obtencin del trabajo?
Mtodos estadsticos 55

Solucin

Sustituyendo a = 7 y b = 4 en la frmula de p, obtenemos

o aproximadamente 0.64.

Ahora veamos si las probabilidades subjetivas, determinadas de esta manera, se


comportan de acuerdo con los postulados de la probabilidad de las pginas 122 y
123. Por lo que respecta al primer postulado, es fcil apreciar esto. Ya que a y b

son cantidades positivas, ciertamente es mayor o igual que cero. En el caso


del segundo a + b postulado, observe que cuanto ms seguros estamos de que el
evento ocurra, .,mejores" son las posibilidades que debemos dar; digamos, de 100
a 1, 1,000 a 1 o inclusive un milln a 1. Las probabilidades correspondientes son

y se puede apreciar que cuanto mayor es nuestra seguridad de que un evento


ocurra su probabilidad se aproximar ms a 1.

De este modo, tenemos el tercer postulado solo, -P(A B) = P(A) + P(B), para dos
eventos mutuamente excluyentes A y B cualesquiera que sean; y esta regla no se
satisface necesariamente cuando se aplica a las probabilidades subjetivas. De
hecho, los

proponentes del punto de vista subjetivo lo plantean como un criterio de la


consistencia y esto representa un medio para "supervisar" las probabilidades
subjetivas de una persona.

EJEMPLO Un economista piensa que las posibilidades de que el precio de la


carne de res suba durante el mes siguiente son de 2 a 1, las posibilidades de que
permanezca sin cambio son de 1 a 5 y las posibilidades de que suba o
permanezca sin cambio son de 8 a 3. Son consistentes las probabilidades
correspondientes?
Mtodos estadsticos 56

Solucin

Las probabilidades correspondientes de que la carne de res suba durante el mes


siguiente, de que permanezca sin cambio y de que suba o permanezca sin cambio

son , respectivamente y , puesto que y no

, las probabilidades no son consistentes. De ah que se deba cuestionar el


criterio del economista.

You might also like