Professional Documents
Culture Documents
48
Se puede comenzar a organizar la informacin escribiendo los datos distintos de que consta la
muestra y haciendo un conteo para determinar el nmero de veces que aparece cada dato; valor
ste que se denominar frecuencia absoluta. El cuadro 2.1 muestra la situacin del ejemplo.
Como puede observarse, la suma de las frecuencias absolutas de todos los datos, debe
coincidir con el nmero total de datos (tamao de la muestra).
No obstante que la muestra consta de 25 datos, slo hay 8 datos distintos: 4, 5, 6, 7,
8, 9, 10, 11 que es posible representarlos, sin prdida de generalidad, como x1, x2,...,
xm. En nuestro caso n = 25 y m = 8, de esta manera la frecuencia absoluta del dato xi ,
se denotar por ni, as por ejemplo el dato x3 = 6 aparece 3 veces en la muestra, por tanto
n3 = 3.
Se puede tambin expresar la frecuencia absoluta como una fraccin o porcentaje del nmero de datos y surge as lo que se conoce como frecuencia relativa del dato xi que se
denota por fi, as pues:
fi
ni
; en el ejemplo f 3
n
3
25
0.12
Captulo 2
49
que indica que el dato x3 = 6 representa el 12% de toda la muestra, es decir que de
acuerdo con la muestra, en la hora pico, el 12% de las veces llegan al banco 6 clientes por
minuto.
Tamben se podra calcular el nmero de datos que son menores o iguales que xi, que se
denomina frecuencia absoluta acumulada hasta xi , y se denota por Ni; si x1, x2, ... ,
xm estn ordenadas en forma creciente, entonces:
Ni = n1 + n2 + ... + ni
En nuestro ejemplo N4 es el nmero de datos que son menores o iguales que x4 = 7, es
decir,
N4 = 11.
Ni
n
f1 ! f 2 !...! f i
CUADRO 2.2
CUADRO DE FRECUENCIAS DEL NUMERO DE CLIENTES QUE LLEGAN A
UN BANCO EN UN MINUTO DE LA HORA PICO
50
Propiedades y relaciones
Si se toma una muestra de n datos, de los cuales hay m distintos, que ordenados en forma
creciente son x1, x2, ... , xm, entonces:
"
0 # ni # n ; i = 1, 2, 3, ..., m
"
n1 ! n2 ! ... ! nm
n ; es decir
$n
i 1
ni
; 0 # fi # 1
n
"
fi
"
f1 ! f 2 !...! f m
1 ; es decir
$ fi
i 1
"
Nj
$n
n1 ! n2 ! ... ! n j ; es decir N j
i 1
"
Nm
"
n1
N1 # N 2 # ... # N m
"
Fj
f1 ! f 2 !...! f j ; es decir F j
n
j
$ fi
i 1
"
f1
F1 # F2 #...# Fm
En realidad las frecuencias acumuladas pueden definirse como funciones sobre todos los
nmeros reales, as:
Roberto Behar y Mario Yepes
Captulo 2
51
As pues :
F(4.32) = la fraccin del total de datos que son menores o iguales que 4.28.
= 0.04
N(4.32) = 1
52
Captulo 2
53
Fig. 2.1. Diagrama de frecuencias del nmero de clientes que llegan a un banco en un minuto, en la
hora pico.
Fig. 2.2. Grfico de frecuencias acumuladas para la variable "nmero de clientes que llegan a un
banco en un minuto en la hora pico"
Roberto Behar y Mario Yepes
54
Como puede notarse el grfico corresponde a una funcin escalonada, lo cual indica que slo hay
datos en los puntos de discontinuidad, cuya frecuencia est representada por el valor del salto
correspondiente.
2.2
Supngase que se tienen observaciones sobre la estatura de las personas que conforman una
muestra de tamao 25 y que el instrumento de medicin usado tiene precisin hasta las
centsimas de milmetro, as pues un valor podra ser 1.74325 metros; si se pretendiera aplicar el
procedimiento que se us para las variables discretas, habra varios problemas, uno de ellos es
que seguramente, todos los datos son distintos, lo cual generara una tabla de frecuencias
absolutas con el mismo nivel de informacin que la muestra bruta; adems, no es de inters
conocer con ese nivel de detalle la informacin, por ejemplo, no es de inters conocer cuntas
personas tienen una estatura de 1.74325 metros.
En estos casos, es ms fcil agrupar la informacin en los llamados intervalos de clase. Para
ilustrar sobre su construccin, se plantea el siguiente ejemplo.
Ejemplo 2.2
Los datos que a continuacin se presentan corresponden a los tiempos de atencin (en minutos)
de pacientes en el "filtro" del servicio de urgencias de un hospital:
13.1, 7.1, 14.8, 19.0, 10.2, 18.0, 19.8, 15.0, 17.3, 10.8, 22.3, 14.5, 17.1, 14.9, 12.0, 14.0, 18.4, 10.2, 15.8,
16.5, 15.0, 17.6, 4.2, 13.4, 21.2, 14.7, 13.8, 21.0, 14.3, 11.1, 18.9, 8.3, 16.6, 11.2, 20.2, 14.4, 13.5, 18.2,
12.4, 17.0, 26.7, 15.5, 22.0, 12.9, 17.9, 7.4, 18.0, 19.8, 16.0, 21.2.
Generalmente se empieza por determinar las observaciones extremas (mnima y mxima), que en
el ejemplo aparecen marcadas: min (xi) = 4.2; max (xi) = 26.7.
Estos valores extremos definen el rango de la muestra:
rango
= max (xi)
min (xi)
Captulo 2
55
Se debe determinar los valores L0, L1, L2, ...,Lm que constituirn los lmites de los m intervalos de
clase que se van a construir, con longitudes C1, C2, ..., Cm; de esta manera:
L1 = L0 + C1
L2 = L1 + C2
Li = Li-1 + Ci
Lm = Lm-1 + Cm
El primer lmite inferior, L0, debe escogerse de tal manera que sea un poco menor que el dato ms
pequeo; un criterio para definirlo es el siguiente:
Como los datos estn registrados con una cifra decimal, se entiende que el instrumento de
medicin usado tiene una precisin de hasta las dcimas de minuto. Puede decirse que los datos
tienen (3) cifras significativas, lo cual indica que el registro "4.2 minutos" est representando
cualquier valor real en el intervalo: (4.15 , 4.25), de esta manera puede definirse L0 = 4.15.
Si se quiere que todos los intervalos de clase sean igual longitud, es decir C1 = C2 = ... = Cm =
C , se deber adoptar un valor C, que puede ser arbitrario o estimado con base en el rango de los
C&
Rango
m
Para el ejemplo 2.2 se construirn intervalos de diferente tamao, por ser la situacin ms
general.
Comenzando con L0 = 4.15 podemos definir los otros lmites como:
L1 = 7.15, L2 = 11.15, L3 = 13.15, L4 = 16.15, L5 = 18.15, L6 = 21.15, L7 = 27.15, en este
56
Para determinar la frecuencia asociada con cada intervalo, deben contarse los datos que
pertenecen a cada uno; las definiciones de las frecuencias dadas anteriormente siguen vigentes
para el caso de variables continuas, lo mismo que sus propiedades.
Se determina el punto medio de cada intervalo, que se denomina marca de clase y se representa
por x'i as:
x i'
Li' 1 ! Li
2
OBSERVACIONES
1.
Se puede apreciar en el cuadro 2.3. que el lmite superior de un intervalo coincide con el
lmite inferior del siguiente, lo cual podra originar un problema de indefinicin en caso de que
un dato coincidiera con un lmite, no se sabra donde clasificarlo. En el ejemplo no puede existir
Roberto Behar y Mario Yepes
Captulo 2
57
este problema puesto que todos los lmites se han construido con una cifra decimal adicional a la
que tienen los datos; cuando aquella posibilidad exista, se recomienda la convencin: (Li-1 , Li]
que significa que en cualquier intervalo de clase, el lmite inferior no pertenece a l, pero s, su
lmite superior.
2.
puesto que no se dispone de los datos en forma individual sino una caracterizacin ms global,
por ejemplo cuando se dice que en el intervalo 4.15 - 7.15 hay 2 datos, con ello no se sabe que
valor tienen los dos datos, por tal razn cuando se reduce el nmero de intervalos se est
globalizando ms los datos y por tanto perdiendo ms informacin. Por otro lado si se construyen
demasiados intervalos se desvirta el objetivo de la estadstica descriptiva, puesto que su
manipulacin se hace compleja y su presentacin poco comprensible. Por tanto se recomienda
que, en caso de que no exista una razn especial, se tome un nmero de intervalos mayor que
cinco (5) y menor que veinte (20).
3.
Cuando sea posible debe procurarse que todos los intervalos sean de igual longitud, lo
cual en ocasiones simplifica algunos clculos y sobre todo facilita la interpretacin, puesto que
comparando directamente las frecuencias, se est comparando la densidad (concentracin) en
cada intervalo.
En algunas veces no es posible construir intervalos de igual longitud, por ejemplo, cuando la
variable "salario" toma un rango amplio de valores, para bajos salarios, clases de $100.000 de
longitud pueden considerarse, por ser esta diferencia importante, pero para altos salarios esta
longitud resulta pequea. En estas situaciones la longitud de los intervalos crece con los valores
de la variable, incluso a veces los intervalos extremos pueden ser abiertos ("los que ganan menos
de $500.000" o los que ganan $1000.000 o ms).
58
Cuando los intervalos de clase son de diferente tamao como en el ejemplo presentado, se
dificulta conocer donde hay mayor concentracin de los datos, esta situacin se soluciona
calculando la densidad de frecuencia relativa de cada intervalo, que consiste en expresar el
porcentaje (o fraccin) promedia de datos que hay por cada unidad de intervalo de clase.
As por ejemplo el intervalo 13.15 - 16.15 contiene el 30% de los datos. Como el intervalo tiene
una longitud de 3 minutos, se puede decir que dicho intervalo tiene una densidad promedio de
10% por cada minuto, que es el resultado de plantear: "si el 30% de los datos estn en una
longitud de 3 minutos, en un minuto que porcentaje habr?
De esta manera si se asume que los datos en cada intervalo estn uniformemente distribuidos, se
puede definir la densidad f*i en el i-simo intervalo, como:
f i*
fi
Ci
Si se expresa la densidad como una funcin para cualquier nmero real x, se obtiene la llamada
funcin emprica de densidad, que para el ejemplo 2.2 estar dada por:
)
*
*
*
*
*
*
f *(x) = +
*
*
*
*
*
*,
si x <4.15 x >27.15
0,12 2 ( 6%/min
0,30 3 ( 10%/min
0,18 2 ( 9%/min
5.33% /min
1.66% /min
La palabra "emprica" es para resaltar que proviene de una muestra, pero pretende indicar
el comportamiento de la variable en la poblacin (funcin de densidad de probabilidad).
Captulo 2
59
- x.
)0
*
+ fi
*C
, i
x # L 0 x / Lm
Li-1 < x Li ,
i = 1, 2, ..., m
Este grfico es conocido con el nombre de histograma y consiste en una serie de rectngulos,
cuya base son los intervalos de clase y su altura la densidad correspondiente.
Al observar la figura 2.3 se puede apreciar que el rea de uno de los rectngulos, por ejemplo el isimo es:
Ai = base x altura
Roberto Behar y Mario Yepes
60
= Ci x f*i
como f i*
fi
, entonces :
Ci
Ai
f
Ci x i
Ci
fi
Lo cual significa que el rea de cada rectngulo es equivalente con su frecuencia relativa; de esta
manera si un rectngulo tiene el doble de rea que otro significa que contiene el doble de datos.
La suma de todas las reas debe dar 100% 1.00.
La funcin emprica de densidad puede usarse para calcular en forma aproximada el porcentaje
de datos que hay en un intervalo cualquiera. Si en el ejemplo 2.2 se deseara estimar el porcentaje
total de consultas que duran 20 minutos o menos, se procede de la siguiente manera:
(
18.15
]
21.15
20
El porcentaje de datos menores o iguales que 20 puede calcularse al sumar el porcentaje de datos
menores iguales a 18.15 (74%) ms el porcentaje de datos que hay entre 18.15 y 20, el cual
puede obtenerse mediante el siguiente razonamiento: "si en el intervalo 18.15 - 21.15 se tiene una
densidad de 5.33 %/min entonces que porcentaje de los datos habr en una longitud de (20 18.15) minutos?
5.33%
( 20 ' 1815
. )min
min
9.86%
As pues que el porcentaje de datos que son menores o iguales que 20 es:
Captulo 2
61
En virtud del supuesto sobre la homogeneidad en la distribucin de los datos en cada intervalo, se
puede plantear la siguiente regla de tres: "si en Ci unidades hay una frecuencia fi, en (x - Li-1)
unidades, qu frecuencia habr ?", la respuesta es:
fi
( x ' Li '1 )
Ci
Por lo tanto:
F ( x)
f
F ( Li '1 ) ! i ( x ' Li '1 )
Ci
62
Si se reemplaza f i*
fi
, se puede escribir:
Ci
si x # 4.15
Si se desea estimar el porcentaje de datos que son menores o iguales que 15 minutos, es decir:
F (15)
0.26 !
0.30
(15 ' 13.15)
3
Captulo 2
63
Si se desea estimar el porcentaje de datos que hay entre "a" y "b", dgase f(a,b) se
puede calcular como:
64
estadstica y las variables continuas con las que trabajamos recibiran el nombre de variables
aleatorias, anlogamente las funciones de densidad empricas f*(x) y la Funcin de distribucin
acumulada F(x), reciben los nombres de funcin de densidad de probabilidad y Funcion de
distribucin acumulativa de probabilidad. Aqu intentaremos dar el paso de una manera natural
de los conceptos de las muestras a los conceptos de las poblaciones, es decir, de las frecuencias
relativas a la probabilidad y de las reas de los rectngulos en el histograma a las reas bajo
curvas o funciones y en los clculos pasaremos de las suma de reas de rectngulos al calculo de
intergrales. Ilustraremos este proceso con el siguiente ejemplo.
Captulo 2
65
Intervalo
(Aos de
Antigedad)
Frecuencia
Relativa
1
2
3
4
5
0-2
2-3
3-5
5-10
10-20
TOTAL
10%
5%
40%
40%
5%
100%
%(
fi
Un histograma es una serie de rectngulos construidos cada uno de los cuales tiene como base el
intervalo correspondiente y cuya rea representa la frecuencia relativa fi de su intervalo
respectivo. De tal manera que un intervalo que contiene el doble de datos que otro, deber estar
representado por rectngulo que tiene el doble del rea. (Ojo que se dice el doble de rea y no de
altura). Observe del cuadro de frecuencias de nuestro ejemplo, que el primer rectngulo, deber
tener el doble de rea que el segundo. El Tercero deber tener la misma rea del cuarto y adems
debe tener 4 veces el rea del primero, pues esa es la relacin de las reas.
Con estos criterios construyamos nuestro histograma.
66
Vamos a construir el primer rectngulo de un rea arbitraria, pero las dems reas debern
guardar proporcionalidad de acuerdo con las frecuencias relativas f i .
Si vemos el grfico de la Figura, se aprecia muy claramente la proporcionalidad de las reas de
acuerdo con la frecuencia relativa de cada intervalo. Observe por ejemplo que el primer
rectngulo tiene el doble de rea que el segundo, no obstante que tienen la misma altura. Note
como los intervalos tercero y cuarto tienen rectngulos con la misma rea, no obstante que las
alturas son distintas. Tambin el primero y el ltimo tienen la misma rea, pues en ambos hay el
5% de los datos.
Interpretacin de la altura fi * de los rectngulos de un histograma.
Captulo 2
67
Por lo pronto denotemos la altura del rectngulo i-esimo, por f i * , observe que le hemos colocado
un (*) para diferenciarlo de f i .
Llamemos Ci al ancho del intervalo i. De esta manera C1
2 , C2
1 , C3
2 , C4
5 , C5
10
De la definicin de histograma qued establecido que las reas representan las frecuencias
relativas respectivas, es decir que si llamamos Ai al rea correspondiente, entonces estamos
diciendo que: Ai
Ai
fi
fi*
fi
. Observe que se divide la frecuencia relativa entre el nmero de unidades que tenga el
Ci
intervalo correspondiente, entonces las unidades de fi * son (% de datos por cada unidad de la
variable en dicho intervalo). Veamos por ejemplo para el primer intervalo: f1 10% y C1
que la altura del primer rectngulo es: f1*
f1
C1
10%
2 aos
2 , as
5% / ao ( 0.05 / ao )
El cuarto intervalo, (5; 10], por ejemplo, en sus 5 unidades (5 aos) contiene 40% de los datos.
As que en promedio, hay 8% de los datos en cada unidad o lo que es lo mismo:
f 4*
f4
C4
40%
5 aos
8% / ao ( 0, 08 / ao
Es decir que las unidades del eje Y en el grfico de la Figura.2.4B, es 1/unidad o %/unidad, por
eso se le conoce como densidad de frecuencia ( f i * ).
Roberto Behar y Mario Yepes
68
1
2
3
4
5
Intervalo
(Aos de
Antigedad)
Frecuencia
Relativa
0-2
2-3
3-5
5-10
10-20
TOTAL
10%
5%
40%
40%
5%
100%
%(
fi
Densidad de
Frecuencia
(
fi * )
5%/ao
5%/ao
20%/ao
8%/ao
0,5%/ao
Figura 2.4C. Representacin del porcentaje de trabajadores con antigedad de 4 aos o menos.
Captulo 2
69
Observe que el rea sombreada se calcula sumando por un lado las reas de los primeros
rectngulos (10%+5%) y por otro lado la parte del tercer rectngulo comprendida entre 3 y 4,
que resulta ser la mitad de 40%, es decir 20%. As que el porcentaje de trabajadores con
antigedad de 4 aos o menos se estima en:
Figura2.4D. Representacin en el Histograma del porcentaje de trabajadores con Antigedad entre 4 y 7,5
aos.
P - 4 # X # 7,5.
f3* * - 5 ' 4. ! f4* *(7,5 ' 5) 20%/ ao *(1ao) ! 8%/ ao *(2,5aos) 40%
Rec
70
As pues si x0=8 aos, entonces: P - X # 8. 55% ! 8%/ ao *(8 ' 5)aos 79% .
Si cada vez cambiamos el intervalo en el cual se encuentra x, podemos obtener la siguiente
funcin F(x), para calcular P - X # x . .
Roberto Behar y Mario Yepes
Captulo 2
P- X # x
F (x )
0
x#0
)
*
0, 05* x
00 x#2
*
* 0,10 ! 0, 05* - x ' 2 .
20 x#3
*
30 x #5
+ 0,15 ! 0, 20*( x ' 3)
* 0,55 ! 0, 08*( x ' 5)
5 0 x # 10
*
*0,95 ! 0, 005*( x ' 10) 10 0 x # 20
*
1
x / 20
,
71
Usando dicha expresin podemos estimar por ejemplo el porcentaje F(4), es decir el porcentaje
de trabajadores con 4 aos de antigedad o menos: Observe que x=4, se encuentra en el intervalo
3 0 x # 5 , por lo tanto:
F (4)
Ahora imaginemos que disponemos de un nmero muy grande de datos de tal manera que sea
posible construir muchos intervalos de pequea anchura y a tal punto que el conjunto de
rectngulos del histograma se convierte en una curva suave f * - x . como se muestra en la Figura .
El rea sombreada ilustra a F(x)= P - X # x . .
Note que si ahora conociramos la expresin para f * - x . , el rea sombreada podra calcularse
como:
F ( x)
P - X # x.
2 f - x ..dx
*
'1
la curva.
A esta funcin suave f * - x . que se supone ahora describe la poblacin completa y no una muestra
le llamaramos funcin de densidad de probabilidad de la variable aleatoria antigedad.
72
b)
f ( x) 3 0 4x 56
!1
f - x ..dx 1
'1
P - a # X # b.
2 f - x ..dx
a
Captulo 2
73
Ejemplo 2.2C.
El Histograma de una cierta caracterstica continua X, es el que muestra sombreado en la figura.
Se pretende ajustar una funcin densidad y suena
razonable la que aparece ajustada formando un
triangulo equiltero. Encuentre la definicin de dicha
funcin de densidad de probabilidad estimada, f(x).
x%2
Cual deber ser la ecuacin que defina las dos rectas que conforman el triangulo equiltero y
que definen la funcin de densidad de probabilidad estimada?.
Pues como el rea debe ser igual a la unidad, esto significa que la altura h del triangulo, debe
ser tal que el rea valga 1.
base * altura 2* h
"
"1
2
2
De donde se deduce que la altura h=1. Por lo tanto la ecuacin de la recta de pendiente positiva
es f(x)=x. la ecuacin de la recta con pendiente negativa ser: f(x)=2 x, as pues:
74
0 ( x %1
) x
f & x' " *
,2 + x 1 ( x % 2
1,5
- f & x '.dx
0,5
1,0
1,5
x.dx .
0,5
1,0
1,5
x.dx .
0,5
x2
P & 0,5 % X % 1,5 ' "
2
P & 0,5 % X % 1,5 ' "
1,0
1,0
1,0
1,5
/
x2 0
. 1 2x + 2 "
2 4 1,0
3
0,5
3
4
Observe que el rea, en este caso, se hubiera podido calcular como el rea de dos trapecios, con
base mayor la altura del triangulo.
Ejemplo 2.2D
El tiempo, en horas, que tarda un autobs urbano en completar su recorrido se puede representar
mediante una variable aleatoria X con la siguiente funcin de densidad:
) kx ; 0 % x % 1
f (x) " *
, 0 ; resto
Captulo 2
75
De acuerdo a las propiedades de una funcin de densidad para variables aleatorias continuas se
tiene que: f ( x) 5 0 y adems
Es decir que
+6
f ( x)dx " 1
71 1 8 k
1
1
k
k
9 - kxdx " k - xdx " k : x 2 ; " <7 (1) 2 + (0) 2 =8 " (1) "
0
0
2
2
<: 2 0 =; 2
k
"19 k " 2
2
Por lo tanto:
)2x
f ( x) " *
, 0
0 % x %1
en otra parte
71 8
71
8 2
2tdt " 2- tdt " 2 : t 2 ; " 2 : & x 2 + (0) 2 ' ; " & x 2 ' " x 2
0
<2 = 0
<2
= 2
x
x(0
)0
> 2
F(x)=P & X % x ' " * x 0 % x % 1
>1
x ?1
,
76
9
/30
F (3 / 4) " P & X % 3 / 4 ' " 1 2 " " 0.5625
3 4 4 16
Lo cual significa que aproximadamente el 56% de las veces el autobs se tarda de hora o
menos.
La probabilidad de que tarde ms de 3/4 de hora es: 1 + F ( X " 3 / 4) " 1 + 0.5625 " 0.4375
Calcular la probabilidad de que el autobs tarde entre 20 minutos (1/3 de hora) y 1 hora
en completar su recorrido.
Observe que P & a % X % b ' " P & X % b ' + P & X % a ' " F (b) + F (a)
1
1
1
Por lo tanto: P /1 % X % 102 " P & X % 1' + P /1 X % 02 " F (1) + F ( )
34
3
33
4
3
2
/10 1
F (1/ 3) " P & X % 1/ 3' " 1 2 " " 0.1111
334 9
Por lo tanto la probabilidad de que el autobs tarde entre 20 minutos (1/3 de hora) y 1 hora en
completar su recorrido es de 0.8888. Es decir que se espera que aproximadamente el 88,9% de las
veces el autobs tarde un tiempo comprendido entre 20 minutos y una hora.
Ejemplo 2.2E
La duracin de la tramitacin de un expediente administrativo de licencia de obras es una
variable aleatoria con distribucin Exponencial , es decir con funcin de densidad de la forma
f(x) = e-x ; x > 0. De datos de experiencias anteriores se ha estimado que =1/3.
Captulo 2
77
1 + x
Es decir que f ( x) " e 3
3
x?0
Cierto constructor trabaja con avales bancarios para cada una de sus obras, de forma que los
intereses que debe pagar empiezan a resultarle muy gravosos cuando las licencias sufren retrasos
superiores a 4 meses. En estos momentos, el constructor tiene en proyecto un total de 12 obras.
Calcule:
.6
f ( x)dx " -
.6
1
1 +3 x
3
dx
+ x
1 +3 x
1 6 + x
e dx " - e 3 dx " + e 3
3
3 4
" +e
1
+ (6)
3
.e
1
+ ( 4)
3
" (0) . e
4
3
" 0.2635
Es decir que un poco ms de la cuarta parte de las veces que se hace un trmite de licencia, sta
tarda ms de 4 meses y resulta gravosa para el constructor
Ejemplo 2.2F
El porcentaje de alcohol (100X) en cierto compuesto se puede considerar como una variable
aleatoria donde X, con la siguiente funcin de densidad de probabilidad:
f ( x) " 20 x 3 (1 + x)
0 x 1.
78
0
x(0
)
>x
1 0
>
/1
F ( x) " * - 20 x3 (1 + x)dx " 20 1 x 4 + x5 2 0 % x % 1
5 4
34
>0
>,
x ?1
1
x(0
0
)
>
1 4
1 5
F ( x) " *20 & 4 x + 5 x ' 0 % x % 1
>
x ?1
1
,
Captulo 2
79
ser el rea bajo la funcin de densidad, o por lo menos no disminuye. Adems note que est
definida para todos los nmeros reales.
b) Calcule la probabilidad de que el compuesto contenga las dos terceras partes o menos de
alcohol.
/1 4 1 50
P ( X % 23 ) " F ( 23 ) " 20 1 & 23 ' + & 23 ' 2 =0,469
5
34
4
80
1 0
/1
20 1 x! 4 + x! 5 2 " 0,50
4
5 4
3
Lo cual significa que la mediana del contenido de alcohol es 0,687, es decir que la mitad de
las veces el compuesto resulta con 68,7% de alcohol o menos.
d) Supngase que el precio de venta del compuesto anterior depende del contenido de
alcohol. Especficamente si 1/3
otro modo se vende a 30 dlares /galn. Si el costo por galn del compuesto es 20
dlares /galn, entonces a la larga, cuanta es en promedio la utilidad por galn?
Definamos una nueva variable aleatoria que represente la Utilidad U, por galn.
)$ 30 Si 13 % X % 32
U "*
, $ 10 En Otro caso
Captulo 2
81
7 1 / 2 0 4 1 / 2 05 1 / 1 0 4 1 / 1 05 8
P (U " $ 30) " 20 : 1 2 + 1 2 + 1 2 . 1 2 ; " 0, 4156
<: 4 3 3 4 5 3 3 4 4 3 3 4 5 3 3 4 =;
Probabilida
d
0,4156
0,5844
1,0000
82
Con base en este gran conjunto de datos, se construy un histograma que nos permite tener una
estimacin emprica de la funcin densidad, la cual est representada por las alturas de los
rectngulos. Con base en la densidad emprica se ajust el modelo que muestra la Figura que
result ser f ( x) "
100
x2
x ? 100 .
Captulo 2
83
Figura 2.4 L. Ilustracin del ajuste de un modelo para funcin de densidad de probabilidad
Con base en dicha funcin de densidad ajustada: a) Verifique que f(x) es una verdadera funcin
de densidad b) Construya la Funcin de distribucin acumulada de probabilidad para la duracin.
c) Estime la probabilidad de que un dispositivo dure menos de 200 horas. d) Estime la
probabilidad de que un dispositivo dure ms de 200 horas, si se sabe que todava funciona
despus de 150 horas. e) De acuerdo con los resultados anteriores, decida si es razonable pensar
que los dos eventos son independientes. f) Si se instalan 3 de estos dispositivos en un sistema y la
duracin de cada dispositivo es independiente de las de los otros, estime la probabilidad de que al
menos uno de ellos dure ms de 150 horas. g) Cul es el nmero mximo n de dispositivos que
debern ponerse en un conjunto de modo que haya una probabilidad 0,50 de que despus de 150
horas todos estn funcionando
Ejemplo 2. 2G.
Si un instrumento electrnico tiene una duracin X (en unidades de 1000 horas) que se considera
una variable aleatoria continua con funcin de densidad de probabilidad.
f ( x) " e + x Para valores positivos de x.
84
El costo del artculo es $2, sin embargo el fabricante vende el artculo en $5, con la condicin de
que devuelve todo el dinero si el instrumento dura 900 horas o menos , es decir si X 0,900.
a) Cul es la Funcin de distribucin acumulada de probabilidad, F(x), para la
variable aleatoria duracin?
x
0
Si x % 0
)
> x +x
x
0
F ( x) " P & X % x ' " * e dx " e+ x dx . e+ x dx
x?0
-"+6#$#
> -+6
% -0
0
,
) 0
F ( x) " P & X % x ' " *
+x
,1 + e
Si x % 0
x?0
Captulo 2
85
P &U " +$2' " P & X % 0,900' " F (0,900) " 0,5934
P &U " $3' " 1 + P & X % 0,900 ' " 1 + F (0,900) " 0,4066
86
2.3
Unas medidas cada vez mas utilizadas, son los cuartiles, que son tres valores Q1, Q2, Q3 que
dividen la muestra ordenada en cuatro partes que contienen aproximadamente el mismo numero
de datos (de all su nombre), es decir que el 25% de los datos son menores que Q1, el 50% de los
datos son menores que Q2 y el 75% de los datos son menores que Q3. Estos tres valores producen
una muy buena sntesis de la distribucin de frecuencias.
Ntese que siempre entre los valores Q1 y Q3, se encuentra el 50% central de los datos.
Calculemos los cuartiles para el ejemplo anterior, del tiempo de espera en un servicio de
urgencias.
Primer cuartil Q1
Note que el primer cuartil Q1, se encuentra en el intervalo 11.15 a 13.15, puesto que la frecuencia
acumulada hasta 11.15 es F(11.15)= 14%
Q1, en dicho intervalo, tal que su frecuencia acumulada sea el 25%, es decir:
F (Q1)=25%.
Captulo 2
87
0.12
(Q1 +11.15)
2
De donde puede despejarse Q1, obtenindose el primer cuartil Q1 = 12.98 minutos. Es decir que el
25% de las personas son atendidas en 12.98 minutos o menos.
Segundo cuartil Q2. (Mediana)
Se desea encontrar el tiempo Q2, tal que el 50% de las personas son atendidas en ese tiempo o
menos, es decir: F(Q2) = 50%.
Al observar el cuadro o la funcin F(x), encontramos que F(13.15)=26% Y F(16.15)=56%, lo
cual nos indica que el segundo cuartil Q2, se encuentra entre 13.15 y 16.15, Si revisamos la
funcin F(x) para este intervalo y reemplazamos x por Q2, se obtienen
F (Q 2) " 0.26 .
0.30
(Q 2 +13.15) = 0.50
3
Despejando Q2, resulta Q2 = 15.55 minutos. Es decir que la mitad de la gente (50%), espera
15.55 minutos o menos.
Tercer cuartil
0.16
(Q3 +18.15) = 0.75
3
De donde al despejar resulta Q3= 18.35 minutos. Lo cual se interpreta como que el 75% de las
personas esperan 18.35 minutos o menos.
88
Los cuartiles proporcionan una muy buena idea de la forma como estn distribuidos los datos,
pues entre un par de cuartiles consecutivos siempre esta el 25% de los datos. Esta interpretacin
de la informacin que se obtiene de los cuartiles se har mas evidente en los diagramas de cajas y
alambres, que se presentar ms adelante.
Ntese que entre los cuartiles Q1 y Q3 siempre se encuentra el 50% central de los datos, pues
abajo de Q1 esta el 25% y arriba de Q3 esta el 25%.
En el ejemplo anterior diramos que la mitad de las personas esperan entre 12.98 y 18.35
minutos.
A la distancia entre los cuartiles Q1 y Q3, se le llama rango intercuartlico.
Rango intercuartlico (RIC) = Q3 - Q1. Para el ejemplo tendramos que RIC= 5.37 minutos
2.3.1 Diagrama de caja y Alambres1
Este diagrama constituye una sntesis muy buena de la distribucin de frecuencias y su sencillez
la hace ms til, sobre todo en aquellas situaciones donde se hace necesario comparar dos o ms
distribuciones (poblaciones o tratamientos).
En la figura, se ilustra un diagrama de caja y alambres para el caso del ejemplo de los tiempos de
espera.
Veamos como fue construido y cual es su interpretacin.
Se calculan los siguientes puntos:
Q1, Q2, Q3, Q1 - 1.5 RIC, Q3 + 1.5RIC.
Estos grficos son una contribucin del gran estadstico Jhon Tukey.
Captulo 2
89
interno inferior
: Q1 = 12.98 (primer cuartil)
: Q2 = 15.55 (segundo cuartil = mediana)
: Q3 = 18.35 (tercer cuartil)
: Q3 + 1.5RIC = 18.35 + 1.5(5.37) = 26.40 cerco interno superior.
Entre los cercos interiores, generalmente se encuentra un porcentaje alto de los datos, de tal
manera que los puntos que se salen de los cercos, son puntos sospechosos de ser OUTLIERS2
(Puntos atpicos).
Los datos caracterizados como OUTLIERS tienen gran importancia, pues son puntos que tienen magnitudes
raras con respecto al conjunto de datos. Es muy importante sealar que lo raro, supone un criterio de lo que es
normal, de tal manera que se supedita a esa definicin. Un punto puede ser raro, si se supone que la distribucin
de la cual proviene es Gaussiana (campana de Gauss), pero puede no serlo si su poblacin de origen es una
Weibull (forma de baera).
El sealar algunos puntos como OUTLIERS obliga a poner especial atencin sobre
ellos, puede ser desde una mala medicin, hasta un verdadero hallazgo. En no pocas ocasiones los OUTLIERS se
convierten en los puntos mas valiosos de una
investigacin. Imagnese
un
90
Fig. 2.5. Diagrama de caja y alambres para la distribucin de los tiempos de espera en el servicio de
urgencias de un hospital.
Con esta informacin se procede as: la caja se construye entre los cuartiles Q1 y Q3, con un
ancho arbitrario. Dentro de la caja se marca Q2, con trazo. Los alambres que salen de Q1 y Q3,
van hasta el dato ms prximo al cerco interno (sin cruzar el cerco.). Note que en este caso
dichos puntos son 10.2 (que es el dato mas prximo al cerco interno inferior, que esta en 4.92) y
por arriba esta el punto 22.3 (El dato mas prximo al cerco interno superior que es 26.4). Los
puntos que se salen del cerco son marcados sobre el grfico.
Se marcan (dibujan) los puntos que se han salido del cerco, en este caso son: 4.2 por abajo y el
dato 26.7 que se sali del cerco interno superior.
Roberto Behar y Mario Yepes
Captulo 2
91
Tambin suele definirse un cerco externo ubicado a 3RIC de Q1 y Q3. Los puntos que quedan
fuera de este cerco externo se conocen como OUTLIERS y son puntos que pueden ser atpicos,
comparados con el cuerpo de datos. (En nuestro caso el cerco externo estara entre los puntos 3.13 y 34.46, fuera de los cuales no se encuentra ningn dato.)
2.3.2 Como calcular los cuartiles, cuando los datos no estn agrupados
Ejemplo 2.3
Los siguientes datos corresponden a las edades de 14 personas seleccionadas al azar, entre cierta
clase de empleados de la poblacin objetivo de un estudio.
25, 38, 29, 42, 39, 54, 23, 33, 45, 45, 26, 34, 30, 31.
Pas #1; Ordenar los datos de menor a mayor:
Observe que cuando los nmeros indican posicin, los colocamos entre parntesis.
Los cuartiles los descubrimos calculando la posicin que ocupan; es conveniente empezar por
el segundo cuartil
Segundo cuartil Q2. (Mediana)
Para calcular la posicin que ocupa el segundo cuartil, promediamos las posiciones extremas
ocupa la posicin (14)+(1) / 2 = (7.5). Como existe la posicin 7.5, porque un dato queda en la
posicin 7 o en la 8, entonces que interpretaremos que queda en el medio de los datos que
Roberto Behar y Mario Yepes
92
estn de 7 y 8 , para evitar esta ria, hacemos el promedio de los dos datos que ocupan esas
posiciones:
Primer Cuartil3, Q1. El primer cuartil se obtiene considerando solo los datos que quedan
antes de la mediana. Para este grupo de datos se calcula la media .Se trata pues de encontrar la
posicin de la mitad de la mitad.
La posicin que ocupara el primer cuartil ser la mediana de este primer grupo de datos: que es
el que ocupe la posicin
(7) +(1)/2 = (4.)
La Cuarta posicin la ocupa el dato 29. Este es el primer cuartil.
Note que si el nmero de datos es impar, el segundo cuartil Q2, resultara ser un dato de la muestra. En este caso,
para calcular la ubicacin del primer cuartil Q1, se toman en cuenta los datos que quedaron antes del segundo
cuartil, excluyendo el dato que resulto ser el segundo cuartil Q2. Anlogamente para el tercer cuartil Q3.
Captulo 2
93
Es decir que el primer cuartil, Q1 es el dato que ocupa la 4 posicin, o sea que Q1 = 29 Aos
Si aplicamos este mismo procedimiento a los datos mayores que la mediana, se obtiene el tercer
cuartil
El tercer cuartil Q3.
La posicin que ocupara el tercer cuartil ser la mediana de este segundogrupo de datos: que es
el que ocupe la posicin
(8) +(14)/2 = (11.)
La posicin once la ocupa el dato 42. Este es el tercer cuartil.
Q3 = 42 Aos
94
Note que en este caso particular, todos los puntos quedaron dentro de los dos (2) cercos, lo cual no ocurre siempre,
por esta razn los puntos interiores mas cercanos al cerco son el mnimo y el mximo de los datos, que definen la
longitud de los alambres que van pegados a la caja.
Captulo 2
95
En resumen puede decirse que los diagramas de cajas y alambres son tiles, entre otros para los
siguientes propsitos:
1.
2.
Para hacerse una muy buena idea de la dispersin de los datos, basndose en la longitud
de la caja (rango intercuartlico), pues siempre la caja, corresponde al 50% de los datos que estn
en la parte central. Adems se aprecia el rango de los datos, el cual corresponde a la distancia
entre las observaciones ms extremas.
3.
El diagrama de cajas y alambres, nos permite hacernos una muy buena idea sobre el grado
El diagrama es til para identificar posibles OUTLIERS ( fuera de los cercos internos
Una utilidad grande de los diagramas de caja y alambres, es comparar varias poblaciones,
a travs de sus distribuciones. En este caso se construye un diagrama para cada distribucin y se
dibujan en una misma escala (sobre un mismo plano), lo cual permite muy fcilmente hacerse
una idea de las semejanzas y las diferencias de los rasgos ms importantes de las distribuciones.
Como se ilustrara en un ejemplo ms adelante.
Ejemplo 2.4
En el cultivo de la caa de azcar, se llama una suerte a un lote de terreno, en el cual hay
varias parcelas del cultivo, a las cuales se les da el mismo tratamiento, es decir cuando se
cosecha, se hace en todas las parcelas de la suerte, cuando se arregla el terreno igualmente o
cuando se siembra o se riega. El terreno de una suerte puede llegar a ser usado hasta para cuatro
siembras consecutivas antes de ser acondicionado de nuevo (remover tierra, agregar abono,
96
fertilizantes, etc.). Se supone que con cada siembra el terreno se fatiga y que eso se ver reflejado
en la produccin de caa (o en la de azcar).
Se han tomado datos de produccin de varias suertes, que han estado sometidas a diferente
nmero de cortes (o de siembras), que tienen diferente procedencia (caa propia (1) o de
proveedor externo (0), edad de corte (meses). Use un diagrama de cajas para comparar las
distribuciones de frecuencias de los rendimientos para las suertes de acuerdo con los diferentes
criterios, que se menciona en el problema.
PREGUNTA 1: El nmero de cortes que se haya hecho sobre un terreno, desde su ltimo
Captulo 2
97
En la Figura 2.7, puede notarse que las distribuciones, para los cortes 1, 2, 3 tienen variabilidad
muy parecida, mientras que la variabilidad de la distribucin del rendimiento para las de cuatro
(4) cortes es mayor.
Ntese tambin que en esta situacin se han considerado en forma conjunta la produccin propia
del ingenio y la de los proveedores externos, por eso surge de manera natural la pregunta
siguiente.
PREGUNTA 2.
98
Fig. 2.7. Diagrama de cajas de la comparacin del rendimiento de acuerdo con el origen de la caa y
el nmero de cortes en la suerte
Observe en la grfica las cajas sombreadas corresponden a las distribuciones del rendimiento,
para caa del ingenio, mientras la blanca corresponde a proveedor externo. Se nota un
comportamiento bastante similar, es decir, no parece existir diferencia en la caa con respecto a
su origen. Los rendimientos medianos, son consistentes con los del primer grfico, al igual que
su variabilidad.
La edad de corte, parece tener bastante importancia, averigemos ahora por su distribucin:
PREGUNTA 3: Cul es la distribucin de la edad de corte, de acuerdo con el origen de la caa y
de su nmero de cortes?
Para dar respuesta a este interrogante, se construyen cajas para la variable edad de corte
(meses), para cada una de las distintas subpoblaciones que resultan de la combinacin de nmero
de cortes y origen (procedencia).
Captulo 2
99
Fig. 2.8. Comparacin de la edad de Corte segn el numero de cortes que se han practicado en la
suerte
En esta situacin, sera muy conveniente conocer un poco ms sobre el fenmeno, para tener
claridad acerca de cul es la edad ptima de corte, aunque depende de la variedad de caa que se
siembre. Supongamos que para nuestro caso, la edad de corte recomendada est entre 12.5 y 13.5
meses. A medida que la caa envejece va empobreciendo su contenido de sacarosa, que es en
realidad lo que interesa. En estas condiciones podra decirse que en casi todos los casos se corta
despus de 12,5 meses, sin embargo, un porcentaje muy grande de las veces se esta cortando por
encima de los 13.5 meses. Se sugiere averiguar las razones para que esto este ocurriendo.
PREGUNTA 4 .Como afecta la edad de corte, el rendimiento de la caa en cuanto al volumen
de caa cosechado? (Note que aqu no sabremos el impacto en trminos del contenido de
sacarosa, solo del rendimiento en trminos de la cantidad de caa colectada).
Dado que ya conocemos que el nmero de cortes, es una variable importante, debemos
involucrarla en el anlisis, para que no se convierta en un factor de confusin. De esta manera
Roberto Behar y Mario Yepes
100
debe construirse las cajas para la distribucin del rendimiento, para cada categora de nmero de
cortes y de edad. Aqu, la edad se ha categorizado, en tres grupos: joven, madura y vieja.
Veamos el resultado.
Obsrvese en la figura 2.9, que para cada nmero de cortes hay tres grficos que corresponden
a diferentes grados de madurez de la caa al cortarse, pero sistemticamente, en cada uno de los
grupos de tres grficos, la distribucin de la caa joven, tiene un rendimiento mediano mas alto,
seguido por la madura y por ltimo por la vieja, presentndose diferencias relativamente mas
grandes en la caa de cuatro (4) cortes.
En esta comparacin se ve muy claro el impacto de la edad de corte.
Queda pendiente un estudio, en el que se evale el contenido de sacarosa y podra repetirse el
anlisis, teniendo como variable de respuesta Ton de azcar/Fa.
Captulo 2
2.4
101
REDUCCION DE DATOS
La media aritmtica de una muestra de datos: x1, x2,..., xn, se define como:
n
Ax
x . x 2 . ... . x n
x" 1
"
n
1 n
" A xi
n i" 1
i" 1
Si los datos corresponden a una variable discreta que est organizada en un cuadro de frecuencias, se puede escribir:
m
A ni x i
x"
i "1
m
ni
"
B xi "
f i xi
n
i "1
i "1
102
Ejemplo 2.5
Sean 2, 3, 2, 2, 2, 3, 1, 3, 3, 4, una muestra de tamao n = 10; su media aritmtica ser:
2 . 3. 2 . 2 . 2 . 3. 1. 3. 3. 4
"
10
x"
2.5
xi
1
2
3
4
fi
0.1
0.4
0.4
0.1
An x
i
x"
i" 1
"
1B 1. 4 B 2 . 3B 4 . 1B 4
" 2.5
10
x"
A f i xi "
i "1
1.
xi -
"(x
x) ! 0
i! 1
Captulo 2
103
" ( xi
i! 1
x ) ! " xi
i! 1
i! 1
i! 1
" x ! " xi
nx
! " xi
i! 1
"x )!
n(
i
Como puede apreciarse, las desviaciones de los datos que estn a la izquierda de la media tienen
signo negativo y las de la derecha signo positivo, por esta razn, para que la suma de todas sea
cero, debe suceder que la suma de las distancias a la media de los datos de la izquierda de ella,
debe ser igual a la suma de las distancias a la media de los datos de la derecha, lo cual convierte a
la media en el centro de gravedad.
Si quisiramos visualizar esta propiedad a partir de una distribucin expresada en trminos de su
funcin densidad :
104
La interpretacin fsica nos dice que si justo donde se ubica la media aritmtica se colocara un
punto de apoyo y se colgara de los puntos donde se ubican los datos, el mismo peso en cada uno,
entonces el sistema quedara en equilibrio.
2.
La media de los cuadrados de las desviaciones de los datos con respecto a un valor "a" es
" (x
a)2
f(a)=
i !1
tiene su mnimo en a= x
Demostracin:
1 n
f(a)= " % xi
n i !1 (
$ #
x ' x a &
)
Desarrollando el cuadrado:
f #a $ =
1 n %
" xi
n i !1 *(
1 n
! " xi
n i !1
Como
" #x
i! 1
x ! 0
x ' 2 xi
2
1
x '2 x a
n
$#
$ #
2
x x a ' x a &
+)
$ " # x x$ '
n
i !1
(propiedad 1)
Entonces:
n x a
n
Captulo 2
"# x
f #a $ !
x 'n x a
i !1
$ " # x x$
n
i !1
105
' x a
Como puede apreciarse el primer trmino no depende de "a" y adems n( x - a)2 , 0, por tanto
f(a) es mnimo cuando n( x - a)2 = 0 y esto ocurre cuando a = x .
3.
Si xi = k, para todo i, o sea que si todos los datos son iguales a k, entonces: x = k.
Veamos:
m
" xi
x!
4.
"k
i! 1
i! 1
nk
! k
n
Si todos los datos de una muestra se multiplican por una constante, el promedio de dicha
"y
y!
5.
i! 1
" ax
i! 1
"x
! a
i! 1
! ax
Z ! ax ' by
Veamos:
n
Z!
" Zi
i !1
" # ax ' by $
i
n
Z ! ax ' b y
i !1
!a
" xi
" yi
'b
n
n
106
Si se define la variable ingreso familiar Z, como la suma de los ingresos de los esposos, entonces
el ingreso familiar de la pareja i ser: Zi = Xi + Yi y el ingreso familiar promedio ser:
Z ! X ' Y = $100.000 + $80.000 = $180.000
6.
tienen n1, n2,..., nk, elementos (n1 + n2 + ... + nk = n), con promedios x 1, x 2,..., x k
respectivamente, entonces el promedio de la muestra global estar dado por:
x!
"n x
i
es decir:
x!
i! 1
"x
El promedio x i, de los datos del grupo i, est dado por:
xi !
Gi
ni
Captulo 2
por tanto:
"x
107
! ni x i
Gi
"x
j! 1
"x
'
G1
"x
G2
"x
Gk
"x
Entonces:
x!
j! 1
Ejemplo 2.7
Una muestra de 500 trabajadores tienen un salario promedio de $108.000, si el salario promedio
de los hombres es $120.000, y el de las mujeres $100.000, cuntos hombres y mujeres hay?
Si n1 es el nmero de hombres y n2 el de mujeres, entonces:
n1 + n2 = 500
(1)
Adems:
$108.000 !
(2)
Se sabe que cuando los datos estn agrupados en clases, se pierde la individualidad de la
informacin, as por ejemplo puede conocerse que en el intervalo (10,20] hay 3 datos, pero no conocemos cul es el valor de cada uno de estos datos; esto plantea una dificultad para el clculo de
la media usando la definicin presentada.
108
Como:
x . xi' ; entonces :
m
x!
"n x
'
i i
i !1
! " hi - xi'
i !1
Ejemplo 2.8
Dada la siguiente distribucin de frecuencias:
O en forma equivalente:
Captulo 2
109
= 48.1
La mediana ya fue tratada cuando tocamos el tema de los cuartiles, pues la mediana corresponde
con el segundo cuartil. En sntesis la definimos de la siguiente manera.
Si
de una variable X y
ordenamos dichos valores de la forma: X #1$ , X # 2$ ,..., X # n $ . Ahora hemos colocado los subndices
entre parntesis para indicar las nuevas posiciones de los datos, es decir que el menor de los datos
ahora se llama X #1$ van en secuencia no decreciente, hasta llegar a X # n $ que es el mayor de
todos. As las cosas la mediana se halal con la siguiente expresin:
X n '1
5
6
2
6
Me ! 7 X n ' X/ n 0
1 '12
6 2
32 4
68
2
n impar
n par
Si quisiramos definir la mediana con solo palabras, deberamos decir que es un valor Me, tal que
supera no ms de la mitad de los datos y es superado por no ms de la mitad de los datos. (parece
un trabalenguas, pero es una definicin vlida) A continuacin se presentan algunos ejemplos:
supngase que se tiene la siguiente muestra ordenada en forma no decreciente: 2, 5, 7, 9, 11,
veamos si 5 cumple la definicin: 5 supera un dato (no ms de la mitad de los datos) y es
superado por 3 datos (ms de la mitad), esto implica que 5 no es la mediana.
Probemos con el 7; ste supera dos datos (no ms de la mitad) y es superado por dos datos (no
ms de la mitad), as que Me = 7, se puede intuir que siempre que el nmero de datos sea impar,
al ordenar la muestra, existir un valor nico tal que supera y es superado por el mismo nmero
de datos, ste ser la mediana.
110
Cuando el nmero de datos es par por ejemplo, sea la muestra 2, 5, 7, 9, 11, 15, ordenada en
forma no decreciente, al aplicar la definicin al valor 7; ste supera a 2 datos (no ms de la
mitad) y es superado por 3 datos (no ms de la mitad) esto implica que 7 es mediana.
Al ensayar con el valor 9; ste supera tres datos (no ms de la mitad) y es superado por dos datos
(no ms de la mitad), es decir que tambin 9 es mediana; ntese adems que cualquier punto de la
recta real, que se encuentre entre 7 y 9, cumple con la definicin, en estos casos cundo el
nmero de datos es par, se ha convenido definir la mediana como el promedio de los dos datos
que son medianos as pues:
Me !
7' 9
! 8
2
Supngase que se tienen m intervalos: (L0 , L1] , (L1 , L2] , ..., (Lm-1 , Lm] , la mediana es
el punto cuya frecuencia absoluta acumulada es n/2 la relativa acumulada es 0.50, es
decir la mediana es el valor x tal que:
N(x) =
n
2
o en forma equivalente:
F(x) = 0.50
De acuerdo con esto el intervalo (Li-1 , Li] que contiene la mediana es tal que:
N(Li-1) <
n
2
N(Li) ,
n
2
o lo que es equivalente:
F(Li-1) < 0.50 y F(Li) , 0.50
Captulo 2
111
Una vez localizado el intervalo que contiene la mediana, se encuentra por interpolacin el valor
Me, tal que:
Me = N-1 (
n
) = F-1 (0.50)
2
fi
(Me - Li-1)
Ci
0.50 F #Li 1 $
9 Ci
fi
(2.7)
N ( Li 1 )
ni
9 Ci
(2.8)
112
Ejemplo 2.9
Si se observan las frecuencias acumuladas puede notarse que el 28% de los datos son menores o
iguales que 40 y que el 70% son menores que 60, lo cual implica que debe existir un punto en el
intervalo (40 , 60] tal que el 50% de los datos sean menores o iguales que l; lo cual indica que el
intervalo (40 , 60] contiene la mediana. De acuerdo con la expresin (2.7), se tiene que:
Li-1 = 40
Me = 40 '
F(Li-1) = 0.28
0.50 0.28
- 20 = 50.5
0.42
fi = 0.42
Ci = 20
Propiedad de la mediana
La suma de las distancias de los datos a un punto "a" es mnima cuando ese punto es la mediana,
es decir:
n
Si f(a) =
"x
i! 1
a = Me .
Para una mejor interpretacin de esta propiedad, se presenta el siguiente ejemplo:
Roberto Behar y Mario Yepes
Captulo 2
113
Ejemplo 2.10
Figura 2.10.
114
equivocadas, esto ocurre con la media aritmtica, cuando la distribucin es asimtrica, es decir
cuando hay unos pocos valores muy grandes o muy pequeos, la media es muy afectada por
ellos.
Ejemplo 2.11
Si los salarios de los empleados de una empresa tienen la siguiente distribucin:
Si se pretende formar una idea de la magnitud de los salarios de dicha empresa, usando la media
aritmtica se tiene:
m
x!
Captulo 2
115
Los tres puntos que muestra la figura 2.11, son puntos de mxima densidad en sus entornos
respectivos. Si se conociera la funcin de densidad en forma analtica, podramos encontrar la(s)
Roberto Behar y Mario Yepes
116
moda(s), por derivacin de la funcin f(x); pero como slo se dispone de la funcin de densidad
emprica que se construy a partir de la muestra, se debe definir un procedimiento que permita
acercarse a la determinacin de los mencionados mximos relativos, para ello se hace referencia
a la figura 2.12.
Fig. 2.12: Funcin emprica de densidad. Elementos que intervienen en le clculo de la moda
Se supone que la moda de mayor densidad se encuentra en el intervalo (Li-1 , Li] que posee la
mayor densidad de frecuencia (el rectngulo ms alto). Si las dos clases adyacentes: la anterior y
la siguiente, tienen igual densidad de frecuencias, se puede suponer que la moda (mximo
relativo) se encuentra en el punto medio de la clase que contiene la moda; en caso contrario la
moda estar desplazada un poco hacia la clase adyacente de mayor densidad de frecuencia.
(suena razonable este criterio).
Por esta razn se conviene que la moda corresponde a la proyeccin del punto 0, ver la figura
2.12, observe que con este procedimiento la moda estar siempre ms cerca de la clase adyacente
con mayor densidad de frecuencia.
Con la notacin que aparece en el grfico y sabiendo que los tringulos AOB y DOE son
semejantes, se puede escribir:
M0 = Li-1 + r
Roberto Behar y Mario Yepes
Captulo 2
117
Adems
r
OG
:1
, de donde :
!
!
Ci r
OF
:2
r!
:1
9 Ci
:1 ' : 2
De esta manera
M 0 ! Li
'
:1
9 Ci
:1 ' : 2
(*)
f
:1 ! i
Ci
fi 1
Ci 1
f
:2 ! i
Ci
f i '1
C i '1
M 0 ! Li 1 '
2 fi
Ci
fi
Ci
fi 1
Ci 1
fi 1
Ci 1
f i '1
C i '1
9Ci
Donde:
(Li-1 , L1] : clase que contiene la moda
fj
Cj
118
Ejemplo 2.12
Calcular la moda, a partir del siguiente cuadro de frecuencias:
Como puede apreciarse la clase de mayor densidad de frecuencia es (40, 70] as pues que:
M 0 ! 40 '
(15%
.
.
15%
1%
1%) ' (15%
.
M0
0.5%)
- 30
! 50
La moda se usa con mucha frecuencia como indicador de centralidad en caractersticas que tienen
escala nominal dbil, como la escala nominal u ordinal, no obstante tiene grandes aplicaciones en
variables continuas de escala fuerte, por ejemplo en biologa, cuando se quiere asociar por
ejemplo edasd y longitud de peces, seguir el comportamiento de la moda en el tiempo, es una
manera de hacer seguimiento a una cohorte de peces. Una aplicacin extraordinariamente
importante de la moda, la constituye el llamado mtodo de la mxima verosimilitud para
construir estimadores, que es muy usado por sus importantes propiedades asintticas. El
resultado de estos mtodos es el hallazgo de la moda de una funcin de probabilidad o de
densidad, llamada funcin de verosimilitud.
2.4.1.4 La media geomtrica
Captulo 2
119
Ejemplo 2.13
Una poblacin que tena 10.000 habitantes en el ao cero, creci el primer ao a una tasa del 2%,
el segundo ao creci a una tasa del 4% y el tercer ao al 10%. Cul es el factor de expansin
promedio de la poblacin en los 3 aos?
La poblacin al final del primer ao, ser:
P1=10.000 +2%. 10.000= 10.000+0.02 (10.000) =10.000(1+0.02)=10.000(1.02), es decir que la
poblacin se ha expandido por un factor multiplicativo f1=1.02
Veamos el siguiente esquema:
Lo cual significa que al final del ao 1, la poblacin era de 10.200 habitantes, es decir se
multiplic por el factor de expansin f1 = (1 + 0.02) = 1.02 , al siguiente ao, los 10.200
crecieron en un 4% para quedar al final del ao 2 una poblacin de 10.608, es decir que los
10.200 se multiplicaron por el factor de expansin f2 = (1 + 0.04) = 1.04; por ltimo los 10.608
se multiplicaron por el factor de expansin f3 = (1 + 0.10) = 1.10 para resultar al final del tercer
ao, una poblacin de 11.669 habitantes es decir que:
P3 = P0 . f1 . f2 . f3
= 11.669
120
El factor f de expansin promedio debe ser tal que comenzando con la misma poblacin P0 y
expandindose por el mismo factor f todos los aos, al final del tercer ao debe obtenerse la
misma poblacin P3 que producen los factores f1, f2, y f3.
Veamos como actuara f promedio, en el siguiente esquema:
Es decir que si la poblacin se expandiera cada ao por el mismo factor f, la poblacin al final del
tercer ao ser: P0 f3 que debe ser equivalente con la aplicacin de los factores f1, f2, f3, o sea:
P0 . f3 = P0 . f1 . f2 . f3
f !
As que:
f1 ; f 2 ; f 3
102
. - 104
. - 110
. ! 10527
.
Captulo 2
121
Generalizando se dir que la media geomtrica M.G. de los datos x1, x2, ...,xn es:
M.G.=
x1 ; x 2 ; ... ; x n
M.G. !
#x $ ; #x $
' n1
1
' n2
2
# $
; ... ; x m'
nm
Observe que esta media, por su carcter multiplicativo se denomina geomtrica pues la
media del factor de expansin es una razn de crecimiento geomtrico, si quisiramos ir
generando los trminos de dicha serie bastara con ir multiplicando cada vez por el factor F.
En contraposicin la media aritmtica es un valor x tal que tiene el mismo efecto aditivo
que los datos, de la manera que si reemplazramos cada dato por la media, la suma no se
alterara, es decir que se cumple que :
Indicadores de dispersin
122
Se tiene dos grupos de datos, el grupo A: 2, 98, 3, 97, y el grupo B: 49, 51, 48, 52; obsrvese
que aunque en ambos grupos el promedio es 50, da la impresin de que este promedio representa
mejor los datos del grupo B que los del grupo A, puesto que los datos del grupo B estn menos
dispersos.
Las medidas de centralidad y las de dispersin devenir siempre juntas. Tomar decisiones solo
con base en la media puede ser muy riesgoso.
Imaginemos tan solo una maquina empacadora de arroz que en promedio produce bolsas de un
kilogramo. Juzgaramos que est bien, con tan solo esta informacin? La respuesta es no. Pues
una maquina que en las bolsas etiquetadas con Un Kg de contenido, la mitad de las veces
empaca 1,5 Kg y la otra mitad de las veces empaca 0,5 Kg, estara empacando exactamente en
promedio un Kilogramo por bolsa, pero sera un desastre pues aunque habr un 50% de clientes
muy contentos, cada vez habr un 50% muy disgustados y hasta demandando a la empresa. Si
conocer la variabilidad es muy difcil tomar buenas decisiones.
En dos oficinas de un banco Ay B, la distribucin de los tiempos que tardan en gestionar una
hipoteca es distinta. El banco A, se tarda en promedio 3 meses, mientras que el banco B, se tarda
en promedio 4 meses. Es preferible el banco A, en cuanto al tiempo de gestin de una hipoteca?.
La respuesta es no necesariamente, observe usted algunos datos:
Banco A 5
Media : 3 meses
Banco B
Media: 4 meses
A la Luz de los datos: Cul banco Prefiere?. Cuando en el banco A, cuando uste pregunta.
Cunto se puede tardar mi hipoteca? El banco A, le responde : Un promedio de 3 meses, le
estn diciendo la verdad, pero podr usted hacer planes tranquilo?. no!. La verdad es que mas
del 40% de la veces se tardan ms de 4 meses , y casi el 30% de las veces se tardan 5 meses o
mas. Si usted planea con base en 3 meses, tiene un riesgo lato de fracasar.
Captulo 2
123
El banco B, se tarda un poco mas. Pero es mucho ms fiable, la afirmacin de banco B: Nos
tardamos un promedio de 4 meses, es ms parecido a lo que le podra ocurrir a usted.
Estudios han demostrado que los clientes perciben ms la variabilidad que la media. El banco B,
tendr mejor prestigio con sus clientes que el banco A, pues este ultimo tendr un porcentaje alto
de clientes que sintieron que el banco no les dijo la verdad.
Por eso, nunca se conforme con la media o con una medida de tendencia central, siempre
pregunte por la variabilidad.
Algunas de las medidas de dispersin o variabilidad ms importantes son las siguientes:
2.4.2.1 El rango. (r)
r = max(xi) - min(xi)
Por ejemplo, en la muestra: 2, 4, 3, 1, 7, 1, 11, 2, 3, 94. El rango es r = 94 - 1 = 93
El rango es sencillo de calcular y de muy fcil interpretacin, pero tiene la gran desventaja que es
demasiado sensible a valores extremos, en el ejemplo se observa que todos los datos, excepto el
94, estn entre 1 y 11, sin embargo, un valor extremo (94) hace que el rango sea 93.
2.4.2.2 La desviacin media (D.M)
"x
D.M. !
Me
i! 1
Si se dispone de una distribucin de frecuencias, donde cada xi aparece asociado con su frecuencia ni, entonces puede escribirse:
124
" ni xi
D.M. ! i !1
" f i xi
i !1
continuacin:
Si los datos estn agrupados en intervalos de clase, una expresin aproximada para el clculo de
la desviacin media es:
m
D.M. !
"
i !1
ni xi'
" f i xi'
i !1
4' 5
4' 8
4' 1
5
4' 4
! 2
Lo cual indica que en promedio los datos estn separados de la mediana Me en 2 unidades.
Captulo 2
125
1 n
" xi
n i! 1
1
S !
ni #xi
n i !1
"
x$ !
2
" f i #xi x $2
i !1
Si los datos estn agrupados en intervalos de clase, una expresin aproximada para la varianza es:
S2 !
" #
1
ni xi'
n i !1
i !1
No obstante que la varianza est dada por una expresin cuadrtica, que ofrece muchas ventajas
en la manipulacin matemtica, tiene algunas desventajas, entre las cuales estn: su no fcil
interpretacin directa y que sus unidades no coinciden con las unidades de la variable en estudio,
as por ejemplo si x est en metros, su varianza estar dada en metros cuadrados. Esta ltima
desventaja se pretende remediar extrayendo la raz cuadrada a la varianza para obtener la que se
conoce como desviacin estndar (S), que ser:
S"
1
$ xi # x
n
126
un intervalo con centro en la media y con extremos ubicados a una distancia de k veces la
desviacin estndar S, en dicho intervalo est por lo menos (1 -
1
) x 100% de los datos; escrito
k2
en smbolos ser:
f x # ks, x & ks ! % 1 #
1
k2
1
22
" 0.75
Es decir que en el intervalo construido a 2 desviaciones estndar a cada lado de la media est por
lo menos el 75% de los datos. Para k = 3, se dice que est por lo menos el 88.8% de los datos.
Este principio proporciona cotas para la frecuencia, en trminos de la desviacin estndar, lo cual
ayuda a su interpretacin, pero como es muy general, dichas cotas pueden ser muy bajas, se
observa que para k = 1 el principio dice que en el intervalo ( x # s , x & s ) hay por los menos el
0% de los datos, lo cual es obvio.
Propiedades de la varianza
Las propiedades que se presentan a continuacin pueden ser heredadas por la desviacin estndar
con las limitaciones que genera la funcin raz cuadrada.
n
1.
S2 "
$x
i
2
i
# x
Captulo 2
127
Esta, ms que una propiedad es una forma alternativa de calcular la varianza, realizando menos
clculos numricos que con la expresin que proporciona la definicin. Su demostracin es la
siguiente:
S2 "
"
1 n
$ xi # x
n i" 1
2
1 n ' 2
x i # 2 xx i & x *
$
,+
n i" 1 ()
"
n
1
1
1 n
x i2 # - 2 x $ x i & $ x
$
n
n
n i" 1
i" 1
$x
"
1
i" 1
$ xi2 # 2 x - n
n
"
1
$ xi2 # 2 x
n
S2 "
1
$ xi2 # x
n
1
-n x
n
&
& x
2.
constante,
3.
1
, que siempre es positiva.
n
Sx2 = 0
S x2 "
2
1 n
x i # x , pero se sabe que si xi = C entonces x " C , de este modo:
$
n i" 1
128
S x2 "
4.
1 n
2
$ C # C! " 0
n i" 1
i = 1, 2, ..., n
Es decir: si se tiene una muestra x1, x2, ...,xn, que tiene varianza S2x y cada dato se multiplica por
la constante k, la varianza de esta nueva muestra:
Kx1, Kx2, ..., Kxn, ser k 2 S x2
S y2 "
"
1 n
$ kxi # k x
n i" 1
"
1 n 2
$ K xi # x
n i" 1
" K2 -
1
$ xi # x
n
K 2 S x2
"
5.
Si yi = xi + C, entonces S y2 " S x2
i = 1, 2, ..., n
Es decir: que si todos los datos se trasladan la misma distancia C, la varianza no cambia,
lo cual puede verificarse as:
S y2 "
"
"
1
$ yi # y
n
"
1
$ xi & C! # x & C
n
1
$ xi & C # x # C
n
"
S x2
Roberto Behar y Mario Yepes
1
$ xi # x
n
!/
Captulo 2
129
Ejemplo 2.14
Dada la siguiente distribucin de frecuencias sobre una variable continua x, que se presenta en el
cuadro, en el que se registra: el intervalo de clase ( X i' ), las frecuencias absolutas y las frecuencias
relativas.
$n
x i' # M e
i" 1
D.M."
M e " 40 &
0.50 # H Li #1 !
0 Ci
fi
0.50 # 0.45
0 30 " 46
0.25
Entonces
D.M."
D.M. 1 21.15
130
Lo cual indica que en promedio los datos estn separados de la mediana en 21.15
unidades
b) Calcule la varianza
Usando la forma simplificada:
S2 = Promedio de los cuadrados, menos, promedio al cuadrado
"
$ ni x i'
"
S"
1
22
"0.75375%
x # 2s "49.75 # 2 23.5!"2.75
x & 2s "49.75 & 2 23.5!"96.75
Estimando de acuerdo con la tabla de frecuencias qu porcentaje de datos hay en el
intervalo (2.75 , 96.75):
Captulo 2
131
010
.
2 16.75
20
C.V. "
S
2 100%
x
Entonces, si una muestra tiene una media aritmtica x = 40.000 metros y una desviacin
estndar S = 500 metros entonces:
C.V. "
500
2 100% " 125%
.
40.000
132
Captulo 2
133
Usando la ojiva
c.2
c.3
134
Verifique si:
Zi "
Xi # X
Sx
i " 1, 2, . . . , n
Captulo 2
135
S2 "
f)
n1S12 & n2 S 22
n1 & n2
Si a los datos: x1, x2, ..., xn, de una muestra se aplica la transformacin
yi = axi + b, con a > 0 y b > 0, entonces "y" tiene menor dispersin relativa que "x"
136
7.2 Determine qu porcentaje de las familias tienen 3 personas o menos que son menores
de 12 aos.
7.3 Si la poblacin consta de 1.200 familias estime usted, el nmero de personas menores
de 12 aos.
7.4 Usted est seguro del resultado obtenido en el numeral 7.3 ? qu supuesto est
implcito en la estimacin?
7.5 Construya un grfico para la distribucin emprica de frecuencias acumuladas
relativas.
8. Una compaa constructora resuelve estudiar en un concreto su resistencia a la compresin, con el objeto de hacer un control de calidad. Para ello se tomaron 50 cilindros de
prueba de acuerdo con las normas establecidas. Los resultados en kg/cm2 de presin
obtenidos al cabo de 28 das de curado fueron:
Captulo 2
137
138
a)
Captulo 2
139
140
CAPITULO 2
DISTRIBUCIONES UNIDIMENSIONALES DE FRECUENCIA .............................................47
2.1 CASO DE UNA VARIABLE DISCRETA .......................................................................47
Propiedades y relaciones .......................................................................................................50
REPRESENTACION GRAFICA .........................................................................................52
2.2 CASO DE UNA VARIABLE CONTINUA .......................................................................54
OBSERVACIONES..............................................................................................................56
2.2.1 Funcin emprica de densidad, f*(x). ...........................................................................59
2.2.2. Funcin emprica distribucin acumulativa, F(x). .....................................................63
2.3 CUARTILES DE UNA DISTRIBUCION..........................................................................86
2.3.1 Diagrama de caja y Alambres ....................................................................................88
2.3.2 Como calcular los cuartiles, cuando los datos no estan agrupados ...........................91
Construya usted el diagrama para este caso. .........................................................................94
2.4 REDUCCION DE DATOS ...............................................................................................101
2.4.1 Indicadores de tendencia central ................................................................................101
2.4.2 Indicadores de dispersin ...........................................................................................121