Professional Documents
Culture Documents
ESTADÍSTICA DESCRIPTIVA
SANTIAGO DE CALI
2007
PROLOGO
Este texto espera brindar una guía para la exploración y el análisis de información,
sin recurrir a la rigurosidad de la probabilidad.
I. Introducción
II. Áreas de Aplicación
III. Terminología Básica en Estadística. Ejercicios
IV. Etapas de la Investigación Estadística. Ejercicio
1. Repaso de Sumatorias
1.1. Algunas propiedades de las sumatorias.
1.2 Ejercicios
2. Descripción de la información muestral
2.1. Tabulación de datos caso atributos
2.1.1.Gráfico circular
2.1.2.Diagrama de Barras
3. Distribución unidimensional de frecuencias
3.1. Caso variable discreta
3.1.1. Función de distribución de frecuencias
3.1.2.Representación grafica
3.1.3.Función Empírica de Distribución Acumulada Relativa
3.1.4.Reducción de datos cuando la variable es Discreta
3.1.4.1. Medidas de tendencia central
3.1.4.1.1.La Media.
3.1.4.1.2. Propiedades de la Media.
3.1.4.1.3.La Mediana
3.1.4.1.4. La Moda.
3.1.4.1.5. La Media Geométrica
3.1.4.1.6.Cuartiles, Deciles y Percentiles
3.1.4.2. Medidas de dispersión
3.1.4.2.1.El Rango
3.1.4.2.2. La Varianza
3.1.4.2.3.Propiedades de la Varianza.
3.1.4.2.4.Desviación estándar y Regla empírica
3.1.4.2.5.Coeficiente de Variación
3.1.5. Medidas de deformación
3.1.5.1.Coeficiente de Asimetría
3.1.6. Medidas de apuntamiento
3.1.6.1.Coeficiente de Curtosis
3.2. Caso variable continua
3.2.1Función de distribución de frecuencias
3.2.2.Tabulación de la Información.
3.2.3.Representación gráfica
3.2.4.Función empírica de densidad
3.2.5.Función empírica de distribución acumulada
3.2.5.1.Aplicaciones de esta función
3.2.6.Reducción de datos para variables continuas
3.2.6.1.Medidas de tendencia central
3.2.6.1.1. La Media
3.2.6.1.2. La Mediana
3.2.6.1.3.La Moda
3.2.6.2.Medidas de dispersión
3.2.6.2.1.La varianza muestral
3.2.6.2.2.Desviación estándar
3.2.6.2.3.Coeficiente de Variación
3.2.7.Coeficiente de Asimetría
3.2.8.Coeficiente de Curtosis
3.2.9.Percentiles
3.3. Ejercicios
Bibliografía
I. INTRODUCCIÓN
Además hay leyes rigurosas para poder poner una droga en el mercado, debido a
los efectos colaterales, de ahí que haya que diseñar un experimento que
determine niveles de sensibilidad y la dosis adecuada que ataque la enfermedad y
no produzca molestias.
Sesgo: Son errores no debido al azar, que hacen que el resultado del muestreo
difiera del verdadero, es de naturaleza sistemática ó sea en el mismo sentido,
generalmente no son cuantificables y a lo sumo se pueden prevenir con medidas
de tipo administrativo al realizar la encuesta.
Estadígrafo: Es una función numérica dada, evaluada por los datos de una
muestra, actúa como estimador y es simbolizada por letras latinas.
Escala ordinal: En este caso las categorías generan un orden explícito sirven para
comparar, si se usa una base de datos los números (o códigos) sirven para
nombrar como etiquetas las categorías y comparar.
También se define que una variable que depende en su resultado de otras estaría
medida en escala de intervalo (adición o resta)
Ejemplo la utilidad es una variable medida en escala de intervalo puesto que ella
depende de dos variables para ser obtenida (ingresos menos egresos), si una
empresa tiene utilidad cero no significa que no hizo nada.
TIPOS DE PREGUNTAS
Preguntas de opción múltiple con una sola respuesta, Se utiliza cuando la consulta
de interés presenta varias opciones de respuesta, pero, solo una deberá ser
escogida
Ejemplo, ¿Cuál es su estado civil? 1. Casado, 2 Soltero, 3 Unión libre, 4
Separado, 5 Viudo
Preguntas de opción múltiple con múltiple respuesta, Se utiliza cuando la consulta
de interés presenta varias opciones de respuesta, donde todas o algunas o alguna
respuesta puede o pueden ser escogidas
Ejemplo, ¿Con qué tipo de negocio tiene relación comercial su empresa? 1 De
servicios, 2 De producción, 3 De comercio, 4 Otro ¿Cuál?
EJERCICIOS
EJERCICIO
1. REPASO DE SUMATORIAS
X1 = 1, X2 = 2, X3 = 1, X4 = 2 y X5 = 0.
Entonces, se recurre a una sumatoria, para sumar los valores desde X1 hasta X5,
de ahí que se necesite un subíndice i que se itere ó vaya cambiando desde 1
hasta 5, o sea que la sumatoria iría desde i = 1 hasta i = 5, que es la posición
máxima, equivalente a n.
n 5
Xi = Xi = X1 + X2 + X3 + X4 + X5 = 1 + 2 + 1 + 2 + 0 = 6
i=1 i=1
Observe que la variable Xi varía su valor de acuerdo al valor que tome el subíndice
i (valor de posición).
3
Xi = X1 + X2 + X3 = 1 + 2 + 1 = 4
i=1
4
Xi = X2 + X3 + X4 = 2 + 1 + 2 = 5
i=2
4 2
Xi = X 2 + X 2 + X 2 = 22 + 12 + 22 = 9
2 3 4
i=2
F1 = 2, F2 = 1, F3 = 3, F4 = 1 y F5 = 2.
5
XiFi = X1F1 + X2F2 + X3F3 + X4F4 + X5F5 = 1x2 + 2x1 + 1x3 + 2x1 + 0x2 = 9
i=1
Observe que las variables Xi y Fi varían sus valores de acuerdo al valor que tome
el subíndice i (valor de posición).
4
XiFi = X2F2 + X3F3 + X4F4 = 2x1 + 1x3 + 2x1 = 7
i=2
3 2
Xi Fi = X 2F1 + X 2F2 + X 2F3 = 12x2 + 22x1 + 12x3 = 11
1 2 3
i=1
4 2 2
Xi Fi = X 2F 2 + X 2F 2 + X 2F 2 + X 2F 2= 12x22 + 22x12 + 12x32 22x12= 21
1 1 2 2 3 3 4 4
i=1
4
(XiFi) 2 = (X2F2)2 + (X3F3)2 + (X4F4)2 = (2x1)2 + (1x3)2 + (2x1)2 = 17
i=2
4 2 2
(Xi Fi) = (X 2F2)2 + (X 2F3)2 + (X42F4)2 = (22x1)2 + (12x3)2 + (22x1)2 = 41
2 3
i=2
n
C = C + C + .…. + C = n C
i=1
La sumatoria de una variable afectada por una constante, es igual a la
constante por la sumatoria de la variable.
n n
CXi = CX1 + CX2 + .…. + CXn = C (X1 + X2 + …… + Xn) = C Xi
i=1 i=1
La sumatoria de una variable afectada de una combinación lineal con una
constante, es igual a la sumatoria de la variable más ó menos n veces la
constante.
n
(C + Xi) = (C + X1) + (C + X2) +.….+ (C + Xn) = X1 + X2 +……+ Xn + C +....+ C
i=1
n
= Xi + n C
i=1
n
(Xi - C) = (X1 - C) + (X2 - C) +.….+ (Xn - C) = X1 + X2 +……+ Xn - C – C -....- C
i=1
n
= Xi - n C
i=1
n
C = (n – m + 1) C
i=m
1. Sean : X1=5, X2=4, X3=6, X4=0, X5=1 y F1=2, F2=3, F3=1, F4=2, F5=4
Halle:
5
a. Xi = 16
i=1
4
b. Xi = 10
i=2
5
c. (Xi)2 = 78
i=1
5
d. (Fi) (Xi) = 32
i=1
5
e. (Fi Xi)2 = 296
i=1
5
f. Fi(Xi)2 = 138
i=1
5
g. (Fi)2 Xi = 78
i=1
5
h. 9 (Xi) = 144
i=1
5
i. (9 + Xi) = 61
i=1
5
j. (Xi - 2) = 6
i=1
5
k. (Xi + 2) = 26
i=1
5
l. 9 = 45
i=1
4
m. 9 (Xi) = 90
i=2
5
n. 9 (Xi + 6) = 414
i=1
5
o. 9 (Xi - 2) 2= 306
i=1
5
p. (Xi - 2)/n = 1.2
i=1
5 5
q. (Xi + 5) / (Xi - 2) 2= 14.52
2
i=1 i=2
5 4
r. (Xi + 5) / (Xi + 2) 2= 15.6928
3
i=2 i=1
4
b. (Xi +hi ) 2=
i=1
5
c. (Xi * hi + i ) 2=
i=1
( X1 + 2 ) 2 + ( X2 + 2 ) 3 + ( X3 + 2 ) 4
2. DESCRIPCIÓN DE LA INFORMACIÓN MUESTRAL
Grados: se utiliza para el diagrama circular, a través de una regla de tres simple,
como es
360º 20
¿? Ni
Observe que el mayor flujo de turistas de otros países en dicho hotel, está a cargo
de mexicanos con un 25% y el menor por los cubanos con un 10%.
5
4
3
2
1
0
Argentina Brasil Cuba Mexico Perú Venezuela
Oct-97 Oct-98
Esta información hay que tabularla, graficarla y hallar estimadores a través de una
reducción de datos.
Deducciones:
k
ni = n, donde k = No de valores distintos que toma la variable X.
i =1
k
hi = 1
i =1
j k
Nj = ni ijk Nk = ni = n
i =1 i =1
j k
Hj = hi ijk Hk = hi = 1
i =1 i =1
hi = n i / n Hi = Ni / n
Los ni y los Ni son números naturales incluyendo el cero, los hi y los Hi están entre
cero y uno.
3.1.2. REPRESENTACIÓN GRAFICA
4
No de familias
0
0 1 2 3
No de hijos por familia
Diagrama de Frecuencias Acumuladas, donde en el eje Y están los valores de N i.
Hi
1.0
0.7 o
0.3 o
0.1 o
0
0 1 2 3 X (No hijos / familia)
0 si X X1
H*(X) = Hi si Xi X X(i + 1)
1 si X Xk
0 si X0
0.1 si 0 X 1
H*(X) = 0.3 si 1 X 2
0.7 si 2 X 3
1 si X3
Obsérvese un ejemplo de aplicación, supóngase que se está interesado en saber,
que porcentaje de familias tiene a lo sumo 2 hijos.
Si se desease saber que porcentaje de familias tienen entre uno y dos hijos, se
tendría que hallar: H*(2) – H*(1) = 0.7 – 0.3 = 0.4, o sea, que el 40% de las
familias en la muestra tienen entre dos y un hijo.
El Rango
La Varianza Muestral
La Desviación Estándar
Coeficiente de Variación
El coeficiente de Asimetría
Medidas de Apuntamiento
El Coeficiente de Curtosis
n
Xi
i=1
X = -------------
n
k
Xi ni
i=1 k
X = ------------- = Xi hi
n i=1
3.1.4.1.2. Propiedades de la Media.
1. La suma de las desviaciones de los datos con respecto a la media debe ser
cero.
(Xi – X) = 0
2. Si todos los valores de los datos X1, X2, X3,........., Xn, son iguales a una
constante k, entonces la Media será igual a esa constante k.
Si Xi = k X=k
Por ejemplo, si todos los niños del grado cero en la escuela Honorio
Villegas tienen cinco años, entonces el promedio de edad del salón de
grado cero de la escuela Honorio Villegas será cinco años.
3. Si todos los datos de una muestra se multiplican por una misma constante
el promedio resulta multiplicado por la misma constante.
Si Y = a Xi Y=a X
Si W = X + Y W = X+ Y
n1 X1 + n2 X2 + n3 X3 + ............. + nk Xk
X= -------------------------------------------------------------
n
Ecuación 1 : n=H+M
XM M + XH H
XT = ----------------------------------
n
M=n-H
XM ( n - H) + XH H
XT = ----------------------------------
n
XT * n = XM ( n - H) + XH H
XT * n = XM * n - XM * H + XH * H
-12 = -1.5H
H = -12 / -1.5
H=8
k
Xi ni
i=1 k
X = ------------- = Xi hi
n i=1
4
Xi ni (0*1) + (1*2) + (2*4) + (3*3) 19
i=1 = ------------------------------------ = ----- = 1.9
----------- 10 10
n
4
Xi hi = (0*0.1) + (1*0.2) + (2*0.4) + (3*0.3) = 1.9
i=1
Obsérvese, que el promedio dio 1.9, pero como es una variable discreta su
interpretación se asume como un valor entero.
Me = (X ((n/2) + 1) + X (n/2))/2
Para este caso como n = 10, es par, por lo tanto la Mediana en esta situación será
= (X ((n/2) + 1) + X (n/2))/2
(n/2) = 10/2 = 5
(n/2) + 1 = 5+1 = 6
Ahora bien los valores de X, para estas dos posiciones es 2, por lo tanto la
Mediana será igual a:
2+ 2
Me = ----------- = 2
2
Si se resuelve con la Frecuencia Relativa Acumulada se observa que el 50% está
contenido en H3 = 0.7, ya que en él están contenidos los valores 0.4, 0.5, 0.6 y 0.7,
este valor H3 corresponde al valor de X = 2, o sea que la Mediana es 2.
Interpretando este resultado se tiene que en ese barrio de la ciudad el 50% de las
familias tienen dos hijos ó más y el otro 50% tienen entre dos hijos ó menos.
Véase el siguiente ejemplo, los salarios semanales por empleado de una empresa
tienen la siguiente distribución:
0.2 + 0.1 + 0.25 = 0.55, luego entonces aquí estaría contenido el 50%, de ahí se
tiene que:
3.1.4.1.4. La Moda. En los datos de una muestra es aquel que tiene la mayor
frecuencia, con lo cual se denominaría moda absoluta, en caso de que exista más
de un valor con la mayor frecuencia se denominará Multimodal, si es una será
unimodal y si son dos será bimodal y así sucesivamente. Su notación es Mo.
n
Mg = X1n1 * X2 n2
* ......* Xn nk , donde n1 + ……. + nk = n
Tasa de interés
El factor de crecimiento = 1 + --------------------------
100
Como se está hallando un valor futuro al quinto año de 1.000 dólares, se recurre a
la fórmula financiera de valor futuro.
Se hallará el valor futuro con los dos promedios y así determinar cual es el más
apropiado.
Con lo cual se puede observar que el promedio más adecuado cuando se trabaja
con tasas es la Media Geométrica.
Se puede resolver cada caso con una fórmula específica, o sea, una para
cuartiles, otra para deciles y otra para percentiles, pero el cuartil 1 es igual al
percentil 25 y los otros cuartiles tendrán también su equivalente, lo mismo es con
los deciles, por ejemplo el decil 2 es el percentil 20 y así también los otros deciles.
PERCENTILES.
1 n
S = 2
----- (Xi – X)2
n i=1
k
S2 = ni (Xi – X)2
i=1
-----------------------------
n
k
S2 = hi (Xi – X)2
i=1
Para cálculos se trabaja con :
k
Xi2 ni n X2
i=1
S2 = --------------------- – --------------
n–1 n-1
si n 30
y con :
k
Xi2 ni
i =1
S2 = --------------- - X2
n
si n 30
S2 ( K ) = 0
Para el caso del número de hijos por familia en un barrio de la ciudad, se desea
saber cual es su variabilidad y que tanto se desvían los datos de la Media.
k
Xi2 ni – n X2
i=1
S = -----------------------------
2
n-1
k
Y Xi2 ni = (02 * 1) + (12 * 2) + (22 * 4) + (32 * 3) = 45
i =1
45 – 10 (3.61) 8.9
de ahí se tiene que S2 = ------------------ = --------- = 0.99
9 9
que es la variabilidad general de la muestra y su desviación estándar será:
S = 0.994
Por lo tanto los datos se desvían 0.994 con respecto al promedio, según
Tchebycheff se puede generar un intervalo con centro en la Media y los extremos
se forman aumentando y quitando la desviación estándar k-veces, para definir que
% de los datos está contenido en dicho intervalo, a través de (1 – (1/k2)) = %.
Con base en la regla empírica (cuando la distribución de los datos tenga forma de
campana) la mayoría de los datos (68%) estarán alrededor de la media a una
desviación de diferencia:
= 2.894 ; 0.906
Así mismo la gran mayoría el (95.5%) de los datos estarán a dos desviaciones de
diferencia de la media y la gran totalidad ó nuevamente la gran mayoría (99.7%)
de los datos estarán alrededor de la media a una diferencia de tres desviaciones.
¿El valor aproximado hasta el que se acumula el 97.75% de los datos es 55.?
De forma similar al punto anterior, para hallar el percentil el intervalo con dos
desviaciones sería el 95.5%, más el 2.25% inicial daría el 97.75%, luego entonces
el valor a busca es la media más dos desviaciones, 40 + 8 = 48 y no 55.
Realiza este ejercicio de aplicación. Para el rector de una universidad, los puntos
obtenidos por los aspirantes en las pruebas de admisión constituyen una variable
aleatoria con polígono de frecuencias relativas que sugiere una distribución
simétrica y en forma de campana. A su juicio la proporción de estudiantes que
obtienen más de 400 puntos es 0.0225 y además la proporción de estudiantes que
obtienen más de 370 puntos es 0.17. ¿Cuáles son la media y la desviación
estándar en esta prueba?.
S
CV (%) = x 100%
Para el caso del número de hijos por familia la variabilidad relativa es:
0.994
CV = --------- * 100% = 52.3 %
1.9
Al tener que compararse dos muestras, para escoger una de las dos, se escogería
la de menor coeficiente de variación.
g1 = ((Xi – X) / S)3 * hi
i=1
Si es con datos agrupados, solamente es cambiar los Xi por sus Marcas de Clase
Mi.
Si g1 = 0, la distribución es Simétrica, si g1 es mayor que cero (0) la distribución
será Asimétrica positiva y si g1 es menor que cero (0) la distribución será
Asimétrica negativa.
3 (Media – mediana)
CA :
(Desviación estándar)
Se define por:
k
g2 = ((Xi – X) / S)4 * hi
i=1
EJERCICIOS
Los conceptos son los mismos en forma general, que para el caso de variable
discreta, lo diferente son las fórmulas utilizadas.
Sea X la variable Nivel de glucosa en la sangre de los niños, que asisten a control
en un Centro de Salud de la ciudad.
64 36 49 53 67 57 61 58 72 58 40 56
68 63 42 50 56 30 79 54 65 63 34 54
74 52 50 42 51 45 57 51 32 49 58 55
60 42 53 50 38 69 47 59 49 50 76 66
K = 48 = 6.9 , se aproxima a 7
Definir el tamaño de los intervalos (C), si no se tiene idea, con que tamaño
de intervalos trabajar, ya que el investigador los puede construir a su
manera, se halla de la siguiente forma:
Rango
C = --------------
K
Si los datos contienen valores muy pequeños, el tamaño de los intervalos se deja
tal como da, si por el contrario son valores grandes se puede aproximar a valores
enteros, fáciles de manejar.
En lo posible se debe tratar de construir intervalos del mismo tamaño, ya que esto
simplifica algunos cálculos y facilita la interpretación de la información.
49
C = ------------ = 7
7
(Valor mínimo - Valor mínimo + 7), el límite superior de este intervalo será el
límite inferior del siguiente intervalo y su límite superior será, este nuevo valor de
límite inferior más 7 unidades y así sucesivamente.
Es importante tener en cuenta que debe existir continuidad entre los intervalos, o
sea que el valor que es límite superior en un intervalo dado, será límite inferior en
el siguiente.
Nótese que todos los valores deben quedar contenidos en los intervalos, esto se
garantiza con el 30 y el 79 que son los valores máximo y mínimo, estén contenidos
en la tabla de frecuencias, ahora bien, si entre los datos estuviera el valor 44,
existiría la duda que origina la siguiente ambigüedad, que el valor 44 pertenece al
intervalo No 2 y al No 3.
Entonces, ¿en cuál de los dos colocarlo?, pero un valor debe pertenecer a un
intervalo y solo uno. Hay varias opciones de solucionar dicha ambigüedad, una es
definiendo intervalos cerrados ó abiertos en los límites, por ejemplo si el intervalo
2, su límite superior es abierto y el intervalo 3 su límite inferior es cerrado, esto
significa que el 44 no estará contenido en el segundo intervalo, pero si lo estará en
el tercer intervalo, otra forma es generando Intervalos Reales de clase, que en
últimas son los que se colocarían en la tabla de frecuencias en vez de los
intervalos iniciales y se construyen de la siguiente forma:
Si son valores enteros los datos de la muestra, se le resta 0.5 a cada límite y en el
caso de que el último intervalo al restarle 0.5 no contendría el valor 79, entonces
en vez de quitarle 0.5 al límite superior, se le aumenta ó se deja tal como está, si
los datos de la muestra tienen un decimal, se le quita 0.05 a cada límite y si los
datos constan de dos decimales, se les quitará 0.005 a cada límite y así
sucesivamente.
Hay que construir los límites reales, para que cada valor pertenezca a un solo
intervalo y solo uno.
1 29.5 36.5
2 36.5 43.5
3 43.5 50.5
4 50.5 57.5
5 57.5 64.5
6 64.5 71.5
7 71.5 79.5
volviendo al caso del valor 44, ahora si se puede decir sin ninguna duda a que
intervalo pertenece dicho valor, al intervalo No 3, note que por uniformidad y para
que contuviera el máximo valor 79, se le aumentó 0.5 al límite superior del último
intervalo 79.
Por ejemplo para el primer intervalo No 1, su Marca de Clase será igual a sumar
sus límites y dividirlos por dos, así:
Al construirse los intervalos todos deben contener datos, sino hay que
reconstruirlos, ya que un intervalo sin datos, distorsiona la idea de la distribución
de la información, en esta fase exploratoria a través de la muestra.
Histograma
14
12
Frecuencia absoluta ni
10
8
6
2
0
33 40 47 54 61 68 75,5
Marcas de Clase
Normalmente se colocan en el eje X los valores de los límites de los intervalos, (en
este caso se omiten por espacio solamente y se colocaron las marcas de clase).
Al unir las marcas de clase a través de una línea, se forma otro gráfico como es el
Polígono de Frecuencias, el cual empieza en el límite inferior del primer intervalo y
termina en el límite superior del último intervalo.
Frecuencias Absolutas ni
14
12
10
8
6
4
2
0
29,5 33 40 47 54 61 68 75,5 79,5
Marcas de Clase
Ojiva
120,00%
100,00%
Frecuencia
80,00%
60,00%
40,00%
20,00%
,00%
29,5 36,5 43,5 50,5 57,5 64,5 71,5 79,5
Intervalos de Clase
Existen otros tipos de gráficos como el de línea, que utilizado si en el eje X está el
tiempo.
EJERCICIO
160,000
140,000
Miles de m3
120,000
100,000
80,000
60,000
40,000
20,000
0
1987 1989 1991 1993 1995 1997 1999 2001 2003 2005
Año
Residencial Comercial-industrial Oficial-otros
2,500,000
Mwh
2,000,000
1,500,000
1,000,000
500,000
0
1987 1989 1991 1993 1995 1997 1999 2001 2003 2005
Año
Total Residencial
Comercial-industrial Oficial-otros
Municipio Santiago de Cali
Instituciones Educación Superior
Distribución de alumnos matriculados según modalidad
2002
Maestría
1%
Técnica Especialización
4% Doctorado
Profesional
4% 0%
Tecnología
11%
Universitaria
80%
4,000
3,000
2,000
1,000
0
1998 1999 2000 2001 2002 2003 2004
Año
Incendios Otros
Municipio Santiago de Cali
Población total
1999 - 2005
2,450,000 2,423,381
2,400,000 2,369,696
2,350,000 2,316,655
2,300,000 2,264,256
Habitantes
2,250,000 2,212,430
2,200,000 2,161,130
2,150,000 2,110,571
2,100,000
2,050,000
2,000,000
1,950,000
1999 2000 2001 2002 2003 2004 2005
Año
80.0
70.0
60.0
50.0
Tasa
40.0
30.0
20.0
10.0
0.0
1999 2000 2001 2002 2003 2004 2005
h*(X) = hi
------- si Li X L(i + 1)
Ci
Como los tamaños de los intervalos en esta distribución son iguales, exceptuando
el último se puede definir la mayor frecuencia a través de las frecuencias
absolutas ó relativas simples.
0 si X 29.5
0.0833
------------ = 0.0119 si 29.5 X 36.5
7
0.1042
------------ = 0.0149 si 36.5 X 43.5
7
0.1875
------------ = 0.0268 si 43.5 X 50.5
7
0.2500
------------ = 0.0357 si 50.5 X 57.5
7
h*(X) =
0.1875
------------ = 0.0268 si 57.5 X 64.5
7
0.1042
------------ = 0.0149 si 64.5 X 71.5
7
0.0833
------------ = 0.0104 si 71.5 X 79.5
8
0 si X 79.5
0 si X L1
hi
H*(X) = H( i-1)+ -------( X – Li ) si Li X L(i + 1)
Ci
1 si X Lm
Por ejemplo tener a lo sumo 2 hijos, significa que desea tener 0 ó 1 ó 2 hijos, si se
dice que desea ganar a lo menos tres materias de las cinco que ve, está diciendo
que desea ganar 3 ó 4 ó 5 materias.
Se define la función empírica de distribución acumulada, para el nivel de glucosa
en la sangre de los niños, en un centro de salud de la ciudad, así:
0 si X 29.5
H*(X) =
1 si X 79.5
= 0.375 + 0.16065
= 0.53565
Aquí lo que se pide es los niños que tienen un nivel de glucosa entre 55 y 100, por
lo tanto se resuelve de la siguiente manera:
Como está por encima del valor máximo 79.5, se tiene lo siguiente:
100% - 100% = 0%, ya que el H (85) vale 100%, o sea que ningún niño presenta
un nivel de glucosa de a lo menos 85.
Como este valor está por debajo de 29.5 vale 0%, igual que el caso anterior.
H (63) - H (42)
= 0.7724
= 0.0833 + 0.08195
= 0.16525
= 0.60715
k
Mi ni
i=1 k
X = ------------- = Mi hi
n i=1
7
Mi ni (33*4) + (40*5) + (47*9) + (54*12) + (61*9) + (68* 5) + (75.5*4)
i =1
----------- = ------------------------------------------------------------------------------------
n 48
2.594
= ---------------- = 54.04
48
7
Mi hi = (33*0.0833) + (40*0.1042) + (47*0.1875) + (54*0.25) +
i =1 (61*0.1875) + (68* 0.1042) + (75.5*0.0833)
= 54.04
0.5 - H(i-1)
Me = Li + --------------------------- * Ci
hi
(48)/2 - 18
Me = 50.5 + ---------------------- * 7
12
24 - 18
= 50.5 + --------------- * 7
12
6
= 50.5 + --------- * 7
12
= 50.5 + 3.5
= 54
0.5 - 0.375
Me = 50.5 + --------------------------- * 7
0.25
0.125
= 50.5 + --------------- * 7
0.25
= 50.5 + 0.5 * 7
= 50.5 + 3.5
= 54
Por lo tanto el 50% de los datos de la muestra del nivel de glucosa en la sangre de
los niños, están por encima de 54 y el otro 50% está por debajo.
3.2.6.1.3. La Moda, el valor más alto en la muestra ó el que más se repite, y su
forma de hallarlo es, si los intervalos son del mismo tamaño, ubicar el intervalo
que más se repite a través de las frecuencias absolutas ó relativas simples, siendo
ese el intervalo de mayor frecuencia, definido como el Intervalo modal, si los
intervalos son de diferente tamaño se halla el intervalo de mayor densidad a través
de la función empírica de densidad.
Luego que esté definido el intervalo de mayor frecuencia, se determina que valor
corresponde a la Moda, con la siguiente fórmula, en algunos casos específicos:
hi/Ci - h(i-1)/C(i-1)
Mo = Li + -------------------------------------------------------------- * Ci
2hi/Ci - h(i-1)/C(i-1) - h(I+1)/C(I+1)
Siendo este el intervalo más frecuente del nivel de glucosa encontrado en los
niños muestreados.
Ahora bien si se deseara encontrar el valor puntual más frecuente, este sería:
0.25/7 - 0.1875/7
Mo = 50.5 + ------------------------------------------------------ * 7
2(0.25/7) - 0.1875/7 - 0.1875/7
0.0625
Mo = 50.5 + -------------- * 7
0.125
Mo = 50.5 + (0.5 * 7)
Mo = 54
k
ni (Mi – X)2
i=1
S2 = -----------------------------
n
ó
k
S2 = hi (Mi – X)2
i=1
k
Mi2 ni n X2
i=1
S2 = -------------------- – ----------
n–1 n–1
si n 30
y con :
k
Mi2 ni
i =1
S2 = --------------- - X2
n
si n 30
de ahí se obtiene :
146.639
S2 = ----------------- - 54.042
48
S2 = 134.66
S = 11.6
S
CV(%) = ----------- * 100%
X
11.6
CV (%) = ----------- * 100%
54.04
CV(%) = 21.4%
Observe que La Media, La Mediana y La Moda tienen valores muy similares, por lo
cual esta información se puede considerar una distribución simétrica.
k
g1 = ((Mi – X) / S)3 * hi
i=1
7
g1 = ((Mi –54.04 ) / S)3 * hi
i=1
g1 = 0.0258
con lo cual se corrobora la simetría con el valor tan cercano a cero, lo que
determina una muy leve asimetría positiva que se puede desapercibir.
k
g2 = ((Mi – X) / S)4 * hi
i=1
7
g2 = ((Mi – 54.04) / 11.6)4 * hi
i=1
g2 = 2.369
Ec = g2 - 3
Ec = 2.369 - 3
Ec = - 0.631
Por lo cual es considerada esta distribución como una distribución tendiendo a ser
Platicúrtica, o sea que presenta un apuntamiento levemente por debajo de lo
normal.
3.2.9. Percentiles
Ya se sabe que los deciles y los cuartiles se pueden expresar a través de los
percentiles, pero se debe definir ¿cómo resolver un percentil?, se sabe además,
que la función empírica de distribución acumulada se utiliza, si se conoce el valor
de la variable y se requiere encontrar el porcentaje, pero cuando se conoce el
porcentaje y se requiere saber a que valor de la variable corresponde, se debe
utilizar Percentiles.
Pn * (n + 1)
P(n) =
100
2. Ubique en que fila (i) está contenido el valor P(n) en la columna de la frecuencia
acumulada absoluta (Ni)
3. Halle el valor de razón K
K = P(n) – N(I - 1)
¿Qué nivel de glucosa tienen como máximo el 62.5% de los niños de ese centro
de salud de la ciudad de Cali?
57.5 es el nivel de glucosa que como máximo tienen el 62.5% de los niños de ese
centro de salud de la ciudad de Cali.
¿Qué nivel de glucosa tienen como máximo el 75% de los niños de ese centro de
salud de la ciudad de Cali? (que corresponde al tercer cuartil)
75 * (48 + 1)
P(75) = = 36.75
100
K = 36.75 - 30 = 6.75
6.75 * 7
X= = 5.25
9
P(75) = 62.75, el 75% de los niños de ese centro de salud de la ciudad de Cali
tienen como máximo un nivel de glucosa en la sangre de 62.75.
También se puede hallar, usando la generalización de la ecuación para la mediana
como:
0.75 – 0.625
57.5 + * 7 = 62.2
0.1875
Con esta forma se obtiene un valor muy aproximado al anterior, ambos métodos
me proporcionan una excelente aproximación al valor
¿Qué nivel de glucosa tienen como mínimo el 10% de los niños de ese centro de
salud de la ciudad de Cali, que tienen el nivel de glucosa más alto?
90 * (48 + 1)
P(90) = = 44.1
100
K = 44.1 - 44 = 0.1
0.1 * 7
X= = 0.175
4
P(90) = 71.675, el 10% de los niños de ese centro de salud de la ciudad de Cali
tienen como mínimo un nivel de glucosa en la sangre de 71.675.
También se puede hallar como:
0.90 - 0.8125
64.5 + *7 = 70.4
0.1042
Recuerde que ambos métodos dan una buena aproximación del percentil.
¿Qué nivel de glucosa tienen entre el 75% y el 90% de los niños de ese centro de
salud de la ciudad de Cali?
P(90) – P(75)
Entre el 75% y el 90% de los niños de ese centro de salud, tienen entre 71.675 y
62.5 de nivel de glucosa.
3.6 3.1 2.6 2.7 3.9 2.4 2.7 2.5 2.3 4.0 2.5 1.7
3.1 2.6 1.3 4.3 1.5 2.8 1.8 4.2 2.4 2.2 3.4 3.7
0.8 2.3 1.9 4.5 1.2 2.2 2.2 2.1 1.8 2.9 3.8 3.5
1.6 3.2 4.4 1.4 0.7 2.8 3.2 3.5 3.0 3.3 0.5 2.3
0.3 2.6
Resolver:
a. Hallar La Media, La Moda, La Mediana, La Desviación Estándar y el
Coeficiente de Variación.
b. Grafique El Histograma, El Polígono de Frecuencias y La Ojiva.
c. ¿Qué porcentaje de registros son inferiores a 3.1 mg/lt.?
d. ¿Qué porcentaje de registros son mayores que 1.5 mg/lt, pero, son menores
que 3.5 mg/lt.?
e. ¿Cuánto oxígeno disuelto en mg/lt tienen como máximo el 70% de los
registros?
f. ¿Cuánto oxígeno disuelto en mg/lt tienen como mínimo el 15% de los registros
más altos?
1 52.0
No del árbol Altura en cms
2 45.7
3 47.0
4 31.8
5 34.0
6 43.2
7 46.0
8 49.0
9 49.5
10 53.0
11 41.0
12 44.2
13 39.0
14 37.0
15 40.0
16 47.8
17 43.0
18 39.0
19 43.4
20 47.4
21 46.0
22 51.3
23 48.7
24 46.9
25 52.6
26 58.8
27 53.5
28 55.4
29 52.6
30 54.9
50
40
30
20
10
0
250 500 750 1000 1250 1500 1750 2000
Kv/h
III
20 25 30 35 40 45 50 55 60 65 70
horas
Mediana
Q1 Q3
Bigotes
Primer Cuartil
Tercer cuartil
En algunos casos se coloca la media con un símbolo que puede ser un más ó un
por.
20
15
10
5
0
0 10 20 30 40 50
Grosor