Professional Documents
Culture Documents
DOCENTE
M. EN I. LUCILA GRACIANO GAYTÁN
ZACATECAS, ZACATECAS
Medidas de variación para una distribución de frecuencias ____ Error! Bookmark not defined.
Varianza _____________________________________________________ Error! Bookmark not defined.
Desviación Estándar. ___________________________________________ Error! Bookmark not defined.
2
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística
Distribuciones de Frecuencias
Ordenación de datos.
Consiste en obtener la información acerca de las observaciones que interesan. Estos datos
están sin ordenar o en “forma bruta”, así ordenar los datos por su magnitud en orden
creciente.
Ejemplo 1. Realice la distribución de frecuencia con los siguientes datos, que representan
los pesos corporales (en libras lb) de 40 personas.
Rango 74
Tamaño de intervalos (𝑐) = = = 12
No. Intervalos 6
Distribución de frecuencias
Al resumir grandes colecciones de datos, es útil distribuirlos en clases o categorías, y
determinar el número de individuos que pertenecen a cada clase llamado frecuencia de
clase(𝑓𝑖 ). Una disposición tabular de datos por clases junto con las correspondientes
frecuencias de clase, se llama, distribución de frecuencias o tabla de frecuencias.
Marca de clase.
Es un valor que representa a todos los datos de una clase dada y es, simplemente el punto
medio del intervalo, se calcua
𝐿𝑖 + 𝐿𝑠
𝑥𝑖 =
2
Donde
3
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística
𝑥𝑖 : marca de clase
𝐿𝑖 : límite inferior de clase
𝐿𝑠 : límite superior de clase
125+136 137+148
Ejemplo: 𝑥1 = 2
= 130.5, 𝑥2 = 2
= 142.5
Histograma
Es un gráfico de barras que consta de rectángulos cuya base se encuentra sobre el eje de
las x. El ancho de los rectángulos es igual al tamaño de los intervalos de clase y la altura
igual a la frecuencia de clase.
Polígono de Frecuencias
Es un gráfico de línea. Se construye trasladando las marcas de clase a los techos de los
rectángulos del histograma.
Frecuencia acumulada
Es la suma acumulativa de las frecuencias absolutas de cada uno de los intervalos.
8, 8 + 16 = 24, 24 + 8 = 32, …
𝑓𝑎 8 24
𝑓𝑎% = ∙ 100; 𝑓𝑎% = ∙ 100 = 20%; 𝑓𝑎% = ∙ 100 = 60%
𝑁 40 40
4
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística
Límites o Frecuencia
Frecuencia Marca de
Intervalo Frontal de Acumulada fa %
(fi) Clase (xi)
Clase (fa )
125 - 136 8 130.5 124.5 - 136.5 8 20.00%
137 - 148 16 142.5 136.5 - 148.5 24 60.00%
149 - 160 8 154.5 148.5 - 160.5 32 80.00%
161 - 172 5 166.5 160.5 - 172.5 37 92.50%
173 - 184 2 178.5 172.5 - 184.5 39 97.50%
185 - 196 0 190.5 184.5 - 196.5 39 97.50%
197 - 208 1 202.5 196.5 - 208.5 40 100.00%
Total 40
Ojiva Porcentual
Es la representación gráfica de una distribución de frecuencias acumuladas. Se construye
de manera similar al polígono de frecuencias, pero en el eje x se localizan los límites reales
superiores de clase.
5
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística
Medidas de Centralización
Medidas de Posición
Media: Los datos tienden a agruparse alrededor de un solo valor, que está en el centro de
la distribución llamada promedio.
Media Aritmética (𝒙 ó 𝝁)
𝜇media para una población
Se define como la suma de todos los valores individuales (observaciones) dividida entre el
total de datos
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 ∑𝑛𝑖=1 𝑥𝑖
𝑥̅ = =
𝑛 𝑛
Donde
Primer método para calcular la media para datos que se encuentran resumidos en una
tabla de distribución de frecuencia (datos agrupados)
𝑓1 𝑥1 + 𝑓2 𝑥2 + ⋯ + 𝑓𝑖 𝑥𝑖 ∑𝑘𝑖=1 𝑓𝑖 𝑥𝑖
𝑥̅ = =
𝑛 𝑛
Donde
∑𝑘
𝑖=1 𝑓𝑖 𝑥𝑖 5952
𝑥̅ = = = 148.8
𝑛 40
Segundo método para calcular la media para datos que se encuentran resumidos en una
tabla de distribución de frecuencia (datos agrupados). Denominada, “fórmula codificada
para calcular la media”
𝑑𝑖 = 𝑥𝑖 − 𝑥𝑜
Donde:
4. Aplicar la fórmula
∑𝑘𝑖=1 𝑓𝑖 𝑑𝑖
𝑥̅ = 𝑥𝑜 +
𝑛
Donde:
𝑥𝑜 es la marca de clase de la media arbitraria de la i-ésima clase.
𝑓𝑖 es la frecuencia de la i-ésima clase.
𝑑𝑖 es la desviación de la i-esima clase.
𝑛es el total de datos.
𝑘es el total de clases de la distribución.
Límites o
Frecuencia Marca de
Intervalo Frontal de fixi μ di fidi
(fi) Clase (xi)
Clase
125 - 136 8 130.5 124.5 - 136.5 1,044 -3 -36 -288
137 - 148 16 142.5 136.5 - 148.5 2,280 -2 -24 -384
149 - 160 8 154.5 148.5 - 160.5 1,236 -1 -12 -96
161 - 172 5 166.5 160.5 - 172.5 833 0 0 0
173 -184 2 178.5 172.5 - 184.5 357 1 12 24
185 - 196 0 190.5 184.5 - 196.5 0 2 24 0
197 - 208 1 202.5 196.5 - 208.5 203 3 36 36
Total 40 5,952 -708
7
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística
∑𝑥𝑖=1 𝑓𝑖 𝑑𝑖 −708
𝑥̅ = 𝑥𝑜 + = 166.5 + = 148.8
𝑛 40
Mediana
(𝑛2−𝐹1 )
𝑥̃ = 𝐿𝑟𝑖 + [ ]∙𝑐
𝐹𝑚𝑒𝑑
Donde
𝐿𝑟𝑖 es el límite real inferior de clase mediana
𝑛es el total de datos
𝐹1 es la suma de todos las frecuencias anteriores a la frecuencia de la clase mediana (𝐹𝑚𝑒𝑑 ),
sin incluir ésta.
𝐹𝑚𝑒𝑑 es la frecuencia de solamente la clase mediana
C es el tamaño del intervalo de clase
40
(𝑛2−𝐹1 ) ( − 8)
𝑥̃ = 𝐿𝑟𝑖 + [ ] ∙ 𝑐 = 136.5 + [ 2 ] ∙ 12 = 145.5
𝐹𝑚𝑒𝑑 16
Moda
Es el dato que más se repite en un conjunto de datos. Un conjunto de datos puede no tener
moda, o bien puede tener más de una moda.Datos con una sola moda: Unimodales. Datos
con dos modas: Bimodales. Datos con más de dos modas: Multimodales. Se representa
por 𝑥̂.
Para datos agrupados en una tabla de frecuencia, se aproxima con la siguiente fórmula:
Δ1
𝑥̂ = 𝐿𝑟𝑖 + ( )𝑐
Δ1 + Δ2
Donde
Lr1 es límite real inferior de la clase modal, es decir, clase con la mayor frecuencia
Δ1 es la diferencia entre frecuencia de la clase modal y la frecuencia de la clase anterior
Δ2 es la diferencia entre la frecuencia de la clase modal y la frecuencia de la clase siguiente
8
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística
Δ1 (16 − 8)
𝑥̂ = 𝐿𝑟𝑖 + ( ) ∙ 𝑐 = 136.5 + ( ) ∙ 12 = 142.5
Δ1 + Δ2 (16 − 8) + (16 − 8)
Varianza
Es el parámetro promedio de los cuadrados de las desviaciones (diferencias) entre cada
valor individual y la media.
Para datos agrupados en una distribución de frecuencias se usa la siguiente fórmula
2
𝑐 2 [𝑛 ∑𝑘𝑖=1 𝜇𝑖 2 𝑓𝑖 − (∑𝑘𝑖=1 𝜇𝑖 𝑓𝑖 ) ]
2
𝑠 =
𝑛(𝑛 − 1)
Límites o
Frontal de Frecuencia μ μ^2 fu^2 fu
Clase
124.5 - 136.5 8 -3 9 72 -24
136.5 - 148.5 16 -2 4 64 -32
148.5 - 160.5 8 -1 1 8 -8
160.5 - 172.5 5 0 0 0 0
172.5 - 184.5 2 1 1 2 2
184.5 - 196.5 0 2 4 0 0
196.5 - 208.5 1 3 9 9 3
155 -59
2
𝑐 2 [𝑛 ∑𝑘𝑖=1 𝜇𝑖 2 𝑓𝑖 − (∑𝑘𝑖=1 𝜇𝑖 𝑓𝑖 ) ] 122 [40(155) − (−59)2 ]
𝑠2 = = = 250.98
𝑛(𝑛 − 1) 40(40 − 1)
Desviación Estándar.
Es la raíz cuadrada de la varianza.
9
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística
𝑠 = √𝑠 2 = √250.98 = 15.84
10
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística
68 84 75 82 68 90 62 88 76 93
73 79 88 73 60 93 71 59 85 75
61 65 75 87 74 62 95 78 63 72
66 78 82 75 94 77 69 74 68 60
96 78 89 61 75 95 60 79 83 71
79 62 67 97 78 85 76 65 71 75
65 80 73 57 88 78 62 76 53 74
86 67 73 81 72 63 76 75 85 77
Ejemplo 5. La actividad del cultivo agrícola ha cambiado desde los inicios de 1900. Casi al
principio del siglo XX, la maquinaria reemplazó gradualmente a la fuerza animal. Por
ejemplo, en 1910 las granjas en EUA utilizaban 24.2 millones de caballos y mulas y solo
alrededor de 1000 tractores. En cambio, en 1960 se usaban 4.6 millones de tractores, y
solamente 3.2 millones de caballos y mulas. En 1920 había alrededor de 6 millones de
granjas en Estados Unidos. Actualmente hay menos de 2 millones. A continuación se indica
el número de granjas, en millares, para cada uno de los 50 estados.
47 1 8 46 76 26 4 3 39 45
4 21 80 63 100 65 91 29 7 15
7 52 87 39 106 25 55 2 3 8
14 38 59 33 76 71 37 51 1 24
35 86 185 13 7 43 36 20 79 9
Obtenga
a) Realice una grafica de tallos y hojas.
b) Construir el histograma y polígono de frecuencias.
c) Construir la Ojiva Porcentual.
d) Calcular todas las medidas de centralización.
1. Seleccione uno o más de los primeros dígitos para los valores de tallo. Los segundo
dígitos se convierten en hojas.
2. Enumere los posibles valores de tallos en una columna vertical.
3. Anote la hoja para cada observación junto al valor de tallo.
4. Indique las unidades para tallos y hojas en algún lugar de la gráfica.
Una gráfica de tallos y hojas da información sobre los siguientes aspectos de los datos:
Ejemplo: Los siguientes datos representan los pesos corporales (en libras lb) de 40
personas.
12 5 6 8
13 2 5 5 5 6 8 8
14 0 0 2 2 3 4 4 5 5 6 6 7 7 7 7 8 9
15 0 0 2 4 6 7 8
16 1 3 4 5 8
17 3 6 6 6
19 9
Tallo: Dígitos de cientos y decenas de cifras
Hoja: Dígitos de una cifra
Ejemplo 2:
Cada calificación en el siguiente lote de calificaciones de exámenes se encuentra
en los 60, 70, 80 o 90. Una gráfica de tallos y hojas con sólo los cuatro tallos 6, 7, 8
y 9 no describiría detalladamente la distribución de calificaciones. En tales
situaciones, es deseable utilizar tallos repetidos. En este caso se repetiría el tallo 6
dos veces, utilizando 6L para las calificaciones en los 60 bajos (hojas, 0, 1, 2, 3 y 4)
12
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística
y 6H para las calificaciones en los 60 altos (hojas 5, 6, 7, 8 y 9). Asimismo, los demás
tallos pueden ser repetidos dos veces para obtener una gráfica de ocho filas. ¿Qué
característica de los datos es resaltada por esta gráfica?
74 89 80 93 64 67 72 70 66 85
89 81 81 71 74 82 85 63 72 81
81 95 84 81 80 70 69 66 60 83
85 98 84 68 90 82 69 72 87 88
La desviación estándar
La desviación media absoluta (DM) es la suma de las desviaciones absolutas respecto
de la media, dividida entre el número de observaciones. Sus características principales son:
∑|𝑋 − 𝑋̅|
𝐷𝑀 =
𝑛
∑(𝑋 − 𝜇)2
𝜎2 =
𝑁
∑(𝑋 − 𝑋̅)2
𝑠2 =
𝑛−1
13
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística
(∑ 𝑋)2
∑(𝑋 − 𝑋̅)2 √∑ 𝑋 2 − 𝑛
𝑠=√ =
𝑛−1 𝑛−1
Ejemplo:
Muestra 1 Muestra 2
Edad 25 años 11 años
Peso medio 145 libras 80 libras
Desviación estándar 10 libras 10 libras
El propósito es saber cual tiene mayor variabilidad, los pesos de individuos de 25 años o
los de 11 años.
10
𝐶. 𝑉. = (100) = 6.9
145
10
𝐶. 𝑉. = (100) = 12.5
80
14
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística
En un resumen de cinco números se emplean cinco cantidades para resumir los datos:
1. Valor mínimo.
2. Primer cuartil (𝑄1 ).
3. Mediana (𝑄2 𝑜 𝑋̅).
4. Tercer cuartil (𝑄3 )
5. Valor máximo.
El primer cuartil, es el valor abajo del cual se encuentran 25% de las observaciones y el
tercer cuartil es el valor por abajo del cual se encuentra 75% de las observaciones y el
segundo cuartil es la mediana.
𝐶
𝐿𝑐 = (𝑛 + 1)
100
15
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística
Bibliografía
16
M. en I. Lucila Graciano Gaytán