You are on page 1of 16

Apuntes Probabilidad y Estadística

UNIVERSIDAD AUTÓNOMA DE ZACATECAS


“FRANCISCO GARCÍA SALINAS”
UNIDAD ACADÉMICA DE CIENCIAS QUÍMICAS

APUNTES DE PROBABILIDAD Y ESTADÍSTICA (Distribuciones de


frecuencia)

DOCENTE
M. EN I. LUCILA GRACIANO GAYTÁN

ZACATECAS, ZACATECAS

Recopilación de información: Septiembre 2007 a fecha actual


1
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística

Distribuciones de Frecuencias ____________________________________________________ 3


Ordenación de datos. _________________________________________________________________ 3
Distribución de frecuencias ____________________________________________________________ 3
Marca de clase. ______________________________________________________________________ 3
Limites Reales o Frontales de Clase ______________________________________________________ 4
Histograma _________________________________________________________________________ 4
Polígono de Frecuencias _______________________________________________________________ 4
Frecuencia acumulada ________________________________________________________________ 4
Frecuencia relativa acumulada __________________________________________________________ 4
Ojiva Porcentual ______________________________________________ Error! Bookmark not defined.

Medidas de Centralización _______________________________ Error! Bookmark not defined.


Medidas de Posición ____________________________________ Error! Bookmark not defined.
Media Aritmética (𝒙 ó 𝝁) _______________________________________ Error! Bookmark not defined.
Mediana ____________________________________________________ Error! Bookmark not defined.
Moda _______________________________________________________ Error! Bookmark not defined.

Medidas de variación para una distribución de frecuencias ____ Error! Bookmark not defined.
Varianza _____________________________________________________ Error! Bookmark not defined.
Desviación Estándar. ___________________________________________ Error! Bookmark not defined.

Medidas de Centralización de Forma _______________________ Error! Bookmark not defined.


Gráfica de tallos y hojas _________________________________ Error! Bookmark not defined.
La desviación estándar __________________________________ Error! Bookmark not defined.
Otras medidas de dispersión. _____________________________ Error! Bookmark not defined.
Gráfica de caja con valores extremos. ______________________ Error! Bookmark not defined.

Bibliografía ________________________________________ Error! Bookmark not defined.

2
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística

Distribuciones de Frecuencias

Ordenación de datos.
Consiste en obtener la información acerca de las observaciones que interesan. Estos datos
están sin ordenar o en “forma bruta”, así ordenar los datos por su magnitud en orden
creciente.

Ejemplo 1. Realice la distribución de frecuencia con los siguientes datos, que representan
los pesos corporales (en libras lb) de 40 personas.

138 164 150 132 144 125 149 157


146 158 140 147 136 148 152 144
168 126 138 176 163 199 154 165
146 173 142 147 135 143 140 135
161 145 135 142 150 156 145 128

a) Dato mayor: 199


b) Dato menor: 125
c) Rango(R): dato mayor – dato menor = 199 – 125 = 74
d) No. De datos (N): 40

Rango 74
Tamaño de intervalos (𝑐) = = = 12
No. Intervalos 6

Para el No. de intervalo se puede utilizar los criterios:

 Criterio √𝑁 = √40 = 6.32 ≈ 6


 Criterio de 2n, para obtener el No. De intervalos como sigue:
- 25 = 32, 5 intervalos para 32 datos
6
- 2 = 64, 6 intervalos para 64 datos

Distribución de frecuencias
Al resumir grandes colecciones de datos, es útil distribuirlos en clases o categorías, y
determinar el número de individuos que pertenecen a cada clase llamado frecuencia de
clase(𝑓𝑖 ). Una disposición tabular de datos por clases junto con las correspondientes
frecuencias de clase, se llama, distribución de frecuencias o tabla de frecuencias.

Marca de clase.
Es un valor que representa a todos los datos de una clase dada y es, simplemente el punto
medio del intervalo, se calcua

𝐿𝑖 + 𝐿𝑠
𝑥𝑖 =
2
Donde

3
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística

𝑥𝑖 : marca de clase
𝐿𝑖 : límite inferior de clase
𝐿𝑠 : límite superior de clase
125+136 137+148
Ejemplo: 𝑥1 = 2
= 130.5, 𝑥2 = 2
= 142.5

Limites Reales o Frontales de Clase


Se utilizan para evitar ambigüedades, o que un dato pueda caber en dos intervalos, son
valores “imposibles” con un decimal más que los datos originales.Se encuentran sumando
al límite superior de un intervalo de clase, el límite inferior del intervalo siguiente y dividiendo
entre dos.

136 + 137 148 + 149


𝐿𝑟 = = 136.5, 𝐿𝑟 = = 148.5
2 2

Histograma
Es un gráfico de barras que consta de rectángulos cuya base se encuentra sobre el eje de
las x. El ancho de los rectángulos es igual al tamaño de los intervalos de clase y la altura
igual a la frecuencia de clase.

Polígono de Frecuencias
Es un gráfico de línea. Se construye trasladando las marcas de clase a los techos de los
rectángulos del histograma.

Frecuencia acumulada
Es la suma acumulativa de las frecuencias absolutas de cada uno de los intervalos.

8, 8 + 16 = 24, 24 + 8 = 32, …

Frecuencia relativa acumulada


La frecuencia acumulada relativa o frecuencia acumulada en porcentajes, es la frecuencia
acumulada dividida por la frecuencia total. Se obtiene dividiendo cada frecuencia
acumulada entre el total de datos y multiplicada por 100, como se muestra en la formula
siguiente:

𝑓𝑎 8 24
𝑓𝑎% = ∙ 100; 𝑓𝑎% = ∙ 100 = 20%; 𝑓𝑎% = ∙ 100 = 60%
𝑁 40 40

4
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística

Límites o Frecuencia
Frecuencia Marca de
Intervalo Frontal de Acumulada fa %
(fi) Clase (xi)
Clase (fa )
125 - 136 8 130.5 124.5 - 136.5 8 20.00%
137 - 148 16 142.5 136.5 - 148.5 24 60.00%
149 - 160 8 154.5 148.5 - 160.5 32 80.00%
161 - 172 5 166.5 160.5 - 172.5 37 92.50%
173 - 184 2 178.5 172.5 - 184.5 39 97.50%
185 - 196 0 190.5 184.5 - 196.5 39 97.50%
197 - 208 1 202.5 196.5 - 208.5 40 100.00%
Total 40

Ojiva Porcentual
Es la representación gráfica de una distribución de frecuencias acumuladas. Se construye
de manera similar al polígono de frecuencias, pero en el eje x se localizan los límites reales
superiores de clase.

5
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística

Medidas de Centralización

Medidas de Posición
Media: Los datos tienden a agruparse alrededor de un solo valor, que está en el centro de
la distribución llamada promedio.

Media Aritmética (𝒙 ó 𝝁)
𝜇media para una población

𝑥̅ media para una muestra

Se define como la suma de todos los valores individuales (observaciones) dividida entre el
total de datos

𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 ∑𝑛𝑖=1 𝑥𝑖
𝑥̅ = =
𝑛 𝑛

Donde

𝑥𝑖 es𝑖 − ésima clase


𝑛es el total de datos

Primer método para calcular la media para datos que se encuentran resumidos en una
tabla de distribución de frecuencia (datos agrupados)

𝑓1 𝑥1 + 𝑓2 𝑥2 + ⋯ + 𝑓𝑖 𝑥𝑖 ∑𝑘𝑖=1 𝑓𝑖 𝑥𝑖
𝑥̅ = =
𝑛 𝑛

Donde

𝑓𝑖 es la frecuencia de la i-ésima clase


𝑥𝑖 es la marca de clase de la i-ésima clase
k es el total de clases en la distribución
n es el total de datos

Del primer ejemplo se tiene que:


6
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística

∑𝑘
𝑖=1 𝑓𝑖 𝑥𝑖 5952
𝑥̅ = = = 148.8
𝑛 40

Segundo método para calcular la media para datos que se encuentran resumidos en una
tabla de distribución de frecuencia (datos agrupados). Denominada, “fórmula codificada
para calcular la media”

1. Seleccionar una media arbitraria, de preferencia la marca de clase de la clase central o


la que esté más cerca del centro.
2. Asignar a esta media arbitraria el valor de cero, a las marcas de clase inferiores se le
asignan valores negativos y a las marcas de clase superiores valores positivos. Estos
valores codificados se representan para µ.
3. Calcular las desviaciones de la media, es decir la diferencia entre cada marca de clase
y la marca de clase arbitraria, se calcula con la expresión:

𝑑𝑖 = 𝑥𝑖 − 𝑥𝑜

Donde:

𝑑𝑖 es la desviación de la i-ésima clase.


𝑥𝑖 es la marca de clase de la i-ésima clase.
𝑥𝑜 es la marca de clase de la media arbitraria de la i-ésima clase.

4. Aplicar la fórmula
∑𝑘𝑖=1 𝑓𝑖 𝑑𝑖
𝑥̅ = 𝑥𝑜 +
𝑛
Donde:
𝑥𝑜 es la marca de clase de la media arbitraria de la i-ésima clase.
𝑓𝑖 es la frecuencia de la i-ésima clase.
𝑑𝑖 es la desviación de la i-esima clase.
𝑛es el total de datos.
𝑘es el total de clases de la distribución.

Límites o
Frecuencia Marca de
Intervalo Frontal de fixi μ di fidi
(fi) Clase (xi)
Clase
125 - 136 8 130.5 124.5 - 136.5 1,044 -3 -36 -288
137 - 148 16 142.5 136.5 - 148.5 2,280 -2 -24 -384
149 - 160 8 154.5 148.5 - 160.5 1,236 -1 -12 -96
161 - 172 5 166.5 160.5 - 172.5 833 0 0 0
173 -184 2 178.5 172.5 - 184.5 357 1 12 24
185 - 196 0 190.5 184.5 - 196.5 0 2 24 0
197 - 208 1 202.5 196.5 - 208.5 203 3 36 36
Total 40 5,952 -708

7
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística

∑𝑥𝑖=1 𝑓𝑖 𝑑𝑖 −708
𝑥̅ = 𝑥𝑜 + = 166.5 + = 148.8
𝑛 40

Mediana

Es el valor central de un arreglo ordenado de observaciones. El valor de la mediana nos


dice simplemente que el 50 % de las observaciones son menores o iguales que ella y el
otro 50 % son mayores o iguales a ella. Por lo tanto, la mediana no se ve afectada por la
presencia de valores extremos y se representa por 𝑥̃.

Para datos agrupados o resumidos en una distribución de frecuencia, la mediana se


aproxima mediante la fórmula:

(𝑛2−𝐹1 )
𝑥̃ = 𝐿𝑟𝑖 + [ ]∙𝑐
𝐹𝑚𝑒𝑑

Donde
𝐿𝑟𝑖 es el límite real inferior de clase mediana
𝑛es el total de datos
𝐹1 es la suma de todos las frecuencias anteriores a la frecuencia de la clase mediana (𝐹𝑚𝑒𝑑 ),
sin incluir ésta.
𝐹𝑚𝑒𝑑 es la frecuencia de solamente la clase mediana
C es el tamaño del intervalo de clase

40
(𝑛2−𝐹1 ) ( − 8)
𝑥̃ = 𝐿𝑟𝑖 + [ ] ∙ 𝑐 = 136.5 + [ 2 ] ∙ 12 = 145.5
𝐹𝑚𝑒𝑑 16

Moda
Es el dato que más se repite en un conjunto de datos. Un conjunto de datos puede no tener
moda, o bien puede tener más de una moda.Datos con una sola moda: Unimodales. Datos
con dos modas: Bimodales. Datos con más de dos modas: Multimodales. Se representa
por 𝑥̂.

Para datos agrupados en una tabla de frecuencia, se aproxima con la siguiente fórmula:

Δ1
𝑥̂ = 𝐿𝑟𝑖 + ( )𝑐
Δ1 + Δ2

Donde
Lr1 es límite real inferior de la clase modal, es decir, clase con la mayor frecuencia
Δ1 es la diferencia entre frecuencia de la clase modal y la frecuencia de la clase anterior
Δ2 es la diferencia entre la frecuencia de la clase modal y la frecuencia de la clase siguiente

8
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística

Δ1 (16 − 8)
𝑥̂ = 𝐿𝑟𝑖 + ( ) ∙ 𝑐 = 136.5 + ( ) ∙ 12 = 142.5
Δ1 + Δ2 (16 − 8) + (16 − 8)

Medidas de variación para una distribución de frecuencias


Es una medida de la diseminación de los datos, es decir, es el grado en que los datos
tienden a agruparse alrededor de un valor medio. Si la variación es un muy grande significa
que los datos son heterogéneos, si la variación es pequeña significa que los datos son
homogéneos.

Varianza
Es el parámetro promedio de los cuadrados de las desviaciones (diferencias) entre cada
valor individual y la media.
Para datos agrupados en una distribución de frecuencias se usa la siguiente fórmula
2
𝑐 2 [𝑛 ∑𝑘𝑖=1 𝜇𝑖 2 𝑓𝑖 − (∑𝑘𝑖=1 𝜇𝑖 𝑓𝑖 ) ]
2
𝑠 =
𝑛(𝑛 − 1)

Se representa s2 para muestras y σ2 para la población total.


Donde
𝑐es el tamaño del intervalo
𝑛es el total de datos
𝜇𝑖 es el entero asignado a cada clase
𝑓𝑖 es la frecuencia de cada clase
𝑠 2 es la varianza

Límites o
Frontal de Frecuencia μ μ^2 fu^2 fu
Clase
124.5 - 136.5 8 -3 9 72 -24
136.5 - 148.5 16 -2 4 64 -32
148.5 - 160.5 8 -1 1 8 -8
160.5 - 172.5 5 0 0 0 0
172.5 - 184.5 2 1 1 2 2
184.5 - 196.5 0 2 4 0 0
196.5 - 208.5 1 3 9 9 3
155 -59

2
𝑐 2 [𝑛 ∑𝑘𝑖=1 𝜇𝑖 2 𝑓𝑖 − (∑𝑘𝑖=1 𝜇𝑖 𝑓𝑖 ) ] 122 [40(155) − (−59)2 ]
𝑠2 = = = 250.98
𝑛(𝑛 − 1) 40(40 − 1)

Desviación Estándar.
Es la raíz cuadrada de la varianza.

9
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística

𝑠 = √𝑠 2 = √250.98 = 15.84

Medidas de Centralización de Forma


Se refiere a la manera en la cual están distribuidos los datos, la distribución de los datos
puede ser simétrica o no. Si la distribución no es simétrica se llama (asimétrica o sesgada).
Para describir la forma solo se necesita comparar la media, la moda y la mediana.

- Si la media es igual a la mediana y moda, la distribución es simétrica o sesgo cero.


- Si la media es menor a la mediana, y la mediana a la moda (media < mediana < moda,
el sesgo es negativo o a la izquierda
- Si la media es mayor a la mediana, y la mediana a la moda (media > mediana > moda,
el sesgo es positivo o a la derecha

En el ejemplo 1, como: 𝑥̅ = 148.8,𝑥̃ = 145.5 y 𝑥̂ = 142.5

𝑀𝑒𝑑𝑖𝑎 > 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 > 𝑚𝑜𝑑𝑎 el sesgo es positivo o a la derecha.

10
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística

Ejemplo 2. Las calificaciones finales en Matemáticas de 80 estudiantes figuran en la tabla


adjunta.

68 84 75 82 68 90 62 88 76 93
73 79 88 73 60 93 71 59 85 75
61 65 75 87 74 62 95 78 63 72
66 78 82 75 94 77 69 74 68 60
96 78 89 61 75 95 60 79 83 71
79 62 67 97 78 85 76 65 71 75
65 80 73 57 88 78 62 76 53 74
86 67 73 81 72 63 76 75 85 77

a) Realice una grafica de tallos y hojas.


b) Construir el histograma y polígono de frecuencias.
c) Construir la Ojiva Porcentual.
d) Calcular todas las medidas de centralización.

Ejemplo 5. La actividad del cultivo agrícola ha cambiado desde los inicios de 1900. Casi al
principio del siglo XX, la maquinaria reemplazó gradualmente a la fuerza animal. Por
ejemplo, en 1910 las granjas en EUA utilizaban 24.2 millones de caballos y mulas y solo
alrededor de 1000 tractores. En cambio, en 1960 se usaban 4.6 millones de tractores, y
solamente 3.2 millones de caballos y mulas. En 1920 había alrededor de 6 millones de
granjas en Estados Unidos. Actualmente hay menos de 2 millones. A continuación se indica
el número de granjas, en millares, para cada uno de los 50 estados.

47 1 8 46 76 26 4 3 39 45
4 21 80 63 100 65 91 29 7 15
7 52 87 39 106 25 55 2 3 8
14 38 59 33 76 71 37 51 1 24
35 86 185 13 7 43 36 20 79 9

Obtenga
a) Realice una grafica de tallos y hojas.
b) Construir el histograma y polígono de frecuencias.
c) Construir la Ojiva Porcentual.
d) Calcular todas las medidas de centralización.

Gráfica de tallos y hojas


Considérese un conjunto de datos numéricos 𝑥1 , 𝑥2 , … , 𝑥𝑛 para el cual 𝑥𝑖 se compone de por
lo menos dos dígitos. Una forma rápida de obtener la representación visual informativa del
conjunto de datos es construir una gráfica de tallos y hojas (en inglés stem-and-leaf).

Pasos para construir una gráfica de tallos y hojas


11
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística

1. Seleccione uno o más de los primeros dígitos para los valores de tallo. Los segundo
dígitos se convierten en hojas.
2. Enumere los posibles valores de tallos en una columna vertical.
3. Anote la hoja para cada observación junto al valor de tallo.
4. Indique las unidades para tallos y hojas en algún lugar de la gráfica.

Una gráfica de tallos y hojas da información sobre los siguientes aspectos de los datos:

 Identificación de un valor típico o representativo.


 Grado de dispersión en torno al valor típico.
 Presencia de brechas en los datos.
 Grado de simetría en la distribución de los valores.
 Número y localización de crestas.
 Presencia de valores afuera de la gráfica.

Ejemplo: Los siguientes datos representan los pesos corporales (en libras lb) de 40
personas.

125 140 146 154 176


126 140 147 156 176
128 142 147 157 176
132 142 147 158 199
135 143 147 161
135 144 148 163
135 144 149 164
136 145 150 165
138 145 150 168
138 146 152 173

12 5 6 8
13 2 5 5 5 6 8 8
14 0 0 2 2 3 4 4 5 5 6 6 7 7 7 7 8 9
15 0 0 2 4 6 7 8
16 1 3 4 5 8
17 3 6 6 6
19 9
Tallo: Dígitos de cientos y decenas de cifras
Hoja: Dígitos de una cifra
Ejemplo 2:
Cada calificación en el siguiente lote de calificaciones de exámenes se encuentra
en los 60, 70, 80 o 90. Una gráfica de tallos y hojas con sólo los cuatro tallos 6, 7, 8
y 9 no describiría detalladamente la distribución de calificaciones. En tales
situaciones, es deseable utilizar tallos repetidos. En este caso se repetiría el tallo 6
dos veces, utilizando 6L para las calificaciones en los 60 bajos (hojas, 0, 1, 2, 3 y 4)
12
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística

y 6H para las calificaciones en los 60 altos (hojas 5, 6, 7, 8 y 9). Asimismo, los demás
tallos pueden ser repetidos dos veces para obtener una gráfica de ocho filas. ¿Qué
característica de los datos es resaltada por esta gráfica?
74 89 80 93 64 67 72 70 66 85
89 81 81 71 74 82 85 63 72 81
81 95 84 81 80 70 69 66 60 83
85 98 84 68 90 82 69 72 87 88

La desviación estándar
La desviación media absoluta (DM) es la suma de las desviaciones absolutas respecto
de la media, dividida entre el número de observaciones. Sus características principales son:

a) No es influida por valores extremos grandes o pequeños.


b) Todos los valores se utilizan en su cálculo.
c) Es difícil trabajar con valores absolutos.

La fórmula para calcular la deviación media absoluta es:

∑|𝑋 − 𝑋̅|
𝐷𝑀 =
𝑛

Donde: X es cada valor individual, 𝑋̅ es la media aritmética de una muestra y n es el total


de observaciones.

La varianza es el valor medio de las observaciones al cuadrado con respecto a la media


aritmética. Las características principales son:

a) Todas las observaciones se usan en su cálculo.


b) No es influida por valores extremos.
c) Las unidades de medida resultan inconvenientes para trabajar con ellas, son las
unidades originales elevadas al cuadrado.

La fórmula para calcular la varianza poblacional es:

∑(𝑋 − 𝜇)2
𝜎2 =
𝑁

Donde: X es cada valor individual, 𝜇 es la media poblacional y N total de observaciones de


la población.

La fórmula para calcular la varianza muestral es:

∑(𝑋 − 𝑋̅)2
𝑠2 =
𝑛−1

Donde: X es cada valor individual, 𝑋̅ es la media muestral y n total de observaciones de la


muestra.

13
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística

La desviación estándar es la raíz cuadrada de la varianza. Las características principales


son:

a) Su valor está en las mismas unidades que los datos originales.


b) Es la raíz cuadrada de la distancia promedio respecto de la media, elevada al
cuadrado.
c) No puede ser negativa.
d) Es la medida de dispersión que se utiliza con más frecuencia.

Las dos fórmulas siguientes son para la desviación estándar muestral:

(∑ 𝑋)2
∑(𝑋 − 𝑋̅)2 √∑ 𝑋 2 − 𝑛
𝑠=√ =
𝑛−1 𝑛−1

Elcoeficiente de variación la desviación estándar es útil como medida de variación en un


determinado conjunto de datos. Sin embargo, cuando se requiere comparar la dispersión
de dos conjuntos de datos, la comparación de las dos desviaciones estándar puede dar un
resultado equivocado. Lo que se necesita en situaciones como ésta es una medida de
variancia relativa en lugar de una varianza absoluta. Tal medida la constituye el coeficiente
de variación, el cual expresa la desviación como un porcentaje de la media. La fórmula es
como sigue:
𝑠
𝐶. 𝑉. = (100)
𝑥̅

Ejemplo:

Los siguientes resultados corresponden a dos muestras formadas por varones:

Muestra 1 Muestra 2
Edad 25 años 11 años
Peso medio 145 libras 80 libras
Desviación estándar 10 libras 10 libras
El propósito es saber cual tiene mayor variabilidad, los pesos de individuos de 25 años o
los de 11 años.

Solución. Una comparación de las desviaciones estándar puede conducir a la conclusión


de que las dos muestras tienen igual variabilidad. Sin embargo, si se calculan los
coeficientes de variación, se obtiene para los sujetos de 25 años de edad:

10
𝐶. 𝑉. = (100) = 6.9
145

Y para los de 11 años de edad:

10
𝐶. 𝑉. = (100) = 12.5
80

14
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística

Otras medidas de dispersión.


La desviación estándar es la medida de dispersión que se utiliza con mayor frecuencia. Sin
embargo, existen otros métodos para describir la variación o dispersión en un conjunto de
datos. Un método es determinar la ubicación de los valores que dividen un conjunto de
observaciones en partes iguales. Estas medidas son los cuartiles, los deciles y los centiles
(o percentiles).

En un resumen de cinco números se emplean cinco cantidades para resumir los datos:

1. Valor mínimo.
2. Primer cuartil (𝑄1 ).
3. Mediana (𝑄2 𝑜 𝑋̅).
4. Tercer cuartil (𝑄3 )
5. Valor máximo.

Cuartiles:Dividen un conjunto de observaciones en cuatro partes iguales.

El primer cuartil, es el valor abajo del cual se encuentran 25% de las observaciones y el
tercer cuartil es el valor por abajo del cual se encuentra 75% de las observaciones y el
segundo cuartil es la mediana.

Deciles: dividen a un conjunto de observaciones en 10 partes iguales.

Centiles: dividen en 100 partes iguales.

Ubicación del centil (percentil) deseado (𝐿𝑐 ), se calcula:

𝐶
𝐿𝑐 = (𝑛 + 1)
100

Donde: n es el total de datos (o total de observaciones) y c es el centil deseado.

Gráfica de caja con valores extremos.


Para la construcción de esta gráfica se usan los cuartiles de un conjunto de datos, y se
siguen los cinco pasos que se mencionan a continuación:

1. Representar a la variable de interés sobre el eje de las x.


2. Dibujar sobre el eje horizontal un cuadro, de tal forma que el extremo izquierdo esté
alineado con el primer cuartil 𝑄1 , y el extremo derecho del cuadro quede alineado
con el tercer cuartil 𝑄3 .
3. Dividir el cuadro en dos pares con una línea vertical que se alinee con la mediana
𝑄2 .
4. Dibujar una línea horizontal desde el extremo izquierdo del cuadro hasta el punto en
donde quede alineada con la medición más pequeña en el conjunto de datos.
5. Dibujar otra línea horizontal desde el extremo derecho del cuadro hasta el punto
donde se alinea con la medición más grande en el conjunto de datos.

15
M. en I. Lucila Graciano Gaytán
Apuntes Probabilidad y Estadística

Bibliografía

1. Lind, Marchal, Mason, Estadística para administración y economía, Ed. Alfaomega.


2. Jay L. Devore, Probabilidad y estadística para ingeniería y ciencias, Ed. CENGAGE
Learning.
3. Walpole, Myers, Probabilidad y Estadística para ingeniería, Ed. Prentice - Hall.
4. Irwin Miller, Probabilidad y Estadística para Ingenieros, Ed. Prentice – Hall
Hispanoamérica.
5. Serie Schaum, Probabilidad y Estadística, Ed. Mc. Graw – Hill.
6. Scheaffer – Mc. Clave, Probabilidad y Estadística para Ingeniería, Grupo editorial
Iberoamérica.
7. R. Clifford Blair, Richard A. Taylor, Bioestadística, Ed. Prentice – Hall
8. J. Susan Milton, Estadística para Biología y Ciencias de la Salud, Ed. Mc. Graw -
Hill

16
M. en I. Lucila Graciano Gaytán

You might also like