You are on page 1of 67

GUÍA DE ESTADÍSTICA

CHRISTIAN A. ROSERO F.
VERSIÓN: 2.1
MÓDULO 1: ESTADÍSTICA DESCRIPTIVA
MÓDULO 2: ESTADÍSTICA INFERENCIAL
MÓDULO 3: ESTADÍSTICA EXPERIMENTAL
MÓDULO 4: ESTADÍSTICA PARA LA CALIDAD

Christian A. Rosero F. Página 2 de 67


MODULO 1

ESTADÍSTICA DESCRIPTIVA

Christian A. Rosero F. Página 3 de 67


ÍNDICE
ESTADÍSTICA DESCRIPTIVA .................................................................................................. 7

1. DATOS AGRUPADOS ........................................................................................................ 7

1.1. CONCEPTOS BÁSICOS ................................................................................................. 8

1.1.1. Población ....................................................................................................................... 8

1.1.2. Muestra .......................................................................................................................... 9

1.1.2.1. Muestra para poblaciones finitas ................................................................................. 10

1.1.2.2. Muestra para poblaciones infinitas .............................................................................. 10

1.1.3. Tipos de muestreo ........................................................................................................ 11

1.2. VARIABLES ESTADÍSTICAS .......................................................................................... 12

1.2.1. Cualitativa .................................................................................................................... 12

1.2.2. Cuantitativas ................................................................................................................ 12

Ejemplos………….. .................................................................................................................... 14

Resumen………. ......................................................................................................................... 14

1.3. MEDIDAS DE TENDENCIA CENTRAL ......................................................................... 15

1.3.1. Moda (Mo) ..................................................................................................................... 15

1.3.2. Mediana (Me) ................................................................................................................. 15

1.3.3. Media aritmética (X) ....................................................................................................... 16

1.3.4. Media geométrica ........................................................................................................... 17

1.3.5. Media armónica .............................................................................................................. 18

1.3.6. Media cuadrática ............................................................................................................ 18

1.3.7. Media ponderada ............................................................................................................ 19

1.3.8. Relación entre medias .................................................................................................... 20

1.4. MEDIDAS DE DISPERSIÓN ............................................................................................ 21

1.4.1. Rango ............................................................................................................................. 21

1.4.2. Rango intercuartílico ...................................................................................................... 21

1.4.3. Varianza ......................................................................................................................... 22

1.4.4. Desviación típica o desviación estándar. ........................................................................ 22

1.4.5. Coeficiente de variación de Pearson............................................................................... 24

Christian A. Rosero F. Página 4 de 67


1.5. MEDIDAS DE POSICIÓN ................................................................................................. 25

1.5.1. Cuartiles (Qi) .................................................................................................................. 25

1.5.2. Deciles (Di) .................................................................................................................... 25

1.5.3. Percentiles (Pi) ............................................................................................................... 26

1.5.4. Aplicación ...................................................................................................................... 26

1.6. MEDIDAS DE UNIFORMIDAD (EQUILIBRIO) ............................................................. 29

1.6.1. Asimetría ........................................................................................................................ 29

1.6.1.1. Coeficiente de asimetría de Fisher ............................................................................... 30

1.6.1.2. Coeficiente de asimetría de Pearson ............................................................................ 31

1.6.1.3. Coeficiente de asimetría de Bowley ............................................................................ 32

1.6.2. Curtosis........................................................................................................................... 33

2. DATOS AGRUPADOS ...................................................................................................... 34

2.1. MEDIDAS DE FRECUENCIA .......................................................................................... 34

2.1.1. Frecuencia absoluta ..................................................................................................... 34

2.1.2. Frecuencia absoluta acumulada ................................................................................... 35

2.1.3. Frecuencia relativa ....................................................................................................... 35

2.1.4. Frecuencia relativa acumulada..................................................................................... 36

2.1.5. Tabla de frecuencias ....................................................................................................... 36

2.2. REPRESENTACIONES GRÁFICAS ................................................................................. 37

2.2.1. Gráfico lineal ............................................................................................................... 38

2.2.2. Diagrama...................................................................................................................... 38

2.2.2.1. Diagrama de barras ...................................................................................................... 39

2.2.2.2. Diagrama circular ........................................................................................................ 40

2.2.2.3. Diagrama de Pareto...................................................................................................... 41

2.2.2.4. Diagrama de caja ......................................................................................................... 42

2.2.2.5. Diagrama de tallo y hojas ............................................................................................ 42

2.2.3. Histograma ..................................................................................................................... 43

2.2.4. Polígono de frecuencias.................................................................................................. 44

2.2.5. Pictograma ...................................................................................................................... 44

Christian A. Rosero F. Página 5 de 67


2.3. EJEMPLO COMPLETO PARA DATOS AGRUPADOS .................................................. 45

PASO 1: Calcular el Rango. ........................................................................................................ 45

PASO 2: Definir cuántas clases que se van a ocupar. ................................................................. 45

PASO 3: Agrupar los valores que tengan la misma amplitud = ancho de la clase...................... 46

PASO 4: Determinar la frecuencia (fi). ....................................................................................... 48

PASO 5: Encontrar la marca de la clase Xi o Yi......................................................................... 49

PASO 6: Calcular la frecuencia absoluta acumulada (Fi) ........................................................... 50

PASO 7: Calcular la frecuencia relativa (hi) ............................................................................... 51

PASO 8: Encontrar la frecuencia relativa acumulada (Hi) ......................................................... 51

PASO 9: Construir el Histograma y polígono de frecuencias. .................................................... 52

2.4. RESUMEN: DIFERENCIAS ENTRE GRÁFICOS ...................................................... 55

2.4. MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS ...................... 56

2.4.1. Media o promedio .......................................................................................................... 56

2.4.2. Mediana .......................................................................................................................... 57

2.4.3. Moda............................................................................................................................... 59

2.5. MEDIDAS DE POSICIÓN PARA DATOS AGRUPADOS .............................................. 61

2.5.1. Deciles ............................................................................................................................ 61

2.5.2. Cuartiles ......................................................................................................................... 64

2.5.3. Percentiles ...................................................................................................................... 64

Christian A. Rosero F. Página 6 de 67


ESTADÍSTICA DESCRIPTIVA

1. DATOS AGRUPADOS

La estadística descriptiva es la rama de la estadística que recolecta, analiza y caracteriza


un conjunto de datos (peso de la población, beneficios diarios de una empresa,
temperatura mensual,…) con el objetivo de describir las características y
comportamientos de este conjunto mediante medidas de resumen, tablas o gráficos.

Christian A. Rosero F. Página 7 de 67


1.1. CONCEPTOS BÁSICOS

1.1.1. Población

Una población estadística es un conjunto de sujetos o elementos que presentan


características comunes. Sobre esta población se realiza el estudio estadístico con el fin
de sacar conclusiones.

“Conjunto de individuos que tienen características de estudio”

El tamaño poblacional es el número de individuos que constituyen la población. Según el


número de sujetos, el tamaño puede ser finito o infinito. Los conjuntos infinitos son algo
artificial o conceptual, ya que toda población de entidades físicas es finita. Por ejemplo:

 Población finita: el conjunto de habitantes de una ciudad, los bolígrafos producidos


en una fábrica en un día, etc. .

 Población infinita: el conjunto de los números positivos.

“Se considera que la población es infinita cuando supera los 100 000 individuos”

Christian A. Rosero F. Página 8 de 67


Cuando la población es muy grande, normalmente es imposible estudiar a todos los
individuos.

Supongamos que queremos saber cuál es el nivel de colesterol de la población de Estados


Unidos. Por cuestiones económicas y de tiempo obvias, no está al alcance realizar un
análisis de sangre a toda la población de EEUU. Para solucionar este impedimento, se
utiliza una muestra estadística.

1.1.2. Muestra

Una muestra estadística (o una muestra) es un subconjunto de elementos de la población


estadística.

El mejor resultado para un proceso estadístico sería estudiar a toda la población. Pero esto
generalmente resulta imposible, ya sea porque supone un coste económico alto o porque
requiere demasiado tiempo.

Frente a la dificultad de hacer un censo (estudio de toda la población), se examina una


muestra estadística que representará a la totalidad de los sujetos. Con los resultados
obtenidos mediante la muestra, se intentará inferir las propiedades de todos los elementos,
mediante la estadística inferencial.

Christian A. Rosero F. Página 9 de 67


La muestra elegida debe ser representativa de la población. Las muestras tienen un nivel
de confianza de la bondad con la que representan a todos los sujetos, generalmente del
95% o superior.

1.1.2.1. Muestra para poblaciones finitas

1.1.2.2. Muestra para poblaciones infinitas

Los percentiles más usados son:

Nivel de confianza Error esperado Estadístico de prueba


90% 10% (0.1 en la fórmula) 1.645
95% 5% (0.05 en la fórmula) 1.96
99% 1% (0.01 en la fórmula) 2.58

Los valores “p” y “q” cuando se desconocen, se deben asumir valores de 0.5 para
cada uno.

Christian A. Rosero F. Página 10 de 67


Cuando en el estudio no se específica un nivel de confianza, se debe asumir que se trabajó
con el 95%.

La selección del nivel de confianza, dependerá del tipo de estudio. Cuando existen
características de difícil predicción, o a su vez, se requiere tener un nivel alto de confianza
en los datos, se debe usar un porcentaje alto, como el 99%.

Si el estudio corresponde al análisis de variables que no presentan alta inestabilidad, o no


es imprescindible tener rigurosidad en los datos, se debe trabajar con valores para el NC
de 95%.

Se trabaja con niveles de confianza bajos (80% - 90%) cuando se intuyen previamente
los resultados, debido a la alta posibilidad de anticipar resultados, ya existen
investigaciones previas que describen el comportamiento de las variables, se sabe que un
tamaño de muestra reducido no afectará la veracidad del estudio.

1.1.3. Tipos de muestreo

Christian A. Rosero F. Página 11 de 67


1.2. VARIABLES ESTADÍSTICAS

Una variable estadística es el conjunto de valores que puede tomar cierta característica de
la población sobre la que se realiza el estudio estadístico y sobre la que es posible su
medición.

Estas variables pueden ser: la edad, el peso, las notas de un examen, los ingresos
mensuales, las horas de sueño de un paciente en una semana, el precio medio del alquiler
en las viviendas de un barrio de una ciudad, etc.

Las variables estadísticas se pueden clasificar por diferentes criterios. Según su medición
existen dos tipos de variables:

1.2.1. Cualitativa

Variable cualitativa o categórica son las variables que pueden tomar como valores
cualidades o categorías.

Ejemplos:

o Sexo (hombre, mujer)


o Salud (buena, regular, mala)

1.2.2. Cuantitativas

Variable cuantitativa o numérica son variables que toman valores numéricos.

Ejemplos:

o Número de casas (1, 2,…). Discreta.


o Edad (12,5; 24,3; 35;…). Continua.

Christian A. Rosero F. Página 12 de 67


Las variables cualitativas (o variables categóricas) se pueden clasificar según sigan una
jerarquía o un orden determinado.

Las variables cuantitativas se clasifican según el número de valores que puede tomar la
variable.

Las variables se pueden clasificar también según si son independientes o dependientes:

 Variable independiente: Es una variable que su valor no depende de otra variable.


La variable independiente suele representarse en las gráficas en el eje de abscisas (x).

En un diseño experimental a la variable independiente se le suele denominar también


variable de entrada, o variable manipulada.

 Variable dependiente: Es una variable cuyos valores dependen de los valores que
tome otra variable. Se representa en el eje de ordenadas (y).

En una función puede haber combinación de los dos tipos. Por ejemplo, el capital
invertido por una federación de una especialidad atlética de un país ante un campeonato

Christian A. Rosero F. Página 13 de 67


deportivo (variable independiente cuantitativa) y las medallas obtenidas (variable
dependiente cualitativa).

El investigador utiliza estas variables en el estudio estadístico con el fin de con el de


encontrar alguna causalidad de ciertas variables sobre las variables objetivo del estudio.

Ejemplos

 Se realiza un estudio estadístico sobre la relación de los pacientes que tienen asma
respecto a ciertas variables también estudiadas. Suponemos que existe una variable
binaria en el estudio que indica si los individuos son o no fumadores. El investigador
puede establecer la hipótesis de que el tabaco influye en los pacientes generando el
asma. Utilizaría la variable “fumador” como variable independiente para confirmar
su relación con la variable dependiente “asma”.
 En un estudio estadístico realizado en un instituto se intenta hacer ver a los alumnos
que estudiar día a día influye positivamente en las notas obtenidas. Se considera
como variable independiente (o explicativa) la variable “promedio de horas de
estudio” y como variable dependiente las “notas obtenidas por cada alumno”.

Resumen

Variable: Es una característica de la población.

Variable Cualitativa: Cualidad que no puede ser medida con números.

- Variable cualitativa nominal: Modalidad no numérica y no admite criterio de orden. Ej:


Estado civil, sexo.

- Variable cualitativa ordinal: Cuasi cuantitativa. No numérica pero existe orden. Ej: Oro
– plata – bronce; Sobresaliente – MB – B – R.

Variable Cuantitativa: Se expresan mediante números.

- Variable Discreta: Número finito de valores, entre dos valores cualesquiera de una
característica.
- Variable continua: Número infinito de valores, entre dos valores cualesquiera de una
característica.

Christian A. Rosero F. Página 14 de 67


1.3. MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central (o de centralización) son medidas que tienden a localizar
en qué punto se encuentra la parte central de un conjunto ordenado de datos de una
variable cuantitativa.

1.3.1. Moda (Mo)

La moda (Mo(X)) es el valor más repetido del conjunto de datos, es decir, el valor cuya
frecuencia relativa es mayor. En un conjunto puede haber más de una moda.

a) 2, 3, 3, 4, 4, 4, 5, 5 Mo = 4

b) 1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 Mo = 1, 5, 9 Multimoda

c) 2, 2, 3, 3, 6, 6, 9, 9 Mo = Misma frecuencia, no hay moda.


Amodal.

d) 1, 2, 3, 4, 5 Mo = No hay moda. Amodal

e) 0, 1, 3, 3, 5, 5, 7, 8 Mo = 4 (Adyacentes la moda es el promedio


de los dos valores)

1.3.2. Mediana (Me)

La mediana (Me(X)) es el elemento de un conjunto de datos ordenados (X1, X2,…,XN)


que deja a izquierda y derecha la mitad de valores.

Christian A. Rosero F. Página 15 de 67


Si el conjunto de datos no está ordenado, la mediana es el valor del conjunto tal que el
50% de los elementos, son menores o iguales, y el otro 50% son mayores o iguales.

a) 2, 3, 4, 4, 5, 5, 5, 6, 6 Me = 5

b) 7, 8, 9, 10, 11, 12 Me = 9,5 (el valor que se encuentra en la mitad

̅)
1.3.3. Media aritmética (𝐗

Definimos media (también llamada promedio o media aritmética) de un conjunto de datos


(X1, X2,…, XN) al valor característico de una serie de datos resultado de la suma de todas
las observaciones dividido por el número total de datos.

Es decir:

Christian A. Rosero F. Página 16 de 67


Visto desde un punto de vista más conceptual, la media aritmética es el centro de los datos
en el sentido numérico, ya que intenta equilibrarlos por exceso y por defecto. Es decir, si
sumamos todas las diferencias de los datos a la media da cero.

a) 10, 20, 15, 20, 10 ̅ = 75 / 5 = 15


𝐗

1.3.4. Media geométrica

La media geométrica (MG) de un conjunto de números estrictamente positivos (X1,


X2,…,XN) es la raíz N-ésima del producto de los N elementos.

Todos los elementos del conjunto tienen que ser mayores que cero. Si algún elemento
fuese cero (Xi=0), entonces la MG sería 0 aunque todos los demás valores estuviesen
alejados del cero.

La media geométrica es útil para calcular medias de porcentajes, tantos por uno,
puntuaciones o índices. Tiene la ventaja de que no es tan sensible como la media a los
valores extremos.

Christian A. Rosero F. Página 17 de 67


1.3.5. Media armónica

La media armónica (H) de un conjunto de elementos no nulos (X1, X2,…,XN) es el


recíproco de la suma de los recíprocos (donde 1/Xi es el recíproco de Xi)) multiplicado
por el número de elementos del conjunto (N).

La media armónica es la recíproca de la media aritmética. Los elementos del conjunto


deben ser necesariamente no nulos. Esta media es poco sensible a los valores grandes,
pero muy sensible a los valores próximos a cero, ya que los recíprocos 1/Xi son muy altos.

La media armónica no tiene un uso muy extenso en el mundo científico. Suele utilizarse
principalmente para calcular la media de velocidades, tiempos o en electrónica.

1.3.6. Media cuadrática

La media cuadrática o RMS (Root Mean Square) de un conjunto de valores (X1,


X2,…,XN) es una medida de posición central. Esta se define como la raíz cuadrada del
promedio de los elementos al cuadrado.

Christian A. Rosero F. Página 18 de 67


La media cuadrática es muy útil para calcular la media de variables que toman valores
negativos y positivos. Se suele utilizar cuando el símbolo de la variable no es importante
y lo que interesa es el valor absoluto del elemento. Por ejemplo, para calcular la media de
errores de medida.

Una aplicación clásica es la determinación del valor eficaz de un parámetro sinusoidal


en electricidad, en corriente alterna (tensión en voltios o intensidad en amperios).

1.3.7. Media ponderada

La media ponderada (MP) es una medida de centralización. Consiste en otorgar a cada


observación del conjunto de datos (X1, X2,…,XN) unos pesos (p1,p2,…,pN) según la
importancia de cada elemento.

Cuanto más grande sea el peso de un elemento, más importante se considera que es éste.

La media ponderada tiene numerosas aplicaciones, por ejemplo, la nota de una asignatura
donde el examen final tiene un peso mayor al de un trabajo. O en el cálculo del IPC
(Índice de Precios de Consumo). El IPC es un indicador de los precios de los bienes y
servicios básicos que consume la población. Para calcularlo, se otorga pesos a los
diferentes bienes (pan, fruta, vivienda,…) y se calcula la media ponderada.

La media aritmética es un caso particular de media ponderada, en la que todos los pesos
son uno, ya que a todos los elementos se les otorga la misma importancia.

Christian A. Rosero F. Página 19 de 67


1.3.8. Relación entre medias

Existe una relación de orden entre cuatro tipos de media. En esta relación se excluye la
media ponderada porque depende de los pesos. Sean:

 H la media armónica
 MG la media geométrica
 x la media aritmética
 RMS la media cuadrática

Entonces:

En esta relación, solamente se cumple la igualdad cuando todos los datos sean iguales,
es decir si: x1 = x2 = x3 =… = xN.

Christian A. Rosero F. Página 20 de 67


1.4. MEDIDAS DE DISPERSIÓN

Las medidas de dispersión o medidas de variabilidad muestran la variabilidad de un


conjunto de datos, indicando la mayor o menor concentración de datos respecto a las
medias de centralización.

1.4.1. Rango

El rango (R) o recorrido estadístico es la diferencia entre el valor máximo y el mínimo


de un conjunto de elementos.

a) 10, 5, 20, 30, 8 Rango = 30 – 5 = 25

1.4.2. Rango intercuartílico

El rango intercuartílico (IQR) (o rango intercuartil) es una estimación estadística de la


dispersión de una distribución de datos. Consiste en la diferencia entre el tercer y el
primer cuartil. Mediante esta medida se eliminan los valores extremadamente alejados.
El rango intercuartílico es altamente recomendable cuando la medida de tendencia central
utilizada es la mediana (ya que este estadístico es insensible a posibles irregularidades en
los extremos).

Con el IQR podremos elaborar los diagramas de caja, que es un instrumento muy visual
para evaluar la dispersión de una distribución.

Christian A. Rosero F. Página 21 de 67


1.4.3. Varianza

La varianza (S2) mide la dispersión de los datos de una muestra respecto a la media,
calculando la media de los cuadrados de las distancias de todos los datos.

Al elevar las diferencias al cuadrado se garantiza que las diferencias absolutas respecto a
la media no se anulan entre sí. Además, resaltan los valores alejados.

Siempre se cumple que la varianza es mayor o igual que cero (S2 ≥ 0). La varianza es
cero cuando todos los datos son el mismo (ejemplo: {1, 1, 1, 1, 1}).

Si en vez de tratarse de una muestra, la varianza se refiere a la población, el denominador


será N.

1.4.4. Desviación típica o desviación estándar.

La desviación típica es la medida de dispersión (S) asociada a la media. Mide el promedio


de las desviaciones de los datos respecto a la media en las mismas unidades de los datos.

El cuadrado de la desviación típica es la Varianza.

Christian A. Rosero F. Página 22 de 67


Cuando se requiere calcular la desviación estándar de la población:

∑𝑁
𝑖=1(𝑥𝑖 − 𝑥̅ )
2
𝜎= √
𝑁

Cuando se requiere calcular la desviación estándar de la muestra:

∑𝑁
𝑖=1(𝑥𝑖 − 𝑥̅ )
2
𝑆= √
𝑁−1

Ej. Encontrar la desviación estándar de la muestra para los datos: 5, 5, 20, 35, 40, 40, 45

a) Método directo:

Promedio de los datos = 27,1429

(5 − 27,1429)2 + (5 − 27,1429)2 + (20 − 27,1429)2 + (35 − 27,1429)2 + (40 − 27,1429)2 + (40 − 27,1429)2 + (40 − 27,1429)2
𝑆= √
7−1

1742,8570
𝑆=√ = √290,4762 = 17,04
6

b) Método descompuesto:

N X (Xi - ̅
X) (𝑋𝑖 − 𝑋̅)2 ∑

1 5 (5 – 27,1429) (−22,1429)2 490,3080


2 5 (5 – 27,1429) (−22,1429)2 490,3080
3 20 (20 – 27,1429) (−7,1429)2 51,0210
4 35 (35 – 27,1429) (7,8571)2 61,7340
5 40 (40 – 27,1429) (12,8571)2 165,3050
6 40 (40 – 27,1429) (12,8571)2 165,3050
7 45 (45 – 27,1429) (17,8571)2 318,8760
Sumatoria total: 1742,8570

1742,8570 1742,8570
𝑆= √ = √ = √290,4762 = 17,04
7−1 6

Christian A. Rosero F. Página 23 de 67


1.4.5. Coeficiente de variación de Pearson

El coeficiente de variación de Pearson (r) mide la variación de los datos respecto a la


media, sin tener en cuenta las unidades en la que están.

El coeficiente de variación toma valores entre 0 y 1. Si el coeficiente es próximo al 0,


significa que existe poca variabilidad en los datos y es una muestra muy compacta. En
cambio, si tienden a 1 es una muestra muy dispersa.

Para interpretar fácilmente el coeficiente, podemos multiplicarlo por cien para tenerlo
en tanto por cien.

Christian A. Rosero F. Página 24 de 67


1.5. MEDIDAS DE POSICIÓN

Las medidas de posición no central (o medidas de tendencia no central) permiten


conocer puntos característicos de una serie de valores, que no necesariamente tienen
que ser centrales. La intención de estas medidas es dividir el conjunto de observaciones
en grupos con el mismo número de valores.

1.5.1. Cuartiles (Qi)

Los cuartiles son los tres valores que dividen una serie de datos ordenada en cuatro
porciones iguales. El primer cuartil (Q1) deja a la izquierda el 25% de los datos. El
segundo (Q2) deja a izquierda y derecha el 50% y coincide con la mediana. El tercero
(Q3) deja a la derecha el 25% de valores. Los tres cuantiles son:

Consideración: Se suele hablar de cuatro cuartiles, sin embargo el último cuartil en este
caso, representaría el último dato.

Q1 Q2 Q3 Q4
25% 50% 75% 100%

1.5.2. Deciles (Di)


Dividen al conjunto de datos en diez partes iguales.

D1 D2 D3 D4 D5 D6 D7 D8 D9 D10
10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Christian A. Rosero F. Página 25 de 67


1.5.3. Percentiles (Pi)

El percentil es una medida de posición no central. Los percentiles Pi son los 99 puntos
que dividen una serie de datos ordenada en 100 partes iguales, es decir, que contienen el
mismo número de elementos cada una. El percentil 50 es la mediana.

Sea (X1, X2,…,XN) una muestra de N elementos. El percentil Pi es:

Los percentiles están pensados para conjuntos de elementos de más de cien elementos.

1.5.4. Aplicación

Ej. Dado el siguiente conjunto de datos: 22, 49, 4, 16, 49, 90, 91, 15, 17, 9. Encontrar.

a) Q1, D3, P20


b) Q3, D1, P99

Antes de resolver, ordenar los datos de menor a mayor valor. Después, se debe encontrar
la posición con la fórmula:

%
𝜌= ∗𝑁
100

Donde:
𝜌: Es la posición que se desea encontrar.
%: Es el valor porcentual que representa el cuartil, decil, o percentil buscado.
N: Número de datos.
100: Valor constante.

Christian A. Rosero F. Página 26 de 67


a) Cuartil 1

Paso 1: ordenar.
N 4 9 15 16 17 22 49 49 90 91
𝜌 1 2 3 4 5 6 7 8 9 10

Paso 2: hallar la posición.

𝑄1
𝜌= ∗𝑁
100

25
𝜌= ∗ 10
100

𝜌 = 2,5

La posición 2,5 índica que se pueden tomar las posiciones 2 o 3, sin embargo se aconseja
tomar el valor de la derecha. Para este ejemplo se tomará el valor que se encuentra en la
posición tres.

N 4 9 15 16 17 22 49 49 90 91
𝜌 1 2 3 4 5 6 7 8 9 10

Q1 = 15.

a) Decil 3

Hallar la posición:

𝐷3 30
𝜌 = 100 ∗ 𝑁 → 𝜌 = 100 ∗ 10 → 𝜌=3

N 4 9 15 16 17 22 49 49 90 91
𝜌 1 2 3 4 5 6 7 8 9 10

Como en la posición tres, se encuentra el valor quince. Entonces, D3 = 15.

Christian A. Rosero F. Página 27 de 67


a) Percentil 20

Hallar la posición

𝑃20 20
𝜌= ∗𝑁 → 𝜌 = 100 ∗ 10 → 𝜌=2
100

N 4 9 15 16 17 22 49 49 90 91
𝜌 1 2 3 4 5 6 7 8 9 10

Como en la posición dos se encuentra el valor nueve. Entonces P20 = 9.

b) Q3, D1, P99

Hallar las posiciones:

𝑄3 75
Para Q3 → 𝜌 = 100 ∗ 𝑁 → 𝜌 = 100 ∗ 10 → 𝜌 = 7,5

𝐷1 10
Para D1 → 𝜌 = 100 ∗ 𝑁 → 𝜌 = 100 ∗ 10 → 𝜌=1

𝑃99 99
Para P99 → 𝜌 = 100 ∗ 𝑁 → 𝜌 = 100 ∗ 10 → 𝜌 = 9,9

N 4 9 15 16 17 22 49 49 90 91
𝜌 1 2 3 4 5 6 7 8 9 10

Solución: Q3 = 49; D1 = 4; P99 = 91

Christian A. Rosero F. Página 28 de 67


1.6. MEDIDAS DE UNIFORMIDAD (EQUILIBRIO)

La asimetría y curtosis informan sobre la forma de la distribución de una variable. Estas


medidas permiten saber las características de su asimetría y homogeneidad sin necesidad
de representarlos gráficamente.

1.6.1. Asimetría

La asimetría es la medida que indica la simetría de la distribución de una variable respecto


a la media aritmética, sin necesidad de hacer la representación gráfica. Los coeficientes
de asimetría indican si hay el mismo número de elementos a izquierda y derecha de la
media.

Existen tres tipos de curva de distribución según su asimetría:

 Asimetría negativa: la cola de la distribución se alarga para valores inferiores a la


media.
 Simétrica: hay el mismo número de elementos a izquierda y derecha de la media. En
este caso, coinciden la media, la mediana y la moda. La distribución se adapta a la
forma de la campana de Gauss, o distribución normal.
 Asimetría positiva: la cola de la distribución se alarga para valores superiores a la
media.

Christian A. Rosero F. Página 29 de 67


Existen tres coeficientes de asimetría:

1.6.1.1. Coeficiente de asimetría de Fisher

El coeficiente de asimetría de Fisher CAF evalúa la proximidad de los datos a su media


x. Cuanto mayor sea la suma ∑ (xi–x)3, mayor será la asimetría. Sea el conjunto X=(x1,
x2,…, xN), entonces la fórmula de la asimetría de Fisher es:

 Si CAF<0: la distribución tiene una asimetría negativa y se alarga a valores menores


que la media.

 Si CAF=0: la distribución es simétrica.

 Si CAF>0: la distribución tiene una asimetría positiva y se alarga a valores mayores


que la media.

Christian A. Rosero F. Página 30 de 67


1.6.1.2. Coeficiente de asimetría de Pearson

El coeficiente de asimetría de Pearson CAP mide la diferencia entre la media y la moda


respecto a la dispersión del conjunto X=(x1, x2,…, xN).

Este procedimiento, menos usado, lo emplearemos solamente en distribuciones


unimodales y poco asimétricas.

 Si CAP<0: la distribución tiene una asimetría negativa, puesto que la media es


menor que la moda.
 Si CAP=0: la distribución es simétrica.
 Si CAP>0: la distribución tiene una asimetría positiva, ya que la media es mayor
que la moda.

Christian A. Rosero F. Página 31 de 67


1.6.1.3. Coeficiente de asimetría de Bowley

El coeficiente de asimetría de Bowley CAB toma como referencia los cuartiles para
determinar si la distribución es simétrica o no. Para aplicar este coeficiente, se supone
que el comportamiento de la distribución en los extremos es similar. Sea el conjunto
X=(x1, x2,…, xN), la asimetría de Bowley es:

Esta fórmula viene de:

Recordemos que la mediana (Me) es lo mismo que el segundo cuartil (Q2).

 Si CAB<0: la distribución tiene una asimetría negativa, puesto que la distancia de la


mediana al primer cuartil es menor que al tercero.

 Si CAB=0: la distribución es simétrica, ya que el primer y tercer cuartil están a la


misma distancia de la mediana.

 Si CAB>0: la distribución tiene una asimetría positiva, ya que la distancia de la


mediana al tercer cuartil es mayor que al primero.

Christian A. Rosero F. Página 32 de 67


1.6.2. Curtosis

La curtosis (o apuntamiento) es una medida de forma que mide cuán escarpada o


achatada está una curva o distribución.

Este coeficiente indica la cantidad de datos que hay cercanos a la media, de manera que
a mayor grado de curtosis, más escarpada (o apuntada) será la forma de la curva.

La curtosis se mide promediando la cuarta potencia de la diferencia entre cada elemento


del conjunto y la media, dividido entre la desviación típica elevada también a la cuarta
potencia. Sea el conjunto X=(x1, x2,…, xN), entonces el coeficiente de curtosis será:

Christian A. Rosero F. Página 33 de 67


2. DATOS AGRUPADOS

En ocasiones, se requiere trabajar con una cantidad de datos que no es fácil de analizar.
Entre más datos existen, mayor es el grado de complejidad que presentan para entender
su comportamiento. Por eso, es necesario agruparlos para simplificar su comprensión.

2.1. MEDIDAS DE FRECUENCIA

La frecuencia es una medida que sirve para comparar la aparición de un elemento Xi en


un conjunto de elementos (X1, X2,…, XN). Mediante tablas de distribuciones de
frecuencia se puede presentar organizadamente el recuento de datos.

Las frecuencias de cada elemento se pueden expresar tanto absolutas (número total de
apariciones) como relativas (proporción de apariciones).

Si los datos provienen de una variable cuantitativa o existen muchas categorías, los datos
se suelen agrupar en clases. Cada clase, que tiene un intervalo o amplitud constante, está
representado por su marca de clase, que es el punto medio de la misma.

2.1.1. Frecuencia absoluta

La frecuencia absoluta (ni) de un valor Xi es el número de veces que el valor está en el


conjunto (X1, X2,…, XN).

Christian A. Rosero F. Página 34 de 67


La suma de las frecuencias absolutas de todos los elementos diferentes del conjunto debe
ser el número total de sujetos N. Si el conjunto tiene k números (o categorías) diferentes,
entonces:

2.1.2. Frecuencia absoluta acumulada

La frecuencia absoluta acumulada (Ni) de un valor Xi del conjunto (X1, X2,…, XN) es la
suma de las frecuencias absolutas de los valores menores o iguales a Xi, es decir:

2.1.3. Frecuencia relativa

La frecuencia relativa (fi) de un valor Xi es la proporción de valores iguales a Xi en el


conjunto de datos (X1, X2,…, XN). Es decir, la frecuencia relativa es la frecuencia absoluta
dividida por el número total de elementos N:

Las frecuencias relativas son valores entre 0 y 1, 0 ≤ fi ≤ 1. La suma de las frecuencias


relativas de todos los sujetos da 1. Supongamos que en el conjunto tenemos k números (o
categorías) diferentes, entonces:

Si se multiplica la frecuencia relativa por cien se obtiene el porcentaje (tanto por cien %).

Christian A. Rosero F. Página 35 de 67


2.1.4. Frecuencia relativa acumulada

Definimos la frecuencia relativa acumulada (Fi) de un valor Xi como la proporción de


valores iguales o menores a Xi en el conjunto de datos (X1, X2,…, XN). Es decir, la
frecuencia relativa acumulada es la frecuencia absoluta acumulada dividida por el número
total de sujetos N:

La frecuencia relativa acumulada de cada valor siempre es mayor que la frecuencia


relativa. De hecho, la frecuencia relativa acumulada de un elemento es la suma de las
frecuencias relativas de los elementos menores o iguales a él, es decir:

2.1.5. Tabla de frecuencias

La tabla de frecuencias (o distribución de frecuencias) es una tabla que muestra la


distribución de los datos mediante sus frecuencias. Se utiliza para variables cuantitativas
o cualitativas ordinales.

Es una herramienta que permite ordenar los datos de manera que se presentan
numéricamente las características de la distribución de un conjunto de datos o muestra.

Christian A. Rosero F. Página 36 de 67


2.2. REPRESENTACIONES GRÁFICAS

Un gráfico (o gráfica) es el recurso de representar los datos numéricos por medio de


líneas, diagramas, dibujos, etc. La representación gráfica es un importante suplemento al
análisis y estudio estadístico.

Los gráficos llaman la atención del lector y hacen que de un vistazo éste tenga una mayor
comprensión de los datos.

Un buen gráfico puede captar al lector para que a continuación lea todo el estudio. Si un
estudio se compone únicamente de texto y tablas, posiblemente no todos los lectores lean
el estudio.

Existen muchas clases de gráficas. Se pueden destacar los siguientes tipos:

Christian A. Rosero F. Página 37 de 67


2.2.1. Gráfico lineal

El gráfico lineal (gráfico de líneas o diagrama lineal) se compone de una serie de datos
representados por puntos, unidos por segmentos lineales. Mediante este gráfico se puede
comprobar rápidamente el cambio de tendencia de los datos.

El diagrama lineal se suele utilizar con variables cuantitativas, para ver su


comportamiento en el transcurso del tiempo. Por ejemplo, en las series temporales
mensuales, anuales, trimestrales, etc.

2.2.2. Diagrama

Un diagrama es un tipo de representación gráfica que sirve para representar un conjunto


de datos.

Según la RAE (Real Academia Española), un diagrama es un dibujo geométrico que sirve
para demostrar una proposición, resolver un problema o representar de una manera
gráfica la ley de variación de un fenómeno.

Existen diferentes tipos de diagramas, de los que se pueden destacar los siguientes:

Christian A. Rosero F. Página 38 de 67


2.2.2.1. Diagrama de barras

El diagrama de barras es un gráfico que se utiliza para representar datos de variables


cualitativas o discretas. Está formado por barras rectangulares cuya altura es proporcional
a la frecuencia de cada uno de los valores de la variable.

Las principales características del diagrama de barras son:

 En el eje de abscisas se colocan las cualidades de la variable, si la variable es


cualitativa, o los valores de dicha variable, si es discreta.

 En el eje de ordenadas se colocan las barras proporcionales a la frecuencia relativa


o absoluta del dato.

 Las barras pueden ser horizontales o verticales, según donde se reflejen los valores
de la variable.

 Todas las barras deben tener el mismo ancho y no deben superponerse las unas con
las otras.

Christian A. Rosero F. Página 39 de 67


2.2.2.2. Diagrama circular

El diagrama circular (también llamado diagrama de sectores o diagrama de pastel) sirve


para representar variables cualitativas o discretas. Se utiliza para representar la proporción
de elementos de cada uno de los valores de la variable.

Consiste en partir el círculo en porciones proporcionales a la frecuencia relativa.


Entiéndase como porción la parte del círculo que representa a cada valor que toma la
variable.

Christian A. Rosero F. Página 40 de 67


2.2.2.3. Diagrama de Pareto

El diagrama de Pareto (también llamado diagrama ABC) fue creado por Vilfredo Pareto,
para representar datos cualitativos. El italiano comprobó que el 20% de la población
italiana acaparaban el 80% de riquezas y propiedades.

El principio de Pareto afirma que el 20% de las causas vitales originan alrededor del 80%
de los efectos. O visto desde el punto de vista matemático, que el 20% de las categorías
representan el 80% de las observaciones.

El diagrama de Pareto se construye siguiendo estos dos pasos:

1. Ordenar los datos por frecuencia relativa o absoluta. .

2. Representar cada una de las categorías de la variable mediante un rectángulo


proporcional a su frecuencia (como en el diagrama de barras).

Christian A. Rosero F. Página 41 de 67


2.2.2.4. Diagrama de caja

El diagrama de caja es un gráfico utilizado para representar una variable cuantitativa


(variable numérica). El gráfico es una herramienta que permite visualizar, a través de
los cuartiles, cómo es la distribución, su grado de asimetría, los valores extremos, la
posición de la mediana, etc. Se compone de:

 Un rectángulo (caja) delimitado por el primer y tercer cuartil (Q1 y Q3). Dentro de la
caja una línea indica dónde se encuentra la mediana (segundo cuartil Q2)

 Dos brazos, uno que empieza en el primer cuartil y acaba en el mínimo, y otro que
empieza en el tercer cuartil y acaba en el máximo.

 Los datos atípicos (o valores extremos) que son los valores distintos que no cumplen
ciertos requisitos de heterogeneidad de los datos.

2.2.2.5. Diagrama de tallo y hojas

El diagrama de tallo y hojas (Stem-and-Leaf Diagram) es un semigráfico que permite


presentar la distribución de una variable cuantitativa. Consiste en separar cada dato en el
último dígito (que se denomina hoja) y las cifras delanteras restantes (que forman el tallo).

Christian A. Rosero F. Página 42 de 67


Es especialmente útil para conjuntos de datos de tamaño medio (entre 20 y 50 elementos)
y que sus datos no se agrupan alrededor de un único tallo. Con él podemos hacernos la
idea de qué distribución tienen los datos, la asimetría, etc.

2.2.3. Histograma

Un histograma es una representación gráfica de datos agrupados mediante intervalos. Los


datos provienen de variables cuantitativas continuas. Gracias a él, se puede hacer
rápidamente una idea de la distribución de los datos o muestra.

También cabe emplear variables cualitativas ordinales, siendo necesario que el número
de datos sea alto.

Un histograma es un conjunto de rectángulos que representan las frecuencias absolutas


de cada uno de los intervalos. Los intervalos abarcan todo el conjunto sin cortarse, de
manera que un elemento está solo en un intervalo.

Christian A. Rosero F. Página 43 de 67


2.2.4. Polígono de frecuencias

El polígono de frecuencias es un gráfico que permite la rápida visualización de las


frecuencias de cada una de las categorías del estudio.

Normalmente se utiliza el polígono de frecuencias con frecuencias absolutas, pero


también se utiliza con frecuencias relativas.

2.2.5. Pictograma

Un pictograma es un tipo de gráfico que representa mediante dibujos la característica


estudiada. Éstos representan las frecuencias relativas o absolutas de una variable
cualitativa o discreta.

Christian A. Rosero F. Página 44 de 67


2.3. EJEMPLO COMPLETO PARA DATOS AGRUPADOS

Ej. Se muestran en la tabla, los datos de desempleo de los últimos 20 años.

1,6 2,1 4,2 8,6


1,5 2,7 4,6 10
1,2 2,3 5,2 10,5
1,4 2,5 5,4 10,6
1,6 2,8 6,1 10,8
Analizar estadísticamente los valores mostrados de manera agrupada.

PASO 1: Calcular el Rango.


Rango = Valor más alto – Valor más bajo de toda la tabla.

Rango = 10,8 – 1,2 = 9,6

PASO 2: Definir cuántas clases que se van a ocupar.


Se recomienda entre cinco y quince clases (intervalos)

Se encuentra con la fórmula de Sturges:

𝐾 = 1 + 3,33𝑙𝑜𝑔(𝑛)

Siendo:

K: cuántos intervalos o clases se construyen.

n: Total de datos.

𝐾 = 1 + 3,33𝑙𝑜𝑔(20)

𝐾 = 5,33

Por lo tanto, se pueden usar cinco o seis clases. Para este ejemplo se crearán seis clases.
Se recomienda aproximar al siguiente valor, cuando resultan resultados con decimales,
para que el procesamiento gráfico, como histogramas o polígono de frecuencias, no
tengan pérdidas de información.

Nota: algunos autores consideran válido el cálculo de K = √𝑛, ya que se obtiene un valor
similar al de la fórmula de Sturges.

Christian A. Rosero F. Página 45 de 67


Número Intervalo Frecuencia Marca de Frecuencia Frecuencia Frecuencia
de clases absoluta clase absoluta Relativa relativa
Acumulada acumulada
(Nº) (clases) (fi) (Xi o Yi) (Fi) (hi) (Hi)
1
2
3
4
5
6

PASO 3: Agrupar los valores que tengan la misma amplitud = ancho de la clase.
Amplitud de la clase, es la diferencia entre el límite inferior y superior de la clase
(intervalo).

Para calcular el ancho (amplitud) de la clase:

𝑅𝑎𝑛𝑔𝑜
𝐶=
𝑁º 𝑐𝑙𝑎𝑠𝑒𝑠

9,6
𝐶=
6

Por lo tanto, el ancho de la clase será de 1,6.

El número más bajo inicia el intervalo, para este caso es 1,2.

Número Intervalo Frecuencia Marca de Frecuencia Frecuencia Frecuencia


de clases absoluta clase absoluta Relativa relativa
Acumulada acumulada
(Nº) (clases) (fi) (Xi o Yi) (Fi) (hi) (Hi)
1 [1,2 ;
2
3
4
5
6

Christian A. Rosero F. Página 46 de 67


A partir de este valor se crean los intervalos (clases), sumando el valor del ancho de la
clase.

1,2 + 1,6 = 2,8 que es el valor indicado para ese intervalo. El símbolo de paréntesis se usa
dentro de los intervalos, mientras que el corchete es necesario cuando para indicar si los
valores inicial y final se incluyen o no en el ancho de la clase.

Paréntesis = no incluye el valor.

Corchete = incluido el valor.

Los intervalos se obtienen:

Valor inicial + ancho de la clase = tope del intervalo.

Clase 1: 1,2 + 1,6 = 2,8

Clase 2: 2,8 + 1,6 = 4,4

Clase 3: 4,4 + 1,6 = 6

Clase 4: 6 + 1,6 = 7,6

Clase 5: 7,6 + 1,2 = 9,2

Clase 6: 9,2 + 1,2 = 10,8

En la tabla.

Número de Intervalo Frecuencia Marca de Frecuencia Frecuencia Frecuencia


clases absoluta clase absoluta Relativa relativa
Acumulada acumulada
(Nº) (clases) (fi) (Xi o Yi) (Fi) (hi) (Hi)
1 [1,2 ; 2,8)
2 [2,8 ; 4,4)
3 [4,4 ; 6)
4 [6 ; 7,6)
5 [7,6 ; 9,2)
6 [9,2;10,8]

Christian A. Rosero F. Página 47 de 67


PASO 4: Determinar la frecuencia (fi).

Como ya se tienen construido los intervalos, se deben observar los datos del ejercicio y
comprobar a qué intervalo pertenecen los valores. Se cuenta la cantidad de datos que se
encuentran en el intervalo y se coloca ese valor en (fi).

Para el primer intervalo, se inicia en el valor 1,2 (incluido) y llega hasta 2,8 (no incluido),
por lo tanto, los valores del ejercicio que están dentro de este ancho de clase son, 1,2; 1,4;
1,5; 1,6; 1,6; 2,1; 2,7; 2,3; 2,5. Es decir, nueve valores.

Nota: el 2,8 no se incluye en el primer intervalo (clase), debido a que está colocado como
inicio del segundo intervalo (clase).

Para las demás clases (intervalos), se debe repetir el proceso de contar la cantidad de
valores que se encuentran en el intervalo analizado, y colocar el conteo en la columna
(fi).

Para el ejemplo mostrado se tiene:

Clase 1: 1,2; 1,4; 1,5; 1,6; 1,6; 2,1; 2,7; 2,3; 2,5 = 9 datos.

Clase 2: 2,8 y 4,2 = 2 datos.

Clase 3: 4,6; 5,2; 5,4 = 3 datos.

Clase 4: 6,1 = 1 dato.

Clase 5: 8,6 = 1 dato.

Clase 6: 10; 10,5; 10,6; 10,8 = 4 datos.

En la tabla.

Número de Intervalo Frecuencia Marca de Frecuencia Frecuencia Frecuencia


clases absoluta clase absoluta Relativa relativa
Acumulada acumulada
(Nº) (clases) (fi) (Xi o Yi) (Fi) (hi) (Hi)
1 [1,2 ; 2,8) 9
2 [2,8 ; 4,4) 2
3 [4,4 ; 6) 3
4 [6 ; 7,6) 1
5 [7,6 ; 9,2) 1
6 [9,2;10,8] 4

Christian A. Rosero F. Página 48 de 67


PASO 5: Encontrar la marca de la clase Xi o Yi

𝑉𝑎𝑙𝑜𝑟 𝑖𝑛𝑖𝑐𝑖𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 + 𝑉𝑎𝑙𝑜𝑟 𝑓𝑖𝑛𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒


𝑀𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 =
2

X1: (1,2 + 2,8) / 2 = 2

X2: (2,8 + 4,4) / 2 = 3,6

X3: (4,4 + 6) / 2 = 5,2

X4: (6 + 7,6) / 2 = 6,8

X5: (7,6 + 9,2) / 2 = 8,4

X6: (9,2 + 10,8) / 2 = 10

Estos valores se colocan en la columna Xi o Yi de la tabla.

Número de Intervalo Frecuencia Marca de Frecuencia Frecuencia Frecuencia


clases absoluta clase absoluta Relativa relativa
Acumulada acumulada
(Nº) (clases) (fi) (Xi o Yi) (Fi) (hi) (Hi)
1 [1,2 ; 2,8) 9 2
2 [2,8 ; 4,4) 2 3,6
3 [4,4 ; 6) 3 5,2
4 [6 ; 7,6) 1 6,8
5 [7,6 ; 9,2) 1 8,4
6 [9,2;10,8] 4 10

Nótese que a partir del primer valor de Xi, se puede sumar la constante 1,6. Debido a que
todos intervalos tienen el mismo ancho. Esta constante se calcula del valor final – valor
inicial de cualquier intervalo. Ej.

2,8 − 1,2 = 1,6

2 + 1,6 = 3,6

3,6 + 1,6 = 5,2

5,2 + 1,6 = 6,8

Christian A. Rosero F. Página 49 de 67


6,8 + 1,6 = 8,4

8,4 + 1,6 = 10

Dando como resultado los mismos valores del anterior cálculo, demostrando que es igual
de válido.

PASO 6: Calcular la frecuencia absoluta acumulada (Fi)

Se copia el primer valor de la frecuencia absoluta (fi) a la columna de Fi.

A partir de este valor, se suma el siguiente dato de (fi) y el resultado se coloca en la


columna de Fi.

Para este ejemplo, empieza en 9.

9 + 2 = 11

11 + 3 = 14

14 + 1 = 15

15 + 1 = 16

16 + 4 = 20

Estos valores se colocan en la columna Fi

Número de Intervalo Frecuencia Marca de Frecuencia Frecuencia Frecuencia


clases absoluta clase absoluta Relativa relativa
Acumulada acumulada
(Nº) (clases) (fi) (Xi o Yi) (Fi) (hi) (Hi)
1 [1,2 ; 2,8) 9 2 9
2 [2,8 ; 4,4) 2 3,6 11
3 [4,4 ; 6) 3 5,2 14
4 [6 ; 7,6) 1 6,8 15
5 [7,6 ; 9,2) 1 8,4 16
6 [9,2;10,8] 4 10 20

Es decir, con la columna (fi) se completa la columna (Fi).

Christian A. Rosero F. Página 50 de 67


PASO 7: Calcular la frecuencia relativa (hi)

Se inicia dividiendo el primer valor de la columna (fi) entre el valor final de la columna
(Fi) que representa el total acumulado. Es proceso se repite con cada valor de la (fi) divido
para siempre para el valor final de Fi.

En el ejemplo.

9 / 20 = 0,45

2 / 20 = 0,1

3 / 20 = 0,15

1 / 20 = 0,05

1 / 20 = 0,05

4 / 20 = 0,2

Estos valores se ingresan en la columna (hi)

Número de Intervalo Frecuencia Marca de Frecuencia Frecuencia Frecuencia


clases absoluta clase absoluta Relativa relativa
Acumulada acumulada
(Nº) (clases) (fi) (Xi o Yi) (Fi) (hi) (Hi)
1 [1,2 ; 2,8) 9 2 9 0,45
2 [2,8 ; 4,4) 2 3,6 11 0,1
3 [4,4 ; 6) 3 5,2 14 0,15
4 [6 ; 7,6) 1 6,8 15 0,05
5 [7,6 ; 9,2) 1 8,4 16 0,05
6 [9,2;10,8] 4 10 20 0,2

PASO 8: Encontrar la frecuencia relativa acumulada (Hi)

Se coloca el primer valor de la columna (hi) en la columna (Hi). Con este dato se suma el
siguiente valor de la columna (hi) y el resultado se coloca en la siguiente columna de (Hi).

Se repite el proceso hasta completar todas las filas.

En este caso, se inicia con 0,45

0,45 + 0,1 = 0,55

Christian A. Rosero F. Página 51 de 67


0,55 + 0,15 = 0,7

0,7 + 0,05 = 0,75

0,75 + 0,05 = 0,8

0,8 + 0,2 = 1

El valor 1 representa el 100% de los datos. Estos valores se colocan en la columna (Hi).

Número Intervalo Frecuencia Marca de Frecuencia Frecuencia Frecuencia


de clases absoluta clase absoluta Relativa relativa
Acumulada acumulada
(Nº) (clases) (fi) (Xi o Yi) (Fi) (hi) (Hi)
1 [1,2 ; 2,8) 9 2 9 0,45 0,45
2 [2,8 ; 4,4) 2 3,6 11 0,1 0,55
3 [4,4 ; 6) 3 5,2 14 0,15 0,7
4 [6 ; 7,6) 1 6,8 15 0,05 0,75
5 [7,6 ; 9,2) 1 8,4 16 0,05 0,8
6 [9,2;10,8] 4 10 20 0,2 1

PASO 9: Construir el Histograma y polígono de frecuencias.

 Para el histograma:

El eje horizontal se construye con las marcas de clase. Estos valores determinan el ancho
de las columnas. Para el ejemplo, como el ancho de la clase calculado fue 1,6 entonces
las columnas tendrán de ancho 1,6 unidades.

Como se crearon seis clases significa que se crearán 6 columnas. Si cada columna tiene
un ancho de 1,6 unidades y todas van juntas, sin espacios entre sí, se tendrá un eje
horizontal de 1,6 * 6 = 9,6 unidades (se recomienda aumentar el eje a 10).

El eje vertical es construido con la frecuencia (fi), tomando su valor más alto como
referencia para el alto de la columna. Para el ejemplo, el mayor valor de la frecuencia
absoluta (fi) es nueve. Por lo tanto el alto del eje será de mínimo 9 unidades (se
recomienda 10).

Christian A. Rosero F. Página 52 de 67


El histograma del ejemplo, quedará:

Las recomendaciones de aumentar el tamaño de los ejes, son para que se puedan observar
las columnas completamente, sin tener problemas de escala.

 Para el polígono de frecuencias:

Se puede aprovechar que el polígono está construido, para aumentar el polígono de


frecuencias. Se calcula la parte central de la barra en su parte superior (si cada barra tiene
un ancho de 1,6 entonces, la mitad será 0,8 para cada barra que es donde se localiza el
punto.

Christian A. Rosero F. Página 53 de 67


Para el ejemplo:

El histograma está compuesto por barras juntas, mientras que el polígono de frecuencias
se muestra con la línea naranja.

Nota: No confundir el histograma, con el diagrama de barras.

Ejemplo de diagrama de barras.

Como se observa, el diagrama de barras presenta separaciones entre las columnas.

Christian A. Rosero F. Página 54 de 67


2.4. RESUMEN: DIFERENCIAS ENTRE GRÁFICOS

HISTOGRAMA

POLÍGONO DE
FRECUENCIAS

DIAGRAMA
DE BARRAS

Christian A. Rosero F. Página 55 de 67


2.4. MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS

2.4.1. Media o promedio


Fórmula:

∑ 𝑌𝑖 ∗ 𝑓𝑖
𝑥̅ =
𝑛

Yi: Marca de la clase (Xi)

fi: Frecuencia absoluta simple

n: tamaño de la muestra

Ejemplo.

La siguiente tabla corresponde a las ganancias de unos comerciantes.

PASO 1.

A la tabla de frecuencias, se le debe aumentar la columna 𝑌𝑖 ∗ 𝑓𝑖, que multiplicará cada


valor de la marca de la clase (𝑌𝑖) por cada valor de la frecuencia absoluta simple (𝑓𝑖).

Ganancias N. de N. de Marca de la clase. Yi * fi


En dólares comerciantes comerciantes Ac. Yi o Xi
fi Fi

300; 350 8 8 325 2600


350; 400 9 17 375 3375
400; 450 6 23 425 2550
450; 500 7 30 475 3325
500; 550 4 34 525 2100
550; 600 6 40 575 3650
total n: 40 suma 17400

PASO 2.

El valor de la suma total de 𝑌𝑖 ∗ 𝑓𝑖 se debe dividir para el total de comerciantes n.

Christian A. Rosero F. Página 56 de 67


17400
𝑋̅ =
40

El valor de la media o promedio es de 435.

Interpretación:
La ganancia promedio de 40 comerciantes es de 435 dólares.

2.4.2. Mediana
Para encontrar la mediana, se debe dividir 𝑛/2.

Cuando este valor no coincide con Fi, entonces aplicar la siguiente fórmula.

𝑛
− 𝐹𝑖−1
𝑀𝑒 = 𝐿𝑖 + 2 ∗ 𝑡𝑖
𝑓𝑖

Dónde:

Li: Es el límite de la clase donde se encuentra la mediana. (Límite inferior de la fila de


trabajo).

𝑛/2: Es la semisuma de las frecuencias absolutas.

𝐹𝑖−1 : Es la frecuencia acumulada anterior a la clase de la mediana. (Fila anterior a la fila


de trabajo).
ti: Amplitud del intervalo de la fila de trabajo. (Ancho de la clase).

Ejemplo:
Edad Marca de la clase Frecuencia absoluta Frecuencia Acum.
Xi fi Fi
0; 10 5 3 3
10; 20 15 6 9
20; 30 25 7 16
30; 40 35 12 28
40; 50 45 3 31

Christian A. Rosero F. Página 57 de 67


PASO 1.
Encontrar la fila de trabajo. Para hacerlo, se debe dividir el último valor de Fi para 2.
𝑛 31
= = 15,5
2 2

PASO 2.
Si el valor de 𝑛/2 no coincide con ningún valor de Fi, aplicar la fórmula dada.
Como el valor de 15,5 se encuentra dentro de Fi = 16, ya que este valor lo contiene dentro
de su rango, se debe considerar esta fila como fila de trabajo de la cual se tomarán los
datos para ingresar en la fórmula.

PASO 3.
Aplicar la fórmula.
𝑛
− 𝐹𝑖−1
𝑀𝑒 = 𝐿𝑖 + 2 ∗ 𝑡𝑖
𝑓𝑖

31
−9
𝑀𝑒 = 20 + 2 ∗ 10
7

Christian A. Rosero F. Página 58 de 67


15,5 − 9
𝑀𝑒 = 20 + ∗ 10
7

𝑀𝑒 = 29,285

2.4.3. Moda
Para encontrar la moda, se debe localizar el intervalo con mayor frecuencia absoluta.
Aplicar la siguiente fórmula.

𝑓𝑖 − 𝑓𝑖−1
𝑀𝑜 = 𝐿𝑖 + ∗ 𝑡𝑖
(𝑓𝑖 − 𝑓𝑖−1 ) + (𝑓𝑖 − 𝑓𝑖+1 )

Dónde:
Li: Límite inferior del intervalo de trabajo.
fi: Frecuencia absoluta simple del intervalo de trabajo.
𝑓𝑖−1: Frecuencia absoluta simple del intervalo previo a la fila de trabajo.
𝑓𝑖+1: Frecuencia absoluta simple del intervalo posterior a la fila de trabajo.
ti: Ancho del intervalo de trabajo.

Ejemplo.

Edad Marca de la clase Frecuencia absoluta Frecuencia Acum.


Xi fi Fi
0; 10 5 3 3
10; 20 15 6 9
20; 30 25 7 16
30; 40 35 12 28
40; 50 45 3 31

PASO 1.
Localizar la fila de trabajo. Para hacerlo, determinar el intervalo con mayor frecuencia
absoluta.

Christian A. Rosero F. Página 59 de 67


Edad Marca de la clase Frecuencia absoluta Frecuencia Acum.
Xi fi Fi
0; 10 5 3 3
10; 20 15 6 9
20; 30 25 7 16
30; 40 35 12 28
40; 50 45 3 31

Este valor al ser el más alto de las frecuencias fi, indica que esa es la fila de trabajo.

PASO 2.
Aplicar la fórmula.

𝑓𝑖 − 𝑓𝑖−1
𝑀𝑜 = 𝐿𝑖 + ∗ 𝑡𝑖
(𝑓𝑖 − 𝑓𝑖−1 ) + (𝑓𝑖 − 𝑓𝑖+1 )

12 − 7
𝑀𝑜 = 30 + ∗ 10
(12 − 7) + (12 − 3)

𝑀𝑜 = 33,6

Christian A. Rosero F. Página 60 de 67


2.5. MEDIDAS DE POSICIÓN PARA DATOS AGRUPADOS

2.5.1. Deciles
Para calcular la posición se debe aplicar la fórmula:

𝑁∗𝐾
10

Donde:

N: Es el valor máximo de la frecuencia absoluta acumulada.

K: Es el decil que se desea localizar.

Para conocer el valor del decil, aplicar la fórmula.

𝑁∗𝑘
( 10 ) − 𝐹𝑖−1
𝐷𝑘 = 𝐿𝑖 + ∗ 𝑡𝑖
𝑓𝑖

Donde:

Li: Límite inferior de la fila de trabajo.

fi: Frecuencia absoluta simple de la fila de trabajo.

𝐹𝑖−1 : Frecuencia absoluta acumulada de la fila previa a la de trabajo.

ti: ancho del intervalo.

Ejemplo.

Valores fi Fi
50; 60 8 8
60; 70 10 18
70; 80 16 34
80; 90 14 48
90; 100 10 58
100; 110 5 63
110; 120 2 65

Encontrar el decil 1 y decil 2.

Christian A. Rosero F. Página 61 de 67


a) Para el decil 1

PASO 1.

Localizar la posición:

𝑁∗𝐾
10

Nota: el valor K es el decil que se busca, en este caso 1.

65 ∗ 1
10

Posición: 6,5

Este valor se debe buscar en la columna de la frecuencia absoluta acumulada Fi. Si no


existe, ubicar el valor que lo contiene. De esta manera, se tiene la fila de trabajo.

Valores fi Fi
50; 60 8 8 (el valor 6,5 está dentro de 8)
60; 70 10 18
70; 80 16 34
80; 90 14 48
90; 100 10 58
100; 110 5 63
110; 120 2 65

PASO 2.

Aplicar la fórmula.

𝑁∗𝑘
( 10 ) − 𝐹𝑖−1
𝐷𝑘 = 𝐿𝑖 + ∗ 𝑡𝑖
𝑓𝑖

Christian A. Rosero F. Página 62 de 67


65 ∗ 1
( )−0
𝐷1 = 50 + 10 ∗ 10
8

Nota: Como no existe la fila previa 𝐹𝑖−1 se debe colocar cero en la fórmula.

𝐷1 = 58,125

b) Para encontrar el decil 2:

PASO 1: Posición

𝑁∗𝑘 65 ∗ 2
= = 13
10 10

Este valor se encuentra en la fila 2, dentro del valor 18

PASO 2: Aplicar la fórmula

𝑁∗𝑘
( 10 ) − 𝐹𝑖−1
𝐷𝑘 = 𝐿𝑖 + ∗ 𝑡𝑖
𝑓𝑖

Christian A. Rosero F. Página 63 de 67


65 ∗ 2
( )−8
𝐷2 = 60 + 10 ∗ 10
10

𝐷2 = 65

2.5.2. Cuartiles
Para calcular la posición se debe aplicar la fórmula:

𝑁∗𝐾
4

Donde:

N: Es el valor máximo de la frecuencia absoluta acumulada.

K: Es el cuartil que se desea localizar.

Para conocer el valor del cuartil, aplicar la fórmula.

𝑁∗𝑘
( 4 ) − 𝐹𝑖−1
𝑄𝑘 = 𝐿𝑖 + ∗ 𝑡𝑖
𝑓𝑖

Donde:

Li: Límite inferior de la fila de trabajo.

fi: Frecuencia absoluta simple de la fila de trabajo.

𝐹𝑖−1 : Frecuencia absoluta acumulada de la fila previa a la de trabajo.

ti: ancho del intervalo.

2.5.3. Percentiles

Para calcular la posición se debe aplicar la fórmula:

𝑁∗𝐾
100

Christian A. Rosero F. Página 64 de 67


Donde:

N: Es el valor máximo de la frecuencia absoluta acumulada.

K: Es el Percentil que se desea localizar.

Para conocer el valor del percentil, aplicar la fórmula.

𝑁∗𝑘
( 100 ) − 𝐹𝑖−1
𝑃𝑘 = 𝐿𝑖 + ∗ 𝑡𝑖
𝑓𝑖

Donde:

Li: Límite inferior de la fila de trabajo.

fi: Frecuencia absoluta simple de la fila de trabajo.

𝐹𝑖−1 : Frecuencia absoluta acumulada de la fila previa a la de trabajo.

ti: ancho del intervalo.

Ejemplo.

Encontrar el Cuartil 1 y el percentil 40, de la siguiente tabla de valores.

Valores fi Fi
50; 60 8 8
60; 70 10 18
70; 80 16 34
80; 90 14 48
90; 100 10 58
100; 110 5 63
110; 120 2 65

a) Cuartil 1

PASO 1: Localizar la posición.

Christian A. Rosero F. Página 65 de 67


𝑁∗𝑘 65 ∗ 1
= = 16,25
4 4

Nota: el valor k es el cuartil que se busca, en este caso 1.

El valor de 16,25 se encuentra contenido en la fila 2, ya que está dentro de 18.

Valores fi Fi
50; 60 8 8 (𝐹𝑖−1 )
60; 70 ti = 70-60=10 10 fi 18 Fi
70; 80 16 34
80; 90 14 48
90; 100 10 58
100; 110 5 63
110; 120 2 65

PASO 2: Aplicar la formula.


𝑁∗𝑘
( 4 ) − 𝐹𝑖−1
𝑄𝑘 = 𝐿𝑖 + ∗ 𝑡𝑖
𝑓𝑖

16,25 − 8
𝑄1 = 60 + ∗ 10
10

𝑄1 = 68,25

b) Percentil 40

PASO 1: Localizar la fila de trabajo

𝑁∗𝑘 65 ∗ 40
= = 26
100 100

Nota: el valor k es el percentil que se busca, en este caso 40.

Christian A. Rosero F. Página 66 de 67


El valor de 26, se encuentra contenido dentro de la fila 3, ya que está dentro de 34.
Valores fi Fi
50; 60 8 8
60; 70 10 18 (𝐹𝑖−1 )
70; 80 ti = 70-60=10 16 fi 34 Fi
80; 90 14 48
90; 100 10 58
100; 110 5 63
110; 120 2 65

PASO 2: Aplicar la fórmula


𝑁∗𝑘
( 100 ) − 𝐹𝑖−1
𝑃𝑘 = 𝐿𝑖 + ∗ 𝑡𝑖
𝑓𝑖

26 − 18
𝑃40 = 70 + ∗ 10
16

𝑃40 = 75

Christian A. Rosero F. Página 67 de 67

You might also like