Professional Documents
Culture Documents
Clase 1
Estadística Descriptiva
Juan Zambrano Challapa
Profesor de Estado en Matemática
Master en Estadística Matemática
2016
Juan Zambrano Ch. UNAP Estadística Descriptiva 1
¿Qué es la estadística?
3) Muestra
Es un subconjunto representativo de la población.
Al número de datos de la muestra se le llama “n” (tamaño muestral).
4) Unidad de análisis
Es cada uno de los elementos u objetos sobre los que se realiza la observación
de una o más variables. (Es el ”Informante”)
7) Estadígrafo
Es una medida de una característica muestral, tales como:
𝒙 ∶ 𝒎𝒆𝒅𝒊𝒂 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍
𝒔𝟐 ∶ 𝒗𝒂𝒓𝒊𝒂𝒏𝒛𝒂 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍
s ∶ 𝒅𝒆𝒔𝒗𝒊𝒂𝒄𝒊ó𝒏 𝒆𝒔𝒕á𝒏𝒅𝒂𝒓 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍
p ∶ 𝒑𝒓𝒐𝒑𝒐𝒓𝒄𝒊ó𝒏 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍
Juan Zambrano Ch. UNAP Estadística Descriptiva 8
Identificación de: Unidad de análisis, población, muestra,
variable y tipo de variable
1) Se entrevista a 25 empleados de la industria TBC en marzo del 2010
para conocer su Título profesional o profesión.
Solución
Unidad de análisis:
El empleado de la industria TBC
Población:
Todos los empleados de la industria TBC
Muestra:
25 empleados de la industria TBC
Variable:
Título profesional o profesión
Tipo de variable:
Cualitativa Nominal
Población:
5.000 jefes de hogar de la comuna de Alto Hospicio
Muestra:
50 jefes de hogar de la comuna de Alto Hospicio
Variable:
Nivel educacional
Tipo de variable:
Cualitativa Ordinal
Población:
Todas las empresas de la Región de Tarapacá
Muestra:
100 empresas de la Región de Tarapacá
Variable:
Nº de CAT (camiones de alto tonelaje)
Tipo de variable:
Cuantitativa Discreta
Población:
Todas las empresas industriales de la Región de Tarapacá
Muestra:
80 empresas industriales de la Región de Tarapacá
Variable:
Consumo eléctrico en KW·de las empresas industriales de la Región de Tarapacá
Tipo de variable:
Cuantitativa Continua
Población:
Todas las familias de HUATACONDO
Muestra:
120 familias de HUATACONDO
Variable:
Nivel educacional del jefe de familia
Tipo de variable:
Cualitativa Ordinal
Población:
Todos los Supervisores de 30 a 35 años residentes en la región
Muestra:
20 Supervisores de 30 a 35 años residentes en la región
Variable:
Grado de aceptación
Tipo de variable:
Cuantitativa continua
Juan Zambrano Ch. UNAP Estadística Descriptiva 14
Identificación de: Unidad de análisis, población, muestra,
variable y tipo de variable
7) Un laboratorio realiza un Test de rapidez de acción de cierto compuesto químico, en
50 minerales. Los resultados fueron observados cada hora, habiéndose obtenido los
siguientes datos del número de minerales totalmente libres de impureza, después de
periodos de tiempo que se indican: 3 horas: 3 minerales; 4 horas: 7 minerales; 5
horas: 10 minerales; 6 horas: 16 minerales; 7 horas: 9 minerales; 8 horas: 5
minerales.
Solución
Unidad de análisis:
El mineral
Población:
Todos los minerales
Muestra:
50 minerales
Variable:
Periodo de tiempo de reacción
Tipo de variable:
Cuantitativa continua
Unidad de análisis:
El turno
Población:
Todos los turnos en el año 2013
Muestra:
54 turnos en el año 2013
Variable:
Cantidad de accidentes laborales
Tipo de variable:
Cuantitativa Discreta
Unidad de análisis:
El trabajador de la empresa XXX
Población:
Todos los trabajadores de la empresa XXX
Muestra:
40 trabajadores de la empresa XXX
Variable:
Peso en libras
Tipo de variable:
Cuantitativa continua
Juan Zambrano Ch. UNAP Estadística Descriptiva 17
Identificación de: Unidad de análisis, población, muestra,
variable y tipo de variable
10) Los datos corresponden al número de artículos defectuosos por caja en
una muestra de 90 cajas de un lote llegado a una empresa en octubre del
2015
Unidad de análisis:
La caja
Población:
Todas las cajas de un lote llegado a la empresa
Muestra:
90 cajas de un lote llegado a la empresa
Variable:
Número de artículos defectuosos por caja
Tipo de variable:
Cuantitativa discreta
Juan Zambrano Ch. UNAP Estadística Descriptiva 18
Identificación de: Unidad de análisis, población, muestra,
variable y tipo de variable
11) Los datos representan los puntajes de 36 trabajadores en la ciudad
MALA MAR en marzo del 2015
Unidad de análisis:
El trabajador de la ciudad MALA MAR
Población:
Todos los trabajadores de la ciudad MALA MAR
Muestra:
36 trabajadores de la ciudad MALA MAR
Variable:
Puntaje
Tipo de variable:
Cuantitativa continua
Unidad de análisis:
La persona
Población:
Todas las personas
Muestra:
50 personas
Variable:
Tiempo de espera en minutos
Tipo de variable:
Cuantitativa continua
Unidad de análisis:
El artículo
Población:
10.000 artículos producidos por tres máquinas diferentes
Muestra:
10.000 artículos producidos por tres máquinas diferentes
Variable:
Calidad del artículo producido por tres máquinas diferentes
Tipo de variable:
Cualitativa Ordinal
Son AUTOEXPLICATIVOS
Las “tablas” y los gráficas son dos maneras equivalentes de presentar,
mostrar o describir información.
Las dos exponen ordenadamente la información recogida en una muestra o
población.
Juan Zambrano Ch. UNAP Estadística Descriptiva 22
Tipos de distribuciones (Tablas)
Distribución Categórica (o Cualitativa)
Es aquella que se aplica a la variable cualitativa, en donde sus
valores son cualidades, categorías o atributos
– Genero:
• {Femenino, Masculino}
– Nivel Educacional:
• {Básica, Media, Universitaria}
– Estatura en metros
• {1,62 - 1,74 -...}
𝒏𝒊 = 𝒏 ; 𝑴 = 𝑵ú𝒎𝒆𝒓𝒐 𝒅𝒆 𝒄𝒍𝒂𝒔𝒆𝒔
𝒊=𝟏
𝑵𝒊 = 𝒏𝒋
𝒋=𝟏
Gerente 1 2,5%
Total 40 100%
0 9 16,7% 9 16,7%
1 12 22,2% 21 38,9%
2 12 22,2% 33 61,1%
3 9 16,7% 42 77,8%
4 5 9,2% 47 87%
5 4 7,4% 51 94,4%
6 3 5,6% 54 100%
Total 54 100%
Juan Zambrano Ch. UNAP Estadística Descriptiva 31
Ejercicio: Variable cuantitativa discreta
Núm. de artículos defectuosos por caja, en una empresa, diciembre 2016
Núm. de art. Número Porcentaje Número Porcentaje
defec de cajas de cajas acumulado de acumulado de
(Variable) cajas cajas
(FA) (FR) (FAA) (FRA)
2 5 5,6% 5 5,6%
3 12 13,3% 17 18,9%
4 17 18,9% 34 37,8%
5 16 17,8% 50 55,6%
6 13 14,4% 63 70%
7 9 10% 72 80%
8 10 11,1% 82 91,1%
9 2 2,2% 84 93,3%
10 3 3,3% 87 96,7%
11 2 2,2% 89 98,9%
12 1 1,1% 90 100%
Total 90 100%
Debe tener un decimal más que los datos; si la división no es exacta (o tiene muchos decimales)
L.I. L.S.
5°) Marca de clase (M. C.): M.C.
2
6°) Contar los valores que se encuentran dentro de cada intervalo.
Juan Zambrano Ch. UNAP Estadística Descriptiva 33
Ejemplo: Variable cuantitativa continua
Se usará la variable cuantitativa continua EDAD de los empleados de la
empresa TBC, en el pueblo de MACONDO, el año 2015.
22 20 22 24 30
40 58 45 38 25
28 35 60 45 62
60 36 28 44 48
54 65 32 46 33
26 40 42 38 28
21 24 30 39 32
33 31 29 31 30
Juan Zambrano Ch. UNAP Estadística Descriptiva 34
Continuación: …
1°) R = 65 – 20 = 45 R = 45
R 45
3°) Datos con cero decimal 6, 4 2857142867 143
M 7
La amplitud deberá tener un decimal A = 6,5
4º) L. I. ; L. I. + A [ L.I . ; L. S.[
20 ; (20,0 + 6,5) = 26,5 [ 20,0 ; 26,5 [
26,5 ; (26,5 + 6,5) = 33,0 [ 26,5 ; 33,0 [
59,0 ; (59,0 + 6,5) = 65,5 [ 59,0 ; 65,5 ]
[ 39,5 ; 46,0 [
42,75 40; 45; 45; 44; 40; 42 6
Pictogramas
– Fáciles de entender.
– El área de cada modalidad debe ser proporcional
a la frecuencia.
–Polígono de frecuencias
• Se unen mediante líneas rectas las marcas de clases
proyectadas en la parte superior del rectángulo.
Valor máximo
Percentil 75
D
Percentil 50 (Mediana)
Percentil 25
Anómalos
1) PERCENTILES
Son valores que dividen el conjunto ordenados de datos en 99 grupos con la misma cantidad
de individuos.
Ejemplo, el percentil de orden 15 deja por debajo al 15% de las observaciones, y por encima
queda el 85%
2) CUARTILES
Son 3 valores que dividen el conjunto ordenados de datos en 4 grupos con la misma cantidad
de individuos. Son un caso particular de los percentiles
El primer cuartil Q1 es el menor valor que es mayor que una cuarta parte de los datos
El segundo cuartil Q2 (la mediana), es el menor valor que es mayor que la mitad de los datos
El tercer cuartil Q3 es el menor valor que es mayor que tres cuartas partes de los datos
3) DECILES
Son 9 valores que dividen el conjunto ordenados de datos en 10 grupos con la misma cantidad
de individuos. Son un caso particular de los percentiles.
n x i i
x i
n
Si los datos están agrupados utilizamos las marcas de clase.
2) MEDIANA (Me)
Es el valor que separa por la mitad los datos ordenadas de menor a mayor, de tal forma que el
50% son menores que la mediana y el otro 50% son mayores.
3) MODA (Mo)
Es el valor de la variable que más veces se repite, es decir, aquella cuya frecuencia absoluta es
mayor. No tiene porque ser única.
El famoso trío “media, mediana y moda” representan tres métodos diferentes para
encontrar el valor del centro. Estos tres valores pueden ser un mismo valor, pero a
menudo son distintos. Cuando son distintos, pueden servir para diferentes
interpretaciones de los datos que queremos resumir.
n x
2 2
i i x ni xi2 x
s2 i
i
n 1 n 1
Si los datos están agrupados utilizamos las marcas de clase.
3 3 4
2
𝟏
𝟏− 𝟐
𝑲
Dice, por ejemplo que:
75% de los datos están a menos de 𝑲 = 𝟐 desviaciones estándar de la
media,
88,89% de los datos están a menos de 𝑲 = 𝟑 desviaciones estándar de la
media,
2) La mediana: es el valor que deja a la mitad de los datos por encima de dicho valor y a
la otra mitad por debajo.
1º) Odenamos los datos de menor a mayor obteniendo la secuencia:
15, 21, 32, 59, 60, 60, 61, 64, 71, 80
2º) Calculamos la mediana, usando:
Pk Indicador Posición Fórmula
P50 0,510 1 5,5 Pos 5 Pos 6 P50 60 5,560 60 60 días
3) La moda: el valor de la variable que presenta una mayor frecuencia es 60días
Solución:
La varianza S2: Es la media de los cuadrados de las diferencias entre cada
valor de la variable y la media aritmética de la distribución.
x
2
x
S
2 i
i
15 52,3 21 52,3 ... 80 52,3
2 2 2
475,12
n 1 10 1
s s 2 475,12 21,797
Solución:
El rango: diferencia entre el valor de las observaciones mayor y el menor:
Re x máx x mín 80 15 65 días
Solución:
Coeficiente de asimetría para distribuciones unimodales:
x Mo 52,3 60
CAS 0,353 días
s 21,797
Máximo 80
Percentil 75
P75 65,75
D
P50 60,0
Percentil 50
(Mediana) D 45,5 x 52,3
Percentil 25
P25 29,25
Anómalos
Comentario:
Distribución No normal, Asimétrica negativa; existe mayor concentración
de valores a la derecha de la media que a su izquierda)
Juan Zambrano Ch. UNAP Estadística Descriptiva 76
Ejemplo 2
El precio de un TV en 10 establecimientos comerciales de una ciudad
son: 250.000, 250.000, 260.000, 240.000, 300.000, 250.000, 290.000,
280.000, 260.000, y 270.000 pesos. Hallar la media, moda, mediana,
diagrama de barras y el diagrama de caja.
Solución: Los resultados se expresan en 10 miles de pesos
Febrero 45
Marzo 50
Abril 58
Mayo 65
Junio 110
Julio 100
Agosto 120
Septiembre 50
Octubre 60
Noviembre 45
Diciembre 35
Total 768
Media : 64
Mediana : 54
Moda : 45
Rango : 30 a 120 = 90
Varianza : 809,33
Desviación estándar : 28,45
Simetría : 0,98
Curtosis : -0,32
x
N n
x
2
x
2
Varianza 2 i 1
i
s2 i 1
i
N n 1
x
N n
x i 2
2
x
Desviación estándar i 1
s i 1
i
N n 1
Dispersión
s
Coeficiente de variación CV CV
x
n c i i 7
x MX
i 1 1482 ,5
f i ci 37 ,0625 37 ,1 años
n i 1
40
n c x
M 7
La varianza es: 2 2
ni c i x i i
s 2 VarX i 1 i 1 5846 ,3438
149 ,9063
n 1 40 1 39
La desviación estándar es:
s 149 ,9063 12,2436 Comentario: Como CV < 50%
1º La edad media es representativa y
El coeficiente de variación es: 2º Las edades son homogéneas
s 12,2436
CV 0,3304 33,04%
x 37,0625
n x
M
El coeficiente de asimetría es: x
3
i i
i 1 56306 ,7070
Comentario: Como g1 > 0 n 40
g1 0,7966 0
Distribución Asimétrica positiva; 3 3
5846 ,3438
M
existe mayor concentración de ni xi x
2
valores a la izquierda de la media 40
i 1
que a su derecha) n
M
El coeficiente de curtosis es: ni x i x
4
M 7
x MX fc
1 1 1482 ,5
ni c i i i 37 ,0625 37 ,1 años
n i 1
40 i 1
40
M 7
x MX fc
1 1 1482 ,5
ni c i i i 37 ,0625 37 ,1 años
n i 1
40 i 1
40
Percentil 75
D
Percentil 50
(Mediana) P75 43,8333
Percentil 25 x 37,1
D 16,1515
P50 33,9286
P25 27,6818
Comentario:
Distribución No normal, Asimétrica positiva; existe mayor concentración
de valores a la izquierda de la media que a su derecha)
Juan Zambrano Ch. UNAP Estadística Descriptiva 89
“Un día la Estadística será tan
necesaria como saber leer o escribir”