You are on page 1of 92

FACULTAD DE CIENCIAS HUMANAS

UNIVERSIDAD ARTURO PRAT


IQUIQUE - CHILE

Clase 1
Estadística Descriptiva
Juan Zambrano Challapa
Profesor de Estado en Matemática
Master en Estadística Matemática

2016
Juan Zambrano Ch. UNAP Estadística Descriptiva 1
¿Qué es la estadística?

Conjunto de técnicas para:


describir, mostrar o presentar
Descriptiva datos a través de: tablas, gráficos, y
medidas estadísticas.

Conjunto de técnicas, para:


Recopilar,
Estadística Organizar (clasificar, agrupar),
Presentar y
Analizar datos con el fin de describirlos o de realizar inferencias válidas

Conjunto de técnicas para:


inferir los resultados obtenidos en
Inferencial la muestra hacia la población de la
cual fue extraída.

Juan Zambrano Ch. UNAP Estadística Descriptiva 2


“Un día la Estadística será tan
necesaria como saber leer o escribir”

Herbert George Wells.


(1866-1946)

Juan Zambrano Ch. UNAP Estadística Descriptiva 3


Algunos Análisis Estadísticos
1) Análisis y Planificación de Encuestas
2) Análisis Exploratorio de datos (A.E.D.)
3) Análisis y Diseño de Experimentos
4) Análisis de Varianza (ANOVA)
5) Análisis de Varianza Multivariada (MANOVA)
6) Análisis de Regresión Lineal Simple
7) Análisis de Regresión Lineal Múltiple
8) Análisis Discriminante
9) Análisis de Componentes Principales
10) Análisis de Cluster
11) Análisis Factorial
12) Análisis de Correspondencias
13) Análisis de Regresión logística
14) Análisis de Series de Tiempo
15) Análisis y Control de Calidad
16) Técnicas de Muestreo
17) Análisis Conjunto. Etc.
Juan Zambrano Ch. UNAP Estadística Descriptiva 4
Conceptos básicos iniciales
1) Dato estadístico (o información estadística)
2) Población
3) Muestra
4) Unidad de análisis
5) Variable
(1) Variable Cualitativa
a) Nominal
b) Ordinal
(2) Variable Cuantitativa;
a) Discreta;
b) Continua;
6) Parámetro
7) Estadígrafo

Juan Zambrano Ch. UNAP Estadística Descriptiva 5


Conceptos básicos iniciales
1) Dato estadístico (o información estadística)
Es cualquier dato que se puede comparar, analizar e interpretar.
Ejemplo:
Si pesamos en kg, a 5 personas, obtenemos 5 datos: 60,0; 65,8; 60,0; 70,2; 90,0 kg.
Si leemos el estado civil de 3 personas, obtenemos 3 datos: Soltero, casado, soltero
2) Población
Es el conjunto de todos los datos a los que se les aplica un estudio estadístico.
Al número de datos de la población se le llama “N” (tamaño poblacional).

3) Muestra
Es un subconjunto representativo de la población.
Al número de datos de la muestra se le llama “n” (tamaño muestral).

4) Unidad de análisis
Es cada uno de los elementos u objetos sobre los que se realiza la observación
de una o más variables. (Es el ”Informante”)

Juan Zambrano Ch. UNAP Estadística Descriptiva 6


Conceptos básicos iniciales
5) Variable
Es cada una de las características que poseen los datos. Se
denotan con las letras X, Y, etc.
Variable Cualitativa; es no medible, sus valores son cualidades.
Se clasifican en:
a) Nominal; son aquellas cuyos valores no lleva ninguna ordenación.
Ejemplo: “profesión", con las modalidades (Abogado, Ingeniero, Profesor, etc)
b) Ordinal; son aquellas cuyos valores llevan alguna ordenación.
Ejemplo: “nivel educacional", con las modalidades (Básica, Media, Universitaria, etc)

Variable Cuantitativa; es medible, sus valores son números.


Se clasifican en:
a) Discreta; toman nº aislados y no pueden tomar un nº entre dos nº seguidos fijados.
Ejemplo: “número de hijos”, “número de cargas familiares”, “ausencia laboral”, etc.
b) Continua; toman infinitos valores entre dos nº, por muy próximos que los fijemos.
Ejemplo: “Edad” , “Estatura”, “Peso”, “Producción”, “Ventas”; “consumo de H2O”, etc.

Juan Zambrano Ch. UNAP Estadística Descriptiva 7


Conceptos básicos iniciales
6) Parámetro.
Es una medida de una característica poblacional, tales como:
𝝁 ∶ 𝒎𝒆𝒅𝒊𝒂 𝒑𝒐𝒃𝒍𝒂𝒄𝒊𝒐𝒏𝒂𝒍
𝝈𝟐 ∶ 𝒗𝒂𝒓𝒊𝒂𝒏𝒛𝒂 𝒑𝒐𝒃𝒍𝒂𝒄𝒊𝒐𝒏𝒂𝒍
𝝈 ∶ 𝒅𝒆𝒔𝒗𝒊𝒂𝒄𝒊ó𝒏 𝒆𝒔𝒕á𝒏𝒅𝒂𝒓 𝒑𝒐𝒃𝒍𝒂𝒄𝒊𝒐𝒏𝒂𝒍
𝐏 ∶ 𝒑𝒓𝒐𝒑𝒐𝒓𝒄𝒊ó𝒏 𝒑𝒐𝒃𝒍𝒂𝒄𝒊𝒐𝒏𝒂𝒍

7) Estadígrafo
Es una medida de una característica muestral, tales como:
𝒙 ∶ 𝒎𝒆𝒅𝒊𝒂 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍
𝒔𝟐 ∶ 𝒗𝒂𝒓𝒊𝒂𝒏𝒛𝒂 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍
s ∶ 𝒅𝒆𝒔𝒗𝒊𝒂𝒄𝒊ó𝒏 𝒆𝒔𝒕á𝒏𝒅𝒂𝒓 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍
p ∶ 𝒑𝒓𝒐𝒑𝒐𝒓𝒄𝒊ó𝒏 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍
Juan Zambrano Ch. UNAP Estadística Descriptiva 8
Identificación de: Unidad de análisis, población, muestra,
variable y tipo de variable
1) Se entrevista a 25 empleados de la industria TBC en marzo del 2010
para conocer su Título profesional o profesión.
Solución
Unidad de análisis:
El empleado de la industria TBC

Población:
Todos los empleados de la industria TBC

Muestra:
25 empleados de la industria TBC

Variable:
Título profesional o profesión

Tipo de variable:
Cualitativa Nominal

Juan Zambrano Ch. UNAP Estadística Descriptiva 9


Identificación de: Unidad de análisis, población, muestra,
variable y tipo de variable
2) En la comuna de Alto Hospicio se entrevista a 50 jefes de hogar de
los 5.000 existentes en dicha comuna, con el propósito de conocer
su nivel educacional, en marzo del 2014.
Solución
Unidad de análisis:
El jefe de hogar de la comuna de Alto Hospicio

Población:
5.000 jefes de hogar de la comuna de Alto Hospicio

Muestra:
50 jefes de hogar de la comuna de Alto Hospicio

Variable:
Nivel educacional

Tipo de variable:
Cualitativa Ordinal

Juan Zambrano Ch. UNAP Estadística Descriptiva 10


Identificación de: Unidad de análisis, población, muestra,
variable y tipo de variable
3) Se entrevista a 100 empresas de la Región de Tarapacá para conocer
el nº de CAT que poseen, la encuesta se realiza en febrero del 2014.
Solución
Unidad de análisis:
La empresa de la Región de Tarapacá

Población:
Todas las empresas de la Región de Tarapacá

Muestra:
100 empresas de la Región de Tarapacá

Variable:
Nº de CAT (camiones de alto tonelaje)

Tipo de variable:
Cuantitativa Discreta

Juan Zambrano Ch. UNAP Estadística Descriptiva 11


Identificación de: Unidad de análisis, población, muestra,
variable y tipo de variable
4) Se entrevista a 80 empresas industriales de la Región de Tarapacá
para conocer el consumo eléctrico en KW mensual, la encuesta se
realiza en enero del 2014.
Solución
Unidad de análisis:
La empresa industrial de la Región de Tarapacá

Población:
Todas las empresas industriales de la Región de Tarapacá

Muestra:
80 empresas industriales de la Región de Tarapacá

Variable:
Consumo eléctrico en KW·de las empresas industriales de la Región de Tarapacá

Tipo de variable:
Cuantitativa Continua

Juan Zambrano Ch. UNAP Estadística Descriptiva 12


Identificación de: Unidad de análisis, población, muestra,
variable y tipo de variable
5) Se realiza un estudio en 120 familias en HUATACONDO, para
conocer el nivel educacional que tiene el jefe de familia. Los
resultados son los siguientes: básica: 3; básica incompleta: 65;
media: 21; media incompleta: 14; universitaria: 11; universitaria
incompleta: 6 jefes de familia.
Solución
Unidad de análisis:
La familia de HUATACONDO

Población:
Todas las familias de HUATACONDO

Muestra:
120 familias de HUATACONDO

Variable:
Nivel educacional del jefe de familia

Tipo de variable:
Cualitativa Ordinal

Juan Zambrano Ch. UNAP Estadística Descriptiva 13


Identificación de: Unidad de análisis, población, muestra,
variable y tipo de variable
6) Una Empresa de artículos proyecta lanzar al mercado un producto
nuevo. Se realiza un Test de aceptación en una muestra de 20
supervisores, utilizando una escala de 20 puntos, para medir el
grado de aceptación. La muestra estuvo compuesta por igual
número de supervisores de ambos sexos, de 30 a 35 años de edad
Solución
Unidad de análisis:
El Supervisor de 30 a 35 años residentes en la región

Población:
Todos los Supervisores de 30 a 35 años residentes en la región

Muestra:
20 Supervisores de 30 a 35 años residentes en la región

Variable:
Grado de aceptación

Tipo de variable:
Cuantitativa continua
Juan Zambrano Ch. UNAP Estadística Descriptiva 14
Identificación de: Unidad de análisis, población, muestra,
variable y tipo de variable
7) Un laboratorio realiza un Test de rapidez de acción de cierto compuesto químico, en
50 minerales. Los resultados fueron observados cada hora, habiéndose obtenido los
siguientes datos del número de minerales totalmente libres de impureza, después de
periodos de tiempo que se indican: 3 horas: 3 minerales; 4 horas: 7 minerales; 5
horas: 10 minerales; 6 horas: 16 minerales; 7 horas: 9 minerales; 8 horas: 5
minerales.
Solución
Unidad de análisis:
El mineral

Población:
Todos los minerales

Muestra:
50 minerales

Variable:
Periodo de tiempo de reacción

Tipo de variable:
Cuantitativa continua

Juan Zambrano Ch. UNAP Estadística Descriptiva 15


Identificación de: Unidad de análisis, población, muestra,
variable y tipo de variable
8) Los datos siguientes representan la cantidad de accidentes
laborales ocurridos en una empresa por turno de trabajo durante 54
turnos en el año 2015:

Unidad de análisis:
El turno

Población:
Todos los turnos en el año 2013

Muestra:
54 turnos en el año 2013

Variable:
Cantidad de accidentes laborales

Tipo de variable:
Cuantitativa Discreta

Juan Zambrano Ch. UNAP Estadística Descriptiva 16


Identificación de: Unidad de análisis, población, muestra,
variable y tipo de variable
9) Los siguientes datos representan el peso (en libras) de una
muestra de 40 trabajadores en la empresa XXX, primer semestre
del 2015

Unidad de análisis:
El trabajador de la empresa XXX

Población:
Todos los trabajadores de la empresa XXX

Muestra:
40 trabajadores de la empresa XXX

Variable:
Peso en libras

Tipo de variable:
Cuantitativa continua
Juan Zambrano Ch. UNAP Estadística Descriptiva 17
Identificación de: Unidad de análisis, población, muestra,
variable y tipo de variable
10) Los datos corresponden al número de artículos defectuosos por caja en
una muestra de 90 cajas de un lote llegado a una empresa en octubre del
2015

Unidad de análisis:
La caja

Población:
Todas las cajas de un lote llegado a la empresa

Muestra:
90 cajas de un lote llegado a la empresa

Variable:
Número de artículos defectuosos por caja

Tipo de variable:
Cuantitativa discreta
Juan Zambrano Ch. UNAP Estadística Descriptiva 18
Identificación de: Unidad de análisis, población, muestra,
variable y tipo de variable
11) Los datos representan los puntajes de 36 trabajadores en la ciudad
MALA MAR en marzo del 2015

Unidad de análisis:
El trabajador de la ciudad MALA MAR

Población:
Todos los trabajadores de la ciudad MALA MAR

Muestra:
36 trabajadores de la ciudad MALA MAR

Variable:
Puntaje

Tipo de variable:
Cuantitativa continua

Juan Zambrano Ch. UNAP Estadística Descriptiva 19


Identificación de: Unidad de análisis, población, muestra,
variable y tipo de variable
12) Los datos representan en minutos los tiempos de espera para ser
atendidos en un centro de atención familiar, en marzo del 2015:

Unidad de análisis:
La persona

Población:
Todas las personas

Muestra:
50 personas

Variable:
Tiempo de espera en minutos

Tipo de variable:
Cuantitativa continua

Juan Zambrano Ch. UNAP Estadística Descriptiva 20


Identificación de: Unidad de análisis, población, muestra,
variable y tipo de variable
13) La tabla adjunta presenta la calidad de 10.000 artículos producidos
por tres máquinas diferentes:

Unidad de análisis:
El artículo

Población:
10.000 artículos producidos por tres máquinas diferentes

Muestra:
10.000 artículos producidos por tres máquinas diferentes

Variable:
Calidad del artículo producido por tres máquinas diferentes

Tipo de variable:
Cualitativa Ordinal

Juan Zambrano Ch. UNAP Estadística Descriptiva 21


“Tablas” y Gráficos
Género de los empleados de Género de los empleados de
HUATACONDO, el año 2016 HUATACONDO, el año 2016

Género Frec. Porc. 7


6 (60%)
6
Femenino 6 60% 5
4 (40%)
4
3
Masculino 4 40%
2
1
Total 10 100% 0
Femenino Masculino

 Son AUTOEXPLICATIVOS
 Las “tablas” y los gráficas son dos maneras equivalentes de presentar,
mostrar o describir información.
 Las dos exponen ordenadamente la información recogida en una muestra o
población.
Juan Zambrano Ch. UNAP Estadística Descriptiva 22
Tipos de distribuciones (Tablas)
 Distribución Categórica (o Cualitativa)
Es aquella que se aplica a la variable cualitativa, en donde sus
valores son cualidades, categorías o atributos

– Genero:
• {Femenino, Masculino}

– Nivel Educacional:
• {Básica, Media, Universitaria}

 Distribución Numérica (o Cuantitativa)


Es aquella que se aplica a la variable cuantitativa, en donde sus
valores son números

– Ausencia laboral diaria:


• {0,1,2,3,...}

– Estatura en metros
• {1,62 - 1,74 -...}

Juan Zambrano Ch. UNAP Estadística Descriptiva 23


Partes de una distribución
1) El Titulo completo indica lo siguiente: Género de los empleados de una empresa ,
¿Cómo? están los datos clasificados, en el pueblo de MACONDO, el año 2016
¿Qué? son los datos incluídos en la tabla,
Número de Porcentaje de
¿Dónde? está el área que representan los datos Género
¿Cuándo? obtuvieron los datos. empleados empleados
2) El cuerpo: Está formado por un conjunto de filas
y columnas que contienen respectivamente, las
series horizontales y verticales de información.
Femenino 21 52,5%
3) El encabezamiento: es la parte de la tabla en
que se indica la naturaleza del contenido de cada
columna. Estos al igual que los títulos deben ser
breves, pero suficientemente explícitos.
Masculino 19 47,5%
4) Columna Matriz. es la parte de la tabla en que
es designada la naturaleza (las categorías, las
modalidades de la variable) del contenido de cada
fila.
Total 40 100,0%
5) Indicaciones complementarias.
– Fuente: Es el indicador de la entidad
responsable de donde se obtuvieron los datos. Fuente: xxxx
– Notas: Son colocadas al pie del cuadro para
esclarecimientos de orden general. Notas: xxxx

– Comentarios. También colocadas al pie del Comentarios: xxxx


cuadro, sirven para aclarar minucias en relación
a las celdas, columnas, filas.

Juan Zambrano Ch. UNAP Estadística Descriptiva 24


Tipos de frecuencias
 Frecuencia absoluta (FA = ni): Es el número de datos de cada clase
𝑴

෍ 𝒏𝒊 = 𝒏 ; 𝑴 = 𝑵ú𝒎𝒆𝒓𝒐 𝒅𝒆 𝒄𝒍𝒂𝒔𝒆𝒔
𝒊=𝟏

 Frecuencia relativa (FR = fi): Es el porcentaje de datos de cada clase


𝒏𝒊
𝒇𝒊 =
𝒏
 Frecuencia absoluta acumulada (FAA = Ni): es la suma de las
frecuencias absolutas hasta la clase i de la variable.
𝒊

𝑵𝒊 = ෍ 𝒏𝒋
𝒋=𝟏

 Frecuencia relativa acumulada (FRA = Fi): es la suma de las


frecuencias relativas hasta la clase i de la variable.
𝒊
𝑵𝒋
𝑭𝒊 = ෍ 𝒇 𝒋 =
𝒏
𝒋=𝟏

Juan Zambrano Ch. UNAP Estadística Descriptiva 25


1

Formato de una “Tabla”


FORMATO TABLA CUALITATIVA

Juan Zambrano Ch. UNAP Estadística Descriptiva 26


Formato de una “Tabla”
FORMATO TABLA DISCRETA

Juan Zambrano Ch. UNAP Estadística Descriptiva 27


Formato de una “Tabla”
FORMATO TABLA CONTINUA

Juan Zambrano Ch. UNAP Estadística Descriptiva 28


Ejemplo: Variable cualitativa
Nominal Ordinal
Género de los empleados de la empresa TBC, Tipo de trabajo de los empleados de la empresa TBC,
en el pueblo de HUATACONDO, el año 2016 en el pueblo de HUATACONDO, el año 2016

Género Nº de Porcentaje de Tipo de trabajo Nº de Porcentaje de


empleados empleados empleados empleados
(Variable) (FA) (FR) (Variable) (FA) (FR)
Femenino 19 47,5% Cancelado 3 7,5%

Masculino 21 52,5% Administrativo 16 40%

Total 40 100,0% Profesional 14 35%


15%
Ejecutivo 6

Gerente 1 2,5%
Total 40 100%

Juan Zambrano Ch. UNAP Estadística Descriptiva 29


Ejemplo: Variable cuantitativa discreta
Número de hijos de los empleados de la empresa TBC, en el pueblo
de HUATACONDO, el año 2016

Número Porcentaje Número Porcentaje


Número de hijos acumulado de acumulado de
de empleados de empleados
empleados empleados
(Variable) (FAA) (FRA)
(FA) (FR)
0 4 10% 4 10%
1 11 27,5% 15 37,5%
2 12 30% 27 67,5%
3 11 27,5% 38 95%
4 2 5% 40 100%
Total 40 100%

Juan Zambrano Ch. UNAP Estadística Descriptiva 30


Ejercicio: Variable cuantitativa discreta
Cantidad de accidentes por turno ocurridos en una empresa, el año 2016

Cantidad de Número Porcentaje Número Porcentaje


accidentes de turnos de turnos acumulado de acumulado de
turnos turnos
(Variable) (FA) (FR) (FAA) (FRA)

0 9 16,7% 9 16,7%
1 12 22,2% 21 38,9%
2 12 22,2% 33 61,1%
3 9 16,7% 42 77,8%
4 5 9,2% 47 87%
5 4 7,4% 51 94,4%
6 3 5,6% 54 100%
Total 54 100%
Juan Zambrano Ch. UNAP Estadística Descriptiva 31
Ejercicio: Variable cuantitativa discreta
Núm. de artículos defectuosos por caja, en una empresa, diciembre 2016
Núm. de art. Número Porcentaje Número Porcentaje
defec de cajas de cajas acumulado de acumulado de
(Variable) cajas cajas
(FA) (FR) (FAA) (FRA)

2 5 5,6% 5 5,6%
3 12 13,3% 17 18,9%
4 17 18,9% 34 37,8%
5 16 17,8% 50 55,6%
6 13 14,4% 63 70%
7 9 10% 72 80%
8 10 11,1% 82 91,1%
9 2 2,2% 84 93,3%
10 3 3,3% 87 96,7%
11 2 2,2% 89 98,9%
12 1 1,1% 90 100%
Total 90 100%

Juan Zambrano Ch. UNAP Estadística Descriptiva 32


Variable cuantitativa continua
METODOLOGIA
1°) Rango = R = Xmáx - Xmín.

2°) Número de intervalos: Se utiliza la fórmula propuesta por H.A. Sturges

M = [[1 + 3,3·log(n)]] = se aproxima al menor entero mayor que 1 + 3,3·log(n).


R
3°) Amplitud de los intervalos: M

Debe tener un decimal más que los datos; si la división no es exacta (o tiene muchos decimales)

4º) Cálculo de los intervalos o clases


Limite Inferior ; Limite Superior
[ L. I. ; L. I. + A [

L.I.  L.S.
5°) Marca de clase (M. C.): M.C. 
2
6°) Contar los valores que se encuentran dentro de cada intervalo.
Juan Zambrano Ch. UNAP Estadística Descriptiva 33
Ejemplo: Variable cuantitativa continua
Se usará la variable cuantitativa continua EDAD de los empleados de la
empresa TBC, en el pueblo de MACONDO, el año 2015.

22 20 22 24 30
40 58 45 38 25
28 35 60 45 62
60 36 28 44 48
54 65 32 46 33
26 40 42 38 28
21 24 30 39 32
33 31 29 31 30
Juan Zambrano Ch. UNAP Estadística Descriptiva 34
Continuación: …
1°) R = 65 – 20 = 45  R = 45

2°) M = [[1 + 3,3 log·(40]] = [[6,2867]] =7 M=7

R 45   
3°) Datos con cero decimal     6, 4 2857142867 143
M 7  
La amplitud deberá tener un decimal  A = 6,5
4º) L. I. ; L. I. + A [ L.I . ; L. S.[
20 ; (20,0 + 6,5) = 26,5   [ 20,0 ; 26,5 [
26,5 ; (26,5 + 6,5) = 33,0   [ 26,5 ; 33,0 [
 
59,0 ; (59,0 + 6,5) = 65,5   [ 59,0 ; 65,5 ]

Juan Zambrano Ch. UNAP Estadística Descriptiva 35


Continuación: …
L.I.  L.S. 20  26,5
5°) Marca de clase (M. C.): M .C.    23,25
2 2
6°) Contar los valores que se encuentran dentro de cada intervalo.

[ L.I. ; L. S.[ M. C. Valores que se encuentran dentro de cada ni


intervalo
[ 20,0 ; 26,5 [ 23,25 22; 20; 22; 24; 25; 26; 21; 24 8

[ 26,5 ; 33,0 [ 29,75 11


30; 28; 28; 32; 28; 30; 32; 31; 29; 31; 30
[ 33,0 ; 39,5 [
36,25 38; 35; 36; 33; 38; 39; 33 7

[ 39,5 ; 46,0 [
42,75 40; 45; 45; 44; 40; 42 6

[ 46,0 ; 52,5 [ 49,25 48; 46 2


[ 52,5 ; 59,0 [ 55,75 58; 54 2

[ 59,0 ; 65,5 ] 62,25 60; 62; 60; 65 4

Juan Zambrano Ch. UNAP Estadística Descriptiva 36


Continuación: …
Edad de los empleados de la empresa TBC, en el pueblo de
HUATACONDO, el año 2016
Edad Número de Porcentaje de Número Porcentaje
(en años) M. C. empleados empleados acumulado de acumulado de
empleados empleados
[ L.I. ; L. S.[ FA = ni FR = fi FAA = Ni FRA = Fi
[ 20,0 ; 26,5 [ 23,25 8 20% 8 20%

[ 26,5 ; 33,0 [ 29,75 11 27,5% 19 47,5%

[ 33,0 ; 39,5 [ 36,25 7 17,5% 26 65%

[ 39,5 ; 46,0 [ 42,75 6 15% 32 80%

[ 46,0 ; 52,5 [ 49,25 2 5% 34 85%


[ 52,5 ; 59,0 [ 55,75 2 5% 36 90%
[ 59,0 ; 65,5 ] 62,25 4 10% 40 100%
Total 40 100%

Juan Zambrano Ch. UNAP Estadística Descriptiva 37


Solución: Edad
R : Rango = máximo - mínimo = 65 - 20 = 45
M : N° de Clases ≈ 1 + 3,3 ∙ log 𝟒0 = 6, 𝟐8 … ≈ 7 (aproxime al entero
superior)
R 𝟒𝟓
A: Amplitud≈ = = 𝟔, 𝟒𝟐𝟖𝟓 … ≈ 𝟔, 𝟓 (1 decimal más que los datos)
M 7

Clases Marca Conteo Frecuencias


FA - FR - FAA - FRA.
20,0 – 26,5 23,25 ///// /// 8 20 8 20
26,5 – 33,0 29,75 ///// ///// / 11 27,5 19 47,5
33,0 – 39,5 36,25 ///// // 7 17,5 26 65
39,5 – 46,0 42,75 ///// / 6 15 32 80
46,0 – 52,5 49,25 // 2 5 34 85
52,5 – 59,0 55,75 // 2 5 36 90
59,0 – 65,5 62,25 //// 4 10 40 100%

Juan Zambrano Ch. UNAP Estadística Descriptiva 40


Solución: Ingreso
R: Rango = máximo - mínimo = 310 - 175 = 135
M: N° de Clases≈ 𝟏 + 𝟑, 𝟑 ∙ 𝐥𝐨𝐠 𝟒𝟎 = 𝟔, 𝟐𝟖 … ≈ 𝟕 (aproxime al entero
superior)
𝐑 𝟏𝟑𝟓
A: Amplitud ≈ = = 𝟏𝟗, 𝟐𝟖 … ≈ 𝟏𝟗, 𝟑 (1 decimal más que los
𝐌 𝟕
datos)

Clases Marca Conteo Frecuencias


FA - FR - FAA - FRA.
175,0 - 194,3 184,65 ///// ///// 10 10 10 25
194,3 - 213,6 203,95 /// 3 7,5 13 32,5
213,6 – 232,9 223,25 ///// / 6 15 19 47,5
232,9 – 252,2 242,55 ///// ///// 10 25 29 72,5
252,2 – 271,5 261,85 ///// 5 5 34 85
271,5 – 290,8 281,15 /// 3 7,5 37 92,5
290,8 – 310,1 300,45 /// 3 7,5 40 100%

Juan Zambrano Ch. UNAP Estadística Descriptiva 40


Solución: Salario
R: Rango = máximo - mínimo = 330 - 190 = 140
M: N° de Clases ≈ 𝟏 + 𝟑, 𝟑 ∙ 𝒍𝒐𝒈 𝟒𝟎 = 𝟔, 𝟐𝟖 … ≈ 𝟕 (aproxime al
entero superior)
𝑹 𝟏𝟒𝟎
A: Amplitud≈ = = 𝟐𝟎 (división exacta)
𝑴 𝟕

Clases Marca Conteo Frecuencias


FA - FR - FAA - FRA.
190,0 - 210,0 200,0 ///// /// 8 20 8 20
210,0 - 230,0 220,0 //// 4 10 12 30
230,0 – 250,0 230,0 //// 4 10 16 40
250,0 – 270,0 250,0 ///// // 7 17,5 23 57,5
270,0 – 290,0 270,0 ///// //// 9 22,5 32 80
290,0 – 310,0 290,0 //// 4 10 36 90
310,0 – 330,0 310,0 //// 4 10 40 100

Juan Zambrano Ch. UNAP Estadística Descriptiva 41


Solución: Peso
R: Rango = máximo - mínimo = 176 - 119 = 57
M: N° de Clases ≈ 𝟏 + 𝟑, 𝟑 ∙ 𝐥𝐨𝐠 𝟒𝟎 = 𝟔, 𝟐𝟖 … ≈ 𝟕 (aproxime al
entero superior)
R 𝟓𝟕
A: Amplitud≈ = = 𝟖, 𝟏𝟒𝟐𝟖 … ≈ 𝟖, 𝟐 (1 decimal más que los datos)
M 7

Clases Marca Conteo Frecuencias


FA - FR - FAA - FRA.
119,0 – 127,2 123,1 /// 3 7,5 3 7,5
127,2 -- 135,4 131,3 ///// 5 12,5 8 20
135,4 – 143,6 139,5 ///// / 6 15 14 35
143,6 – 151,8 147,7 ///// ///// // 12 30 26 65
151,8 – 160,0 155,9 ///// // 7 17,5 33 82,5
160,0 – 168,2 164,1 ///// 5 12,5 38 95
168,2 – 176,4 172,3 // 2 5 40 100

Juan Zambrano Ch. UNAP Estadística Descriptiva 41


Solución: Puntajes A
R: Rango = máximo - mínimo = 7,1 – 4,15 = 2,95
M: N° de Clases ≈ 𝟏 + 𝟑, 𝟑 ∙ 𝐥𝐨𝐠 𝟑𝟔 = 𝟔, 𝟏𝟑 … ≈ 𝟕 (aproxime al
entero superior)
𝐑 𝟐,𝟗𝟓
A: Amplitud ≈ = = 𝟎, 𝟒𝟐𝟏𝟒𝟐𝟖 … ≈ 𝟎, 𝟒𝟐𝟐 (1 decimal más que
𝐌 𝟕
los datos)

Clases Marca Conteo Frecuencias


FA - FR - FAA - FRA.
4,150 – 4,572 4,361 // 2 5,6 2 5,6
4,572 – 4,994 4,783 ///// // 7 19,4 9 25,0
4,994 – 5,416 5,205 ///// /// 8 22,2 17 47,2
5,416 – 5,838 5,627 ///// //// 9 25,0 26 72,2
5,838 – 6,260 6,049 //// 4 11,1 30 83,3
6,260 – 6,682 6,471 // 2 5,6 32 88,9
6,682 – 7,104 6,893 //// 4 11,1 36 100

Juan Zambrano Ch. UNAP Estadística Descriptiva 41


Solución: Puntajes B
R: Rango = máximo - mínimo = 8,02 – 5,86 = 2,16
M: N° de Clases ≈ 𝟏 + 𝟑, 𝟑 ∙ 𝒍𝒐𝒈 𝟑𝟔 = 𝟔, 𝟏𝟑 … ≈ 𝟕 (aproxime al
entero superior)
R 𝟐,𝟏𝟔
A: Amplitud≈ = = 𝟎, 𝟑𝟎𝟖𝟓𝟕 … ≈ 𝟎, 𝟑𝟎𝟗 (1 decimal más que los
M 𝟕
datos)

Clases Marca Conteo Frecuencias


FA - FR - FAA - FRA.
5,860 – 6,169 6,0145 // 2 5,6 2 5,6
6,169 – 6,478 6,3235 ///// // 7 19,4 9 25,0
6,478 – 6,787 6,6325 ///// /// 8 22,2 17 47,2
6,787 – 7,096 6,9415 ///// //// 9 25,0 26 72,2
7,096 – 7,405 7,2505 //// 4 11,1 30 83,3
7,405 – 7,714 7,5595 // 2 5,6 32 88,9
7,714 – 8,023 7,8685 //// 4 11,1 36 100

Juan Zambrano Ch. UNAP Estadística Descriptiva 41


Solución: Minutos
R: Rango = máximo - mínimo = 7,72 – 4,15 = 3,57
M: N° de Clases ≈ 𝟏 + 𝟑, 𝟑 ∙ 𝐥𝐨𝐠 𝟓𝟎 = 𝟔, 𝟔𝟖 … ≈ 𝟕 (aproxime al
entero superior)
𝑹 𝟑,𝟓𝟕
A: Amplitud ≈ = = 𝟎, 𝟓𝟏 (división exacta)
𝑴 𝟕
Clases Marca Conteo Frecuencias
FA - FR - FAA - FRA.
4,15 – 4,66 4,405 /// 3 6 3 6
4,66 – 5,17 4,915 ///// /// 8 16 11 22
5,17 – 5,68 5,425 ///// ///// //// 14 28 25 50
5,68 – 6,19 5,935 ///// /// 8 16 33 66
6,19 – 6,70 6,445 //// 4 8 37 74
6,70 – 7,21 6,955 ///// / 6 12 43 86
7,21 – 7,72 7,465 ///// // 7 14 50 100

Juan Zambrano Ch. UNAP Estadística Descriptiva 41


Gráficos para Variables Cualitativas
 Gráfico de barras
– Alturas proporcionales a las frecuencias (FA o FR)
– Se pueden aplicar también a variables discretas

 Gráfico de sectores (tortas, polares)


– No usarlo con variables ordinales.
– El área de cada sector es proporcional a su
frecuencia (FA o FR)

 Pictogramas
– Fáciles de entender.
– El área de cada modalidad debe ser proporcional
a la frecuencia.

Juan Zambrano Ch. UNAP Estadística Descriptiva 45


Gráficos para Variables Cuantitativas

 Son diferentes en función de que las variables sean


discretas o continuas. Valen con FA o FR.
–Gráfico de barras para variables discretas
• Se deja un vacío entre barras para indicar los valores que
no son posibles

–Histogramas para variables continuas


• El área que hay bajo el histograma entre dos puntos
cualesquiera indica la cantidad (FA o FR) de individuos
en el intervalo.

–Polígono de frecuencias
• Se unen mediante líneas rectas las marcas de clases
proyectadas en la parte superior del rectángulo.

Juan Zambrano Ch. UNAP Estadística Descriptiva 46


Gráficos para Variables Cuantitativas

Juan Zambrano Ch. UNAP Estadística Descriptiva 47


Gráfico de Tallos y Hojas

Juan Zambrano Ch. UNAP Estadística Descriptiva 48


Gráficos Integrales
 Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se realizan
a partir de las frecuencias acumuladas. Indican, para cada valor de la variable, la cantidad
(frecuencia) de individuos que poseen un valor inferior o igual al mismo. No los construiremos
en clase. Se pasan de los diferenciales a los integrales por integración y a la inversa por
derivación (en un sentido más general del que vistes en cálculo.)

Juan Zambrano Ch. UNAP Estadística Descriptiva 49


Gráfico de Caja y Bigote

Valor máximo

Percentil 75

D
Percentil 50 (Mediana)

Percentil 25

Min (1,5 x D o valor mínimo)

Anómalos

Juan Zambrano Ch. UNAP Estadística Descriptiva 50


Resumen de herramientas gráficas
Importante la naturaleza del dato

Juan Zambrano Ch. UNAP Estadística Descriptiva 51


Uso de herramientas gráficas

Juan Zambrano Ch. UNAP Estadística Descriptiva 52


¿Qué hemos visto?
 ¿Qué es la estadística?
 Conceptos básicos iniciales
 Identificación de: Unidad de análisis, población, muestra,
variable y tipo de variable
 “Tablas” y gráficos
 Tipos de distribuciones (tablas)
 Partes de una distribución de frecuencias
 Tipos de frecuencias
 Ejemplo. Variable cualitativa
 Ejemplo. Variable cuantitativa discreta
 Ejemplo. Variable cuantitativa continua. Metodología
 Gráficos para variables cualitativas
 Métodos gráficos para describir variables cuantitativas
 Gráficos para variables cuantitativas
 Gráfico de tallo y hoja
 Gráficos integrales
 Gráfico de caja y bijote
 Resumen de herramientas gráficas
 Uso de las herramientas gráficas

Juan Zambrano Ch. UNAP Estadística Descriptiva 53


Juan Zambrano Ch. UNAP Estadística Descriptiva
Cálculo de Medidas Estadísticas

 Posición (no central)


 Dividen un conjunto ordenado de datos en grupos con la
misma cantidad de individuos
•Cuantiles: percentiles, quintiles, cuartiles, deciles, …

 Centralización (posición central)


 Indican valores con respecto a los que los datos parecen
Medidas agruparse
•Media, mediana y moda
Estadísticas
 Dispersión
 Indican la mayor o menor concentración de los datos con
respecto a las medidas de centralización
•Varianza, desviación estándar, coeficiente de variación, rangos.
 Forma
 Asimetría (deformación horizontal)
 Apuntamiento o curtosis (deformación vertical)

Juan Zambrano Ch. UNAP Estadística Descriptiva 55


Medidas de Posición: Cuantiles
Los cuantiles son valores que dividen un conjunto ordenado de datos en
grupos con la misma cantidad de individuos . Los más usados son los quintiles,
cuartiles, deciles y percentiles

1) PERCENTILES
Son valores que dividen el conjunto ordenados de datos en 99 grupos con la misma cantidad
de individuos.
Ejemplo, el percentil de orden 15 deja por debajo al 15% de las observaciones, y por encima
queda el 85%

2) CUARTILES
Son 3 valores que dividen el conjunto ordenados de datos en 4 grupos con la misma cantidad
de individuos. Son un caso particular de los percentiles
El primer cuartil Q1 es el menor valor que es mayor que una cuarta parte de los datos
El segundo cuartil Q2 (la mediana), es el menor valor que es mayor que la mitad de los datos
El tercer cuartil Q3 es el menor valor que es mayor que tres cuartas partes de los datos

3) DECILES
Son 9 valores que dividen el conjunto ordenados de datos en 10 grupos con la misma cantidad
de individuos. Son un caso particular de los percentiles.

Juan Zambrano Ch. UNAP Estadística Descriptiva 56


Medidas de Centralización
Nos dan un centro de la distribución de frecuencias, es un valor que se puede tomar
como representativo de todos los datos. Hay diferentes modos para definir el "centro"
de las observaciones en un conjunto de datos. Por orden de importancia, son:
1) MEDIA (Media aritmética o simplemente media)
Es el promedio aritmético de los datos, es decir, el cociente entre la suma de todos los
datos y el número de ellos. Si xi es el valor de la variable y ni su frecuencia, tenemos que:

n x i i
x i
n
Si los datos están agrupados utilizamos las marcas de clase.

2) MEDIANA (Me)
Es el valor que separa por la mitad los datos ordenadas de menor a mayor, de tal forma que el
50% son menores que la mediana y el otro 50% son mayores.

Juan Zambrano Ch. UNAP Estadística Descriptiva 57


Medidas de Centralización
Nos dan un centro de la distribución de frecuencias, es un valor que se puede tomar
como representativo de todos los datos. Hay diferentes modos para definir el "centro"
de las observaciones en un conjunto de datos. Por orden de importancia, son:

3) MODA (Mo)
Es el valor de la variable que más veces se repite, es decir, aquella cuya frecuencia absoluta es
mayor. No tiene porque ser única.

Juan Zambrano Ch. UNAP Estadística Descriptiva 58


¿Qué medida de tendencia utilizar?

Juan Zambrano Ch. UNAP Estadística Descriptiva 59


Media v/s Mediana
 La media, es un estadístico sensible a valores extremos. Basta que algún dato
dentro de la muestra sea muy alto o muy bajo, el promedio se verá afectado.
 La mediana, en cambio, es un estadístico robusto. Aunque los extremos de los
datos se vean alterados, la mediana permanece invariable.

 El famoso trío “media, mediana y moda” representan tres métodos diferentes para
encontrar el valor del centro. Estos tres valores pueden ser un mismo valor, pero a
menudo son distintos. Cuando son distintos, pueden servir para diferentes
interpretaciones de los datos que queremos resumir.

Ejemplo: Considérese el ingreso mensual de cinco familias en cierto barrio:


$200.000. $200.000. $300.000. $900.000. $1.000.000.

 ¿Cuál es el ingreso típico de este grupo? ($200.000)


 El ingreso mensual promedio es: ($520.000)
 La mediana del ingreso mensual es: ($300.000)
 Si tú estás tratando de promover el barrio, ¿qué medida usarías? (La media)
 Si estás tratando que bajen las contribuciones, ¿qué medida usarías? (La moda)

Juan Zambrano Ch. UNAP Estadística Descriptiva 60


Medidas de Dispersión
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un
valor representativo, las medidas de dispersión nos dicen hasta que punto estas
medidas de tendencia central son representativas como síntesis de la información. Las
medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los
valores de la distribución respecto al valor central. Distinguimos entre medidas de
dispersión absolutas, que no son comparables entre diferentes muestras y las relativas
que nos permitirán comparar varias muestras.

Medidas de dispersión absolutas


1) VARIANZA (s2)
Es el promedio del cuadrado de las distancias entre cada dato y la media aritmética del conjunto
de datos..

 n x   
2 2
i i x ni xi2  x
s2  i
 i
n 1 n 1
Si los datos están agrupados utilizamos las marcas de clase.

Juan Zambrano Ch. UNAP Estadística Descriptiva 61


Medidas de Dispersión
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un
valor representativo, las medidas de dispersión nos dicen hasta que punto estas
medidas de tendencia central son representativas como síntesis de la información. Las
medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los
valores de la distribución respecto al valor central. Distinguimos entre medidas de
dispersión absolutas, que no son comparables entre diferentes muestras y las relativas
que nos permitirán comparar varias muestras.

Medidas de dispersión absolutas


2) DESVIACION ESTANDAR (TIPICA) (s)
La varianza tiene las mismas unidades que la variable pero al cuadrado, para evitar este
problema podemos usar como medida de dispersión la desviación típica que se define como la
raíz cuadrada positiva de la varianza
s   s2
3) RECORRIDO O RANGO MUESTRAL (Re)
Es la diferencia entre el mayor y el menor valor.
Re  xmáx  xmín

Juan Zambrano Ch. UNAP Estadística Descriptiva 62


Medidas de Dispersión
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un
valor representativo, las medidas de dispersión nos dicen hasta que punto estas
medidas de tendencia central son representativas como síntesis de la información. Las
medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los
valores de la distribución respecto al valor central. Distinguimos entre medidas de
dispersión absolutas, que no son comparables entre diferentes muestras y las relativas
que nos permitirán comparar varias muestras.

Medidas de dispersión relativas


1) COEFICIENTE DE VARIACION DE PEARSON
Cuando se quiere comparar el grado de dispersión de dos distribuciones que no vienen dadas
en las mismas unidades o que las medias no son iguales se utiliza el coeficiente de variación
de Pearson que se define como el cociente entre la desviación típica y el valor absoluto de la
media aritmética
s
cv 
x
CV representa el número de veces que la desviación típica contiene a la media aritmética y por
lo tanto cuanto mayor es CV mayor es la dispersión y menor la representatividad de la media.

Juan Zambrano Ch. UNAP Estadística Descriptiva 63


¿Qué es Variabilidad?

3 3 4
2

Juan Zambrano Ch. UNAP Estadística Descriptiva 64


Medidas de Forma
Comparan la forma que tiene la representación gráfica, bien sea el histograma o
el diagrama de barras detiene la distribución, con la distribución normal.
Medida de Asimetría
Miden la deformación horizontal de la distribución.
Diremos que una distribución es simétrica cuando su mediana, su moda y su media aritmética
coinciden.
Diremos que una distribución es asimétrica a la derecha si las frecuencias (absolutas o relativas)
descienden más lentamente por la derecha que por la izquierda.
Si las frecuencias descienden más lentamente por la izquierda que por la derecha diremos que la
distribución es asimétrica a la izquierda.
Existen varias medidas de la asimetría de una distribución de frecuencias.
Una de ellas es el Coeficiente de Asimetría de Pearson, para Distribuciones unimodales:
𝒙ഥ − 𝑴𝒐
𝑪𝑨𝑺 = 𝑨𝒔 =
𝒔

Distribución simétrica; CAS=0


Distribución asimétrica a la derecha; CAS>0
Distribución asimétrica a la izquierda; CAS<0
Juan Zambrano Ch. UNAP Estadística Descriptiva 65
Medidas de Forma
Comparan la forma que tiene la representación gráfica, bien sea el histograma o
el diagrama de barras de la distribución, con la distribución normal
Medida de Apuntamiento o Curtosis
Miden la deformación vertical de las distribuciones simétricas.
Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Se definen 3 tipos
de distribuciones según su grado de curtosis:
Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores
centrales de la variable (el mismo que presenta una distribución normal. 𝑪𝑨𝑷 = 𝟎).
Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores
centrales de la variable. (𝑪𝑨𝑷 > 𝟎)
Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores
centrales de la variable. (𝑪𝑨𝑷 < 𝟎)
𝑷𝟕𝟓 −𝑷𝟐𝟓
Un coeficiente de Apuntamiento o Curtosis es: 𝑪𝑨𝑷 =
𝟐 𝑷𝟗𝟎 −𝑷𝟏𝟎

Juan Zambrano Ch. UNAP Estadística Descriptiva 66


¿Qué medidas utilizar
 Cuando queremos describir una variable usamos alguna medida de posición central y una
medida de dispersión.
 El par de medidas más comúnmente usado es el promedio y la desviación estándar.
 Pero vimos que cuando la distribución de las observaciones es sesgada, el promedio no es una
buena medida de posición central y preferimos la mediana.
 La mediana en general va acompañada del rango como medida de dispersión.
 Pero cuando observamos valores extraños (extremos) el rango se ve muy afectado, por lo que
preferimos usar el rango entre cuartiles.
Medida de Medida de Uso en Ventajas Desventajas
tendencia dispersión distribuciones
central
Promedio Desviación Simétricas Buenas propiedades, Sensible a valores
estándar muy usados extremos
Mediana Rango Sesgadas, sin Mediana robusta a Rango sensible a
valores extremos valores extremos. valores extremos
Rango muy conocido,
fácil de entender
Mediana Rango entre Sesgadas, con Medidas robustas a El rango entre cuartiles
cuartiles valores extremos valores extremos no es muy conocido

Juan Zambrano Ch. UNAP Estadística Descriptiva 67


Reglas para identificar valores extremos
 Vamos a definir una observación xi como extrema si:

𝒙𝒊 < 𝑷𝟐𝟓 − 𝟏, 𝟓 ∗ 𝑷𝟕𝟓 − 𝑷𝟐𝟓 𝒐 𝒙𝒊 > 𝑷𝟕𝟓 + 𝟏, 𝟓 ∗ 𝑷𝟕𝟓 − 𝑷𝟐𝟓

Donde xi serán las primeras y últimas observaciones en la serie ordenada


de los datos.

 Los valores extremos por lo general son atribuibles a una de las


siguientes causas:
• La observación se registra incorrectamente.
• La observación proviene de una población distinta.
• La observación es correcta pero representa un suceso poco
común (fortuito).

Juan Zambrano Ch. UNAP Estadística Descriptiva 68


La regla de Chebyshev
Es una regla que pone un límite sobre la dispersión de la mayoría de los
datos en torno de la media.

 Teorema. Para cualquier conjunto de datos, la proporción de datos que


distan menos de K desviaciones estándar de la media es como mínimo:

𝟏
𝟏− 𝟐
𝑲
Dice, por ejemplo que:
 75% de los datos están a menos de 𝑲 = 𝟐 desviaciones estándar de la
media,
 88,89% de los datos están a menos de 𝑲 = 𝟑 desviaciones estándar de la
media,

Juan Zambrano Ch. UNAP Estadística Descriptiva 69


Regla empírica
Una regla empírica dice que si la distribución de los datos es más o menos simétrica y unimodal,
(es decir con una distribución normal) entonces aproximadamente un:
 68,26% de los datos caerán dentro de ± 1 desviaciones estándar de la media,
 95,46% de los datos caerán dentro de ± 2 desviaciones estándar de la media y
 99,74% de los datos caerán dentro de ± 3 desviaciones estándar de la media

Juan Zambrano Ch. UNAP Estadística Descriptiva 70


Ejemplo 1
El número de días necesarios para terminar 10 proyectos de
investigación son: 21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 días. Calcular: CV,
CAS, CAP y dibuje el diagrama de caja. Comente.
Solución:
1) La media: suma de todos los valores de una variable dividida entre el número total de
datos de la variable:
𝟐𝟏 + 𝟑𝟐 + 𝟏𝟓 + 𝟓𝟗 + 𝟔𝟎 + 𝟔𝟏 + 𝟔𝟒 + 𝟔𝟎 + 𝟕𝟏 + 𝟖𝟎
ഥ=
𝒙 = 𝟓𝟐, 𝟑 𝒅í𝒂𝒔
𝟏𝟎

2) La mediana: es el valor que deja a la mitad de los datos por encima de dicho valor y a
la otra mitad por debajo.
1º) Odenamos los datos de menor a mayor obteniendo la secuencia:
15, 21, 32, 59, 60, 60, 61, 64, 71, 80
2º) Calculamos la mediana, usando:
Pk Indicador Posición Fórmula
P50 0,510  1  5,5 Pos 5  Pos 6 P50  60  5,560  60  60 días
3) La moda: el valor de la variable que presenta una mayor frecuencia es 60días

Juan Zambrano Ch. UNAP Estadística Descriptiva 71


Ejemplo 1
El número de días necesarios para terminar 10 proyectos de
investigación son: 21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 días. Calcular: CV,
CAS, CAP y dibuje el diagrama de caja. Comente.

Solución:
La varianza S2: Es la media de los cuadrados de las diferencias entre cada
valor de la variable y la media aritmética de la distribución.

 x 
2
x
S 
2 i
i

15  52,3  21  52,3  ...  80  52,3
2 2 2
 475,12
n 1 10  1

La desviación típica S: es la raíz cuadrada de la varianza.

s  s 2  475,12  21,797

Juan Zambrano Ch. UNAP Estadística Descriptiva 72


Ejemplo 1
El número de días necesarios para terminar 10 proyectos de
investigación son: 21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 días. Calcular: CV,
CAS, CAP y dibuje el diagrama de caja. Comente.

Solución:
El rango: diferencia entre el valor de las observaciones mayor y el menor:
Re  x máx  x mín  80  15  65 días

El coeficiente de variación: cociente entre la desviación estándar y el valor absoluto de


la media aritmética.
s 21,797
cv    0,4168
x 52,3
Comentario: Como CV < 50%
1º El Nº medio de días necesario es representativo de los 10 equipos y
2º El Nº de días necesarios entre los 10 equipos son homogéneos

Juan Zambrano Ch. UNAP Estadística Descriptiva 73


Ejemplo 1
El número de días necesarios para terminar 10 proyectos de
investigación son: 21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 días. Calcular: CV,
CAS, CAP y dibuje el diagrama de caja. Comente.

Solución:
Coeficiente de asimetría para distribuciones unimodales:

x  Mo 52,3  60
CAS    0,353 días
s 21,797

Comentario: Como CAS < 0


La distribución del n° de días necesarios es asimétrica negativa

Juan Zambrano Ch. UNAP Estadística Descriptiva 74


Ejemplo 1
El número de días necesarios para terminar 10 proyectos de
investigación son: 21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 días. Calcular: CV,
CAS, CAP y dibuje el diagrama de caja. Comente.
𝟏° 𝟐° 𝟑° 𝟒° 𝟓° 𝟔° 𝟕° 𝟖° 𝟗° 𝟏𝟎°
Solución: CAP. Datos ordenados: 𝟏𝟓, 𝟐𝟏, 𝟑𝟐, 𝟓𝟗, 𝟔𝟎, 𝟔𝟎, 𝟔𝟏, 𝟔𝟒, 𝟕𝟏, 𝟖𝟎.
Pk Indicador Posición Fórmula
k%n  1 Pk  Lim inf  k%Lim sup  Lim inf 
P10 0,110  1  1,1 Pos 1  Pos 2 P10  0,121  0,915  15,6
P25 0,2510  1  2,75 Pos 2  Pos 3 P25  0,7532   0,2521  29,25
P50 0,510  1  5,5 Pos 5  Pos 6 P50  0,560  0,5)60  60
P75 0,7510  1  8,25 Pos 8  Pos 9 P75  0,2571  0,7564   65,75
P90 0,910  1  9,9 Pos 9  Pos 10 P90  0,980  0,171  79,1
P75  P25 65,75  29,25
CAP   0,263   0,263  0,0224
2P90  P10  279,1  15,6
Comentario: Como CAP > 0
La distribución del n° de días necesarios es Leptocúrtica
Juan Zambrano Ch. UNAP Estadística Descriptiva 75
Gráfico de caja y bigote
Valor máximo

Máximo  80

Percentil 75
 P75  65,75
D
 P50  60,0
Percentil 50 
(Mediana) D  45,5 x  52,3

Percentil 25

 P25  29,25

Min (1,5 x D o valor


Mínimo  15
mínimo)

Anómalos

Comentario:
Distribución No normal, Asimétrica negativa; existe mayor concentración
de valores a la derecha de la media que a su izquierda)
Juan Zambrano Ch. UNAP Estadística Descriptiva 76
Ejemplo 2
El precio de un TV en 10 establecimientos comerciales de una ciudad
son: 250.000, 250.000, 260.000, 240.000, 300.000, 250.000, 290.000,
280.000, 260.000, y 270.000 pesos. Hallar la media, moda, mediana,
diagrama de barras y el diagrama de caja.
Solución: Los resultados se expresan en 10 miles de pesos

Juan Zambrano Ch. UNAP Estadística Descriptiva 77


Ejemplo 3
Se tiene información del consumo promedio de agua de los huéspedes
de un hotel según la temperatura
Mes Consumo promedio por huesped
Enero 30

Febrero 45

Marzo 50

Abril 58

Mayo 65

Junio 110
Julio 100

Agosto 120

Septiembre 50

Octubre 60

Noviembre 45

Diciembre 35

Total 768

Juan Zambrano Ch. UNAP Estadística Descriptiva 78


Ejemplo 3. Solución
Solución:
Con base a las fórmulas y funciones del SPSS obtenemos los siguientes
resultados de las medidas estadísticas:

Media : 64
Mediana : 54
Moda : 45
Rango : 30 a 120 = 90
Varianza : 809,33
Desviación estándar : 28,45
Simetría : 0,98
Curtosis : -0,32

Juan Zambrano Ch. UNAP Estadística Descriptiva 79


Ejemplo 3. Solución
Interpretación:
 Cada huésped consume $64 en promedio al mes (como 𝒙 > 𝟐𝒔; el
promedio es representativo)
 Los datos no son simétricos, se desplazan ligeramente hacia la derecha
con un sesgo positivo, sólo con ver que la mediana es inferior a la media.
 Aunque la fórmula sólo indica un dato de moda, tenemos dos números
que se repiten dos veces: 45 y 50, por lo que la distribución es de tipo
bimodal (dos distribuciones).
 El rango de consumo es de 90 unidades, entre el límite inferior de 30 y el
superior de 120.
 La desviación estándar (28,45) no es grande comparativamente, lo que
indica que los datos no se alejan tanto de la media (como 𝐱 > 𝟐𝐬; los
datos son homogéneos)
 El valor de simetría con valor de 0,98 (𝒈𝟏 = 𝟎, 𝟗𝟖 > 𝟎), nos indica una
distribución asimétrica positiva, porque existe mayor concentración de
valores a la derecha de la media que a su izquierda.
 En cuanto a la curtosis con valor de -0,32 (𝐠 𝟐 = −𝟎, 𝟑𝟐 < 𝟎), nos confirma
una distribución platicúrtica porque no presenta un alto grado de
concentración alrededor de los valores centrales de la variable.
Juan Zambrano Ch. UNAP Estadística Descriptiva 80
Ejemplo 3. Solución

Juan Zambrano Ch. UNAP Estadística Descriptiva 81


Cálculo de medidas estadísticas

 x 
N n

 x  
2
x
2

 Varianza 2  i 1
i
s2  i 1
i

N n 1

 x 
N n

  x i   2
2
x
 Desviación estándar  i 1
s i 1
i

N n 1
Dispersión

 s
 Coeficiente de variación CV  CV 
 x

 Rango: Rango  Máximo Mínimo

 Rango Intercuartil: Rango Intercuartil  P75  P25

Juan Zambrano Ch. UNAP Estadística Descriptiva 82


“Un día la Estadística será tan
necesaria como saber leer o escribir”

Herbert George Wells.


(1866-1946)

Juan Zambrano Ch. UNAP Estadística Descriptiva 83


La media aritmética es:
M

n c i i 7
x  MX   
i 1 1482 ,5
 f i ci   37 ,0625  37 ,1 años
n i 1
40

Juan Zambrano Ch. UNAP Estadística Descriptiva 84


ni 

    n c  x
M 7
La varianza es: 2 2
ni c i  x i i
s 2  VarX   i 1 i 1 5846 ,3438
   149 ,9063
n 1 40  1 39
La desviación estándar es:
s   149 ,9063  12,2436 Comentario: Como CV < 50%
1º La edad media es representativa y
El coeficiente de variación es: 2º Las edades son homogéneas
s 12,2436
CV    0,3304  33,04%
x 37,0625

Juan Zambrano Ch. UNAP Estadística Descriptiva 85


ni 

 n x 
M
El coeficiente de asimetría es: x
3
i i
i 1 56306 ,7070
Comentario: Como g1 > 0 n 40
g1    0,7966  0
Distribución Asimétrica positiva; 3 3
   5846 ,3438 
  
M
existe mayor concentración de  ni xi  x
2
  
valores a la izquierda de la media    40 
i 1
 
que a su derecha)  n 
 
 
  
M
El coeficiente de curtosis es: ni x i  x
4

Comentario: Como g2 < 0 i 1 2226868 ,9552


Distribución platicúrtica, presenta g2  n 3  40  0,3939  0
2 2
un reducido grado de concentración    5846 ,3438 
  
M
 ni x i  x
2
  
alrededor de los valores centrales    40 
i 1
de la variable.  
 n 
 
 
Juan Zambrano Ch. UNAP Estadística Descriptiva 86
ni 

M 7
x  MX    fc
1 1 1482 ,5
ni c i  i i   37 ,0625  37 ,1 años
n i 1
40 i 1
40

Calcular los percentiles: P10, P25, P50, P75 y P90


Solución INDICADOR FORMULA
P10 ε I1 40
P10  10%n  4; Pr imera N i  10%n es N1  8; luego P10  20  6,5  23,25
8
10  8
P25 ε I2 P25  25%n  10; Pr imera N i  25%n es N 2  19; luego P25  26,5  6,5  27,6818
11
20  19
P50 ε I3 P50  50%n  20; Pr imera N i  50%n es N 3  26; luego P50  33  6,5  33,9286
7
30  26
P75 ε I4 P75  75%n  30; Pr imera N i  75%n es N 4  32; luego P75  39,5  6,5  43,8333
6
36  36
 90%n  36; Pr imera N i  90%n es N 7  40; luego P90  59  6,5  59,00
P90 ε I7 P90 4
Juan Zambrano Ch. UNAP Estadística Descriptiva 87
ni 

M 7
x  MX    fc
1 1 1482 ,5
ni c i  i i   37 ,0625  37 ,1 años
n i 1
40 i 1
40

Calcular la moda, CA y CAP nuevamente


Solución
 
  26,5  6,5 7   29,5333
Moda n M 0 1
M o  L inf M 0  A  
 
 n M 0 1  n M 0 1   78
Comentario: Como CA > 0
Distribución Asimétrica positiva;
existe mayor concentración de
x  M 0 37 ,0625  29,5333 valores a la izquierda de la media
CA CA    0,6149  0 que a su derecha)
s 12,2436

Comentario: Como CAP < 0


P75  P25 43,8333  27 ,6818 Distribución platicúrtica, presenta
CAP   0,263   3  0,0371
2P90  P10  259  23,25 
un reducido grado de
CAP concentración alrededor de los
valores centrales de la variable.

Juan Zambrano Ch. UNAP Estadística Descriptiva 88


Gráfico de caja y bijote
Máximo  65
Valor máximo

Percentil 75

D
Percentil 50
(Mediana) P75  43,8333

Percentil 25  x  37,1
D  16,1515 
P50  33,9286

 P25  27,6818

Min (1,5 x D o valor


mínimo) Mínimo  20
Anómalos

Comentario:
Distribución No normal, Asimétrica positiva; existe mayor concentración
de valores a la izquierda de la media que a su derecha)
Juan Zambrano Ch. UNAP Estadística Descriptiva 89
“Un día la Estadística será tan
necesaria como saber leer o escribir”

Herbert George Wells.


(1866-1946)

Juan Zambrano Ch. UNAP Estadística Descriptiva 90


Algunos Análisis Estadísticos
1) Análisis y Planificación de Encuestas
2) Análisis Exploratorio de datos (A.E.D.)
3) Análisis y Diseño de Experimentos
4) Análisis de Varianza (ANOVA)
5) Análisis de Varianza Multivariada (MANOVA)
6) Análisis de Regresión Lineal Simple
7) Análisis de Regresión Lineal Múltiple
8) Análisis Discriminante
9) Análisis de Componentes Principales
10) Análisis de Cluster
11) Análisis Factorial
12) Análisis de Correspondencias
13) Análisis de Regresión logística
14) Análisis de Series de Tiempo
15) Análisis y Control de Calidad
16) Técnicas de Muestreo
17) Análisis Conjunto. Etc.
Juan Zambrano Ch. UNAP Estadística Descriptiva 91
Resumiendo
 ¿Es posible estimar el gasto en consumo de un cliente a partir de su nivel de
ingresos, su nivel educativo, su edad y su estilo de vida?
Análisis de regresión
 ¿Cuáles son los factores que determinan que un individuo encuentre trabajo
antes que otro?
Análisis factorial
 ¿Existe discriminación por sexos en una empresa?
Análisis discriminante
 ¿Cuáles son los atributos de un producto que más influyen en la decisión de
compra de un conjunto de consumidores?
Análisis conjunto
 ¿Es posible predecir si una empresa va a quebrar en función de un conjunto de
indicadores financieros?
Análisis de correspondencia
 ¿Es posible clasificar un grupo de alimentos en función de sus valores
nutritivos?
Análisis de cluster
 ¿Cuáles son los atributos que un consumidor utiliza para distinguir las distintas
marcas y modelos de coches deportivos?
Análisis de Componentes Principales
Juan Zambrano Ch. UNAP Estadística Descriptiva 92

You might also like