Professional Documents
Culture Documents
ANÁLISIS DE DATOS
MÓDULO I: ANÁLISIS DESCRIPTIVO
DE DATOS
Contenido
1. Conceptos básicos
2. Distribución de frecuencias
4. Medidas de posición
5. Medidas de dispersión
6. Medidas de forma
1. Conceptos básicos
2. Distribución de frecuencias
4. Medidas de posición
5. Medidas de dispersión
6. Medidas de forma
1. Conceptos básicos
Conceptos básicos
Recolección de datos
Organizar y resumir
Estadística descriptiva
Muestra
Interpretación
Conclusiones
Diagnóstico
1. Conceptos básicos
Conceptos básicos
Variable
¿Quiénes se miden?
Los elementos o unidades de análisis de una Población o una Muestra
Población Muestra
Total de elementos o unidades de análisis que se Conjunto de elementos o unidades de análisis
están estudiando provenientes de una población
Parámetro Estadístico
1. Conceptos básicos
Conceptos básicos
1. Conceptos básicos
Tipos de variables
Cualitativas Cuantitativas
1. Conceptos básicos
Contenido
1. Conceptos básicos
2. Distribución de frecuencias
4. Medidas de posición
5. Medidas de dispersión
6. Medidas de forma
Una variable A puede tomar las categorías: A1. A2. … . Ak. Ejemplo: La variable “Estado civil” toma los
valores: Casado. soltero. separado. viudo.
Distribución de Registro de todas las posibles categorías o valores de la variable. junto con
frecuencias sus frecuencias asociadas.
A1 n1 n1 n1 / n n1 / n
A2 n2 n1 + n2 n2 / n (n1 + n2)/n
… … … … …
Ak nk n1 + n2 + … + nk nk / n (n1 + n2 + … + nk)/n
2. Distribución de frecuencias
Variables cualitativas
Ejemplo: Se ha clasificado a 20 individuos según su estado civil. que puede tomar los valores:
1 = Soltero
2 = Casado
3 = Separado
4 = Viudo
1 1 4 3 3 3 2 2 4 2 2 1 4 2 3 2 3 4 2 3
2. Distribución de frecuencias
Variables cualitativas
Se dibuja sobre cada categoría una barra cuya altura coincida con la
Diagrama de barras frecuencia absoluta o relativa de dicha clase.
40%
35%
Frecuencia relativa (fi)
30%
25%
20%
15%
10%
5%
0%
Soltero Casado Separado Viudo
Categorías
2. Distribución de frecuencias
Variables cualitativas
15%
20%
Soltero
Casado
Separado
Viudo
35%
30%
Se puede visualizar mejor la proporción en que aparece una categoría respecto del total.
2. Distribución de frecuencias
Variables cualitativas
100%
De todos los problemas que ocurren.
80% solamente unos pocos son realmente
frecuentes. los otros raramente
60% ocurren.
40%
El principio de Pareto imparte soporte
para la regla de 80/20. que dice que el
80% de los problemas (inconformidad o
20%
defecto). son ocasionados por el 20% de
las causas.
0%
Causa A Causa B Causa C Causa D Causa E Causa F Causa G
2. Distribución de frecuencias
Variables cualitativas
Ejemplo: Una empresa sufre continuas paradas en su línea de producción. Dada la importancia de las
consecuencias económicas de estas paradas. se decide controlar durante un mes cuáles son las razones
que las ocasionan. Para ello. se solicita a los operarios que anoten el tipo de percance. Las causas
detectadas. así como su frecuencia se muestran a continuación:
2. Distribución de frecuencias
Variables cualitativas
Continuación:
100%
80%
60%
40%
20%
0%
Desajustes de Rotura de Rotura de Bloqueo de Rotura de aros Rotura de otras
temperatura tornillos arandelas cintas de sujeción piezas
Como se puede observar en el gráfico. el 79% de las paradas de la línea de producción son ocasionadas
por: Desajustes de temperatura. rotura de tornillos y rotura de arandelas.
2. Distribución de frecuencias
Variables cuantitativas
Ejemplo: Cien familias se han clasificado según el número de hijos. resultando los siguientes datos:
2. Distribución de frecuencias
Variables cuantitativas
30% 100%
25% 80%
20%
60%
15%
40%
10%
20%
5%
0% 0%
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8
¿Qué proporción de familias tiene más de 3 hijos pero menos de 7? Rta/ 28%
2. Distribución de frecuencias
Variables cuantitativas
Algunas definiciones:
Frecuencia del
Número de mediciones que quedan dentro del intervalo.
intervalo de clase
Amplitud del
Diferencia entre el límite superior y límite inferior del intervalo.
intervalo de clase
2. Distribución de frecuencias
Variables cuantitativas
Para evitar conteos dobles se deberá especificar si los intervalos son abiertos a la derecha o a la izquierda.
2. Distribución de frecuencias
Variables cuantitativas
Ejemplo: Se presentan a continuación los datos de estaturas de la población femenina de cierta ciudad:
2. Distribución de frecuencias
Variables cuantitativas
2. Distribución de frecuencias
Variables cuantitativas
20%
15%
10%
5%
0%
1,485 1,515 1,545 1,575 1,605 1,635 1,665
2. Distribución de frecuencias
Variables cuantitativas
Curva simétrica: Se suele dar en variables en las que hay una gran
cantidad de observaciones con valores intermedios y algunos valores
en ambos extremos (peso, estatura).
2. Distribución de frecuencias
Variables cuantitativas
80%
60%
40%
20%
0%
1,485 1,515 1,545 1,575 1,605 1,635 1,665
2. Distribución de frecuencias
Contenido
1. Conceptos básicos
2. Distribución de frecuencias
4. Medidas de posición
5. Medidas de dispersión
6. Medidas de forma
La estadística descriptiva en su función básica de resumir datos, propone una serie de medidas que
permiten tener una descripción rápida de lo que ocurre en un fenómeno.
Medidas de tendencia: valor que se toma como orientación para referirnos a un conjunto de datos.
X Marca de
Intervalo ni
clase (ci)
x1
[1.47 – 1.50] 5 1.485
x2 (1.50 – 1.53] 8 1.515
… (1.53 – 1.56] 10 1.545
xn (1.56 – 1. 59] 11 1.575
2. Si se tiene la media de un conjunto de datos y cada observación se multiplica por una constante b, la
nueva media de los datos se obtiene multiplicando la media de los datos por b.
1 30% 3.4
2 30% 4.0
3 40% 4.5
Mediana Valor que divide una serie de datos ordenada en dos partes iguales.
X Datos no agrupados
Si n es impar
X(1)
X(2)
…
Si n es par
X(n)
Mediana Valor que divide una serie de datos ordenada en dos partes iguales.
X Datos no agrupados
Si n es impar
X(1)
X(2)
…
Si n es par
X(n)
1,47(1) 1,53(11) 1,56(21) 1,59(31) 1,62(41) Ejemplo: Ejercicio estaturas de la población femenina de
1,47(2) 1,53(12) 1,56(22) 1,59(32) 1,62(42)
cierta ciudad:
1,49(3) 1,53(13) 1,56(23) 1,59(33) 1,62(43)
1,49(4) 1,54(14) 1,57(24) 1,59(34) 1,62(44)
1,5(5) 1,54(15) 1,57(25) 1,6(35) 1,63(45)
1,51(6) 1,54(16) 1,57(26) 1,61(36) 1,63(46)
1,52(7) 1,54(17) 1,58(27) 1,62(37) 1,64(47)
1,52(8) 1,55(18) 1,58(28) 1,62(38) 1,65(48)
1,53(9) 1,56(19) 1,59(29) 1,62(39) 1,65(49)
1,53(10) 1,56(20) 1,59(30) 1,62(40) 1,68(50)
Intervalo ni Fi
[1.47 – 1.50] 5 0.10
(1.50 – 1.53] 8 0.26
(1.53 – 1.56] 10 0.46
(1.56 – 1. 59] 11 0.68
(1.59 – 1.62] 10 0.88
(1.62 – 1.65] 5 0.98
(1.65 – 1.69] 1 1
Moda Indica el valor que más se repite o la clase que posee mayor frecuencia.
2 3 3 3 8 9 0 0 0 7 8 4 4 3 3 3
1. Conceptos básicos
2. Distribución de frecuencias
4. Medidas de posición
5. Medidas de dispersión
6. Medidas de forma
Q1 Q2 Q3
Mediana
D1 D2 …. D5 D7 D8
Mediana
4. Medidas de posición
Medidas de posición
Datos no agrupados
Método 1 Método 2
4. Medidas de posición
Medidas de posición
Ejemplo: Ejercicio estaturas de la población femenina de cierta ciudad: Cálculo del percentil 60.
Método 1
4. Medidas de posición
Medidas de posición
Ejemplo: Ejercicio estaturas de la población femenina de cierta ciudad: Cálculo del percentil 60.
Datos agrupados
Intervalo ni Ni Fi
(1.65 – 1.69] 1 50 1
4. Medidas de posición
Contenido
1. Conceptos básicos
2. Distribución de frecuencias
4. Medidas de posición
5. Medidas de dispersión
6. Medidas de forma
5. Medidas de dispersión
Medidas de dispersión
Datos no agrupados
Datos agrupados
5. Medidas de dispersión
Medidas de dispersión
Datos no agrupados
Datos agrupados
Nos dice en cuántas unidades de los valores que toma la variable, se concentra el 50% central
de los casos.
5. Medidas de dispersión
Medidas de dispersión
Datos no agrupados
Datos agrupados
5. Medidas de dispersión
Medidas de dispersión
Propiedades de la varianza:
5. Medidas de dispersión
Medidas de dispersión
5. Medidas de dispersión
Medidas de dispersión
5. Medidas de dispersión
Medidas de dispersión
Coeficiente de variación
Para comparar la dispersión de variables que aparecen en unidades diferentes o que corresponden a
poblaciones desiguales, es necesario disponer de una medida de variabilidad que no dependa de las
unidades o el tamaño de los datos.
5. Medidas de dispersión
Medidas de dispersión
5. Medidas de dispersión
Medidas de dispersión
5. Medidas de dispersión
Contenido
1. Conceptos básicos
2. Distribución de frecuencias
4. Medidas de posición
5. Medidas de dispersión
6. Medidas de forma
Son aquellos números resúmenes, que indican la forma de la distribución de los datos, es decir de la
simetría y apuntamiento que tiene el histograma de la variable en estudio.
6. Medidas de forma
Medidas de forma
6. Medidas de forma
Medidas de forma
Coeficientes de asimetría
✓ Si el valor del coeficiente de asimetría es mayor que cero, entonces la distribución presenta una
asimetría positiva.
✓ Si el valor del coeficiente de asimetría es menor que cero, entonces la distribución presenta una
asimetría negativa.
✓ Si el valor del coeficiente de asimetría es igual a cero, entonces la distribución es simétrica.
6. Medidas de forma
Medidas de forma
6. Medidas de forma
Medidas de forma
Coeficiente de curtosis
✓ Si el valor del coeficiente de curtosis es mayor que cero, entonces la distribución es leptocúrtica.
✓ Si el valor del coeficiente de curtosis es menor que cero, entonces la distribución es platicúrtica
✓ Si el valor del coeficiente de curtosis es igual a cero, entonces la distribución es mesocúrtica.
6. Medidas de forma
Medidas de forma
Coeficiente de asimetría
-0.114
Coeficiente de curtosis
-0.599
6. Medidas de forma
Contenido
1. Conceptos básicos
2. Distribución de frecuencias
4. Medidas de posición
5. Medidas de dispersión
6. Medidas de forma
y1 y2 … yr
x1 n11 n12 … n1r
x2 n21 n22 … n2r
… ... … … …
xk nk1 nk2 … nkr
(nij) Frecuencia absoluta conjunta del par (xi , yj) Número de veces que el dato (xi , yj) aparece en la muestra.
Ejemplo:
= Número de veces que la variable X toma el valor xi en la muestra. Es la suma de nij con j = 1,…r.
= Número de veces que la variable Y toma el valor yj en la muestra. Es la suma de nij con i = 1,…k.
Ejemplo:
Estudio de porcentajes:
Bogotá (Norte) 44.93% 55.07% 100% Bogotá (Norte) 8.52% 16.52% 11.62%
Bogotá (Sur) 63.38% 36.62% 100% Bogotá (Sur) 12.36% 11.30% 11.95%
Medellín (Norte) 61.90% 38.10% 100% Medellín (Norte) 10.71% 10.43% 10.61%
Medellín (Sur) 60.00% 40.00% 100% Medellín (Sur) 10.71% 11.30% 10.94%
Bucaramanga 7.97% 16.09% 11.11%
Bucaramanga 43.94% 56.06% 100%
Barranquilla 64.18% 35.82% 100% Barranquilla 11.81% 10.43% 11.28%
Ejemplo: La variable X es “Género” y la variable Y es “Monto promedio mensual de pago por servicios
públicos”:
Ejemplo: La variable X es “Estado civil” y la variable Y es “Monto promedio mensual de pago por
servicios públicos”:
Representaciones gráficas
10,0%
8,0%
6,0%
4,0%
2,0%
0,0%
Bogotá (Norte) Bogotá (Sur) Medellín Medellín (Sur) Bucaramanga Barranquilla Montería Neiva Pereira
(Norte)
NSE 2 NSE 3
14,0%
12,0%
10,0% 4,4% 2,4% 3,7%
4,4% 4,0% 3,2%
8,0% 6,4% 4,0% 6,2%
6,0%
4,0% 7,6% 7,2% 8,4% 7,7%
6,6% 6,6% 7,1%
2,0% 5,2% 4,9%
0,0%
Bogotá (Norte) Bogotá (Sur) Medellín Medellín (Sur) Bucaramanga Barranquilla Montería Neiva Pereira
(Norte)
NSE 2 NSE 3
Box - Plot
87
47
160 165 170 175 180 185 190
altura
Interpretación
Si Sxy > 0, hay relación positiva, es decir, a grandes valores de x corresponden grandes valores de y.
Si Sxy = 0, se interpreta como la no existencia de una relación lineal entre las dos variables estudiadas.
Si Sxy < 0, hay relación negativa, es decir, a grandes valores de x corresponden pequeños valores de y.
Interpretación