Professional Documents
Culture Documents
FACULTAD DE INGENIERA
REA DE ESTADSTICA
Coordinacin
MANUAL
DE
ESTADSTICA
DESCRIPTIVA
Guatemala, noviembre 2011
NDICE DE CONTENIDOS
pgina
ESTADSTICA DESCRIPTIVA ................................................................................................................................................ 1
DA 1.................................................................................................................................................................................. 1
I. UNIDAD: INTRODUCCIN A LA ESTADSTICA .................................................................................................................. 1
1.1 ESTADSTICA ................................................................................................................................................................ 1
1.2 TIPOS DE ESTADSTICA .................................................................................................................................................... 1
1.2.1 ESTADSTICA DESCRIPTIVA ............................................................................................................................................ 1
1.2.2 ESTADSTICA INFERENCIAL ............................................................................................................................................ 1
1.3 TIPOS DE VARIABLES ...................................................................................................................................................... 2
1.4 NIVELES DE MEDICIN .................................................................................................................................................... 2
1.5 RECOPILACIN DE DATOS ................................................................................................................................................ 4
1.5.1 FUENTES PARA OBTENER DATOS ..................................................................................................................................... 4
1.5.2 TCNICAS PARA RECOPILAR DATOS .................................................................................................................................. 4
DA 2.................................................................................................................................................................................. 5
II. UNIDAD: PRESENTACIN DE DATOS DE UNA SOLA VARIABLE ....................................................................................... 5
2.1 DISTRIBUCIN DE FRECUENCIAS ........................................................................................................................................ 5
2.1.1 INTERVALOS, MARCAS DE CLASE Y FRECUENCIAS ................................................................................................................. 5
2.1.2 CONSTRUCCIN DE UNA DISTRIBUCIN DE FRECUENCIAS PARA DATOS CUANTITATIVOS ................................................................. 6
2.1.3 DISTRIBUCIN DE FRECUENCIA RELATIVA .......................................................................................................................... 8
2.1.4 DISTRIBUCIONES DE FRECUENCIA ACUMULADA .................................................................................................................. 9
DA 3................................................................................................................................................................................ 10
2.2 PRESENTACIN GRFICA DE DATOS .................................................................................................................................. 10
2.2.1 DATOS CUALITATIVOS ................................................................................................................................................ 10
2.2.1.1 GRFICA DE BARRAS .............................................................................................................................................. 10
2.2.1.2 GRFICA CIRCULAR ............................................................................................................................................... 10
DA 4................................................................................................................................................................................ 10
2.2.2 DATOS CUANTITATIVOS ............................................................................................................................................. 10
2.2.2.1 HISTOGRAMA ....................................................................................................................................................... 10
2.2.2.2 POLGONO DE FRECUENCIAS ..................................................................................................................................... 10
2.2.2.3 OJIVA................................................................................................................................................................. 11
2.2.2.4 GRFICAS DE PUNTOS............................................................................................................................................. 11
2.2.2.5 GRFICAS LINEALES................................................................................................................................................ 11
DA 5................................................................................................................................................................................ 11
III. UNIDAD: ANLISIS DESCRIPTIVO DE DATOS DE UNA SOLA VARIABLE
........................................................................................................................................................................................ 11
3. MEDIDAS DE POSICIN ................................................................................................................................................... 11
3.1 MEDIDAS DE TENDENCIA CENTRAL ................................................................................................................................... 11
3.1.1 MEDIA .................................................................................................................................................................. 11
3.1.1.1 MEDIA ARITMTICA .............................................................................................................................................. 12
3.1.1.2 MEDIA PONDERADA ............................................................................................................................................... 12
3.1.1.3 MEDIA GEOMTRICA .............................................................................................................................................. 13
3.1.2 MEDIANA .............................................................................................................................................................. 13
3.1.3 MODA .................................................................................................................................................................. 14
DA 6................................................................................................................................................................................ 15
ESTADSTICA DESCRIPTIVA
DA 1
I. Unidad: Introduccin a la Estadstica
1.1 Estadstica
Se denomina Estadstica a la rama de las matemticas que se ocupa de reunir, organizar,
presentar, analizar e interpretar datos numricos y que ayuda a resolver problemas como el diseo de
experimentos y la toma de decisiones.
Una segunda clasificacin del muestreo surge en la forma en que se selecciona la muestra,
as el muestreo puede ser con reemplazo y sin reemplazo. El muestreo con reemplazo es el
muestreo en el cual cada miembro de una poblacin puede seleccionarse ms de una vez, cada vez
que se toma un elemento la poblacin conservar su tamao. El Muestreo sin reemplazo es en el
cual cada miembro de una poblacin puede seleccionarse nicamente una vez y en este caso el
tamao de la poblacin se va reduciendo conforme se conforma la muestra.
DA 2
II. Unidad: Presentacin de datos de una sola variable
Nmero de alumnos
42
88
50
34
214
La diferencia entre las fronteras superior e inferior de una clase se denomina amplitud de
clase.
El punto medio entre los dos extremos (o las dos fronteras) de una clase se denomina marca
de clase.
El nmero de datos incluidos en un intervalo de clase se denomina frecuencia de la clase.
A =
Una vez obtenida la amplitud de las clases se procede a calcular los intervalos y a realizar el
conteo de valores para determinar la frecuencia de cada uno.
Ejemplo:
Las velocidades, en millas por hora, de los conductores de 55 automviles fueron medidas con
un radar en una calle de cierta ciudad:
27
25
29
26
21
23
23
28
33
23
22
22
27
25
24
38
63
25
27
18
43
31
29
25
48
24
30
28
34
23
35
41
24
32
15
26
45
37
36
38
28
29
28
22
26
20
43
18
33
23
18
27
29
32
21
15
18
18
18
20
21
21
22
22
22
23
23
23
23
23
24
24
24
25
25
25
25
26
26
26
27
27
27
27
28
28
28
28
29
29
29
29
30
31
32
32
33
33
34
35
36
37
38
38
41
43
43
45
48
63
Segundo
Calcular el nmero de clases.
K = 1 + 3.3 Log (55)
K = 6.743
De acuerdo a la regla de Sturges, deberamos tener 6 7 clases. Para efectos de clculos el valor de
K se aproxima el entero ms prximo.
K=7
Tercero.
Calcular la amplitud.
Para esto previamente identificamos el dato mayor y el menor, en nuestro caso tales datos
son 15 y 63
A = 63 - 15
7
A = 6.857
La amplitud debe aproximarse al entero ms cercano.
A=7
Cuarto.
Una vez determinado el nmero de de clases y la amplitud, debe elegirse el extremo inferior
de la primera clase. Dado que aqu el valor mnimo es 15, el extremo inferior puede ser 15 o menos;
por consiguiente tomaremos como criterio usar el nmero 15.
Quinto.
Establecido el extremo inferior, se sumar la amplitud a ste para obtener el valor del lmite
inferior de la siguiente clase y as sucesivamente. Para obtener los lmites superiores, se le resta uno
al lmite inferior posterior. Se tiene que tomar en cuenta que en la ltima clase est contenido el dato
mayor.
Sexto.
Corresponde ahora calcular la frontera inferior de la clase. Puesto que los valores estn dados
en nmeros enteros y como las fronteras deben darse con un decimal ms, tomamos como frontera
inferior el valor de la primera clase inferior menos 0.05 (si los valores se hubieran dado con un
decimal, se le restara 0.005) y como frontera superior el valor de la primera clase superior ms 0.05
(si los valores se hubieran dado con un decimal, se le sumara 0.005)
Intervalo de
clase
15
22
29
36
43
50
57
21
28
35
42
49
56
63
Frontera
Inferior
Frontera
Superior
Amplitud
de clase
14.5
21.5
28.5
35.5
42.5
49.5
56.5
21.5
28.5
35.5
42.5
49.5
56.5
63.5
7
7
7
7
7
7
7
Sptimo.
Una vez construidos los diversos intervalos de clase, se cuenta el nmero de elementos que
cae en cada uno, obtenindose as las respectivas frecuencias.
Tabla No. 3
Distribucin de frecuencia
Velocidades de un grupo de conductores en una autopista
Intervalo de clase
15
21
22
28
29
35
36
42
43
49
50
56
T o t al
frecuencia
7
26
12
5
4
1
55
T o t al
21
28
35
42
49
56
frecuencia absoluta
frecuencia realtiva
frecuencia porcentual
fr
fr%
7
26
12
5
4
1
55
0.1273
0.4727
0.2182
0.0909
0.0727
0.0182
1.0000
12.73
47.27
21.82
9.09
7.27
1.82
100.00
frecuencia absoluta
21
28
35
42
49
56
T o t al
frecuencia acumulada
7
26
12
5
4
1
55
7
33
45
50
54
55
Tabla No. 6
Distribucin de frecuencia relativa acumulada
Velocidades de un grupo de conductores en una autopista
Intervalo de clase
15
22
29
36
43
50
T o t al
21
28
35
42
49
56
frecuencia absoluta
f
7
26
12
5
4
1
55
frecuencia realtiva
fr
0.1273
0.4727
0.2182
0.0909
0.0727
0.0182
1.0000
Tabla No. 7
Distribucin de frecuencia relativa porcentual acumulada
Velocidades de un grupo de conductores en una autopista
Intervalo de clase
15
22
29
36
43
50
T o t al
21
28
35
42
49
56
frecuencia porcentual
frecuencia porcentual acumulada
fr
Fr
12.73%
12.73%
47.27%
60.00%
21.82%
81.82%
9.09%
90.91%
7.27%
98.18%
1.82%
100.00%
100.00%
DA 3
2.2 Presentacin grfica de datos
Una vez elaborada la tabla de distribucin de frecuencia es importante construir su
representacin visual. Esta representacin revela patrones de comportamiento de la variable en
estudio. El tipo de grfico que se utilice depender del tipo de datos y el concepto a representar.
DA 4
2.2.2 Datos cuantitativos
Una razn fundamental para elaborar una grfica de datos cuantitativos es mostrar su
distribucin.
2.2.2.1 Histograma
Una de las formas ms comunes de representar una distribucin de frecuencias es un
histograma.
Un histograma es una grfica que se construye a partir de la tabla estadstica, consiste en
rectngulos verticales unidos entre s, en donde sus lados son los lmites reales inferior y superior de
clase y cuya altura es igual a la frecuencia de clase. El criterio para calcular la altura de cada
rectngulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada
intervalo y el rea de los mismos.
10
2.2.2.3 Ojiva
Una grfica de distribucin de frecuencias acumuladas es llamada una ojiva. Se trazan los
lmites reales superiores contra las frecuencias acumuladas.
Una distribucin de frecuencias acumuladas nos permite ver cuntas observaciones estn por
encima de ciertos valores, en lugar de hacer un mero registro del nmero de elementos que hay
dentro de los intervalos, esto es lo que refleja la ojiva.
Se puede construir una ojiva de una distribucin de frecuencias relativas de la misma manera
en que trazamos la ojiva de una distribucin de frecuencias absolutas. Slo habr un cambio: la
escala del eje vertical.
DA 5
III. Unidad: Anlisis descriptivo de datos de una sola variable
3. Medidas de posicin
Las medidas de posicin facilitan informacin sobre la serie de datos que se est analizando.
Estas medidas permiten conocer diversas caractersticas de la serie de datos.
3.1.1 Media
Las media o promedio es una medida de posicin que proporciona una descripcin compacta
de cmo estn centrados los datos y una visualizacin ms clara del nivel que alcanza la variable,
11
puede servir de base para medir o evaluar valores extremos y brinda mayor facilidad para efectuar
comparaciones.
Es importante poner en relieve que la notacin de promedio lleva implcita la idea de variacin
y que este nmero promedio debe cumplir con la condicin de ser representativo de conjunto de
datos.
El promedio como punto tpico de los datos es el valor al rededor del cual se agrupan los
dems valores de la variable.
(x * f )
fi
i
(x * w )
w
(x * w )
f *w
__
12
X G n x1 * x 2 * x3 ... * x n
3.1.2 Mediana
Es el valor de la observacin que ocupa la posicin central de un conjunto de datos ordenados
segn su magnitud. Es el valor medio o la media aritmtica de los valores medios. La mediana es un
valor de la variable que deja por debajo de l un nmero de casos igual al que deja por arriba.
Geomtricamente la mediana es el valor de la variable que corresponde a la vertical que
divide al histograma en dos reas iguales.
Cuando determinados valores de un conjunto de observaciones son muy grandes o pequeos
con respecto a los dems, entonces la media aritmtica se puede distorsionar y perder su carcter
representativo, en esos casos es conveniente utilizar la mediana como medida de tendencia central,
es decir que la mediana no presenta el problema de estar influida por los valores extremos, pero en
cambio no utiliza en su clculo toda la informacin de la serie de datos (no pondera cada valor por el
nmero de veces que se ha repetido).
Caractersticas de la mediana
a. Es una medida de tendencia central no afectada por los valores extremos.
b. No est definida algebraicamente.
c. Cuando la localizacin del elemento central puede ser determinada y los lmites de clase
mediana son conocidos, la mediana para la distribucin de frecuencias puede ser calculada por
interpolacin, no importando que sta contenga intervalos abiertos, cerrados, iguales o diferentes.
d. La suma de los valores absolutos, sin considerar el signo, de las desviaciones individuales
respecto a la mediana es mnimo.
e. La mediana en caso de una distribucin asimtrica, no resulta desplazado del punto de
tendencia central.
f. Si el universo tiene curtosis excesiva la mediana como estadstico, vara menos que cualquier
otra medida.
13
g. Si la mediana se calcula por interpolacin y hay lagunas en los valores de la clase mediana o los
datos son irregulares, esta medida no es buena ya que su ubicacin puede resultar falsa.
h. Si se desea ubicar las condiciones de un elemento en una clase, la mediana resulta se indicada,
ya que por comparacin pone en evidencia si un elemento est en la mitad superior a ella o en la
inferior.
CLCULO DE LA MEDIANA
Para datos no agrupados:
1ero. Se ordenan los datos ascendentemente.
2do. La mediana corresponde al dato que est en la posicin central.
Para datos agrupados
1ero. Se calcula la clase de la mediana, la cual corresponde a la clase cuya
frecuencia acumulada es mayor o igual a n/2.
2do. En la clase de la mediana se aplica la siguiente frmula:
n F
*A
M e Lme 2
f me
3.1.3 Moda
Es el valor de un conjunto de datos que ocurre ms frecuentemente, se considera como el
valor ms tpico de una serie de datos.
Para datos agrupados se define como Clase Modal el intervalo que tiene ms frecuencia.
La moda puede no existir o no ser nica, las distribuciones que presentan dos o ms mximos
relativos se designan de modo general como bimodales o multimodales respectivamente.
Caractersticas de la Moda:
a. Representa ms elementos que cualquier otro valor
b. No est afectada por los valores extremos pero para datos continuos es dudoso su clculo.
c. La moda para una distribucin de frecuencias de datos agrupados no puede ser calculada
exactamente, el valor de la moda puede ser afectado por el mtodo de agrupacin de los
intervalos de clase.
d. La moda no permite conocer la mayor parte de los datos.
e. Algunas veces el azar interviene de manera importante y hace que un valor no representativo se
repita frecuentemente.
f. Puede usarse para datos cuantitativos como cualitativos.
g. La moda como estadstico, vara mucho de una muestra a otra.
14
CLCULO DE LA MODA
Para datos no agrupados:
La moda corresponde al dato o datos que se repiten con ms frecuencia.
Para datos agrupados
1ero. Se localiza la clase modal, la cual corresponde a la clase que tenga la mayor
frecuencia.
2do. En la clase modal se aplica la siguiente frmula:
D1
Mo Lmo
* A
D1 D2
Donde : Lmo = Lmite real inferior de la clase modal
D1 = diferencia entre la frecuencia de la clase modal y la clase anterior
D2 = diferencia entre la frecuencia de la clase modal y la clase posterior
A = amplitud del intervalo de la clase modal
DA 6
3.2 Medidas de tendencia no central
Las medidas de posicin no centrales permiten conocer otros puntos caractersticos de la
distribucin que no son los valores centrales. Entre otros indicadores, se suelen utilizar una serie de
valores que dividen la muestra en tramos iguales.
3.2.1 Deciles
Son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en
diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados.
3.2.2 Cuartiles
Son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en
cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.
3.2.3 Percentiles
Son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente,
en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados.
15
CLCULO DE PERCENTILES
Para datos no agrupados:
1ero. Se ordenan los datos ascendentemente.
2do. Se calcula el ndice (posicin) del percentil con la siguiente frmula
p
i
*n
100
En donde p es el nmero de percentil de inters y n es la cantidad de observaciones.
3ero. Si i no es entero, se redondea. El valor entero inmediato mayor que
i
indica
la
posicin del p-simo percentil.
Si i s es entero, el p-simo percentil es el promedio de los valores de los datos
ubicados en los lugares i e i + 1.
Para datos agrupados
1ero. Se calcula el ndice del percentil
p
i
* f
100
2do. Se localiza la clase del percentil, la cual corresponde a la clase
acumulada es mayor o igual a i.
cuya
frecuencia
100 * f F
* A
Pi L pi
f pi
Donde :
Lpi = Lmite real inferior de la clase del percentil
F = frecuencia acumulada de la clase anterior al percentil
Fpi = frecuencia absoluta de la clase del percentil
A = amplitud del intervalo de la clase del percentil
DA 7
3.3
Medidas de dispersin
16
3.3.1.1 Rango
Es la diferencia entre el ms alto y el ms pequeo de los valores observados. El rango es
fcil de entender y de calcular, pero su utilidad como medida de dispersin es limitada, pues solo
toma en cuenta el valor ms grande y el ms pequeo y ninguna otra observacin del conjunto de
datos, restndole importancia a las variaciones entre todas las dems observaciones.
RANGO (R)
R = Dato mayor Dato menor
3.3.1.2
Rango Intercuartilico
Rango Interpercentlico
Es una medida de dispersin de la diferencia entre los valores del percentil 90 y el percentil 10.
3.3.2.1 Varianza
Medida del cuadrado de la distancia promedio entre la media y cada observacin de la
poblacin.
VARIANZA DE POBLACIN ( 2 )
2
f * xi
17
x X
n 1
f * xi X
n 1
* 100
DA 8
3.4
Medidas de forma
La forma es la manera en que los datos se distribuyen, es decir la forma que tiene la curva
que representa la serie de datos muestrales. La forma se mide en dos aspectos: Sesgo o Asimetra y
Curtosis o Apuntamiento.
18
dos de ellas:
X Mo
S
Sk 2
3( X Me)
S
Sk 3
Q3 2Q2 Q1
Q3 Q1
Sesgo percentlico
Sk 4
19
DA 9
4.
4.1
Columnas
1
...
O11
O12
...
O1c
O21
O22
...
O2c
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Or1
Or2
...
Orc
Renglones
20