Professional Documents
Culture Documents
ESTADSTICA
Notas de clase
TEMA I
ANLISIS ESTADSTICO DE DATOS
MUESTRALES
INTRODUCCIN
La Probabilidad y la Estadstica son herramientas muy importantes en el desarrollo
de cualquier ingeniera. Sus aplicaciones van desde los juegos de azar hasta la
confiabilidad de sistemas, estimaciones de datos para variables inciertas, toma de
decisiones en situaciones de incertidumbre, estudio de los efectos del ruido en
sistemas electrnicos, el diseo de centrales telefnicas, etc.
Actualmente, los conceptos y mtodos bsicos de la estadstica son
indispensables para describir, comprender e intentar predecir el comportamiento del
mundo que nos rodea. La estadstica nos proporciona los elementos para
comprender la informacin y poder obtener conclusiones con un soporte
matemtico. El presente curso es un primer acercamiento al manejo de datos
estadsticos, y posteriormente se estudian las bases probabilsticas para desarrollar
en cursos posteriores todo el potencial de la inferencia estadstica.
La humanidad, desde siempre, ha estado expuesta a innumerables
problemas, lo que la ha llevado a buscar la mejor forma de resolverlos, dando origen
a la investigacin, y la forma cientfica de validar las investigaciones es a travs de
la probabilidad y la estadstica.
La palabra estadstica significa literalmente "ciencia del estado", debido a
que en sus inicios la estadstica serva para proporcionar datos que fueran de inters
para los gobernantes de una nacin. En la actualidad la estadstica es mucho ms
que eso.
La estadstica no slo proporciona informacin o datos; sino que los
agrupa, analiza, interpreta y permite generar inferencias o conclusiones de una
poblacin a partir de los datos de una muestra. Son muchas las aplicaciones de la
estadstica en la investigacin. Por ejemplo; en poltica, es deseable saber que en
porcentaje de una poblacin votar en favor de un candidato, sin tener que
entrevistar a todos los posibles votantes; en la industria, es conveniente determinar
si un lote de productos cumple con ciertos estndares de calidad o deben reprocesar
las piezas; en la educacin, qu tanto afecta la escuela de procedencia en el
aprovechamiento de un grupo de alumnos que ingresaron al nivel superior; en
biologa, los resultados sobre el crecimiento de vegetales en funcin de
LA POBLACIN Y LA MUESTRA
Para comprender la naturaleza de la inferencia estadstica deben distinguirse dos
grandes conjuntos: la poblacin y la muestra. La Poblacin es el conjunto de todos
los posibles resultados de un experimento, mientras que la M uestra es un
subconjunto de la poblacin que contiene los resultados observados de un
experimento. Debe entenderse que el principal objetivo de la estadstica es realizar
inferencias (o predicciones) de la poblacin a partir de los datos observados en la
muestra; la importancia de esto puede verse en los siguientes ejemplos.
Si se desea conocer el porcentaje de la poblacin que votar por un
candidato en particular, el hecho de entrevistar a todos los posibles votantes
requerira de un gran esfuerzo adems de un gran costo, por lo que debe realizarse
la entrevista solo a un grupo de los votantes (muestra).
Si se desea conocer el tiempo promedio de vida de un foco, el probar toda
la poblacin sera el equivalente a prender todos los focos y medir el tiempo que
tardan en fundirse, lo cual no permitira tener artculos para la venta, por lo cual la
prueba de vida til slo se realiza a un grupo de focos (muestra).
Los diseos muestrales (muestreo) son los procedimientos utilizados para
extraer muestras de una poblacin. La forma en la que se extrae la muestra es muy
importante, debido a que una mala muestra arrojar conclusiones equivocadas. La
probabilidad proporciona las herramientas para realizar un muestreo justo; es decir,
representativo de la poblacin.
MUESTREO
Al recordar que la estadstica es parte de las matemticas que se encarga de obtener
informacin y conclusiones acerca de una poblacin tomando para ello datos de una
muestra, deber investigarse la mejor manera de seleccionar dichos datos, es decir,
debe buscarse una tcnica adecuada para realizar el muestreo, a lo que se llama
Probabilidad y Estadstica
Tema I
Pg.
ESTADSTICA DESCRIPTIVA
LA ESTADSTICA Y SUS CLASIFICACIONES
La estadstica es la rama de las matemticas que se encarga de la seleccin de datos,
la organizacin, su presentacin y de las conclusiones que se pueden obtener de
dichos datos.
La estadstica puede clasificarse en: univariable y multivariable,
dependiendo de la cantidad de variables que se estn registrando. Si slo interesa
el peso de las personas, entonces se desarrollar estadstica univariable, si por el
contrario se pretende estudiar la relacin entre el peso y la estatura, entonces se
estar desarrollando estadstica multivariable.
Otra clasificacin est basada en la aplicacin de la estadstica. La
estadstica descriptiva (o deductiva) tiene como propsito al recopilacin,
organizacin y presentacin de datos para su estudio, mientras que la estadstica
inferencial ( o inductiva) tiene como objetivo el obtener conclusiones con respecto
a una poblacin a partir de la informacin contenida en una muestra, cuantificando
de manera probabilstica el grado de certeza de la afirmacin. A la estadstica
descriptiva se le llama tambin deductiva, mientras que a la estadstica inferencial
se le llama inductiva.
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.
Probabilidad y Estadstica
Tema I
Pg.
DISTRIBUCIN DE FRECUENCIAS
Lmites de
clase
Fronteras
de clase
Marca de
1 - 3
0.5 - 3.5
4 - 6
3.5 - 6.5
7 - 9
6.5 - 9.5
clase,
Fronteras de clase. Las fronteras o lmites verdaderos de una clase, son los puntos
medios entre los lmites de intervalos consecutivos. Se denota por
real. No se acostumbra usar
, por lmite
en una tabla de distribucin de frecuencias, los lmites de clase son: 1-3 , 4-6, 7-9;
entonces las fronteras seran 0.5-3.5, 3.5-6.5, 6.5-9.5; como se muestra en la
siguiente tabla.
Lmites de
clase
Fronteras
de clase
Marca de
Frecuencia
1 - 3
0.5 - 3.5
4 - 6
3.5 - 6.5
7 - 9
6.5 - 9.5
clase,
Lmites de clase
Fronteras de clase
1 - 3
0.5 - 3.5
4 - 6
3.5 - 6.5
7 - 9
6.5 - 9.5
menores o iguales que el lmite superior del intervalo en cuestin. Se denota por
Probabilidad y Estadstica
Lmites
de clase
1 - 3
Tema I
Fronteras
de clase
Marca
de
clase,
Frecuencia
0.5 - 3.5
Frecuencia
acumulada
Pg.
4 - 6
3.5 - 6.5
6+3=9
7 - 9
6.5 - 9.5
6+3+5=14
Lmites de
clase
Fronteras
de clase
Marca de
1 - 3
0.5 - 3.5
0.06
0.06
4 - 6
3.5 - 6.5
0.03
0.09
7 - 9
6.5 - 9.5
14
0.05
0.014
clase,
o por
n=100, entonces:
Lmites de
clase
Fronteras
de clase
Marca de
clase,
frecuencia Frecuencia
acumulada
Frecuencia
relativa
1 - 3
0.5 - 3.5
6/100=0.06
4 - 6
3.5 - 6.5
3/100=0.03
7 - 9
6.5 - 9.5
14
5/100=0.05
o por
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.
Marca de
frecuencia
clase,
[1,4)
2.5
[4 , 7 )
5.5
[7 , 10)
8.5
Probabilidad y Estadstica
Tema I
Pg.
69
79
73
30
45
56
72
70
40
43
73
82
64
80
77
66
77
56
49
49
64
71
31
59
46
44
48
62
60
42
36
49
56
76
63
69
49
55
67
41
76
60
51
30
64
53
67
45
72
79
Resolucin
Puesto que no se proporciona ninguna indicacin con respecto a los
intervalos, se realiza la primera aproximacin del nmero de intervalos con
, por lo que se utilizarn 7 intervalos. El menor de los
datos es 30 y el mayor de los datos es 82, por lo que el rango de los datos
es
_____________________________________________
Ejemplo 1.1
Los siguientes valores representan el tiempo diario de transporte de una
muestra de 50 alumnos de cierta universidad al sur de Copilco.
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.
mediante
Lmites de
clase
Fronteras
de clase
Marca de
29 - 36
28.5 -36.5
32.5
0.08
0.08
37 - 44
36.5-44.5
40.5
0.1
0.18
45 - 52
44.5 -52.5
48.5
18
0.18
0.36
53 - 60
52.5-60.5
56.5
26
0.16
0.52
61 - 68
60.5-68.5
64.5
34
0.16
0.68
69 - 76
68.5-76.5
72.5
10
44
0.2
0.88
77 - 84
76.5-84.5
80.5
50
0.12
clase,
29,
Probabilidad y Estadstica
Tema I
GRFICAS
Pg.
O bien, las frecuencias pueden colocarse sobre los rectngulos o dentro de ellos.
Polgono de Frecuencias
El polgono de frecuencias es una grfica poligonal o de lneas rectas que indica
para cada marca de clase la frecuencia. Se obtiene uniendo las puntos medios de las
partes superiores de las barras del histograma. Para que la lnea no se dibuje
flotando, se puede dibujar una marca de clase antes del la primera y una marca de
clase posterior a la ltima, cada una con frecuencia cero, de esta forma la grfica
poligonal parte del eje de las abscisas y termina en l.
Tanto el histograma como la ojiva, se dibujan generalmente con las
frecuencias absolutas, pero tambin pueden dibujarse con las frecuencias relativas,
con las acumuladas o con las acumuladas relativas.
Probabilidad y Estadstica
Tema I
Ojva
La ojiva es tambin una grfica poligonal, pero se dibuja utilizando las fronteras
contra las frecuencias acumuladas (o acumuladas relativas). La ojiva indica, para
cada frontera, los elementos (o proporcin de elementos), que son menores o iguales
que dicha frontera. Si se utiliza la frecuencia acumulada relativa se llama ojiva
porcentual. A la ojiva tambin se le llama en ocasiones polgono de frecuencias
acumuladas
La ojiva para los datos del ejemplo 1.1 se muestra en la siguiente figura.
Pg.
Figura 4. Ojiva.
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.
Probabilidad y Estadstica
Tema I
Pg.
, y es
En resumen:
Las medias aritmtica, geomtrica y armnica, para un conjunto de valores
positivos estn relacionadas mediante
y debe observarse que las medias obtenidas son muy parecidas, pero en lo general
diferentes.
Media geomtrica. La media geomtrica de un conjunto de valores positivos se
calcula con la raz n-sima del producto de las n observaciones. Se denota por
Con la hoja de clculo Excel, es muy fcil calcular las medias para datos
sin agrupar utilizando los comandos
promedio(Rango de celdas),
media.geom(Rango de celdas) y media.armo(Rango de valores). Para datos
agrupados deben de utilizarse el comando sumaproducto(Rango de celdas 1, Rango
de celdas 2), para facilitar las operaciones.
Mediana. La mediana de una conjunto de datos ordenados, es el valor que divide al
conjunto en dos conjuntos de igual tamao, o es el promedio de los dos valores
centrales. Se denota por
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.
Probabilidad y Estadstica
Tema I
Pg.
30,
46,
56,
66,
73,
31,
48,
56,
67,
76,
36,
49,
59,
67,
76,
18
60.5
26
Interpolando se obtiene:
, o en ocasiones
Frecuencia acumulada
28.5 - 36.5
36.5 - 44.5
44.5 - 52.5
18
52.5 - 60.5
26
60.5 - 68.5
34
68.5 - 76.5
44
76.5 - 84.5
50
Donde:
Es la frontera inferior del intervalo con mayor frecuencia.
Es el exceso de la frecuencia modal sobre la frecuencia de la clase inmediata
anterior.
Es el exceso de la frecuencia modal sobre la frecuencia de la clase inmediata
, para el cual la frecuencia
posterior.
Es la longitud de la clase.
acumulada sea de
puesto que el nmero de datos es par, se toman los 2 valores centrales ( 60 y 60), y
Fronteras de clase
52.5
Frecuencia
acumulada
Con los datos del ejemplo 1.1, y al ordenar los valores se tiene:
30,
45,
56,
64,
73,
Frontera
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.
Probabilidad y Estadstica
Tema I
Para los datos del ejemplo 1.1, sin agrupar, el valor que ms se repite es el
49, con 4 repeticiones, por lo que la moda es 49, esto es:
Para los datos agrupados la moda puede obtenerse con la marca de clase del
intervalo modal, por lo que se obtiene:
10
segundo cuartil y con el quinto decil. El percentil 10 coincide con el primer decil,
y as se pueden encontrar muchas otras relaciones.
M edidas de dispersin
la marca de clase del intervalo con lmites 69-76, y con la mxima frecuencia
observada,
Pg.
, o simplemente por
Para los datos del ejemplo 1.1 se tienen los siguientes resultados.
y
,
, y el
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.
, y el segundo
denota por
Probabilidad y Estadstica
Tema I
Pg.
11
,
es por eso que se obtiene el valor absoluto en el caso de la desviacin media y que
se eleva al cuadrado para la variancia.
Variancia. La variancia de un conjunto de datos es el promedio de las distancias
y para datos agrupados, se utiliza la media de datos agrupados, las marcas de clase
y la frecuencia, por lo que:
o por
(se
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.
o bien:
, cuando
. Con los
Probabilidad y Estadstica
Tema I
Pg.
se utiliza la desviacin estndar adecuada,
12
o por
, dependiendo de si se obtiene
Las medidas de forma de un conjunto de datos son el sesgo y la curtosis. Para poder
definir a las medidas de forma, es necesario definir primero los momentos.
Momentos con respecto al origen.
El r-simo momento con respecto al origen se definen mediante:
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.
Probabilidad y Estadstica
Tema I
Pg.
donde
13
es la desviacin
estndar.
El sesgo se compara con cero. Cuando el coeficiente de sesgo es menor que
cero se dice que los datos tienen una distribucin sesgada a la izquierda o con sesgo
negativo. Cuando el coeficiente de sesgo es positivo, se dice que los datos tienen
una distribucin sesgada a la derecha o con sesgo positivo. Si el coeficiente de sesgo
es cero, entonces los datos tienen una distribucin simtrica o insesgada.
media
es la
es la
variancia
momentos con respecto al origen, al desarrollar las sumas. Las primeras relaciones
son:
o por
, y se define mediante:
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.
Probabilidad y Estadstica
Tema I
Pg.
14
, puesto que
bien,
,o
donde
es la desviacin
estndar.
Sesgo negativo:
Insesgado:
Para los datos de ejemplo 1.1 se tiene, para datos sin agrupar:
En resumen:
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.
Probabilidad y Estadstica
Tema I
Pg.
15
Con los valores el ejemplo 1.1 se tiene, para datos sin agrupar:
en resumen:
Figura 8. Distribucin platicrtuca.
Puede observarse que los datos del ejemplo 1.1 tienen una distribucin mesocrtica.
S))))))))))))))))))))))))))))))))))))))
Ejemplo 1.2
Los datos siguientes sealan el tiempo de funcionamiento (en das) hasta
que se presenta la primera falla de
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.
radio transmisores-receptores:
16
224
16
80
96
536
400
80
392
576
128
56
656
224
40
32
358
384
256
246
328
464
448
716
304
16
72
80
72
56
608
108
194
136
224
80
16
424
264
156
216
168
184
552
72
184
240
438
120
308
32
272
152
328
480
60
208
340
104
72
168
40
152
360
232
40
112
112
288
168
352
56
72
64
40
184
264
96
224
168
168
114
280
152
208
160
176
Probabilidad y Estadstica
a)
b)
Tema I
Pg.
16
Ejemplo 1.3
De los resultados en un examen de antecedentes de probabilidad, aplicado
a los alumnos que cursan estadstica, se obtuvo la siguiente tabla de
distribucin de frecuencias
Resolucin
a)
Utilizando la frmula par aproximar el rango se tiene:
b)
La tabla queda:
Lmites
Fronteras
1 - 50
51 - 100
101 - 150
151 - 200
201 - 250
251 - 300
301 - 350
351 - 400
401 - 450
451 - 500
501 - 550
551 - 600
601 - 650
651 - 700
701 - 750
0.5 - 50.5
50.5 - 100.5
100.5 - 150.5
150.5 - 200.5
200.5 - 250.5
250.5 - 300.5
300.5 - 350.5
350.5 - 400.5
400.5 - 450.5
450.5 - 500.5
500.5 - 550.5
550.5 - 600.5
600.5 - 650.5
650.5 - 700.5
700.5 - 750.5
Marcas de
clase
25.5
75.5
125.5
175.5
225.5
275.5
325.5
375.5
425.5
475.5
525.5
575.5
625.5
675.5
725.5
frecuencia
11
16
8
15
10
6
5
6
3
2
1
2
1
1
1
frecuencia
relativa
0.125
0.182
0.091
0.170
0.114
0.068
0.057
0.068
0.034
0.023
0.011
0.023
0.011
0.011
0.011
Obtener:
a)
La media, la mediana y la moda.
b)
La variancia.
c)
Con los resultados obtenidos en el inciso (a), indicar si la
distribucin de las calificaciones tiene un sesgo positivo, negativo
o no tiene sesgo.
Resolucin
a)
La media es
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.
Probabilidad y Estadstica
Tema I
Pg.
a)
b)
17
b)
c)
d)
e)
f)
g)
h)
Resolucin
a)
El rango de los datos es: 9.8 - 8.1 = 1.7
Dividiendo en 6 intervalos, con
y comenzando en
8.05, se tiene:
por lo que
Lm ites
c)
Puesto que la
se tiene un sesgo
positivo.
S))))))))))))))))))))))))))))))))))))))
Ejemplo 1.4
En la siguiente tabla, se tienen los tiempos medidos en horas con un
decimal que necesit un transbordador para cruzar de la Ciudad de
Mazatln a La Paz, en 60 viajes sucesivos.
8.7
8.4
9.3
8.7
8.3
9.0
9.2
8.2
8.6
8.8
9.0
8.6
9.4
8.3
8.2
8.3
9.1
8.9
8.5
8.7
8.5
9.5
8.4
8.6
8.6
8.7
9.2
8.5
8.1
9.8
8.9
9.6
8.8
8.6
8.2
8.5
8.6
8.8
8.8
8.7
8.7
8.5
9.0
8.5
8.9
9.3
8.3
8.7
9.2
8.5
8.6
8.5
9.1
8.5
9.0
8.7
9.2
9.0
8.4
8.9
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.
8.1
8.4
8.7
9.0
9.3
9.6
b)
8.3
8.6
8.9
9.2
9.5
9.8
Fronteras
8.05
8.35
8.65
8.95
9.25
9.55
8.35
8.65
8.95
9.25
9.55
9.85
M arca de
clase
Frecuencia
Frecuencia
relativa
Frec.
relat.
acum .
8.2
8.5
8.8
9.1
9.4
9.7
8
19
16
11
4
2
0.1333
0.3166
0.2666
0.1833
0.0666
0.0334
0.1333
0.4499
0.7165
0.8998
0.9664
1
Probabilidad y Estadstica
c)
Tema I
Pg.
18
Ligeramente leptocrtica.
Datos agrupados:
Para datos agrupados:
d)
e)
8.65
27
30
8.95
43
Ligeramente platicrtica.
S))))))))))))))))))))))))))))))))))))))
Ejemplo 1.5
Determinar cmo se relacionan la media y la mediana muestrales de las
De donde
con las
a)
Datos agrupados:
f)
b)
Datos sin agrupar:
Si cada
.
se multiplica por una constante
Resolucin
a)
Para la media
Datos agrupados:
g)
Para la mediana
Datos agrupados:
h)
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.
en una muestra,
Para la media
Para la mediana
S))))))))))))))))))))))))))))))))))))))
, dando
Probabilidad y Estadstica
Tema I
19
Ejemplo 1.6
Los valores observados de las cantidades
en el estudio
de la vida til, en horas, de las bateras de litio para cierta calculadora son:
y
a)
Pg.
donde
, se escribe
obteniendo el mnimo de
Y la variancia muestral es
de donde
y
de donde
S))))))))))))))))))))))))))))))))))))))
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.
en funcin de
se tiene:
Probabilidad y Estadstica
Tema I
Pg.
20
Covariancia
La covariancia de dos conjuntos de datos, es una medida de la dispersin promedio
de los datos con respecto a sus medias. Se denota por
o bien:
, y se define mediante:
Coeficiente de correlacin
El coeficiente de correlacin
de la muestra es:
donde
El coeficiente de determinacin
son estimadores (aproximaciones) insesgados de
Coeficiente de determinacin
entonces:
de la muestra es:
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.
Probabilidad y Estadstica
Tema I
Pg.
21
S))))))))))))))))))))))))))))))))))))Q
b)
Ejemplo 1.7
Emplear el mtodo de mnimos cuadrados para ajustar los siguientes puntos
a una recta.
a)
de mnimos cuadrados?
b)
Obtener el coeficiente de correlacin.
Resolucin
S))))))))))))))))))))))))))))))))))))Q
Ejemplo 1.8
Los siguientes datos representan el nmero de horas de estudio ( ) y la
calificacin obtenida ( ) en un examen para una muestra de 6 estudiantes.
Estudiante
Horas
12
Calificacin
71
71
74
80
80
86
a)
Representar los datos en un diagrama de dispersin.
b)
Ajustar a los datos un modelo lineal de regresin empleando el
criterio de mnimos cuadrados.
c)
Si estudia 5 horas, cul calificacin esperara?
d)
Calcular la covariancia y el coeficiente de correlacin. Interpretar
los resultados de la relacin de las variables.
a)
Resolucin
a)
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.
Probabilidad y Estadstica
Tema I
Pg.
22
b)
d)
Sumas
71
71
5041
71
142
5041
74
16
296
5476
80
16
320
6400
80
49
560
6400
12
86
144
1032
7396
30
462
230
2421
35754
Por lo que:
De donde:
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.
Probabilidad y Estadstica
Tema I
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.
Pg.
23