You are on page 1of 24

PROBABILIDAD

ESTADSTICA

Notas de clase

A. Leonardo Bauelos Saucedo


Nayelli Manzanarez Gmez

TEMA I
ANLISIS ESTADSTICO DE DATOS
MUESTRALES
INTRODUCCIN
La Probabilidad y la Estadstica son herramientas muy importantes en el desarrollo
de cualquier ingeniera. Sus aplicaciones van desde los juegos de azar hasta la
confiabilidad de sistemas, estimaciones de datos para variables inciertas, toma de
decisiones en situaciones de incertidumbre, estudio de los efectos del ruido en
sistemas electrnicos, el diseo de centrales telefnicas, etc.
Actualmente, los conceptos y mtodos bsicos de la estadstica son
indispensables para describir, comprender e intentar predecir el comportamiento del
mundo que nos rodea. La estadstica nos proporciona los elementos para
comprender la informacin y poder obtener conclusiones con un soporte
matemtico. El presente curso es un primer acercamiento al manejo de datos
estadsticos, y posteriormente se estudian las bases probabilsticas para desarrollar
en cursos posteriores todo el potencial de la inferencia estadstica.
La humanidad, desde siempre, ha estado expuesta a innumerables
problemas, lo que la ha llevado a buscar la mejor forma de resolverlos, dando origen
a la investigacin, y la forma cientfica de validar las investigaciones es a travs de
la probabilidad y la estadstica.
La palabra estadstica significa literalmente "ciencia del estado", debido a
que en sus inicios la estadstica serva para proporcionar datos que fueran de inters
para los gobernantes de una nacin. En la actualidad la estadstica es mucho ms
que eso.
La estadstica no slo proporciona informacin o datos; sino que los
agrupa, analiza, interpreta y permite generar inferencias o conclusiones de una
poblacin a partir de los datos de una muestra. Son muchas las aplicaciones de la
estadstica en la investigacin. Por ejemplo; en poltica, es deseable saber que en
porcentaje de una poblacin votar en favor de un candidato, sin tener que
entrevistar a todos los posibles votantes; en la industria, es conveniente determinar
si un lote de productos cumple con ciertos estndares de calidad o deben reprocesar
las piezas; en la educacin, qu tanto afecta la escuela de procedencia en el
aprovechamiento de un grupo de alumnos que ingresaron al nivel superior; en
biologa, los resultados sobre el crecimiento de vegetales en funcin de

determinadas variables controlables, etc., Todas estas son interrogantes o


predicciones que contesta la estadstica, por ello la gran relacin entre la estadstica
y la investigacin.
El presente curso inicia con estadstica descriptiva, posteriormente se
estudian las bases de la probabilidad y finaliza con una introduccin a las
distribuciones que se utilizan en la inferencia estadstica.

LA POBLACIN Y LA MUESTRA
Para comprender la naturaleza de la inferencia estadstica deben distinguirse dos
grandes conjuntos: la poblacin y la muestra. La Poblacin es el conjunto de todos
los posibles resultados de un experimento, mientras que la M uestra es un
subconjunto de la poblacin que contiene los resultados observados de un
experimento. Debe entenderse que el principal objetivo de la estadstica es realizar
inferencias (o predicciones) de la poblacin a partir de los datos observados en la
muestra; la importancia de esto puede verse en los siguientes ejemplos.
Si se desea conocer el porcentaje de la poblacin que votar por un
candidato en particular, el hecho de entrevistar a todos los posibles votantes
requerira de un gran esfuerzo adems de un gran costo, por lo que debe realizarse
la entrevista solo a un grupo de los votantes (muestra).
Si se desea conocer el tiempo promedio de vida de un foco, el probar toda
la poblacin sera el equivalente a prender todos los focos y medir el tiempo que
tardan en fundirse, lo cual no permitira tener artculos para la venta, por lo cual la
prueba de vida til slo se realiza a un grupo de focos (muestra).
Los diseos muestrales (muestreo) son los procedimientos utilizados para
extraer muestras de una poblacin. La forma en la que se extrae la muestra es muy
importante, debido a que una mala muestra arrojar conclusiones equivocadas. La
probabilidad proporciona las herramientas para realizar un muestreo justo; es decir,
representativo de la poblacin.

MUESTREO
Al recordar que la estadstica es parte de las matemticas que se encarga de obtener
informacin y conclusiones acerca de una poblacin tomando para ello datos de una
muestra, deber investigarse la mejor manera de seleccionar dichos datos, es decir,
debe buscarse una tcnica adecuada para realizar el muestreo, a lo que se llama

Probabilidad y Estadstica

Tema I

diseo del experimento.


Siempre se desea que la muestra sea representativa de la poblacin, para
lo cual se debe tener una muestra aleatoria. Es claro que el trmino muestra aleatoria
sugiere la forma en la que se debern seleccionar los elementos de la muestra, los
cuales se debern seleccionar en forma aleatoria, Pero qu se debe entender por
muestra aleatoria en este momento? De una forma sencilla, puede decirse que se
tiene una muestra aleatoria si todos los elementos de la poblacin pudieron ser
seleccionados.
Para estudiar con profundidad el diseo del experimento se requerira de
un curso especial para ello, por lo cual, en este curso se considerar slo el muestreo
aleatorio simple, en el cual, todos los elementos de la poblacin tienen la misma
posibilidad de ser seleccionados.

Pg.

La estadstica descriptiva utiliza grficas, tablas y parmetros numricos


para la presentacin de la informacin. La estadstica inferencial utiliza tcnicas de
probabilidad para cuantificar el grado de certidumbre de las conclusiones.
Otra clasificacin de la estadstica est basada en la informacin que se
posee. La estadstica paramtrica es la rama de la estadstica que estudia las
pruebas y modelos en los que se conoce la distribucin de la poblacin bajo estudio,
o que por las condiciones del mestreo, se sabe la distribucin que se debe utilizar
para el anlisis. La estadstica no-paramtrica estudia las pruebas y modelos
cuando la distribucin no puede ajustarse mediante la estadstica paramtrica, esto
ocurre generalmente cuando no se conoce la distribucin poblacional.

ESTADSTICA DESCRIPTIVA
LA ESTADSTICA Y SUS CLASIFICACIONES
La estadstica es la rama de las matemticas que se encarga de la seleccin de datos,
la organizacin, su presentacin y de las conclusiones que se pueden obtener de
dichos datos.
La estadstica puede clasificarse en: univariable y multivariable,
dependiendo de la cantidad de variables que se estn registrando. Si slo interesa
el peso de las personas, entonces se desarrollar estadstica univariable, si por el
contrario se pretende estudiar la relacin entre el peso y la estatura, entonces se
estar desarrollando estadstica multivariable.
Otra clasificacin est basada en la aplicacin de la estadstica. La
estadstica descriptiva (o deductiva) tiene como propsito al recopilacin,
organizacin y presentacin de datos para su estudio, mientras que la estadstica
inferencial ( o inductiva) tiene como objetivo el obtener conclusiones con respecto
a una poblacin a partir de la informacin contenida en una muestra, cuantificando
de manera probabilstica el grado de certeza de la afirmacin. A la estadstica
descriptiva se le llama tambin deductiva, mientras que a la estadstica inferencial
se le llama inductiva.

S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

La estadstica descriptiva es la parte de la estadstica que tiene como propsito el


organizar y presentar los datos de una poblacin o de una muestra para su anlisis
e interpretacin. Es a partir de la estadstica descriptiva, que la disciplina tom el
nombre de estadstica, puesto que en la antigedad, los gobernantes deseaban
conocer la informacin de sus reinos.
En la estadstica descriptiva existen bsicamente tres tcnicas:
- Distribucin de Frecuencias
- Grficas
- Parmetros numricos
Las tcnicas no son independientes, por el contrario, deben de
complementarse. La distribucin de frecuencias es la forma en la que se agrupan los
datos cuando se tiene una cantidad considerable de ellos. Las grficas sirven para
visualizar rpidamente la forma en la que se agrupan los datos, y los parmetros
numricos son el resumen de los datos en forma cuantitativa. Cada tcnica es una
huella de la informacin que se estudia, pero no debe olvidarse que para realizar
una mejor interpretacin, deben de combinarse las tcnicas.

Probabilidad y Estadstica

Tema I

Pg.

DISTRIBUCIN DE FRECUENCIAS

Marcas de clase. Es el punto medio de una clase. Se considera como el valor


representativo de un intervalo. Las marcas de clase se obtienen promediando los

Es una tcnica de agrupacin muy usada en estadstica cuando se tiene un conjunto


muy grandes de datos, de forma que el anlisis posterior: grficas y parmetros
numricos; se puede realizar de forma ms rpida. La tabla de distribucin de
frecuencias puede usarse para datos cuantitativos y para datos cualitativos. Los
datos cuantitativos son aquellos que indican cantidad, 5 personas, 2.5 Newtons,
etctera; mientras que los datos cualitativos expresan cualidades: azul, alto, sano,
etc.

lmites de un intervalo, o bien, las fronteras. Se denota por

Lmites de
clase

Fronteras
de clase

Marca de

1 - 3

0.5 - 3.5

4 - 6

3.5 - 6.5

7 - 9

6.5 - 9.5

Existe una gran diversidad de tablas de distribucin de frecuencias; sin


embargo, aqu se estudiar una tabla terica completa. Para resumir los datos, se
utilizan intervalos, clases o categoras y posteriormente se indica la frecuencia de
cada uno de ellos. Las columnas que forman una tabla completa son:

clase,

Tabla 1.2. Marcas de clase.


Lm ites de clase. Son los valores menor y mayor que de encontrarse como datos en
la muestra pertenecen a la clase en cuestin. Los lmites de una clase tienen la
misma aproximacin que los datos en la muestra o de la poblacin, esto es, si los
datos son enteros, entonces los lmites son enteros. Si los datos tienen aproximacin
a dcimas, entonces los lmites tendrn dcimas, y as sucesivamente. Se denotan
por

Frecuencia. Es el nmero de elementos en la muestra o en la poblacin que


pertenecen a la clase en cuestin. Se denota por

. Si los datos de una muestra son:

1, 9, 5, 8, 4, 1, 2, 7, 6, 3, 3, 2, 7, 9; entonces la agrupar por intervalos se obtienen


las siguientes frecuencias.

Fronteras de clase. Las fronteras o lmites verdaderos de una clase, son los puntos
medios entre los lmites de intervalos consecutivos. Se denota por
real. No se acostumbra usar

, por lmite

porque esa letra se reserva para las frecuencias. Si

en una tabla de distribucin de frecuencias, los lmites de clase son: 1-3 , 4-6, 7-9;
entonces las fronteras seran 0.5-3.5, 3.5-6.5, 6.5-9.5; como se muestra en la
siguiente tabla.

Lmites de
clase

Fronteras
de clase

Marca de

Frecuencia

1 - 3

0.5 - 3.5

4 - 6

3.5 - 6.5

7 - 9

6.5 - 9.5

clase,

Lmites de clase

Fronteras de clase

1 - 3

0.5 - 3.5

4 - 6

3.5 - 6.5

Frecuencia acumulada. Es el nmero de datos en la muestra o poblacin, que son

7 - 9

6.5 - 9.5

menores o iguales que el lmite superior del intervalo en cuestin. Se denota por

Tabla 1.1. Lmites y Fronteras de clase.


S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

Tabla 1.3. Frecuencia.

y se obtiene sumando la frecuencia del intervalo actual y de los anteriores


intervalos.

Probabilidad y Estadstica
Lmites
de clase

1 - 3

Tema I

Fronteras
de clase

Marca
de
clase,

Frecuencia

0.5 - 3.5

Frecuencia
acumulada

Pg.

. Considerando nuevamente que n=100,

nmero de datos, esto es:


entonces:

4 - 6

3.5 - 6.5

6+3=9

7 - 9

6.5 - 9.5

6+3+5=14

Lmites de
clase

Fronteras
de clase

Marca de

1 - 3

0.5 - 3.5

0.06

0.06

4 - 6

3.5 - 6.5

0.03

0.09

7 - 9

6.5 - 9.5

14

0.05

0.014

clase,

Frecuencia Frecuencia Frecuencia Frecuencia


acumulada
relativa
acumulada
relativa

Tabla 1.4. Frecuencia acumulada.


Frecuencia Relativa. Es la proporcin de datos que pertenecen a la clase en
cuestin. Se denota por

o por

. Es el cociente de la frecuencia entre el nmero


Tabla 1.6. Tabla de distribucin de frecuencias terica completa.

total de datos, esto es:

. Para la tabla del ejemplo, si el total de datos es

n=100, entonces:
Lmites de
clase

Fronteras
de clase

Marca de
clase,

frecuencia Frecuencia
acumulada

Frecuencia
relativa

1 - 3

0.5 - 3.5

6/100=0.06

4 - 6

3.5 - 6.5

3/100=0.03

7 - 9

6.5 - 9.5

14

5/100=0.05

Tabla 1.5. Frecuencia relativa


Frecuencia Acum ulada Relativa. : Es la proporcin de los datos en la muestra o
poblacin que son menores o iguales que el lmite superior de la clase en cuestin.
Se denota por

o por

. Es el cociente de la frecuencia acumulada entre el

S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

La tabla anterior, ya es una tabla de distribucin de frecuencias terica


completa, pero debe observarse que para tener una tabla de distribucin de
frecuencias, basta con tener dos columnas, una que indique la clase (Lmites,
fronteras o marcas) y una que indique la frecuencia (Frecuencia, frecuencia
acumulada, frecuencia relativa o frecuencia acumulada relativa).
Existen otras tablas de distribucin de frecuencias, basadas en intervalos,
en donde se utiliza la notacin del Clculo para los intervalos abiertos y cerrados,
por ejemplo:
Intervalo

Marca de

frecuencia

clase,
[1,4)

2.5

[4 , 7 )

5.5

[7 , 10)

8.5

Tabla 1.7. Tabla de distribucin de frecuencias con intervalos.

Probabilidad y Estadstica

Tema I

Pg.

En donde la marca de clase es nuevamente el punto medio del intervalo y


no puede existir traslape en ningn intervalo.

69
79
73
30
45

Algunos valores que ayudan en la construccin de la tabla son:

56
72
70
40
43

73
82
64
80
77

66
77
56
49
49

64
71
31
59
46

44
48
62
60
42

36
49
56
76
63

69
49
55
67
41

76
60
51
30
64

53
67
45
72
79

Longitud de la clase. Es la diferencia entre la frontera superior y la inferior de una


misma clase. Se denota por c. As para la tabla 1.6, la longitud del intervalo es:

Construir una tabla de distribucin de frecuencias terica completa.

lo mismo que para la tabla 1.7.


Cualquier tabla que contenga una columna de clase o intervalo y una
columna de frecuencias, es una tabla de distribucin de frecuencias; sin embargo, en
este momento debern de construirse tablas completas atendiendo a las siguientes
recomendaciones.

Resolucin
Puesto que no se proporciona ninguna indicacin con respecto a los
intervalos, se realiza la primera aproximacin del nmero de intervalos con
, por lo que se utilizarn 7 intervalos. El menor de los
datos es 30 y el mayor de los datos es 82, por lo que el rango de los datos

Recomendaciones para la construccin de una tabla de frecuencias

es

Constar de 5 y 20 clases, inclusive. La primera aproximacin del nmero


de clases se obtendr con

, por lo que se utilizar una longitud de

Todas las clases sern de la misma longitud (c).


La
longitud
del
intervalo
se
aproxima

Y posteriormente se ajusta de manera conveniente, de forma que el primer


lmite inferior sea ligueramente menor o igual que el menor valor, y el
ultimo lmite superior sea ligeramente mayor o igual que el mayor dato.
Tratar de evitarse que haya clases con frecuencia cero.
La primera y la ltima clases nunca tendrn frecuencia cero.

_____________________________________________
Ejemplo 1.1
Los siguientes valores representan el tiempo diario de transporte de una
muestra de 50 alumnos de cierta universidad al sur de Copilco.

S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

Puesto el menor valor es 30, se toma la decisin de iniciar en


teniendose:

mediante

, donde el Rango es:

, entonces la longitud del intervalo aproximada es

Lmites de
clase

Fronteras
de clase

Marca de

29 - 36

28.5 -36.5

32.5

0.08

0.08

37 - 44

36.5-44.5

40.5

0.1

0.18

45 - 52

44.5 -52.5

48.5

18

0.18

0.36

53 - 60

52.5-60.5

56.5

26

0.16

0.52

61 - 68

60.5-68.5

64.5

34

0.16

0.68

69 - 76

68.5-76.5

72.5

10

44

0.2

0.88

77 - 84

76.5-84.5

80.5

50

0.12

clase,

29,

Frecuencia Frecuencia Frecuencia Frecuencia


acumulada
relativa
acumulada
relativa

Tabla 1.8. Tabla de distribucin del ejemplo 1.1.

Probabilidad y Estadstica

Tema I

GRFICAS

Pg.

O bien, las frecuencias pueden colocarse sobre los rectngulos o dentro de ellos.

Cuando se desea dar un mayor impacto de la forma en la que se distribuyen los


datos, stos se presentan en una o varias grficas. Son muchas las grficas que se
pueden utilizar en la estadstica descriptiva, destacando el histograma, el polgono
y la ojiva. Otras grficas usadas son la de sectores circulares (tambin llamadas
pastel o pie), la de tallos y hojas y el diagrama de caja. En estas notas se definirn
las primeras 3, dejando las otras 3 para que el lector las investigue en textos de
Estadstica.
Histograma de Frecuencias
El histograma es una grfica de barras rectangulares cuyas bases estn centradas en
la marca de clase del intervalo, y sus reas proporcionales a la frecuencia del
intervalo. Es evidente que para un histograma bien construido, las distancias entre
marcas de clase son siempre las mismas, por lo que la condicin de que las reas de
los rectngulos sean proporcionales a las reas, se convierte en la altura proporcional
a la frecuencia. No es necesario dibujar el eje de las ordenadas; sin embargo, puede
hacerse sin ningn conflicto.
Con los datos de la tabla 1.8, el histograma de frecuencias es:

Figura 2. Histograma con frecuencias en los rectngulos.

Polgono de Frecuencias
El polgono de frecuencias es una grfica poligonal o de lneas rectas que indica
para cada marca de clase la frecuencia. Se obtiene uniendo las puntos medios de las
partes superiores de las barras del histograma. Para que la lnea no se dibuje
flotando, se puede dibujar una marca de clase antes del la primera y una marca de
clase posterior a la ltima, cada una con frecuencia cero, de esta forma la grfica
poligonal parte del eje de las abscisas y termina en l.
Tanto el histograma como la ojiva, se dibujan generalmente con las
frecuencias absolutas, pero tambin pueden dibujarse con las frecuencias relativas,
con las acumuladas o con las acumuladas relativas.

Figura 1. Histograma con frecuencias en el eje.


S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

Probabilidad y Estadstica

Tema I

Figura 3. Polgono de Frecuencias.

Ojva
La ojiva es tambin una grfica poligonal, pero se dibuja utilizando las fronteras
contra las frecuencias acumuladas (o acumuladas relativas). La ojiva indica, para
cada frontera, los elementos (o proporcin de elementos), que son menores o iguales
que dicha frontera. Si se utiliza la frecuencia acumulada relativa se llama ojiva
porcentual. A la ojiva tambin se le llama en ocasiones polgono de frecuencias
acumuladas
La ojiva para los datos del ejemplo 1.1 se muestra en la siguiente figura.

Pg.

Figura 4. Ojiva.

Con la tabla de distribucin de frecuencias y con las grficas, se describe


el comportamiento de un conjunto de datos; sin embargo, para no caer en
subjetividades, o errores por la escala, se utilizan tambin las medidas numricas.
M EDIDAS NUM RICAS
Las medidas numricas, por el tipo de informacin que proporcionan se clasifican
en medidas de tendencia central, medidas de dispersin, medidas de forma.
M edidas de tendencia central
Las medidas de tendencia central son valores representativos de un conjunto de
datos, que se sitan en la parte central de los datos. Las medidas de tendencia central
ms conocidas son la media, la mediana y la moda.

S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

Probabilidad y Estadstica

Tema I

Media aritmtica La media aritmtica es ms conocida simplemente como media,


y es el promedio de un conjunto de valores. Es sin duda la medida de tendencia
central ms utilizada, y por lo general es la ms representativa. Se denota por

Pg.

Para los datos del ejemplo 1.1 se tiene:

Media armnica. La media armnica de un conjunto de datos se denota por

, y es

el recproco de la media aritmtica de los recprocos de cada uno de los valores.


Debe observarse que para datos agrupados la suma va desde 1 hasta m,
donde m es el nmero de intervalos, y

son la marca de clase y la frecuencia

del intervalo, respectivamente.


Para el ejemplo 1.1, se pueden obtener las medias de los datos sin agrupar
y agrupados, tenindose:
Para datos sin agrupar:

Para los datos del ejemplo 1.1 se tiene:

Para datos agrupados se tiene

En resumen:
Las medias aritmtica, geomtrica y armnica, para un conjunto de valores
positivos estn relacionadas mediante
y debe observarse que las medias obtenidas son muy parecidas, pero en lo general
diferentes.
Media geomtrica. La media geomtrica de un conjunto de valores positivos se
calcula con la raz n-sima del producto de las n observaciones. Se denota por

Con la hoja de clculo Excel, es muy fcil calcular las medias para datos
sin agrupar utilizando los comandos
promedio(Rango de celdas),
media.geom(Rango de celdas) y media.armo(Rango de valores). Para datos
agrupados deben de utilizarse el comando sumaproducto(Rango de celdas 1, Rango
de celdas 2), para facilitar las operaciones.
Mediana. La mediana de una conjunto de datos ordenados, es el valor que divide al
conjunto en dos conjuntos de igual tamao, o es el promedio de los dos valores
centrales. Se denota por

S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

Probabilidad y Estadstica

Tema I

Pg.

Cuando los datos no estn agrupados, se deben de ordenar en forma


ascendente o descendente y seleccionar el valor central. Si los datos son pares,
entonces se toma el promedio de los dos valores centrales; si los datos son impares
entonces se toma el dato central.
Cuando los datos estn agrupados, entonces se realiza una interpolacin
lineal utilizando las fronteras y la frecuencia acumulada (es decir, los datos de la
ojiva), para encontrar el valor de

en el cual la frecuencia acumulada es de

30,
46,
56,
66,
73,

31,
48,
56,
67,
76,

36,
49,
59,
67,
76,

18

60.5

26

Interpolando se obtiene:

frecuencia. Se denota por

Con la distribucin de frecuencias obtenida en el ejemplo 1.1, se utilizan


las columnas de fronteras y de frecuencia acumulada

, o en ocasiones

. Si existe ms de una moda,

entonces se dice que los datos tienen distribucin bimodal.


Para datos sin agrupar, se deben de contar las repeticiones que puedan
existir, y el que se repita mayor nmero de veces ser la moda. Si todos los datos
aparecen el mismo nmero de veces, entonces se dice que no existe moda.
Para datos agrupados, la moda se aproxima con la marca de clase del
intervalo con mayor frecuencia, o bien, utilizando la frmula:

Frecuencia acumulada

28.5 - 36.5

36.5 - 44.5

44.5 - 52.5

18

52.5 - 60.5

26

60.5 - 68.5

34

68.5 - 76.5

44

76.5 - 84.5

50

y se realiza una interpolacin para obtener el valor de

Donde:
Es la frontera inferior del intervalo con mayor frecuencia.
Es el exceso de la frecuencia modal sobre la frecuencia de la clase inmediata
anterior.
Es el exceso de la frecuencia modal sobre la frecuencia de la clase inmediata
, para el cual la frecuencia

posterior.
Es la longitud de la clase.

acumulada sea de

Moda. La moda de un conjunto de datos es el valor que se repite con mayor

puesto que el nmero de datos es par, se toman los 2 valores centrales ( 60 y 60), y

Fronteras de clase

52.5

Finalmente, se tiene, para los datos del ejemplo 1.1

40, 41, 42, 43, 44, 45,


49, 49, 49, 51, 53, 55,
, 62, 63, 64, 64,
69, 69, 70, 71, 72, 72,
77, 77, 79, 79, 80, 82.

de ellos se obtiene el promedio, finalmente,

Frecuencia
acumulada

Con los datos del ejemplo 1.1, y al ordenar los valores se tiene:
30,
45,
56,
64,
73,

Frontera

S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

Probabilidad y Estadstica

Tema I

Para los datos del ejemplo 1.1, sin agrupar, el valor que ms se repite es el
49, con 4 repeticiones, por lo que la moda es 49, esto es:

Para los datos agrupados la moda puede obtenerse con la marca de clase del
intervalo modal, por lo que se obtiene:

10

segundo cuartil y con el quinto decil. El percentil 10 coincide con el primer decil,
y as se pueden encontrar muchas otras relaciones.

M edidas de dispersin

. Debe observarse que 72.5 es

la marca de clase del intervalo con lmites 69-76, y con la mxima frecuencia
observada,

Pg.

Utilizando la frmula para la moda se tiene:

Las medidas de dispersin proporcionan un indicador del alejamiento de los datos.


Tambin se les llama medidas de variacin. Las medidas ms comunes son: Rango,
desviacin media, variancia, desviacin estndar, el rango semi-intercuartil y el
coeficiente de variacin.
Rango. EL rango de un conjunto de datos es la diferencia entre el mayor valor meno
el menor valor. Se denota por

, o simplemente por

. Para datos agrupados

se utilizan los lmites mayor y menor. Es comn no realizar la operacin de resta y


solamente indicarla.
Relacin entre la media, la mediana y la moda
Para un conjunto de datos con distribucin de frecuencia unimodal y poca
simetra se tiene la siguiente relacin emprica:

Para los datos del ejemplo 1.1 se tienen los siguientes resultados.

Si la distribucin es simtrica y unimodal, entonces se tiene la siguiente


relacin:

En Excel se pueden utilizar los comandos max(Rango de celdas) y


min(Rango de celdas) para obtener los valores mayor y menor de un conjunto de
datos.
Desviacin Media. La desviacin media o desviacin promedio de un conjunto de
datos es el promedio de las distancias de cada valor con respecto a la media. Se

Cuartiles, Deciles y Percentiles. As como la mediana es el valor que divide a una


conjunto de datos ordenados en dos conjuntos de igual tamao, los datos pueden
dividierse en cuatro conjuntos de igual tamao (cuartiles), en 10 conjuntos de igual
tamao (deciles) y en 100 conjuntos de igual tamao (percentiles).
Los cuartiles se denotan generalmente por

cuartil coincide con la mediana. Los deciles se denotan


quinto decil
se denotan

y
,

, y el

, el El percentil 50 coincide con la mediana, con el

S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

, y el segundo

coincide con la mediana y con el segundo cuartil. Los percentiles


,

denota por

Para los datos del ejemplo 1.1 se tiene:


Para datos no agrupados se utiliza la media de datos no agrupados, que es,
, por lo que se tiene:

Probabilidad y Estadstica

Tema I

Pg.

11

,
es por eso que se obtiene el valor absoluto en el caso de la desviacin media y que
se eleva al cuadrado para la variancia.
Variancia. La variancia de un conjunto de datos es el promedio de las distancias
y para datos agrupados, se utiliza la media de datos agrupados, las marcas de clase
y la frecuencia, por lo que:

cuadradas de cada valor con respecto a su media. Se denota por

o por

dependiendo del valor que se utilice para promediar. Se divide entre


promedia entre

(se

), cuando se considera que se tienen todos lo datos posibles

(poblacin), y se divide entre

cuando se tiene solo una fraccin de los datos

(muestra). La frmula para la variancia es:


En resumen

Desviacin Mediana. Una variacin de la desviacin media es la desviacin


mediana, la cual consiste en tomar el promedio de las distancias con respecto a la
mediana. Se denota

Tanto la desviacin media como la desviacin mediana son poco utilizadas


en la prctica por lo difcil de manejar el valor absoluto. Para eliminar el signo de
las diferencias

y evitar el clculo del valor absoluto, se define la variancia

o varianza de un conjunto de datos utilizando el cuadrado de la diferencia.


No puede utilizarse solamente la suma de desviaciones, porque sta da
como resultado siempre cero, esto es:

S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

o bien:

En el ejemplo 1.1, se tiene una muestra de 50 alumnos, por lo que se debe


de obtener

, aunque para valores mayores o iguales que 30 el resultado es muy

parecido, y por eso algunos autores siguieren utilizar


datos del ejemplo se tiene:

, cuando

. Con los

Probabilidad y Estadstica

Tema I

Pg.
se utiliza la desviacin estndar adecuada,

El inconveniente de utilizar la variancia como medida de dispersin se encuentra en


sus unidades, puesto que queda en unidades cuadradas. Para evitar esta complejidad,
la medida de dispersin ms utilizada es la desviacin estndar.

12

, y puede utilizarse un subindice

en el coeficiente de variacin para reconocer entre que se promedio para obtener la


desviacin estndar.
Para los datos del ejemplo 1.1 se tiene:

Desviacin estndar. La desviacin estndar de un conjunto de datos es la raz


cuadrada de la variancia. Se denota por

o por

, dependiendo de si se obtiene

la desviacin estndar de una muestra o de toda la poblacin.


Es claro que para calcular la desviacin estndar debe de calcularse la
variancia primero, de forma que :

Rango intercuarltilico. El rango intercuartilico de un conjunto de datos es la


diferencia entre el tercer y el primer cuartil.

Rango semi-intercuertilico. El Rango semi-intercuartilico es el promedio del rango


intercuartilico, esto es:
Cuando los datos agrupados tienen una distribucin que se aproxima a una
campana, entonces la desviacin estndar puede aproximarse mediante el rango
dividido entre 4, esto es:
Rango Percentil. El rango percentil de un conjunto de datos, es la diferencia entre
el percentil 90 y el percentil 10, esto es:
Para los datos del ejemplo 1.1 se tiene:
M edidas de forma

Coeficiente de Variacin. El coeficiente de variacin de un conjunto de datos es una


medida de la dispersin en relacin con la media de los datos, no tiene unidades y
se define mediante el cociente de la desviacin estndar entre la media.

Las medidas de forma de un conjunto de datos son el sesgo y la curtosis. Para poder
definir a las medidas de forma, es necesario definir primero los momentos.
Momentos con respecto al origen.
El r-simo momento con respecto al origen se definen mediante:

S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

Probabilidad y Estadstica

Tema I

Pg.
donde

es el tercer momento con respecto a la media y

13

es la desviacin

estndar.
El sesgo se compara con cero. Cuando el coeficiente de sesgo es menor que
cero se dice que los datos tienen una distribucin sesgada a la izquierda o con sesgo
negativo. Cuando el coeficiente de sesgo es positivo, se dice que los datos tienen
una distribucin sesgada a la derecha o con sesgo positivo. Si el coeficiente de sesgo
es cero, entonces los datos tienen una distribucin simtrica o insesgada.

Y el r-simo momento con respecto a la media se define mediante:

media

Debe observarse que el primer momento con respecto al origen

es la

, mientras que el segundo momento con respecto a la media

es la

variancia

. Los momentos con respecto a la media pueden calcularse con


Figura 5. Sesgo positivo.

momentos con respecto al origen, al desarrollar las sumas. Las primeras relaciones
son:

Sesgo. El sesgo de un conjunto de datos es una medida del grado de simetra (o


asimetra) de los datos. Se denota por

o por

, y se define mediante:

S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

Figura 6. Distribucin simtrica

Probabilidad y Estadstica

Tema I

Pg.

14

Al utilizar la relacin de las medidas de tendencia central con los datos


agrupados del ejemplo 1.1, se observa que

, puesto que

, por lo que se tiene un sesgo negativo, como


ya se haba calculado.
En la prctica cuando se requiere saber el signo del sesgo, pero no es
determinante su magnitud, basta con realizar la comparacin de las medidas de
tendencia central.
Curtosis. El coeficiente de curtosis de un conjunto de datos mide el grado de
aplanamiento relativo de la distribucin de los datos. Se denota mediante
Figura 7. Sesgo negativo.

bien,

,o

. Se define mediante la expresin:

Debe observarse la relacin de la medidas de tendencia central: media,


mediana y moda, con el signo del sesgo cuando los datos se encuentran agrupados.
Sesgo positivo:

donde

es el cuarto momento con respecto a la media y

es la desviacin

estndar.
Sesgo negativo:
Insesgado:
Para los datos de ejemplo 1.1 se tiene, para datos sin agrupar:

La curtosis se compara contra tres, porque tres es la curtosis de la


distribucin normal, que se estudiar en el tema 4 y es ampliamente utilizada en la
probabilidad y la estadstica.
Si los datos tienen una distribucin ms puntiaguda que la distribucin
normal

, entonces se dice que los datos tienen una distribucin leptocrtica.

Si los datos tienen una distribucin como la normal,


la distribucin es mesocrtica. Si los datos tienen una
y para los datos agrupados se tiene

En resumen:

S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

, entonces se les llama platicrticos.

, entonces se dice que


distribucin aplanada,

Probabilidad y Estadstica

Tema I

Pg.

15

Con los valores el ejemplo 1.1 se tiene, para datos sin agrupar:

y para datos agrupados:

en resumen:
Figura 8. Distribucin platicrtuca.

Puede observarse que los datos del ejemplo 1.1 tienen una distribucin mesocrtica.
S))))))))))))))))))))))))))))))))))))))
Ejemplo 1.2
Los datos siguientes sealan el tiempo de funcionamiento (en das) hasta
que se presenta la primera falla de

Figura 9. Distribucin mesocrtica.

Figura 10. Distribucin leptocrtica.

S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

radio transmisores-receptores:

16

224

16

80

96

536

400

80

392

576

128

56

656

224

40

32

358

384

256

246

328

464

448

716

304

16

72

80

72

56

608

108

194

136

224

80

16

424

264

156

216

168

184

552

72

184

240

438

120

308

32

272

152

328

480

60

208

340

104

72

168

40

152

360

232

40

112

112

288

168

352

56

72

64

40

184

264

96

224

168

168

114

280

152

208

160

176

Probabilidad y Estadstica
a)
b)

Tema I

Utilizar el rango para aproximar el valor de la desviacin


estndar.
Obtener una distribucin de frecuencias con 15 clases de longitud
50 comenzando con 0.5

Pg.

16

Ejemplo 1.3
De los resultados en un examen de antecedentes de probabilidad, aplicado
a los alumnos que cursan estadstica, se obtuvo la siguiente tabla de
distribucin de frecuencias

Resolucin
a)
Utilizando la frmula par aproximar el rango se tiene:

b)

La tabla queda:
Lmites

Fronteras

1 - 50
51 - 100
101 - 150
151 - 200
201 - 250
251 - 300
301 - 350
351 - 400
401 - 450
451 - 500
501 - 550
551 - 600
601 - 650
651 - 700
701 - 750

0.5 - 50.5
50.5 - 100.5
100.5 - 150.5
150.5 - 200.5
200.5 - 250.5
250.5 - 300.5
300.5 - 350.5
350.5 - 400.5
400.5 - 450.5
450.5 - 500.5
500.5 - 550.5
550.5 - 600.5
600.5 - 650.5
650.5 - 700.5
700.5 - 750.5

Marcas de
clase
25.5
75.5
125.5
175.5
225.5
275.5
325.5
375.5
425.5
475.5
525.5
575.5
625.5
675.5
725.5

frecuencia
11
16
8
15
10
6
5
6
3
2
1
2
1
1
1

frecuencia
relativa
0.125
0.182
0.091
0.170
0.114
0.068
0.057
0.068
0.034
0.023
0.011
0.023
0.011
0.011
0.011

Obtener:
a)
La media, la mediana y la moda.
b)
La variancia.
c)
Con los resultados obtenidos en el inciso (a), indicar si la
distribucin de las calificaciones tiene un sesgo positivo, negativo
o no tiene sesgo.
Resolucin
a)

La media es

La mediana se obtiene mediante interpolacin, por lo que se


tiene:
La moda se calcula con la expresin

Debe observarse que el valor en el que se inicia la tabla es una frontera,


puesto que los datos no tiene el valor 0.5.
S))))))))))))))))))))))))))))))))))))))
de donde

S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

Probabilidad y Estadstica

Tema I

Pg.
a)

b)

17

Construir una tabla de frecuencias de la duracin de los viajes,


con 6 intervalos.
Dibujar el histograma de frecuencias relativas.
Calcular la media.
Calcular la mediana.
Calcular la moda.
Calcular la desviacin estndar.
Investigar si la distribucin emprica es o no simtrica.
Clasificar la distribucin emprica por su grado de aplanamiento.

o bien, se puede tambin aproximar con la marca de clase del


intervalo modal, con lo que

b)
c)
d)
e)
f)
g)
h)

La variancia est dada por

Resolucin
a)
El rango de los datos es: 9.8 - 8.1 = 1.7
Dividiendo en 6 intervalos, con

y comenzando en

8.05, se tiene:
por lo que
Lm ites

c)

Puesto que la

se tiene un sesgo

positivo.
S))))))))))))))))))))))))))))))))))))))
Ejemplo 1.4
En la siguiente tabla, se tienen los tiempos medidos en horas con un
decimal que necesit un transbordador para cruzar de la Ciudad de
Mazatln a La Paz, en 60 viajes sucesivos.
8.7
8.4
9.3
8.7
8.3
9.0
9.2
8.2
8.6
8.8
9.0
8.6
9.4
8.3
8.2
8.3
9.1
8.9
8.5
8.7
8.5
9.5
8.4
8.6
8.6
8.7
9.2
8.5
8.1
9.8
8.9
9.6
8.8
8.6
8.2
8.5
8.6
8.8
8.8
8.7
8.7
8.5
9.0
8.5
8.9
9.3
8.3
8.7
9.2
8.5
8.6
8.5
9.1
8.5
9.0
8.7
9.2
9.0
8.4
8.9
S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

8.1
8.4
8.7
9.0
9.3
9.6
b)

8.3
8.6
8.9
9.2
9.5
9.8

Fronteras

8.05
8.35
8.65
8.95
9.25
9.55

8.35
8.65
8.95
9.25
9.55
9.85

M arca de
clase

Frecuencia

Frecuencia
relativa

Frec.
relat.
acum .

8.2
8.5
8.8
9.1
9.4
9.7

8
19
16
11
4
2

0.1333
0.3166
0.2666
0.1833
0.0666
0.0334

0.1333
0.4499
0.7165
0.8998
0.9664
1

Probabilidad y Estadstica

c)

Tema I

Pg.

18

Para datos sin agrupar:

Datos sin agrupar:

Ligeramente leptocrtica.
Datos agrupados:
Para datos agrupados:
d)

Datos sin agrupar:


Datos agrupados (interpolando):

e)

8.65

27
30

8.95

43

Ligeramente platicrtica.
S))))))))))))))))))))))))))))))))))))))
Ejemplo 1.5
Determinar cmo se relacionan la media y la mediana muestrales de las

De donde

con las

Datos sin agrupar:

a)

Datos agrupados:
f)

Si se agrega una constante


dando

b)
Datos sin agrupar:

para cada uno de los siguientes casos.

Si cada

a cada una de las

.
se multiplica por una constante

Resolucin
a)
Para la media

Datos agrupados:
g)

Para determinar si la distribucin es simtrica o no, se calcula el


sesgo.

Para la mediana

Datos sin agrupar:


b)

Datos agrupados:

h)

La distribucin tiene un ligero sesgo positivo.


Para determinar el aplanamiento se calcula la curtosis.

S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

en una muestra,

Para la media
Para la mediana

S))))))))))))))))))))))))))))))))))))))

, dando

Probabilidad y Estadstica

Tema I

19

MANEJO DE DATOS BIVARIADOS

Ejemplo 1.6
Los valores observados de las cantidades

en el estudio

de la vida til, en horas, de las bateras de litio para cierta calculadora son:
y

La estadstica descriptiva se ha utilizado para un conjunto de datos que no est


relacionado con ningn otro conjunto de datos, cuando nos interesa la relacin que
existe entre parejas de datos debe utilizarse estadstica bivariada. el caso ms simple
del anlisis estadstico bivariado es el ajuste por mnimos cuadrados.

a)

Sorprendera la afirmacin de que la duracin media de las


bateras de litio usadas en esa calculadora es de 1270 horas?
Responder y explicar utilizando solamente estadstica descriptiva.
b)
Calcular la variancia y la desviacin estndar muestrales de estos
datos.
Resolucin
a)

Pg.

AJUSTE POR MNIMOS CUADRADOS

Partiendo de que desea obtener un modelo lineal para la variable independiente


en funcin de la variable dependiente

donde

De los datos se obtiene

, se escribe

es un error que se obtiene debido al modelo.

Sin considerar el error el modelo se puede escribir como


,
No sorprendera la afirmacin debido a que el valor es muy
cercano al observado en la muestra.
b)

donde la pendiente y la ordenada al origen tiene un acento circunflejo para indicar


que se trata de aproximaciones de los verdaderos parmetros.
Considerando el valor real y el aproximado para cada punto, se puede obtener la
suma de los errores cuadrados, esto es:

obteniendo el mnimo de

Y la variancia muestral es
de donde
y
de donde
S))))))))))))))))))))))))))))))))))))))

S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

en funcin de

se tiene:

Probabilidad y Estadstica

Tema I

Pg.

20

Covariancia
La covariancia de dos conjuntos de datos, es una medida de la dispersin promedio
de los datos con respecto a sus medias. Se denota por

o bien:

, y se define mediante:

Coeficiente de correlacin
El coeficiente de correlacin

de la muestra es:

donde

si se simplifica la notacin, mediante:

Y proporciona el grado de asociacin lineal de las variables

El coeficiente de determinacin
son estimadores (aproximaciones) insesgados de

Coeficiente de determinacin

entonces:

de la muestra es:

, que son los

parmetros que se desea obtener.


y proporciona el porcentaje de explicacin de una variable en trminos de la otra.

S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

Probabilidad y Estadstica

Tema I

Pg.

21

S))))))))))))))))))))))))))))))))))))Q
b)

El coeficiente de correlacin es:

Ejemplo 1.7
Emplear el mtodo de mnimos cuadrados para ajustar los siguientes puntos
a una recta.

a)

Cules son la estimaciones de

de mnimos cuadrados?

b)
Obtener el coeficiente de correlacin.
Resolucin

S))))))))))))))))))))))))))))))))))))Q
Ejemplo 1.8
Los siguientes datos representan el nmero de horas de estudio ( ) y la
calificacin obtenida ( ) en un examen para una muestra de 6 estudiantes.
Estudiante

Horas

12

Calificacin
71
71
74
80
80
86
a)
Representar los datos en un diagrama de dispersin.
b)
Ajustar a los datos un modelo lineal de regresin empleando el
criterio de mnimos cuadrados.
c)
Si estudia 5 horas, cul calificacin esperara?
d)
Calcular la covariancia y el coeficiente de correlacin. Interpretar
los resultados de la relacin de las variables.

a)

Resolucin
a)

La ecuacin de la recta de mnimos cuadrados es:

S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

Probabilidad y Estadstica

Tema I

Pg.

22

b)
d)

Sumas

71

71

5041

71

142

5041

74

16

296

5476

80

16

320

6400

80

49

560

6400

12

86

144

1032

7396

30

462

230

2421

35754

Por lo que:

De donde:

Las variables tienen una buena relacin lineal, puesto que


S))))))))))))))))))))))))))))))))))))))
BIBLIOGRAFA
Spiegel, M urray R.- Estadstica.- M cGraw-Hill.- Segunda edicin.- Mxico, 1991.
Devore, Jay. L.- Probabilidad y Estadstica para ingeniera y ciencias.- Sexta
edicin. Thomson
Bonilla, Gildaberto,- Mtodos Prcticos de Inferencia Estadstica.- Trillas.- Mxico,
1991.
Chou, Ya-Lun .- Anlisis Estadstico .-McGraw-Hill.- Segunda Edicin.- Mxico,
1990.
c)

Utilizando la recta de regresin

W eimer, Richard C.- Estadstica.- CECSA.- Mxico, 1996.


Aguilar Jurez, Isabel Patricia.- Apuntes de clase.

S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

Probabilidad y Estadstica

Tema I

Mendenhall, W illiam, et al.- Estadstica Matemtica con Aplicaciones.- Grupo


Editorial Iberoamrica.- Mxico, 1994.
Hines, W illiam W . y Montgomery, Douglas C et. al. - Probabilidad y Estadstica
para Ingeniera y Administracin.- Cuerta edicin.- CECSA.- Mxico, 2005.
W alpole, Ronald E., et al..- Probabilidad y Estadstica para Ingenieros.- Prentice
Hall.- Sexta Edicin.- Mxico, 1999.
Scheaffer, Richard L y McClave, James T.- Probabilidad y Estadstica para
Ingeniera.- Grupo Editorial Iberoamrica.- Mxico 1993.
Canavos, George C.- Probabilidad y Estadstica Aplicaciones y Mtodos.- McGrawHill.- Mxico, 1988.
Borras Garca, Hugo E., et al.- Apuntes de Probabilidad y Estadstica.-Facultad de
Ingeniera, Mxico 1985.

S)))))))))))))))))))))))))))))))))))))))
A.L.B.S./ N.M.G.

Pg.

23

You might also like