Prob y Estadisticas Trabajo 1

INTRODUCCIN:
La Estadstica descriptiva es una parte de la Estadstica cuyo objetivo es

examinar a todos los individuos de un conjunto para luego describir e interpretar
numricamente la informacin obtenida.
Sus mtodos estn basados en la observacin y el recuento. Se pretende, una
vez realizados, poder simplificar los datos observados para obtener de ellos una
informacin lo ms completa posible del total de la poblacin.
En estadstica descriptiva el material de trabajo lo constituyen los datos, que son
los resultados de las observaciones. Una vez obtenidos los datos hay que
ordenarlos y clasificarlos mediante algn criterio racional de modo que sea
posible una visin crtica de los mismos.
En general, este tratamiento previo de los datos ser de alguno de estos tres
tipos:
1) Construccin de tablas para ordenar y clasificar los datos.
2) Realizacin de grficos para representar fsicamente los datos.
3) Obtencin de estadsticos o funciones de los valores de los datos, que
pretenden poner de manifiesto ciertas propiedades de los mismos.
1. Conceptos bsicos.
Cualquier elemento o ente que sea portador de informacin sobre alguna
propiedad en la cual se est interesado se denomina individuo.
El conjunto de todos los individuos en los que se desea estudiar alguna
propiedad o caracterstica se llama poblacin.
Todo subconjunto finito de la poblacin sobre el que se realice el estudio de la
propiedad deseada, es una muestra. Al nmero de individuos de este
subconjunto se le llama tamao de la muestra.
Ejemplo 1. Para estudiar la evolucin del cncer de mama en la poblacin
femenina de un pas, se puede considerar que individuo es cada una de las
mujeres residentes en el mismo, poblacin es el conjunto de todas ellas y una
muestra se obtiene al observar el 1% del censo.

Con mucha frecuencia se consideran como poblacin y muestra, no los
conjuntos de individuos, sino las medidas de la caracterstica asociadas a esos
individuos.
Ejemplo 2. En un banco de sangre se experimenta un nuevo sistema para
aumentar el perodo de conservacin de la misma. En este caso cada bolsa de
sangre es un individuo; la poblacin es el conjunto de todas las bolsas del banco
y una muestra se obtiene tomando un cierto nmero de bolsas para su anlisis.
Obsrvese que el concepto de individuo no va asociado necesariamente con el
de persona, sino que puede ser algo de naturaleza ms abstracta.

La palabra "estadstica" suele utilizarse bajo dos significados distintos:

1 Como coleccin de datos numricos.
Esto es el significado ms vulgar de la palabra estadstica. Se sobrentiende que
dichos datos numricos han de estar presentados de manera ordenada y
sistemtica. Una informacin numrica cualquiera puede no constituir una
estadstica, para merecer este apelativo, los datos han de constituir un conjunto
coherente, establecido de forma sistemtica y siguiendo un criterio de
ordenacin.

2 Como ciencia.
En este significado, la Estadstica estudia el comportamiento de los fenmenos
de masas. Como todas las ciencias, busca las caractersticas generales de un
colectivo y prescinde de las particulares de cada elemento. As por ejemplo al
investigar el sexo de los nacimientos, iniciaremos el trabajo tomando un grupo
numeroso de nacimientos y obtener despus la proporcin de varones.

En estadstica se requiere la suma de grandes masas de datos y es pertinente
tener una notacin simplificada para indicar la suma de estos datos. As, si una
variable se puede denotar por X, entonces las observaciones sucesivas de esta
variable se escriben

En general, la i-sima observacin se escribe X ; i=1, ..., n. En primera instancia
habr de entenderse: Notacin de ndices.

Denotemos por
j
X (lase X sub j) cualquiera de los N valores
N
X X X X ,..., , ,
3 2 1
que toma una variable X. La letra j en
j
X , que puede valer 1,
2, 3, , N se llama subndice. Es claro que podamos haber empleado cualquier
otra letra en vez de j, por ejemplo, i, k, p, q o s.

Notacin de Suma.
El smbolo
=
N
j
j
X
1
denotar la suma de todos los
j
X desde j=1 a j=N; por
definicin,
N
N
j
j
X X X X X + + + + =
=
...
3 2 1
1

) se emplea para indicar la suma de estas n
observaciones.

La notacin se lee:
Suma de X sub-i ( sigma sub-i) donde i asume todos los valores de 1 hasta n,
simplemente suma de X sub-i donde i va de 1 a n.
La letra debajo del operador se llama ndice de la suma; en la expresin

note que el ndice de la suma es i.

Las sumatorias se pueden representar bajo dos tipos de notaciones:
- Notacin suma abierta.- Esta notacin va de una representacin de
sumatoria a cada uno de los elementos que la componen, por
ejemplo:
- Notacin suma pertinente.- Esta notacin es al contrario de la suma
abierta, va de la representacin de cada uno de los elementos de una
sumatoria a su representacin matemtica resumida, por
ejemplo: .
Ejemplo 2.
( )

= =
= + + + = + + + =
N
j
j N N Z
N
j
j
X a X X X a X aX aX aY
1
, 2 1 2 1
1
... ... donde a es una
constante. Ms sencillamente,

= . X a aX

Ejemplo 3.
Si a, b, c son constantes, entonces ( )

+ = + + . Z c Y b X a cZ bY aX

DESCRIPCIN DE DATOS:
Los datos agrupados y no agrupados se refieren al hecho de que estn
ordenados, clasificados y contados.

DATOS NO AGRUPADOS
Recoleccin simple o no organizada (datos no organizados):Es el listado de los
datos presentados en su forma primaria, es decir, tal como fueron obtenidos
durante el proceso observacin o medicin en la muestra o poblacin. Se dice
que los datos estn organizados, pero no agrupados, cuando en las tablas de
frecuencias se ponen, organizados, todos y cada uno de los valores que toma la
variable; esto es se colocan los datos en columnas que recogen los distintos
valores de la variable y las frecuencias(las veces) con que han aparecido tales
valores.
Tienen las siguientes caractersticas:
1.- los datos son brutos( es decir, no se presentan clasificados)

2.- no es necesario clasificar ni generar una tabla de frecuentas, ya que no tiene
mucho sentido.

3.- elementos que menor tamao (generalmente menor a 20 elementos).Esto no
sucede as siempre.
Aunque contemos con menos de 20 elementos, debe de verificarse que los
datos no sean significativos, Esto es: que la informacin no sea repetitiva, de
esta forma, sabremos que no se podr clasificar y por lo tanto ser resumida en
una tabla de frecuencias.
En caso de que una vez que hayamos ordenado los elementos, se cuente con
datos significativos. Procedemos a clasificarlos (si es posible, ya que tambin
debemos de buscar la lgica al clasificar los elementos) para convertirlos en
datos agrupados.

4.- los datos no agrupados, tambin pueden ser ordenamos y de la misma
forma, tambin se pueden obtener graficas, determinar media, desviacin
estndar, etc.
El hecho de que los datos no agrupados pueden ordenarse, no significa que se
conviertan en datos agrupados.
Ejemplos:
Vas a investigar la edad a un grupo de 20 Nios en datos no agrupados (es
decir, vienen los 20 nios y as como te dan la edad as la anotas

MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIN
Estadstica sumaria.
Podemos usar una serie de nmeros conocidos como estadstica sumaria para
describir las caractersticas del conjunto de datos. Dos de estas caractersticas
son de particular importancia para los responsables de tomar decisiones: la de
tendencia central y la de dispersin.
Tendencia central: la tendencia central se refiere al punto medio de una
distribucin. Las medidas de tendencia central se conocen como medidas de
posicin.
Dispersin: se refiere a la extensin de los datos en una distribucin, es decir, al
grado en que las observaciones se distribuyen.
Sesgo: las curvas que representan los puntos de datos de un conjunto de datos
pueden ser simtricas o sesgadas. Las curvas simtricas, tienen una forma tal
que una lnea vertical que pase por el punto ms alto de la curva dividir el rea
de sta en dos partes iguales. Cada parte es una imagen espejo de la otra. En
las curvas sesgadas, los valores de su distribucin de frecuencias estn
concentrados en el extremo inferior o en el superior de la escala de medicin del
eje horizontal. Los valores no estn igualmente distribuidos. Las curvas pueden
estar sesgadas hacia la derecha (positivamente sesgadas) o sesgadas hacia la
izquierda (negativamente sesgadas).
Curtosis: cuando medimos la curtosis de una distribucin, estamos midiendo su
grado de agudeza.
La media aritmtica.
Cuando nos referimos al "promedio" de algo, estamos hablando de la media
aritmtica.
Para encontrar la media aritmtica, sumamos los valores y el resultado lo
dividimos entre el nmero de observaciones.
Smbolos convencionales.
Una muestra de una poblacin consiste en n observaciones, con una media de x
(lase equis testada). Las medidas que calculamos para una muestra se
conocen como estadstica.
La notacin es diferente cuando calculamos medidas para la poblacin entera,
es decir, para el grupo que contiene a todos los elementos que estamos
describiendo. La media de una poblacin se simboliza con (letra griega mi). El
nmero de elementos de una poblacin se denota con la letra mayscula cursiva
N. Por lo general, en estadstica utilizamos letras del alfabeto latino para
simbolizar la informacin sobre las muestras y letras del griego para referirnos a
la informacin sobre poblaciones.
Clculo de la media a partir de datos no agrupados.
Media de la poblacin:
= x / N
x = x / n
Para calcular esta media, sumamos todas las observaciones. Los estadsticos se
refieren a este tipo de datos como datos no agrupados.
Codificacin:
Mediante esta tcnica, podemos eliminar el problema de tener puntos medios
muy grandes o inconvenientes. En lugar de utilizar los puntos medios reales
para llevar a efecto nuestros clculos, podemos asignar enteros consecutivos de
valor pequeo, conocidos como cdigos, a cada uno de los puntos medios. El
entero cero puede ser asignado a cualquier punto medio, pero para que nuestros
enteros sean pequeos, asignaremos cero al punto medio de la parte media de
la distribucin (o la parte ms cercana a sta). Podemos asignar enteros
negativos a los valores menores a dicho punto medio y enteros positivos a los
valores ms grandes.

Los estadsticos usan x
o
para representar el punto medio al que se le ha
asignado el cdigo 0 y u para el punto medio codificado:

x = x
o
+ w [(u f)] / n

w = ancho numrico del intervalo de clase

u = cdigo asignado a cada punto medio de clase

Ventajas y desventajas de la media aritmtica.

La media aritmtica, en su carcter de un solo nmero que representa a un
conjunto de datos completo, tiene importantes ventajas:
1. Se trata de un concepto familiar para la mayora de las personas y es
intuitivamente claro.
2. Cada conjunto de datos tiene una media, es una medida que puede
calcularse y es nica debido a que cada conjunto de datos posee una y
slo una media.
3. Es til para llevar a cabo procedimientos estadsticos como la
comparacin de medias de varios conjuntos de datos.

Desventajas:

1. Puede verse afectada por valores extremos que no son representativos
del resto de los datos.
2. Resulta tedioso calcular la media debido a que utilizamos cada uno de los
puntos de dato de nuestro clculo.
3. Somos incapaces de calcular la media para un conjunto de datos que
tiene clases de extremo abierto, ya sea en el inferior o en el superior de la
escala.
SUGERENCIA:
La media aritmtica, a menudo, puede mal interpretarse si los datos no entran
en un grupo homogneo.

La mediana.
La mediana es un solo valor calculado a partir del conjunto de datos que mide la
observacin central de stos. Esta sola observacin es la ms central o la que
est ms en medio en el conjunto de nmeros. La mitad de los elementos estn
por encima de este punto y la otra mitad est por debajo.
Clculo de la mediana a partir de datos no agrupados:

Para hallar la mediana de un conjunto de datos, primero hay que organizarlos en
orden descendente o ascendente. Si el conjunto de datos contiene un nmero
impar de elementos, el de en medio en el arreglo es la mediana. Si hay un
nmero par de observaciones, la mediana es el promedio de los dos elementos
de en medio.

Mediana = (n + 1) / 2
Clculo de la mediana a partir de datos agrupados:
1. Encontrar qu observacin de la distribucin est ms al centro (Mediana
= (n + 1) / 2).
2. Sumar las frecuencias de cada clase para encontrar la clase que contiene
a ese elemento ms central.
3. Determinar el nmero de elementos de la clase y la localizacin de la
clase que contiene al elemento mediano.
4. Determinar el ancho de cada paso para pasar de una observacin a otra
en la clase mediana, dividiendo el intervalo de cada clase entre el nmero de
elementos contenido en la clase.
5. Determinar el nmero de pasos que hay desde el lmite inferior de la clase
mediana hasta el elemento correspondiente a la mediana.
6. Calcular el valor estimado del elemento mediano multiplicando el nmero
de pasos que se necesitan para llegar a la observacin mediana por el ancho de
cada paso. Al producto sumarle el valor del lmite inferior de la clase mediana.
7. Si existe un nmero par de observaciones en la distribucin, tomar el
promedio de los valores obtenidos para el elemento mediano calculados en el
paso nmero 6.

Un mtodo ms sencillo:

m = {[(n + 1) / 2 (F + 1)] / fm} w + Lm

m = mediana de la muestra
n = nmero total de elementos de la distribucin
F = suma de todas las frecuencias de clase hasta, pero sin incluir, la clase
mediana
fm = frecuencia de la clase mediana
w = ancho de intervalo de clase
Lm = lmite inferior del intervalo de clase mediano

Ventajas y desventajas de la mediana:

Los valores extremos no afectan a la mediana tan intensamente como a la
media. La mediana es fcil de entender y se puede calcular a partir de cualquier
tipo de datos incluso a partir de datos agrupados con clases de extremo
abierto a menos que la mediana entre en una clase de extremo abierto.

Podemos encontrar la mediana incluso cuando nuestros datos son descripciones
cualitativas, en lugar de nmeros.

Ciertos procedimientos estadsticos que utilizan la mediana son ms complejos
que aquellos que utilizan la media. Debido a que la mediana es una posicin
promedio, debemos ordenar los datos antes de llevar a cabo cualquier clculo.
Esto implica consumo de tiempo para cualquier conjunto de datos que contenga
un gran nmero de elementos. Por consiguiente, si deseamos utilizar una
estadstica de muestra para estimar un parmetro de poblacin, la media es ms
fcil de usar que la mediana.

La moda
La moda es una medida de tendencia central diferente de la media, pero un
tanto parecida a la mediana, pues en realidad no se calcula mediante algn
proceso aritmtico ordinario. La moda es aquel valor que ms se repite en el
conjunto de datos.
En ocasiones, el azar hace que un solo elemento no representativo se repita lo
suficiente para ser el valor ms frecuente del conjunto de datos. Es por esta
razn que rara vez utilizamos la moda de un conjunto de datos no agrupados
como medida de tendencia central.
Por esta razn, siempre que utilizamos la moda como medida de tendencia
central de un conjunto de datos, debemos calcular la moda de datos agrupados
(buscar la clase modal).

Clculo de la moda de datos agrupados:
Cuando los datos ya se encuentran agrupados en una distribucin de
frecuencias, podemos poner que la moda est localizada en la clase que
contiene el mayor nmero de elementos, es decir, en la clase que tiene mayor
frecuencia. Para determinar un solo valor para la moda a partir de esta clase
modal:

Mo = Lmo + [d1 / (d1 + d2 )] w

Lmo = lmite inferior de la clase modal.
d1 = frecuencia de la clase modal menos la frecuencia de la clase que se
encuentra inmediatamente por debajo de ella.
d2 = frecuencia de la clase modal menos la frecuencia de la clase que se
encuentra inmediatamente por encima de ella.
w = ancho del intervalo de la clase modal.

Ventajas y desventajas de la moda:
La moda, al igual que la mediana, se puede utilizar como una posicin central
para datos tanto cualitativos como cuantitativos.
Tambin, al igual que la mediana, la moda no se ve mayormente afectada por
los valores extremos. Incluso si los valores extremos son muy altos o muy bajos,
nosotros escogemos el valor ms frecuente del conjunto de datos como el valor
modal. Podemos utilizar la moda sin importar qu tan grandes o qu tan
pequeos sean los valores del conjunto de datos, e independientemente de cul
sea su dispersin.
La podemos utilizar aun cuando una o ms clases sean de extremo abierto.
Muy a menudo, no existe un valor modal debido a que el conjunto de datos no
contiene valores que se presenten ms de una vez. En otras ocasiones, cada
valor es la moda, pues cada uno de ellos se presenta el mismo nmero de
veces. Otra desventaja consiste en que cuando los datos contienen dos, tres o
ms modas, resultan difciles de interpretar y comparar.

Comparacin entre la media, la mediana y la moda.
Cuando trabajamos un problema de estadstica, debemos decidir si vamos a
utilizar la media, la mediana o la moda como medidas de tendencia central. Las
distribuciones simtricas que slo contienen una moda, siempre tienen el mismo
valor para la media, la mediana y la moda. En tales casos, no es necesario
escoger la medida de tendencia central, pues ya est hecha la seleccin.

En una distribucin positivamente sesgada (es decir, sesgada hacia la derecha),
la moda todava se encuentra en el punto ms alto de la distribucin, la mediana
est hacia la derecha de la moda y la media se encuentra todava ms a la
derecha de la moda y la mediana.

En una distribucin negativamente sesgada, la moda sigue siendo el punto ms
alto de la distribucin, la mediana est hacia la izquierda de ella y la media se
encuentra todava ms a la izquierda de la moda y la mediana.

Cuando la poblacin est sesgada negativa o positivamente, con frecuencia la
mediana resulta ser la mejor medida de posicin, debido a que siempre est
entre la moda y la media. La mediana no se ve altamente influida por la
frecuencia de aparicin de un solo valor como es el caso de la moda, ni se
distorsiona con la presencia de valores extremos como la media.

SUGERENCIA
La seleccin de la media, la mediana o la moda, en ocasiones, depende de la
prctica comn de una industria en particular (salario medio de los obreros,
precio mediano de una casa, familia modal para el diseo de automviles).

La dispersin.
Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la
moda slo nos revelan una parte de la informacin que necesitamos acerca de
las caractersticas de los datos. Para aumentar nuestro entendimiento del patrn
de los datos, debemos medir tambin su dispersin, extensin o variabilidad.

La dispersin es importante porque:
1. Proporciona informacin adicional que permite juzgar la confiabilidad de la
medida de tendencia central. Si los datos se encuentran ampliamente dispersos,
la posicin central es menos representativa de los datos.
2. Ya que existen problemas caractersticos para datos ampliamente
dispersos, debemos ser capaces de distinguir que presentan esa dispersin
antes de abordar esos problemas.
3. Quiz se desee comparar las dispersiones de diferentes muestras. Si no
se desea tener una amplia dispersin de valores con respecto al centro de
distribucin o esto presenta riesgos inaceptables, necesitamos tener habilidad
de reconocerlo y evitar escoger distribuciones que tengan las dispersiones ms
grandes.

Medidas de dispersin.

La dispersin puede medirse en trminos de la diferencia entre dos valores
seleccionados del conjunto de datos. Las medidas de distancia son: el alcance,
el alcance interfractil y el alcance intercuartil.

Alcance.
Es la diferencia entre el ms alto y el ms pequeo de los valores observados.
Alcance = valor de la observacin ms alta valor de la observacin ms
pequea. El alcance es fcil de entender y de encontrar, pero su utilidad como
medida de dispersin es limitada. Slo toma en cuenta los valores ms alto y
ms bajo de una distribucin y no considera ninguna otra observacin del
conjunto de datos. Ignora la naturaleza de la variacin entre todas las dems
observaciones, y se ve muy influido por los valores extremos.
Las distribuciones de extremo abierto no tienen alcance, pues no existe un valor
ms alto o ms bajo en la clase de extremo abierto.

Alcance interfractil.

En una distribucin de frecuencias, una fraccin o proporcin dada de los datos
cae en un fractil o por debajo de ste. La mediana, por ejemplo, es el fractil 0,5,
puesto que la mitad de los datos es menor o igual a este valor. Los fractiles son
parecidos a los porcentajes. En una distribucin cualquiera, el 25% de los datos
est en el fractil 0,25 o por debajo de ste; igualmente, 25% de los datos cae en
el vigsimo quinto percentil o por debajo de ste. El alcance interfractil es una
medida de la dispersin entre dos fractiles de una distribucin de frecuencias, es
decir, la diferencia entre los valores de los dos fractiles.

Los fractiles tienen nombres especiales, dependiendo del nmero de partes
iguales en que se dividen los datos. Los fractiles que los dividen en 10 partes
iguales se conocen como deciles. Los cuartiles dividen los datos en cuatro
partes iguales. Los percentiles dividen el conjunto de datos en 100 partes
iguales.
Alcance intercuartil.
El alcance intercuartil mide aproximadamente qu tan lejos de la mediana
tenemos que ir en cualquiera de las dos direcciones antes de que podamos
recorrer una mitad de los valores del conjunto de datos. Para calcular este
alcance, dividimos nuestros datos en cuatro partes, cada una de las cuales
contiene 25% de los elementos de la distribucin. Los cuartiles son, entonces,
los valores ms alto y ms bajo de estas cuatro partes, y el alcance intercuartil
es la diferencia entre los valores del primer cuartil y el tercer cuartil.
SUGERENCIA

El punto fractil es siempre el punto en el o debajo del cual cae la proporcin
establecida de valores.

Medidas de desviacin promedio.

Las descripciones ms comprensivas de la dispersin son aquellas que tratan
con la desviacin promedio con respecto a alguna medida de tendencia central.
Dos de tales medidas son la varianza y la desviacin estndar.
Por esta razn, siempre que utilizamos la moda como medida de tendencia
central de un conjunto de datos, debemos calcular la moda de datos agrupados
(buscar la clase modal).
Por ejemplo:

*si nos pidieran obtener la informacin del territorio de cada uno de los estados
de Mxico. No tiene mucho sentido que que tratemos de agrupar, ya que solo
nos pide el nombre del estado de la republica mexicana y la extensin territorial.
Para que necesitaramos una tabla de frecuencia de 32 elementos, cuando
estos se repiten solo 1 vez ?

Varianza de la poblacin.

Cada poblacin tiene una varianza, que se simboliza con 2 (sigma cuadrada).
Para calcular la varianza de una poblacin, dividimos la suma de las distancias
al cuadrado entre la media y cada elemento de la poblacin entre el nmero total
de observaciones de dicha poblacin.

2 = (x - )2 / N

2 = varianza de la poblacin.
x = elemento u observacin.
= media de la poblacin.
N = nmero total de elementos de la poblacin.

Para la varianza, las unidades son el cuadrado de las unidades de los datos.
Estas unidades no son intuitivamente claras o fciles de interpretar. Por esta
razn, tenemos que hacer un cambio significativo en la varianza para calcular
una medida til de la desviacin, que sea menos confusa. Esta medida se
conoce como la desviacin estndar, y es la raz cuadrada de la varianza. La
desviacin estndar, entonces, est en las mismas unidades que los datos
originales.

Desviacin estndar de la poblacin.

La desviacin estndar de la poblacin, o , es simplemente la raz cuadrada de
la varianza de la poblacin. Como la varianza es el promedio de las distancias al
cuadrado que van desde las observaciones a la media, la desviacin estndar
es la raz cuadrada del promedio de las distancias al cuadrado que van desde
las observaciones a la media. La desviacin estndar est en las mismas
unidades que las que se usaron para medir los datos.

La raz cuadrada de un nmero positivo puede ser tanto positiva como negativa.
Cuando tomamos la raz cuadrada de la varianza para calcular la desviacin
estndar, los estadsticos solamente consideran la raz cuadrada positiva.

Para calcular la varianza o la desviacin estndar, construimos una tabla
utilizando todos los elementos de la poblacin.

Usos de la desviacin estndar.

La desviacin estndar nos permite determinar, con un buen grado de precisin,
dnde estn localizados los valores de una distribucin de frecuencias con
relacin a la media. El teorema de Chebyshev dice que no importa qu forma
tenga la distribucin, al menos 75% de los valores caen dentro de + 2
desviaciones estndar a partir de la media de la distribucin, y al menos 89% de
los valores caen dentro de + 3 desviaciones estndar a partir de la media.

Con ms precisin:

Aproximadamente 68% de los valores de la poblacin cae dentro de + 1
desviacin estndar a partir de la media.
Aproximadamente 95% de los valores estar dentro de + 2 desviaciones
estndar a partir de la media.
Aproximadamente 99% de los valores estar en el intervalo que va desde
tres desviaciones estndar por debajo de la media hasta tres desviaciones
estndar por arriba de la media.

Resultado estndar:

La desviacin estndar es tambin til para describir qu tan lejos las
observaciones individuales de una distribucin de frecuencias se apartan de la
media de la distribucin. Una medida que se conoce como resultado estndar
nos da el nmero de desviaciones estndar que una observacin en particular
ocupa por debajo o por encima de la media:

Resultado estndar = (x - ) /

Clculo de la varianza y la desviacin estndar utilizando datos agrupados:

2 = f(x - )2 / N

2 = varianza de la poblacin.
x = punto medio de cada una de las clases.
= media de la poblacin.
N = nmero total de elementos de la poblacin.
f = frecuencia de cada una de las clases.

= 2

desviacin estndar de una muestra:

Para calcular la varianza y la desviacin estndar de una muestra, utilizamos las
mismas frmulas, sustituyendo por x y N con n 1.

s2 = (x - x)2 / (n 1)

Por qu utilizamos n 1 como denominador en lugar de N? Los especialistas
en estadstica pueden demostrar que si tomamos muchas muestras de una
poblacin dada, si encontramos la varianza de la muestra para cada muestra y
promediamos los resultados, entonces este promedio no tiende a tomar el valor
de la varianza de la poblacin, a menos que tomemos n 1 como denominador
de los clculos.

Al igual que utilizamos la desviacin estndar de la poblacin para derivar los
resultados estndar de la misma, podemos tambin usar la desviacin estndar
de la muestra para calcular los resultados estndar de la muestra. Estos
resultados indican a cuntas desviaciones estndar se halla una observacin en
particular por arriba o por debajo de la media de la muestra.

Resultado estndar de la muestra = (x x) / s

SUGERENCIAS

Las letras griegas siempre se refieren a parmetros de la poblacin y las letras
latinas se refieren a estadsticas de la muestra.

Recordar utilizar N como denominador cuando se calcula la desviacin estndar
de la poblacin, pero n 1 para calcular la desviacin estndar de la muestra.

Dispersin relativa: el coeficiente de variacin.

La desviacin estndar es una medida absoluta de la dispersin que expresa la
variacin en las mismas unidades que los datos originales.

La desviacin estndar no puede ser la nica base para la comparacin de dos
distribuciones. Si tenemos una desviacin estndar de 10 y una media de 5, los
valores varan en una cantidad que es el doble de la media misma. Si, por otro
lado, tenemos una desviacin estndar de 10 y una media de 5.000, la variacin
con respecto a la media es insignificante. En consecuencia, no podemos
conocer la dispersin de un conjunto de datos hasta que conocemos su
desviacin estndar, su media y cmo se compara la desviacin estndar con
respecto a la media.

Lo que necesitamos es una medida relativa que nos proporcione una estimacin
de la magnitud de la desviacin con respecto a la magnitud de la media. El
coeficiente de variacin es una de estas medidas relativas de dispersin. Se
relaciona la desviacin estndar y la media, expresando la desviacin estndar
como porcentaje de la media.

Coeficiente de variacin = ( / ) * 100

Medidas de posicin central

Las medidas de posicin nos facilitan informacin sobre la serie de datos que
estamos analizando. Estas medidas permiten conocer diversas caractersticas
de esta serie de datos.
Las medidas de posicin son de dos tipos:
a) Medidas de posicin central: informan sobre los valores medios de la serie de
datos.
b) Medidas de posicin no centrales: informan de como se distribuye el resto de
los valores de la serie.
a) Medidas de posicin central
Las principales medidas de posicin central son las siguientes:
1.- Media: es el valor medio ponderado de la serie de datos. Se pueden calcular
diversos tipos de media, siendo las ms utilizadas:
a) Media aritmtica: se calcula multiplicando cada valor por el nmero de veces
que se repite. La suma de todos estos productos se divide por el total de datos
de la muestra:
Xm = (X1 * n1) + (X2 * n2) + (X3 * n3) + .....+ (Xn-1 * nn-1) + (Xn * nn)
---------------------------------------------------------------------------------------
n
b) Media geomtrica: se eleva cada valor al nmero de veces que se ha
repetido. Se multiplican todo estos resultados y al producto fiinal se le calcula la
raz "n" (siendo "n" el total de datos de la muestra).

Segn el tipo de datos que se analice ser ms apropiado utilizar la media
aritmtica o la media geomtrica.
La media geomtrica se suele utilizar en series de datos como tipos de inters
anuales, inflacin, etc., donde el valor de cada ao tiene un efecto multiplicativo
sobre el de los aos anteriores. En todo caso, la media aritmtica es la medida
de posicin central ms utilizada.
Lo ms positivo de la media es que en su clculo se utilizan todos los valores de
la serie, por lo que no se pierde ninguna informacin.
Sin embargo, presenta el problema de que su valor (tanto en el caso de la media
aritmtica como geomtrica) se puede ver muy influido por valores extremos,
que se aparten en exceso del resto de la serie. Estos valores anmalos podran
condicionar en gran medida el valor de la media, perdiendo sta
representatividad.
2.- Mediana: es el valor de la serie de datos que se sita justamente en el centro
de la muestra (un 50% de valores son inferiores y otro 50% son superiores).
No presentan el problema de estar influido por los valores extremos, pero en
cambio no utiliza en su clculo toda la informacin de la serie de datos (no
pondera cada valor por el nmero de veces que se ha repetido).
3.- Moda: es el valor que ms se repite en la muestra.

MEDIDAS DE TENDENCIA CENTRAL O MEDIDAS DE POSICION,
LOCALIZACION, CENTRALIZACION.

Una medida de posicin o tendencia central es un valor que se calcula
para un grupo de datos y que se utiliza para describirlos de alguna manera.

Media aritmtica (valor promedio).

Es el valor tpico de la serie. Se define como la divisin de la suma de
todos los valores entre el nmero de elementos o valores.
Propiedades.

- La media es nica.
- Si se suma o se resta un elemento, la media tambin cambia
- Si se le suma una constante a la muestra original, la media se modifica
de igual magnitud.
- La suma algebraica de las variables con respecto a la media es = 0.

Calculo de la media aritmtica.

a) Serie simple o datos no agrupados
b) Datos organizados:
X
x
n
=

X Media Aritmetica
x Suma de las muestras
n numero total de las muestras
=
=
=
( )
( ) ( ) ( ) ( ) ( )
( )
X X
X
x
i
=
= =
+ + + + = =
+ + + +
= + + + + =
0
25
5
5
2 6 7 8 2 25
2 5 6 5 7 5 8 5 2 5
3 1 2 3 3 0
X
X X X
N
x
N
X
n
=
+ + +
=

= =
1 2
399
30
133
....
.
X
Pm f Pm f Pm f
f f f
Pmf
f
n n
n
=
+ + +
+ + +
=

1 1 2 2
1 2
....
...

Lim. Clase Front. clase f Pmf
9-10.5 8.5-10 4 39
10.6-12.1 10-11.5 8 90.8
12.2-13.7 11.5-13 3 38.85
13.8-15.3 13-14.5 9 130.95
15.4-16.9 14.5-16 3 48.45
17-18.5 17.75 3 53.25
401.3

MODA= MODO= Mo

Dato estadstico que se repite con mayor frecuencia.

a) Serie simple.

- Unimodal: cuando se repite un solo nmero varias
veces
- Bimodal: serie se repiten 2 veces igual nmero de
veces.
- Multimodal: serie se repiten ms de 2 veces
- Nula: cuando no hay ningn nmero que se repita.

b) Datos agrupados.

MEDIANA = Md.

Es el dato que divide a la serie en 2 partes iguales.

a) Serie simple:
X
Pmf
f
=

= =
4013
30
1337
.
.
M L i
M
0 1
1
1 2
0
13
9 3
9 3 9 3
15
13
6
6 6
15 13 0 75 1375
= +
+
|
\
|
.
|
= +

+
|
\
|
.
|
= +
+
|
\
|
.
| = + =
A
A A
( ) ( )
( . )
( . ) . .
b) Datos agrupados:

MEDIA GEOMETRICA = G = GM

a) Serie simple:

b) Datos agrupados:

MEDIA ARMONICA = Ho

a) Datos no organizados:

Md
n
=
+
=
+
= =
1
2
30 1
2
31
2
155 .
Md Li
n
f
fm
i = +

|
\
|
.
|
|
|
= +

|
\
|
.
|
|
|
= + =
2
115
30
2
12
3
15
115 15 13
( ) . ( . )
. .
G X X X
G
X X X
n
Anti
n
n
=
=
+ + +
= = = ~
1 2
1 2
3345
30
111 1288 13
* *.....*
log log ... log .
. log .
G
Pm f Pm f pm f
f f f
Pmf
N
G
G Anti
n n
n
=
+ + +
+ + +
=

=
+ + + + +
=
+ + + + +
= = = ~
log log ..... log
....
log
log . ( ) log . ( ) log . ( ) lg . ( ) log . ( ) log . ( )
. . . . . . .
. log .
1 1 2 2
1 2
9 75 4 1135 8 12 95 3 14 55 9 1615 3 17 75 3
30
395 8 93 333 10 46 362 374
30
3353
30
111 12 88 13
Ho
n
X X X
n
x
Ho
n
=
+ + +
=
=
|
\
|
.
| +
|
\
|
.
| +
|
\
|
.
| +
|
\
|
.
| +
|
\
|
.
| +
|
\
|
.
| +
|
\
|
.
| +
|
\
|
.
| +
|
\
|
.
| +
|
\
|
.
|
== = =
1
1 1
1
30
1
9
2
1
10
2
1
11
4
1
12
4
1
13
3
1
14
5
1
15
4
1
16
3
1
17
2
1
18
30
240
12 5 13
1 2
.....
.

b) Datos agrupados

Ho
N
f
Pm
f
Pm
f
Pm
N
f
Pm
Ho
n
n
=
+ + +
=
=
+ + + + +
=
+ + + + +
= = =
1
1
2
2
30
4
4 75
8
1135
3
12 95
9
1455
3
1615
3
17 75
30
041 070 023 0621 018 017
30
2 30
1304 13
.....
. . . . . .
. . . . . . .
.

Prob y Estadisticas Trabajo 1

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Prob y Estadisticas Trabajo 1

Uploaded by

Copyright:

Available Formats

INTRODUCCIN:

La Estadstica descriptiva es una parte de la Estadstica cuyo objetivo es

You might also like