Professional Documents
Culture Documents
Perro 7 .35 35 %
Pajaro 4 .20 20 %
Hamster 4 .20 20 %
gato 5 .25 25 %
Gráfica de barras
Gráfica de pastel
10 1 1 2 4 5 2 4 4 8
8 7 8 4 10 4 2 6 2 9
5 6 6 4 12 8 1 12 1 7
7 6 8 4 6 9 3 7 7 5
2) Ordenación de datos
1 2 4 4 5 6 7 8 9 11
1 2 4 4 5 6 7 8 10 12
1 2 4 4 6 6 7 8 10 12
1 3 4 4 6 6 7 8 10 12
2 3 4 5 6 7 8 9 11 12
Rango = 12-1 = 11
3) Tamaño de clase
No de clases = 1 + 3.332log (50) = 6
Tamaño de clase = 11/6 = 2
4) Límites de clase
5) Límites reales de clase
6) Marca de clase
Clase Intervalo LRI LRS Frec. Frec. Frec. X
total 50 1 100 %
Representación gráfica de datos.
Se tomará el ejemplo anterior para demostrar el uso de diferentes gráficas.
Histograma: forma gráfica de barras que emplea variables con escala de
intervalos o de proporciones. Para realizarla, se toma en cuenta para el eje X, los
Límites reales, y para el eje Y, las frecuencias absolutas.
Polígono de frecuencias: Forma gráfica que representa una distribución de
frecuncias en la forma de una línea continua que traza un histograma. Para su
elaboración, se consideran las marcas de clase en el eje X y las frecuencias
absolutas en el eje Y.
Gráfica de barras: la gráfica de barras es una forma de gráfica que utiliza barras
para indicar la frecuencia de ocurrencia de las observaciones. Para construirla se
constituye el eje y por las frecuencias absolutas y el eje X por los límites inferior y
superior de cada clase, dejando un espacio entre barra y barra.
1.3 CALCULO DE LA MEDIA MEDIANA Y MODA
Medidas de tendencia central:
La tendencia central se refiere al punto medio de una distribución. Las medidas de
tendencia central se conocen como medidas de posición.
Media
La media es el punto en una distribución de medidas, alrededor del cual las
desviaciones sumadas son iguales a cero. Es el valor promedio de una muestra o
población. La media es muy sensible a mediciones extremas que no estén
balanceadas en ambos lados. Se pueden calcular diversos tipos de media, siendo
las más utilizadas:
a. Media aritmética: se calcula multiplicando cada valor por el número de
veces que se repite. La suma de todos estos productos se divide por el total de
datos de la muestra:
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más
concentrados están los valores de la serie alrededor de la media. Por el contrario,
mientras mayor sea la varianza, más dispersos están.
Desviación estándar: Se calcula como raíz cuadrada de la varianza.
A tiempo 800
Demorado 75
Cancelado 25
Total 1000
Ejemplo
Si A es el evento de que un vuelo llegue antes de tiempo, entonces
P(A) = 100 /1000 = 0.1.
Si B es el evento de que un vuelo llegue demorado, entonces
P(B) = 75 /1000 = 0.075.
La probabilidad de que un vuelo llegue antes de tiempo o demorado es
P(A o B) = P(A) + P(B) = .1 + .075 = 0.175.
UNIDAD III DISTRIBUCIONES DE PROBABILIDAD
3.1 VARIABLES ALEATORIAS
Las variables aleatorias son una transformación o función que asignan uny sólo un
valor numérico a cada resultado de un experimento.
Variables aleatorias discretas: comprenden reglas o modelos de probabilidad
para asignar o generar sólo valores diversos (no mediciones fraccionarias).
Variables aleatorias continuas:
3.2 DISTRIBUCION BINOMIAL
Una distribución de probabilidad ampliamente utilizada de una variable aleatoria
discreta es la distribución binomial. Esta describe varios procesos de interés para
los administradores.
Describe datos discretos, resultantes de un experimento denominado proceso
de Bernoulli en honor del matemático suizo Jacob Bernoulli, quien vivió en el siglo
XVII.
Empleo del proceso de Bernoulli.
Podemos servirnos de los resultados de un número fijo de lanzamientos de una
moneda como ejemplo de un proceso de Bernoulli. Este proceso lo describimos
así:
1. Cada ensayo ( cada lanzamiento, en nuestro caso) tiene sólo dos resultados
posibles: lado A o lado B, sí o no, éxito o fracaso.
2. La probabilidad del resultado de cualquier ensayo (lanzamiento) permanece fija
con el tiempo. Tratándose de una moneda la probabilidad de que salga de el lado
A sigue siendo de 0.5 en cada lanzamiento, cualquiera que sea el número de
veces que la moneda sea arrojada.
3. Los ensayos son estadísticamente independientes, es decir, el resultado de un
lanzamiento no afecta al de cualquier otro lanzamiento.
Cada proceso de Bernoulli tiene su propia probabilidad característica. Pongamos
el caso en que siete décimas partes de las personas que solicitaron cierto tipo
de empleo pasaron la prueba. Diremos entonces que la probabilidad característica
fue de 0.7 pero podemos describir los resultados de la prueba como un proceso de
Bernoulli sólo si tenemos la seguridad de que la proporción de los que fueron
aprobados permaneció constante con el tiempo.
Des de luego, la otra característica del proceso de Bernoulli también deberá ser
satisfecha. Cada prueba deberá arrojar tan sólo dos resultados (éxito o fracaso= y
los resultados de las pruebas habrán de ser estadísticamente independientes.
En un lenguaje más formal, el símbolo p representa la probabilidad de un éxito y el
símbolo q ( 1- p ) representa la probabilidad de un fracaso. Para representar cierto
número de éxitos, utilizaremos el símbolo r y para simbolizar el número total de
ensayos emplearemos el símbolo n.
Entonces tenemos que :
P Probabilidad de éxito.
Q Probabilidad de fracaso.
http://webs.ucm.es/info/genetica/Estadistica/estadistica_basica%202.htm#INI
CIO
La condición más obvia que se le puede pedir a una muestra es que sea
representativa de la población. Está claro que si no conocemos la población no
podemos saber si la muestra es representativa o no. La única forma de tener
cierta garantía de que esto ocurra es tomar nuestra muestra de forma que cada
individuo de la población y cada subgrupo posible de la población tengan igual
probabilidad de ser elegidos. A este tipo de muestras se les llama muestras
aleatorias o muestras al azar.
Una muestra aleatoria de tamaño n es un conjunto de n individuos
tomado de tal manera que cada subconjunto de tamaño n de la población tenga la
misma probabilidad de ser elegido como muestra; es decir, si la población tiene
tamaño N, cada una de las combinaciones posibles de n elementos debe ser
equiprobable.
Parámetros y estadísticos
Parámetros poblacionales
Parámetros muestrales
Estadísticos de centralidad:
1) La media aritmética
2) La mediana
3) La moda
Estadísticos de dispersión
El rango
La varianza
La desviación típica
Coeficiente de variación
Chi-cuadrado de ajuste
Así pues, una vez calculadas las frecuencias absolutas de cada valor o
intervalo de valores, obtendremos el número total de observaciones de la muestra
(T) sumando las frecuencias observadas
Estadístico de contraste
Una condición básica para que podamos llevar a cabo una prueba chi-
cuadrado es que las frecuencias de las distintas clases deben ser suficientemente
altas como para garantizar que pequeñas desviaciones aleatorias en la muestra
no tengan importancia decisiva sobre el valor del estadístico de contraste.
Sea cual sea el criterio que elijamos, si resultara que la prueba no es viable
podríamos recurrir a englobar los valores o clases de valores con sus vecinos más
próximos y pasar así a engrosar sus frecuencias. Este procedimiento no puede
llevarse hasta el absurdo pero proporciona una salida digna a situaciones
complejas. En casos excepcionales se pueden englobar valores que no sean
vecinos porque exista algún nexo lógico de conexión entre ellos.
Cuando sea necesario agrupar valores, los grados de libertad no se deben
calcular hasta que tengamos establecidas definitivamente las parejas de
frecuencias observadas y esperadas con las que calcularemos el estadístico de
contraste.
Por tanto, todo lo que necesitamos serán unas estimas de las funciones de
probabilidad de ambas variables por separado (f(x) y f(y)) y de la función de
probabilidad conjunta (f(x,y))
Por otra parte, si las variables no son independientes, las diferencias entre
las series de frecuencias observadas y esperadas serán mayores que las
atribuibles al efecto del azar y, al estar elevadas al cuadrado en el numerador de
la expresión anterior, ésta tenderá a ser mayor que lo que suele ser el valor de
una variable chi-cuadrado.
Estadístico de contraste
Ø A este número tendremos que restarle I debido a que, para calcular las
frecuencias esperadas, necesitamos calcular las I sumas de filas en la tabla
anterior. Conocidas las sumas de filas obtenemos el número total de
observaciones sin perder ningún grado de libertad.
Como hemos visto, esta prueba no hace ninguna suposición acerca del tipo
de distribución de ninguna de las variables implicadas y utiliza únicamente
información de la muestra, es decir, información contingente. Esta es la razón por
la que, habitualmente, se le llama chi-cuadrado de contingencia.
Hipótesis nula:
Hipótesis alternativa:
Esta es una tabla típica a la que se puede aplicar la metodología de la prueba chi-
cuadrado de independencia. Veamos como corresponden las hipótesis de una y
otra prueba. Si la clasificación de las observaciones en sucesos A y no-A fuera
independiente de la clasificación en muestras, la frecuencia relativa de A (y la de
no-A) serían iguales en todos los casos y los valores esperados de las frecuencias
absolutas se calcularían multiplicando la estima común de la frecuencia relativa
global por el número de observaciones en cada muestra.
lo cual no es otra cosa que el cociente entre la suma de la fila dos (F 2) y el total de
observaciones (T)