You are on page 1of 48

Simulacin de Procesos Industriales

Clase N 7: Modelacin de Datos de Entrada 23 de Mayo de 2003

Introduccin

Todo sistema tiene fuentes de aleatoriedad Manufactura: tiempo de proceso; tiempo de reparacin de mquinas Bancos: tiempo de atencin en cajas por depsitos; tiempo en otorgar un crdito

Para simular un sistema utilizando tiempos entre llegadas, tiempos de servicio, etc, se hace necesario especificar la distribucin de probabilidad Tiempos entre llegadas son IID exponencial Tiempos de servicio son uniformes

Hechos al Azar o Aleatorios


Un fenmeno o hecho aleatorio representa incertidumbre en la ocurrencia de tal hecho

Nmero clientes que llegan por hora. Tiempo entre llegada de dos clientes sucesivos. Nmero de errores en un documento. Cantidad de cartas de crdito en una semana. Demora en tramitar un documento. Tiempo en realizar cierta tarea.

Utilizamos los datos mismos recolectados en la simulacin

Cmo usamos los datos que recolectemos?

Cada dato de tiempo de servicio que recolectemos lo utilizamos

Utilizamos los datos para definir una distribucin emprica. Muestreamos desde esta distribucin emprica

Utilizamos tcnicas de inferencia estadstica standard para ajustar una distribucin terica a los datos y ejecutamos tests de hiptesis para ver la bondad del ajuste

Por qu es preferible utilizar una distribucin terica?


Una distribucin emprica puede tener irregularidades. Una terica suaviza los datos y provee informacin sobre toda la distribucin.

La emprica no permite generar valores fuera del rango de los datos observados. Al ajustar una distribucin terica se pueden utilizar valores fuera del rango observado.

Es una forma compacta de representar un conjunto de valores. Si hay n datos disponibles de una distribucin continua, hay que ingresar 2n datos de una distribucin emprica (en algunos paquetes de simulacin)

Modelos de Sucesos Aleatorios


En situaciones dnde no es posible decir nada sobre un fenmeno. Se desconoce totalmente lo que sucede y slo podemos establecer sus valores mnimos y mximos. Decimos que el patrn de comportamiento del fenmeno obedece a una Distribucin Uniforme. Representa el mximo de ignorancia sobre el fenmeno aleatorio.

Distribucin Uniforme
0,020

Min = 40
0,015

Mx = 100

0,010 1,0 0,005 0,8 0,000 40 46 52 58 64 70 76 82 88 94 100 0,4

Funcin Acumulada

Mx = 100

0,6

Funcin Densidad

0,2

0,0 40 46 52 58 64 70 76 82 88 94 100

Min = 40

Distribucin Uniforme

0,020

Funcin Densidad
a = min = 40 b (mx) = 100

0,015

1 f (x) = ba

a<x<b

0,010

0,005

Funcin Distribucin
40 46 52 58 64 70 76 82 88 94 100

0,000

F (x) =

1 dx ba

Funcin Densidad

Modelos de Sucesos Aleatorios


En situaciones dnde exista la posibilidad de error en la medicin, como por ejemplo medir repetidamente - Distancias - Volmenes - Pesos - Tiempo de ejecucin de una tarea repetitiva Es posible encontrar un valor promedio de tales mediciones y un valor que representa la variabilidad de tales mediciones. Estos hechos se pueden modelar por una Distribucin Normal.

Distribucin Normal
0,02 0,02 0,01 0,01 0,01 0,01 0,01 0,00 0,00 0,00 0 50 100 150 200 250 300 350

= =

200 50

Funcin Densidad

1 f (x) = e

( x )2 2

Funcin Densidad

Modelos de Sucesos Aleatorios


La evidencia emprica permite apostar que hechos tales como - nmero de accidentes, - nmero de errores, - nmero de documentos que arriban En general, todos aquellos en donde cada ocurrencia se puede considerar independiente de todas las otras, se pueden modelar por una Distribucin Poisson Lo nico que podemos establecer es una tasa o frecuencia de ocurrencia del fenmeno por cierta unidad de tiempo: ocurrencias / tiempo

Distribucin Poisson

Probabilidad Ocurrencia

0,12 0,10 0,08 0,06 0,04 0,02 0,00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Funcin de Masa

Nmero de Ocurrencias

Tasa Ocurrencia = 10 llegadas/hora

Modelos de Sucesos Aleatorios


Cuando el nmero de ocurrencias por unidad de tiempo de un fenmeno o hecho aleatorio se puede representar por una distribucin de Poisson, entonces el tiempo que transcurre entre dos observaciones sucesivas de tales fenmenos tiene una Distribucin Exponencial. El tiempo esperado o promedio entre dos ocurrencias sucesivas es igual a la inversa de la tasa de ocurrencias E(T) = 1/ .

Distribucin Exponencial
25

Funcin Densidad
20 15 10 5 0 0 10 20 30 40 50 60 70 80 90 minutos

f (x)=

1 e

Funcin Acumulada
x

Funcin Densidad
E(T) =

F (x ) = 1 e

= 15 min / entre llegadas

Modelos de Sucesos Aleatorios


Algunas actividades como tiempo de reparacin o duracin llamadas telefnicas tambin pueden ser modeladas por una exponencial. Sin embargo, esto indica que para la mayora de las entidades el tiempo de servicio es cero (la moda es cero). Esto evidentemente no es cierto (pero no produce muchas distorsiones en muchos casos) La Distribucin Gamma tiene diferentes formas; por lo que permite modelar tiempos de servicios que no pueden ser cero (la reaparicin de una pieza requiere de algn trabajo previo)

Distribucin Gamma

0.040 0.035 0.030 0.025 0.020 0.015 0.010 0.005 0.000 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95

Funcin Acumulada

x e f (x)= ( )

x>0

E(X) = V(X) =
2

Funcin Densidad

Modelos de Sucesos Aleatorios


Tambin es una distribucin muy til cuando se tiene poca informacin. Slo se sabe un valor mnimo, un mximo y uno ms probable. Se utiliza para modelar porcentaje de temes defectuosos en un lote tiempo de cumplimiento de una tarea en PERT

Distribucin Beta

Distribucin Beta X ( r , s ) ssi

( r + s ) r 1 f X ( x, r , s ) = x (1 x ) s 1 ( r ) ( s )
( r , s ) = x r 1 (1 x ) s 1 dx
0 1

I[ ] ( x)
0 ,1

( n ) = y n 1e y dy
0

n>0

Distribucin Beta

A good model for proportions. You can fit almost any data. However, the data set MUST be bounded!

Modelos de Sucesos Aleatorios


Se ha descubierto que la Distribucin Weibull permite modelar razonablemente bien los fenmenos de tiempos de operacin entre fallas en equipos sometidos a desgaste.

Distribucin Weibull

Generadores en Lenguajes

Los lenguajes de simulacin -como Arena- tienen incorporados mtodos para generar hechos de acuerdo al patrn que se les indique. Es preciso estudiar cuidadosamente el patrn de comportamiento de los hechos reales para poder simularlos correctamente. Esto se logra mediante el anlisis estadstico de una serie de observaciones del mundo real.

DISTRIBUCION Uniforme Exponencial Gamma Weibull Normal Lognormal Beta Pearson Triangular

APLICACION

Aplicacin de distribuciones continuas

Utilizada como primer modelo para una cantidad que se siente que vara aleatoriamente entre a y b y de la que se conoce poco. Tiempo entre llegadas de clientes a un sistema que ocurren a tasa constante Tiempo en completar cierta tarea: atencin de un cliente o reparacin de una mquina Tiempo en completar cierta tarea, tiempo en que falla una pieza de un equipo Errores de varios tipos Tiempo en ejecutar cierta tarea Utilizada como un modelo grueso en ausencia de datos; distribucin de items defectuosos en un embarque Tiempo en ejecutar cierta tarea Utilizada como un modelo grueso en ausencia de datos

Aplicacin distribuciones discretas


DISTRIBUCION Bernouilli Uniforme discreta Binomial Geomtrica Binomial negativa Poisson METODO EMPLEADO Ocurrencia aleatoria con 2 posibles resultados Ocurrencia aleatoria convarios posibles resultados igualmente probables Nmero de items defectuosos en un batch de tamao t Nmero de items inspeccionados antes de encontrar el primer item defectuoso Nmero de itemes buenos inspeccionados antes de encontrar el s-simo defectuoso Nmero de eventos que ocurren en un intervalo de tiempo cuando los eventos estn ocurriendo a tasa constante

Distribuciones Empricas
Hay casos en que deseamos utilizar una distribucin emprica; en otros no se ha podido ajustar una distribucin terica. Para datos originales X1 , X2 , ..., para cada posible valor x se define una funcin de masa emprica p(x) como la proporcin de los Xi que son iguales a x

Tcnicas para determinar independencia


Una suposicin importante de muchas tcnicas estadsticas es que las observaciones X1 , X2 , . Xn son una muestra independiente de alguna distribucin Se da el caso de observaciones recogidas en el tiempo que son dependientes M/M/1: si la tasa de llegada de clientes es cercana a la de servicio, el sistema estar congestionado y los Xi estarn correlacionados Tcnica principal: Grfico de correlacin (correlation plot)

Actividad I: Hiptesis respecto de familias de distribuciones


Primer paso es decidir qu familia de distribuciones e apropiada en base

a su forma - En algunos casos se puede utilizar el conocimiento a priori dadas las caractersticas del sistema LLegada de clientes ( Poisson) Tiempos de servicio no pueden ser normales (valores negativos) Ayudas Estadsticas de resumen Histogramas Box plots

Estadsticas de Resumen
Estadstico Media Varianza
2

Frmula
N

X =
N

i= 1 Xi

N
i

( X
i =1

X )2

N 1

Coeficiente de variacin Skewness

C = V
N

2
X
X N
3 2

1 = i =

[X i
2

]3

[ ]

Recetas

cv = 1 para la distribucin exponencial, independiente de b cv > 1 para Gamma y Weibull Para distribuciones simtricas n = 1 (skewness)

Histogramas
Un histograma es un estimador de la funcin densidad que corresponde a la distribucin de X 1 , X 2 , ... X n Histograma: se rompe el rango de valores en k intervalos adyacentes [b0 , b1), [b1 , b2 )...., [ bk-1 , bk ), todos los intervalos del mismo ancho b = bj bj-1 Para j = 1, 2, ... k sea hj la proporcin de los Xi que estn en el intervalo [bj-1 , bj ). Se define la funcin h(x) = 0 si x < b0 = h j si b j-1 x < b j para j = 1, 2, ... k = 0 si b k x

se plotea h(x) como funcin de x

Recetas para k

Regla de Sturges k = [1 + log 2 n] = [1 + 3.322 log 10 n] Probar con diferentes valores de Db y escoger el que de una forma ms parecida a una funcin densidad conocida

Actividad 2: Estimacin de parmetros

Estimadores de mxima verosimilitud

tienen propiedades deseables son importantes para justificar el test de chi-cuadrado para ajustes de distribucin la idea central tiene gran sentido comn

Actividad 3: Determinar la representatividad del ajuste Dos tipos de mtodos:


procedimientos heursticos comparacin de frecuencias grficos de probabilidades (P-P (probability-probability); Q -Q (quantile-quantile))

Test de hiptesis de ajuste de distribuciones


Chi-cuadrado Kolmogorov-Smirnoff

Tests de bondad de ajuste

Un test de bondad de ajuste es un test de hiptesis estadstico que se utiliza para determinar formalmente si las observaciones X1 , X2 , ... Xn son una muestra in-dependiente de una distribucin particular con funcin de distribucin F. El test se utiliza para verificar la siguiente hiptesis nula:

H0 : Los Xi s son variables aleatorias IID con funcin de distribucin F.

Test de Chi-cuadrado

Dividir el rango de la distribucin a ajustar en k intervalos adyacentes [a0 , a1) , [a1 ,a2 )...., [ak-1 ,ak) Nj = nmero de Xi s en el j-simo intervalo [aj-1 ,aj ) para j = 1, 2, 3, ... k Calcular la proporcin pj esperada de los Xi s que caern en el intervalo j si estuvisemos muestreando desde la distribucin ajustada
p j = p ( xi )
i

p j = f ( x) dx

donde f(x) = densidad de distribucin donde p(x i )= funcin de masas

Test de Chi-cuadrado

La estadstica es

2 =
j

( N j n pj ) 2 n pj

Como npj es el valor esperado del nmero de los n Xi s que caeran en el j-esimo intervalo, si H0 fuese verdadera 2 esperaramos que fuese pequea si el ajuste es bueno. Por 2 tanto rechazamos H0 si es grande Rechazar H0 si

2 > k21,1

Ejemplo

Se desea desarrollar un modelo de simulacin para una instalacin bancaria de banco-al-auto, recolectndose datos sobre la tasa de llegada de automviles. En un intervalo de 90 minutos llegaron 220 autos y se registr el tiempo entre llegadas entre el auto i y el i+1 para i= 1, 2, 3, ... ,219

Datos del Ejemplo


0,06 0,07 0,07 0,07 0,07 0,07 0,07 0,07 0,07 0,07 0,07 0,08 0,08 0,08 0,08 0,09 0,09 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,11 0,11 0,11 0,11 0,11 0,12 0,12 0,12 0,12 0,13 0,13 0,14 0,14 0,14 0,14 0,15 0,15 0,15 0,15 0,15 0,15 0,17 0,18 0,19 0,19 0,19 0,2 0,21 0,21 0,21 0,21 0,21 0,22 0,22 0,22 0,23 0,23 0,23 0,23 0,23 0,24 0,25 0,25 0,25 0,25 0,25 0,26 0,26 0,26 0,26 0,26 0,27 0,28 0,28 0,29 0,29 0,3 0,31 0,31 0,32 0,35 0,35 0,35 0,36 0,36 0,36 0,37 0,37 0,38 0,38 0,38 0,38 0,38 0,39 0,4 0,4 0,41 0,41 0,43 0,43 0,43 0,44 0,45 0,45 0,46 0,47 0,47 0,47 0,48 0,49 0,49 0,49 0,49 0,5 0,5 0,5 0,51 0,51 0,51 0,52 0,52 0,53 0,53 0,53 0,54 0,54 0,55 0,55 0,56 0,57 0,57 0,6 0,61 0,61 0,63 0,63 0,64 0,65 0,65 0,65 0,69 0,69 0,7 0,72 0,72 0,72 0,74 0,75 0,76 0,77 0,79 0,84 0,86 0,87 0,88 0,88 0,9 0,93 0,93 0,95 0,97 1,03 1,05 1,05 1,06 1,09 1,1 1,11 1,12 1,17 1,18 1,24 1,24 1,28 1,33 1,38 1,44 1,51 1,72 1,83 1,96

Histograma y Estadsticas de Resumen


Estadsticas de Resumen Media Error tpico Mediana Moda Desviacin estndar Varianza de la muestra Curtosis Coeficiente de asimetra Rango Mnimo Mximo Suma Cuenta 0.39876712 0.02568029 0.27 0.05 0.3800336 0.14442554 2.25002659 1.4780332 1.95 0.01 1.96 87.33 219

Histograma
60 50

Frecuencia

40 30 20 10 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Clase

Ejemplo
Hiptesis: tiempos entre legadas son exponenciales F(x)=1 - e -x/0.399 k=20 intervalos; p j =1/k=0.05 npj = (219)(0.05) = 10.95
j 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 F(aj)^(-1) 0.020 0.042 0.065 0.089 0.115 0.142 0.172 0.204 0.239 0.277 0.319 0.366 0.419 0.480 0.553 0.642 0.757 0.919 1.195 inf Intervalo [0 , 0.020) [0.020 , 0.042) [0.0420 , 0.065) [0.02065 , 0.089) [0.089 , 0.115) [0.115 , 0.142) [0.142 , 0.172) [0.172 , 0.204) [0.204 , 0.239) [0.239 , 0.277) [0.277 , 0.319) [0.319 , 0.366 ) [0.366 , 0.419 ) [0.419 , 0.480 ) [0.480 , 0.553 ) [0.553 , 0.642 ) [0.642 , 0.757 ) [ 0.757 , 0.919 ) [ 0.919 , 1.195 ) [ 1.195, inf ) Nj 8 11 14 14 16 10 7 5 13 12 7 7 12 10 20 9 11 9 14 10 npj ((Nj-npj)^2)/npj 10.95 0.794749 10.95 0.000228 10.95 0.849543 10.95 0.849543 10.95 2.3290 10.95 0.08242 10.95 1.424886 10.95 3.23311 10.95 0.38379 10.95 0.100685 10.95 1.424886 10.95 1.424886 10.95 0.100685 10.95 0.08242 10.95 7.4797 10.95 0.34726 10.95 0.000228 10.95 0.34726 10.95 0.849543 10.95 0.08242 Test 22.187217

2= 22.18721

2 k2puede rechazar H0 = 219, 0.90 No se 1,1

=27.204

Test Kolmogorov-Smirnoff

Comparan una funcin de distribucin emprica con la hiptesis de funcin distribucin No requieren agrupar los datos de modo que no se pierde informacin; elimina el problema de definicin del intervalo escogido Son vlidos para cualquier muestra de tamao n Tienden a ser ms poderosos que los tests de Chi-cuadrado Para definir la estadstica K-S se debe definir primero una funcin distribucin emprica F n (x) a partir de nuestros datos X1 , X 2 , ... Xn tal que:

Test Kolmogorov-Smirnoff
Fn
(x) = nmero de Xi s x / n, para todo x real

La estadstica K-S Dn es simplemente la distancia (vertical) ms grande entre Fn (x) y F(x) para todos los valores de x: Dn =sup{ | Fn (x) - F(x) | } sup de un conjunto A es el valor ms pequeo que es mayor o igual que todos los miembros de A Dn puede ser calculado del modo siguiente: Dn + = mx{ ( i/n) - F(X i ) } Dn - = mx{F(X i ) - (( i-1)/n)} Dn = mx{Dn + , Dn - }

Se rechaza H0 si Dn excede c1-

Test Kolmogorov-Smirnoff

Si todos los parmetros de F son conocidos se rechaza H0 si:


(n1/2 + 0.12 + 0.11 / n 1/2 ) Dn > c1-

Si la distribucin hipottica es normal N(, 2 ) con ambos parmetros desconocidos se rechaza H0 si:
(n1/2 - 0.01 + 0.85 / n1/2 ) Dn > c1-

Si la distribucin es exponencial
e F(x) = 1 - e -x/mdia

(Dn - 0.2/n)(n1/2 + 0.26 + 0.5/ n1/2 > c1-

Ejemplo

Mismo sistema banco-al-auto Para la distribucin expo(0.399) F(x)=1 - e -x/0.399 Dn + = mx{ ( i/219) - 1 - e -x/0.399 ) } Dn - = mx{1 - e -x/0.399 - (( i-1)/219)} Dn = mx{Dn + , Dn - }

Ejemplo
Test de Kolmogorov

Media Parmetro

0.398767 2.507729 Test

Dn

0.53793577 0.81146923 Dn + -0.00393407 -0.00393407 -0.00393407 -0.00393407 -0.00393407 -0.00393407 -0.00393407 -0.00393407 -0.40553399 -0.41692109 -0.43028333 -0.44546569 -0.48849902 -0.50961138 -0.53336956 Dn 0.00850028 0.00850028 0.00850028 0.00850028 0.00850028 0.00850028 0.00850028 0.00850028 0.4101002 0.4214873 0.43484954 0.4500319 0.49306523 0.51417759 0.53793577

SERIE 2 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 1.33 1.38 1.44 1.51 1.72 1.83 1.96

i 1 2 3 4 5 6 7 8 213 214 215 216 217 218 219

Fn (X) 0.00456621 0.00913242 0.01369863 0.01826484 0.02283105 0.02739726 0.03196347 0.03652968 0.97260274 0.97716895 0.98173516 0.98630137 0.99086758 0.99543379 1.00000000

F(Xi ) 0.003980 0.003980 0.003980 0.003980 0.003980 0.003980 0.003980 0.003980 0.411607 0.423222 0.436859 0.452361 0.496353 0.517968 0.542319

Ejemplo

Dn = mx{Dn + , Dn - } = 0.5379 Estadstica ajustada: (D 219 - 0.2/219)(0.2191/2 + 0.26 + 0.5/ 0.219 1/2 ) = 0.8114 De la tabla c = 1,308 No se puede rechazar la hiptesis nula

Todos los parmetros Conocidos Normal Exponencial

Valores crticos modificados para estadstica K-S 0,850 0,900 0,950 0,975 0.99 1,138 1,224 1,358 1,480 1,628 0,775 0,819 0,895 0,955 1,035 0,926 0,990 1,094 1,190 1,308

A veces el sistema no existe en su forma actual y los mtodos anteriores no pueden emplearse Otras veces el tiempo disponible para recolectar informacin es pequeo o es muy caro Supongamos que la variable X de inters es continua.

Seleccionar distribucin en ausencia de datos

El primer paso ser seleccionar un intervalo [a,b] donde se crea que X


cae con probabilidad 1 Se le pide a expertos que den sus estimadores ms optimistas (b), pesimistas (a) y el ms probable (c) para el tiempo en ejecutar una tarea Luego se utiliza una distribucin triangular como funcin de densidad de probabilidades sobre [a,b]

Dados a, b y c, la variable aleatoria X se considera triangular Media = (a+b+c)/3 Moda = c Algoritmo:


1. Generar U ~U(0,1) 2. Si U c, retornar X = (cU)1/2 . De otro modo retornar

Seleccionar distribucin en ausencia de datos

X = 1 - ((1-c)(1-U))1/2

You might also like