(2003-05-26) 786 Modelacion de Datos de Entrada

Simulacin de Procesos Industriales
Clase N 7: Modelacin de Datos de Entrada 23 de Mayo de 2003
Introduccin
Todo sistema tiene fuentes de aleatoriedad Manufactura: tiempo de proceso; tiempo de reparacin de mquinas Bancos: tiempo de atencin en cajas por depsitos; tiempo en otorgar un crdito
Para simular un sistema utilizando tiempos entre llegadas, tiempos de servicio, etc, se hace necesario especificar la distribucin de probabilidad Tiempos entre llegadas son IID exponencial Tiempos de servicio son uniformes
Hechos al Azar o Aleatorios

Un fenmeno o hecho aleatorio representa incertidumbre en la ocurrencia de tal hecho

Nmero clientes que llegan por hora. Tiempo entre llegada de dos clientes sucesivos. Nmero de errores en un documento. Cantidad de cartas de crdito en una semana. Demora en tramitar un documento. Tiempo en realizar cierta tarea.
Utilizamos los datos mismos recolectados en la simulacin
Cmo usamos los datos que recolectemos?
Cada dato de tiempo de servicio que recolectemos lo utilizamos
Utilizamos los datos para definir una distribucin emprica. Muestreamos desde esta distribucin emprica
Utilizamos tcnicas de inferencia estadstica standard para ajustar una distribucin terica a los datos y ejecutamos tests de hiptesis para ver la bondad del ajuste
Por qu es preferible utilizar una distribucin terica?

Una distribucin emprica puede tener irregularidades. Una terica suaviza los datos y provee informacin sobre toda la distribucin.
La emprica no permite generar valores fuera del rango de los datos observados. Al ajustar una distribucin terica se pueden utilizar valores fuera del rango observado.
Es una forma compacta de representar un conjunto de valores. Si hay n datos disponibles de una distribucin continua, hay que ingresar 2n datos de una distribucin emprica (en algunos paquetes de simulacin)
Modelos de Sucesos Aleatorios

En situaciones dnde no es posible decir nada sobre un fenmeno. Se desconoce totalmente lo que sucede y slo podemos establecer sus valores mnimos y mximos. Decimos que el patrn de comportamiento del fenmeno obedece a una Distribucin Uniforme. Representa el mximo de ignorancia sobre el fenmeno aleatorio.
Distribucin Uniforme
0,020
Min = 40
0,015
Mx = 100
0,010 1,0 0,005 0,8 0,000 40 46 52 58 64 70 76 82 88 94 100 0,4
Funcin Acumulada
Mx = 100
0,6
Funcin Densidad
0,2
0,0 40 46 52 58 64 70 76 82 88 94 100
Min = 40
Distribucin Uniforme
0,020
Funcin Densidad
a = min = 40 b (mx) = 100
0,015
1 f (x) = ba
a<x<b
0,010
0,005
Funcin Distribucin
40 46 52 58 64 70 76 82 88 94 100
0,000
F (x) =
1 dx ba
Funcin Densidad

En situaciones dnde exista la posibilidad de error en la medicin, como por ejemplo medir repetidamente - Distancias - Volmenes - Pesos - Tiempo de ejecucin de una tarea repetitiva Es posible encontrar un valor promedio de tales mediciones y un valor que representa la variabilidad de tales mediciones. Estos hechos se pueden modelar por una Distribucin Normal.
Distribucin Normal
0,02 0,02 0,01 0,01 0,01 0,01 0,01 0,00 0,00 0,00 0 50 100 150 200 250 300 350
= =
200 50
Funcin Densidad
1 f (x) = e
( x )2 2
Funcin Densidad

La evidencia emprica permite apostar que hechos tales como - nmero de accidentes, - nmero de errores, - nmero de documentos que arriban En general, todos aquellos en donde cada ocurrencia se puede considerar independiente de todas las otras, se pueden modelar por una Distribucin Poisson Lo nico que podemos establecer es una tasa o frecuencia de ocurrencia del fenmeno por cierta unidad de tiempo: ocurrencias / tiempo
Distribucin Poisson
Probabilidad Ocurrencia
0,12 0,10 0,08 0,06 0,04 0,02 0,00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Funcin de Masa
Nmero de Ocurrencias
Tasa Ocurrencia = 10 llegadas/hora

Cuando el nmero de ocurrencias por unidad de tiempo de un fenmeno o hecho aleatorio se puede representar por una distribucin de Poisson, entonces el tiempo que transcurre entre dos observaciones sucesivas de tales fenmenos tiene una Distribucin Exponencial. El tiempo esperado o promedio entre dos ocurrencias sucesivas es igual a la inversa de la tasa de ocurrencias E(T) = 1/ .
Distribucin Exponencial
25
Funcin Densidad
20 15 10 5 0 0 10 20 30 40 50 60 70 80 90 minutos
f (x)=
1 e
Funcin Acumulada
x
Funcin Densidad
E(T) =
F (x ) = 1 e
= 15 min / entre llegadas

Algunas actividades como tiempo de reparacin o duracin llamadas telefnicas tambin pueden ser modeladas por una exponencial. Sin embargo, esto indica que para la mayora de las entidades el tiempo de servicio es cero (la moda es cero). Esto evidentemente no es cierto (pero no produce muchas distorsiones en muchos casos) La Distribucin Gamma tiene diferentes formas; por lo que permite modelar tiempos de servicios que no pueden ser cero (la reaparicin de una pieza requiere de algn trabajo previo)
Distribucin Gamma
0.040 0.035 0.030 0.025 0.020 0.015 0.010 0.005 0.000 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95
Funcin Acumulada
x e f (x)= ( )
x>0
E(X) = V(X) =
2
Funcin Densidad

Tambin es una distribucin muy til cuando se tiene poca informacin. Slo se sabe un valor mnimo, un mximo y uno ms probable. Se utiliza para modelar porcentaje de temes defectuosos en un lote tiempo de cumplimiento de una tarea en PERT
Distribucin Beta
Distribucin Beta X ( r , s ) ssi
( r + s ) r 1 f X ( x, r , s ) = x (1 x ) s 1 ( r ) ( s )
( r , s ) = x r 1 (1 x ) s 1 dx
0 1
I[ ] ( x)
0 ,1
( n ) = y n 1e y dy
0
n>0
Distribucin Beta
A good model for proportions. You can fit almost any data. However, the data set MUST be bounded!

Se ha descubierto que la Distribucin Weibull permite modelar razonablemente bien los fenmenos de tiempos de operacin entre fallas en equipos sometidos a desgaste.
Distribucin Weibull
Generadores en Lenguajes
Los lenguajes de simulacin -como Arena- tienen incorporados mtodos para generar hechos de acuerdo al patrn que se les indique. Es preciso estudiar cuidadosamente el patrn de comportamiento de los hechos reales para poder simularlos correctamente. Esto se logra mediante el anlisis estadstico de una serie de observaciones del mundo real.
DISTRIBUCION Uniforme Exponencial Gamma Weibull Normal Lognormal Beta Pearson Triangular
APLICACION
Aplicacin de distribuciones continuas
Utilizada como primer modelo para una cantidad que se siente que vara aleatoriamente entre a y b y de la que se conoce poco. Tiempo entre llegadas de clientes a un sistema que ocurren a tasa constante Tiempo en completar cierta tarea: atencin de un cliente o reparacin de una mquina Tiempo en completar cierta tarea, tiempo en que falla una pieza de un equipo Errores de varios tipos Tiempo en ejecutar cierta tarea Utilizada como un modelo grueso en ausencia de datos; distribucin de items defectuosos en un embarque Tiempo en ejecutar cierta tarea Utilizada como un modelo grueso en ausencia de datos
Aplicacin distribuciones discretas

DISTRIBUCION Bernouilli Uniforme discreta Binomial Geomtrica Binomial negativa Poisson METODO EMPLEADO Ocurrencia aleatoria con 2 posibles resultados Ocurrencia aleatoria convarios posibles resultados igualmente probables Nmero de items defectuosos en un batch de tamao t Nmero de items inspeccionados antes de encontrar el primer item defectuoso Nmero de itemes buenos inspeccionados antes de encontrar el s-simo defectuoso Nmero de eventos que ocurren en un intervalo de tiempo cuando los eventos estn ocurriendo a tasa constante
Distribuciones Empricas
Hay casos en que deseamos utilizar una distribucin emprica; en otros no se ha podido ajustar una distribucin terica. Para datos originales X1 , X2 , ..., para cada posible valor x se define una funcin de masa emprica p(x) como la proporcin de los Xi que son iguales a x
Tcnicas para determinar independencia

Una suposicin importante de muchas tcnicas estadsticas es que las observaciones X1 , X2 , . Xn son una muestra independiente de alguna distribucin Se da el caso de observaciones recogidas en el tiempo que son dependientes M/M/1: si la tasa de llegada de clientes es cercana a la de servicio, el sistema estar congestionado y los Xi estarn correlacionados Tcnica principal: Grfico de correlacin (correlation plot)
Actividad I: Hiptesis respecto de familias de distribuciones

Primer paso es decidir qu familia de distribuciones e apropiada en base
a su forma - En algunos casos se puede utilizar el conocimiento a priori dadas las caractersticas del sistema LLegada de clientes ( Poisson) Tiempos de servicio no pueden ser normales (valores negativos) Ayudas Estadsticas de resumen Histogramas Box plots
Estadsticas de Resumen
Estadstico Media Varianza
2
Frmula
N
X =
N
i= 1 Xi
N
i
( X
i =1
X )2
N 1
Coeficiente de variacin Skewness
C = V
N
2
X
X N
3 2
1 = i =
[X i
2
]3
[ ]
Recetas
cv = 1 para la distribucin exponencial, independiente de b cv > 1 para Gamma y Weibull Para distribuciones simtricas n = 1 (skewness)
Histogramas
Un histograma es un estimador de la funcin densidad que corresponde a la distribucin de X 1 , X 2 , ... X n Histograma: se rompe el rango de valores en k intervalos adyacentes [b0 , b1), [b1 , b2 )...., [ bk-1 , bk ), todos los intervalos del mismo ancho b = bj bj-1 Para j = 1, 2, ... k sea hj la proporcin de los Xi que estn en el intervalo [bj-1 , bj ). Se define la funcin h(x) = 0 si x < b0 = h j si b j-1 x < b j para j = 1, 2, ... k = 0 si b k x
se plotea h(x) como funcin de x
Recetas para k
Regla de Sturges k = [1 + log 2 n] = [1 + 3.322 log 10 n] Probar con diferentes valores de Db y escoger el que de una forma ms parecida a una funcin densidad conocida
Actividad 2: Estimacin de parmetros
Estimadores de mxima verosimilitud
tienen propiedades deseables son importantes para justificar el test de chi-cuadrado para ajustes de distribucin la idea central tiene gran sentido comn
Actividad 3: Determinar la representatividad del ajuste Dos tipos de mtodos:

procedimientos heursticos comparacin de frecuencias grficos de probabilidades (P-P (probability-probability); Q -Q (quantile-quantile))
Test de hiptesis de ajuste de distribuciones

Chi-cuadrado Kolmogorov-Smirnoff
Tests de bondad de ajuste
Un test de bondad de ajuste es un test de hiptesis estadstico que se utiliza para determinar formalmente si las observaciones X1 , X2 , ... Xn son una muestra in-dependiente de una distribucin particular con funcin de distribucin F. El test se utiliza para verificar la siguiente hiptesis nula:
H0 : Los Xi s son variables aleatorias IID con funcin de distribucin F.
Test de Chi-cuadrado
Dividir el rango de la distribucin a ajustar en k intervalos adyacentes [a0 , a1) , [a1 ,a2 )...., [ak-1 ,ak) Nj = nmero de Xi s en el j-simo intervalo [aj-1 ,aj ) para j = 1, 2, 3, ... k Calcular la proporcin pj esperada de los Xi s que caern en el intervalo j si estuvisemos muestreando desde la distribucin ajustada
p j = p ( xi )
i
p j = f ( x) dx
donde f(x) = densidad de distribucin donde p(x i )= funcin de masas
Test de Chi-cuadrado
La estadstica es
2 =
j
( N j n pj ) 2 n pj
Como npj es el valor esperado del nmero de los n Xi s que caeran en el j-esimo intervalo, si H0 fuese verdadera 2 esperaramos que fuese pequea si el ajuste es bueno. Por 2 tanto rechazamos H0 si es grande Rechazar H0 si
2 > k21,1
Ejemplo
Se desea desarrollar un modelo de simulacin para una instalacin bancaria de banco-al-auto, recolectndose datos sobre la tasa de llegada de automviles. En un intervalo de 90 minutos llegaron 220 autos y se registr el tiempo entre llegadas entre el auto i y el i+1 para i= 1, 2, 3, ... ,219
Datos del Ejemplo

0,06 0,07 0,07 0,07 0,07 0,07 0,07 0,07 0,07 0,07 0,07 0,08 0,08 0,08 0,08 0,09 0,09 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,11 0,11 0,11 0,11 0,11 0,12 0,12 0,12 0,12 0,13 0,13 0,14 0,14 0,14 0,14 0,15 0,15 0,15 0,15 0,15 0,15 0,17 0,18 0,19 0,19 0,19 0,2 0,21 0,21 0,21 0,21 0,21 0,22 0,22 0,22 0,23 0,23 0,23 0,23 0,23 0,24 0,25 0,25 0,25 0,25 0,25 0,26 0,26 0,26 0,26 0,26 0,27 0,28 0,28 0,29 0,29 0,3 0,31 0,31 0,32 0,35 0,35 0,35 0,36 0,36 0,36 0,37 0,37 0,38 0,38 0,38 0,38 0,38 0,39 0,4 0,4 0,41 0,41 0,43 0,43 0,43 0,44 0,45 0,45 0,46 0,47 0,47 0,47 0,48 0,49 0,49 0,49 0,49 0,5 0,5 0,5 0,51 0,51 0,51 0,52 0,52 0,53 0,53 0,53 0,54 0,54 0,55 0,55 0,56 0,57 0,57 0,6 0,61 0,61 0,63 0,63 0,64 0,65 0,65 0,65 0,69 0,69 0,7 0,72 0,72 0,72 0,74 0,75 0,76 0,77 0,79 0,84 0,86 0,87 0,88 0,88 0,9 0,93 0,93 0,95 0,97 1,03 1,05 1,05 1,06 1,09 1,1 1,11 1,12 1,17 1,18 1,24 1,24 1,28 1,33 1,38 1,44 1,51 1,72 1,83 1,96
Histograma y Estadsticas de Resumen

Estadsticas de Resumen Media Error tpico Mediana Moda Desviacin estndar Varianza de la muestra Curtosis Coeficiente de asimetra Rango Mnimo Mximo Suma Cuenta 0.39876712 0.02568029 0.27 0.05 0.3800336 0.14442554 2.25002659 1.4780332 1.95 0.01 1.96 87.33 219
Histograma
60 50
Frecuencia
40 30 20 10 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Clase
Ejemplo
Hiptesis: tiempos entre legadas son exponenciales F(x)=1 - e -x/0.399 k=20 intervalos; p j =1/k=0.05 npj = (219)(0.05) = 10.95
j 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 F(aj)^(-1) 0.020 0.042 0.065 0.089 0.115 0.142 0.172 0.204 0.239 0.277 0.319 0.366 0.419 0.480 0.553 0.642 0.757 0.919 1.195 inf Intervalo [0 , 0.020) [0.020 , 0.042) [0.0420 , 0.065) [0.02065 , 0.089) [0.089 , 0.115) [0.115 , 0.142) [0.142 , 0.172) [0.172 , 0.204) [0.204 , 0.239) [0.239 , 0.277) [0.277 , 0.319) [0.319 , 0.366 ) [0.366 , 0.419 ) [0.419 , 0.480 ) [0.480 , 0.553 ) [0.553 , 0.642 ) [0.642 , 0.757 ) [ 0.757 , 0.919 ) [ 0.919 , 1.195 ) [ 1.195, inf ) Nj 8 11 14 14 16 10 7 5 13 12 7 7 12 10 20 9 11 9 14 10 npj ((Nj-npj)^2)/npj 10.95 0.794749 10.95 0.000228 10.95 0.849543 10.95 0.849543 10.95 2.3290 10.95 0.08242 10.95 1.424886 10.95 3.23311 10.95 0.38379 10.95 0.100685 10.95 1.424886 10.95 1.424886 10.95 0.100685 10.95 0.08242 10.95 7.4797 10.95 0.34726 10.95 0.000228 10.95 0.34726 10.95 0.849543 10.95 0.08242 Test 22.187217
2= 22.18721
2 k2puede rechazar H0 = 219, 0.90 No se 1,1
=27.204
Test Kolmogorov-Smirnoff
Comparan una funcin de distribucin emprica con la hiptesis de funcin distribucin No requieren agrupar los datos de modo que no se pierde informacin; elimina el problema de definicin del intervalo escogido Son vlidos para cualquier muestra de tamao n Tienden a ser ms poderosos que los tests de Chi-cuadrado Para definir la estadstica K-S se debe definir primero una funcin distribucin emprica F n (x) a partir de nuestros datos X1 , X 2 , ... Xn tal que:
Fn
(x) = nmero de Xi s x / n, para todo x real
La estadstica K-S Dn es simplemente la distancia (vertical) ms grande entre Fn (x) y F(x) para todos los valores de x: Dn =sup{ | Fn (x) - F(x) | } sup de un conjunto A es el valor ms pequeo que es mayor o igual que todos los miembros de A Dn puede ser calculado del modo siguiente: Dn + = mx{ ( i/n) - F(X i ) } Dn - = mx{F(X i ) - (( i-1)/n)} Dn = mx{Dn + , Dn - }
Se rechaza H0 si Dn excede c1-
Si todos los parmetros de F son conocidos se rechaza H0 si:

(n1/2 + 0.12 + 0.11 / n 1/2 ) Dn > c1-
Si la distribucin hipottica es normal N(, 2 ) con ambos parmetros desconocidos se rechaza H0 si:
(n1/2 - 0.01 + 0.85 / n1/2 ) Dn > c1-
Si la distribucin es exponencial
e F(x) = 1 - e -x/mdia
(Dn - 0.2/n)(n1/2 + 0.26 + 0.5/ n1/2 > c1-
Ejemplo
Mismo sistema banco-al-auto Para la distribucin expo(0.399) F(x)=1 - e -x/0.399 Dn + = mx{ ( i/219) - 1 - e -x/0.399 ) } Dn - = mx{1 - e -x/0.399 - (( i-1)/219)} Dn = mx{Dn + , Dn - }
Ejemplo
Test de Kolmogorov
Media Parmetro
0.398767 2.507729 Test
Dn
0.53793577 0.81146923 Dn + -0.00393407 -0.00393407 -0.00393407 -0.00393407 -0.00393407 -0.00393407 -0.00393407 -0.00393407 -0.40553399 -0.41692109 -0.43028333 -0.44546569 -0.48849902 -0.50961138 -0.53336956 Dn 0.00850028 0.00850028 0.00850028 0.00850028 0.00850028 0.00850028 0.00850028 0.00850028 0.4101002 0.4214873 0.43484954 0.4500319 0.49306523 0.51417759 0.53793577
SERIE 2 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 1.33 1.38 1.44 1.51 1.72 1.83 1.96
i 1 2 3 4 5 6 7 8 213 214 215 216 217 218 219
Fn (X) 0.00456621 0.00913242 0.01369863 0.01826484 0.02283105 0.02739726 0.03196347 0.03652968 0.97260274 0.97716895 0.98173516 0.98630137 0.99086758 0.99543379 1.00000000
F(Xi ) 0.003980 0.003980 0.003980 0.003980 0.003980 0.003980 0.003980 0.003980 0.411607 0.423222 0.436859 0.452361 0.496353 0.517968 0.542319
Ejemplo
Dn = mx{Dn + , Dn - } = 0.5379 Estadstica ajustada: (D 219 - 0.2/219)(0.2191/2 + 0.26 + 0.5/ 0.219 1/2 ) = 0.8114 De la tabla c = 1,308 No se puede rechazar la hiptesis nula
Todos los parmetros Conocidos Normal Exponencial
Valores crticos modificados para estadstica K-S 0,850 0,900 0,950 0,975 0.99 1,138 1,224 1,358 1,480 1,628 0,775 0,819 0,895 0,955 1,035 0,926 0,990 1,094 1,190 1,308
A veces el sistema no existe en su forma actual y los mtodos anteriores no pueden emplearse Otras veces el tiempo disponible para recolectar informacin es pequeo o es muy caro Supongamos que la variable X de inters es continua.
Seleccionar distribucin en ausencia de datos
El primer paso ser seleccionar un intervalo [a,b] donde se crea que X

cae con probabilidad 1 Se le pide a expertos que den sus estimadores ms optimistas (b), pesimistas (a) y el ms probable (c) para el tiempo en ejecutar una tarea Luego se utiliza una distribucin triangular como funcin de densidad de probabilidades sobre [a,b]
Dados a, b y c, la variable aleatoria X se considera triangular Media = (a+b+c)/3 Moda = c Algoritmo:

1. Generar U ~U(0,1) 2. Si U c, retornar X = (cU)1/2 . De otro modo retornar
Seleccionar distribucin en ausencia de datos
X = 1 - ((1-c)(1-U))1/2

(2003-05-26) 786 Modelacion de Datos de Entrada

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

(2003-05-26) 786 Modelacion de Datos de Entrada

Uploaded by

Copyright:

Available Formats

Simulacin de Procesos Industriales

Clase N 7: Modelacin de Datos de Entrada 23 de Mayo de 2003

Hechos al Azar o Aleatorios

Utilizamos los datos mismos recolectados en la simulacin

Cmo usamos los datos que recolectemos?

Cada dato de tiempo de servicio que recolectemos lo utilizamos

Por qu es preferible utilizar una distribucin terica?

Modelos de Sucesos Aleatorios

0,010 1,0 0,005 0,8 0,000 40 46 52 58 64 70 76 82 88 94 100 0,4

Modelos de Sucesos Aleatorios

Modelos de Sucesos Aleatorios

0,12 0,10 0,08 0,06 0,04 0,02 0,00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Tasa Ocurrencia = 10 llegadas/hora

Modelos de Sucesos Aleatorios

= 15 min / entre llegadas

Modelos de Sucesos Aleatorios

0.040 0.035 0.030 0.025 0.020 0.015 0.010 0.005 0.000 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95

Modelos de Sucesos Aleatorios

Distribucin Beta X ( r , s ) ssi

Modelos de Sucesos Aleatorios

Aplicacin de distribuciones continuas

Aplicacin distribuciones discretas

Tcnicas para determinar independencia

Actividad I: Hiptesis respecto de familias de distribuciones

Coeficiente de variacin Skewness

se plotea h(x) como funcin de x

Actividad 2: Estimacin de parmetros

Estimadores de mxima verosimilitud

Actividad 3: Determinar la representatividad del ajuste Dos tipos de mtodos:

Test de hiptesis de ajuste de distribuciones

Tests de bondad de ajuste

H0 : Los Xi s son variables aleatorias IID con funcin de distribucin F.

donde f(x) = densidad de distribucin donde p(x i )= funcin de masas

Datos del Ejemplo

Histograma y Estadsticas de Resumen

2 k2puede rechazar H0 = 219, 0.90 No se 1,1

Se rechaza H0 si Dn excede c1-

Si todos los parmetros de F son conocidos se rechaza H0 si:

(Dn - 0.2/n)(n1/2 + 0.26 + 0.5/ n1/2 > c1-

0.398767 2.507729 Test

i 1 2 3 4 5 6 7 8 213 214 215 216 217 218 219

Todos los parmetros Conocidos Normal Exponencial

Seleccionar distribucin en ausencia de datos

El primer paso ser seleccionar un intervalo [a,b] donde se crea que X

Dados a, b y c, la variable aleatoria X se considera triangular Media = (a+b+c)/3 Moda = c Algoritmo:

Seleccionar distribucin en ausencia de datos

You might also like