Analisis y Modelos Estadisticos

3.
ANALISIS Y MODELOS ESTADISTICOS
Actualmente se reconoce la importancia de la estad stica aplicada en el desarrollo de investigaciones en muy diversos campos; cada vez son m as los profesionales de diferentes disciplinas que requieren de m etodos estad sticos como muestreo, simulaci on, dise no de experimentos, modelamiento estad stico e inferencia, para llevar a cabo recolecci on, compendio y an alisis de datos y para su posterior interpretaci on. En sismolog a, los m etodos estad sticos son de amplio uso; por ejemplo en la estimaci on del riesgo s smico, predicci on s smica, localizaci on de sismos, determinaci on de magnitudes y cuanticaci on de incertidumbres. Los principales modelos estoc asticos usados para describir los procesos relacionados con los sismos se basan en series de tiempo y procesos puntuales. Los modelos de series de tiempo se usan generalmente para describir procesos que son muestreados en puntos de tiempo discretos, mientras que procesos puntuales se usan para modelar fen omenos que se presentan de manera irregular, sin un patr on temporal, y que pueden ocurrir en cualquier momento o espacio. Por otro lado, y an alogo al proceso de experimentaci on llevado a cabo en laboratorios con el objetivo de aumentar la comprensi on de alguna teor a para su validaci on y empleo posterior, la simulaci on, considerada como un m etodo de experimentaci on controlada, es el proceso de imitaci on de aspectos importantes del comportamiento de un sistema, mediante la construcci on de un modelo implementado en un computador de tal forma que permita generar observaciones dadas ciertas entradas. Con el an alisis estad stico de tales observaciones se estiman medidas del comportamiento del sistema de inter es. Sin embargo, de esta manera no ptimos, sino mas bien, resultados satisfactorios a problemas es posible encontrar resultados o de dif cil, costosa o imposible resoluci on mediante otros m etodos.
3.1. Inferencia estad stica

3.1.1. Sistemas y modelos
3.1.1.1. Sistemas
Un sistema es una fuente de datos del comportamiento de alguna parte del mundo real. Est a formado por elementos que interactuan para lograr un objetivo, los cuales poseen caracter sticas o atributos, par ametros y variables, que toman valores num ericos o l ogicos. Un sistema puede ser natural o articial, din amico o est atico, estable o inestable, adaptativo o no adaptativo, lineal o no lineal; puede tener variables independientes o dependientes, no controlables o controlables, continuas, discretas o mixtas, no observables u observables. Las reglas que especican la interacci on entre los elementos de un sistema, determinan la forma
19
en que las variables descriptivas cambian con el tiempo. Las variables que describen las entidades, los atributos y las actividades de un sistema en un instante particular de tiempo, que permiten predecir su comportamiento futuro, se denominan variables de estado y sus valores proporcionan el estado del sistema en ese instante, adem as relacionan el futuro del sistema con el pasado a trav es del presente. Si el comportamiento de los elementos del sistema puede predecirse con seguridad, el sistema es determin stico, de lo contrario es estoc astico. Si la probabilidad de encontrarse en alguno de los estados no cambia con el tiempo el sistema es est atico, de lo contrario es un sistema din amico. Si el estado de un sistema cambia s olo en ciertos instantes de tiempo se trata de un suceso discreto, de lo contrario de un suceso continuo. Sea un sistema f sico como por ejemplo la Tierra; o una estructura denida, como por ejemplo la corteza; o un estado de ella, por ejemplo la liberaci on de energ a y reacomodamiento de esfuerzos producidos en un punto determinado (sismo). El inter es puede ser la composici on qu mica en el interior de la Tierra; o un modelo de velocidades asociado a la corteza; o la identicaci on del punto en el interior de la Tierra a partir del cual se produjo la liberaci on de energ a, es decir la identicaci on del foco s smico, planteado como el problema de loca ltimo caso, el cual es el tema de inter lizaci on hipocentral. Para el u es de este proyecto, las observaciones de las cuales se dispone son mediciones indirectas logradas a trav es de sismogramas obtenidos en la supercie de la Tierra, que permitir an analizar lo sucedido en alg un punto en el interior de la Tierra. 3.1.1.2. Modelos
Un modelo es una representaci on formal de un sistema real, con el que se pretende aumentar su comprensi on, hacer predicciones y ayudar a su control. Los modelos pueden ser f sicos (descritos por variables medibles), an alogos (diagrama de ujo) y simb olicos (matem aticos, ling u sticos, esquem aticos). Los modelos matem aticos o cuantitativos son descritos por un conjunto de s mbolos y relaciones l ogicomatem aticas. Para la construcci on de un buen modelo es necesario contar con leyes (por ejemplo, f sicas) que describan el comportamiento del sistema. Tambi en es importante la experiencia, la intuici on, la imaginaci on, la simplicidad y la habilidad para seleccionar el subconjunto mas peque no de variables. El primer paso es establecer el problema en forma clara y l ogica delimitando sus fronteras; luego viene la recogida y depuraci on de datos; el dise no del experimento; las pruebas de contrastes; la vericaci on del modelo y la validaci on de las hip otesis. Por ejemplo, un an alisis de sensibilidad determinar a el grado de inuencia en la soluci on del modelo debida a variaciones en los par ametros (robustez de un modelo). Un modelo debe ser una buena aproximaci on al sistema real, debe incorporar los aspectos importantes del sistema y debe resultar f acil de comprender y manejar. Un factor muy importante es que haya una alta correlaci on entre lo que predice el modelo y lo que actualmente ocurre en el sistema real.
20
Figura 3.1: Relaci on entre sistemas y modelos 3.1.1.3. Relaci on entre sistemas y modelos
Un sistema puede ser descrito mediante una funci on que relaciona un conjunto de datos u observaciones (d, variables de respuesta) con un grupo de par ametros P (m1 , m2 ..); cada grupo de valores espec cos de este grupo de par ametros proporciona un modelo (m) diferente. Si se dispone de un modelo f sico (G) que obtenido a partir de la teor a relaciona los datos observados con los par ametros conocidos variables, se tiene entonces una relaci on funcional G F (d, m) que describe el fen omeno; si esta relaci on es lineal, se dene entonces como Gm = d. Aqu se pueden tener dos situaciones diferentes: se conocen los par ametros del modelo pero es necesario conocer la respuesta de ese sistema, esta situaci on es conocida como el problema directo; o de lo contrario, se dispone de observaciones de las variables de predicci on y de respuesta, pero se desconocen los par ametros del modelo que expliquen mejor la relaci on entre esas variables, aqu se habla del problema inverso, el cual se resuelve mediante regresi on estad stica. Resolver el problema inverso consiste en estimar los valores del modelo (m) que expliquen mejor las observaciones. (Menke, 1984; Tarantola and Valette, 1982b). En el problema espec co de estimar las coordenadas hipocentrales de un sismo, d son los tiempos de arribo de ondas s smicas registradas en las diferentes estaciones sismol ogicas; G est a conformado por una estimaci on inicial de las coordenadas hipocentrales, las coordenadas que denen las posiciones de las diferentes estaciones y un estructura de velocidades entre la supercie y el hipocentro; m son los par ametros del modelo planteado a partir de la 21
teor a f sica, los cuales al ser usados para calcular los tiempos de recorrido te oricos de las stos y los tiempos ondas desde diferentes estaciones producir an la menor diferencia entre e observados en el sismograma. Tarantola and Valette (1982b) proponen que antes de formular la soluci on a un problema inverso es necesario que sea; v alida tanto para problemas lineales como para problemas no lineales, tanto para problemas bien determinados (sucientes datos para la estimaci on, matrices invertibles) como para problemas mal determinados (informaci on insuciente o inconsistente) consistente con respecto a un cambio de variables el cual no es el caso con aproximaciones ordinarias sucientemente general para permitir diferentes distribuciones para el error en los datos (gaussiana, no gaussiana, sim etrica, asim etrica, etc.), para permitir la incorporaci on formal de cada supuesto y para incorporar errores te oricos en una forma natural. Arman tambi en, que estas restricciones pueden cumplirse si se formula el problema usando teor a de probabilidades y toda la informaci on disponible (Inferencia bayesiana), estudiando sistemas que puedan ser descritos con un nito grupo de par ametros donde las caracter sticas cuantitativas del sistema sean denidas como funciones de probabilidad (para datos y par ametros) mas que como par ametros discretos (p.e. medias). Sin embargo, existen diversos m etodos estad sticos de estimaci on que, aunque no cumplen todas las restricciones anteriores, de igual manera y para problemas espec cos proporcionan estimadores con propiedades deseables. Adem as debido a la complejidad de algunos problemas y al exhaustivo requerimiento computacional de los m etodos bayesianos, estimadores de esta clase son poco comunes en la pr actica.
3.1.2.
Estimaciones y estimadores
La estimaci on involucra el uso de datos muestrales en conjunci on con alguna t ecnica estad stica, y se puede llevar a cabo mediante estimaci on puntual o por intervalo: estimaci on puntual es la asignaci on de un valor al par ametro desconocido, estimaci on por intervalo es una f ormula que dice c omo utilizar los datos de una muestra para calcular un intervalo en el cual con cierto nivel de conanza se encuentra el valor del par ametro. La t ecnica para estimar los par ametros que denan un modelo te orico que no est a disponible, pretendiendo una asociaci on entre variables de respuesta y variables de predicci on no causal, debe proporcionar estimadores con cierta propiedades.
22
3.1.2.1.
Estimadores
Sea un grupo de caracter sticas del sistema que se desean conocer a partir de la observaci on de la variables x1 , . . . , xn , con funci on de densidad de probabilidad f (x; ) y y1 , . . . , yn con funci on de densidad de probabilidad f (y ; ) observadas en una muestra aleatoria de tama no n; la estimaci on de a partir de esta muestra se denotar a como . Las propiedades mas deseables de un estimador son que la distribuci on de muestreo est e concentrada alrededor del valor del par ametro y que la varianza del estimador sea lo menor posible. El error cuadr atico medio resume estas propiedades y es denido como ) + [ E ( )]2 ECM ( ) = V ar( (3.1)
La calidad de las estimaciones puede medirse en funci on de exactitud, precisi on y consistencia. La exactitud es el grado en que un valor promedio coincide con el valor verdadero de la cantidad de inter es; una estimaci on es exacta cuando no tiene desviaciones positivas o negativas del valor verdadero, es decir se han reducido los errores sistem aticos. La precisi on est a relacionada con la variabilidad de los datos, mientras exista mayor variabilidad, habr a menor precisi on; buena precisi on signica que se han eliminado los errores aleatorios en el procedimiento de medici on. Un estimador es consistente si converge probabil sticamente al valor del par ametro que est a estimando, es decir, la estimaci on se aproxima mas al valor del par ametro cuando el n umero de observaciones tiende a innito (ley de los grandes n umeros). Adem as se habla de estimadores insesgados cuando el valor promedio toma valores muy cercanos al valor real, es decir el sesgo que puede evaluarse mediante el error cuadr atico medio es cero. El estimador m as eciente es aquel estimador insesgado con varianza m nima y con la propiedad de que no existe otro estimador insesgado con menor varianza. As el ECM que es la suma de la varianza y el sesgo describe las propiedades deseables de una estimaci on. Los siguientes m etodos de estimaci on puntual (a excepci on del (3) y (6)) han sido utilizados, entre otros, para resolver el problema de estimaci on de los par ametros hipocentrales. Una descripci on mas completa de m etodos de estimaci on se encuentra en Draper and Smith (1981). 3.1.2.2. M etodos de estimaci on puntual
1. M nimos cuadrados, obtiene la estimaci on del par ametro que minimiza el error cuai )2 , donde d i son los vadr atico medio (Norma L2). El objetivo es minimizar (di d lores estimados a partir del modelo y di son los datos observados, los cuales se asume que tienen asociado un error de medida que es independiente y distribuido normalmente con media y varianza 2 . La varianza del error es constante entre observaciones, de lo contrario es necesario usar m nimos cuadrados con factores de peso. Se supone
23
que la variabilidad en los datos que no pueda explicarse mediante la ecuaci on de regresi on se debe al error aleatorio, por tanto si la selecci on de la ecuaci on es correcta, esta ltima debe ser m u nima. El sistema lineal a resolver es de la forma Gm + e = d; para lo cual es necesario plantear el sistema de ecuaciones normales que toman la forma, (GT G)m = GT d si GT G tiene inversa, la soluci on para m es m = (GT G)1 GT d (3.3) (3.2)
Existen diversos m etodos para resolver el anterior sistema de ecuaciones, entre ellos m etodos de descomposici on de la matriz G en una suma de vectores, bas andose en el hecho que un objeto de gran dimensi on puede ser representado como la suma de productos de bajas dimensiones, lo cual hace mas f acil su an alisis. Algunos m etodos de descomposici on son el m etodo QR que consiste en la descomposici on de la matriz G T en una matriz triangular superior R y una matriz ortogonal Q, (Q Q = 1), se resuelve el sistema RG = QT m, este m etodo involucra reducir la matriz sim etrica a una matriz tridiagonal haciendo n2 transformaciones ortogonales. Otros m etodos son descompoT sici on Cholesky -descompone G = R R donde R es una matriz triangular superior, el sistema a resolver es RT Rm = d-, descomposici on LU - descompone G = LU , donde L es una matriz triangular superior y U es una matriz triangular inferior- y descomposici on del valor singular SV D. Algunos de estos m etodos requieren mas operaciones tiles cuando el sistema est que otros, y otros son especialmente u a mal condicionado, o en caso de matrices sim etricas, y se encuentran explicados en Press etal. (1997). Adem as, los par ametros pueden ser estimados utilizando diversas t ecnicas de optimizaci on (secci on 3.3). En la secci on 4.1.3.1 (p ag. 48) se retoma este m etodo, como una aproximaci on lineal iterativa, para resolver el problema no lineal de determinaci on de par ametros hipocentrales y tiempo de origen de un sismo. Otro punto de vista sobre el uso del m etodo de m nimos cuadrados para resolver problemas no lineales es expuesto por Tarantola and Valette (1982a). 2. M axima verosimilitud, selecciona como estimador al valor del par ametro que tiene la propiedad de maximizar el valor de la probabilidad de la muestra aleatoria observada, es decir encuentra el valor de los par ametros que maximizan la funci on de verosimilitud. La verosimilitud es la funci on de densidad de probabilidad conjunta de las variables independientes. Una formulaci on te orica de este m etodo para estimaci on de par ametros hipocentrales es dada en Rodi and Toksoz (2001). 3. M etodo de Momentos, consiste en igualar los momentos apropiados de la distribuci on de la poblaci on con los correspondientes momentos muestrales, para estimar un par ametro desconocido de la poblaci on. El r esimo momento se dene como 1 r = n 24
n
xr
i=1
(3.4)
as , los cuatro primeros momentos de una variable con funci on de densidad de probabilidad normal son la media, la varianza, la curtosis y el sesgo, en ese orden. 4. Estimaci on bayesiana, es la conjunci on de tres estados de informaci on: informaci on a priori, una funci on de m axima verosimilitud e informaci on a posteriori. En la secci on 4.1.3.2 (p ag. 51) se describe el uso de este m etodo aplicado a la determinaci on de los par ametros hipocentrales y tiempo de origen. Una visi on mas general en soluci on a problemas inversos est a dada en Scales and Tenorio (2001). 5. Estimadores Robustos, funcionan muy bien para una amplia gama de distribuciones de probabilidad. Obtienen la estimaci on del par ametro que minimiza el error absoluto (Norma L1), es apropiado cuando la dispersion es grande o cuando hay presentes valores extremos. til en la estimaci 6. Estimador Jackknife o de punto exacto, especialmente u on de medias y varianzas, se basa en remover datos y volver a calcular la estimaci on. Se obtiene una i omitiendo la i estimaci on esima observaci on y calculando la estimaci on con las n 1 observaciones restantes. Este c alculo se realiza para cada observaci on del conjunto de 1 , . . . , n ; de la muestra completa se datos, por lo tanto se producen n estimaciones ) se determina de obtiene . Un pseudovalor o estad stico de inuencia Ji ( ) = n (n 1) i Ji ( (3.5)
) es alguna combinaci El estimador Jackknife J ( on lineal de todas las estimaciones, por ejemplo el promedio de los pseudovalores, ) = 1 J ( n con varianza,
2 j = n i=1 (Ji ( ) n
) Ji (
i=1
(3.6)
))2 J ( n1
(3.7) (3.8)
y sesgo, ) bi = J (
3.1.2.3.
M etodos de estimaci on por intervalo
Una ventaja de estimaci on por intervalo es que muestra la exactitud con que estima el par ametro, a menor longitud del intervalo mayor exactitud en la estimaci on.Un intervalo de conanza , dentro del cual se espera que con es un rango de valores, centrado en una media muestral X un nivel de conanza (1 ) se encuentre el valor del par ametro en cuesti on. Los m etodos de estimaci on por intervalo son el m etodo pivotal y el m etodo general (ver Canavos (1988); Mendenhall and Sincich (1997)). 25
3.1.3. Validaci on de modelos y evaluaci on de resultados

Una vez conocidos los valores de m, es necesario realizar una validaci on de este modelo. Se debe cuanticar qu e tan adecuadamente el modelo describe los datos (observaciones o simulaciones) para los cuales fue aplicado y c omo es el ajuste. Antes de proceder a evaluar el modelo obtenido es necesario reexaminar la formulaci on del problema para detectar posibles errores y determinar la consistencia de las expresiones matem aticas. La siguiente etapa consiste en evaluar algunos estad sticos de prueba como el coeciente de correlaci on y los resultados de una prueba F; un an alisis de varianza y un an alisis de residuos tambi en son de gran utilidad en esta etapa. En la evaluaci on de resultados se pueden variar los par ametros de entrada y vericar el comportamiento de los resultados, y si es posible, utilizar datos hist ori stos con los resultados del modelo. Finalmente cos para reconstruir el pasado y comparar e es necesario vericar si las condiciones o supuestos iniciales coinciden con los resultados obtenidos, para esto es necesario el uso de pruebas de bondad de ajuste. Hay dos factores importantes que se debe tener en cuenta en esta etapa; Los resultados obtenidos generalmente son el resultado de la conjunci on de varios factores como tiempo, dinero y trabajo en grupo; por tanto es importante obtener la mayor cantidad de informaci on y dar a conocer los resultados para que sean de utilidad. los valores obtenidos son el resultado de un trabajo consciente, por lo tanto se merecen un an alisis real y objetivo. 3.1.3.1. Pruebas de validaci on del modelo
Al establecer un modelo se tienen dos diferentes fuentes de variaci on, una fuente de variaci on debida a la regresi on (SCR) y una fuente de variaci on debida al error (SCE ), la variaci on total (SCT ) es la suma de estas dos. La variaci on se determina de la siguiente manera, SCR = m G d ( di )2 n (3.9) (3.10) (3.11)
SCE = d d m G d ( di )2 SCT = d d n
El coeciente de correlaci on o coeciente de determinaci on R2 mide la proporci on de variaci on total de las observaciones con respecto a su media que puede ser atribuida a la recta de regresi on estimada y es denido como, R2 = SCR SCE =1 ST C SCT 26 (3.12)
donde ST C representa la variaci on total con respecto a la media y SCR la porci on de variaci on que es atribuible a un efecto lineal de las variables predictoras sobre las variables de respuesta. Si R2 = 1 puede armarse que toda la variaci on presente en las observaciones es explicada por la presencia de las variables predictoras G en la ecuaci on de regresi on. Una hip otesis estad stica es una armaci on con respecto a alguna caracter stica desconocida del sistema que interesa analizar. Pruebas estad sticas como la prueba F se realizan para probar la hip otesis nula sobre los par ametros Ho : mj = 0 para todo j . F = SCR/(l 1) SCE/(n l) (3.13)
es la estad stica F(l1,nl) con l 1 grados de libertad en el numerador y n l grados de libertad en el denominador, n es el n umero de observaciones y l es el n umero de par ametros. Si F es grande la mayor proporci on de variaci on en los datos es debida a la regresi on, la regi on de rechazo es F > F , para un determinado. La prueba F es una prueba de idoneidad general del modelo, que dice si los datos proporcionan o no pruebas sucientes que indiquen que el modelo global contribuye con informaci on a la predicci on de d. 3.1.3.2. Pruebas de bondad de ajuste
La validaci on de modelos busca detectar si una distribuci on de probabilidades supuesta es congruente con un conjunto de datos dado. Para esto se utilizan pruebas de bondad de ajuste tales como la prueba chicuadrado o la prueba de KolmogorovSmirnov. Sea X1 , . . . , Xn los resultados obtenidos a partir de una muestra aleatoria de la cual se ha asumido que su distribuci on de probabilidades est a determinada por la funci on de probabilidad Po (X ) o la funci on de densidad de probabilidad Fo (X ), se plantea la hip otesis nula Ho : F (X ) = Fo (X ), especicada de manera completa con respecto a todos los par ametros. La evaluaci on de este supuesto se hace sobre los datos obtenidos a partir de una muestra de tama no n los cuales se clasican en k categor as (en caso discreto, en caso continuo los datos deben ser discretizados), el n umero de datos que caen en la i esima categor a es fi , fi = n; la frecuencia observada en la i esima categor a se compara con ei , el n umero de datos que se espera observar en la i esima categor a si la hip otesis nula es correcta. Ho es rechazada si existe una diferencia signicativa entre lo observado y lo esperado. La prueba de bondad de ajuste Chicuadrado (2 ) es calculada de,
k
=
i=1
(fi ei )2 ei
(3.14)
y tiene k 1 grados de libertad. 2 tiende a cero si Ho es cierta. La potencia de la prueba aumenta si el n umero (k ) de categor as aumenta. La prueba de bondad de ajuste JarqueBera (JB ) usada para determinar si una muestra tiene 27
distribuci on normal con media y varianza no especicadas, corresponde a una prueba Chi cuadrado con dos grados de libertad y es denida como, JB = n 2 (C 3)2 [S + ] 6 4 (3.15)
donde S es el sesgo, C es la curtosis y n es el tama no de la muestra.
3.2.
Simulaci on Estad stica
La simulaci on es una t ecnica de muestreo estad stico controlado (experimentaci on) que se emplea conjuntamente con un modelo, para obtener respuestas aproximadas a problemas probabil sticos complejos; debe seguir las normas del dise no de experimentos para que los resultados obtenidos puedan conducir a interpretaciones signicativas de las relaciones de inter es. La construcci on y operaci on de un modelo de simulaci on permite la observaci on del comportamiento din amico de un sistema en condiciones controladas, pudi endose efectuar experimentos para comprobar alguna hip otesis acerca del sistema bajo estudio. B asicamente se relacionan tres elementos: sistema (parte del mundo real que interesa estudiar), modelo (representaci on simplicada de un sistema) y computador. Generalidades sobre el tema puede consultarse en Rios etal. (2000); Calder on (1980); Luthe etal. (1982); Ross (1999). La simulaci on como cualquier otra t ecnica, tiene algunas desventajas, Los modelos de simulaci on para computador son costosos y dif ciles de construir y validar. En general debe construirse un programa para cada sistema o problema. La ejecuci on del programa de simulaci on, una vez construido, puede necesitar una gran cantidad de recursos. La gente tiende a usar la simulaci on cuando no es el mejor m etodo de an alisis; una vez las personas se familiarizan con la metodolog a, intentan emplearla en situaciones en que otras t ecnicas anal ticas son m as apropiadas. En general, un estudio de simulaci on puede dividirse en las siguientes etapas, 1. Denici on del problema y planicaci on del estudio, incluye una denici on precisa del problema a resolver y de los objetivos del estudio. 2. Toma de datos. 3. Establecimiento del modelo de simulaci on, incluye establecer las suposiciones que se deben hacer, y denir el modelo a emplear. 28
4. Ejecuci on de la simulaci on. Consideraci on de las t ecnicas y metodolog as simples y avanzadas requeridas para obtener los resultados de programaci on. Esto incluye aspectos tales como generaci on de variables aleatorias, m etodos para manejo de variables, precisi on de los estimadores, etc. 5. Ejecuciones de prueba del modelo. 6. Validaci on del modelo. 7. Dise no del experimento de simulaci on. 8. Ejecuci on del experimento. 9. An alisis de los resultados. Uso de t ecnicas estad sticas y gr acas para interpretar los resultados. La validaci on del modelo de simulaci on se puede llevar a cabo siguiendo las t ecnicas est andares de los depuradores; una de ellas puede ser depuraci on por m odulos o subrutinas, es decir, descomponer el programa en partes peque nas y controlables, donde cada una tenga una se til es el seguimiento o cuencia l ogica, vericando por separado cada parte. Otra t ecnica u rastreo, en la cual las salidas se imprimen despu es de la ocurrencia de cada evento, esto permite un seguimiento para determinar si la simulaci on est a funcionando como se esperaba (Ross, 1999). Los problemas que pueden resolverse mediante simulaci on se clasican en probabil sticos y determin sticos. Algunas aplicaciones de la simulaci on estad stica son, T ecnicas de remuestreo como el Bootstrap y Jackknife permiten comparar las estimaciones usando diferentes tama nos de muestras y poco an alisis, pero requieren un gran esfuerzo computacional, por lo cual son mas ecientes si se llevan a cabo mediante simulaci on. En Inferencia bayesiana se requieren m etodos ecientes de integraci on, y cuando los problemas son de alta dimensi on, los m etodos m as ecientes de integraci on son los basados en simulaci on. Un algoritmo probabil stico es un algoritmo que recibe entre los datos de entrada n umeros aleatorios; as puede producir diferentes resultados con distintos tiempos de ejecuci on. La simulaci on permite, por una lado la implementaci on de algoritmos probabil sticos, y por otro lado el an alisis probabil stico de algoritmos. Muchos de los problemas tratados con inteligencia articial son de inferencia y decisi on. Por ejemplo la simulaci on en sistemas expertos probabil sticos en el cual el conocimiento se representa sobre un dominio en el que hay incertidumbre, mediante 29
una red probabil stica cuyos nodos se asocian a variables aleatorias y cuyos arcos sugieren inuencia, asociando a cada nodo una tabla de probabilidades condicionadas (Rich and Knight, 1994), o la inferencia y predicci on en redes neuronales, mediante m etodos monte carlo basados en cadenas de Markov modelos de caja negra que permiten modelar rasgos no lineales en problemas de aproximaci on, regresi on, suavizado, predicci on y clasicaci on (Hilera and Martinez, 1995). Aunque los or genes de la simulaci on cient ca se remontan a los trabajos de Student para determinar la distribuci on de la variable t que lleva su nombre, esta disciplina apareci o mas tarde como una t ecnica num erica llamada m etodos de Monte Carlo (Rios etal., 2000). A continuaci on se presentaran algunas caracter sticas, propiedades y utilidades de este m etodo.
3.2.1.
Simulaci on Monte Carlo
El nombre y desarrollo del m etodo se remontan al a no 1944; su primera aplicaci on como herramienta de investigaci on se dio en el desarrollo de la bomba at omica (estudios de reacci on nuclear) durante la II guerra mundial. Sin embargo, el desarrollo sistem atico del m etodo como herramienta tuvo que esperar a los trabajos de Harris y H. Kahn, en el a no 1948 y de Fermi, N. Metropolis y S. Ulam en ese mismo a no. En 1953 N. Metr opolis introdujo el algoritmo Metr opolis, que consiste en una caminata aleatoria sesgada cuyas iteracciones individuales se basan en reglas probabil sticas. Los primeros usos de los m etodos Monte Carlo para obtener modelos de la Tierra fueron realizados por KeilisBorok y Yanovskaya en 1967 y por Press en 1968 (Mosegaard and Tarantola, 2000). Sobre el m etodo Monte Carlo puede consultarse Drakos (1995),Rubinstein (1981), y sobre aplicaciones en geof sica los trabajos de Mosegaard and Tarantola (1995) y Mosegaard etal. (1997). Los m etodos Monte Carlo son c alculos num ericos que utilizan una secuencia de n umeros aleatorios para llevar a cabo una simulaci on estad stica, con el n de conocer algunas propiedades estad sticas del sistema. Estos m etodos de simulaci on est an en contraste con los m etodos num ericos de discretizaci on aplicados para resolver ecuaciones diferenciales parciales que describen el comportamiento de alg un sistema f sico o matem atico. La caracter stica esencial de Monte Carlo es el uso de t ecnicas de toma de muestras aleatorias para llegar a una soluci on del problema f sico, mientras una soluci on num erica convencional inicia con un modelo matem atico del sistema f sico, discretizando las ecuaciones diferenciales para luego resolver un grupo de ecuaciones algebraicas. Con estos m etodos s olo se requiere que el sistema f sico o matem atico pueda ser descrito mediante una funci on de densidad de probabilidad, la cual una vez sea postulada o conocida, se requiere una forma r apida y efectiva para generar numeros aleatorios con esa distribuci on, y as se inicia la simulaci on haciendo muestreos aleatorios de la misma. Despu es de m ultiples simulaciones, el resultado deseado se toma como el valor promedio de los resultados obtenidos en cada simulaci on (Fig. 3.2). En muchas aplicaciones pr acticas se puede predecir 30
un error estad stico (varianza) para este promedio y por tanto una estimaci on del n umero de simulaciones necesarias para conseguir un error dado. De entre todos los m etodos num ericos basados en evaluaci on de n organismos en espacios de dimensi on r, los m etodos de Monte Carlo tienen asociado un error absoluto de estimaci on que decrece como n mientras que para el resto de m etodos tal error decrece en el mejor de los casos como r n (Drakos, 1995). Los m etodos Monte Carlo se usan para simular procesos aleatorios o estoc asticos, dado que ellos pueden ser descritos como funciones de densidad de probabilidad, aunque con algunas restricciones, ya que muchas aplicaciones no tienen aparente contenido estoc astico, tal como la inversi on de un sistema de ecuaciones lineales. Rubinstein (1981) resalta las siguientes diferencias entre simulaci on y simulaci on mediante m etodos Monte Carlo, En el m etodo Monte Carlo el tiempo no es importante, como si lo es es una simulaci on estoc astica. Las observaciones en el m etodo Monte Carlo son independientes. En simulaci on los experimentos dependen del tiempo, de tal manera que las observaciones son correlacionadas. En el m etodo Monte Carlo la respuesta se puede expresar como una simple funci on de las variables aleatorias de entrada, mientras que en simulaci on la respuesta solo puede ser expresada expl citamente por el propio programa. En la secci on 3.1.1.1 (p ag. 19), se describi o ampliamente lo que es un sistema. Ahora bien, la respuesta de un sistema puede estar determinada por la sucesi on o combinaci on de estados, los estados pueden cambiar en ciertos instantes de tiempos (de lo contrario es necesario discretizar el tiempo, para llevar a cabo la simulaci on), los cuales pueden ser s ncronos el paso de un estado a otro depende de un tiempo jo, o as ncronos el cambio de estado depende de la obtenci on de un suceso, el tiempo es insignicante. Los m etodos de simulaci on Monte ltimos, y dependiendo de la manera como pasan de un estado a Carlo son aplicados a estos u otro se clasican en: 1. M etodos basados en cadenas de Markov (el algoritmo HastingsMetr opolis, el muestreador de Gibbs, temple simulado, muestreo con remuestreo de importancia y Monte Carlo h brido) 2. M etodos independientes (muestreo de importancia y muestreo de rechazo) Una cadena de Markov es una serie de eventos, en la cual la probabilidad de que ocurra un evento depende del evento inmediatamente anterior, es decir son cadenas con memoria lo cual condiciona las probabilidades de los eventos futuros (probabilidad de transici on). 31
Figura 3.2: Esquematizaci on de una simulaci on mediante el m etodo Monte Carlo
3.2.2.
Determinaci on del numero de muestras
La determinaci on del tama no muestral del experimento de simulaci on (n), es decir el n umero de veces que se observa el proceso, inuye esencialmente en la precisi on de la estimaci on (ver sec. 3.1.2.1), y dado que la precisi o n de las estimaciones aumenta en proporci o n directa a n, es necesario tomar un tama no de muestra sucientemente grande si se quiere obtener cierta precisi on.
32
En principio, si en un proceso la variable xi se puede observar n veces (n > 30), los estima y la varianza S 2 se pueden obtener de dores muestrales de la media X = 1 X n y S2 = 1 n1
n n
Xi
i=1
(3.16)
)2 (Xi X
i=1
(3.17)
S . n
puede ser estimada a partir de respectivamente; la precisi on de la estimaci on de X
Por el teorema del l mite central, se tiene que la distribuci on muestral de una variable aleatoria tiende a una distribuci on normal (Z ) para una muestra sucientemente grande y la desigualdad de Tchebychev proporciona una cota para la probabilidad de que una variable aleatoria X asuma un valor dentro de k desviaciones est andar alrededor de la media (k > 1). Las k desviaciones son entonces denidas por la distribuci on de probabilidades normal para un determinado. Por lo tanto, en el intervalo de conanza S S + z/2 z/2 [X , X ] n n (3.18)
S de amplitud 2z/2 con un nivel de conanza de (1 ) se encuentra el verdadero valor de n X.
Ahora bien, jando un valor aceptable como nivel de conanza (1 ), y determinando un valor m aximo para , la amplitud del intervalo, se tiene S 2z/2 n (3.19)
Despejando n de la ecuaci on anterior se puede obtener una estimaci on del m nimo tama no de muestra necesario para obtener estimaciones con un error aceptable d y un nivel de conanza 1 , S (3.20) (2z/2 )2 n De esta manera, a partir de una muestra piloto sucientemente grande (n > 30) se obtiene una estimaci on de la varianza de los datos, y de esta forma se puede obtener el tama no de muestra necesaria para obtener estimadores precisos, dados un nivel de conanza y un error . permisible para X
33
3.2.3. Generaci on de numeros aleatorios

Sobre el tema existe m ultiple bibliograf a y en general se puede consultar cualquier libro de m etodos num ericos como por ejemplo Gerald (1991); Chapra and Canale (1999); Press etal. (1997). Algunos m etodos de generaci on de n umeros aleatorios se basan en el uso de mecanismos f sicos, por ejemplo el ruido blanco producido por circuitos electr onicos, el recuento de part culas emitidas, el lanzamiento de monedas, etc. El uso de estos mecanismos es poco conveniente, ya que puede presentar sesgo y dependencias; adem as una fuente de n umeros aleatorios debe ser reproducible de manera que puedan hacerse r eplicas de los experimentos en las mismas condiciones, lo cual implicar a el almacenamiento de los n umeros, que conlleva al posible problema de l mite de memoria y lentitud de acceso a los datos. Otro m etodo de generar n umeros aleatorios es mediante el uso de algoritmos de computador, a pesar de que en principio los computadores son m aquinas determin sticas incapaces por s solas de un comportamiento aleatorio. Existen diversos algoritmos de generaci on de n umeros aleatorios o pseudoaleatorios, donde la idea es producir n umeros que parezcan aleatorios, empleando las operaciones aritm eticas del computador, partiendo de una semilla inicial. Se busca que la serie generada sea independiente, su generaci on sea r apida, consuma poca memoria, sea portable, sencilla de implementar, reproducible y sucientemente larga. La generaci on de n umeros aleatorios exige contrastar ciertas propiedades estad sticas de la salida. Para ello se realizan pruebas de contraste, como las pruebas de bondad de ajuste cuadrado, Kolmogorovsmirnov, Cramervon Mises, prueba de rachas y repetici on de contrastes. (Ver Rubinstein (1981); Mendenhall and Sincich (1997)). Los algoritmos de generaci on se clasican en: generadores congruenciales, siguen la formula recursiva xn+1 = (axn + b) mod m, donde a es el multiplicador, b el sesgo, m el m odulo y xo la semilla; a y b son constantes en el intervalo (0, 1, . . . , m 1), m odulo m se reere al residuo de la divisi on entera por m; el per odo de la serie es m 1. Una adecuada selecci on de los par ametros a, b y m generan una sucesi on de n umeros sucientemente larga y aleatoria. Estos generadores tienen dos ciclos y la longitud del ciclo depende de los par ametros. Un generador congruencial est andar debe ser de per odo m aximo y su implementaci on eciente debe poder ser realizada en aritm etica de 32 bits. de registro de desplazamiento, son recursivos m ultiples o lineales de orden mayor, xn = (a1 xn1 + . . . + ak xnk ) mod m. de Fibonacci retardados, parten de la semilla inicial x1 , x2 , x3 , . . . y usan la recursi on xi1 = xir xis , donde r y s son retardos enteros que satisfacen r s y es una operaci on binaria que puede ser suma, resta, multiplicaci on, etc. 34
Figura 3.3: N umeros aleatorios distribuidos uniformemente en (0,1), generados con la funci on rand de M atlab. no lineales, para introducir no linealidad se usa un generador con funci on de transici on lineal, produciendo la salida mediante una transformaci on no lineal del estado, o usando un generador con funci on de transici on no lineal. No producen estructura reticular, sino una estructura altamente no lineal. combinaci on de generadores (emp ricos); por ejemplo, si se tienen dos sucesiones aleatorias se puede generar una nueva sucesi on combinando los elementos correspondientes de ambas mediante una operaci on binaria. Los n umeros aleatorios as generados tienen la forma un = xn /m, con distribuci on uniforme en el intervalo (0, m). Estas series pueden ser escaladas dividiendo cada t ermino entre m para obtener n umeros uniformemente distribuidos en el intervalo (0,1) (Fig. 3.3). A partir de esta distribuci on se pueden generar series de n umeros aleatorios con la distribuci on deseada. 3.2.3.1. Generaci on de numeros aleatorios con distribuci on normal
Sean U1 y U2 dos series de n umeros aleatorios con distribuci on uniforme en (0,1). Los siguientes m etodos permiten su transformaci on para obtener series de n umeros aleatorios Z1 y Z2 distribuidas normalmente (Fig. 3.4).
0,135 U1 (1U1 )0,135 0,1975
Inversi on aproximada: Z1 =
35
Figura 3.4: N umeros aleatorios con distribuci on normal con media 0 y desviaci on est andar 0.1, generados con la funci on normrnd de M atlab. Box Muller, haciendo r = 2lnU1 , y = 2U2 se generan las variables con distribuci on normal est andar Z1 = r cos y Z2 = rsen. Variante de Marsaglia. Es una variante del m etodo Box Muller, que evita las operacio2 2 nes de senos y cosenos. Se tiene v1 = 2U1 1, v2 = 2U2 1, w = v1 + v2 , se hace mientras w 1, c = (2lnw)/w, y se obtienen las variables con distribuci on normal est andar Z1 = cv1 y Z2 = cv2
3.2.3.2.
generaci on de numeros aleatorios con Matlab
La funci on para generaci on de n umeros aleatorios con distribuci on uniforme en Matlab es rand, un generador congruencial multiplicativo con par ametros m = 231 1 = 2147483647 por la facilidad de implementaci on y por que es un n umero primo, a = 75 = 16807 ya que 7 31 es una ra z primitiva de 2 1, se obtiene el m aximo periodo y b = 0, valores recomendados por S. K. Park y K.W. Miller en 1988 en Random number generators: good ones are hard to nd (Cleve, 1995; Rios etal., 2000). La funci on rand genera todos los n umeros reales de la forma n/m para n = 1, . . . , m 1, la serie se repite despu es de generar m 1 valores, lo cual es un poco mas de dos billones de n umeros. En un computador Pentium a 75 MHz se puede agotar el per odo en poco m as de 4 horas. A partir de una serie de n umeros generados aleatoriamente con distribuci on uniforme en (0, 1) se pueden generar series de n umeros aleatorios con distribuci on normal. La funci on de 36
M atlab para su generaci on es normrnd (secci on 5.1.4, p ag. 61)
3.2.4. An alisis estad stico de datos simulados

Como ya se ha mencionado antes, la simulaci on tiene como objetivo determinar el valor de una cantidad relacionada con un modelo estoc astico particular. Una simulaci on produce datos de salida (X ), cuyo valor esperado es la cantidad de inter es. Un n umero n de repeticiones de la simulaci on produce X1 , . . . , Xn resultados, los cuales conforman la muestra; el promedio o media muestral (ecuaci on 3.16) de todos estos resultados proporciona una estimaci on del valor de inter es. La media es un estimador insesgado, ya que su valor esperado es igual al valor del par ametro. Para determinar la bondad de la media como estimaci on del par ametro, se sta es peque calcula la varianza de la media muestral (ecuaci on 3.17), si e na, se dice que la media es un buen estimador del par ametro. Esto es justicado por la desigualdad de Tchebychev, ya que para una muestra sucientemente grande, la probabilidad que una variable aleatoria quede a muchas desviaciones est andar de la media es muy peque na.
3.3.
Optimizaci on global y local
La optimizaci on involucra la b usqueda del m nimo o del m aximo de una funci on, y est a re ptima soluci lacionada con la determinaci on del mejor resultado u o on al problema. Optimo es el punto donde la curva es plana, es decir el valor de x donde la primera derivada f (x) ptimo es m es cero; para determinar si el o aximo o m nimo se eval ua la segunda derivada, si f (x) < 0 el punto es un m aximo, de lo contrario es un m nimo. En un problema de optimizaci on se requiere la denici on de una funci on objetivo identicaci on de las variables de dise no o de predicci on restricciones o limitaciones reales, es decir bajo las cuales se trabaja (optimizaci on restringida). Los m etodos de optimizaci on pueden ser unidimensionales (una sola variable) o multidimensionales (mas de una variable); restringidos o no restringidos; lineales, no lineales o cuadr aticos. A continuaci on se resumen algunos de los m etodos mas com unmente usados. Estos m etodos y otros adicionales pueden ser consultados en Press etal. (1997); Gerald (1991); Chapra and Canale (1999).
37
3.3.1. Optimizaci on no restringida

La optimizaci on multidimensional sin restricciones usa m etodos directos, los cuales no requieren evaluaci on de la derivada (o gradiente en caso multidimensional) y m etodos indirectos o gradiente (de descenso o ascenso) que requieren la evaluaci on de la derivada. 3.3.1.1. M etodos directos
Algunos m etodos directos son aplicaciones de los m etodos de Simulaci on Monte Carlo al problema de optimizaci on, 1. B usqueda aleatoria pura o fuerza bruta. Eval ua en forma repetida la funci on mediante la selecci on aleatoria de valores de la variable independiente. Si un n umero suciente ptimo ser de muestras es evaluado, el o a eventualmente localizado. Trabaja en discon ptimo global, pero no tinuidades y funciones no diferenciables. Siempre encuentra el o es eciente ya que requiere mucho esfuerzo de implementaci on dado que no toma en cuenta el comportamiento de la funci on, ni los resultados de las iteraciones previas para mejorar la velocidad de convergencia. Un ejemplo es la b usqueda por malla (Grid Search), donde las dimensiones de x y y se dividen en peque nos incrementos para crear una malla, la funci on se eval ua en cada nodo: entre mas densa es la malla la probabilidad ptimo es mayor (Lomax etal., 2000). de localizar el punto o 2. Multicomienzo, Es una mejora de la b usqueda aleatoria pura. Se genera un n umero ptimo local obtenido de puntos desde los que se inicia una optimizaci on local, el o es propuesto como soluci on inicial para la optimizaci on global. Un ejemplo de este m etodo es el Neighborhood Algorithm (Sambridge and Kennett, 2001) utilizado para resolver el problema de la determinaci on de los par ametros de un sismo. 3. Univariabilidad y b usquedas patr on. Cambia una variable a la vez para mejorar la aproximaci on, mientras las otras variables se mantienen constantes, as el problema se reduce a una b usqueda unidimensional que se puede resolver por medio de diversos m etodos (Newton, de Powell, interpolaci on cuadr atica). 4. Otras b usquedas aleatorias son de origen heur stico. Las dos primeras buscan evitar que ptimo local, el algoritmo quede atrapado en un o Recocido simulado. Al principio se aceptan todas las transiciones entre soluciones, lo que permite explorar todo el conjunto factible; gradualmente la aceptaci on de movimientos se hace mas selectiva; nalmente solo se aceptan los movimientos que mejoran la soluci on actual. Este m etodo permite empeoramiento en la soluci on mediante reglas probabil sticas. Aplicaci on de este m etodo al problema de localizaci on hipocentral se encuentra en Billings (1994).
38
sta empeore B usqueda tab u. Permite el paso de una soluci on a otra, a un cuando e la soluci on. Para evitar el ciclado se genera una lista en la cual se guarda durante cierto tiempo un atributo que permite identicar la soluci on o el movimiento realizado, para de esta forma no permitir su realizaci on. Dado que la lista est a consti ptimas tuida por atributos y por soluciones o movimientos, el paso a soluciones o podr a verse restringido, para evitar esto se utilizan niveles de aspiraci on, si una soluci on o movimiento de la lista supera los niveles de aspiraci on, se permite el movimiento a ella. Algoritmos gen eticos. Es una variante del m etodo de multicomienzo. Por medio de operaciones que se derivan de los principios de la evoluci on natural se identican soluciones prometedoras, a partir de las cuales se puede realizar una ptimas, aunque optimizaci on local. Son buenos s olo para identicar regiones o pticombinados con m etodos de b usqueda local pueden encontrar la soluci on o ma. Billings etal. (1994a) presenta una aplicaci on de algoritmos gen eticos en la estimaci on hipocentral. Redes neuronales articiales. 3.3.1.2. M etodos indirectos
Algunos m etodos indirectos son 1. M etodo de pasos ascendente (maximizaci on) o descendente (minimizaci on), determina la mejor direcci on de b usqueda (mediante el gradiente) y establece el mejor valor a lo largo de esa direcci on. 2. Gradiente avanzado, tales como gradiente conjugado, Newton, Marquardt, quasiNewton o variable m etrica. El m etodo de Newton por ejemplo usa c alculo del gradiente a partir de la expansi on de la serie de Taylor e inversi on de la matriz; converge si el punto inicial ptimo. El m est a cerca del o etodo Marquardt usa pasos ascendentes mientras est a lejos ptimo, y Newton cuando est ptimo. El m del o a cerca del o etodo de localizaci on hipocentral implementado por Geiger en 1910 (Lee and Lahr, 1975) expuesto en la secci on 4.1.3.1 utiliza el m etodo indirecto de gradiente conjugado de Newton. A continuaci on se muestra un ejemplo que trae Matlab en su toolbox de optimizaci on (Fig. 2 2 3.5). Consiste en la minimizaci on de la funci on de Rosenbrock f (x) = 100 (x2 x1 ) +(1 x1 )2 . Es usada como ejemplo por la lenta convergencia que presenta con algunos m etodos. nico m La funci on tiene un u nimo en el punto x = [1, 1] donde f (x) = 0. El ejemplo inicia en el punto x = [1,9, 2]. El n umero de evaluaciones de la funci on y de iteraciones son las siguientes: a. N umero de iteraciones 13, evaluaciones de la funci on 55, b. N umero de iteraciones 21, evaluaciones de la funci on 92, c. N umero de iteraciones 68, evaluaciones de la funci on 302, d. N umero de iteraciones 109, evaluaciones de la funci on 201. 39
a
Inicio fin
b
Inicio fin
c
Inicio fin
d
Inicio fin
Figura 3.5: Minimizaci on de la funci on Rosenbrock. a. M nimos cuadrados mediante Gauss Newton, b. LevenbergMarquardt, c. Pasos Descendentes, d. M etodo Simplex
3.3.2. Optimizaci on restringida

La optimizaci on multidimensional con restricciones puede ser lineal (la funci on objetivo y las restricciones son lineales) o no lineal (la funci on objetivo es no lineal). 1. Optimizaci on lineal o programaci on lineal. El objetivo es, dadas n variables independientes y ciertas restricciones, maximizar la funci on objetivo z = a1 x1 , + . . . + an xn . nica, b. soluciones alternas, c. Los resultados que se pueden obtener son: a. soluci on u soluci on no factible, d. problemas sin l mite. Soluci on gr aca. En un problema de dos dimensiones, la soluci on espacial se dene como un plano, las restricciones se trazan sobre este plano como l neas rectas, las cuales delinean el espacio de soluci on factible; la funci on objetivo evaluada en un punto se traza como otra l nea recta sobrepuesta en este espacio. El valor de la funci on se ajusta hasta que tome el m aximo valor, mientras se conserva dentro ptima. del espacio factible. Este valor representa la soluci on o ptima est M etodo simplex. Se basa en la suposici on que la soluci on o a en un punto extremo, la dicultad est a en denir num ericamente el espacio de soluciones factibles. Las ecuaciones con restricciones se formulan como igualdades introduci endolas como variables de holgura. Rabinowitz (2000) implement o un m etodo de localizaci on mediante el m etodo de optimizaci on simplex usando restricciones no lineales. 2. Optimizaci on no lineal. Para problemas indirectos se utilizan funciones de penalizaci on, las cuales involucran usar expresiones adicionales para hacer la funci on objeti ptima en tanto la soluci vo menos o on se aproxima a la restricci on, as la soluci on no 40
ser a aceptada por violar las restricciones. Para problemas directos se utiliza el m etodo del gradiente reducido generalizado, el cual reduce el problema a uno de optimizaci on no restringida, para ser resuelto con uno de los m etodos descritos anteriormente.
3.4. Clasicaci on de errores

Cualquier medici on es una observaci on indirecta, por lo tanto siempre es necesario llevar a cabo un an alisis de errores. El error absoluto de una medida se puede denir como la diferencia entre el valor resultante de una medici on y el valor real de la variable que se est a observando. Valor verdadero es un concepto ideal y en general no puede ser conocido ste ser exactamente, lo mas cercano a e a una medida tomada con un instrumento est andar de alta calidad o exactitud que presente un error muy reducido, que reduzca el error instrumental a un nivel insignicante con respecto a otras fuentes de error. La variaci on restante puede ser considerada como una combinaci on de muchas variables independientes (Baird, 1991). En sismolog a instrumental, el proceso de medici on suele estar dividido en varias etapas secuenciales, en donde los resultados parciales de una investigaci on (modelo) se convierten en los datos de entrada (mediciones) en una nueva etapa de an alisis. En efecto, partiendo de la observaci on directa del movimiento del suelo en varias estaciones sismol ogicas se pueden leer tiempos de llegada de una onda s smica, los cuales son usados para localizar la fuente de la perturbaci on (hipocentro). Un conjunto de hipocentros puede ser posteriormente usado para modelar el comportamiento de una falla o, conjuntamente con los tiempos de llegada, para modelar la estructura interna de corteza y manto superior. En este proceso continuo los errores son inevitables y es por eso que se hace indispensable considerarlos expl citamente para reducirlos y compensar sus efectos. Freedman (1968) presenta un completo an alisis sobre los diferentes tipos de errores encontrados en mediciones de datos sismol ogicos. Si se considera que los errores presentan variabilidad que depende del fen omeno estudiado, que los errores positivos y negativos son igualmente frecuentes (su valor promedio debe estar cercano a cero), que el error total no puede exceder una cantidad razonablemente peque na, que la probabilidad de un error peque no es mayor que la de un error grande y que la componente del error en el modelo es un efecto compuesto que representa muchas perturbaciones peque nas pero aleatorias (las cuales son independientes de la variable de predicci on y se deben a factores que no se encuentran incluidos en el modelo), puede entonces suponerse que los errores tienen una distribuci on de probabilidades normal. Parte de la incertidumbre puede ser estimada usando m etodos estad sticos, mientras que otra parte s olo puede ser determinada de manera subjetiva, usando sentido com un o juicio cient co sobre la calidad de instrumentos o sobre efectos no tenidos en cuenta expl citamente. De acuerdo a su origen, los errores que se presentan en los procesos directos o indirectos de medici on en el problema de localizaci on hipocentral, se clasican en aleatorios y sistem aticos. 41
3.4.1. Errores aleatorios

Los errores aleatorios son peque nas variaciones positivas o negativas producidas por causas desconocidas. Pueden ser cuanticados mediante an alisis estad stico, por lo tanto, sus efectos pueden ser determinados. Por lo general los errores aleatorios se asocian con la participaci on humana en el proceso de medici on y pueden deberse a; la identicaci on err onea del patr on que se est a observando; como por ejemplo, la no sta llega a la identicaci on de una fase s smica por exceso de ruido ambiental cuando e estaci on. Este error y el error de lectura son independientes. error instrumental; por ejemplo, los errores de cronometraje o las variaciones en la respuesta de los instrumentos debido a su deterioro error de lectura de tiempos de arribo, es el error residual, el cual puede permanecer aunque los dem as errores sean eliminados.
3.4.2.
Errores sistem aticos
Los errores sistem aticos se deben a causas identicables. Estos pueden ser corregidos, permanecer constantes o variar en forma previsible y pueden ser clasicados como; Instrumentales. debidos a problemas de calibraci on, da no en los equipos, p erdida de se nales durante su transmisi on, etc. Observacionales, como la mala selecci on del instrumento, baja calidad de la respuesta instrumental, ajuste incorrecto del cero, etc. Naturales. Efecto de campos el ectricos y magn eticos. Te oricos. Simplicaci on de los modelos o aproximaciones en las ecuaciones Los errores en la determinaci on de los tiempos de viaje de las ondas s smicas debidos a un inadecuado modelo de velocidades, por ejemplo, incluyen componentes sistem aticas y aleatorias. Los errores sistem aticos aparecen generalmente cuando la estructura de velocidades no corresponde con las velocidades medias de la estructura real, en una escala comparable a la del modelo; mientras que peque nas variaciones locales de la estructura, alrededor de los valores del modelo, generan diferencias que pueden ser tratadas como errores aleatorios en la mayor a de los casos.
42
3.4.3. Errores en la determinaci on hipocentral

Muchas estimaciones convencionales del error se basan en la aproximaci on lineal de un grupo de ecuaciones no lineales, aunque la no linealidad pueda ser vista como un diferente tipo de sesgo sistem atico cuyo efecto es inseparable del efecto debido a los errores del modelo. Pavlis (1986) propone, sin embargo, que la inuencia de la no linealidad probablemente es peque na para la mayor a de las localizaciones y puede ser controlada en gran parte por sesgo en errores del modelo. Las fuentes de error durante el proceso de localizaci on son diversas y est an presentes en los datos -errores en la medici on y en la identicaci on de fases, diferencias entre el modelo de velocidades y la estructura real-, en los m etodos de estimaci on -estimaciones mediante m nimos cuadrados, por ejemplo, son adecuadas cuando no se violan los supuestos sobre el error (aleatoriedad e independencia)-, y en componentes externos como el n umero y la distribuci on de las estaciones con respecto a las fuentes.
43

Analisis y Modelos Estadisticos

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analisis y Modelos Estadisticos

Uploaded by

Copyright:

Available Formats

3.

ANALISIS Y MODELOS ESTADISTICOS

3.1. Inferencia estad stica

M etodos de estimaci on por intervalo

3.1.3. Validaci on de modelos y evaluaci on de resultados

donde S es el sesgo, C es la curtosis y n es el tama no de la muestra.

Simulaci on Estad stica

Simulaci on Monte Carlo

Figura 3.2: Esquematizaci on de una simulaci on mediante el m etodo Monte Carlo

Determinaci on del numero de muestras

puede ser estimada a partir de respectivamente; la precisi on de la estimaci on de X

S de amplitud 2z/2 con un nivel de conanza de (1 ) se encuentra el verdadero valor de n X.

3.2.3. Generaci on de numeros aleatorios

generaci on de numeros aleatorios con Matlab

M atlab para su generaci on es normrnd (secci on 5.1.4, p ag. 61)

3.2.4. An alisis estad stico de datos simulados

Optimizaci on global y local

3.3.1. Optimizaci on no restringida

3.3.2. Optimizaci on restringida

3.4. Clasicaci on de errores

3.4.1. Errores aleatorios

Errores sistem aticos

3.4.3. Errores en la determinaci on hipocentral

You might also like