You are on page 1of 19

2.4.

HERRAMIENTAS MATEMATICAS
2.4.1. El método de Monte Carlo como técnica de generación de datos.
Tradicionalmente, el análisis de contingencia del sistema de energía se ha estudiado
utilizando metodologías deterministas, que consideran algunas condiciones de operación
extremas (diferentes niveles de carga) y contingencias críticas seleccionadas (asociadas a
algunos tipos de fallas y ubicaciones de fallas). Este tipo de estudios ignora la naturaleza
estocástica o probabilística de los sistemas de poder reales y, por lo tanto, ciertos eventos
graves que podrían llevar al sistema a condiciones potencialmente inseguras pueden
ignorarse [41].
Dado que el enorme volumen de incertidumbres influye en gran medida en la respuesta
dinámica del sistema de potencia, es necesario aplicar herramientas matemáticas que
permitan considerar los escenarios más probables. Una de las principales clases de
técnicas probabilísticas es la simulación basada en Monte Carlo (MC), que brinda la
posibilidad de obtener resultados más realistas, principalmente para el análisis de sistemas
complejos [41], ya que evita el uso de modelos sustitutos.
El método MC permite simular fenómenos con una incertidumbre involucrada
significativa, que corresponde a la condición operativa del sistema eléctrico.
El método de Monte Carlo es un procedimiento repetitivo que consiste en evaluar, en
cada repetición, la respuesta del sistema a través de la función de incertidumbre h,
utilizando un conjunto de variables de entrada (z) que se generan aleatoriamente a partir
de sus funciones de distribución de probabilidad (PDFs), para: obtener valores de salida
aleatorios numéricos (v) [82].

Por lo tanto, las diversas salidas de MC (es decir, una salida por iteración) generalmente
se agregan para obtener resultados estadísticos (típicamente representados por el valor
esperado y la desviación estándar) [41], [82]. Sin embargo, esta tesis no aplica
específicamente simulaciones basadas en MC. Con el objetivo de obtener información
estadística. El objetivo principal de utilizar esta técnica probabilística es generar datos
estáticos o dinámicos post-contingencia del sistema considerando una gran cantidad de
los escenarios y contingencias probables, incluso aquellos que podrían llevar al sistema a
posibles eventos en cascada y posteriores apagones. Entonces, el número de repeticiones
de MC no puede ser determinado directamente por las relaciones de convergencia (como
las presentadas en [82]).
En las aplicaciones propuestas por la presente tesis, el número de iteraciones dependerá
de la complejidad del sistema y del logro de un conjunto de datos suficientemente
representativos que revelen los patrones de vulnerabilidad y el estado post-contingencia.
A este respecto, se sugiere que el número de casos vulnerables generados represente al
menos el 20% del número total de casos. Este valor se ha determinado empíricamente a
través de varios experimentos realizados durante el desarrollo de la presente
investigación.
2.4.2. Técnicas de minería de datos
Dado que el objetivo de esta tesis es evaluar la vulnerabilidad de los sistemas de energía
eléctrica utilizando los datos obtenidos de diferentes PMU ubicadas en toda la red, las
principales herramientas matemáticas empleadas son las técnicas llamadas "Mineria de
Datos". Esta área de las matemáticas es un campo joven y prometedor cuyo objetivo es
permitir el "descubrimiento de conocimiento a partir de datos" (KDD) [83].
En términos generales, la extracción de datos se refiere a “extraer o minería de
conocimientos de grandes cantidades de datos” [83]. Este conocimiento se obtiene a
través de la determinación o extracción de patrones sumergidos en los datos (es decir,
reconocimiento de patrones). La figura 2.11 describe el proceso que permite obtener el
conocimiento de los datos.

Las tareas de minería de datos se pueden clasificar en dos categorías: descriptivas y


predictivas. Las herramientas de minería descriptiva caracterizan las propiedades
generales de los datos en la base de datos, mientras que las técnicas de minería predictiva
realizan inferencia sobre los datos actuales para hacer predicciones [83]. Esta tesis aplica
ambos tipos de herramientas de minería de datos en diferentes casos, tales como:
reducción de numerosidad, reducción de dimensión, procesamiento de señales,
agrupamiento, clasificación y regresión.
Para este propósito, se utilizan varias técnicas de extracción de datos a lo largo de esta
investigación, que se describirán en las siguientes subsecciones.
La mayoría de estas técnicas de minería de datos están diseñadas para analizar datos
multivariables (es decir, un conjunto de datos que consiste en un gran número de variables
interrelacionadas [84]). Este conjunto de datos generalmente estructura una matriz de
datos (Xnp), donde n constituye el número de observaciones, y p representa el número de
variables.
2.4.2.1. Análisis de componentes principales
El análisis de componentes principales (PCA) es una técnica de minería de datos que
permite reducir la dimensión de los datos, manteniendo en la mayor medida posible la
variación presentada en ellos. Esto se logra al transformar estos datos en un nuevo
conjunto de variables, es decir, componentes principales (PCs), que no están
correlacionados, y que están ordenados para que los primeros componentes conserven la
mayor parte de la variación presente en las variables originales [85].
Las PCs se definen como una combinación lineal de las variables originales que tienen la
varianza máxima [84]. Estas nuevas variables se determinan en función de las
propiedades del valor propio-vector propio obtenidas mediante la aplicación de la
denominada descomposición de valores singulares (SVD) a la matriz de covarianza (S).
La matriz de covarianza es una matriz cuyos elementos diagonales representan la varianza
de cada variable (es decir, la variabilidad de las variables con respecto a la media),
mientras que los elementos (i, j) (i ≠ j) corresponden a la covarianza entre la i-th y j-th
Variables (es decir, relación lineal entre dos variables). La matriz de covarianza (S) se
calcula a partir de la matriz de datos (X) mediante la siguiente expresión.

Donde I es la matriz de identidad y 1 es el vector de todos unos [84].


Como S es una matriz simétrica real, su SVD también se denomina Descomposición
espectral y se define como en (2.14).

Donde U es una matriz ortonormal que contiene los vectores propios de S, y Λ es una
matriz diagonal cuyos elementos son los valores propios (λi) de S.
La proyección de los datos originales en el hiper-plano definido por los vectores propios
de S (es decir, los coeficientes de PC), constituye las nuevas variables (es decir, PC
puntuaciones de -Z-) que se definen por (2.15)

La suma de los valores propios de PC (λi) es equivalente a la varianza total de la matriz


de datos, y cada valor propio de PC ofrece una medida de la variabilidad explicada
correspondiente (EVi), definida por (2.16). Por lo tanto, el número de PC elegidos
depende de la variabilidad explicada deseada.

2.4.2.2. Funciones ortogonales empíricas


Las funciones ortogonales empíricas (EOFs) son el resultado de aplicar la
descomposición de valores singulares (SVD) a los datos de series de tiempo [86], [87].
Algunos autores consideran que PCA y EOF son sinónimos [87]; Sin embargo, esta tesis
utiliza una interpretación diferente de estas dos técnicas.
Mientras que PCA es un método de minería de datos que permite reducir la dimensión de
los datos, EOF es una técnica de minería de datos de series temporales que permite
descomponer una función discreta del tiempo f (t) (como el ángulo de voltaje, la magnitud
o frecuencia de voltaje) en una suma de un conjunto de funciones de patrón discreto, a
saber EOFs. Por lo tanto, la transformación EOF se utiliza para extraer los componentes
individuales más predominantes de una forma de onda de señal compuesta (similar al
análisis de Fourier), que permite revelar los patrones principales sumergidos en la señal.
Los principales enfoques relacionados con las EOFs se han desarrollado para su uso en el
análisis de datos de la ciencia atmosférica espacio-temporal [86], [87], [88], [89],
mientras que su aplicación en otros campos científicos sigue siendo escasa. Los datos en
cuestión consisten en mediciones de una variable específica (como la presión del nivel
del mar, la temperatura, etc.) en n ubicaciones espaciales en p diferentes momentos [85].
Esta tesis emplea una variación de esta definición, donde las n ubicaciones espaciales se
reemplazan por n diferentes estados del sistema de poder post-contingencia (obtenidos de
la simulación de Monte Carlo en esta tesis).
Usando este concepto, se estructura una matriz de datos (n x p) de funciones discretas
(F), donde las mediciones posteriores a la contingencia en diferentes estados del sistema
de potencia (n) se tratan como observaciones, y las muestras de la PMU que pertenecen
a un predefinido La ventana de tiempo (p puntos de tiempo) desempeña el papel de las
variables. Dado que los diferentes estados del sistema de energía resultaron de la
aplicación de simulaciones basadas en MC, n es conceptualmente mayor que p (n > p),
por lo que F es una matriz rectangular.

Donde fk es la k-ésima función discreta del tiempo que se obtiene en la iteración k-esima
MC y se mide en una ventana específica que permite obtener p muestras.
Formalmente, la SVD de la matriz rectangular real F de dimensiones (n × p) es una
factorización de la forma [84]:

Donde U es una matriz ortogonal cuyas columnas son los vectores propios ortonormales
de FF ', V' es la transposición de una matriz ortogonal cuyas columnas son los vectores
propios ortonormales de F′F, y Λ1/2 es una matriz diagonal que contiene las raíces
cuadradas de valores propios de U o V en orden descendente, que se denominan valores
singulares de F.
Teniendo en cuenta que n > p, esta descomposición de la matriz se puede escribir,
utilizando vectores, de la siguiente manera:

Lo que se puede escribir como una suma finita, como se muestra en (2.21).
Desde la última expresión, cada elemento de F (cada función discreta) puede
representarse por:

Después de algunos cálculos, (2.22) se puede escribir de una manera diferente, de la


siguiente manera:

Vale la pena mencionar que la expresión mostrada por (2.23) en realidad representa la
descomposición de la función discreta del tiempo fk en una suma de un conjunto de
funciones discretas (vj) que son de naturaleza ortogonal (ya que son los vectores propios
ortonormales de F′F), ponderados por coeficientes reales resultantes del producto del j-
th valor singular de F por el j-th elemento propio del vector uk. Por lo tanto, vj representa
la j-th EOF y su coeficiente akj  1/2
j ukj se llama la puntuación EOF.

Sobre la base de una generalización de (2.23), es posible reconstruir la matriz F completa


(es decir, los datos originales) utilizando los EOF y sus correspondientes puntajes EOF,
como en (2.24).

Donde ai es el i-ésimo vector cuyos elementos son todas las puntuaciones EOF de aij

Comparando (2.21) y (2.24), es fácil concluir que ai  i1/ 2ui

Luego, todas las puntuaciones de aij EOF se pueden calcular utilizando su forma matricial,
de la siguiente manera:

Donde A es la matriz de puntuación EOF.


Desde (2.18) y (2.25), se puede determinar que:

A partir de la última ecuación, y basado en el hecho de que V es una matriz ortogonal


(cuya característica principal consiste en: "su transposición es igual a su inversa"), la EOF
matriz de puntaje A se puede calcular usando (2.27).
Donde la matriz V contiene las EOF correspondientes de F (es decir, los vectores propios
de F′F).

De manera similar a PCA, la suma de los valores singulares de F ( i1/ 2 ) es equivalente a


la varianza total de la matriz de datos, y cada valor singular ofrece una medida de la
variabilidad explicada correspondiente, definida previamente por (2.16). Por lo tanto, el
número de EOF elegidos también depende de la variabilidad explicada deseada.
Cabe mencionar que la principal ventaja de los EOF es que permiten determinar las
funciones ortogonales que mejor se adaptan al conjunto de funciones dinámicas. Es decir,
aquellas funciones que mejor representan los patrones inmersos del conjunto de señales.
Comparando con otras herramientas de procesamiento de señales, como el análisis de
Fourier (que también descompone la señal en funciones ortogonales), la mejora de los
EOF consiste en su adaptabilidad para encontrar las mejores funciones de patrón. Por el
contrario, el análisis de Fourier emplea siempre las mismas funciones trigonométricas
predefinidas: seno y coseno, que no siempre son las mejores funciones para representar
un comportamiento dinámico específico. Algunos ejemplos se presentan en el Apéndice
B para demostrar esta característica.
2.4.2.3. Análisis de Clustering (agrupamiento)
Una de las aplicaciones principales de las herramientas de minería de datos es clasificar
los datos en diferentes categorías, comúnmente llamadas "clases". A veces, las clases se
especifican previamente junto con los datos, pero en ocasiones no hay ninguna clase
asociada a los datos.
Las técnicas de Clustering se aplican cuando no hay una clase asociada a los datos, pero
las instancias deben dividirse en grupos naturales. Luego, la agrupación en clúster se
utiliza para agrupar elementos que parecen estar unidos naturalmente [90], de modo que
los datos dentro de un agrupamiento son similares entre sí y son diferentes a los datos que
pertenecen a otros agrupamientos [83].
Existen varias técnicas de Clustering, de las cuales esta tesis utiliza la agrupación
sustractiva y la agrupación Fuzzy C-means (FCM).
A. Agrupación sustractiva (Clustering sustractiva)
La agrupación sustractiva es una técnica que considera cada punto de datos (observación)
como un candidato para ser un centro de agrupación. Este supuesto hace que el cálculo
sea proporcional al tamaño del problema. Sin embargo, vale la pena mencionar que los
centros de agrupación reales no necesariamente coinciden con un punto de datos, pero en
la mayoría de los casos es una buena aproximación [91].
Dado que cada observación es un centro de agrupación prospectivo, una medida de
densidad (Dm) en cada punto de datos xi se puede definir mediante (2.28). Al usar Dm,
es posible obtener una medida de la potencialidad de cada punto de datos de ser un
centroide, porque una observación que presenta un valor de alta densidad tendrá muchos
puntos de datos adyacentes [91]
Donde xk es la k-ésima observación o punto de datos, n es el número de puntos de datos
y ra es una constante positiva que representa un radio de vecindad [91]
El primer centro de agrupación c1 se elige como el punto que tiene el mayor valor de
densidad (Dmc1). Después de eso, la medida de densidad de cada observación se modifica
como se muestra en (2.29) [91]. Con esta revisión, las observaciones cercanas al primer
centroide reducirán significativamente su valor de densidad.

Donde rb es una constante positiva que representa un radio de vecindad con reducciones
mensurables en la medida de densidad [91].
Después de la modificación de densidad, el siguiente centro de agrupación será el punto
de datos que tenga la mayor medida de densidad modificada. El algoritmo se repite hasta
que máx Dmi     Dmc1 [92], siendo ε un factor relajante que permite determinar el
número de grupos suficientes.
Con el fin de evitar la selección de los centroides cercanos, se sugiere que rb = 1.25ra. Del
mismo modo, el parámetro ε debe seleccionarse dentro de (0, 1). Si ε está cerca de 0, se
generará un gran número de agrupaciones. Por el contrario, un valor de ε cercano a 1
conducirá a una pequeña cantidad de grupos [92].
En función de la capacidad descrita para determinar un número suficiente de
agrupaciones, se puede utilizar la agrupación sustractiva para inicializar los métodos de
agrupación basados en optimización iterativa (como promedios Fuzzy C) [93]. Este tipo
de aplicación se realiza a lo largo de esta tesis.
B. Agrupamiento difuso ( Fuzzy C-means clustering)
Fuzzy C-means clustering (FCM) es un método que utiliza la partición difusa para
permitir encontrar grupos de datos donde cada punto de datos (observación) pertenece a
un grupo con un cierto grado de grado de membresía. Por lo tanto, un punto de datos
determinado puede pertenecer a varios grupos con su propio grado de membresía entre 0
y 1 [91].
FCM se basa en la minimización de una función de costo (J) para particionar el conjunto
de datos. Esta función de costo se muestra por (2.30).
Donde uij es el grado de pertenencia a la observación j-th en el grupo i-th, n es el número
de puntos de datos, cl es el número de grupos, m = [1, ∞) es un exponente de ponderación,
y dij  ci  x j es la distancia euclidiana entre el i-th cluster center (ci) y la j-th
observación (xj) [91].
Hay dos condiciones necesarias que permiten que la función de costo alcance su mínimo,
que se muestran con (2.31) y (2.32).

La optimización se realiza de manera iterativa a través de las condiciones previas hasta


que se alcanza un criterio de detención (que advierte sobre la "no más mejoras").
La salida de FCM comprende los centros de clúster ci y la matriz de membresía U (cuyos
elementos son cada uij).
2.4.2.4. Métodos de muestreo
En algunas aplicaciones, la enorme cantidad de puntos de datos no se puede usar
conjuntamente para ser analizados por técnicas de extracción de datos debido a
limitaciones computacionales. Por ejemplo, los datos generados por simulaciones basadas
en MC a veces constituyen demasiada información, dependiendo de la aplicación de
minería de datos específica. Por lo tanto, se debe elegir un número reducido de muestras.
A este respecto, se debe aplicar una técnica de reducción de numerosidad de datos para
obtener una representación reducida del conjunto de datos que es mucho más pequeño en
volumen, mientras mantiene la integridad de los datos originales [83].
Hay varios métodos de muestreo en la literatura, de los cuales esta tesis emplea el
muestreo aleatorio simple (SRS) y el muestreo de agrupamiento (basado en FCM)
A. Muestreo aleatorio simple (SRS)
El muestreo aleatorio simple permite que un gran conjunto de datos se represente
mediante una muestra aleatoria mucho más pequeña (o subconjunto) de los datos.
Esta tesis aplica el SRS sin reemplazo (SRSWOR), que se crea al extraer s de las N
observaciones del conjunto de datos (s <N), donde la probabilidad de extraer cualquier
observación es 1 / N, es decir, todas las observaciones son igualmente probables para ser
muestreados [83].
B. Muestreo de agrupamiento basado en medios difusos
El objetivo del muestreo de conglomerados es dividir los datos en grupos o
conglomerados.
Esta técnica es más efectiva para datos que pueden organizarse en grupos diferentes
debido a su alta diversidad. Cuando ocurre esta condición, se aplica un método de
agrupación en clústeres (en este caso FCM) a los datos originales para seleccionar
adecuadamente los subconjuntos de datos que presentan similitudes [83].
Antes de la aplicación de FCM, la PCA podría aplicarse primero a la matriz de datos para
reducir la dimensionalidad de los datos, manteniendo la mayor cantidad posible de la
variación presentada en ellos. A continuación, FCM se aplica a las primeras puntuaciones
de PC (que presentan la variabilidad explicada deseada) para determinar los grupos de
datos que representan características similares.
2.4.2.5. Máquinas de vectores de apoyo
Las máquinas de vectores de soporte (SVM) constituyen una clase de técnica de
aprendizaje automático para resolver problemas de clasificación (C), regresión (R) y
detección de novedades [94]. Debido a sus características especiales y aplicaciones
concisas, SVM se considera generalmente como una de las técnicas de extracción de datos
más prometedoras [83], [95].
SVM pertenece a un conjunto de algoritmos, a saber, métodos de kernel, y emplea la
minimización del riesgo estructural (SRM) como principio de optimización. Por lo tanto,
generalmente es más robusto para evitar problemas de ajuste excesivo [41]. Debido a esta
característica, SVM ha sido considerado de gran potencial para aplicaciones de ingeniería
de energía [41].
De hecho, SVM se ha utilizado para la previsión del precio de la electricidad [41], para
evaluar la estabilidad transitoria utilizando atributos de una sola máquina [96] o datos
post-contingencia de PMU medidos en los buses terminales de generación [48], así como
para realizar operaciones en línea estática [39], y evaluación dinámica de seguridad [40].
Además, los resultados de la simulación del clasificador SVM se han comparado con
otros algoritmos de clasificación como Método de mínimos cuadrados (MLS), Perceptrón
multicapa (MLP) y Análisis discriminante lineal (LDA) en [40], mostrando un mejor
rendimiento.
Por estas razones, SMV ha sido elegida como la herramienta de clasificación y estimación
en varias metodologías desarrolladas en esta tesis.
A. Clasificador de vectores de apoyo
El clasificador de vectores de soporte (SVC) es un algoritmo no paramétrico, en el que
no se supone ningún conocimiento a priori [97].
Este clasificador adquiere funciones de decisión que clasifican una entrada en una de las
clases dadas a través del entrenamiento utilizando datos de pares de entrada-salida
(características-etiqueta). La función de decisión óptima se denomina Hipoplano óptimo
(OH) y está determinada por un pequeño subconjunto del conjunto de entrenamiento que
se denomina vectores de soporte (SV), utilizando el concepto de dimensión VC (Vapnik-
Chervonenskis) como la dimensión Fundamento teórico [97].
La figura 2.12 muestra una ilustración de una solución SVC para un problema de
clasificación de datos de dos clases, donde se han determinado el SV y el OH. Los
vectores clasificados pertenecen a cualquiera de dos grupos diferentes, es decir, "clase 1"
o "clase 2", y están representados en un plano bidimensional cuyos ejes son la primera y
la segunda variables (x1 y x2) de los vectores de características (x).

SVC necesita a priori una etapa de aprendizaje fuera de línea, en la cual el clasificador
debe ser entrenado usando un conjunto de datos de entrenamiento. Por lo tanto, los datos
deben dividirse en conjuntos de entrenamiento y prueba. Cada elemento del conjunto de
entrenamiento contiene un "valor objetivo" (etiquetas de clase) y varios "atributos"
(características). El objetivo de SVC es producir un modelo basado en datos de
entrenamiento, que predice los valores objetivos de los datos de prueba dadas solo las
características de los datos de prueba [98].
Dado un conjunto de entrenamiento de pares de características (xi, yi), i = 1,…, l donde
xi ∈ Rn y y ∈ {1, -1}l, para un problema de clasificación de dos clases, el clasificador
de vectores de soporte requiere la solución del problema de optimización que se muestra
en (2.33) [98].

Donde w es un vector de peso tridimensional, b es un término de polarización, ξi es una


variable de holgura asociada con xi, C es el parámetro de margen y  (xi) es la función
de mapeo de x al espacio de características [97]. Vale la pena mencionar que w, b, y ξi se
determinan a través del proceso de optimización de SVC, mientras que C es un parámetro
que debe especificarse a priori.
La función de mapeo  (xi) generalmente se define como la llamada "función del
núcleo" K (xi, xj), como en (2.34) [98].

Existen varias funciones del kernel, como lineal, polinomial, función de base radial
(RBF), entre otras. La figura 2.12 presenta, por ejemplo, un OH determinado utilizando
una función de núcleo lineal.
En esta tesis, el núcleo RBF (2.35) se usa porque es capaz de manejar posibles relaciones
no lineales entre etiquetas y características [98].

Antes de entrenar el SVC, es necesario identificar los mejores parámetros C de (2.33) y


γ de (2.35) [98]. Para este propósito, el procedimiento de validación cruzada de k-fold
(CV) y la metodología de búsqueda en cuadrícula se utilizan comúnmente [98]. Este
algoritmo genera iterativamente una cuadrícula de parámetros (C, γ) y obtiene la precisión
de CV para cada configuración de parámetro [99]. Luego, se seleccionan los parámetros
con la más alta precisión CV.
B. Vector de soporte de regresión
La variante de regresión de SVM, comúnmente denominada como vector de soporte
regresivo (SVR), se ha utilizado para la aproximación de funciones y los problemas de
predicción de series de tiempo [97].
La aproximación de la función consiste en determinar una relación de entrada-salida
utilizando pares conocidos de entrada-salida (xi, zi), i = 1, ..., l, donde xi ∈ Rn es un vector
de características de las entradas, zi ∈ Rn es la salida objetivo, y l es el número de datos
de entrenamiento [97], [99].
Una SVR mapea el espacio de entrada en el espacio de características multidimensionales
para determinar un hiper-plano óptimo (OH), que se define por:

Donde w es el vector de peso en n dimensiones,  (x) es la función de mapeo de x en


el espacio de la característica, y b es el término de sesgo [97].
La función de mapeo  (x) generalmente se define en términos de la llamada función
del kernel, como para SVC. El núcleo RBF (2.35) también se usa para la RVS en esta
tesis.
En la regresión lineal, la función de error cuadrado generalmente se optimiza para lograr
el mejor rendimiento de regresión. Sin embargo, la precisión de estimación pobre podría
ocurrir cuando los residuos (r = z - f (x)) son relativamente grandes.
Para superar este inconveniente, la SVR generalmente asume un pequeño parámetro
positivo ε para definir una función lineal por tramos E (r) en lugar de la función de error
cuadrado [97], como sigue.

Luego, el parámetro ε > 0 define el radio de una zona en el espacio de entrada-salida, se


llama zona ε- insensible (o tubo) y se logra una estimación ideal cuando todos los datos
de entrenamiento están dentro de esta zona.
La figura 2.13 representa la zona ε- insensible, limitada por ± ε, donde también se
incluyen las variables de holgura no negativas ξi y ξi*, que permiten que existan los datos
fuera del tubo.

Matemáticamente, la regresión de vectores de soporte posee el siguiente formato de


problema de optimización [99].
Donde C> 0 es el parámetro de margen que determina la compensación entre la distancia
desde el hiper-plano a una muestra de datos (es decir, el margen) y el error de estimación.
Mientras que w, b, ξi y ξi * se determinan mediante el proceso de optimización de SVR,
los parámetros ε y C de (2.38), y γ de (2.35) deben especificarse antes de la formación
del SVR, de manera similar a SVC.
2.4.2.6. K-fold validación cruzada
Una de las principales consultas al usar clasificadores o regresores es saber qué tan
preciso podría resultar la predicción de la herramienta de minería de datos empleada.
La validación cruzada K-fold es una técnica utilizada para evaluar esta precisión en base
a particiones muestreadas aleatoriamente de los datos dados [83].
En la validación cruzada de k-fold, los datos iniciales se dividen aleatoriamente en k
subconjuntos o "pliegues" mutuamente excluyentes de tamaño aproximadamente igual.
Luego, se realiza entrenamiento y pruebas k veces. En la iteración i, la partición i-th se
mantiene como el conjunto de prueba, y las particiones restantes se utilizan
conjuntamente para entrenar el modelo [83].
La principal ventaja de la validación cruzada de k-fold es su capacidad para evitar
problemas de sobrealimentación, lo que hace que el clasificador o el regresor sean más
robustos y más precisos. Comúnmente, k se elige como 10 debido a su varianza
relativamente baja [83] y su tendencia a obtener la mejor estimación del error [90], pero
en general podría ser cualquier número adecuado.
2.4.3. Media - optimización de mapeo de varianza
La optimización de mapeo de varianza media (MVMO) es un nuevo algoritmo de
optimización heurística, que ha sido particularmente adecuado para resolver varias tareas
de optimización en esta tesis.
Los antecedentes teóricos del algoritmo MVMO clásico se publicaron por primera vez en
[100]. Las aplicaciones para problemas de optimización del sistema de energía se
informan en [101], [102], en las cuales MVMO mostró un excelente comportamiento de
convergencia en contraste con otros métodos heurísticos.
Recientemente, se ha propuesto una variante de enjambre de MVMO (es decir, MVMOS)
para mejorar el comportamiento de convergencia, y sus resultados han mostrado un mejor
desempeño en términos del mínimo alcanzado [103]. Por lo tanto, en base a los resultados
informados, MVMOS ha sido elegido como el método para abordar todos los problemas
de optimización desarrollados a lo largo de esta tesis. Esta subsección está destinada a
resumir brevemente cómo funcionan los MVMOS.
Primero, el espacio de búsqueda interno de todas las variables en MVMOS está restringido
al rango [0, 1]. Por lo tanto, los límites mínimos / máximos reales de las variables de
optimización deben normalizarse a un valor entre 0 y 1. Por lo tanto, no es posible que
ningún componente del vector de solución viole los límites correspondientes en todas las
iteraciones.
Nuevas soluciones candidatas (es decir, descendencia) se crean en cada iteración
mediante el uso de una función de mapeo especial h. Los parámetros de entrada de esta
función son la media y la varianza de las mejores soluciones que MVMOS ha descubierto
hasta ahora a través de la evaluación de la condición de la función objetivo de
optimización. Básicamente, la función de mapeo transforma una variable xi* variada
aleatoriamente con una unidad de distribución a otra variable xi que se concentra
alrededor del valor medio. La transformación xi* → xi es la siguiente:

Donde la función h se define como:

Hx, h1 y h0 son las salidas de la función h (2.40) basadas en diferentes entradas dadas por:

Tenga en cuenta que la salida de (2.39) siempre está dentro de los límites [0, 1] para cada
xi* generado.

Durante la optimización, la forma de la función h se ajusta mediante la media xi y las


variables de pendiente s1 y s2 El efecto de estos parámetros en la forma de la función se
ilustra en la Fig. 2.14.
La propiedad distintiva de MVMOS es la capacidad de buscar la mejor solución local con
pocas posibilidades de quedar atrapado en uno de los óptimos locales. Esto se muestra
para dos variables en la figura 2.15. Como se puede ver, la búsqueda se centra en los
valores medios que son para ambas variables 0.5 en este ejemplo. Sin embargo, hay
algunas muestras también fuera de las áreas medias, es decir, el algoritmo realiza una
búsqueda global, pero el énfasis está alrededor de los medios.
Las variables de la media y la pendiente se calculan a partir de un archivo de soluciones
de actualización continua, donde se almacenan las n mejores poblaciones logradas hasta
el momento.
Entonces:

Con la varianza:

La varianza se calcula solo para diferentes variables en el archivo. El factor fs se puede


usar para cambiar la pendiente de la función, p. Ej. Cuando se necesita mejorar la
precisión (aumentar fs> 1) o se requiere más búsqueda global (disminuir fs <1).
El esquema MVMOS general se muestra en la Fig. 2.16 [103]. Comparado con el
MVMOS clásico, explora el espacio de la solución de manera más agresiva, ya que el
proceso de búsqueda se inicia con un conjunto de partículas np, cada una con su propia
memoria definida en términos del archivo de la solución correspondiente y la función de
mapeo.
Al principio, cada partícula realiza m pasos independientemente para recopilar un
conjunto de soluciones individuales. Entonces, las partículas comienzan a comunicarse e
intercambiar información. Sin embargo, no es digno de seguir partículas que están cerca
unas de otras ya que esto implicaría redundancia. Por lo tanto, en la implementación del
enjambre, la distancia normalizada di de cada una de las partículas locales, la mejor
solución xlbest ,i a la mejor global x gbest se calcula mediante:

Donde n representa el número de variables de optimización, denotado por xk.


La i-ésima partícula se descarta del proceso de optimización si la distancia di es menor
que un determinado umbral definido por el usuario. Un umbral cero significa que todas
las partículas se consideran durante todo el proceso, mientras que un umbral unitario
implica una búsqueda basada en una sola partícula. Los valores de umbral intermedios
implican una mejor adaptación a cualquier problema de optimización.
Después de una evaluación independiente, y si la partícula se considera más a fondo, su
búsqueda se dirigirá hacia la mejor solución global al asignar x gbest , en lugar de xlbest ,i ,
como elemento principal para la descendencia de la partícula.
2.4.4. Análisis de Prony
El análisis de Prony es una herramienta de procesamiento de señales que extiende el
análisis de Fourier para estimar directamente la frecuencia, atenuación, amplitud y fase
relativa de los componentes modales presentes en una señal oscilatoria dada [105].
Basado en el análisis modal (ver [61] para detalles), una señal oscilatoria puede ser
representada teóricamente por una suma de los modos inmersos en la señal. A este
respecto, el análisis de Prony se ha diseñado para estimar los parámetros de los términos
exponenciales que pertenecen a cada modo, ajustando la función dada por (2.46) a una
señal real registrada y(t) [105]

Donde n es el número de modos dominantes, Ai es la amplitud del modo i-th, σi ± jωi es


el complejo i-th es la frecuencia modal, y φi es la inicial i-th es la fase modal.
Para este propósito, el análisis de Prony construye un modelo de predicción lineal discreta
(LPM) que se ajusta a la señal grabada. Luego, se encuentran las raíces del polinomio
característico asociado al LPM. Finalmente, la amplitud y la fase inicial de cada modo se
calculan utilizando las raíces obtenidas de LPM como las frecuencias modales complejas
[105]. Para obtener detalles sobre cómo están estructuradas las matrices LPM, los lectores
interesados pueden encontrar más información en [105], [106], [107], [108], [109].
Para aplicar el análisis de Prony en la práctica, se requieren algunas extensiones y
refinamientos. Por ejemplo, el conocimiento previo de la dimensión real del sistema suele
ser un problema, ya que solo requiere aproximaciones de orden reducido [105]. Además,
para ajustar las compensaciones de señal o el ruido, es posible que se necesiten modos
adicionales. El análisis de valores singulares [105] y otros mecanismos, como los
mínimos cuadrados totales, la descomposición de valores singulares o la factorización
QR [108] se utilizan para ajustar las características del modelo a estos problemas
particulares.
La señal reconstruida ŷ (t) comúnmente encajará y(t) de manera inexacta. Por lo tanto, se
debe utilizar una medida de la calidad del ajuste (generalmente la relación señal-ruido -
SNR-) [105]. El análisis de Prony requiere una SNR alta para obtener resultados precisos.

You might also like