You are on page 1of 29

Programmazione non lineare

Davide Torlo
24/07/2014
1
Indice
1 Introduzione 3
2 Prerequisiti 4
2.1 Il Teorema di Danskin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Teorema di Lyusternik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.1 Esempio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.2 Formulazione alternativa del teorema di Lyusternik . . . . . . . . 9
2.3 Principio -variazionale di Ekeland . . . . . . . . . . . . . . . . . . . . . 11
2.4 Funzioni di penalizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3 Programmazione non lineare 18
3.1 Problema di programmazione non lineare . . . . . . . . . . . . . . . . . . 18
3.2 Condizioni necessarie del primo ordine (Fritz John) . . . . . . . . . . . . 19
3.2.1 Lagrangiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.2 Dimostrazione con le funzioni di penalizzazione . . . . . . . . . . 22
3.2.3 Dimostrazione con il principio -variazionale di Ekeland . . . . . . 24
3.3 Altre condizioni del primo ordine . . . . . . . . . . . . . . . . . . . . . . 25
3.4 Condizioni del secondo ordine . . . . . . . . . . . . . . . . . . . . . . . . 27
4 Exempla 29
2
1 Introduzione
qua devo ancora riscrivere tutta lintro, non corregga
Perche voglio parlare di programmazione non lineare?
Qua vorrei presentare due problemi concreti di cui voglio trovare un minimo di una fun-
zione vincolato con disuguaglianze da R
n
a R.
Quindi vorrei spiegare cosa `e un programma non lineare. Un problema di programmazione
non lineare `e un problema di ottimizzazione vincolata del tipo

ott f(x)
g
i
(x) 0, i = 1, ..., r
h
j
(x) = 0, j = 1, ..., m
(1)
Con ottimizzazione si intende la ricerca di minimi o massimi assoluti e locali. In ogni
situazione possiamo scrivere la ricerca di un ottimo come la ricerca di un minimo, sem-
plicemente cambiando il segno di f(x). Da ora in poi, scriveremo il problema come

min f(x)
g
i
(x) 0, i = 1, ..., r
h
j
(x) = 0, j = 1, ..., m
(2)
Prima di studiare i metodi che portano alla ricerca delle soluzioni di questi problemi,
abbiamo bisogno di alcuni prerequisiti che studio nel seguente paragrafo.
3
2 Prerequisiti
In questa sezione presenteremo alcuni risultati che ci saranno utili per trattare la pro-
grammazione non lineare. In particolare, passeremo in rassegna il Teorema di Dan-
skin, il Teorema di Lyusternik, il Principio -Variazionale di Ekeland e le Funzioni di
Penalizzazione.
2.1 Il Teorema di Danskin
Il teorema di Danskin `e un teorema fondamentale per il calcolo delle derivate delle con-
dizioni di ottimo. Infatti, permette di calcolare la derivata della funzione marginale data
dal massimo su una curva di livello.
Nella nostra trattazione verr`a usato nella dimostrazione del teorema di Fritz John, nella
versione con il principio -variazionale di Ekeland, quando, appunto, servir` a calcolare la
derivata di una funzione di tal tipo.
Teorema (Danskin)
Siano X R
n
aperto, Y sottoinsieme compatto di uno spazio topologico T e f : XY
R una funzione continua. Supponiamo che
x
f(x, y) esista e sia continua. Allora la
funzione marginale
(x) := max
yY
f(x, y)
`e continua in X, ha derivata

(x, h) in ogni direzione h data da

(x, h) = max
yY (x)

x
f(x, y), h,
dove Y (x) = y Y : (x) = f(x, y).
Dimostrazione
Iniziamo provando la continuit` a.
Siano x
0
X, x
k

1
X tali che x
k

k
x
0
. Per ogni k, per la compattezza di
Y, y
k
Y : (x
k
) = f(x
k
, y
k
); inoltre, si ha che y
k
o una sua sottosuccessione
converge ad un punto y
0
Y e, per ipotesi, f(x
k
, y
k
) f(x
k
, y) y Y .
lim
k+
(x
k
) = lim
k+
f(x
k
, y
k
) = f(x
0
, y
0
) lim
k+
f(x
k
, y) = f(x
0
, y), y Y.
Quindi f(x
0
, y
0
) = (x
0
) = lim
k+
(x
k
), pertanto `e continua in x
0
.
Passiamo ora alla dimostrazione della seconda tesi.
4
Sia h ,= 0 R
n
, e sia x
k

1
con x
k
= x
0
+t
k
h, t
k
0, una successione convergente a x
0
(t
k
0). Sia y Y (x
0
); se (x
k
) = f(x
k
, y
k
), k 1, allora
(x
k
) (x
0
)
t
k
=
f(x
k
, y
k
) f(x
0
, y)
t
k
=
=
f(x
k
, y
k
) f(x
k
, y)
t
k
+
f(x
k
, y) f(x
0
, y)
t
k

0 +
f(x
k
, y) f(x
0
, y)
t
k
=
x
f(x
0
+t

k
h, y), h,
dove lultima uguaglianza `e dovuta al teorema del valor medio.
Per le ipotesi, per ogni y Y (x
0
) si ha:
liminf
k
(x
k
) (x
0
)
t
k

x
f(x
0
, y), h,
da cui
liminf
k
(x
k
) (x
0
)
t
k
max
yY (x
0
)

x
f(x
0
, y), h.
Poiche (x
k
) = f(x
k
, y
k
), ho che
(x
k
) (x
0
)
t
k
=
f(x
k
, y
k
) f(x
0
, y
k
)
t
k
+
f(x
0
, y
k
) f(x
0
, y
0
)
t
k

f(x
k
, y
k
) f(x
0
, y
k
)
t
k
+ 0 =
x
f(x
0
+t

k
h, y
k
), h,
quindi
limsup
k
(x
k
) (x
0
)
t
k
limsup
k

x
f(x
0
+t

k
h, y
k
), h =
=
x
f(x
0
, y
0
), h max
yY (x
0
)

x
f(x
0
, y
0
), h,
da cui segue la tesi.

Questo teorema verr` a largamente usato nella teoria che sar` a sviluppata in seguito.
5
2.2 Teorema di Lyusternik
Il teorema di Lyusternik mette in relazione linsieme delle direzioni tangenti in un punto
a un insieme di livello di una funzione con il nucleo dellapplicazione lineare associata al
dierenziale della funzione nel punto. Questo teorema verr` a usato nella dimostrazione
delle condizioni di Fritz John. Pu` o anche essere dimostrato attraverso le funzioni di
penalizzazione che introdurremo pi` u avanti. Prima di enunciare il teorema introduciamo
le seguenti denizioni:
Denizione
Siano M un sottoinsieme non vuoto di R
n
e x M. Un vettore d R
n
si dice direzione
tangente a M in x se esiste una successione x
n
M convergente a x e una successione

n
R tali che
lim
n

n
(x
n
x) = d.
Denizione
Si dice cono tangente a M in x linsieme di tutte le direzioni tangenti a M in x e si
indica con T
M
(x).
Figura 1: Cono tangente a S
1
in (1, 0, 0)
Teorema (Lyusternik)
Siano U R
n
aperto, f : U R
m
una funzione di classe (
1
. Per ogni x
0
U, si consideri
M := f
1
(f(x
0
)). Allora T
M
(x
0
) = ker Df(x
0
).
Dimostrazione
Senza perdita di generalit` a supponiamo x
0
= 0 e f(x
0
) = 0 (altrimenti si consideri la
funzione x f(x +x
0
) f(x
0
)). Sia A := Df(0).
6
Dimostriamo inizialmente linclusione di T
M
(0) in ker Df(0).
Se d T
M
(0) allora t : x(t) = td +o(t). Applicando f abbiamo che
0 = f(td +o(t)) = f(0) +tDf(0)d +o(t),
il che implica Df(0)d = 0 e d ker Df.
Ho dimostrato che T
M
(0) ker Df(0).
Dimostriamo ora linclusione inversa.
Sia K := ker Df(0). Siccome Df(0) `e unapplicazione lineare su R
n
, possiamo porre
L := K

, K R
nm
, L R
m
e si pu` o vedere x R
n
R
nm
R
m
, cio`e possiamo scrivere x = (y, z) K L e
A = [D
y
f(0), D
z
f(0)].
Per denizione, ker Df(0) viene mappato da A in 0, cio`e
0 = A(K) = A(d
1
, 0) : d
1
R
nm
= D
y
f(0)(R
nm
),
ma il rango di A `e m, quindi D
z
f(0) `e non singolare.
Usando il teorema della funzione implicita abbiamo che U
1
R
m
e U
2
R
nm
e una
mappa : U
1
U
2
, di classe C
1
, tale che (0) = 0 e f(x) = 0 z = (y), ma
(x = (y, z)), quindi f(y, (y)) = 0.
Derivando ho che
0 = D
y
f(y, (y)) +D
z
f(y, (y)) D(y);
nellorigine x = 0, ma D
y
f(0) = 0 e D
z
f(0) `e non singolare, perci` o D(y) = 0.
Se [y[ 0 ho che, usando la formula di Taylor,
(y) = (0) +D(0) y +o(y) = o(y).
Se prendiamo d = (d
1
, 0) K e una successione di punti x(t) := (td
1
, (td
1
)) = (td, o(t)),
possiamo dimostrare che appartengono a M e quindi che d T
M
(0). Infatti f(x(t)) = 0,
quindi x(t) M, e per t 0 abbiamo che
x(t)td
t
= (0,
o(t)
t
) 0, dunque il vettore d
appartiene al cono tangente.
Quindi ho che d T
M
(0) K T
M
(0). Segue la tesi.

7
2.2.1 Esempio
Proviamo ora a vedere in un esempio concreto in che modo coincidano il ker Df(x
0
) e il
T
M
(x
0
).
Figura 2: Tangente alla circonferenza nel punto x
0
Prendiamo una funzione f da R
3
a R
2
:
f(x) =

x
2
+y
2
+z
2
1
z

.
E sia x
0
= (1, 0, 0) f
1
(0, 0). Abbiamo che
M = f
1
(0, 0) = (x, y, z) R
3
: x
2
+y
2
+z
2
1 = 0, z = 0.
8
Il suo tangente nel punto x
0
possiamo vedere facilmente che `e lo spazio vettoriale generato
la retta tangente alla circonferenza M in x
0
:
T
M
(x
0
) = z = 0, x = 0, y R.
Se proviamo a calcolare il dierenziale nel nostro punto otteniamo lo stesso risultato,
infatti
Df(x, y, z) =

2x 2y 2z
0 0 1

,
Df(1, 0, 0) =

2 0 0
0 0 1

,
ker Df(1, 0, 0) = 2x = 0, z = 0, y R = T
M
(x
0
).
Come possiamo notare in gura, il livello zero `e lintersezione tra la sfera e il piano, ovvero
la circonferenza arancione di centro lorigine e raggio 1 sul piano xOy. Il tangente nel
punto x
0
`e la retta rossa.
2.2.2 Formulazione alternativa del teorema di Lyusternik
Lenunciato del teorema di Lyusternik, come presentato ora, `e quello che lui stesso aveva
dimostrato nel 1934. Ma le tecniche dimostrative che aveva usato, possono portare a
risultati pi` u ampi di quelli da lui dimostrati. Spesso, infatti, con il teorema di Lyusternik
si indicano anche altri enunciati, in particolare i due seguenti.
Ricoprimenti
Siano X, Y spazi di Banach, g : X Y di classe (
1
e sia un punto x
0
g
1
(0), tale che
g ivi soddisfa la condizione di Lyusternik, ovvero g

(x
0
)X = Y . Sia x x
0
+ ker g

(x
0
),
allora d(x, g
1
(0)) = o([[x x
0
[[), ovvero B

(x) a > 0 tale che g(B

(x)) B
a
(g(x)).
Da qui discende facilmente lenunciato originale di Lyusternik.
Distanza
Sotto le stesse ipotesi abbiamo che d(x, g
1
(y))
1
a
[[g(x)y[[, x U(x
0
), y U(0)
Y.
Le due formulazioni sono equivalenti, mentre quella di Lyusternik `e una conseguenza
di queste. Questo teorema viene molto usato nella ricerca di massimi e minimi vincolati.
Consideriamo il problema di minimo (P)
min f(x), g(x) = 0.
9
Due modalit`a sono possibili a questo punto. La prima `e di considerare individualmen-
te unapprossimazione della funzione obiettivo e dei vincoli. Usiamo in questo caso la
formulazione della distanza per il teorema di Lyusternik e del cono tangente. Sappia-
mo che f, g (
1
, di conseguenza T
g
1
(0)
(x
0
) = x
0
+ ker g

(x
0
). Allora abbiamo che
f

(x
0
) si annulla sul ker g

(x
0
), per la condizione di Lyusternik, esiste y

tale che
f

(x
0
) +y

(x
0
) = 0. Questa, come vedremo pi` u avanti, `e la regola dei moltiplicatori di
Lagrange.
La seconda possibilit` a `e quella di considerare un unico funzionale che mappi sia la fun-
zione obiettivo che i vincoli. Ricordiamo, ora, il teorema di Grave, che dice:
Sia g un operatore (
1
in x
0
, che soddisfa la condizione di Lyusternik. Allora per ogni
intorno di g(x
0
) esiste un intorno di x
0
tale che g(U(x
0
)) U(g(x
0
)).
Riconsiderando il problema (P) e prendendo (x) = (f(x), g(x)) : X R Y , abbia-
mo che se x
0
`e un punto di minimo, allora l` non pu`o vericare il teorema di Grave,
perche non esiste un intorno di (x
0
) contenuto nellimmagine di un intorno di x
0
. Allora
non pu`o valere la condizione di Lyusternik in x
0
per . Ovvero

(x
0
)X ,= R Y , ma
g

(x
0
)X = Y , dunque y

tale che f

(x
0
) +y

(x
0
) = 0.
Ancora una volta otteniamo la regola dei moltiplicatori di Lagrange.
Questo ci dice di come il teorema di Lyusternik, sia la base della ricerca dei minimi
di funzioni vincolate, in quanto da questo teorema possiamo raggiungere le condizioni
necessarie che sono alla base di questa materia.
10
2.3 Principio -variazionale di Ekeland
Il principio -variazionale di Ekeland viene usato nella ricerca di minimi quando non si
pu` o usare il teorema di Bolzano-Weierstrass, poiche il dominio non `e compatto. Questo
principio ci consente di trovare una successione di punti che tende al valore minimo con
ipotesi pi` u deboli sulle funzioni e sul dominio. Nella seguente trattazione verr`a usato per
fornire una dimostrazione alternativa ad alcune condizioni del primo ordine per la ricerca
di minimi vincolati.
Denizione
Dato uno spazio topologico X, una funzione f : X R + si dice semicontinua
inferiormente se x
0
M
liminf
xx
0
f(x) f(x
0
).
Figura 3: Esempio di funzione semicontinua inferiormente
Introduciamo alcuni concetti per poter intraprendere la dimostrazione di questo princi-
pio.
Siano (M, d) uno spazio metrico e una funzione f : M R semicontinua inferiormente e
limitata dal basso.
In primis deniamo una relazione binaria tra punti di M:
x _ y f(x) +d(x, y) f(y).
11
Abbiamo che (M, _) `e un poset. Infatti si prova facilmente che:
i) x _ x;
ii) x _ y e y _ x implica x = y;
iii) x _ y e y _ z implica x _ z.
Deniamo ora x M
S(x) := y M : y _ x = y M : f(y) +d(x, y) f(x).
Figura 4: In blu S(x)
Denizione
Diremo che x `e un d-point se S(x) = x.
Il seguente teorema, non `e solo un lemma utile ai ni di dimostrare il principio -
variaizionale di Ekeland, ma `e una vera e propria caratterizzazione di ogni spazio metrico
completo. Questa caratterizzazione `e molto utile allo studio di ottimi, dellanalisi con-
vessa, e viene anche usato per dedurre il teorema del punto sso di Kirk-Caristi per
multi-funzioni.
12
Teorema
Sia (M, d) uno spazio metrico. Allore le seguenti aermazioni sono equivalenti:
a) (M, d) `e uno spazio metrico completo.
b) Per ogni funzione f : M R semicontinua inferiormente e limitata dal basso,
per ogni punto x
0
M, esiste un d-point x tale che x _ x
0
.
Dimostrazione
Dimostriamo che a) implica b).
Se f(x
0
) = + allora x M : f(x) < + x _ x
0
. Quindi procediamo usando questo
x al posto di x
0
. Trovato il d-point x avr` o che x _ x _ x
0
. Seguir` a la tesi.
Se f(x
0
) < + costruisco una successione x
n

0
M ricorsivamente, scegliendo arbi-
trariamente x
n+1
S(x
n
).
x
n

0
`e di Cauchy: infatti, se n m, ho che x
n
_ x
n1
_ ... _ x
m
, quindi f(x
n
) +
d(x
n
, x
m
) f(x
m
). In particolare, (f(x
n
)

0
`e una successione decrescente e limitata dal
basso, quindi converge ad un certo R. Dal momento che d(x
n
, x
m
) f(x
m
)f(x
n
)
0 con m, n 0, x
n

0
`e di Cauchy. Per la completezza di M, x M : x
n
x. Inoltre
x
k
S(x
n
) k n, ma S(x
n
) sono chiusi, quindi contengono anche x per ogni n.
Di conseguenza x

k=1
S(x
k
).
Per garantire che x sia un d-point, devo aggiungere delle condizioni nella scelta degli
x
n
.
x
n
: f(x
n
) inf
xS(x
n1
)
f(x) +
1
n
Cos` se z S( x), allora abbiamo che z _ x _ x
n1
_ x
n
f(z) +d(z, x
n
) f(x
n
) inf
S(x
n1
)
f +
1
n
f(z) +
1
n
d(z, x
n
)
1
n
0 x
n
z x = z
Segue quindi che S( x) = x, cio`e x `e un d-point.
Dimostriamo ora che b) implica a).
Prendiamo una successione di Cauchy x
n

1
M. Voglio mostrare che ha limite in M.
Sia f(x) := 2 lim
n
d(x, x
n
). f(x) `e ben denita; infatti si verica facilmente che
d(x, x
n
)

1
`e di Cauchy in R, e, per la completezza di R, la successione converge e ha
limite.
f `e continua, infatti [(d(x, x
n
) d(y, x
n
))[ d(x, y), per ogni n e le successioni delle
distanze convergono. Ora
1
2
[f(x) f(y)[ = [ lim
n
(d(x, x
n
) lim
m
d(y, x
m
))[.
13
Essendo le successioni di Cauchy, > 0 N : n, m > N, [d(y, x
m
) d(y, x
n
)[ .
Quindi posso scrivere
1
2
[f(x) f(y)[ [ lim
n
((d(x, x
n
) d(y, x
n
))) +[
Con che tende a 0 abbiamo che, per monotonia, il tutto `e d(x, y). Abbiamo ora la
continuit`a.
Si noti che f(x
n
) 0. Sia x M un d-point di f. Allora
f(x) f(x
n
) +d(x, x
n
) n 1.
Per n abbiamo che f(x)
f(x)
2
, ma, siccome f `e positiva, f(x) = 0.
Ci` o implica che d(x, x
n
) 0, quindi la successione converge.
Quindi (M, d) `e completo.

A questo punto si pu`o dedurre con facilit`a il principio -variazionale di Ekeland.
Teorema (Principio -variazionale di Ekeland)
Sia (M, d) uno spazio metrico completo e sia f : M R + semicontinua inferior-
mente, limitata dal basso.
Allora 0, 0, x M tali che f(x) inf
xM
f(x) +, x

M :

f(x

) f(x)
d(x

, x)
f(x

) < f(z) +

d(z, x

) z M z ,= x

(3)
Dimostrazione
`
E suciente dimostrare il teorema per = 1 e = 1; il caso generale segue sostituendo
alla funzione distanza d la funzione
d

e sostituendo alla funzione f la funzione


f

.
A questo punto basta applicare il teorema precedente. Infatti x M x _ x, con x
d-point. La terza condizione `e vericata dalla denizione di d-point, mentre le prime due
derivano dalla seguente disuguaglianza
f( x) +d(x, x) f(x) inf
M
f + 1 f( x) + 1,
dove la prima disuguaglianza `e conseguenza del fatto che x _ x.

La conclusione a cui giunge il teorema e che prendendo una funzione semicontinua in-
feriormente, in uno spazio metrico, ssato un coeciente angolare, possiamo trovare un
14
punto, tale per cui, tracciando un cono che ha vertice nel punto e che scende con coe-
ciente angolare dato, questo sia completamente al di sotto della funzione data.
Se, come in gura, lo spazio metrico `e R, possiamo tracciare una coppia di semirette con
coeciente angolare

, che dal d-point generano un cono verso il basso sotto al quale


la funzione non scende mai.
Figura 5: Principio -variazionale di Ekeland
Corollario 1
Sia (M, d) uno spazio metrico completo e sia f : M R + semicontinua inferior-
mente, limitata dal basso.
Allora 0 e x M tali che f(x) inf
xM
f(x) +, x

M :

f(x

) f(x)
d(x

, x)

f(x

) f(z) +

d(z, x

), z M : z ,= x

(4)
Dimostrazione
Basta sostituire

a nel Principio di Ekeland.

Corollario 2
Sia X uno spazio di Banach e sia f : X R G ateaux dierenziabile, semicontinua
inferiormente e limitata dal basso. Sia > 0, e sia x X un punto tale che
f(x) inf
X
f +.
15
Allora esiste un punto x

X tale che
f(x

) f(x),
[[x x

[[ 1,
[[f(x

)[[ .
E di conseguenza esiste una successione x
n
X che soddisfa la condizione
f(x
n
) inf
X
f e f(x
n
) 0.
Dimostrazione
Il principio -variazionale di Ekeland fornisce un punto che soddisfa le prime due condi-
zioni. Per provare la terza notiamo che per ogni direzione d X, [[d[[ = 1, abbiamo
che
tf(x

), d +o(t) = f(x

+td) f(x
e
) t
per t 0, dove luguaglianza `e vericata perche G ateaux dierenziabile e la disugua-
glianza arriva dalla terza disuguaglianza del principio di Ekeland. Abbiamo dunque che
f(x

), d , ovvero f(x

), d d X, [[d[[ = 1. Dunque [[f(x

)[[ .
Sia y
n
un punto in X che soddis f(y
n
) inf
X
f + 1/n. Abbiamo gi`a mostrato che
esiste un punto x
n
che soddisfa le seguenti condizioni: f(x
n
) f(y
n
) inf
X
f + 1/n e
[[f(x
n
)[[ 1/n. La successione x
n

1
soddisfa le propriet` a richieste.

2.4 Funzioni di penalizzazione
I metodi di penalizzazione sono degli algoritmi usati per risolvere un problema di ottimo
vincolato, attraverso una serie di problemi di ottimo libero, che convergano alla medesima
soluzione. Il metodo prevede laggiunta di una funzione di penalizzazione alla funzione
obiettivo. La funzione di penalizzazione `e denita come un multiplo della misura di
allontanamento dal vincolo. Per esempio se il nostro problema consiste in

min f(x)
c
i
(x) 0 i I,
questo viene trasformato in una serie di problemi, al variare di k, del tipo

min
k
(x) = f(x) +
k

iI
g(c
i
(x))
g(c
i
(x)) =min(0, c
i
(x))
2
.
16
Useremo questa tecnica per dare una dimostrazione alternativa per le condizioni di Fritz
John, in quelloccasione sar`a chiaro che le funzioni di penalizzazioni
k
condurranno
alla ricerca di minimi liberi, utilizzando tecniche tipiche di quellambito. In particolare
verr` a posto uguale a 0 il dierenziale delle funzioni di penalizzazioni, trovando cos` una
successione di minimi liberi che tender`a al minimo del problema vincolato.
17
3 Programmazione non lineare
3.1 Problema di programmazione non lineare
Un problema di programmazione non lineare consiste in un problema di ottimizzazione
(P), con vincoli di uguaglianza e di disuguaglianza, avente questa forma:

min f(x)
g
i
(x) 0, i = 1, ..., r (P)
h
j
(x) = 0, j = 1, ..., m
dove f, g
i

r
1
e h
j

m
1
sono funzioni a valori reali denite su un sottoinsieme U R
n
. La
funzione f si chiama funzione obiettivo di (P), mentre le disuguaglianze e le uguaglianze
con le g
i
e le h
j
si chiamano vincoli del problema.
La regione ammissibile di (P) `e il sottoinsieme di punti che soddisfano tutti i vincoli:
T(P) = x U : g
i
(x) 0, i = 1, ..., r, h
j
(x) = 0, j = 1, ..., m.
Denizione
Un punto ammissibile x

si chiama punto di minimo locale di (P) se `e un minimo di f


in un intorno amissibile di x

, ovvero se tale che


f(x

) f(x) x T(P) B

(x

).
Il punto si dice di minimo globale se f(x

) f(x) x T(P).
Denizione
Dato un punto x T(P), un vincolo g
i
si dice attivo se g
i
(x) = 0, si dice inattivo se
g
i
(x) < 0.
Notiamo infatti che, nella ricerca di un minimo, se x

`e un minimo e g
i
(x

) < 0, per
qualche i, allora il vincolo g
i
non gioca un ruolo attivo nella ricerca del minimo.
Quindi deniamo per ogni punto x M I(x) := i : g
i
(x) = 0 linsieme dei vincoli attivi
in x.
Denizione
Sia x

T(P). Una direzione tangente d a T(P) in x

si dice direzione ammissibile.


Linsieme delle direzioni ammissibili di (P) in un punto x

verr` a denotato con TT(x

).
Un vettore d R
n
si chiama direzione discendente per f in x

se esiste una sequenza


di punti x
n
x

R
n
, non necessariamente ammissibili, con direzione tangente d e
18
tali che f(x
n
) f(x

) per ogni n. Se f(x


n
) < f(x

) n, allora verr`a detta d direzione


strettamente discendente. Linsieme di tutte le direzioni strettamente discendenti a T(P)
in un punto x

sar` a denotato con oT(f; x

).
Osservazione Se x

`e un punto di minimo locale di (P), allora


TT(x

) oT(f; x

) = .
3.2 Condizioni necessarie del primo ordine (Fritz John)
In questo paragrafo ci concentreremo sulle condizioni necessarie per un punto di minimo
locale di un problema (P). Le condizioni che vogliamo presentare sono le condizioni di
Fritz John (FJ) e sono utilizzabili quando tutte le funzioni coinvolte, f, g
i
, h
j
sono di
classe (
1
su un aperto contenente la regione ammissibile T(P). In questa situazione,
possiamo ridenire una versione linearizzata delle direzioni ammissibili e delle direzioni
discendenti:
/TT(x

) := d : g
i
(x

), d < 0, i = 1, ..., r, h
j
(x

), d = 0, j = 1, ..., m,
/oT(f; x

) := d : f(x), d < 0.
Per motivare questa scelta basta usare la formula di Taylor del primo ordine. Per esempio,
se f `e la funzione dierenziabile su un aperto di R
n
e d /oT(f; x), allora
f(x +dt) = f(x) +t

f(x), d +
o(t)
t

< f(x),
in un intorno di x. Cos`, per un vincolo attivo, abbiamo che, se d /TT(x

)
/oT(f; x

), allora f(x

+ td) < f(x

) e g
i
(x

+ td) < g
i
(x

) = 0. Quindi per vincoli e


funzioni sucientemente regolari le direzioni ammissibili e discendenti sono equivalenti
nelle due versioni, linearizzata e non.
Lemma (Teorema di Motzkin)
Siano a
i

l
1
, b
j

m
1
, e c
k

p
1
vettori in R
n
. Allora il sistema lineare:

a
i
, x < 0, i = 1, ..., l,
b
j
, x 0, j = 1, ..., m,
c
k
, x = 0, k = 1, ..., p,
`e inconsistente se e solo se esistono dei vettori moltiplicatori
19

:= (
1
, ...,
l
) 0, ,= 0
:= (
1
, ...,
m
) 0,
:= (
1
, ...,
p
),
tali che
l

i
a
i
+
m

j
b
j
+
p

k
c
k
= 0.
La dimostrazione di questo teorema `e molto lunga e con conti complicati, ma intuitiva-
mente elementare. Quindi non presenteremo la dimostrazione.
Teorema (Fritz John)
Se un punto x

`e di minimo locale per (P), allora esistono dei moltiplicatori (, ) :=


(
0
,
1
, ...,
r
,
1
, ...,
m
), non tutti nulli, tali che

0
f(x

) +
r

i=1

i
g
i
(x

) +
m

j=1

j
h
j
(x

) = 0,

i
0, g
i
(x

) 0,
i
g
i
(x

) = 0, i = 1, ..., r.
La seconda condizione si chiama anche condizione di complementariet`a, infatti fa s` che
per ogni vincolo inattivo (con g
i
< 0) il suo moltiplicatore relativo
i
= 0, cos` che non
inuisca nella prima uguaglianza.
Dimostrazione
Per la condizione di complementarit` a, possiamo riscrivere la tesi nella forma

0
f(x

) +

iI(x

i
g
i
(x

) +
m

j=1

j
h
j
(x

) = 0.
Se i vettori h
j

m
1
sono linearmente dipendenti, allora esistono dei moltiplicatori :=
(
1
, ...,
m
) ,= 0 tali che

m
j=1

j
h
j
(x

) = 0. Ponendo quindi tutti i


i
= 0, la tesi `e
vericata. Se sono linearmente indipendenti vogliamo provare che
A := d : f(x

), d < 0, g
i
(x

), d < 0, i I(x

),
h
j
(x

), d = 0, j = 1, ..., m = .
Per assurdo, supponiamo che esista d nellinsieme A, tale che [[d[[ = 1. Siccome h
j

m
1
sono linearmente indipendenti, segue dal teorema di Lyusternik che esiste una successione
x
n
x

, con direzione tangente d, e che soddisfa lequazione h


j
(x
n
) = 0, j = 1, ..., m.
20
Inoltre abbiamo che
f(x
n
) = f(x

) +

f(x

),
x
n
x

[[x
n
x

[[
+
o(x
n
x

)
[[x
n
x

[[

[[x
n
x

[[,
dove (x
n
x

)/[[x
n
x

[[ d e o(x
n
x

)/[[x
n
x

[[ 0 per n .
Poich`e il termine allinterno delle quadre `e negativo per n sucientemente grande, ab-
biamo che f(x
n
) < f(x

). Applicando lo stesso ragionamento per ogni vincolo g


i
attivo
in x

, abbiamo che g
i
(x
n
) < g
i
(x

) = 0. Possiamo quindi concludere che x


n

1
`e una
successione ammissibile per (P), tale che f(x
n
) < f(x

) per n grande. Ci`o contraddice


lipotesi che x

sia un minimo locale. Arriviamo quindi allassurdo.


Non esistono d tali che i prodotti scalari con i gradienti della funzione obiettivo e dei
vincoli g
i
siano tutti negativi.
Per il teorema di trasposizione di Motzkin, segue che
(, ) := (
0
,
1
, ...,
r
,
1
, ...,
m
) ,= 0
che soddisfano la tesi.

3.2.1 Lagrangiana
La funzione lagrangiana `e uno strumento molto utile nel calcolo dei minimi vincolati di
molti problemi. Infatti, in questi punti, il dierenziale della lagrangiana si annulla sotto
opportune condizioni.
Denizione
Data f : U R
n
R funzione obiettivo, g
i

r
1
, h
j

m
1
funzioni da U R vincoli
rispettivamente di disuguaglianza e di uguaglianza per il problema (P). La funzione
lagrangiana debole per (P) `e L : U R
r+1
R
m
R come segue
L(x; , ) :=
0
f(x) +
r

i=1

i
g
i
(x) +
m

j=1

j
h
j
(x) (
i
0, i = 0, ..., r).
Se
0
> 0 possiamo denire la funzione lagrangiana
L(x; , ) := f(x) +
r

i=1

i
g
i
(x) +
m

j=1

j
h
j
(x) (
i
0, i = 1, ..., r).
(
i
,
j
) si chiamano moltiplicatori di lagrange. Il teorema di Fritz John dimostra che se
x

`e un minimo per la funzione f, vincolata dalle g


i
e le h
j
, tutte funzioni di classe (
1
,
allora (

i
,

j
) ,= 0 tale che
x
L(x

i
;

j
) = 0.
Una nota particolare va al signicato dei moltiplicatori di Lagrange. In campo economico,
21
infatti, considerando il problema a due variabili

min f(x, y)
g(x, y) = b
con funzione lagrangiana L(x, y, ) = f(x, y) (g(x, y) b).
Sia z il valore di minimo del problema vincolato. Variando b nel vincolo abbiamo una
variazione del minimo z = z(b), che corrisponder` a ad un punto ( x(b), y(b)) e ad un
moltiplicatore

(b). Avremo allora che L( x(b), y(b),

(b)) = z(b).
Ora possiamo calcolare il tasso di variazione di z rispetto a b, cio`e la variazione di z in
conseguenza a una variazione unitaria di b.
z

(b) =
dL
db
= f
x
x

+f
y
y

(g b) (g
x
x

+g
y
y

1) =
= f
x
x

+f
y
y

(g
x
x

+g
y
y

1) = (f
x
g
x
)x

+ (f
y
g
y
)y

+ = .
Questo ci dice che il moltiplicatore di Lagrange `e la misura della variazione del valore
minimo z in corrispondenza di una variazione unitaria di b. Se b rappresenta una risorsa e
f(x, y) fornisce il protto di un processo produttivo dove lutilizzo della risorsa `e legato
dal vincolo g(x, y) = b, allora il valore del moltiplicatore `e un prezzo. Per questo motivo
solitamente gli economisti danno al moltiplicatore di Lagrange il nome di prezzo ombra.
In particolare se

b = b + h avremo che, usando la formula di Taylor al primo ordine
z(

b) z(b) = h + o(h). Il moltiplicatore ci dice di quanto si discoster`a il minimo


variando il vincolo.
3.2.2 Dimostrazione con le funzioni di penalizzazione
Ora ridimostriamo le condizioni di Fritz John usando un altro approccio con le funzioni
di penalizzazione. Le basi della dimostrazione non variano molto, in quanto il teorema
di Lyusternik pu`o essere dimostrato basandosi sulle funzioni di penalizzazione. Ma `e
interessante poterla vedere da un altro punto di vista.
Dimostrazione
Consideriamo la funzione di penalizzazione
F
k
(x) = f(x) +
k
2
r

i=1
g
+
i
(x)
2
+
k
2
m

j=1
h
j
(x)
2
+
k
2
[[x x

[[
2
,
dove g
+
i
(x) =max0, g
i
(x) e k > 0 `e un parametro. Sia > 0 abbastanza piccolo da far
s` che f(x

) f(x) x T(P) B

(x

).
22
Sia x
k
un minimo globale di F
k
su B

(x

), che esiste per il teorema di Weierstrass.


Notando che F
k
(x

) = f(x

), abbiamo che
f(x
k
) f(x
k
) +
k
2
r

i=1
g
+
i
(x
k
)
2
+
k
2
m

j=1
h
j
(x
k
)
2
+
k
2
[[x
k
x

[[
2
()
= F(x
k
) F(x

) = f(x

).
Le funzioni g
+
i
, h
j
e f sono limitate su B

(x

). Lultima disuguaglianza mostra che anche


le successioni kg
+
i
(x
k
)
2
/2

k=0
e kh
2
j
(x
k
)/2

k=0
sono limitate. Quindi abbiamo che, per
k , g
+
i
(x
k
) 0 e h
j
(x
k
) 0. Sia x B

(x

) un punto limite della successione


x
k

0
. Abbiamo che g
+
i
( x) = 0 (ovvero, g
i
( x) 0) e h
j
( x) = 0. Quindi x `e un punto
ammissibile di (P).
Passando al limite in (), abbiamo che
f( x) f( x) +
1
2
[[ x x

[[
2
f(x

).
Dato che f(x

) f(x) x T(P)B

(x

), abbiamo anche che f(x

) f( x). Ci` o implica


che [[ x x

[[
2
= 0, ovvero, x = x

.
Di conseguenza, il problema di ottimo
minF
k
(x) : x B

(x

)
diventa un problema di ottimo libero per k abbastanza grande: F
k
(x
k
) = 0, cio`e
f(x
k
) +
r

i=1
(kg
+
i
(x
k
))g
i
(x
k
) +
m

j=1
(kh
j
(x
k
))h
j
(x
k
) + (x
k
x

) = 0.
Deniamo
i,k
= kg
+
i
(x
k
) e
j,k
= kh
j
(x
k
), riscaliamo il vettore
(1,
1,k
, ...,
r,k
,
1,k
, ...,
m,k
, 1)
in modo che la sua norma 1 (somma dei valori assoluti delle componenti) sia uguale a
1, ovvero dividiamo tutto per
k
:= 2 +

r
i=1

i,k
+

m
j=1
[
j,k
[ e chiamiamo il nuovo
vettore:

k
:= (
0,k
,
1,k
, ...,
r,k
,
1,k
, ...,
m,k
,
0,k
).
Dividendo lequazione precedendo per
k
da entrambi i lati otteniamo:

0,k
f(x
k
) +
r

i=1

i,k
g
i
(x
k
) +
m

j=1

j,k
h
j
(x
k
) +
0,k
(x
k
x

) = 0.
23
Dal momento che le componenti di
k
sono limitate, possiamo assumere che convergano
per k (altrimenti scegliamo una sottosuccessione convergente). Deniamo i limiti di

i,k

i
(i = 0, ..., r) e
j,k

j
(j = 1, ..., m). Facendo tendere k nellequazione
precedente, abbiamo che

0
f(x

) +
r

i=1

i
g
i
(x

) +
m

j=1

j
h
j
(x

) = 0.
Notando che
i
= 0 per i vincoli inattivi, infatti, se x
k
x

, kg
+
i
(x
k
) = 0 per k
abbastanza grandi.
Segue la tesi.

3.2.3 Dimostrazione con il principio -variazionale di Ekeland
Vogliamo ora dare una terza dimostrazione del Teorema di Fritz John, questa volta, sfrut-
tando il principio -variazionale di Ekeland. Il vantaggio di questa dimostrazione `e che
si pu` o applicare a qualunque problema con funzione e vincoli deniti su uno spazio di
Banach.
Dimostrazione
Sia x

un punto di minimo locale del problema (P), dove f(x

) f(x) per ogni x


ammissibile nella bolla chiusa C = B
r
(x

) = x : [[xx

[[ r. Deniamo linsieme
T := (
0
, , ) R R
r
R
m
: (
0
, ) 0, [[(
0
, , )[[ = 1,
e per un > 0 dato, dove

< r, deniamo la funzione
F(x) := max
T

0
(f(x) f(x

) +) +
r

i=1

i
g
i
(x) +
m

j=1

j
h
j
(x).
Chiaramente F(x

) = . In pi` u, la funzione F `e positiva su C, perche se x C e


F(x) 0, allora scegliendo
0
= 1,
i
= 1, e [
j
[ = 1, rispettivamente, otteniamo
f(x) f(x

) , g
i
(x) 0, e h
j
(x) = 0, che signica che x `e ammissibile per il problema
(P). Ma questo `e un assurdo, dal momento che x

`e un minimo globale del problema (P)


su C. Dunque abbiamo che
F(x

) inf
C
F(x) +.
Segue dal principio -variazionale di Ekeland che esiste un punto x

tale che [[x

[[

e
F(x

) F(x) +

[[x x

[[ x C.
24
Quindi, il punto x

minimizza la funzione G(x) := F(x) +

[[x x

[[ sulla bolla C =
B
r
(x

). Ma [[x

[[

< r, quindi x

appartiene allinterno di C e dal momento


che F(x

) > 0, il massimo della denizione di F `e raggiunto in un unico punto non mi


ricordo piu perche
(
0
(), (), ()) T. Segue dal teorema di Danskin che se d `e un vettore unitario in
R
n
, allora
G

(x

; d) =
0
()f(x

) +
r

i=1

i
()g
i
(x

) +
m

j=1

j
()h
j
(x

), d +

= 0,
dove abbiamo usato il fatto che la funzione N(x) = [[x x

[[ ha derivata direzionale
N

(x

; d) = [[d[[ = 1. Segue che [[F(x

)[[

, cio`e,
[[
0
()f(x

) +
r

i=1

i
()g
i
(x

) +
m

j=1

j
()h
j
(x

)[[

.
Per la compattezza di T, con 0, esiste una successione convergente (
0
(), (), ())
(
0
, , ) T. Visto che x

, otteniamo

0
f(x

) +
r

i=1

i
g
i
(x

) +
m

j=1

j
h
j
(x

) = 0.
`
E chiaro dalla denizione di F che se g
i
(x

) < 0, allora
i
() = 0 per abbastanza piccolo;
dunque anche la condizione di complementariet` a
i
g
i
(x

) = 0 rimane valida.

3.3 Altre condizioni del primo ordine
Corollario 1 (Condizioni di Karush-Kuhn-Tucker)
Se i vettori
g
i
(x

), i I(x

), h
j
(x

), j = 1, ..., m
sono linearmente indipendenti, allora
0
> 0 e abbiamo che (KKT)
f(x

) +
r

i=1

i
g
i
(x

) +
m

j=1

j
h
j
(x

) = 0,

i
0, g
i
(x

) 0,
i
g
i
(x

) = 0, i = 1, ..., r,
h
j
(x

) = 0, j = 1, ..., m.
25
Dimostrazione
Sia, per assurdo,
0
= 0; allora, per il teorema di Fritz John, abbiamo

iI(x

i
g
i
(x

) +
m

j=1

j
h
j
(x

) = 0.
Ma i vettori sono tutti linearmente indipendenti, quindi tutti i moltiplicatori sono uguali
a 0, il che `e assurdo.
Le altre discendono direttamente dal teorema precendente.

Le condizioni che si impongono in questo teorema si chiamano condizioni di Karush-
Kuhn-Tucker (KKT) per il problema (P). Esse sono vericate anche con ipotesi meno
forti dellindipendenza lineare dei gradienti dei vincoli.
Corollario 2
Una condizione necessaria e suciente delle condizioni di KKT in x

, ovvero
f(x

) +
r

iI(x

i
g
i
(x

) +
m

j=1

j
h
j
(x

) = 0,
`e che lintersezione dei seguenti insiemi sia vuota:
d : f(x

) < 0 d : g
i
(x

) 0, i I(x

)
d : h
j
(x

), d = 0, j = 1, ..., m = .
Dimostrazione La dimostrazione segue immediatamente dalla versione omogenea del teo-
rema di trasposizione di Motzkin.
Lemma
Sia C un insieme convesso in R
n
, T uno spazio topologico e sia f : C T una funzione
dierenziabile su un aperto contente C. Allora f `e convessa se e solo se il piano tangente
in ogni punto x C giace sotto il graco di f, ovvero
f(y) f(x) +f(x), y x per ogni x, y C.
Corollario 3 (Condizioni di Karush-Kuhn-Tucker, vincoli concavi e lineari)
Sia x

un punto di minimo locale del problema (P). Le condizioni KKT valgono in x

se
i vincoli attivi g
i

iI(x

)
sono funzioni concave in un intorno convesso di x

e i vincoli di
uguaglianza h
j
sono funzioni ani su R
n
.
In particolare, le condizioni KKT valgono se tutti i vincoli attivi in x

sono funzioni ani.


26
Dimostrazione
Sia d tale che
g
i
(x

), d 0, i I(x

), h
j
(x

), d = 0, j = 1, ..., m.
I punti x(t) = x

+td sono punti ammissibili per t > 0 piccolo a sucienza, dal momento
che
g
i
(x

+td) g
i
(x

) +tg
i
(x

), d 0,
per il lemma precedente. Similmente
h
j
(x

+td) = h
j
(x

) +th
j
(x

), d = 0,
poiche le h
j
sono funzioni ani. Dal momento che x

`e un punto di minimo locale


del problema (P), abbiamo che f

(x; d) = f(x

), d 0 e valgono le condizioni del


Corollario 2. Per il suddetto corollario, valgono le condizioni KKT.

3.4 Condizioni del secondo ordine
A questo punto della trattazione, consideriamo il problema (P) con funzione obiettivo f
e vincoli g
i
e h
j
di classe (
2
. Le condizioni del primo ordine (KKT e FJ) devono ancora
valere nei punti di minimo locale, ma non vale il viceversa: una funzione che soddisfa
KKT o FJ in un punto x non `e detto che abbia un minimo in tal punto.
Le condizioni del secondo ordine forniscono unulteriore restrizione nella ricerca degli zeri.
Si pu` o notare che le condizioni di minimo sono formulate sulla funzione lagrangiana e non
sulla funzione obiettivo, anche questo passaggio richiede alcune condizioni per formulare
correttamente il problema.
Denotiamo con
2
x
L(x, , ) la matrice Hessiana della funzione lagrangiana L rispetto
alla variabile x, cio`e

2
x
L(x, , ) =
2
f(x) +
r

i=1

2
g
i
(x) +
m

j=1

2
h
j
(x).
Lemma
Sia x

un punto di minimo locale per (P) che soddisfa le condizioni KKT con i mol-
tiplicatori

. Se d R
n
`e una direzione ammissibile in x

con la propriet` a che


esiste una successione di punti ammissibili x
k
che converge a x

e che soddisfa la
condizione (x
k
x

)/[[x
k
x

[[ d, g
i
(x
k
) = 0, i I(x

), e h
j
(x
k
) = 0, allora

2
x
L(x

)d, d 0.
27
Dimostrazione
Siano d e x
k
come nelle ipotesi. Deniamo d
k
= x
k
x

, abbiamo che
0 f(x
k
) f(x

) = L(x
k
,

) L(x

)
=
x
L(x

), d
k
+
1
2

2
x
L(x

)d
k
, d
k
+o([[d
k
[[
2
)
=
1
2

2
x
L(x

)d
k
, d
k
+o([[d
k
[[
2
),
dove la prima disuguaglianza vale perche x

`e minimo locale di (P), la seconda uguaglian-


za segue dalla formula di Taylor al secondo ordine, e lultima dalle condizioni di KKT
in x

. Dividendo entrambi i membri per [[d


k
[[
2
e mandando k , concludiamo che

2
x
L(x

)d, d 0.

Teorema
Sia x

un punto di minimo locale per (P) soddisfacente le condizioni KKT con i molti-
plicatori

. Se i gradienti attivi
g
i
(x

), i I(x

), h
j
(x

), j = 1, ..., m
sono linearmente indipendenti, allora
2
x
L(x

) `e semidenita positiva sul sottospa-


zio lineare
M = (spang
i
(x

), i I(x

), h
j
(x

), j = 1, ..., m)

.
Ovvero, se una direzione d soddisfa
d, g
i
(x

) = 0, i I(x

), d, h
j
(x

) = 0, j = 1, ..., m,
allora
2
x
L(x

)d, d 0.
Dimostrazione
Dal momento che i gradienti attivi sono linearmente indipendenti, segue dal teorema di
Lyusternik che M coincide con linsieme delle direzioni tangenti allinsieme
x : g
i
(x) = 0, i I(x

), h
j
(x) = 0, j = 1, ..., m
nel punto x

. Se x e un punto vicino a x

appartenente a questo insieme, allora x `e


chiaramente un punto ammissibile per (P). Il teorema segue direttamente dal lemma
precedente.
28
4 Exempla
Ho cercato un po di esempi: nel campo economico, su un libro di ricerca operativa, in
allegato un paio di pagine, in particolare es 13.8-5 e 13.8-8, ho trovato alcuni problemi
carini che trattano di situazioni concrete, di produzione e massimizzazione di protti,
ma sono tutti con funzioni lineari a tratti e discontinue in qualche punto, quindi tutta
la trattazione fatta no ad ora non serve a molto... Si potrebbero riadattare cambiando
qualche formula? Secondo me il contesto era quello giusto.
Nel Guler ci sono anche l` esempi interessanti, ma se sono interessanti o sono banali o
molto dicili, ma qualcosa si potrebbe prendere anche l`.
Es18 p 245 Trovare il cerchio di raggio minimo che contiene il triangolo di vertici (0,0)
(1,0) (0,1), facilotto ma concreto.
Esercizi che mi ispirano ma non so come arontare (non cho pensato molto): 21 p245.
Esercizio 25 p246 massimizzare la somma dei quadrati dei lati di un triangolo iscritto
nella circonferenza unitaria, carino, come fare boh.
29

You might also like