Professional Documents
Culture Documents
Davide Torlo
24/07/2014
1
Indice
1 Introduzione 3
2 Prerequisiti 4
2.1 Il Teorema di Danskin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Teorema di Lyusternik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.1 Esempio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.2 Formulazione alternativa del teorema di Lyusternik . . . . . . . . 9
2.3 Principio -variazionale di Ekeland . . . . . . . . . . . . . . . . . . . . . 11
2.4 Funzioni di penalizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3 Programmazione non lineare 18
3.1 Problema di programmazione non lineare . . . . . . . . . . . . . . . . . . 18
3.2 Condizioni necessarie del primo ordine (Fritz John) . . . . . . . . . . . . 19
3.2.1 Lagrangiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.2 Dimostrazione con le funzioni di penalizzazione . . . . . . . . . . 22
3.2.3 Dimostrazione con il principio -variazionale di Ekeland . . . . . . 24
3.3 Altre condizioni del primo ordine . . . . . . . . . . . . . . . . . . . . . . 25
3.4 Condizioni del secondo ordine . . . . . . . . . . . . . . . . . . . . . . . . 27
4 Exempla 29
2
1 Introduzione
qua devo ancora riscrivere tutta lintro, non corregga
Perche voglio parlare di programmazione non lineare?
Qua vorrei presentare due problemi concreti di cui voglio trovare un minimo di una fun-
zione vincolato con disuguaglianze da R
n
a R.
Quindi vorrei spiegare cosa `e un programma non lineare. Un problema di programmazione
non lineare `e un problema di ottimizzazione vincolata del tipo
ott f(x)
g
i
(x) 0, i = 1, ..., r
h
j
(x) = 0, j = 1, ..., m
(1)
Con ottimizzazione si intende la ricerca di minimi o massimi assoluti e locali. In ogni
situazione possiamo scrivere la ricerca di un ottimo come la ricerca di un minimo, sem-
plicemente cambiando il segno di f(x). Da ora in poi, scriveremo il problema come
min f(x)
g
i
(x) 0, i = 1, ..., r
h
j
(x) = 0, j = 1, ..., m
(2)
Prima di studiare i metodi che portano alla ricerca delle soluzioni di questi problemi,
abbiamo bisogno di alcuni prerequisiti che studio nel seguente paragrafo.
3
2 Prerequisiti
In questa sezione presenteremo alcuni risultati che ci saranno utili per trattare la pro-
grammazione non lineare. In particolare, passeremo in rassegna il Teorema di Dan-
skin, il Teorema di Lyusternik, il Principio -Variazionale di Ekeland e le Funzioni di
Penalizzazione.
2.1 Il Teorema di Danskin
Il teorema di Danskin `e un teorema fondamentale per il calcolo delle derivate delle con-
dizioni di ottimo. Infatti, permette di calcolare la derivata della funzione marginale data
dal massimo su una curva di livello.
Nella nostra trattazione verr`a usato nella dimostrazione del teorema di Fritz John, nella
versione con il principio -variazionale di Ekeland, quando, appunto, servir` a calcolare la
derivata di una funzione di tal tipo.
Teorema (Danskin)
Siano X R
n
aperto, Y sottoinsieme compatto di uno spazio topologico T e f : XY
R una funzione continua. Supponiamo che
x
f(x, y) esista e sia continua. Allora la
funzione marginale
(x) := max
yY
f(x, y)
`e continua in X, ha derivata
(x, h) = max
yY (x)
x
f(x, y), h,
dove Y (x) = y Y : (x) = f(x, y).
Dimostrazione
Iniziamo provando la continuit` a.
Siano x
0
X, x
k
1
X tali che x
k
k
x
0
. Per ogni k, per la compattezza di
Y, y
k
Y : (x
k
) = f(x
k
, y
k
); inoltre, si ha che y
k
o una sua sottosuccessione
converge ad un punto y
0
Y e, per ipotesi, f(x
k
, y
k
) f(x
k
, y) y Y .
lim
k+
(x
k
) = lim
k+
f(x
k
, y
k
) = f(x
0
, y
0
) lim
k+
f(x
k
, y) = f(x
0
, y), y Y.
Quindi f(x
0
, y
0
) = (x
0
) = lim
k+
(x
k
), pertanto `e continua in x
0
.
Passiamo ora alla dimostrazione della seconda tesi.
4
Sia h ,= 0 R
n
, e sia x
k
1
con x
k
= x
0
+t
k
h, t
k
0, una successione convergente a x
0
(t
k
0). Sia y Y (x
0
); se (x
k
) = f(x
k
, y
k
), k 1, allora
(x
k
) (x
0
)
t
k
=
f(x
k
, y
k
) f(x
0
, y)
t
k
=
=
f(x
k
, y
k
) f(x
k
, y)
t
k
+
f(x
k
, y) f(x
0
, y)
t
k
0 +
f(x
k
, y) f(x
0
, y)
t
k
=
x
f(x
0
+t
k
h, y), h,
dove lultima uguaglianza `e dovuta al teorema del valor medio.
Per le ipotesi, per ogni y Y (x
0
) si ha:
liminf
k
(x
k
) (x
0
)
t
k
x
f(x
0
, y), h,
da cui
liminf
k
(x
k
) (x
0
)
t
k
max
yY (x
0
)
x
f(x
0
, y), h.
Poiche (x
k
) = f(x
k
, y
k
), ho che
(x
k
) (x
0
)
t
k
=
f(x
k
, y
k
) f(x
0
, y
k
)
t
k
+
f(x
0
, y
k
) f(x
0
, y
0
)
t
k
f(x
k
, y
k
) f(x
0
, y
k
)
t
k
+ 0 =
x
f(x
0
+t
k
h, y
k
), h,
quindi
limsup
k
(x
k
) (x
0
)
t
k
limsup
k
x
f(x
0
+t
k
h, y
k
), h =
=
x
f(x
0
, y
0
), h max
yY (x
0
)
x
f(x
0
, y
0
), h,
da cui segue la tesi.
Questo teorema verr` a largamente usato nella teoria che sar` a sviluppata in seguito.
5
2.2 Teorema di Lyusternik
Il teorema di Lyusternik mette in relazione linsieme delle direzioni tangenti in un punto
a un insieme di livello di una funzione con il nucleo dellapplicazione lineare associata al
dierenziale della funzione nel punto. Questo teorema verr` a usato nella dimostrazione
delle condizioni di Fritz John. Pu` o anche essere dimostrato attraverso le funzioni di
penalizzazione che introdurremo pi` u avanti. Prima di enunciare il teorema introduciamo
le seguenti denizioni:
Denizione
Siano M un sottoinsieme non vuoto di R
n
e x M. Un vettore d R
n
si dice direzione
tangente a M in x se esiste una successione x
n
M convergente a x e una successione
n
R tali che
lim
n
n
(x
n
x) = d.
Denizione
Si dice cono tangente a M in x linsieme di tutte le direzioni tangenti a M in x e si
indica con T
M
(x).
Figura 1: Cono tangente a S
1
in (1, 0, 0)
Teorema (Lyusternik)
Siano U R
n
aperto, f : U R
m
una funzione di classe (
1
. Per ogni x
0
U, si consideri
M := f
1
(f(x
0
)). Allora T
M
(x
0
) = ker Df(x
0
).
Dimostrazione
Senza perdita di generalit` a supponiamo x
0
= 0 e f(x
0
) = 0 (altrimenti si consideri la
funzione x f(x +x
0
) f(x
0
)). Sia A := Df(0).
6
Dimostriamo inizialmente linclusione di T
M
(0) in ker Df(0).
Se d T
M
(0) allora t : x(t) = td +o(t). Applicando f abbiamo che
0 = f(td +o(t)) = f(0) +tDf(0)d +o(t),
il che implica Df(0)d = 0 e d ker Df.
Ho dimostrato che T
M
(0) ker Df(0).
Dimostriamo ora linclusione inversa.
Sia K := ker Df(0). Siccome Df(0) `e unapplicazione lineare su R
n
, possiamo porre
L := K
, K R
nm
, L R
m
e si pu` o vedere x R
n
R
nm
R
m
, cio`e possiamo scrivere x = (y, z) K L e
A = [D
y
f(0), D
z
f(0)].
Per denizione, ker Df(0) viene mappato da A in 0, cio`e
0 = A(K) = A(d
1
, 0) : d
1
R
nm
= D
y
f(0)(R
nm
),
ma il rango di A `e m, quindi D
z
f(0) `e non singolare.
Usando il teorema della funzione implicita abbiamo che U
1
R
m
e U
2
R
nm
e una
mappa : U
1
U
2
, di classe C
1
, tale che (0) = 0 e f(x) = 0 z = (y), ma
(x = (y, z)), quindi f(y, (y)) = 0.
Derivando ho che
0 = D
y
f(y, (y)) +D
z
f(y, (y)) D(y);
nellorigine x = 0, ma D
y
f(0) = 0 e D
z
f(0) `e non singolare, perci` o D(y) = 0.
Se [y[ 0 ho che, usando la formula di Taylor,
(y) = (0) +D(0) y +o(y) = o(y).
Se prendiamo d = (d
1
, 0) K e una successione di punti x(t) := (td
1
, (td
1
)) = (td, o(t)),
possiamo dimostrare che appartengono a M e quindi che d T
M
(0). Infatti f(x(t)) = 0,
quindi x(t) M, e per t 0 abbiamo che
x(t)td
t
= (0,
o(t)
t
) 0, dunque il vettore d
appartiene al cono tangente.
Quindi ho che d T
M
(0) K T
M
(0). Segue la tesi.
7
2.2.1 Esempio
Proviamo ora a vedere in un esempio concreto in che modo coincidano il ker Df(x
0
) e il
T
M
(x
0
).
Figura 2: Tangente alla circonferenza nel punto x
0
Prendiamo una funzione f da R
3
a R
2
:
f(x) =
x
2
+y
2
+z
2
1
z
.
E sia x
0
= (1, 0, 0) f
1
(0, 0). Abbiamo che
M = f
1
(0, 0) = (x, y, z) R
3
: x
2
+y
2
+z
2
1 = 0, z = 0.
8
Il suo tangente nel punto x
0
possiamo vedere facilmente che `e lo spazio vettoriale generato
la retta tangente alla circonferenza M in x
0
:
T
M
(x
0
) = z = 0, x = 0, y R.
Se proviamo a calcolare il dierenziale nel nostro punto otteniamo lo stesso risultato,
infatti
Df(x, y, z) =
2x 2y 2z
0 0 1
,
Df(1, 0, 0) =
2 0 0
0 0 1
,
ker Df(1, 0, 0) = 2x = 0, z = 0, y R = T
M
(x
0
).
Come possiamo notare in gura, il livello zero `e lintersezione tra la sfera e il piano, ovvero
la circonferenza arancione di centro lorigine e raggio 1 sul piano xOy. Il tangente nel
punto x
0
`e la retta rossa.
2.2.2 Formulazione alternativa del teorema di Lyusternik
Lenunciato del teorema di Lyusternik, come presentato ora, `e quello che lui stesso aveva
dimostrato nel 1934. Ma le tecniche dimostrative che aveva usato, possono portare a
risultati pi` u ampi di quelli da lui dimostrati. Spesso, infatti, con il teorema di Lyusternik
si indicano anche altri enunciati, in particolare i due seguenti.
Ricoprimenti
Siano X, Y spazi di Banach, g : X Y di classe (
1
e sia un punto x
0
g
1
(0), tale che
g ivi soddisfa la condizione di Lyusternik, ovvero g
(x
0
)X = Y . Sia x x
0
+ ker g
(x
0
),
allora d(x, g
1
(0)) = o([[x x
0
[[), ovvero B
(x)) B
a
(g(x)).
Da qui discende facilmente lenunciato originale di Lyusternik.
Distanza
Sotto le stesse ipotesi abbiamo che d(x, g
1
(y))
1
a
[[g(x)y[[, x U(x
0
), y U(0)
Y.
Le due formulazioni sono equivalenti, mentre quella di Lyusternik `e una conseguenza
di queste. Questo teorema viene molto usato nella ricerca di massimi e minimi vincolati.
Consideriamo il problema di minimo (P)
min f(x), g(x) = 0.
9
Due modalit`a sono possibili a questo punto. La prima `e di considerare individualmen-
te unapprossimazione della funzione obiettivo e dei vincoli. Usiamo in questo caso la
formulazione della distanza per il teorema di Lyusternik e del cono tangente. Sappia-
mo che f, g (
1
, di conseguenza T
g
1
(0)
(x
0
) = x
0
+ ker g
(x
0
). Allora abbiamo che
f
(x
0
) si annulla sul ker g
(x
0
), per la condizione di Lyusternik, esiste y
tale che
f
(x
0
) +y
(x
0
) = 0. Questa, come vedremo pi` u avanti, `e la regola dei moltiplicatori di
Lagrange.
La seconda possibilit` a `e quella di considerare un unico funzionale che mappi sia la fun-
zione obiettivo che i vincoli. Ricordiamo, ora, il teorema di Grave, che dice:
Sia g un operatore (
1
in x
0
, che soddisfa la condizione di Lyusternik. Allora per ogni
intorno di g(x
0
) esiste un intorno di x
0
tale che g(U(x
0
)) U(g(x
0
)).
Riconsiderando il problema (P) e prendendo (x) = (f(x), g(x)) : X R Y , abbia-
mo che se x
0
`e un punto di minimo, allora l` non pu`o vericare il teorema di Grave,
perche non esiste un intorno di (x
0
) contenuto nellimmagine di un intorno di x
0
. Allora
non pu`o valere la condizione di Lyusternik in x
0
per . Ovvero
(x
0
)X ,= R Y , ma
g
(x
0
)X = Y , dunque y
tale che f
(x
0
) +y
(x
0
) = 0.
Ancora una volta otteniamo la regola dei moltiplicatori di Lagrange.
Questo ci dice di come il teorema di Lyusternik, sia la base della ricerca dei minimi
di funzioni vincolate, in quanto da questo teorema possiamo raggiungere le condizioni
necessarie che sono alla base di questa materia.
10
2.3 Principio -variazionale di Ekeland
Il principio -variazionale di Ekeland viene usato nella ricerca di minimi quando non si
pu` o usare il teorema di Bolzano-Weierstrass, poiche il dominio non `e compatto. Questo
principio ci consente di trovare una successione di punti che tende al valore minimo con
ipotesi pi` u deboli sulle funzioni e sul dominio. Nella seguente trattazione verr`a usato per
fornire una dimostrazione alternativa ad alcune condizioni del primo ordine per la ricerca
di minimi vincolati.
Denizione
Dato uno spazio topologico X, una funzione f : X R + si dice semicontinua
inferiormente se x
0
M
liminf
xx
0
f(x) f(x
0
).
Figura 3: Esempio di funzione semicontinua inferiormente
Introduciamo alcuni concetti per poter intraprendere la dimostrazione di questo princi-
pio.
Siano (M, d) uno spazio metrico e una funzione f : M R semicontinua inferiormente e
limitata dal basso.
In primis deniamo una relazione binaria tra punti di M:
x _ y f(x) +d(x, y) f(y).
11
Abbiamo che (M, _) `e un poset. Infatti si prova facilmente che:
i) x _ x;
ii) x _ y e y _ x implica x = y;
iii) x _ y e y _ z implica x _ z.
Deniamo ora x M
S(x) := y M : y _ x = y M : f(y) +d(x, y) f(x).
Figura 4: In blu S(x)
Denizione
Diremo che x `e un d-point se S(x) = x.
Il seguente teorema, non `e solo un lemma utile ai ni di dimostrare il principio -
variaizionale di Ekeland, ma `e una vera e propria caratterizzazione di ogni spazio metrico
completo. Questa caratterizzazione `e molto utile allo studio di ottimi, dellanalisi con-
vessa, e viene anche usato per dedurre il teorema del punto sso di Kirk-Caristi per
multi-funzioni.
12
Teorema
Sia (M, d) uno spazio metrico. Allore le seguenti aermazioni sono equivalenti:
a) (M, d) `e uno spazio metrico completo.
b) Per ogni funzione f : M R semicontinua inferiormente e limitata dal basso,
per ogni punto x
0
M, esiste un d-point x tale che x _ x
0
.
Dimostrazione
Dimostriamo che a) implica b).
Se f(x
0
) = + allora x M : f(x) < + x _ x
0
. Quindi procediamo usando questo
x al posto di x
0
. Trovato il d-point x avr` o che x _ x _ x
0
. Seguir` a la tesi.
Se f(x
0
) < + costruisco una successione x
n
0
M ricorsivamente, scegliendo arbi-
trariamente x
n+1
S(x
n
).
x
n
0
`e di Cauchy: infatti, se n m, ho che x
n
_ x
n1
_ ... _ x
m
, quindi f(x
n
) +
d(x
n
, x
m
) f(x
m
). In particolare, (f(x
n
)
0
`e una successione decrescente e limitata dal
basso, quindi converge ad un certo R. Dal momento che d(x
n
, x
m
) f(x
m
)f(x
n
)
0 con m, n 0, x
n
0
`e di Cauchy. Per la completezza di M, x M : x
n
x. Inoltre
x
k
S(x
n
) k n, ma S(x
n
) sono chiusi, quindi contengono anche x per ogni n.
Di conseguenza x
k=1
S(x
k
).
Per garantire che x sia un d-point, devo aggiungere delle condizioni nella scelta degli
x
n
.
x
n
: f(x
n
) inf
xS(x
n1
)
f(x) +
1
n
Cos` se z S( x), allora abbiamo che z _ x _ x
n1
_ x
n
f(z) +d(z, x
n
) f(x
n
) inf
S(x
n1
)
f +
1
n
f(z) +
1
n
d(z, x
n
)
1
n
0 x
n
z x = z
Segue quindi che S( x) = x, cio`e x `e un d-point.
Dimostriamo ora che b) implica a).
Prendiamo una successione di Cauchy x
n
1
M. Voglio mostrare che ha limite in M.
Sia f(x) := 2 lim
n
d(x, x
n
). f(x) `e ben denita; infatti si verica facilmente che
d(x, x
n
)
1
`e di Cauchy in R, e, per la completezza di R, la successione converge e ha
limite.
f `e continua, infatti [(d(x, x
n
) d(y, x
n
))[ d(x, y), per ogni n e le successioni delle
distanze convergono. Ora
1
2
[f(x) f(y)[ = [ lim
n
(d(x, x
n
) lim
m
d(y, x
m
))[.
13
Essendo le successioni di Cauchy, > 0 N : n, m > N, [d(y, x
m
) d(y, x
n
)[ .
Quindi posso scrivere
1
2
[f(x) f(y)[ [ lim
n
((d(x, x
n
) d(y, x
n
))) +[
Con che tende a 0 abbiamo che, per monotonia, il tutto `e d(x, y). Abbiamo ora la
continuit`a.
Si noti che f(x
n
) 0. Sia x M un d-point di f. Allora
f(x) f(x
n
) +d(x, x
n
) n 1.
Per n abbiamo che f(x)
f(x)
2
, ma, siccome f `e positiva, f(x) = 0.
Ci` o implica che d(x, x
n
) 0, quindi la successione converge.
Quindi (M, d) `e completo.
A questo punto si pu`o dedurre con facilit`a il principio -variazionale di Ekeland.
Teorema (Principio -variazionale di Ekeland)
Sia (M, d) uno spazio metrico completo e sia f : M R + semicontinua inferior-
mente, limitata dal basso.
Allora 0, 0, x M tali che f(x) inf
xM
f(x) +, x
M :
f(x
) f(x)
d(x
, x)
f(x
) < f(z) +
d(z, x
) z M z ,= x
(3)
Dimostrazione
`
E suciente dimostrare il teorema per = 1 e = 1; il caso generale segue sostituendo
alla funzione distanza d la funzione
d
.
A questo punto basta applicare il teorema precedente. Infatti x M x _ x, con x
d-point. La terza condizione `e vericata dalla denizione di d-point, mentre le prime due
derivano dalla seguente disuguaglianza
f( x) +d(x, x) f(x) inf
M
f + 1 f( x) + 1,
dove la prima disuguaglianza `e conseguenza del fatto che x _ x.
La conclusione a cui giunge il teorema e che prendendo una funzione semicontinua in-
feriormente, in uno spazio metrico, ssato un coeciente angolare, possiamo trovare un
14
punto, tale per cui, tracciando un cono che ha vertice nel punto e che scende con coe-
ciente angolare dato, questo sia completamente al di sotto della funzione data.
Se, come in gura, lo spazio metrico `e R, possiamo tracciare una coppia di semirette con
coeciente angolare
M :
f(x
) f(x)
d(x
, x)
f(x
) f(z) +
d(z, x
), z M : z ,= x
(4)
Dimostrazione
Basta sostituire
a nel Principio di Ekeland.
Corollario 2
Sia X uno spazio di Banach e sia f : X R G ateaux dierenziabile, semicontinua
inferiormente e limitata dal basso. Sia > 0, e sia x X un punto tale che
f(x) inf
X
f +.
15
Allora esiste un punto x
X tale che
f(x
) f(x),
[[x x
[[ 1,
[[f(x
)[[ .
E di conseguenza esiste una successione x
n
X che soddisfa la condizione
f(x
n
) inf
X
f e f(x
n
) 0.
Dimostrazione
Il principio -variazionale di Ekeland fornisce un punto che soddisfa le prime due condi-
zioni. Per provare la terza notiamo che per ogni direzione d X, [[d[[ = 1, abbiamo
che
tf(x
), d +o(t) = f(x
+td) f(x
e
) t
per t 0, dove luguaglianza `e vericata perche G ateaux dierenziabile e la disugua-
glianza arriva dalla terza disuguaglianza del principio di Ekeland. Abbiamo dunque che
f(x
), d , ovvero f(x
)[[ .
Sia y
n
un punto in X che soddis f(y
n
) inf
X
f + 1/n. Abbiamo gi`a mostrato che
esiste un punto x
n
che soddisfa le seguenti condizioni: f(x
n
) f(y
n
) inf
X
f + 1/n e
[[f(x
n
)[[ 1/n. La successione x
n
1
soddisfa le propriet` a richieste.
2.4 Funzioni di penalizzazione
I metodi di penalizzazione sono degli algoritmi usati per risolvere un problema di ottimo
vincolato, attraverso una serie di problemi di ottimo libero, che convergano alla medesima
soluzione. Il metodo prevede laggiunta di una funzione di penalizzazione alla funzione
obiettivo. La funzione di penalizzazione `e denita come un multiplo della misura di
allontanamento dal vincolo. Per esempio se il nostro problema consiste in
min f(x)
c
i
(x) 0 i I,
questo viene trasformato in una serie di problemi, al variare di k, del tipo
min
k
(x) = f(x) +
k
iI
g(c
i
(x))
g(c
i
(x)) =min(0, c
i
(x))
2
.
16
Useremo questa tecnica per dare una dimostrazione alternativa per le condizioni di Fritz
John, in quelloccasione sar`a chiaro che le funzioni di penalizzazioni
k
condurranno
alla ricerca di minimi liberi, utilizzando tecniche tipiche di quellambito. In particolare
verr` a posto uguale a 0 il dierenziale delle funzioni di penalizzazioni, trovando cos` una
successione di minimi liberi che tender`a al minimo del problema vincolato.
17
3 Programmazione non lineare
3.1 Problema di programmazione non lineare
Un problema di programmazione non lineare consiste in un problema di ottimizzazione
(P), con vincoli di uguaglianza e di disuguaglianza, avente questa forma:
min f(x)
g
i
(x) 0, i = 1, ..., r (P)
h
j
(x) = 0, j = 1, ..., m
dove f, g
i
r
1
e h
j
m
1
sono funzioni a valori reali denite su un sottoinsieme U R
n
. La
funzione f si chiama funzione obiettivo di (P), mentre le disuguaglianze e le uguaglianze
con le g
i
e le h
j
si chiamano vincoli del problema.
La regione ammissibile di (P) `e il sottoinsieme di punti che soddisfano tutti i vincoli:
T(P) = x U : g
i
(x) 0, i = 1, ..., r, h
j
(x) = 0, j = 1, ..., m.
Denizione
Un punto ammissibile x
) f(x) x T(P) B
(x
).
Il punto si dice di minimo globale se f(x
) f(x) x T(P).
Denizione
Dato un punto x T(P), un vincolo g
i
si dice attivo se g
i
(x) = 0, si dice inattivo se
g
i
(x) < 0.
Notiamo infatti che, nella ricerca di un minimo, se x
`e un minimo e g
i
(x
) < 0, per
qualche i, allora il vincolo g
i
non gioca un ruolo attivo nella ricerca del minimo.
Quindi deniamo per ogni punto x M I(x) := i : g
i
(x) = 0 linsieme dei vincoli attivi
in x.
Denizione
Sia x
).
Un vettore d R
n
si chiama direzione discendente per f in x
R
n
, non necessariamente ammissibili, con direzione tangente d e
18
tali che f(x
n
) f(x
).
Osservazione Se x
) oT(f; x
) = .
3.2 Condizioni necessarie del primo ordine (Fritz John)
In questo paragrafo ci concentreremo sulle condizioni necessarie per un punto di minimo
locale di un problema (P). Le condizioni che vogliamo presentare sono le condizioni di
Fritz John (FJ) e sono utilizzabili quando tutte le funzioni coinvolte, f, g
i
, h
j
sono di
classe (
1
su un aperto contenente la regione ammissibile T(P). In questa situazione,
possiamo ridenire una versione linearizzata delle direzioni ammissibili e delle direzioni
discendenti:
/TT(x
) := d : g
i
(x
), d < 0, i = 1, ..., r, h
j
(x
), d = 0, j = 1, ..., m,
/oT(f; x
) := d : f(x), d < 0.
Per motivare questa scelta basta usare la formula di Taylor del primo ordine. Per esempio,
se f `e la funzione dierenziabile su un aperto di R
n
e d /oT(f; x), allora
f(x +dt) = f(x) +t
f(x), d +
o(t)
t
< f(x),
in un intorno di x. Cos`, per un vincolo attivo, abbiamo che, se d /TT(x
)
/oT(f; x
), allora f(x
) e g
i
(x
+ td) < g
i
(x
l
1
, b
j
m
1
, e c
k
p
1
vettori in R
n
. Allora il sistema lineare:
a
i
, x < 0, i = 1, ..., l,
b
j
, x 0, j = 1, ..., m,
c
k
, x = 0, k = 1, ..., p,
`e inconsistente se e solo se esistono dei vettori moltiplicatori
19
:= (
1
, ...,
l
) 0, ,= 0
:= (
1
, ...,
m
) 0,
:= (
1
, ...,
p
),
tali che
l
i
a
i
+
m
j
b
j
+
p
k
c
k
= 0.
La dimostrazione di questo teorema `e molto lunga e con conti complicati, ma intuitiva-
mente elementare. Quindi non presenteremo la dimostrazione.
Teorema (Fritz John)
Se un punto x
0
f(x
) +
r
i=1
i
g
i
(x
) +
m
j=1
j
h
j
(x
) = 0,
i
0, g
i
(x
) 0,
i
g
i
(x
) = 0, i = 1, ..., r.
La seconda condizione si chiama anche condizione di complementariet`a, infatti fa s` che
per ogni vincolo inattivo (con g
i
< 0) il suo moltiplicatore relativo
i
= 0, cos` che non
inuisca nella prima uguaglianza.
Dimostrazione
Per la condizione di complementarit` a, possiamo riscrivere la tesi nella forma
0
f(x
) +
iI(x
i
g
i
(x
) +
m
j=1
j
h
j
(x
) = 0.
Se i vettori h
j
m
1
sono linearmente dipendenti, allora esistono dei moltiplicatori :=
(
1
, ...,
m
) ,= 0 tali che
m
j=1
j
h
j
(x
), d < 0, g
i
(x
), d < 0, i I(x
),
h
j
(x
), d = 0, j = 1, ..., m = .
Per assurdo, supponiamo che esista d nellinsieme A, tale che [[d[[ = 1. Siccome h
j
m
1
sono linearmente indipendenti, segue dal teorema di Lyusternik che esiste una successione
x
n
x
) +
f(x
),
x
n
x
[[x
n
x
[[
+
o(x
n
x
)
[[x
n
x
[[
[[x
n
x
[[,
dove (x
n
x
)/[[x
n
x
[[ d e o(x
n
x
)/[[x
n
x
[[ 0 per n .
Poich`e il termine allinterno delle quadre `e negativo per n sucientemente grande, ab-
biamo che f(x
n
) < f(x
, abbiamo che g
i
(x
n
) < g
i
(x
1
`e una
successione ammissibile per (P), tale che f(x
n
) < f(x
r
1
, h
j
m
1
funzioni da U R vincoli
rispettivamente di disuguaglianza e di uguaglianza per il problema (P). La funzione
lagrangiana debole per (P) `e L : U R
r+1
R
m
R come segue
L(x; , ) :=
0
f(x) +
r
i=1
i
g
i
(x) +
m
j=1
j
h
j
(x) (
i
0, i = 0, ..., r).
Se
0
> 0 possiamo denire la funzione lagrangiana
L(x; , ) := f(x) +
r
i=1
i
g
i
(x) +
m
j=1
j
h
j
(x) (
i
0, i = 1, ..., r).
(
i
,
j
) si chiamano moltiplicatori di lagrange. Il teorema di Fritz John dimostra che se
x
i
,
j
) ,= 0 tale che
x
L(x
i
;
j
) = 0.
Una nota particolare va al signicato dei moltiplicatori di Lagrange. In campo economico,
21
infatti, considerando il problema a due variabili
min f(x, y)
g(x, y) = b
con funzione lagrangiana L(x, y, ) = f(x, y) (g(x, y) b).
Sia z il valore di minimo del problema vincolato. Variando b nel vincolo abbiamo una
variazione del minimo z = z(b), che corrisponder` a ad un punto ( x(b), y(b)) e ad un
moltiplicatore
(b). Avremo allora che L( x(b), y(b),
(b)) = z(b).
Ora possiamo calcolare il tasso di variazione di z rispetto a b, cio`e la variazione di z in
conseguenza a una variazione unitaria di b.
z
(b) =
dL
db
= f
x
x
+f
y
y
(g b) (g
x
x
+g
y
y
1) =
= f
x
x
+f
y
y
(g
x
x
+g
y
y
1) = (f
x
g
x
)x
+ (f
y
g
y
)y
+ = .
Questo ci dice che il moltiplicatore di Lagrange `e la misura della variazione del valore
minimo z in corrispondenza di una variazione unitaria di b. Se b rappresenta una risorsa e
f(x, y) fornisce il protto di un processo produttivo dove lutilizzo della risorsa `e legato
dal vincolo g(x, y) = b, allora il valore del moltiplicatore `e un prezzo. Per questo motivo
solitamente gli economisti danno al moltiplicatore di Lagrange il nome di prezzo ombra.
In particolare se
b = b + h avremo che, usando la formula di Taylor al primo ordine
z(
i=1
g
+
i
(x)
2
+
k
2
m
j=1
h
j
(x)
2
+
k
2
[[x x
[[
2
,
dove g
+
i
(x) =max0, g
i
(x) e k > 0 `e un parametro. Sia > 0 abbastanza piccolo da far
s` che f(x
) f(x) x T(P) B
(x
).
22
Sia x
k
un minimo globale di F
k
su B
(x
) = f(x
), abbiamo che
f(x
k
) f(x
k
) +
k
2
r
i=1
g
+
i
(x
k
)
2
+
k
2
m
j=1
h
j
(x
k
)
2
+
k
2
[[x
k
x
[[
2
()
= F(x
k
) F(x
) = f(x
).
Le funzioni g
+
i
, h
j
e f sono limitate su B
(x
k=0
e kh
2
j
(x
k
)/2
k=0
sono limitate. Quindi abbiamo che, per
k , g
+
i
(x
k
) 0 e h
j
(x
k
) 0. Sia x B
(x
0
. Abbiamo che g
+
i
( x) = 0 (ovvero, g
i
( x) 0) e h
j
( x) = 0. Quindi x `e un punto
ammissibile di (P).
Passando al limite in (), abbiamo che
f( x) f( x) +
1
2
[[ x x
[[
2
f(x
).
Dato che f(x
) f(x) x T(P)B
(x
[[
2
= 0, ovvero, x = x
.
Di conseguenza, il problema di ottimo
minF
k
(x) : x B
(x
)
diventa un problema di ottimo libero per k abbastanza grande: F
k
(x
k
) = 0, cio`e
f(x
k
) +
r
i=1
(kg
+
i
(x
k
))g
i
(x
k
) +
m
j=1
(kh
j
(x
k
))h
j
(x
k
) + (x
k
x
) = 0.
Deniamo
i,k
= kg
+
i
(x
k
) e
j,k
= kh
j
(x
k
), riscaliamo il vettore
(1,
1,k
, ...,
r,k
,
1,k
, ...,
m,k
, 1)
in modo che la sua norma 1 (somma dei valori assoluti delle componenti) sia uguale a
1, ovvero dividiamo tutto per
k
:= 2 +
r
i=1
i,k
+
m
j=1
[
j,k
[ e chiamiamo il nuovo
vettore:
k
:= (
0,k
,
1,k
, ...,
r,k
,
1,k
, ...,
m,k
,
0,k
).
Dividendo lequazione precedendo per
k
da entrambi i lati otteniamo:
0,k
f(x
k
) +
r
i=1
i,k
g
i
(x
k
) +
m
j=1
j,k
h
j
(x
k
) +
0,k
(x
k
x
) = 0.
23
Dal momento che le componenti di
k
sono limitate, possiamo assumere che convergano
per k (altrimenti scegliamo una sottosuccessione convergente). Deniamo i limiti di
i,k
i
(i = 0, ..., r) e
j,k
j
(j = 1, ..., m). Facendo tendere k nellequazione
precedente, abbiamo che
0
f(x
) +
r
i=1
i
g
i
(x
) +
m
j=1
j
h
j
(x
) = 0.
Notando che
i
= 0 per i vincoli inattivi, infatti, se x
k
x
, kg
+
i
(x
k
) = 0 per k
abbastanza grandi.
Segue la tesi.
3.2.3 Dimostrazione con il principio -variazionale di Ekeland
Vogliamo ora dare una terza dimostrazione del Teorema di Fritz John, questa volta, sfrut-
tando il principio -variazionale di Ekeland. Il vantaggio di questa dimostrazione `e che
si pu` o applicare a qualunque problema con funzione e vincoli deniti su uno spazio di
Banach.
Dimostrazione
Sia x
) = x : [[xx
[[ r. Deniamo linsieme
T := (
0
, , ) R R
r
R
m
: (
0
, ) 0, [[(
0
, , )[[ = 1,
e per un > 0 dato, dove
< r, deniamo la funzione
F(x) := max
T
0
(f(x) f(x
) +) +
r
i=1
i
g
i
(x) +
m
j=1
j
h
j
(x).
Chiaramente F(x
) , g
i
(x) 0, e h
j
(x) = 0, che signica che x `e ammissibile per il problema
(P). Ma questo `e un assurdo, dal momento che x
) inf
C
F(x) +.
Segue dal principio -variazionale di Ekeland che esiste un punto x
[[
e
F(x
) F(x) +
[[x x
[[ x C.
24
Quindi, il punto x
[[x x
[[ sulla bolla C =
B
r
(x
). Ma [[x
[[
< r, quindi x
(x
; d) =
0
()f(x
) +
r
i=1
i
()g
i
(x
) +
m
j=1
j
()h
j
(x
), d +
= 0,
dove abbiamo usato il fatto che la funzione N(x) = [[x x
[[ ha derivata direzionale
N
(x
)[[
, cio`e,
[[
0
()f(x
) +
r
i=1
i
()g
i
(x
) +
m
j=1
j
()h
j
(x
)[[
.
Per la compattezza di T, con 0, esiste una successione convergente (
0
(), (), ())
(
0
, , ) T. Visto che x
, otteniamo
0
f(x
) +
r
i=1
i
g
i
(x
) +
m
j=1
j
h
j
(x
) = 0.
`
E chiaro dalla denizione di F che se g
i
(x
) < 0, allora
i
() = 0 per abbastanza piccolo;
dunque anche la condizione di complementariet` a
i
g
i
(x
) = 0 rimane valida.
3.3 Altre condizioni del primo ordine
Corollario 1 (Condizioni di Karush-Kuhn-Tucker)
Se i vettori
g
i
(x
), i I(x
), h
j
(x
), j = 1, ..., m
sono linearmente indipendenti, allora
0
> 0 e abbiamo che (KKT)
f(x
) +
r
i=1
i
g
i
(x
) +
m
j=1
j
h
j
(x
) = 0,
i
0, g
i
(x
) 0,
i
g
i
(x
) = 0, i = 1, ..., r,
h
j
(x
) = 0, j = 1, ..., m.
25
Dimostrazione
Sia, per assurdo,
0
= 0; allora, per il teorema di Fritz John, abbiamo
iI(x
i
g
i
(x
) +
m
j=1
j
h
j
(x
) = 0.
Ma i vettori sono tutti linearmente indipendenti, quindi tutti i moltiplicatori sono uguali
a 0, il che `e assurdo.
Le altre discendono direttamente dal teorema precendente.
Le condizioni che si impongono in questo teorema si chiamano condizioni di Karush-
Kuhn-Tucker (KKT) per il problema (P). Esse sono vericate anche con ipotesi meno
forti dellindipendenza lineare dei gradienti dei vincoli.
Corollario 2
Una condizione necessaria e suciente delle condizioni di KKT in x
, ovvero
f(x
) +
r
iI(x
i
g
i
(x
) +
m
j=1
j
h
j
(x
) = 0,
`e che lintersezione dei seguenti insiemi sia vuota:
d : f(x
) < 0 d : g
i
(x
) 0, i I(x
)
d : h
j
(x
), d = 0, j = 1, ..., m = .
Dimostrazione La dimostrazione segue immediatamente dalla versione omogenea del teo-
rema di trasposizione di Motzkin.
Lemma
Sia C un insieme convesso in R
n
, T uno spazio topologico e sia f : C T una funzione
dierenziabile su un aperto contente C. Allora f `e convessa se e solo se il piano tangente
in ogni punto x C giace sotto il graco di f, ovvero
f(y) f(x) +f(x), y x per ogni x, y C.
Corollario 3 (Condizioni di Karush-Kuhn-Tucker, vincoli concavi e lineari)
Sia x
se
i vincoli attivi g
i
iI(x
)
sono funzioni concave in un intorno convesso di x
e i vincoli di
uguaglianza h
j
sono funzioni ani su R
n
.
In particolare, le condizioni KKT valgono se tutti i vincoli attivi in x
), d 0, i I(x
), h
j
(x
), d = 0, j = 1, ..., m.
I punti x(t) = x
+td sono punti ammissibili per t > 0 piccolo a sucienza, dal momento
che
g
i
(x
+td) g
i
(x
) +tg
i
(x
), d 0,
per il lemma precedente. Similmente
h
j
(x
+td) = h
j
(x
) +th
j
(x
), d = 0,
poiche le h
j
sono funzioni ani. Dal momento che x
(x; d) = f(x
2
x
L(x, , ) =
2
f(x) +
r
i=1
2
g
i
(x) +
m
j=1
2
h
j
(x).
Lemma
Sia x
un punto di minimo locale per (P) che soddisfa le condizioni KKT con i mol-
tiplicatori
. Se d R
n
`e una direzione ammissibile in x
e che soddisfa la
condizione (x
k
x
)/[[x
k
x
[[ d, g
i
(x
k
) = 0, i I(x
), e h
j
(x
k
) = 0, allora
2
x
L(x
)d, d 0.
27
Dimostrazione
Siano d e x
k
come nelle ipotesi. Deniamo d
k
= x
k
x
, abbiamo che
0 f(x
k
) f(x
) = L(x
k
,
) L(x
)
=
x
L(x
), d
k
+
1
2
2
x
L(x
)d
k
, d
k
+o([[d
k
[[
2
)
=
1
2
2
x
L(x
)d
k
, d
k
+o([[d
k
[[
2
),
dove la prima disuguaglianza vale perche x
2
x
L(x
)d, d 0.
Teorema
Sia x
un punto di minimo locale per (P) soddisfacente le condizioni KKT con i molti-
plicatori
. Se i gradienti attivi
g
i
(x
), i I(x
), h
j
(x
), j = 1, ..., m
sono linearmente indipendenti, allora
2
x
L(x
), i I(x
), h
j
(x
), j = 1, ..., m)
.
Ovvero, se una direzione d soddisfa
d, g
i
(x
) = 0, i I(x
), d, h
j
(x
) = 0, j = 1, ..., m,
allora
2
x
L(x
)d, d 0.
Dimostrazione
Dal momento che i gradienti attivi sono linearmente indipendenti, segue dal teorema di
Lyusternik che M coincide con linsieme delle direzioni tangenti allinsieme
x : g
i
(x) = 0, i I(x
), h
j
(x) = 0, j = 1, ..., m
nel punto x
. Se x e un punto vicino a x