VI简明推导

VI简明推导
本⽂文是对论⽂文Stochas!c Varia!onal Inference中涉及的Varia!onal inference结合指数家

族分布进⾏行行近似推理理的常规（⾮非stochas!c）⽅方法的说明。
Graphical Model
Joint distribu!on
p(x, z, β∣α)
= p(x, z, β)
N
= p(β∣α) ∏ p(xn , zn ∣β)
n=1
N
= p(β) ∏ p(xn , zn ∣β)
n=1
x是已知的观测值，β 是全局隐变量量，z 是局部隐变量量。
这⾥里里α是hyperparameter，其取值是确定的，所以常常常常可以参略略不不写。每个zn 都是
个集合，其中包含⼀一组变量量zn,j with 1 ≤ j ≤ J 。
Complete condi!onal assump!ons
假设所有local variables和global varibles的complete condi!onals都是exponen!al

family。
全局变量量的Complete condi!onal
p(β∣x, z, α)
= p(β∣x, z)
= h(β)exp{ηg (x, z, α)T t(β) − ag (ηg (x, z, α))}
= h(β)exp{ηg (x, z)T t(β) − ag (ηg (x, z))}
局部变量量的Complete condi!onal可以根据zn,j 的Markov Blanket来简化得到
p(zn,j ∣z¬(n,j) , x, β)
= p(zn,j ∣xn , zn,¬j , β)
= h(zn,j )exp{ηl (xn , zn,¬j , β)T t(zn,j ) − al (ηl (xn , zn,¬j , β))}
Posterior distribu!on of variables

很多bayesian inference的问题，最终都归结为隐变量量后验概率的求解问题。
p(z, β, x)
p(z, β∣x) =
∫ ∫ p(z, β, x)dzdβ
因为分⺟母的计算很困难，通常需要近似的⽅方法来求解。
Mean-field varia!onal family
常常采⽤用⼀一种简单的被称为mean-field变分分布家族来近似隐变量量的后验分布。在mean-
field分布家族中，每个隐变量量是互相独⽴立的。
N J
q(z, β) = q(β∣λ) ∏ ∏ q(zn,j ∣ϕn,j )
n=1 j=1
前⾯面提到过local variables和global varibles的complete condi!onals都是exponen!al

family，这⾥里里再假设其对应的varia!onal distribu!on也是相同的exponen!al family。
全局变量量对应的varia!onal distribu!on
q(β∣λ) = h(β)exp{λT t(β) − ag (λ)}
局部变量量对应的varia!onal distribu!on
q(zn,j ∣ϕn,j ) = h(znj )exp{ϕTn,j t(znj ) − al (ϕn,j )}
注意这⾥里里的q(β∣λ)和之前的p(β∣x, z)中的h(β)以及t(β)是相同，因为两者都属于相同
的exponen!al family。
同样，这⾥里里的q(zn,j ∣ϕn,j )和之前的p(znj ∣xn , zn,−j , β)中的h(znj )以及t(znj )是相同，

因为两者都属于相同的exponen!al family。
ELOB
p(x, z, β) q(z, β)
log p(x) = Eq(z,β) [log ] + Eq(z,β) [log ]
q(z, β) p(z, β∣x)
= L(q(z, β)) + KL(q(z, β)∣∣p(z, β∣x))
L(q(z, β)) is called evidence lower bound (ELOB).
L(q(z, β))
= Eq(z,β) [p(x, z, β)] − Eq(z,β) [q(z, β)]
Op!miza!on
全局隐变量量参数的优化
根据Notes on varia!onal inference的推导
q ∗ (β∣λ) ∝ exp(Eq(¬β) [log p(x, z, β)])

∝ exp(Eq(¬β) [log p(β∣x, z)])
N J
这⾥里里q(¬β) = ∏n=1 ∏j=1 q(zn,j ∣ϕn,j )
其中
Eq(¬β) [log p(β∣x, z)]

=Eq(¬β) [log (h(β) exp{ηg (x, z)T t(β) − ag (ηg (x, z))})]
=Eq(¬β) [log h(β) + ηg (x, z)T t(β) − ag (ηg (x, z))]
= log h(β) + Eq(¬β) [ηg (x, z)T ]t(β) − Eq(¬β) [ag (ηg (x, z))]
= log h(β) + Eq(¬β) [ηg (x, z)]T t(β) − const
对于ag (ηg (x, z))，x是已知的观测值，⽽而z 包含n个⼦子集，也就是z = z1:n ，同时每个

zn 也包含J 个元素，也就是zn = zn,1:J 。简单说z 代表了了所有的zn,j ，⽽而E¬β [⋅]会对每个
zn,j 做积分，所以E¬β [ag (ηg (x, z))]是⼀一个常数。
所以可得
q ∗ (β∣λ) ∝ exp(log h(β) + Eq(¬β) [ηg (x, z)]T t(β))
∝ h(β) exp (Eq(¬β) [ηg (x, z)]T t(β))
前⾯面我们知道varia!onal distribu!on q ∗ (β∣λ)和complete condi!onal p(β∣x, z)属于相同

的exponen!al family。
q ∗ (β∣λ) = h(β) exp{λT t(β) − ag (λ)}

∝ h(β) exp (λT t(β))
= h(β) exp (Eq(¬β) [ηg (x, z)]T t(β))
可以推导出
λ = Eq(¬β) [ηg (x, z)]
局部隐变量量参数的优化
同样根据Notes on varia!onal inference的推导，以及zn,j 的Markov Blanket，上⾯面的表

示可以简化为
q ∗ (zn,j ∣ϕn,j ) = exp(log Eq(¬zn,j ) [p(x, z, β)])

= exp(log Eq(¬zn,j ) [p(zn,j , z¬(n,j) , x, β)])
∝ exp(log Eq(¬zn,j ) [p(zn,j ∣z¬(n,j) , x, β)])
= exp(log Eq(¬zn,j ) [p(zn,j ∣zn,¬j , xn , β)])
其中
Eq(¬zn,j ) [log p(zn,j ∣zn,¬j , xn , β)])

= Eq(¬zn,j ) [log (h(zn,j )exp{ηl (xn , zn,¬j , β)T t(zn,j ) − al (ηl (xn , zn,¬j , β))})]
= Eq(¬zn,j ) [log h(zn,j ) + ηl (xn , zn,¬j , β)T t(zn,j ) − al (ηl (xn , zn,¬j , β))]
= log h(zn,j ) + Eq(¬zn,j ) [ηl (xn , zn,¬j , β)]T t(zn,j ) − Eq(¬zn,j ) [al (ηl (xn , zn,¬j , β))]
= log h(zn,j ) + Eq(¬zn,j ) [ηl (xn , zn,¬j , β)]T t(zn,j ) − const
类似的，Eq(¬zn,j ) [al (ηl (xn , zn,¬j , β))]是⼀一个常数。

q ∗ (zn,j ∣ϕn,j ) ∝ exp ( log h(zn,j ) + Eq(¬zn,j ) [ηl (xn , zn,¬j , β)]T t(zn,j ))
= h(zn,j ) exp (Eq(¬zn,j ) [ηl (xn , zn,¬j , β)]T t(zn,j ))
前⾯面我们知道varia!onal distribu!on q ∗ (zn,j ∣ϕn,j )和complete condi!onal

p(zn,j ∣z¬(n,j) , x, β)属于相同的exponen!al family。
q(zn,j ∣ϕn,j ) = h(znj ) exp{ϕTn,j t(znj ) − al (ϕn,j )}

∝ h(znj ) exp{ϕTn,j t(znj )}
= h(zn,j ) exp (Eq(¬zn,j ) [ηl (xn , zn,¬j , β)]T t(zn,j ))
可以推导出
ϕn,j = Eq(¬zn,j ) [ηl (xn , zn,¬j , β)]

VI简明推导

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

VI简明推导

Uploaded by

Copyright:

Available Formats

VI简明推导

本⽂文是对论⽂文Stochas!c Varia!onal Inference中涉及的Varia!onal inference结合指数家

x是已知的观测值，β 是全局隐变量量，z 是局部隐变量量。

Complete condi!onal assump!ons

假设所有local variables和global varibles的complete condi!onals都是exponen!al

局部变量量的Complete condi!onal可以根据zn,j 的Markov Blanket来简化得到

Posterior distribu!on of variables

Mean-field varia!onal family

前⾯面提到过local variables和global varibles的complete condi!onals都是exponen!al

q(β∣λ) = h(β)exp{λT t(β) − ag (λ)}

q(zn,j ∣ϕn,j ) = h(znj )exp{ϕTn,j t(znj ) − al (ϕn,j )}

同样，这⾥里里的q(zn,j ∣ϕn,j )和之前的p(znj ∣xn , zn,−j , β)中的h(znj )以及t(znj )是相同，

L(q(z, β)) is called evidence lower bound (ELOB).

根据Notes on varia!onal inference的推导

q ∗ (β∣λ) ∝ exp(Eq(¬β) [log p(x, z, β)])

Eq(¬β) [log p(β∣x, z)]

对于ag (ηg (x, z))，x是已知的观测值，⽽而z 包含n个⼦子集，也就是z = z1:n ，同时每个

前⾯面我们知道varia!onal distribu!on q ∗ (β∣λ)和complete condi!onal p(β∣x, z)属于相同

q ∗ (β∣λ) = h(β) exp{λT t(β) − ag (λ)}

λ = Eq(¬β) [ηg (x, z)]

同样根据Notes on varia!onal inference的推导，以及zn,j 的Markov Blanket，上⾯面的表

q ∗ (zn,j ∣ϕn,j ) = exp(log Eq(¬zn,j ) [p(x, z, β)])

Eq(¬zn,j ) [log p(zn,j ∣zn,¬j , xn , β)])

类似的，Eq(¬zn,j ) [al (ηl (xn , zn,¬j , β))]是⼀一个常数。

前⾯面我们知道varia!onal distribu!on q ∗ (zn,j ∣ϕn,j )和complete condi!onal

q(zn,j ∣ϕn,j ) = h(znj ) exp{ϕTn,j t(znj ) − al (ϕn,j )}

ϕn,j = Eq(¬zn,j ) [ηl (xn , zn,¬j , β)]

You might also like