You are on page 1of 6

VI简明推导

本⽂文是对论⽂文Stochas!c Varia!onal Inference中涉及的Varia!onal inference结合指数家


族分布进⾏行行近似推理理的常规(⾮非stochas!c)⽅方法的说明。

Graphical Model

Joint distribu!on
p(x, z, β∣α)
= p(x, z, β)
N
= p(β∣α) ∏ p(xn , zn ∣β)
n=1
N
= p(β) ∏ p(xn , zn ∣β)
n=1

x是已知的观测值,β 是全局隐变量量,z 是局部隐变量量。

这⾥里里α是hyperparameter,其取值是确定的,所以常常常常可以参略略不不写。每个zn 都是
个集合,其中包含⼀一组变量量zn,j with 1 ≤ j ≤ J 。

Complete condi!onal assump!ons

假设所有local variables和global varibles的complete condi!onals都是exponen!al


family。

全局变量量的Complete condi!onal

p(β∣x, z, α)
= p(β∣x, z)
= h(β)exp{ηg (x, z, α)T t(β) − ag (ηg (x, z, α))}
= h(β)exp{ηg (x, z)T t(β) − ag (ηg (x, z))}

局部变量量的Complete condi!onal可以根据zn,j 的Markov Blanket来简化得到

p(zn,j ∣z¬(n,j) , x, β)
= p(zn,j ∣xn , zn,¬j , β)
= h(zn,j )exp{ηl (xn , zn,¬j , β)T t(zn,j ) − al (ηl (xn , zn,¬j , β))}

Posterior distribu!on of variables


很多bayesian inference的问题,最终都归结为隐变量量后验概率的求解问题。

p(z, β, x)
p(z, β∣x) =
∫ ∫ p(z, β, x)dzdβ

因为分⺟母的计算很困难,通常需要近似的⽅方法来求解。

Mean-field varia!onal family

常常采⽤用⼀一种简单的被称为mean-field变分分布家族来近似隐变量量的后验分布。在mean-
field分布家族中,每个隐变量量是互相独⽴立的。

N J
q(z, β) = q(β∣λ) ∏ ∏ q(zn,j ∣ϕn,j )
n=1 j=1

前⾯面提到过local variables和global varibles的complete condi!onals都是exponen!al


family,这⾥里里再假设其对应的varia!onal distribu!on也是相同的exponen!al family。

全局变量量对应的varia!onal distribu!on

q(β∣λ) = h(β)exp{λT t(β) − ag (λ)}

局部变量量对应的varia!onal distribu!on

q(zn,j ∣ϕn,j ) = h(znj )exp{ϕTn,j t(znj ) − al (ϕn,j )}

注意这⾥里里的q(β∣λ)和之前的p(β∣x, z)中的h(β)以及t(β)是相同,因为两者都属于相同
的exponen!al family。

同样,这⾥里里的q(zn,j ∣ϕn,j )和之前的p(znj ∣xn , zn,−j , β)中的h(znj )以及t(znj )是相同,


因为两者都属于相同的exponen!al family。

ELOB
p(x, z, β) q(z, β)
log p(x) = Eq(z,β) [log ] + Eq(z,β) [log ]
q(z, β) p(z, β∣x)
= L(q(z, β)) + KL(q(z, β)∣∣p(z, β∣x))

L(q(z, β)) is called evidence lower bound (ELOB).

L(q(z, β))
= Eq(z,β) [p(x, z, β)] − Eq(z,β) [q(z, β)]

Op!miza!on

全局隐变量量参数的优化

根据Notes on varia!onal inference的推导

q ∗ (β∣λ) ∝ exp(Eq(¬β) [log p(x, z, β)])


∝ exp(Eq(¬β) [log p(β∣x, z)])

N J
这⾥里里q(¬β) = ∏n=1 ∏j=1 q(zn,j ∣ϕn,j )

其中

Eq(¬β) [log p(β∣x, z)]


=Eq(¬β) [log (h(β) exp{ηg (x, z)T t(β) − ag (ηg (x, z))})]
=Eq(¬β) [log h(β) + ηg (x, z)T t(β) − ag (ηg (x, z))]
= log h(β) + Eq(¬β) [ηg (x, z)T ]t(β) − Eq(¬β) [ag (ηg (x, z))]
= log h(β) + Eq(¬β) [ηg (x, z)]T t(β) − const

对于ag (ηg (x, z)),x是已知的观测值,⽽而z 包含n个⼦子集,也就是z = z1:n ,同时每个


zn 也包含J 个元素,也就是zn = zn,1:J 。简单说z 代表了了所有的zn,j ,⽽而E¬β [⋅]会对每个
zn,j 做积分,所以E¬β [ag (ηg (x, z))]是⼀一个常数。

所以可得
q ∗ (β∣λ) ∝ exp(log h(β) + Eq(¬β) [ηg (x, z)]T t(β))
∝ h(β) exp (Eq(¬β) [ηg (x, z)]T t(β))

前⾯面我们知道varia!onal distribu!on q ∗ (β∣λ)和complete condi!onal p(β∣x, z)属于相同


的exponen!al family。

q ∗ (β∣λ) = h(β) exp{λT t(β) − ag (λ)}


∝ h(β) exp (λT t(β))
= h(β) exp (Eq(¬β) [ηg (x, z)]T t(β))

可以推导出

λ = Eq(¬β) [ηg (x, z)]

局部隐变量量参数的优化

同样根据Notes on varia!onal inference的推导,以及zn,j 的Markov Blanket,上⾯面的表


示可以简化为

q ∗ (zn,j ∣ϕn,j ) = exp(log Eq(¬zn,j ) [p(x, z, β)])


= exp(log Eq(¬zn,j ) [p(zn,j , z¬(n,j) , x, β)])
∝ exp(log Eq(¬zn,j ) [p(zn,j ∣z¬(n,j) , x, β)])
= exp(log Eq(¬zn,j ) [p(zn,j ∣zn,¬j , xn , β)])

其中

Eq(¬zn,j ) [log p(zn,j ∣zn,¬j , xn , β)])


= Eq(¬zn,j ) [log (h(zn,j )exp{ηl (xn , zn,¬j , β)T t(zn,j ) − al (ηl (xn , zn,¬j , β))})]
= Eq(¬zn,j ) [log h(zn,j ) + ηl (xn , zn,¬j , β)T t(zn,j ) − al (ηl (xn , zn,¬j , β))]
= log h(zn,j ) + Eq(¬zn,j ) [ηl (xn , zn,¬j , β)]T t(zn,j ) − Eq(¬zn,j ) [al (ηl (xn , zn,¬j , β))]
= log h(zn,j ) + Eq(¬zn,j ) [ηl (xn , zn,¬j , β)]T t(zn,j ) − const

类似的,Eq(¬zn,j ) [al (ηl (xn , zn,¬j , β))]是⼀一个常数。


q ∗ (zn,j ∣ϕn,j ) ∝ exp ( log h(zn,j ) + Eq(¬zn,j ) [ηl (xn , zn,¬j , β)]T t(zn,j ))
= h(zn,j ) exp (Eq(¬zn,j ) [ηl (xn , zn,¬j , β)]T t(zn,j ))

前⾯面我们知道varia!onal distribu!on q ∗ (zn,j ∣ϕn,j )和complete condi!onal


p(zn,j ∣z¬(n,j) , x, β)属于相同的exponen!al family。

q(zn,j ∣ϕn,j ) = h(znj ) exp{ϕTn,j t(znj ) − al (ϕn,j )}


∝ h(znj ) exp{ϕTn,j t(znj )}
= h(zn,j ) exp (Eq(¬zn,j ) [ηl (xn , zn,¬j , β)]T t(zn,j ))

可以推导出

ϕn,j = Eq(¬zn,j ) [ηl (xn , zn,¬j , β)]

You might also like