A Hierarchical Bayesian Language Model based on Pitman-Yor Processes (HPYLM)
- A Hierarchical Bayesian Language Model based on Pitman-Yor Processes を読んだ
- A Bayesian Interpretation of Interpolated Kneser-Ney を読んだ
- C++でHPYLMを実装した
she will sing
she will like
he will call
この時、たとえば単語列she willに続いてlikeが来る確率$P(like\mid she\ will)$は、she willで始まる文が2つあり、そのうちの1つがshe willに続いてlikeが来ているので、$1$割る$2$で$0.5$となります。
しかしhe willにlikeが続くデータはないため、$P(like\mid he\ will)=0$となります。
\[\begin{align} P(dog\mid The\ quick\ brown\ fox\ jumps\ over\ the\ lazy) &= P(dog\mid the\ lazy)\nonumber \end{align}\\]HPYLMは以下の様な文脈木を考え、単語のことを客、木のノードをレストランと呼びます。
たとえばshe willという単語列の後にlikeという単語が何回来たかをカウントしたい場合、文脈木のルートからwill→sheとレストランをたどり、sheというレストランにlikeという客を追加します。
こうすることでshe willに続いてlikeが1回来たとカウントされます。
この状態では先程と同じく、he willに続いてlikeが来る回数はheのノードにlikeという客がいないため$0$となります。
そうするとhe willの後にlikeが続く回数は依然$0$ですが、willに続いてlikeが来る回数が$1$になります。
よって$P(like\mid he\ will)$を求めるときに、ノード$he$が持つ3-gram確率$P(like\mid he\ will)$(これは0)と、その親ノード$will$が持つ2-gram確率$P(like\mid will)$をうまく補完すれば$0$ではない値にすることが可能になります。
全ての客の配置を$\boldsymbol\Theta$とすると、文脈$\boldsymbol u$に単語$w$が続く確率$P(w\mid\boldsymbol u)$は
\[\begin{align} P(w\mid\boldsymbol u)=P(w\mid\boldsymbol u, \boldsymbol\Theta) \end{align}\\]と表され、n-gram確率が$\boldsymbol\Theta$によって決まります。
まず${\rm RemoveCustomer(\boldsymbol u,w)}$によりレストラン$\boldsymbol u$から$w$を削除します。
削除された後の残りの客全ての配置を$\lnot\boldsymbol\Theta$とし、$\lnot\boldsymbol\Theta$のもとで$w$の配置を再サンプリングします(${\rm AddCustomer}(\boldsymbol u, w)$)。
- $w$
- 単語
- $\boldsymbol u$
- 単語$w$の左側にあるすべての単語列(文脈)
- $\pi(\boldsymbol u)$
- 文脈$\boldsymbol u$のオーダーを1つ下げた文脈
- $\mid\boldsymbol u\mid$
- 文脈$\boldsymbol u$に含まれる単語数
- $c_{\boldsymbol uwk}$
- レストラン$\boldsymbol u$で単語$w$を提供しているいくつかのテーブルのうち、$k$番目のテーブルにいる客数
- $c_{\boldsymbol uw\cdot}$
- レストラン$\boldsymbol u$で単語$w$を提供しているすべてのテーブルの客の総数
- $c_{\boldsymbol u\cdot\cdot}$
- レストラン$\boldsymbol u$にいる客の総数
- $t_{\boldsymbol uw}$
- レストラン$\boldsymbol u$で単語$w$を提供しているテーブルの総数
- $t_{\boldsymbol u\cdot}$
- レストラン$\boldsymbol u$のテーブルの総数
- $d_{\mid\boldsymbol u\mid}$
- Pitman-Yor過程のハイパーパラメータ
- レストランごとではなく深さごとに共通の値を使う
- $\theta_{\mid\boldsymbol u\mid}$
- Pitman-Yor過程のハイパーパラメータ
- レストランごとではなく深さごとに共通の値を使う
- $G_0(w)$
- 基底測度(単語0-gram確率)
- 語彙数の逆数をパラメータに持つ一様分布とする
たとえば文が$she\ will\ sing$で$w$が$sing$である場合、
\[\begin{align} w &= sing\nonumber\\ \boldsymbol u &= she\ will\nonumber\\ \pi(\boldsymbol u) &= will\nonumber\\ \mid\boldsymbol u\mid &= 2\nonumber\\ \end{align}\\]となります。
WordProbability($\boldsymbol u$, $w$)
文脈$\boldsymbol u$の後に$w$が続く確率は
\[\begin{align} {\rm WordProbability}(\boldsymbol u, w)&=P(w\mid \boldsymbol u, \boldsymbol\Theta)\\ &=\frac{c_{\boldsymbol uw\cdot} - d_{\mid\boldsymbol u\mid}t_{\boldsymbol uw}}{\theta_{\mid\boldsymbol u\mid}+c_{\boldsymbol u\cdot\cdot}} +\frac{\theta_{\mid\boldsymbol u\mid}+d_{\mid\boldsymbol u\mid}t_{\boldsymbol u\cdot}}{\theta_{\mid\boldsymbol u\mid}+c_{\boldsymbol u\cdot\cdot}}{\rm WordProbability}(\pi(\boldsymbol u), w)\nonumber \end{align}\\]となり、再帰的に文脈のオーダーを落として計算します。
AddCustomer($\boldsymbol u$, $w$)
文脈$\boldsymbol u$のもとで単語$w$が観測された時、深さn-1に対応するノード(HPYLMでは常にn-1の深さのノードに追加する)に$w$を追加します。
- $max(0, c_{\boldsymbol uwk} - d_{\mid\boldsymbol u\mid}t_{\boldsymbol uw})$に比例する確率で、$w$を提供しているすべてのテーブルの中の$k$番目のテーブルに追加
- $(\theta_{\boldsymbol u} + d_{\boldsymbol u}t_{\boldsymbol u\cdot}){\rm WordProbability}(\pi(\boldsymbol u), w)$に比例する確率で、$w$を提供する新しいテーブルを作成しそこに追加
- この時親レストラン$\pi(\boldsymbol u)$に対し${\rm AddCustomer}(\pi(\boldsymbol u), w)$
- したがって親レストランでも同様に、新たなテーブルができればさらにその親に対して${\rm AddCustomer}(\pi(\pi(\boldsymbol u)), w)$
RemoveCustomer($\boldsymbol u$, $w$)
客を削除する際は$c_{\boldsymbol uwk}$に比例する確率で、$w$を提供しているすべてのテーブルの$k$番目のテーブルから客を削除します。
$k$番目のテーブルに客が一人もいなくなった場合はそのテーブルを削除し、親レストラン$\pi(\boldsymbol u)$に対し${\rm RemoveCustomer}(\pi(\boldsymbol u), w)$を実行します。
$\theta_{\mid\boldsymbol u\mid}$や$d_{\mid\boldsymbol u\mid}$は初めに適当な初期値を与えておきますが、現在の文脈木のパラメータからサンプリングにより推定します。
論文のAppendix Cに詳細が書いてありますが、まだ理解が追いついていないのでやり方だけ書いておきます。
\[\begin{align} x_{\boldsymbol u} &\sim {\rm Beta}(\theta_{\mid\boldsymbol u\mid}+1, c_{\boldsymbol u\cdot\cdot}-1)\\ y_{\boldsymbol ui} &\sim {\rm Bernoulli}\left(\frac{\theta_{\mid\boldsymbol u\mid}}{\theta_{\mid\boldsymbol u\mid} + d_{\mid\boldsymbol u\mid}i}\right)\\ z_{\boldsymbol uwkj} &\sim {\rm Bernoulli}\left(\frac{j-1}{j-d_{\mid\boldsymbol u\mid}}\right) \end{align}\\]これらの補助変数を用いてベータ分布・ガンマ分布からサンプリングします。
\[\begin{align} d_m &\sim {\rm Beta}\left( a_m + \sum_{\boldsymbol u:\mid u \mid=m,t_{\boldsymbol u\cdot}\geq2}\sum_{i=1}^{t_{\boldsymbol u\cdot - 1}}(1 - y_{\boldsymbol ui}), b_m + \sum_{\boldsymbol u,w,k:\mid u \mid=m,c_{\boldsymbol uwk}\geq2}\sum_{j=1}^{c_{\boldsymbol uwk - 1}}(1 - z_{\boldsymbol uwkj}) \right)\\ \theta_m &\sim {\rm Gamma}\left( \alpha_m + \sum_{\boldsymbol u:\mid u \mid=m,t_{\boldsymbol u\cdot}\geq2}\sum_{i=1}^{t_{\boldsymbol u\cdot - 1}}y_{\boldsymbol ui}, \beta_m + \sum_{\boldsymbol u:\mid u \mid=m,t_{\boldsymbol u\cdot}\geq2}{\rm log}x_{\boldsymbol u} \right)\\ \end{align}\\]$\sum_{\boldsymbol u:\mid u \mid=m,t_{\boldsymbol u\cdot}\geq2}$は深さ$m$であり、かつ$t_{\boldsymbol u\cdot}\geq2$となるような全てのレストランに対する総和です。
新たなハイパーパラメータ$a_m, b_m, \alpha_m, \beta_m$が出てきますが、これは適当な値を設定して固定します。
英語版のウィキペディアに書いてありますが、ガンマ分布は${\rm Gamma}(k, \theta)$と${\rm Gamma}(\alpha, \beta)$の2種類の表記があり、計算方法が違います。
C++のgamma_distribution関数は${\rm Gamma}(k, \theta)$の方で実装されているため、この関数を用いる場合は式(5)の2つ目のパラメータ\(\beta_m + \sum_{\boldsymbol u:\mid u \mid=m,t_{\boldsymbol u\cdot}\geq2}{\rm log}x_{\boldsymbol u}\)の逆数をgamma_distributionの2つ目の引数とします。
