複数の出力を持つ多層パーセプトロン

$L$ 個の入力データ $x = (1,x_1,\ldots,x_L) \in \mathbb{R}^{L+1}$ が与えられ, $M$ 個の中間データ $y = (y_1, \ldots , y_M) \in \mathbb{R}^M$ を得て, $N$ 個の出力データ $z = (z_1, \ldots , z_N) \in \mathbb{R}^N$ が得られるとする. ただし, これらは次のような関係があると仮定する. \begin{align} y_1 &= f_1(u_1x) = f_1(u_{10} + u_{11}x_1 + \cdots + u_{1L}x_L) \\ & \cdots \\ y_M &= f_M(u_Mx) = f_M(u_{M0} + u_{M1}x_1 + \cdots + u_{ML}x_L) \\ z_1 &= g_1(v_1y) = g_1(v_{10} + v_{11}y_1 + \cdots + v_{1M} y_M) \\ & \cdots \\ z_N &= g_N(v_Ny) = g_N(v_{N0} + v_{N1} y_1 + \cdots + v_{NM} y_M) \end{align} ここで, $\{u_m = (u_{m0},u_{m1},\ldots,u_{mL})\}_{m=1}^M$ は $M$ 個の $L+1$ 次行ベクトル, $\{ v_n = (v_{n0},v_{n1},\ldots,v_{nM})\}_{n=1}^N$ は $N$ 個の $M+1$ 次行ベクトル, $f_1, \ldots, f_M, g_1, \ldots g_N$ は活性化関数である. これを、複数の出力をもつ多層パーセプトロンという.


誤差逆伝播法Ⅳ

教師データを与え, パーセプトロンの活性化関数はそのままとし, 重みのみを更新することを考える. 今、具体的な入力データ $x^{(0)} = (1, x_1^{(0)}, \cdots , x_L^{(0)})$ を与え, 中間層を $y^{(0)}= ( y_1^{(0)}, \cdots , y_M^{(0)})$, 出力を $z^{(0)}=( z_1^{(0)}, \cdots , z_N^{(0)})$ とする. また, 正解は $r^{(0)}=( r_1^{(0)}, \cdots , r_N^{(0)})$ であるとする. 誤差関数を \begin{align} E(u,v) &= \sum_{n=1}^N \left(r_n^{(0)} - z_n^{(0)}\right)^2 \\ &=\sum_{n=1}^N \left(r_n^{(0)} - g_n\bigl(v_n y^{(0)}\bigr)\right)^2 \\ &=\sum_{n=1}^N \left(r_n^{(0)} - g_n\bigl(v_{n0} + v_{n1} y_1^{(0)} + \cdots + v_{nM} y_M^{(0)}\bigr)\right)^2 \\ &=\sum_{n=1}^N \left(r_n^{(0)} - g_n\bigl(v_{n0} + v_{n1} f_1(u_1x^{(0)}) + \cdots + v_{nM} f_M(u_Mx^{(0)})\bigr)\right)^2 \tag{5.1} \label{eq5.1} \end{align} で定義する. ここで, \eqref{eq5.1} が最小に近づくように重み $\{u_m = (u_{m0},u_{m1},\ldots,u_{mL})\}_{m=1}^M$ と $\{v_n = (v_{n0},v_{n1},\ldots,v_{nM})\}_{n=1}^N$ を決定しよう. 修正前の重みを $v$, 修正後の重みを $v + \Delta v$ とする. 確率的勾配降下法により $0 \leq m \leq M$, $1 \leq n \leq N$ として, \begin{align} \Delta v_{nm} &= - \eta \frac{\partial E}{\partial v_{nm}} \\ &= - \eta \frac{\partial E}{\partial z} \frac{\partial z}{\partial v_{nm}}\\ &= \eta (r_n^{(0)} - z_n^{(0)}) \widehat{g_n}(z_n^{(0)})y_m^{(0)} \tag{5.2} \label{eq5.2} \end{align} となる. ただし, $y_0^{(0)} = 1$ とする. 同様に, 修正前の重みを $u$, 修正後の重みを $u + \Delta u$ とする. 確率的勾配降下法により $0 \leq l \leq L$, $0 \leq m \leq M$ として, \begin{align} \Delta u_{ml} &= - \eta \frac{\partial E}{\partial u_{ml}} \\ &= - \eta \frac{\partial E}{\partial z} \frac{\partial z}{\partial u_{ml}}\\ &= \sum_{n=1}^N \eta (r_n^{(0)} - z_n^{(0)}) \widehat{g_n}(z_n^{(0)})v_{nm}\widehat{f_m}(y_m^{(0)})x_l^{(0)} \tag{5.3} \label{eq5.3} \end{align} となる. ただし, $x_0^{(0)}=1$, $\widehat{f_m}(y_m^{(0)})=1$ とする.