複数の出力を持つパーセプトロン

$L$ 個の入力データ $x = (1,x_1,\ldots,x_L) \in \mathbb{R}^{L+1}$ および $M$ 個の出力データ $y = (y_1, \ldots , y_M) \in \mathbb{R}^M$ が, 次のような関係を持っていると仮定する. \begin{align} y_1 &= f_1(u_1x) = f_1(u_{10} + u_{11}x_1 + \cdots + u_{1L}x_L) \\ y_2 &= f_2(u_2x) = f_2(u_{20} + u_{21}x_1 + \cdots + u_{2L}x_L) \\ & \cdots \\ y_M &= f_M(u_Mx) = f_M(u_{M0} + u_{M1}x_1 + \cdots + u_{ML}x_L) \end{align} ここで, $\{u_m = (u_{m0},u_{m1},\ldots,u_{mL})\}_{m=1}^M$ は $M$ 個の $L+1$ 次行ベクトル, $\{f_m\}_{m=1}^M$ は $M$ 個の活性化関数とする. これを、複数の出力を持つパーセプトロンという.


誤差逆伝播法Ⅱ

教師データを与え, パーセプトロンの活性化関数はそのままとし, 重みのみを更新することを考える. 今、具体的な入力データ $x^{(0)} = (1, x_1^{(0)}, \cdots , x_L^{(0)})$ を与え, 出力を $y^{(0)}= ( y_1^{(0)}, \cdots , y_M^{(0)})$, 正解が $r^{(0)}= ( r_1^{(0)}, \cdots , r_M^{(0)})$ であるとする. 複数の出力を持つパーセプトロンの誤差関数を \begin{align} E(u) &= \frac{1}{2} \sum_{m=1}^M (r_m^{(0)} - y_m^{(0)})^2 \tag{3.1} \label{eq3.1}\\ &= \frac{1}{2} \sum_{m=1}^M \left( r_m^{(0)} - f_m(u_m x^{(0)})\right)^2 \tag{3.2} \label{eq3.2} \end{align} と定義する. \eqref{eq3.2} が最小に近づくように重み $\{u_m = (u_{m0},u_{m1},\ldots,u_{mL})\}_{m=1}^M$ を決定しよう. 修正前の重みを $u$, 修正後の重みを $u + \Delta u$ とする. 確率的勾配降下法により $0 \leq l \leq L$, $1 \leq m \leq M$ として, \begin{align} \Delta u_{ml} &= - \eta \frac{\partial E}{\partial u_{ml}} \\ &= - \eta \frac{\partial E}{\partial y_m} \frac{\partial y_m}{\partial u_{ml}} \tag{3.3} \label{eq3.3}\\ &= \eta (r_m^{(0)} - y_m^{(0)}) \widehat{f_m}(y_m^{(0)})x_l^{(0)} \end{align} となる. ただし, $x_0^{(0)} = 1$ とする.