活性化関数

微分可能な関数 $f : \mathbb{R} \to \mathbb{R}$ に対し, 関数 $\hat{f} : \mathbb{R} \to \mathbb{R}$ が存在して, $f'=\hat{f}\circ f$ が成り立つとき, この $f$ を活性化関数とよぶ.

例1 $f$ が全単射ならば, $\hat{f} := f' \circ f^{-1}$ とおけば, $f' = \hat{f}\circ f$ が成り立つ.

例2 $c$ を $0$ でない定数, $f$ が活性化関数ならば, $cf$ も活性化関数で, \begin{align} \widehat{(cf)}(y) &= c \hat{f} \left( \frac{y}{c} \right) \end{align} が成り立つ.

例3 $f$, $g$ が活性化関数で $g$ が全単射ならば, $g \circ f$ も活性化関数で, \begin{align} \widehat{(g \circ f)}(z) &= \hat{g} (z) (\hat{f} \circ g^{-1})(z) \end{align} が成り立つ.

例4 $f$ が活性化関数ならば, 逆関数 $f^{-1}$ も活性化関数である. \begin{align} \widehat{(f^{-1})}(y) &= \frac{1}{\hat{f}(y)} \end{align} となる.

例5 指数関数 \begin{align} f(x) &= e^x \end{align} は活性化関数の一つである. \begin{align} \hat{f}(y) &= y \end{align} となる.

例6 自然対数関数 \begin{align} f(x) &= \log x \end{align} は活性化関数の一つである. \begin{align} \hat{f}(y) &= e^{-y} \end{align} となる.

例7 関数 \begin{align} f(x) &= \frac{1}{1 + e^{-x}} \tag{2.1} \label{eq2.1} \end{align} をシグモイド関数という. これは活性化関数であり, \begin{align} \hat{f}(y) &= y(1-y) \tag{2.2} \label{eq2.2} \end{align} が成り立つ.

例8 関数 \begin{align} f(x) &= \max(x,0) \tag{2.3} \label{eq2.3} \end{align} を Rectified linear unit (ReLU) と呼ぶ. これは活性化関数であり, \begin{align} \hat{f}(y) &= \begin{cases} 1 & y>0 \\ 0 & y\leq 0 \end{cases} \tag{2.4} \label{eq2.4} \end{align} が成り立つ.

パーセプトロン

$L$ 個の入力データ $x = (1,x_1,\ldots,x_L) \in \mathbb{R}^{L+1}$ ($x$ は縦ベクトル)および $1$ 個の出力 $y \in \mathbb{R}$ との関係が, 重みと呼ばれる横ベクトル $u = (u_0, u_1, \ldots, u_L) \in \mathbb{R}^{L+1}$ と 活性化関数 $f$ によって, \begin{align} y &= f(ux) = f(u_0 + u_1 x_1 + \cdots +x_L u_L) \tag{2.5} \label{eq2.5} \end{align} と書けるものをパーセプトロンという.


誤差逆伝播法Ⅰ

単純パーセプトロンの活性化関数はそのままとし, 教師データから重みのみを更新することを考える. 今、具体的な入力データ $x^{(0)} = (1, x_1^{(0)}, \cdots , x_L^{(0)})$ があり, その出力を $y^{(0)}$, 正解が $r^{(0)}$ とする. 誤差関数 \begin{align} E(u) &= \frac{1}{2} (r^{(0)} - y^{(0)})^2 = \frac{1}{2} \left( r^{(0)} - f(ux^{(0)})\right)^2 \tag{2.6} \label{eq2.6} \end{align} が最小に近づくように重み $u$ を決定しよう. 修正前の重みを $u$, 修正後の重みを $u + \Delta u$ とする. 確率的勾配降下法により $0 \leq l \leq L$ として, \begin{align} \Delta u_l &= - \eta \frac{\partial E}{\partial u_l} \\ &= - \eta \frac{\partial E}{\partial y} \frac{\partial y}{\partial u_l} \tag{2.7} \label{eq2.7}\\ &= \eta (r^{(0)} - y^{(0)}) \hat{f}(y^{(0)})x_l^{(0)} \end{align} となる. ただし, $x_0^{(0)} = 1$ とする.