(Q学習、SARSA、DQN、DDPG)
強化学習 (RL、以下 RL) は、エージェントが前のアクションを評価するために、次のタイム ステップで遅延報酬を受け取るタイプの機械学習方法を指します。主にゲーム (アタリ、マリオなど) で使用され、人間と同等またはそれ以上のパフォーマンスを発揮しました。最近、アルゴリズムがニューラル ネットワークと組み合わせて開発されると、より複雑な問題を解決することができます。
OP アルゴリズムは数多く存在するため、それらすべてを互いに比較することはできません。したがって、この記事では、いくつかのよく知られたアルゴリズムについてのみ簡単に説明します。
1. 強化学習
典型的な OP には、エージェントと環境という 2 つのコンポーネントがあります。
– , ( ), . , (state = s) , , , (action = a ) . (state’ = s’) (reward = r) , , . , .
. , , .
:
1. Action (A, a): , ()
2. State (S,s):
3. Rewrd (R,r): ,
4. Policy (π ): - , , (a’) .
5. Value (V) Estimate (E) : () , R, Eπ(s) , s. ( Value – , Estimate – , E – . . )
6. Q-value (Q): Q V, , a ( ). Qπ(s, a) π s a
. T(s1|(s0, a)) S0 a S1 . , , , a . , , (S*S*A )
, . / .
2.
2.1. Q-learning
Q-learning , :
Q-value:
Q, Q*, :
, Q-. Q-value, , Q-learning.
.
V « » . , , (action – a), V (). . .
(V)
, V, .
, , .
, p, , . , , , , . Q-Learning ?
a () (.. ) Q-learning (v). . (p).
, a’ Q- , . Q-learning (off-Policy).
2.2. State-Action-Reward-State-Action (SARSA)
SARSA Q-learning. SARSA Q-learning , (on-policy). , SARSA Q , , .
Q
Q-learning: Q(st,at)←Q(st,at)+α[rt+1+γmaxaQ(st+1,a)−Q(st,at)]
SARSA: Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]
at+1 – st+1 .
, , Q- learning Q-, , a, Q- Q (st + 1, a).
SARSA (, epsilon-greedy), a, , a + 1, Q- , Q (st + 1, at+1). ( SARSA, State-Action-Reward-State-Action).
, SARSA – on-policy , +1. , Q-.
Q-learning , a, , a s , a, Q (st+1, a). , Q-learning (, , ), Q
, , . , Q-learning , Q . , SARSA - , (on-policy).
2.3. Deep Q Network (DQN)
Q-learning - , - . Q- learning, ( * (action space * state space)), . , , Q-Learning , , . , Q-Learning . , DQN , .
DQN Q-. , - Q .
2013 DeepMind DQN Atari, . . , . Q- , .
: ?
, Q-learning. , Q Q-learning:
φ s, θ , . , Q Q .
DQN:
1. : (RL) , . . , , « » .
2. : Q , , . C, , . , , .
2.4. Deep Deterministic Policy Gradient (DDPG)
DQN , Atari, - . , , , . , . , , 10. 4 . 4¹⁰ = 1048576 . , .
DDPG «-» - . ? , .
(TD)
u . ? ! Q-learning. TD-learning – . Q-learning TD-learning Q
DDPG DQN. DDPG , . (action).
, , , OpenAI.