各種強化学習アルゴリズム（Q-Learning、SARSA、DQN、DDPG）の紹介

(Q学習、SARSA、DQN、DDPG)

強化学習 (RL、以下 RL) は、エージェントが前のアクションを評価するために、次のタイムステップで遅延報酬を受け取るタイプの機械学習方法を指します。主にゲーム (アタリ、マリオなど) で使用され、人間と同等またはそれ以上のパフォーマンスを発揮しました。最近、アルゴリズムがニューラルネットワークと組み合わせて開発されると、より複雑な問題を解決することができます。

OP アルゴリズムは数多く存在するため、それらすべてを互いに比較することはできません。したがって、この記事では、いくつかのよく知られたアルゴリズムについてのみ簡単に説明します。

1. 強化学習

典型的な OP には、エージェントと環境という 2 つのコンポーネントがあります。

– , ( ), . , (state = s) , , , (action = a ) . (state’ = s’) (reward = r) , , . , .

. , , .

:

1. Action (A, a): , ()

2. State (S,s):

3. Rewrd (R,r): ,

4. Policy (π ): - , , (a’) .

5. Value (V) Estimate (E) : () , R, Eπ(s) , s. ( Value – , Estimate – , E – . . )

6. Q-value (Q): Q V, , a ( ). Qπ(s, a) π s a

* MCTS (モンテカルロタイムステップモデル)、オンポリシー (エージェントがポリシーに含まれるアルゴリズム、つまり、現在のポリシーから派生したアクションに基づいて学習する)、オフポリシー (エージェントは、他のポリシーから受け取ったアクションに基づいて学習します)方針 — * MCTS (- ), on-policy (, , .. , ), off-policy ( ,

. T(s₁|(s₀, a)) S₀ a S₁. , , , a . , , (S*S*A )

, . / .

2.

2.1. Q-learning

Q-learning , :

上式の E は期待値、 は割引係数です。 — E ,  - .

Q-value:

Q, Q*, :

, Q-. Q-value, , Q-learning.

.

V « » . , , (action – a), V (). . .

(V)

, V, .

, , .

, p, , . , , , , . Q-Learning ?

a () (.. ) Q-learning (v). . (p).

, a’ Q- , . Q-learning (off-Policy).

2.2. State-Action-Reward-State-Action (SARSA)

SARSA Q-learning. SARSA Q-learning , (on-policy). , SARSA Q , , .

Q

Q-learning: Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+1+γmaxaQ(s_t₊₁,a)−Q(s_t,a_t)]

SARSA: Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+1+γQ(s_t+1,a_t+1)−Q(s_t,a_t)]

a_t+1– s_t+1 .

, , Q- learning Q-, , a, Q- Q (s_{t + 1}, a).

SARSA (, epsilon-greedy), a, , a + 1, Q- , Q (s_{t + 1}, a_t+1). ( SARSA, State-Action-Reward-State-Action).

, SARSA – on-policy , +1. , Q-.

Q-learning , a, , a s , a, Q (s_t₊₁, a). , Q-learning (, , ), Q

, , . , Q-learning , Q . , SARSA - , (on-policy).

2.3. Deep Q Network (DQN)

Q-learning - , - . Q- learning, ( * (action space * state space)), . , , Q-Learning , , . , Q-Learning . , DQN , .

DQN Q-. , - Q .

2013 DeepMind DQN Atari, . . , . Q- , .

: ?

, Q-learning. , Q Q-learning:

φ s, θ , . , Q Q .

DQN:

1. : (RL) , . . , , « » .

2. : Q , , . C, , . , , .

2.4. Deep Deterministic Policy Gradient (DDPG)

DQN , Atari, - . , , , . , . , , 10. 4 . 4¹⁰ = 1048576 . , .

DDPG «-» - . ? , .

(TD)

u . ? ! Q-learning. TD-learning – . Q-learning TD-learning Q

DDPG DQN. DDPG , . (action).

左側はアクションにノイズが追加され、右側はパラメータに追加されます。 — ,

, , , OpenAI.

All Articles