ねえ!私の名前はドミトリーです。最近AAMAS(A *)会議に参加した、私たちの記事「協調的競争環境における合理的およびその他の選好のバランス」についてお話ししたいと思います。
このホワイトペーパーでは、エージェントのグループをトレーニングして、互いに干渉したり助け合ったりすることなく、混合環境で独自の目標を達成する方法を探ります。いくつかの既存のソリューションを分析し、独自のソリューションを提供しました。投稿は高レベルであることが判明しました。技術的な詳細は記事にあります。
私たちは誰ですか
私の名前はドミトリー・イワノフです。サンクトペテルブルクHSEの経済学の3年生です。私はJetBrainsResearchのエージェントシステムと強化学習グループ、およびHSEのゲーム理論と意思決定のための国際研究所で働いています。
, 1 “ ” — -, , . JetBrains Research, -- .
, : , . , . — (. 1).
. , : , . , 3 . , 2 . , , , 4 . : , , .. . .
— , (Peysakhovich and Lerer, 2017). , . . , — ‘Cooperate’ ‘Defect’. , . Sequential Social Dilemma (Leibo et al., 2017), , , .
, , — ( , ?) , . , ? : ?
: , (Rashid et al., 2018). : , . . (SW = Social Welfare):
SW , , , (). — , . , . “” ? (. 1). , , Defect-Cooperate Cooperate-Cooperate: 4 , , ! , , SW , — , . , ,
, : , VDN, QMIX, COMA . , credit assignment reward disentanglement — , . — . SW , SW — . — , , .
Cooperative Reward Shaping
— , , . , , , λ:
( ) (Peysakhovich and Lerer, 2017; Lerer and Peysakhovich, 2019; Durugkar et al., 2020), , Cooperative Reward Shaping (CRS). . , “ ”. , , credit assignment. , .
, : , credit assignment . : , , — . , . , — — . — QMIX COMA!
? , . , . , SW -, . . , , BAROCCO — ?
. , — Eldorado (. 2). . — 1000 , +1. , -1. , . , . , .
:
BAROCCO : selfish ( ), CRS ( ), COMA ( + credit assignment, ). , . , .
BAROCCO , .. λ. , , .
. 3. Eldorado. — . CRS BAROCCO λ=1 , . Selfish - , λ=0, BAROCCO CRS . — λ BAROCCO. — , — , . — .
:
BAROCCO ( ), 1000 2000 . , ( ) , : , . , , . , .
BAROCCO , , . , , - .
CRS COMA . Eldorado , . - , ( 1000 ), , , . , , .
, λ ( ) . 0.5. .
λ. , , -, ( ), -, — . , . , reciprocity (), (Eccles et al., 2019; Lerer and Peysakhovich, 2019). , , . , .
: . , , . , , , , .