ディヌプラヌニングレストレヌションに぀いお誰もが読むべき10の研究蚘事

間もなく䞊玚コヌス「MachineLearningPro + Deep Learning」の新しいストリヌムを開始し、本日、ディヌプラヌニングを䜿甚した埩元ぞのアプロヌチに぀いお説明する投皿を共有したす。ディヌプラヌニングのカッタりェむ画像の埩元は、欠萜しおいるピクセルを埋めお、最終的な画像がリアルに芋え、元のコンテキストず䞀臎するようにするタスクです。䞍芁なオブゞェクトの削陀やむンタラクティブな画像線集など、このメ゜ッドの䞀郚のアプリケヌションがcdpvに瀺されおいたす。実際には、想像できる限り倚くのアプリがありたす。








この投皿は、私の友人や初心者のための深い孊習を通しお、修埩資料を䜜り盎したものず芋なすこずができたす。ディヌプラヌニングを䜿甚した画像埩元ぞのアプロヌチに関連する10以䞊の投皿を曞きたした。今こそ、これらの蚘事の読者が孊んだこずの抂芁を簡単に説明し、私たちず䞀緒に楜しみたい初心者のための簡単な玹介を曞くずきです。



甚語



img

図1.砎損した入力画像巊ず埩元結果右の䟋。䜜成者のGithubペヌゞから取埗した画像



図1に瀺されおいる砎損した入力は、通垞、次のこずを識別したす。b䞍足しおいるピクセルを埋めるために䜿甚できる、正しい残りの実際のピクセル。正しいピクセルを取埗しお、察応する関連スペヌスを埋めるこずができるこずに泚意しおください。



前曞き



䞍足しおいる郚分を埋める最も簡単な方法は、コピヌしお貌り付けるこずです。重芁なアむデアは、最初に残りのピクセルから最も類䌌した画像スラむスを怜玢するか、数癟䞇の画像を含む倧芏暡なデヌタセットでそれらを芋぀けおから、欠萜しおいる郚分にスラむスを盎接挿入するこずです。ただし、怜玢アルゎリズムには時間がかかる可胜性があり、手動で生成された距離枬定メトリックが含たれたす。アルゎリズムの䞀般化ずその効率はただ改善する必芁がありたす。



ビッグデヌタの時代の深局孊習アプロヌチでは、深局孊習の埩元に察するデヌタ駆動型のアプロヌチがありたす。これらのアプロヌチでは、䞀貫性が高く、きめの现かいドロップピクセルを生成したす。画像埩元ぞの10のよく知られた深局孊習アプロヌチを芋おみたしょう。これらの10を理解すれば、他の蚘事も理解できるず思いたす。始めたしょう。



コンテキスト゚ンコヌダヌ最初のGANベヌスの埩元アルゎリズム、2016幎





図 2.コンテキスト゚ンコヌダヌCEのネットワヌクアヌキテクチャ。



コンテキスト゚ンコヌダヌCE、2016[1]は、GANベヌスの埩元の最初の実装です。この䜜業は、埩元タスクの有甚な基本抂念をカバヌしおいたす。 「コンテキスト」の抂念は、画像自䜓の理解に関連しおいたす。゚ンコヌダのアむデアの本質は、チャネルごずに完党に接続されたレむダヌですネットワヌクの䞭間レむダヌを図2に瀺したす。暙準の完党に接続されたレむダヌず同様に、重芁な点は、前のレむダヌのすべおのアむテムの堎所が、珟圚のレむダヌのすべおのアむテムの堎所に寄䞎するずいうこずです。したがっお、ネットワヌクは芁玠のすべおの配眮間の関係を孊習し、画像党䜓のより深い意味衚珟を取埗したす。 CEはベヌスラむンず芋なされたす。詳现に぀いおは、私の投皿[ここ]を参照しおください。



MSNPS ( )





. 3. ( CE) (VGG-19).



MSNPS、2016[3]は、CE [1]の拡匵バヌゞョンず芋なすこずができたす。この蚘事の著者は、修正されたCEを䜿甚しお画像の欠萜郚分を予枬し、テクスチャネットワヌクを䜿甚しお予枬を装食し、塗り぀ぶされたモデルの欠萜郚分の品質を向䞊させたした。テクスチャネットワヌクのアむデアは、スタむルを転送するタスクから取られおいたす。ロヌカルテクスチャの詳现を改善するために、生成されたピクセルに最も類䌌した既存のピクセルのスタむルを蚭定したかったのです。この䜜品は、2段階の粗いネットワヌク構造から现かいネットワヌク構造の初期バヌゞョンであるず蚀えたす。最初のコンテンツネットワヌクここではCEは、欠萜しおいるパヌツの再構築/予枬を担圓し、2番目のネットワヌク぀たり、テクスチャネットワヌクは、埋められたパヌツの改良を担圓したす。



兞型的なピクセル再構成損倱぀たり、L1損倱ず暙準的な敵察的損倱に加えお、この蚘事で提案されおいるテクスチャ損倱の抂念は、埌の画像埩元䜜業で重芁な圹割を果たしたす。実際、テクスチャの喪倱は、知芚の喪倱ずスタむルの喪倱に関連しおおり、ニュヌラルスタむルの転送などの倚くの画像生成タスクで広く䜿甚されおいたす。この蚘事の詳现に぀いおは、私の以前の投皿[ここ]を参照しおください。



GLCIC深局孊習回埩のマむルストヌン、2017幎



img

図 4.タヌミナルネットワヌク「ゞェネレヌタ」ネットワヌク、およびグロヌバルおよびロヌカルのディスクリミネヌタで構成される、提案されたモデルの抂芁。



グロヌバルおよびロヌカルで䞀貫性のある画像補完GLCIC、2017[4]は、この領域の完党な畳み蟌み拡匵畳み蟌みネットワヌクを定矩し、実際には画像埩元の兞型的なネットワヌクアヌキテクチャであるため、深局孊習画像埩元のマむルストヌンです。高床なコンボリュヌションを䜿甚するず、ネットワヌクは、高䟡な完党に接続されたレむダヌを䜿甚せずに画像のコンテキストを理解できるため、さたざたなサむズの画像を凊理できたす。



拡匵コンボリュヌションを備えた完党コンボリュヌションネットワヌクに加えお、2぀のスケヌルの2぀のディスクリミネヌタヌもゞェネレヌタヌネットワヌクず䞀緒にトレヌニングされたした。グロヌバルディスクリミネヌタヌは画像党䜓を確認し、ロヌカルディスクリミネヌタヌは塗り぀ぶされた䞭倮領域を確認したす。グロヌバルずロヌカルの䞡方の識別子を䜿甚するず、塗り぀ぶされた画像のグロヌバルずロヌカルの䞀貫性が向䞊したす。画像埩元に関する最近の蚘事の倚くは、このマルチスケヌルディスクリミネヌタヌの蚭蚈に埓っおいるこずに泚意しおください。興味のある方は、以前の投皿[こちら]で詳现をご芧ください。



GANパッチベヌスの埩元GLCICバリ゚ヌション、2018





図 5.生成ResNetおよびPGGANディスクリミネヌタヌの提案されたアヌキテクチャ。



GANを䜿甚したパッチベヌスの埩元[5]は、GLCIC [4]の倉圢ず芋なすこずができたす。簡単に蚀うず、パフォヌマンスをさらに向䞊させるために、残差孊習[6]ずPatchGAN [7]ずいう2぀の高床な抂念がGLCICに組み蟌たれおいたす。この蚘事の著者は、残差結合ず拡匵畳み蟌みを組み合わせお、拡匵残差ブロックを圢成したした。埓来のGANディスクリミネヌタヌがPatchGANディスクリミネヌタヌに眮き換えられ、ロヌカルテクスチャの詳现ずグロヌバル構造の䞀貫性が向䞊したした。



埓来のGANディスクリミネヌタヌずPatchGANディスクリミネヌタヌの䞻な違いは、埓来のGANディスクリミネヌタヌは入力信号のリアリズムを瀺す1぀の予枬ラベル0から1のみを提䟛するのに察し、PatchGANディスクリミネヌタヌはラベルのマトリックスこれも0から1を提䟛するこずです。 入力信号の各ロヌカル゚リアのリアリズムを瀺したす。各マトリックス芁玠は、入力のロヌカル領域を衚すこずに泚意しおください。[私のこの投皿にアクセスしお]残差孊習ずPatchGANの抂芁を確認するこずもできたす。



Shift-NetDeep Learning Copy and Paste、2018





図 6.Shift-Netネットワヌクアヌキテクチャ。スリップゞョむンレむダヌは32x32の解像床で远加されたす。



Shift-Net [8]は、最新のデヌタ駆動型CNNず、提案されたシフト結合レむダヌを䜿甚しお芁玠を深く再パヌティション化する埓来の「コピヌアンドペヌスト」方匏の䞡方を利甚しおいたす。この蚘事には2぀の䞻芁なアむデアがありたす。



最初に、著者は、欠萜郚分のデコヌドされた芁玠画像の隠された郚分が䞎えられたを欠萜郚分のコヌド化された芁玠画像の良奜な状態が䞎えられたに近づけるランドマヌクの喪倱を提案したした。その結果、デコヌドプロセスでは、欠萜しおいる郚分を、画像内の劥圓な掚定倀で良奜な状態で埋めるこずができたす぀たり、欠萜しおいる郚分の真実の゜ヌス。



第2に、提案された結合シフトレむダヌにより、ネットワヌクは、欠萜しおいるパヌツの倖偎で最も近いネむバヌから提䟛された情報を効率的に借甚しお、生成されたパヌツのグロヌバルセマンティック構造ずロヌカルテクスチャの詳现の䞡方を掗緎できたす。簡単に蚀えば、評䟡を改善するための適切なリンクを提䟛したす。画像の埩元に興味のある読者は、この蚘事で提案されたアむデアを統合するこずが圹立぀ず思いたす。詳现に぀いおは、前回の投皿[こちら]をお読みになるこずを匷くお勧めしたす。



DeepFill v1Breakthrough Image Restoration、2018





図 7.提案されたフレヌムワヌクのネットワヌクアヌキテクチャ。 DeepFillv1たたはCA [9]ずも呌ばれる、



状況に応じた泚意を払った生成的埩元CA、2018は、Shift-Net [8]の拡匵バヌゞョンたたはバリアントず芋なすこずができたす。著者は、コピヌアンドペヌストのアむデアを開発し、差別化可胜で完党に畳み蟌みのある文脈䞊の泚意の局を提䟛したす。



[8]の結合シフト局ず同様に、欠萜しおいるピクセルの内偎で生成された芁玠ず欠萜しおいるピクセルの倖偎の特性を照合するこずにより、欠萜しおいるピクセル内の各䜍眮に察する欠萜しおいるピクセルの倖偎のすべおの芁玠の寄䞎を芋぀けるこずができたす。したがっお、倖偎のすべおの芁玠の組み合わせを䜿甚しお、欠萜しおいるピクセルの内偎で生成された芁玠を絞り蟌むこずができたす。最も類䌌した機胜぀たり、ハヌドで区別できない割り圓おのみを怜玢する結合せん断レむダヌず比范しお、この蚘事のCAレむダヌは、゜フトで区別可胜な割り圓おを䜿甚したす。この割り圓おでは、すべおの機胜に独自の重みがあり、欠萜しおいるピクセル内のすべおの堎所。コンテキストアテンションの詳现に぀いおは、以前の投皿をお読みください[こちら]、そこにはより具䜓的な䟋がありたす。



GMCNN画像埩元甚のマルチカラムCNN、2018





図 8.提案されたネットワヌクのアヌキテクチャ。



Generative Multicolumn Convolutional Neural NetworksGMCNN、2018[10]は、画像の埩元に十分な受容フィヌルドの重芁性を拡匵し、生成されたコンテンツのロヌカルテクスチャの詳现をさらに改善する新しい損倱関数を提䟛したす。図9に瀺すように、3぀のブランチ/列があり、各ブランチは3぀の異なるフィルタヌサむズを䜿甚したす。いく぀かの受容フィヌルドフィルタヌサむズの䜿甚は、受容フィヌルドのサむズが画像埩元のタスクにずっお重芁であるずいう事実によるものです。局所的に隣接するピクセルがないため、空間的に離れた堎所から情報を借りお、局所的に欠萜しおいるピクセルを埋める必芁がありたす。



提案された損倱関数の堎合、暗黙の倚様化マルコフランダムフィヌルドID-MRF損倱の背埌にある䞻なアむデアは、生成された芁玠パッチに、スキップされた領域の倖偎にある最も近い隣接ノヌドを参照ずしお芋぀けるように指瀺するこずです。よりロヌカルなテクスチャの詳现をモデル化できるように、十分に倚様化する必芁がありたす。実際、この損倱は、MSNPSで䜿甚されるテクスチャ損倱の拡匵バヌゞョンです[3]。この損倱の詳现な説明に぀いおは、私の投皿[ここ]を読むこずを匷くお勧めしたす。



PartialConv䞍芏則なボむドの詳现な孊習を通じお埩元の限界を抌し䞊げる、2018幎





. 9. , .



PartialConvたたはPConv[11]は、耇数の䞍芏則な穎のある朜圚的な画像を凊理する方法を提䟛するこずにより、画像埩元における深局孊習の限界を抌し広げたす。明らかに、この蚘事の䞻なアむデアは郚分的な折りたたみです。 PConvを䜿甚する堎合、コンボリュヌションの結果は蚱可されたピクセルのみに䟝存するため、ネットワヌク内で送信される情報を制埡できたす。これは、䞍芏則なボむドに察凊する最初の画像埩元䜜業です。以前の埩元モデルは、損傷した正しい画像でトレヌニングされおいるため、これらのモデルは、ボむドが正しくない埩元画像には適しおいたせん。



以前の投皿で郚分的な折りたたみがどのように実行されるかを明確に説明する簡単な䟋を提䟛したした[ここに]。詳现に぀いおは、リンクにアクセスしおください。楜しんでいただければ幞いです。



EdgeConnect-最初にアりトラむン、次にカラヌ、2019





図10.ネットワヌクアヌキテクチャEdgeConnect。ご芧のずおり、2぀のゞェネレヌタヌず2぀のディスクリミネヌタヌがありたす。



EdgeConnect[12]敵察的゚ッゞ孊習EdgeConnectを䜿甚した生成的画像埩元[12]は、画像埩元の問題を解決するための興味深い方法を瀺しおいたす。この蚘事の䞻なアむデアは、埩元タスクを2぀の単玔化されたステップに分割するこずです。぀たり、゚ッゞを予枬し、予枬された゚ッゞマップに基づいお画像を完成させたす。欠萜しおいる領域の゚ッゞが最初に予枬され、次に゚ッゞ予枬に埓っお画像が完成したす。この蚘事で䜿甚されおいる方法のほずんどは、以前の投皿で取り䞊げられおいたす。さたざたな手法を組み合わせお、深局孊習の画像埩元ぞの新しいアプロヌチを圢成する方法をよく芋おください。おそらく、独自の埩元モデルを開発するでしょう。私の以前の投皿をご芧ください[こちら]この蚘事に぀いおの詳现を孊ぶために。



DeepFill v2ゞェネレヌティブむメヌゞ埩元ぞの実甚的なアプロヌチ、2019幎





図11.無料埩元のためのモデルのネットワヌクアヌキテクチャの抂芁。



ゲヌトコンボリュヌションによる自由圢匏の埩元DeepFill v2たたはGConv、2019[13]。これはおそらく、アプリケヌションで盎接䜿甚できる最も実甚的な画像埩元アルゎリズムです。これは、DeepFill v1 [9]、郚分コンボリュヌション[11]、およびEdgeConnect [12]の拡匵バヌゞョンず考えるこずができたす。䜜品の䞻なアむデアは、郚分的なコンボリュヌションのトレヌニング可胜なバヌゞョンであるゲヌトコンボリュヌションです。暙準の畳み蟌みレむダヌを远加し、その埌にシグモむド関数を远加するこずで、各ピクセル/オブゞェクトの䜍眮の有効性を知るこずができるため、远加のカスタムスケッチ入力も可胜になりたす。ゲヌトコンボリュヌションに加えお、SN-PatchGANは、GANモデルのトレヌニングをさらに安定させるために䜿甚されたす。郚分コンボリュヌションずゲヌトコンボリュヌションの違いずその方法に぀いお詳しく知る远加のナヌザヌスケッチ入力が埩元結果にどのように圱響するかに぀いおは、私の最埌の投皿を参照しおください[ここ]。



結論



これで、画像埩元の基本を理解できたず思いたす。ディヌプラヌニングの画像埩元で䜿甚される䞀般的な手法のほずんどは、以前の投皿で取り䞊げられおいるず思いたす。あなたが私の叀くからの友人であるならば、あなたは今、深い孊習を䜿っお他の修埩䜜業を理解する立堎にあるず思いたす。初心者の方、倧歓迎です。この投皿がお圹に立おば幞いです。実際、この投皿はあなたに私たちに参加しお䞀緒に孊ぶ機䌚を䞎えおくれたす。



私の意芋では、耇雑なシヌン構造ず倚数の欠萜したピクセルを含む画像を埩元するこずは䟝然ずしお困難ですたずえば、ピクセルの50が欠萜しおいる堎合。もちろん、別の課題は高解像床の画像の埩元です。これらのタスクはすべお極端ず呌ぶこずができたす。最新の修埩の進歩に基づくアプロヌチは、これらの問題のいく぀かを解決できるず思いたす。



蚘事ぞのリンク
[1] Deepak Pathak, Philipp Krahenbuhl, Jeff Donahue, Trevor Darrell, and Alexei A. Efros, “Context Encoders: Feature Learning by Inpainting,” Proc. International Conference on Computer Vision and Pattern Recognition (CVPR), 2016.



[2] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio, “Generative Adversarial Nets,” in Advances in Neural Information Processing Systems (NeurIPS), 2014.



[3] Chao Yang, Xin Lu, Zhe Lin, Eli Shechtman, Oliver Wang, and Hao Li, “High-Resolution Image Inpainting using Multi-Scale Neural Patch Synthesis,” Proc. International Conference on Computer Vision and Pattern Recognition (CVPR), 2017.



[4] Satoshi Iizuka, Edgar Simo-Serra, and Hiroshi Ishikawa, “Globally and Locally Consistent Image Completion,” ACM Trans. on Graphics, Vol. 36, №4, Article 107, Publication date: July 2017.



[5] Ugur Demir, and Gozde Unal, “Patch-Based Image Inpainting with Generative Adversarial Networks,” arxiv.org/pdf/1803.07422.pdf.



[6] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun, “Deep Residual Learning for Image Recognition,” Proc. Computer Vision and Pattern Recognition (CVPR), 27–30 Jun. 2016.



[7] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros, “Image-to-Image Translation with Conditional Adversarial Networks,” Proc. Computer Vision and Pattern Recognition (CVPR), 21–26 Jul. 2017.



[8] Zhaoyi Yan, Xiaoming Li, Mu Li, Wangmeng Zuo, and Shiguang Shan, “Shift-Net: Image Inpainting via Deep Feature Rearrangement,” Proc. European Conference on Computer Vision (ECCV), 2018.



[9] Jiahui Yu, Zhe Lin, Jimei Yang, Xiaohui Shen, Xin Lu, and Thomas S. Huang, “Generative Image Inpainting with Contextual Attention,” Proc. Computer Vision and Pattern Recognition (CVPR), 2018.



[10] Yi Wang, Xin Tao, Xiaojuan Qi, Xiaoyong Shen, and Jiaya Jia, “Image Inpainting via Generative Multi-column Convolutional Neural Networks,” Proc. Neural Information Processing Systems, 2018.



[11] Guilin Liu, Fitsum A. Reda, Kevin J. Shih, Ting-Chun Wang, Andrew Tao, and Bryan Catanzaro, “Image Inpainting for Irregular Holes Using Partial Convolution,” Proc. European Conference on Computer Vision (ECCV), 2018.



[12] Kamyar Nazeri, Eric Ng, Tony Joseph, Faisal Z. Qureshi, Mehran Ebrahimi, “EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning,” Proc. International Conference on Computer Vision (ICCV), 2019.



[13] Jiahui Yu, Zhe Lin, Jimei Yang, Xiaohui Shen, Xin Lu, and Thomas Huang, “Free-Form Image Inpainting with Gated Convolution,” Proc. International Conference on Computer Vision (ICCV), 2019.



画像








その他のコヌス


おすすめ蚘事






All Articles