数年前、私のリーディングリストにGAN Progress and Evolution to Improve Quality、Stability、and Variationと呼ばれる記事がありました。それは、低解像度の画像から始まり、学習が進むにつれて粒度が増加した、生成的な敵対的なネットワークの漸進的な成長について説明しています。著者がアイデアを使用して、人間の顔のリアルでユニークなイメージを作成したため、多くの出版物がこのトピックに専念しています。
GANが生成したサンプル画像
これらの画像を見ると、他のニューラルネットワークは、GANが生成するものを作成するために多くの例を研究する必要があるようです。いくつかの要因は、比較的単純で実際に根拠があるように見えます。たとえば、両目の色が一致している必要があります。しかし、他の側面は非常に複雑であり、明確にすることは非常に困難です。それでは、たとえば、目、口、皮膚を完全な顔の画像に結び付けるにはどのような詳細が必要ですか?もちろん、私は人としての統計マシンについて話しているのですが、私たちの直感は私たちをだますことができます-作業上のばらつきが比較的少なく、解空間が想像よりも制限されていることがわかるかもしれません。おそらく最も興味深いのは、画像自体ではなく、画像が私たちに与える恐ろしい影響です。
しばらくして、私のお気に入りのポッドキャストでは、動物、植物、その他の生物のシルエット画像のデータベースであるPhyloPicについて触れました。これらの線を反映して、私は疑問に思いました-同様のデータの非常に多様なセットについての記事「プログレッシブGAN」で説明されているようなシステムをトレーニングするとどうなりますか?結局、いくつかの既知の種類の動物の多くの種類になってしまうのでしょうか、それとも、ニューラルネットワークによって駆動される投機的動物学を生み出す多くのバリエーションがあるのでしょうか。どんなにうまくいったとしても、これから書斎の壁に良い絵を描くことができると確信していたので、自分の好奇心を実験で満たすことにしました。
Progressive GAN記事のコード を適合させ、Google Cloud(8 NVIDA K80 GPU)とPhyloPicデータセット全体を使用して、12,000回の反復でモデルをトレーニングしました。いくつかのミスと実験を含む総トレーニング時間は4日でした。最終的なトレーニング済みモデルを使用して50Kの個別の画像を作成し、結果の確認、分類、フィルタリング、画像の照合に何時間も費やしました。また、画像の一部を少し調整し、すべての生き物が同じ方向を向くように回転させました(視覚的に満足させるため)。この実践的なアプローチは、以下に示すものが私とニューラルネットワークの間の一種のコラボレーションであることを意味します。これは創造的な作業であり、私は自分で編集しました。
私を驚かせた最初のことは、結果がどれほど美的に楽しいかでした。これの多くは、確かに元のイメージを作成したアーティストのセンスが良いことを反映しています。しかし、嬉しい驚きもありました。たとえば、ニューラルネットワークが不確実性のある領域に入ると、それはまだ習得していない小さな断片であろうと、不鮮明な生物学的ファンタジーの飛行であろうと、画像に色収差が現れるようです。入力セットが完全に白黒であるため、これは奇妙です。つまり、モデルをトレーニングするときに採用された生成上の問題を色で解決することはできません。どの色もマシンマインドの純粋なアーティファクトです。驚いたことに、常に色収差を引き起こす要因の1つは、飛んでいる昆虫の羽です。これは事実につながりますモデルは、上記のような鮮やかな色の「蝶」の何百ものバリエーションを生成します。これが有用な観察になるのではないかと思います。グレースケール画像のみを使用してモデルをトレーニングし、それでもフルカラー画像を出力する必要がある場合、カラースポットは、モデルがトレーニングセットを正確に表示できない領域を示すのに役立つ方法です。
出力の大部分は、鳥、さまざまなテトラポッド、多くの優雅な肉食恐竜、トカゲの脚、魚、カブトムシ、クモ形類、およびヒューマノイドなど、完全に認識できるさまざまなシルエットです。
鳥
四足
恐竜
うお座
カブトムシ
ヒト科
変なこと
私たちが知っている生き物が終わるとすぐに、私たちはなじみのないことに直面します。私に来た質問の1つはこれでした:自然には存在しない動物のもっともらしい体の計画(おそらく、入力データセットに含まれる生き物のハイブリッド)はありますか?注意深く調査し、小さなパレイドリアを通して、私は何百もの4本足の鳥、ヘビ頭のシカ、および他の素晴らしいモンスターを発見しました。
モンスターが
さらに曖昧になっていくと、モデルは奇妙な抽象的なパターンと特定できないエンティティを生み出し、「生き生き」の感覚を生み出しました。識別できない
抽象的な生き物
無作為抽出
上の画像では見えないのは、結果の豊富なバリエーションです。私はこれらの画像のセットのいくつかを印刷して額装しましたが、何百もの小さな詳細な画像を並べて並べた効果は、驚くほど素晴らしいものです。完全なデータセットの規模をある程度理解するために、以下の印刷例の1つを含めます。これは、フィルター処理されていない画像のコーパスからのランダムなサンプルです。
SkillFactoryの有料オンラインコースを受講して、スキルと給与の注目の職業をゼロから取得する方法の詳細をご覧ください。
- 機械学習コース(12週間)
- データサイエンスの専門職をゼロからトレーニングする(12か月)
- 初心者レベルの分析職(9か月)
- «Python -» (9 )