言語、音楽、ビデオなど、順番に整理されたデータを理解することは、特にそれを取り巻くコンテキストに大きく依存している場合は困難です。たとえば、人や物がビデオの視野から消えて、かなりの時間が経過した後に再び現れる場合、多くのモデルは彼がどのように見えたかを忘れます。言語処理の分野では、長期短期記憶（LSTM）ニューラルネットワークは、文ごとに正常に翻訳するのに十分なコンテキストを提供します。この場合、コンテキストウィンドウ（つまり、モデルが翻訳時に考慮に入れるデータの範囲）には、10〜100語を含めることができます。新しいトランスフォーマーモデル連続翻訳の品質を向上させるだけでなく、複数のドキュメントを要約することでWikipediaの記事全体を生成するために使用できます。これは、Transformerがコンテキストウィンドウを1000ワードに拡大したために可能です。さらに、検討中のこのような幅広いコンテキストにより、Transformerを使用して、テキストだけでなく、ピクセルや音符も処理できます。これに基づいて、画像や音楽を生成できます。