Bioinformatistsは、人間の言語をシミュレートするように設計されたアルゴリズムを使用して、ウイルスがどのように進化して免疫系を防御するかを予測しました。
コピーが正しくありません
ウイルスはかなり原始的な循環的存在を導きます。彼らは細胞に侵入し、その生殖メカニズムの一種のハッキングを実行し、彼ら自身の種類のコピー機を作成します。ウイルスのレプリカは、同じ目的で全身に広がります。それは、捕獲して鎮圧することです。など、無限に続きます。
このコピー&ペーストのシーケンスでは、何かがうまくいかないことがよくあります。コピー中に失敗すると、突然変異が発生します。時々、突然変異は重要なタンパク質またはアミノ酸の欠如に関係します-そのような不運なウイルスは進化の歴史のゴミ箱に送られます。突然変異が何にも影響を与えない場合もあります。用語がタンパク質のシーケンスに再配置されても、合計は変化しません。
しかし、時々、突然変異はウイルスの手に作用します。発生した変更は、ウイルスが健康な細胞を捕捉し続けることを妨げるだけでなく、より効率的に捕捉するのにも役立ちます。突然変異は、ウイルスを人の免疫防御のために認識できないようにする可能性があります。そのような侵入者は、病気やワクチン接種を受けた人々で開発された抗体をなんとか回避するか、「逃げる」ことができます。
科学者は常に潜在的なウイルスエスケープの試みに目を光らせています。これはSARS-CoV-2にも当てはまります。新しい菌株が出現し、科学者はこれらの変更が既存のワクチンにとってどれほど重要であるかを調査しています(PSこれまでのところ、すべてが順調です)。最も難しいのは、インフルエンザウイルスとHIVの研究者にとって、何よりも私たちの体の免疫防御を「逃れる」ことです。
ウイルス学者は時代を先取りしようとしているので、実験室で独自の変異体を作成し、外来患者から採取してワクチン接種した抗体を逃れることができるかどうかを確認します。しかし、この作業は干し草の山で針を探すのに似ています。突然変異のバリエーションは非常に多様であるため、すべてをチェックすることはできません。このような研究は、状況に対する相対的な制御を失わないために実施されます。
ウイルスの綴り
昨年の冬、MITのバイオインフォマティストでジョン・ドンネの詩の大ファンであるブライアン・ヒーは、 この問題について考え、興味深い類推を思いついた。書かれた言語を見るのと同じ方法でウイルス配列を見るとどうなりますか?科学者によると、各ウイルス配列には一種の文法があります-この特定のウイルスになるために従わなければならない一連の規則です。
突然変異が「文法上の誤り」を引き起こす場合、ウイルスは進化の行き止まりに入ります。言語と同じように、ウイルス配列には、免疫系が読み取ることもできないこともできる一種のセマンティクスがあります。彼女がそれを読むと、免疫系はウイルスを理解し、抗体または他の保護手段を使用してそれを止めることができます。類推を続けると、ウイルスの「脱出」は文法の規則に従う変化と見なすことができますが、そのセマンティクスは免疫が読み取らないものに変化します。
アナロジーは美しいだけでなく、ブライアン・ヒにその実用的なアプリケーションのアイデアを与えました。過去数年間で、人工知能は言語学の分野で大きな進歩を遂げ、人間の言語の文法とセマンティクスの原則を正しくモデル化しました。ニューラルネットワークは、数十億の単語で構成され、文と段落で順序付けられたデータセットでトレーニングされ、そこからシステムがパターンを推測します。トレーニングの結果、AIアルゴリズムは、文を正しく構成する方法とコンマを配置する場所を「理解」します。彼は単語やフレーズの特定のシーケンスの意味を「理解」し、コンテキストも考慮に入れていると言うこともできます。これはすべて、ニューラルネットワークのレイヤーの正しく選択された係数に基づいています。
特定の単語を選択するためのパターンのアーキテクチャは大規模であり、それはますます詳細に規定されています。たとえば、OpenAIのGPT-3などの最先端の自然言語処理アルゴリズム は、スタイルを維持しながら文法に理想的なテキストを作成することを学習します。
文学と生物学の両方で
人工知能アルゴリズムの主な利点は、科学のさまざまな分野への拡張性です。機械学習モデルの場合、シーケンスは、歌詞のソネットやアミノ酸のどこにあっても、シーケンスです。
サンフランシスコ大学の人工知能研究者であり、自然言語処理アルゴリズムの専門家であるジェレミー・ハワード氏によると、生物学的研究でAIアルゴリズムを使用することは有益である可能性があります。
たとえば、科学で知られている感染性ウイルスの遺伝子配列からの十分な量のデータがあれば、モデルはそれらの構造のパターンとパターンを検出できます。
「それは非常に複雑なモデルになるでしょう。」、ジェレミーハワードは言います。ブライアン・ヒもそれを知っていました。彼の科学顧問であり、数学者でありプログラマーでもあるボニーバーガーは、以前にラボの同僚と同様の作業を行い、AIを使用してタンパク質の折りたたみパターンを予測していました。
インフルエンザ、HIV、コロナウイルスの言語モデル
この春、バーガーの研究室はブライアン・ヒーのアイデアを実現しました。研究結果はジャーナルScienceに掲載されてい ます。チームは当初、ワクチンの巧妙な回避で有名なインフルエンザとHIVに興味を持っていました。しかし、2020年3月に研究を開始したとき、新しいコロナウイルスのゲノムが利用可能になったので、彼らはそれも研究に追加することにしました。
3つのウイルスすべてについて、科学者は細胞に侵入して複製するために使用するタンパク質配列に焦点を合わせたと、バイオエンジニアでMITの教授であり、研究の共著者であるブライアンブライソンは説明します。これらの同じ配列は、免疫応答の主な標的であり、効果的なワクチンを作成するための鍵です。ここでは、抗体がウイルスに付着し、細胞への侵入を防ぎ、破壊の兆候を示します(SARS-CoV-2の場合、これはSスパイクタンパク質です)。各ウイルスについて、MITチームは、通常の段落や文の代わりに遺伝子配列データを使用して言語モデルをトレーニングしました。
しばらくして、科学者はモデルのトレーニング結果を確認しました。科学者の仮説によれば、同様のセマンティクスを持つシーケンスは同じ「ホスト」に感染するはずです。したがって、豚インフルエンザの遺伝的「言語」は、他の豚インフルエンザと意味的に類似しており、インフルエンザの別のサブタイプ、たとえば鳥インフルエンザとは異なる必要があります。科学者の仮説が確認されました。さらに、彼らは、時間の経過とともに広がるインフルエンザの系統(たとえば、1918年と2009年の鳥類のインフルエンザ)がAIによって意味的に類似していると判断されたことを発見しました。
それから彼らは文法に目を向けました。シーケンスの「文法」に対するウイルスのスコアと実際の生活におけるその実行可能性はどの程度相関していますか?科学者は、3つのウイルスすべてに対する変異ウイルスの適応性(細胞をどれだけうまく攻撃して複製したか)を評価する過去の研究からデータを収集しました。次に、モデルに従って、これらのシーケンスが文法的にどの程度正しいかを評価しました。研究者たちは、このパラメーターのスコアが高いということは、ウイルスの適応性が高いことを意味すると想定しました。
BrysonとHeeは、AIが「エスケープ」ウイルスの出現を予測できるかどうかも知りたがっていました。次に、モデルの予測を、ウイルスの実際の「エスケープ」の既知のケースと比較しました。インフルエンザウイルスモデルが最も予測的であることがわかりました。当然のことながら、彼らがこのモデルを訓練するために使用したデータセットは最も完全でした-それは生き残った突然変異を含む数年にわたって蓄積されたインフルエンザ配列を含んでいました。
SARS-CoV-2に関しては、科学者は人工的に育てられた突然変異体で彼らの仮説をテストしました。既存のウイルスは、ウイルスがそれらに耐性のある段階に変異するまで、抗体とともに血清を繰り返し通過しました(私たちはまだ心配することは何もありません)。ここでは成功率が低かった。モデルは真の逃亡者のほとんどを選び出しましたが、時々間違っていました。
それにもかかわらず、得られた結果は、自然突然変異のメカニズムがどのように機能するかを理解したいウイルス学者によるさらなる研究のための良い出発点です。 「これは、潜在的な変異ウイルスの領域を絞り込むための優れた方法です」と、シナイ山にあるIcahn School ofMedicineの微生物学者であるBenhourLeeはコメントしています。
科学者は、予測はモデルが訓練されたデータと同じくらい良いと付け加えました。エスケーププロパティは必ずしも突然変異の結果であるとは限らないため、AIモデルはいくつかのニュアンスを見逃していることにも留意する必要があります。 HIVはその証拠です。このウイルスの配列は変わらず、そのタンパク質は抗体によってさえ認識されることがありますが、それらはグリカンと呼ばれる多糖類によって十分に保護されています。
Benhour Leeは、AI予測は、主に研究者が既存の知識を確認するのに役立つと述べました。そのため、モデルは、SARS-CoV-2スパイクタンパク質の2つの部分を正しく識別しました。これは、以前に見つかったように、変異の影響を受けやすく、ウイルス配列の安定した領域であり、抗体の優れたターゲットであることを意味します。
時間は、AIモデルの予測が他にどのような発見につながるかを教えてくれます。これまでのところ、科学者たちは、互いに重なり合った多くの変化を含む、いわゆる組み合わせ突然変異を特定するという点で、それに特別な期待を抱いています。
ブライソンのスタッフがとる次のステップは、実験室でSARS-CoV-2の予測される変異体のいくつかを作成し、病気の人やワクチン接種を受けた人から採取した抗体に対する反応を監視することです。彼らはまた、Covid-19の患者からのウイルスサンプルを配列決定する試みから収集されたいくつかの配列をテストします。これはモデルが逃げる傾向があると信じています、とブライソンは言いました。
科学者はまた、彼らの類似性が他の状況に当てはまるかどうかをテストしたいと考えています。同様のモデルで、免疫系が特定の癌治療に不耐性になるかどうか、または癌細胞が変異して治療への反応を停止する可能性があるかどうかを予測できますか?十分なデータが手元にあるので、Brysonのラボもそれをテストしたいと考えています。