バむオむンフォマティクスず蚈算生物孊の違い-簡単な玹介



数日前、モスクワ州立倧孊の機械数孊郚を卒業し、バルセロナのポネプファブラ倧孊でシステム生物孊酵母の機胜ゲノミクスの博士号を取埗したAlsuMissarovaがYouTubeで講挔したした。珟圚、AlsouはJOhn Marioniの研究宀EBI、ケンブリッゞ、英囜のポストドックであり、単䞀现胞のRNA-seqず空間転写孊ずの統合に取り組んでいたす。



たた、バむオむンフォマティクスずは䜕か、そしおそれが蚈算生物孊ずどのように異なるかに぀いお、非垞に簡単に玹介したした。攟送の録音ずトランスクリプトをあなたず共有したす。これがバむオむンフォマティクスに埓事する䞀連のスピヌカヌ党䜓の玹介になるこずを願っおいたす。






私の名前はアルス・ミサロワです。バむオむンフォマティクスに぀いお、特に、私が解決する問題、凊理するデヌタの皮類、技術者の蚈算生物孊、コンピュヌタヌサむ゚ンス、デヌタ分析などに偏った人々の問題の皮類に぀いおお話しするように䟝頌されたした。



私自身はバむオむンフォマティストではなく、蚈算生物孊者です。これらの2぀の抂念は高床に盞関しおおり、それらの間の境界線はあいたいですが、違いを理解するこずが重芁です。どちらの堎合も、目暙はいく぀かの生物孊的質問に答えるこず、たたは生物孊的プロセスがどのように機胜するかに぀いおの理解を深めるこずです。圌らのアプロヌチは䌌おいたす目ず手では凊理できない倧量のデヌタの凊理ずデヌタ分析。違いは優先順䜍です。蚈算生物孊者は、比范的具䜓的な生物孊的問題を抱えおおり、収集するデヌタの皮類を理解する必芁がありたす。このデヌタにアクセスできる必芁がありたす。正しく凊理、分析、解釈し、実際に質問に答えるこずができる必芁がありたす。目暙が情報孊である堎合、それはむしろ、生物孊的デヌタを扱うためのアルゎリズム、本䜓、方法の䜜成です。タスクはおそらく最䞊䜍に眮かれ、デヌタはより産業的な圢匏になりたす。぀たり、凊理する特定のデヌタ圢匏があり、倚数の個人や生物などのために䜜成する必芁がありたす。



蚈算生物孊者は、いく぀かのラむブラリを開いおいく぀かのツヌルを䜿甚できる生物孊者である可胜性が高く、バむオむンフォマティクスは、生物孊を気にせず、生物孊を本圓に理解しおいないコンピュヌタ科孊者である可胜性が高く、圌はただ数字、文字列、デヌタを凊理したす。もちろん、そうではありたせん。これはどの分野にも圓おはたりたすが、どの分野のデヌタを扱う堎合でも、どのような皮類のデヌタがあり、どこでデヌタのノむズが発生するかを完党に理解する必芁がありたす。そしお、あなたが受け取る生物孊的デヌタには倚くのノむズがありたす。倧たかに蚀えば、それは技術的および生物孊的ノむズに分解するこずができたす。技術的なノむズは、デヌタを䜜成するマシンが䞍完党で欠陥があるずいう事実から発生したす。たた、どのシステムにも倚くの倉動があるため、生物孊的ノむズが発生したす。同じ生物の2぀の现胞間でも、隣接する皮膚现胞であっおも、生物孊的な違いがありたす。技術的なノむズず生物孊的なノむズを区別し、技術的なノむズを取り陀き、生物孊的なものを残す必芁がありたす。これには、生物孊の理解が必芁です。



生物孊でどのようなデヌタを持っおいるかに移りたしょう。たず第䞀に、人々がバむオむンフォマティクスを聞くずき、圌らはDNAシヌケンシングに぀いお考えたすこれは原則ずしお正圓化されたす。私は誰もがそれが䜕であるかを知っおいるず思いたすそれは、比范的蚀えば、生物がどのDNA配列を持っおいるかを決定する胜力です。぀たり、DNAは非垞に長い分子です。人間の堎合、それは玄31億の「手玙」です。 4文字-ACDH-これらはヌクレオチドです。したがっお、人々は生き物のDNAを読むこずを孊びたした。ずおもかっこいいです。これで、たずえば、2人のシヌケンスを刀別し、それらを比范しお察比し、これらのシヌケンスの違いずこれらの人々の違いを比范しお、原因ず結果の関係を芋぀けるこずができたす。それがDNAがあなたの衚珟型にどのように圱響するか、2人の違いは䜕ですか。同様に、蚈算生物孊で蚀いたしょう隣接する皮から2぀の生物を取り出し、同じ方法でそれらを配列決定するこずができたす-DNA配列を決定し、したがっお、2぀の生物の違いは䜕か、そしおどのDNAが実際にそれに圱響を䞎えるかを理解しようずしたす。



これで、別の次元に移動しお、次の質問をするこずができたす。1぀の生物から、1人の人から、2぀の现胞を取埗する堎合、それらの違いは䜕ですか。぀たり、比范的蚀えば、皮膚䞊皮现胞はニュヌロンずは異なりたす。ここでは、DNAはもはやあたり適しおいたせん。そのような公理がありたすが、それは抂しお誀りです。぀たり、ある生物の现胞のDNA配列は垞に同じです。生物は動的な構造であるため、これは誀りです。それは成長し、共有し、死にたす。この過皋で、突然倉異が蓄積したす。 DNA耇補プロセスは完党ではなく、堎合によっおは機胜しなくなりたす。 DNAは繰り返されたすが、䞍完党に繰り返されたす。倉異は䞭性である可胜性があり、それは䜕ももたらさないか、たたは有害であり、现胞機胜障害を匕き起こしたす。もちろん、抜象化するず、DNAシヌケンスは2぀のセル間でほが同䞀です。しかし、それらは異なっお機胜したす。したがっお、倚くの生物孊的質問は、異なる现胞間の違いずこれに圱響を䞎えるものを理解するこずを目的ずしおいたす。コミュニティはこの皮のデヌタを芁求しおいたす。この違いを匷調衚瀺、蚈算、読み取るこずができる必芁がありたす。



これが私たちがやっおいるこずです。ここで人々が䜿甚する䞻なたたは䞻なデヌタ圢匏はRNAシヌケンスです。ここで、RNAずは䜕か、および䞀般的なRNAシヌケンスの進化に぀いお簡単に説明したす。



これは非垞に簡略化されたバヌゞョンであり、実際、すべおがより耇雑です。现胞生合成をサポヌトする2぀の柱は、転写ず翻蚳です。 DNAは、特定の情報を゚ンコヌドする非垞に長い単語です。セルによるこの情報は、凊理、読み取り、機胜芁玠ぞの凊理が可胜です。



タンパク質はこの兞型的な䟋です。これらは、特定の機胜を実行し、このセルの寿呜ず機胜を提䟛しお、正垞に動䜜するセル内の非垞に小さなマシンです。タンパク質は遺䌝子によっおコヌドされおいたす。遺䌝子は、DNAシヌケンスのサブワヌドです。転写ずは、倧きな分子機械がDNA分子の長い二重らせん䞊にある堎合です。ポリメラヌれは遺䌝子をりォヌクスルヌし、コピヌを䜜成しお现胞の现胞質に投入したす。これらのDNAコピヌ実際には、正確にはコピヌではありたせんは䞀定量で䜜成されたす。したがっお、2぀の異なる现胞は異なる遺䌝子からの異なる量のRNAを持っおいたす。䞊皮现胞の堎合、より倚くの遺䌝子Aが必芁であり、ニュヌロンの堎合、より倚くの遺䌝子Bが必芁であり、それらの数は異なりたす。次に、RNAが凊理され、より最終的な圢匏になるず、別のマシンがスレッドに「座りたす」。それぞれ、人々がRNAシヌケンスに぀いお話すずき、それらは、比范的蚀えば、どの遺䌝子からどのRNAが现胞内で生成されるかを蚈算するこずを意味したす。これはRNA組成、たたはRNAシヌケンスです。



実際、人々がこれを行うこずを孊んだこずは非垞にクヌルです。長い間、この技術の䞻な制限は、RNA材料を取埗するのに倚くの现胞を必芁ずするこずでした。぀たり、䜕䞇ものセルをたずめお圓然、すでに実行䞍可胜です、RNAを削陀しおシヌケンスを実行する必芁がありたした。



問題は、セルが互いに異なるこずが倚いこずです。倚くのプロセスたずえば、開発、免疫孊、腫瘍孊では、異なる機胜の现胞間に倧きな盞互䜜甚があるため、生物孊的倉動が倚くなりたす。そしお、䟋えば、生怜が行われ、倚くの现胞が匕き抜かれるず、混合物が埗られたす。そしお、すべおの现胞に぀いおこれらのRNAの期埅だけを取るず、分散が倱われたす。そしお、あなたはそれらを理解せず、研究するこずができたせん。



そしお、それに応じお、単䞀セルレベルでこれを行うようにコミュニティからの芁求がありたした。そしお圌らは10幎前にこれを行うこずを孊びたした。これは非垞にクヌルです。倚くの分野で非垞に重芁です。システムを非垞に深く調べお、顕埮鏡レベルでどのような皮類のセルがあるかを確認できたす。ただし、制限もありたす。それらの1぀は、空間情報を倱っおいるずいうこずです。盞察的に蚀えば、RNAシヌケンスを実行するには、組織の䞀郚を取埗しお现胞に切断し、単䞀セルのRNA-seqを実行する必芁がありたす。



しかし、友奜的な方法で、倚くの機胜は、セルが空間で互いにどのように盞互䜜甚するかにありたす。そしおこのために、圌らは特別なトランスクリプトミクス技術を思い぀いた-空間情報を倱うこずなくRNAを枬定する胜力。



このための䞻な秘蚣の1぀は、顕埮鏡を䜿甚するこずです。組織を取り、それを修正したす。぀たり、现胞のセットを取り、顕埮鏡で固定したす。次に、2぀の芁玠を含む小さなプロヌブをこの組織に送信したす。そのうちの1぀は、RNAに非垞に特異的であり、重芁な遺䌝子にのみ結合したす。そしお2番目は光る蛍光マヌクになりたす。組織䞊の波の特定の呚波数で顕埮鏡を照らすこずができ、现胞内のホタルの数を決定するこずができたす。したがっお、非垞に倚くのRNA分子が存圚したす。実際、私が行っおいるタスクは、特別なトランスクリプトミクスず単䞀セルRNAシヌケンスの接合郚にありたす。盞察的に蚀えば、ここで私は小さなマりスを芋ながら開発を行っおいたす。私は単䞀现胞ず特別なトランスクリプトミクスに関するデヌタを持っおいたす、そしお、私は特別な文脈で芋た现胞を、単䞀现胞のRNA-seqで芋た现胞ず䞀臎させようずしおいたす。



原則ずしお、技術者やML゚ンゞニアが関心を持぀可胜性のある問題に移りたす。私は珟圚芁求されおいる3皮類のタスクを特定したしたが、それらはすべお医孊の分野にありたす。医孊は今、たくさんの資源、たくさんのお金、たくさんのデヌタを受け取りたす。



最初のタむプのタスクは薬物発芋です。病気がありたす、それは治癒する必芁がありたす、これのためにあなたは薬を芋぀ける必芁がありたす。このタスクをより詳现に芁玄する方法。ピルやカプセルに入れお䜓に送るこずができる化孊物質の組成を芋぀ける必芁がありたす。そうすれば、分子はそれらのタンパク質に特異的に結合したす。これらのタヌゲットは、状態が倉曎されるず、病気の状態を倉化させたす。比范的蚀えば、治癒したす。



ここにはいく぀かの段階がありたす。それらの1぀は、タヌゲットの識別/怜蚌です。病気の状態を倉えるために、どの分子が結合する必芁があるかをどういうわけか予枬できなければなりたせん。このために、倧量のデヌタが収集されたす。病気の人を取り、健康な人を取り、それらから倚くの異なるパラメヌタを枬定したす。あなたはDNA、RNA、トランスクリプトミクス、プロテオミクス-タンパク質の状態をシヌケンスしおいたす。



次に、病気の人の现胞のどのパラメヌタヌが特に病気の人を指しおいるのか、そしおどのパラメヌタヌが健康な人を指しおいるのかを刀断しようずしおいたす。぀たり、どの分子が朜圚的に病気ず盞関しおいるのかを刀断しようずしおいたす。これは䞀方でです。䞀方で、薬になりそうな、぀たり、䜓内に送っお治癒する掻性化孊物質に結合する可胜性のある分子を芋぀ける必芁がありたす。ここでは、結合、タンパク質の折り畳みなど、倚くのパラメヌタヌを枬定する必芁がありたす。



このために、アクティブな機械孊習が䜿甚されたす。぀たり、さたざたなタンパク質化合物を調べ、既知のタヌゲットに基づいお、特定のタヌゲットが適切かどうかを予枬しようずしたす。さらに、正しい薬を合成する必芁もありたす。぀たり、接觊する必芁のあるタンパク質に特異的に結合でき、原則ずしお䜓内に䟵入したり、氎に溶解したりできるような分子の化孊組成を芋぀ける必芁がありたす。最適化する必芁のある機胜はたくさんありたす。手で行うのは難しいですが、すでに既知の薬を持っおいるずいう事実に基づいお予枬するこずができ、新しい朜圚的な薬を既知の薬ず比范しお、それがどれほど成功する可胜性があるかを予枬したす。これはすべお予枬のレベルです。次に、怜蚌しお実際に衚瀺する必芁がありたす。それが機胜するこず。しかし、薬物の予枬は、研究に費やされるお金ず時間を削枛するための鍵です。これは非垞に関連性がありたす。



最初の問題に関連する2番目の皮類の問題は、比范的蚀えば、病気のバむオマヌカヌを芋぀けるこずです。癌は良い䟋です。圌がずおも扱いにくい理由の䞀郚は、圌がずおも異なっおいお、二人の間でずおも倚くの違いがあるからです。䞀般に、癌ずは、特定の数の倉異が蓄積し、それが现胞の砎壊に぀ながった堎合です。そしお、现胞は、その機胜を実行する代わりに、非垞に迅速に分裂し始め、健康な现胞に取っお代わりたす。これは埐々に䜓を殺したす。しかし、现胞が砎壊されるメカニズムはたくさんありたす。ある人の癌は別の人の癌ではなく、ある人に効く薬は別の人には効かないかもしれたせん。したがっお、人が特定の病気にかかっおいるこずを理解するために、どの遺䌝子や他のパラメヌタヌを調べる必芁があるかを迅速に刀断できるこずが非垞に重芁です。぀たり、バむオマヌカヌを芋぀ける必芁がありたす。このために、デヌタベヌスが䜿甚されたす。珟圚、さたざたな圢匏のデヌタが、健康な人から病気の人たで、倚くの人々から積極的に収集されおいたす。出力を結晶化する必芁がありたす。人は治癒するかもしれないし、治癒しないかもしれたせん、そしおあなたはどんな皮類の人々が䜕で病気になるかを理解する必芁がありたす。䜕が壊れたのかをすぐに芋぀けたら、それを治すこずができたす。



珟圚開発䞭の3番目の領域は面癜いですが、これはテキストマむニングです。珟圚、生物孊には倚くの文献があり、非垞に倚くの研究宀が膚倧な数のこずに取り組んでいたす。実際、人々はしばしば物事を芋぀けたす-䟋えば、タンパク質-タンパク質盞互䜜甚たたは薬物-タンパク質盞互䜜甚。それは䞖界のさたざたな地域で独立しお起こり、圌らはそれがどのように盞互䜜甚できるかを知りたせん。テキストマむニングは、公開されおいるさたざたな蚘事を調べおデヌタベヌスを構築したす。぀たり、ある堎所で1぀のタンパク質が2番目のタンパク質ず盞互䜜甚し、別の堎所で2番目のタンパク質が特定の薬剀の圱響を受ける可胜性があるず刀断された堎合、この薬剀も元のタンパク質に圱響を䞎える可胜性があるこずがわかりたす。むンタラクショングラフが䜜成され、以前は芋぀からなかった新しいむンタラクションを予枬できたす。



私が蚀及したかったもう1぀のタむプの問題は、私の意芋では非垞に興味深いものですが、画像分析です。䞀般に、画像は匷力なデヌタ圢匏であり、セルの倖芳から倚くのこずを理解できるため、生物孊で非垞に頻繁に䜿甚されたす。



顕埮鏡写真が倧量に蓄積されおいる堎合は、それらをすばやく分析しお予枬できるようにする必芁がありたす。䞀般的な䟋は、やはり癌です。生怜を行い、健康な现胞ず病気の现胞がどのように぀ながっおいるかを調べたす。あなたはそれらを描きたす-ある色の栞、別の色の现胞質。次に、予枬しようずしたす。この組織には腫瘍があるかどうか。



より基本的な研究のために-顕埮鏡からの画像の凊理はすでにより困難です。人々は、特定のオルガネラ、分子、たたはタンパク質を調べ、それに応じお、现胞が互いにどのように盞互䜜甚するか、どのように発達するかなどを远跡したいず考えおいたす。人々は现胞のさたざたな芁玠を着色するこずを孊びたした、そしおこれは蛍光タンパク質を䜿甚しお行われたす。あなたはあなたが望むものを取り、そのタグ付けされたタンパク質をそれに付けたす。そしお、それに光を圓おるず、それが光り、これらのオルガネラ、たたはタンパク質、たたはRNAが特定の堎所にあるこずがわかりたす。そしお、セルがどのように盞互䜜甚するかを远跡したす。写真がたくさんあり、原則ずしお解像床があたり良くないため、これには画像分析も必芁です。そしお、あなたは泥だらけの写真から良い解像床を埗る必芁がありたす。実際、コミュニティは静止しおいたせん。人々はニュヌラルネットワヌクを䜜成したり、さたざたなパラメヌタを倉曎したりしたす。しかし、デヌタは進化し、メ゜ッドもそれに䌎っお進化する必芁がありたす。぀たり、これらのこずは密接に関連しおいる必芁がありたす。



倚くのラボが考えおいる珟圚の傟向は、「時間を埁服する方法」です。぀たり、シヌケンス凊理ず画像分析などの䞡方で、このような問題が発生するこずがよくありたす。システムのスナップショットはありたすが、静的です。特定の時間に枬定を行いたす。そしお、あなたは现胞がどのようにさらに発達するかを理解しおいたせん。この問題を解決するためのアプロヌチの1぀は、ラむフむメヌゞングです。现胞を殺さずに、现胞が発達したり盞互䜜甚したりする環境に眮き、10秒ごずに顕埮鏡でスナップショットを撮るず、動きや盞互䜜甚などの軌跡を埩元できたす。ただし、制限がありたす。たずえば、蛍光スタンプは、スタンプに光を圓おるず攟射を攟出し、现胞に有毒であるため、ラむフむメヌゞングに䜿甚するのにはあたり適しおいたせん。现胞は死に始めたす。劥協点を芋぀ける必芁がありたす。䞀方では、ケヌゞを可胜な限り健康に保ちたいが、他方では、より倚くのスナップショットを撮りたいのですが、スナップショットを撮るほど、死ぬのが早くなりたす。



そしお、ここにそのようなアプロヌチがありたす人々は珟圚、最小数の蛍光マヌクの助けを借りお现胞の運呜を決定しようずしおいたすが、実際には-栞ず现胞の埮小茪郭の助けを借りおのみです。これは顔認識のようなものです。以前は目に芋える目、口、錻、その他の機胜でそれを行うこずができたしたが、今では目にサングラスず口にマスクを付けるこずができるため、錻だけで行う必芁がありたす。぀たり、問題はより耇雑になり、ここでも同じこずが蚀えたす。少量の情報を䜿甚しお生物孊的パラメヌタヌを蚈算する必芁があり、倚くのタスクがありたす。



たくさんのタスクがあり、たくさんのデヌタタむプがありたす。现胞、生物、その他のもののすべおのパラメヌタヌが枬定されたす。これは非垞に興味深い分野です。あなたが以前に圌女のこずを考えおいたら、私はあなたを信じなかったず思いたす。




以前に起こったこず



  1. , Senior Software Engineer Facebook — ,
  2. , ML- — , Data Scientist
  3. , EO LastBackend — , 15 .
  4. , Vue.js core team member, GoogleDevExpret — GitLab, Vue Staff-engineer.
  5. , DeviceLock — .
  6. , RUVDS — . 1. 2.
  7. , - . — .
  8. , Senior Digital Analyst McKinsey Digital Labs — Google, .
  9. «» , Duke Nukem 3D, SiN, Blood — , .
  10. , - 12- — ,
  11. , GameAcademy — .
  12. , PHP- Badoo — Highload PHP Badoo.
  13. , CTO Delivery Club — 50 43 ,
  14. , Doom, Quake Wolfenstein 3D — , DOOM
  15. , Flipper Zero —
  16. , - Google — Google-
  17. .
  18. Data Science ? Unity
  19. c Revolut
  20. : ,
  21. — IT-
  22. — «Docker » , Devops,









All Articles