スむスの科孊ナむフコンピュヌタサむ゚ンスの手法が他の分野でどのように䜿甚されおいるか



数孊はしばしば「科孊の蚀語」ず呌ばれたす。内容に関係なく、ほがすべおの科孊情報の定量的凊理に適しおいたす。そしお、数孊的圢匏の助けを借りお、さたざたな分野の科孊者は、ある皋床、お互いを「理解」するこずができたす。今日、コンピュヌタサむ゚ンスでも同様の状況が発生しおいたす。しかし、数孊が科孊の蚀語である堎合、CSはそのスむスのナむフです。実際、膚倧な量のデヌタの分析ず凊理、耇雑な蚈算、コンピュヌタヌモデリング、芖芚化、および特別な゜フトりェアずアルゎリズムの䜿甚なしに、珟代の研究を想像するこずは困難です。さたざたな分野がCSメ゜ッドを䜿甚しお問題を解決するずきの、いく぀かの興味深い「ストヌリヌ」を芋おみたしょう。 



バむオむンフォマティクスペトリ皿から生物孊たでむンシリコ



バむオむンフォマティクスは、CSず他の分野の亀差点の最も印象的な䟋の1぀ず蚀えたす。この科孊は、コンピュヌタヌ手法を䜿甚した分子生物孊デヌタの分析を扱いたす。別の科孊的方向性ずしおのバむオむンフォマティクスは、䜎分子RNAのヌクレオチド配列が最初に公開され、それらの二次構造分子内の原子の空間配眮を予枬するアルゎリズムが䜜成された前䞖玀の70幎代初頭に登堎したした。



バむオむンフォマティクスの新時代は、ヒトDNAのヌクレオチド配列を決定し、ゲノムの遺䌝子を特定するこずを目的ずしたヒトゲノムプロゞェクトで始たりたした。DNAシヌケンシングヌクレオチドシヌケンシングのコストは数桁䜎䞋したした。これにより、公開デヌタベヌスのシヌケンス数が倧幅に増加したした。䞋のグラフは、1982幎12月から2017幎2月たでのGenBankパブリックデヌタベヌスのシヌケンス数の増加を 片察数スケヌルで瀺しおいたす。蓄積されたデヌタを有効にするには、䜕らかの方法で分析する必芁がありたす。





1982幎12月から2017幎2月たでのGenBankの配列数の増加。出兞 www.ncbi.nlm.nih.gov/genbank/statistics



バむオむンフォマティクスにおける配列分析の方法の1぀は、配列アラむンメントです。この方法の本質は、DNA、RNA、たたはタンパク質のモノマヌの配列が、同様の領域を芋るように互いに䞋に配眮されおいるずいう事実にありたす。 2぀の分子の䞀次構造぀たり、配列の類䌌性は、それらの機胜的、構造的、たたは進化的関係を反映しおいる可胜性がありたす。配列は特定のアルファベットDNAの堎合は4ヌクレオチド、タンパク質の堎合は20アミノ酞の文字列ずしお衚すこずができるため、アラむンメントはCSの組み合わせタスクであるこずがわかりたすたずえば、ラむンアラむンメントは自然蚀語凊理でも䜿甚されたす- NLP。ただし、生物孊のコンテキストは、問題にいく぀かの特異性を远加したす。



䟋ずしおタンパク質を䜿甚しおアラむンメントを芋おみたしょう。タンパク質の1぀のアミノ酞残基は、シヌケンス内のラテンアルファベットの1文字に察応したす。文字列は、最適な䞀臎を実珟するために䞊䞋に曞き蟌たれたす。䞀臎する芁玠は䞊䞋にあり、「ギャップ」は「-」ギャップに眮き換えられたす。それら は、むンデル、すなわち、可胜な挿入1぀たたは耇数のヌクレオチドたたはアミノ酞の分子ぞの導入および欠倱ヌクレオチドたたはアミノ酞の「ドロップアりト」の堎所を指定したす。





2぀のタンパク質のアミノ酞配列のアラむンメントの䟋。異性䜓であるロむシンLずむ゜ロむシンIは青色で匷調衚瀺されおいたす-ほずんどの堎合、このような眮換はタンパク質構造に圱響を䞎えたせん



ただし、配眮が最適かどうかをどのように刀断できたすか最初に頭に浮かぶのは、䞀臎の数を芋積もるこずです。䞀臎が倚いほど良いです。しかし、生物孊の文脈では、これは完党に真実ではありたせん。眮換あるアミノ酞から別のアミノ酞ぞの眮換は等しくありたせん。䞀郚の眮換たずえば、SずT、DずEは、正確に1぀の炭玠原子だけ構造が異なる残基は、実際にはタンパク質の構造に圱響を䞎えたせん。しかし、セリンをトリプトファンに眮き換えるず、分子の構造が倧きく倉わりたす。枅算が可胜な限り最良であるかどうかを刀断するために、定量的基準重みたたはスコアが入力されたす。眮換を評䟡するために、既知の構造を持぀タンパク質のアミノ酞眮換の統蚈に基づいお、いわゆる眮換マトリックスが䜿甚されたす。䞀臎した文字の亀点の数字が倧きいほど、スコアが高くなりたす。 





新しい眮換行列が定期的に衚瀺されたす。これがBLOSUM62マトリックスです。



スコアは削陀の存圚も考慮に入れおいたす。通垞、削陀を「開く」こずに察するペナルティは、「継続する」こずに察するペナルティよりも数桁倧きくなりたす。これは、いく぀かの連続したギャップのセクションが1぀の突然倉異ず芋なされ、異なる堎所のいく぀かのギャップが耇数ず芋なされるずいう事実によるものです。以䞋の䟋では、シヌケンスの最初のペアは2番目のペアよりも類䌌しおいたす。これは、最初のケヌスでは、シヌケンスが1぀の進化むベントによっお正匏に分離されおいるためです。





次に、アラむメントアルゎリズム自䜓に぀いお説明したす。ペアアラむンメントには、グロヌバルずロヌカルの2皮類がありたす2぀のシヌケンスの類䌌領域を芋぀ける。グロヌバルアラむンメントは、配列がその党長に沿っお盞同類䌌であるこずを意味したす。䞡方のシヌケンスが完党に含たれおいたす。ただし、このアプロヌチでは、類䌌した領域が少ない堎合、それらが垞に明確に定矩されるずは限りたせん。配列が盞同性を保っおいる堎合䟋えば、組換えのため、ロヌカルアラむンメントが䜿甚されたす および無関係のサむト。しかし、それは垞に関心のある領域に入るずは限りたせん、さらに、偶然の同様の領域に遭遇する可胜性がありたす。ペアワむズアラむンメントを取埗するには、動的蚈画法を䜿甚したす問題を、繰り返し接続されるいく぀かの同䞀のサブタスクに分割するこずで問題を解決したす。グロヌバルアラむンメントのプログラムでは、Needleman-Wunschアルゎリズムがよく䜿甚され、ロヌカルアラむンメントの堎合 はSmith-Watermanアルゎリズムが䜿甚され たす。あなたはリンクをたどるこずによっおそれらに぀いおもっず読むこずができたす。 





配眮の䟋䞊はグロヌバル、䞋はロヌカルです。最初のケヌスでは、アラむンメントは配列の党長に沿っお発生したす。2番目のケヌスでは、いく぀かの盞同領域が芋぀かりたす。



ご芧のずおり、生物孊的タスクはCSからのタスクにかなり枛らすこずができたす。䞊蚘のアルゎリズムを䜿甚したペアワむズアラむンメントには、玄m * n個の远加メモリm、nはシヌケンスの長さが必芁です。これは、最新の家庭甚コンピュヌタヌで簡単に凊理できたす。ただし、バむオむンフォマティクスには、系統暹の再構築のためのマルチプルアラむンメント耇数の配列のアラむンメントなど、より重芁なタスクもあり たす。..。シヌケンス長が玄100文字の非垞に小さいタンパク質を10個比范しおも、蚱容できないほど倧量の远加メモリが必芁になりたす配列の次元は100 ^ 10です。したがっお、この堎合、配眮はさたざたなヒュヌリスティックに基づいおいたす。 



宇宙の倧芏暡構造のモデリング



生物孊ずは異なり、物理孊はコンピュヌタの黎明期からコンピュヌタサむ゚ンスず䞊んでいたす。最初のコンピュヌタヌが䜜成される前は、「コンピュヌタヌ」電卓ずいう蚀葉は特別な䜍眮ず呌ばれおいたした。これらは、電卓で数孊的な蚈算を実行した人々でした。したがっお、 マンハッタン蚈画の間、物理孊者のリチャヌドファむンマンは、加算機で埮分方皋匏を凊理する「蚈算機」のチヌム党䜓のマネヌゞャヌでした。 





飛行研究センタヌの「コンピュヌティングルヌム」。アヌムストロング。米囜、1949幎



珟圚、CS法は物理孊のさたざたな分野で広く䜿甚されおいたす。たずえば、蚈算物理孊は、定量理論がすでに開発されおいる物理問題を解決するための数倀アルゎリズムを研究したす。オブゞェクトを盎接芳察するこずが難しい状況これは倩文孊でよく起こりたすでは、コンピュヌタヌモデリングが科孊者の助けになりたす。たさにそのようなケヌスは、 宇宙の倧芏暡構造の研究です。倩の川の平面で電磁攟射を吞収するため、遠くの物䜓の芳枬は困難であるため 、モデリングが䞻な研究方法になっおいたす。





,



珟代の宇宙論の課題の1぀は、銀河の倚様性ずその進化の芳枬された画像を説明するこずです。定性的なレベルでは、銀河で発生する物理的プロセスが珟圚知られおいるため、科孊者の努力は定量的な予枬を取埗するこずを目的ずしおいたす。これにより、暗黒物質の性質など、いく぀かの基本的な質問に答えるこずができたす。しかし、暗黒物質の芳枬された兆候を分離する前に、通垞の物質の振る舞いを理解する必芁がありたす。巚倧なスケヌル数癟䞇光幎では、通垞の物質は暗闇ず同じように効果的に動䜜したす。1぀の重力の圱響を受けるため、ガス圧を忘れるこずができたす。これにより、宇宙の倧芏暡構造の進化を比范的簡単にシミュレヌトできたす数倀法、暗黒たたは塵のような物質のみを含み、銀河の分垃の倧芏暡構造をよく再珟し、1980幎代から開発が始たりたした。



暗黒物質は次のようにモデル化されたす。サむズが数億光幎の仮想立方䜓は、ほが均䞀にテスト粒子物䜓で満たされおいたす。圓初から、宇宙には小さな䞍均䞀性が存圚し、そこから芳枬された構造党䜓が生じたため、充填は「ほが均䞀」です。次に、粒子は重力の圱響䞋で「自分の生掻を送る」ようになりたす。N䜓の問題が解決され たす。立方䜓から逃げ出した粒子は反察偎の面に移動し、重力も移動ずずもに䌝播したす。このおかげで、立方䜓は、いわば宇宙のように無限になりたす。





非二等蟺䞉角圢の頂点に䜍眮し、初速床がれロの3぀の同䞀の物䜓のおおよその軌道



このタむプの最も有名な数倀モデルの1぀は、立方䜓のサむズが15億光幎以䞊で玄10の ミレニアムです。十億の粒子。次の幎に、いく぀かのより倧きなモデルが䜜られたした ミレニアムの4倍の立方䜓の偎面を持぀ホラむゟンランず 、ミレニアムの16倍のダヌクスカむ。これらおよび類䌌のモデルは、珟圚䞀般的に受け入れられおいるラムダ-CDMモデルを怜蚌するプロゞェクトで重芁な圹割を果たしおきたした。 玄70の暗黒゚ネルギヌ、25の暗黒物質、5の通垞の物質を含む宇宙。





Millenium: , ; — .



ダりンスケヌリングは、芳枬倀ず数倀モデルを1぀の暗黒物質ず䞀臎させる際に問題を匕き起こしたす。より小さなスケヌル超新星からの衝撃波の䌝播のスケヌルでは、物質はもはやほこりっぜいずは芋なされたせん。流䜓力孊、茻射によるガスの冷华ず加熱などを考慮する必芁がありたす。モデリングで物理孊のすべおの法則を考慮に入れるために、いく぀かの簡略化が行われたす。たずえば、モデルキュヌブをセルの栌子に分割し副栌子物理孊、セル内の特定の密床ず枩床に達したずきに仮定するこずができたす。 、ガスの䞀郚が瞬時に星に倉わりたす。このクラスのモデルには、EAGLEプロゞェクトず illustrisプロゞェクトが含たれたす 。これらのプロゞェクトの成果の1぀は、タリヌ・フィッシャヌ関係の再珟です。 銀河の光床ずディスクの回転速床の間。



蚀語孊ず機械孊習4、000幎前の謎を解くための䞀歩



CSメ゜ッドは、たずえば叀代蚀語や曞蚘䜓系の研究など、より予期しない分野でのアプリケヌションを芋぀けたす。このように、 ワシントン倧孊の教授であるRajesh P.N. Raoが率いる科孊者のグルヌプによる研究は、むンダスバレヌの執筆の謎に光を圓おたした。



珟圚の東パキスタンず北西むンドで玀元前2600幎から1900幎の間に䜿甚されたむンダス文字は、メ゜ポタミアや゚ゞプトの同時代の文明ず同じくらい耇雑で神秘的な文明に属しおいたした。そこから曞かれた出兞はほずんどありたせん。考叀孊者は、陶噚、錠剀、アザラシの断片に玄1,500の固有の碑文しか発芋しおいたせん。最長のレタリングはわずか27文字です。 





むンダス枓谷のアザラシの碑文



科孊界では、「䞍思議なシンボル」に぀いおさたざたな仮説が立おられおいたした。䞀郚の専門家は、シンボルを単なる「きれいな絵」にすぎないず考えおいたした。そのため、2004幎に、蚀語孊者のSteve Farmerが、むンダス文字は政治的および宗教的なシンボルにすぎないず䞻匵した蚘事を公開したし た。圌のバヌゞョンは物議を醞しおいるが、それでもその支持者を芋぀けた。



機械孊習の科孊者であるRajeshaP.N。Raoは、高校でのむンダス文字に぀いお読みたした。圌のリヌダヌシップの䞋にある科孊者のグルヌプは、既存の信頌できる文曞の統蚈分析を行うこずを決定したした。マルコフ連鎖を䜿った研究の過皋で マルコフ連鎖が実甚化された最初の分野の1぀は、テキスト批評でした条件付き゚ントロピヌが比范されたした 蚀語的および非蚀語的蚘号シヌケンスの゚ントロピヌを持぀むンダス文字からの蚘号。条件付き゚ントロピヌは、次々ず文字の確率がわかっおいるアルファベットの゚ントロピヌです。比范のためにいく぀かのシステムが遞択されたした。蚀語システムには、シュメヌル語の衚語文字、オヌルドタミルアブギダ、リグノェヌダのサンスクリット語、珟代英語単語ず文字は別々に研究された、Fortranプログラミング蚀語が含たれおいたした。非蚀語システムは2぀のグルヌプに分けられたした。最初のシステムには、厳密な順序の蚘号人工の蚘号セットNo. 1が含たれ、2番目のシステムには柔軟な順序のシステム现菌のタンパク質、ヒトDNA、人工の蚘号セットNo. 2が含たれおいたした。その結果、口頭蚀語の曞き方のように、原始むンド語の曞き方は適床に順序付けられおいるこずが刀明したした。既存のドキュメントの゚ントロピヌは、シュメヌル文字ずタミル文字の゚ントロピヌに䌌おいたす。 





さたざたな蚀語システムず非蚀語システムの条件付き゚ントロピヌ



この結果は、蚘号の装食的な䜿甚に関する仮説に反論したした。たた、CSメ゜ッドは、むンダスバレヌの蚘号が曞蚘䜓系である可胜性が最も高いバヌゞョンを確認するのに圹立ちたしたが、問題はただ解読されおいたせん。



結論



もちろん、CSメ゜ッドがアプリケヌションを芋぀ける倚くの領域は行き過ぎです。珟代科孊がコンピュヌタヌ技術にどのように䟝存しおいるかを明らかにするこずは、1぀の蚘事では単玔に䞍可胜です。ただし、䞎えられた䟋が、CSメ゜ッドを含むさたざたな問題を解決する方法を瀺しおいるこずを願っおいたす。






Macleodのクラりドサヌバヌ は高速で安党です。



䞊蚘のリンクを䜿甚するか、バナヌをクリックしお登録するず、任意の構成のサヌバヌをレンタルした最初の月が10割匕になりたす。






All Articles