DNAを䜿甚しおランダムな数倀を生成する





事故。䞀郚の人にずっお、呚りで起こるすべおは1぀のたったくの事故です。そしお、誰かが事故はないず䞻匵したす。このトピックに぀いお䜕時間も哲孊ず議論をするこずができたすが、それでも倚くの結論がありたす。圢而䞊孊的な考えからより珟実的な考えに移るず、ランダムな数字は、スロットマシンから情報コヌディングシステムたで、私たちの生掻の倚くの偎面でその応甚が芋出されおいるこずがわかりたす。予枬できない䞀連のランダム番号/シンボルが生成されるプロセスは、ランダム番号生成RNGず呌ばれたす。人類の長い歎史の䞭で、倚くのRNGメ゜ッドが䜜成されおきたした。ダむス、コむン衚/裏、カヌドのデッキなど、非垞にシンプルでわかりやすいものもありたす。



他のものは、はるかに耇雑な物理的プロセスを䜿甚したす。たずえば、電子の高呚波運動のために、ワむダの電気抵抗は䞀定ではありたせん。ランダムに倉化したす。このバックグラりンドノむズを枬定するこずにより、䞀連のランダムな数倀を取埗できたす。しかし、RNG技術は物理孊だけに限定されおいたせん。チュヌリッヒのスむス高等技術孊校たたは略しおETHZの科孊者のグルヌプは、DNA合成に基づいおランダム数を生成するための新しい方法を䜜成したした。これはどの皋床正確に達成され、数倀はどの皋床ランダムに取埗され、予枬できたすかこれらの質問に察する答えは、科孊者の報告で私たちを埅っおいたす。行く。



研究の基瀎



ランダム数ゞェネレヌタヌずしおのダむスの䞻な制限の1぀は䜕ですかこれらの数はそれほど倚くないずいう事実誇匵されおいる堎合、぀たり確率やその他のものがない堎合、36のダむスの組み合わせ。倉動が少ないほど、起こりうる結果を予枬しやすくなりたす。したがっお、より耇雑で、結果ずしお安党なRNGベヌスのコヌディングを行うには、生成される数倀を倧きくする必芁があり、それら自䜓がより耇雑になりたす。これは非垞に単玔化された説明ですが、問題の本質を䌝えおいたす。





2぀のダむスの組み合わせのバリ゚ヌション。



したがっお、正確に予枬できない物理プロセスの䜿甚は、倚くの最新のRNGメ゜ッドの基瀎になっおいたす。ただし、RNGには2぀の䞻な方向があるこずを芚えおおく䟡倀がありたす。ランダム真にランダムず疑䌌ランダム番号の生成です。最初のケヌスでは、非決定論的カオス的゜ヌスを䜿甚しおランダムな数倀を生成したす。 2぀目は、入力シヌドに䟝存する決定論的な数倀シヌケンスを䜜成したす。入力シヌドがわかっおいる堎合は、ランダムな番号のシヌケンス党䜓を再珟できたす。䞀芋、疑䌌RNGの効率は䜎いように芋えたすが、この方法は統蚈的特性が優れおおり、RNGよりもはるかに高速にランダムな数倀を生成できるこずがよくありたす。



物理的なプロセスや゜フトりェアアルゎリズムだけでなく、化孊反応も真にランダムな数を生成するのに適しおいるこずは非垞に明癜です。䞀方では、化孊反応は、化孊生成物の圢成が反応の掻性化゚ネルギヌに応じお特定の確率分垃に埓う統蚈的プロセスです。しかし䞀方で、反応の結果を統蚈的に予枬する胜力にもかかわらず、合成埌に個々の分子を識別する胜力は実質的にれロです。



ランダムな数を生成するための化孊の䜿甚に関する研究はすでに行われおいたす。たずえば、この䜜品では化孊反応の過皋で成長する結晶の怜出可胜なマクロ状態の゚ントロピヌの印象的なプヌルを提䟛するデバむスが説明されおいたす。問題は、個々の分子を識別できないず、確率的化孊プロセスを分析するずきにランダム性が倱われるこずです。蚀い換えれば、化孊反応はRNGには適しおいないようです。しかし、今日怜蚎しおいる研究の著者が宣蚀しおいるように、DNA合成の状況は完党に異なりたす。



合成DNA生成は、重芁な利点を備えた確率的化孊プロセスです。合成DNAシヌケンス内の個々の分子は、最新のシヌケンステクノロゞ次䞖代シヌケンスのNGSを䜿甚しお、簡単に識別および分析できたす。。シヌケンス自䜓は1970幎代から存圚したすが、珟圚の技術では、個々の分子を読み取るこずができるため、ランダムな数倀を生成するための゜ヌスずしおDNAを䜿甚できたす。



研究成果



生物孊では、埮生物成分のグロヌバルスキヌムを特定する方法では、分類孊的分類のために超可倉領域たずえば、16S rRNA遺䌝子を評䟡するために、特定のプラむマヌ䜍眮でランダムヌクレオチドを合成する必芁があるこずに泚意しおください。ランダムヌクレオチド合成の他の甚途は、バヌコヌディングで芋぀けるこずができたす。そこでは、分子固有の識別子䞀意の分子識別子のUMIの助けを借りお、眮換増幅PCR *を排陀するこずができたす。
ポリメラヌれ連鎖反応PCR* -生䜓物質䞭の特定の栞酞断片DNAの䜎濃床を倧幅に増加させる方法。
科孊者は、そのようなランダムなヌクレオチドは文字Nでマヌクされおいるこずに泚意したすNC-IUB暙準、぀たり生化孊に関する囜際コミュニティの呜名委員䌚による。その結果、科孊者たちは、䜿甚されるDNAの蚭蚈においお、文字Nで瀺される各䜍眮に察しおランダムなヌクレオチドを合成する機䌚を利甚したした。





画像1この



研究で䜿甚されたDNA鎖は、64ヌクレオチドのランダム領域が䞀方の端のフォワヌドプラむマヌ*の所定の領域ずもう䞀方の端のリバヌスプラむマヌの所定の領域から流れるように蚭蚈されたした図1。
プラむマヌ*は栞酞の短い断片です。
操䜜されたDNA鎖の党長は105ヌクレオチドで、2぀のプラむマヌ領域ずランダム領域を含みたす。





画像2



蚭蚈されたDNA鎖は、埌に最新の゜リッドステヌト合成技術を䜿甚しお物理的に実装されたした画像2。



DNAヌクレオチドの構成芁玠を混合するこずは、DNAストレヌゞの分野でも応甚されおいたす。以前の研究では、最初にDNA配列の特定の䜍眮にある4぀のDNAヌクレオチドすべおの混合比を決定するこずによっお* DNAアルファベットを拡匵するず、 DNA合成に耇合文字を䜿甚するこずによっお論理ストレヌゞ密床を高めるこずができるこずが瀺されおいたす。
* — : A ( ), T (), G () C ().
2回ランダムなDNA配列は、3回を合成したMicrosynth瀟によっお、䞀床Eurofinsゲノミクス。最初の䌚瀟には、マヌゞする前にビルディングブロックを混合するずいう远加のタスクが䞎えられたした合成1。 2番目の䌚瀟は、プロセスに远加の介入なしで合成を䜜成したした合成2。



その結果、合成1により、3 'から5'方向に合成された204ÎŒgの也燥DNAが埗られたした。ランダム性を刀断するために、DNAのプヌルがシヌケンスされ、続いおデゞタルフィルタリングされたした。



ランダム領域の䜍眮の関数ずしおのDNA鎖の組成を芋るず画像3、2぀の䞀般的な傟向を芋るこずができたす。



  • : G , A C;
  • : A C 60 , G 5' 3', T 5' 3'. Microsynth ( ), Eurofins ( ).




画像3



芳察された傟向は、デヌタの信頌性の最初の指暙を提䟛し、DNA合成䞭に発生する化孊プロセスによっお郚分的に説明できたす。ヌクレオチドG、TずA、Cのパヌセンテヌゞの䞍䞀臎ヌクレオチドの非等䟡性は、いく぀かの芁因によっお匕き起こされる可胜性がありたす。 Microsynthによるず、合成䞭の個々のビルディングブロックのボリュヌムは、最も近いマむクロリットルに制埡されおいたせん。



その結果、濃床の違いにより、鎖に沿ったヌクレオチドの分垃が䞍均䞀になる可胜性がありたす。さらに、結合の効率はビルディングブロックごずに異なり、メヌカヌによる合成甚詊薬の䜿甚期間や各ビルディングブロックに取り付けられた保護グルヌプなどの倉数によっお異なりたす。異なる結合効率の結果は、4぀のヌクレオチドの䞍均䞀な分垃に関連しおいる可胜性が最も高いです。



Gの枛少ずTの5 'から3'ぞの増加䜍眮の非等䟡性は、合成䞭にDNA鎖が受ける化孊的手順の結果である可胜性がありたす。 DNA合成が3'-5 '方向に進むず、60䜍のヌクレオチド画像3が最初にDNA鎖に远加されたす。合成されたDNAフラグメントは、DNA鎖の目的の長さが埗られるたで合成チャンバヌに留たるため、合成の開始時にDNA鎖に远加されたヌクレオチドは、合成環境に最も長く留たりたす。したがっお、これらのヌクレオチドは、ほずんどの合成ステップ、したがっおほずんどの酞化ステップを経おいたす。



化孊DNA合成のこの性胜特性は、G組成が鎖に沿っお5'-3 '方向に枛少し、T組成が5'-3'方向に増加する堎合、傟向2䜍眮の非等䟡性の説明になりたす。



酞化は、G-Tトランスバヌゞョン3eず呌ばれる珟象を匕き起こす可胜性がありたす。この珟象では、G塩基が化孊的に倉化し、DNA耇補ステップ䞭にT塩基に眮き換えるこずができたす。



䞊蚘の傟向に加えお、グラフの曲線の違いは、違いに関連しおいる可胜性がありたす。合成戊略ビルディングブロックを混合する堎合ずしない堎合。



結果に圱響を䞎える可胜性のあるバむアスの䞻な原因は2぀ありたす。カバレッゞバむアス調査䞭のアむテムの䞀郚がROI倖にある堎合ず゚ラヌによるバむアスです。



最初のオプションは䞻に゚ラヌで衚されたす。゚ラヌは、合成チップ䞊の空間配眮ずPCRの確率に関連しおいる可胜性がありたす。 2番目のオプションは、合成、PCR、およびシヌケンスの各ステップでの挿入、削陀染色䜓の䞀郚が倱われた堎合の染色䜓の再配列、たたは誀ったヌクレオチドの眮換の結果です。



この特定の研究では、カバレッゞバむアスは、各ランダムシヌケンスのカバレッゞ間に有意な䞍䞀臎がある堎合にのみヌクレオチドの分垃に圱響を䞎えたす。しかし、デヌタの分析は、゚ラヌのこの倉圢が、芳察されたヌクレオチドの非等䟡性および䜍眮の非等䟡性の原因にはなり埗ないこずを瀺した。



゚ラヌによるバむアスに関しおは、DNAの分子圢態ぞのアクセスは、DNAシヌケンスによっおのみ可胜であるため、2぀のプロセスを完党に分離できないため、合成゚ラヌずシヌケンス゚ラヌを区別するこずは非垞に困難です。ただし、調査によるず、適切なデヌタ凊理を行うず、ランダムな堎所でシヌケンス゚ラヌが発生したす。



DNA合成䞭、ストランドの成長は、目的の長さに達するたで䞭断される可胜性があり、その結果、プヌルで゚ラヌが発生したす。しかし、シヌケンスプロセスは結果に有意な圱響を瀺したせんでした3a - 3c。したがっお、゚ラヌによるバむアスは、シヌケンスではなく、DNA合成のプロセスによっおのみ発生したす。



合成13aを正芏化するこずにより、2぀のヌクレオチド3dの結合の優䜍性を瀺すヒヌトマップが埗られたした。たた、3番目の゚ラヌであるヌクレオチド結合の優䜍性を確認するこずもできたす。



単䞀の塩基の既存のヌクレオチドぞの結合は、既存のヌクレオチドの性質に郚分的に䟝存したす。A、T、C、たたはGに自由に結合できる堎合、GはAに結合する可胜性が䜎くなりたす。さらに、GがA、T、C、たたはGに自由に結合できる堎合、GはGに結合する可胜性が高くなり



たす。合成の芳点から、この䞍正確さは非垞に簡単に修正できたす。たずえば、Gの代わりにTブロックを远加するずしたがっお、A、G、T、およびCヌクレオチドのタヌゲット比率が倉曎されたす、トランスバヌゞョンからのオフセットが増加したす。



ただし、このプロセスは耇雑であるため、科孊者は研究の䞀環ずしお「物理的」線集を実行するのではなく、蚈算埌凊理アルゎリズムを䜿甚しおDNA合成䞭に䜜成されたバむアスを取り陀き、手順党䜓の信頌性ず再珟性を高めるこずにしたした。



デヌタ凊理の段階぀たり、RNGの準備段階では、合成1Microsynthから取埗したプヌルを䜿甚したした。このバリアントは、トランスバヌゞョンに起因する最も匷い倉䜍を瀺しおいたすが、滑らかな曲線は、合成ステップ䞭に最も均䞀な混合ず結合を瀺しおいたす。



合成されたDNAストランドからランダム性を読み取るには、個々のストランドを読み取る必芁がありたす。これは、シヌケンスを䜿甚しお行われたしたこの堎合、iSeq100システムが䜿甚されたした。シヌケンス埌、出力デヌタデゞタルファむルは、プヌルから正しい぀たり゚ラヌのないシヌケンスを遞択するように凊理されたした。



発生した可胜性のある゚ラヌには、削陀、挿入、および眮換の゚ラヌが含たれたす。 DNA鎖が短すぎたり、長すぎたり、損傷した塩基が含たれおいる可胜性がありたす。ランダム性に察する゚ラヌ特に削陀による゚ラヌの圱響を最小限に抑えるために、すべおのシヌケンスを60ヌクレオチドに枛らしたした。埗られた鎖から、正しい長さのランダムヌクレオチドを含む鎖のみが遞択された。



コンピュヌタヌで凊理されたDNAのプヌルが制限された埌長さが60ヌクレオチドのシヌケンスのみ、次のスキヌムを䜿甚しおDNAヌクレオチドがビットにマッピングされたしたA→0、C→0、T→1、G→1。その結果、デゞタル化されたDNA鎖バむナリに倉換されたした。



マッチング埌に取埗されたビット文字列ビットストリヌムは、その埌、NIST統蚈テストスむヌトを䜿甚しおランダム性がチェックされたした。科孊者たちは、チャンスを評䟡する方法が非垞に難しいず䞻匵しおいたす。シヌケンスは、すべおのテストが個別に成功した堎合にのみ十分にランダムであるず芋なされたした少なくずも1぀のテストが倱敗した堎合、シヌケンスは陀倖されたした。



NIST統蚈テストスむヌトを䜿甚した初期ビットストリヌムの評䟡では、すべおのテストが正垞に合栌したわけではないこずが瀺されたした。これは、結果のビットストリヌムが完党にランダムなシヌケンスず同じ統蚈的特性を持たないこずを意味したす。それらはただいくらかの冗長性ずバむアスを含んでいたす。したがっお、DNA合成の段階で発生した倉䜍を陀去するために、远加のビット凊理が必芁でした。



いく぀かの数倀が他の数倀よりも倧きい堎合に出力ビットをシフトする問題を解決するために、科孊者はフォンノむマンアルゎリズムを䜿甚するこずにしたした。アルゎリズムは、ビットをペアで順番に考慮し、3぀のアクションのいずれかを実行したす。2぀の連続するビットが等しい堎合、それらは削陀されたす無芖されたす。シヌケンス「1、0」は1に倉換されたす。シヌケンス「0、1」はれロに倉換されたす。



この研究の文脈では、フォンノむマンアルゎリズムは次のように機胜するこずが期埅されおいたした。



  • 入力が「0、1」たたは「1、0」の堎合、最初の桁が出力になり、2番目の桁は砎棄されたす。
  • 入力が「0、0」たたは「1、1」の堎合、出力がないため、䞡方の入力桁が砎棄されたす。


この方法の最倧の欠点の1぀は、倧きなデヌタ損倱です。入力デヌタの玄75は、その操䜜のために砎棄されたす。したがっお、入力は、さらなる損倱を補うのに十分な倧きさでなければなりたせん。





画像4



生のビットストリヌムオフセットを含むず凊理されたビットストリヌムオフセットなしの違いを分析するず、オフセットレベリングの効果䞊の図がはっきりずわかりたす。



各生ビットストリヌムそれぞれ60ヌクレオチド長ず各凊理ビットストリヌムそれぞれ60ヌクレオチド未満の長さの环積合蚈は、各0を「-1」に蚭定し、各1を「1」に蚭定するこずによっお蚈算されたした。さらに、オフセットのないすべおのビットストリヌムが1぀のビットブロックに結合されたした。



科孊者は、デヌタの損倱が倧きくすべおのビットの75以䞊が倱われる、蚈算効率が非垞に䜎い平均デヌタ出力レヌトが平均デヌタ入力レヌトの4倍遅いにもかかわらず、バむアスの陀去が完党に実行された出力では、バむアスが完党に䞍圚。



フォンノむマンアルゎリズムで凊理した埌に埗られたビットブロックは、NISTシステムを介しお再評䟡されたした。





衚1NIST統蚈テストの結果。



凊理されたすべおのビットストリヌムは、各テストの合栌スコアが54/56を超え、統蚈的に必芁な最小倀52/56を超えるNIST統蚈テストに合栌したした。ビットストリヌムをさらに評䟡するず、P倀が0.001以䞊であるこずがわかりたした。したがっお、シヌケンスは99.9の信頌レベルでランダムになりたす。





画像5侊



の図は、DNA合成を䜿甚しおランダム数を生成するための完党なプロセスです。我々は合成の結果ずしお、DNAの204ÎŒgのが埗られた、芚えお、その玄4×10に察応する15のDNA鎖。この量のDNAを合成するプロセスには玄8.75時間かかり、補造コストは玄100ドルです。



也燥したDNAサンプルには、28 PBの理論゚ントロピヌデヌタにバむアスがない堎合ず、フォンノむマンアルゎリズムを䜿甚しおオフセットを陀去した堎合぀たり、75のビット損倱埌の7PBのランダム性が含たれおいたす。したがっお、DNAを䜿甚しおデヌタを保存するのずは異なり、合成自䜓は、ランダム数生成のボトルネックパフォヌマンス制限芁因ではありたせん。これは、$ 0.000014 / GBのコストで毎秒225ギガバむトの速床でランダム性を生成できるためです。



ただし、逆に、シヌケンス凊理は、凊理の時間ずコストの点でボトルネックになりたす。この䜜業で䜿甚されるiSeqシステムには、より生産的なオプションたずえば、NovaSeq 6000があり、36時間で最倧200億のシヌケンス読み取りを実行できたす。財務コストは非垞に印象的です22,000ドル。したがっお、RNGのすべおの段階を考慮するず、結果は1GBあたり600ドルの䟡栌で毎秒300キロバむトの速床で取埗できたす。耇数の合成ずシヌケンスの実行を組み合わせるこずにより、コストを削枛するこずができたす。



研究のニュアンスに぀いおのより詳现な知識に぀いおは、科孊者の報告ずそれに远加された資料を調べるこずをお勧めしたす。



゚ピロヌグ



ランダムナンバヌゞェネレヌタヌは、圓時の人々がその朜圚胜力を完党に知らなかったずしおも、䜕千幎も前から存圚しおいたすむランで芋぀かった最も叀いダむスは玄5200幎前のものです。珟代の技術ず科孊の進歩により、人が予枬できないランダム性を生成できる耇雑なアルゎリズムずデバむスを䜜成できるようになりたした。しかし、人が遅れるず、テクノロゞヌが远い぀きたす。぀たり、暗号がある堎合は、埩号化機胜もありたす。したがっお、ランダム数ゞェネレヌタヌが䜿甚される情報コヌディング方法の段階的な改善は、そのようなシステムをハッキングする方法の䞊行した改善を匕き起こしたす。ロックずロックピックのこの無限の競争は、双方が絶えずたすたす倚くの新しい方法を考え出すこずを必芁ずしたす。



最新のRNGの倚くは、物理的なプロセスずアルゎリズムに基づいおいたす。しかし、化孊反応は、RNGの信頌できる基盀にはなり埗ないず考えられおいたため、長幎にわたっお傍芳されおいたした。この研究で、科孊者たちは、化孊的プロセスであるDNA合成が、RNGの基瀎の䟡倀のあるバヌゞョンであるだけでなく、倚くの面でその「物理的」競合他瀟を凌駕できるこずを瀺したした。



圓然のこずながら、この方法は䟝然ずしお粗いダむダモンドであり、远加の研究ずいう圢で粉砕する必芁がありたす。その目的は、生産性の向䞊ずコストの削枛です。それにもかかわらず、DNAを䜿甚したランダムな数倀の生成は、珟圚非垞に有望な方向です。



ご枅聎ありがずうございたした。奜奇心を持ち、良い䞀週間をお過ごしください。



ちょっずした宣䌝



ご滞圚ありがずうございたす。あなたは私たちの蚘事が奜きですかもっず面癜いコンテンツを芋たいですか泚文や友人に掚薊するこずにより、私たちをサポヌトしお、クラりドVPS $ 4.99からご開発者のための、私たちはあなたのために発明したこずを゚ントリヌレベルのサヌバのナニヌクなアナログ KVME5-2697 v3の6぀のコア10ギガバむトDDR4 480ギガバむトSSD 1GbpsのVPSに぀いお党䜓の真実19ドルからたたはサヌバヌを正しく分割する方法はRAID1およびRAID10、最倧24コアおよび最倧40GB DDR4で利甚可胜なオプション。



アムステルダムのEquinixTierIVデヌタセンタヌでDellR730xdは2倍安いですか唯䞀の我々は2×むンテルテトラデカコアのXeon E5-2697v3 2倍の2.6GHzの14C 64ギガバむトDDR4 4x960GB SSD 1Gbpsの$ 199 100テレビオランダDell R420-2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB-99ドルからビルのむンフラストラクチャを構築する方法に぀いおお読みください。1ペニヌで9000ナヌロかかるDellR730xd E5-2650 v4サヌバヌのクラス



All Articles