小麦の遺伝学にとって重要なタスクは、倍数性(細胞核内の同一の染色体セットの数)を決定することです。この問題を解決するための古典的なアプローチは、費用と労力を要する分子遺伝学的手法の使用に基づいています。植物の種類の決定は、実験室の条件でのみ可能です。したがって、この作業では、仮説をテストします。耳の画像のみに基づいて、コンピュータービジョン法を使用して小麦の倍数性を決定することは可能ですか。
データの説明
この問題を解決するために、ワークショップの開始前でも、各植物種の倍数性がわかっているデータセットが作成されました。合計で、6倍体の写真が2344枚、四倍体の写真が1259枚ありました。
ほとんどの植物は、2つのプロトコルを使用して撮影されました。最初のケース(1つのプロジェクションのテーブル上、2番目のケース)は、4つのプロジェクションの洋服ピンです。写真では、カラーチェッカーのカラーパレットが常に存在していました。色を正規化し、スケールを決定する必要があります。
644の固有のシード番号を持つ合計3603枚の写真。データセットには20種類の小麦が含まれています。10倍体、10倍体。 496のユニークな遺伝子型; 10のユニークな植物。植物は2015年から2018年の間に温室で栽培されましたICG SBRAS。生物学的資料は、学者のニコライ・ペトロヴィッチ・ゴンチャロフによって提供されました。
検証
データセット内の1つのプラントは、さまざまなプロトコルを使用してさまざまな投影で撮影された最大5枚の写真に対応できます。データを、トレイン(トレーニングサンプル)、有効(検証サンプル)、ホールドアウト(遅延サンプル)の3つの階層化セットに、それぞれ60%、20%、20%の比率で分割しました。分割する際、特定の遺伝子型のすべての写真が常に1つのサブサンプルに表示されることを考慮しました。この検証スキームは、トレーニングされたすべてのモデルに使用されました。
従来のCVおよびMLメソッドを試す
問題を解決するために使用した最初のアプローチは、以前に開発した既存のアルゴリズムに基づいています。このアルゴリズムにより、各画像からさまざまな定量的特徴の固定セットを抽出できます。たとえば、耳の長さ、日よけの面積などです。アルゴリズムの詳細な説明については、Genaev et al。、Morphometry of the Wheat Spike by Analysing 2D Images、2019を参照してください。このアルゴリズムと機械学習方法を使用して、倍数性のタイプを予測するためにいくつかのモデルをトレーニングしました。ロジスティック回帰
法、ランダムフォレストおよび勾配ブースティングを使用しました。データは事前に正規化されています..。精度の尺度としてAUCを選択しました。
| 方法 | 列車 | 有効 | 差し出す |
| ロジスティック回帰 | 0.77 | 0.70 | 0.72 |
| ランダムフォレスト | 1.00 | 0.83 | 0.82 |
| ブースト | 0.99 | 0.83 | 0.85 |
遅延サンプリングで最高の精度は、勾配ブースティング法によって示されました。CatBoost実装を使用しました。
結果の解釈
モデルごとに、各特性の「重要性」の見積もりを受け取りました。その結果、すべての機能のリストを取得し、重要度に応じてランク付けし、上位10個の機能を選択しました:Awns領域、円形度インデックス、真円度、周囲、ステム長、xu2、L、xb2、yu2、ybm。 (各機能の説明はここにあります)。
重要な特性の例は、耳の長さと周囲です。四倍体と六倍体におけるこれらの特性の値の分布がヒストグラムに示されています。六倍体の分布がより高い値にシフトしていることがわかります。t-SNEメソッド
を使用して上位10の機能をクラスター化しました
一般的に、倍数性が高いほど、特性の可変値が多くなります。六倍体は、特性の値のより大きなばらつき/分散によって特徴付けられます。これは、六倍体の遺伝子のコピー数が多く、したがってこれらの遺伝子の「働き」の変異体の数が増えるためです。
六倍体の表現型の変動が大きいという仮説を確認するために、F統計を使用しました。 F統計は、2つの分布の分散の違いの重要性を示します。 2つの分布に違いがないというヌル仮説に反論するために、p値が0.05未満の場合を検討しました。このテストは、特性ごとに個別に実行しました。テスト条件:独立した観測値(複数の画像の場合はそうではありません)と正規分布のサンプルが必要です。これらの条件を満たすために、各耳の1つの画像をテストしました。彼らは「テーブルの上」のプロトコルに従って、1つの投影でのみ写真を撮りました。結果を表に示します。六倍体と四倍体の分散は、7文字で有意差があることがわかります。さらに、すべての場合において、分散の値は六倍体でより高くなります。六倍体の表現型の変動が大きいことは、1つの遺伝子のコピーの数が多いことで説明できます。
| Name | F-statistic | p-value | Disp Hexaploid | Disp Tetraploid |
| Awns area | 0.376 | 1.000 | 1.415 | 3.763 |
| Circularity index | 1.188 | 0.065 | 0.959 | 0.807 |
| Roundness | 1.828 | 0.000 | 1.312 | 0.718 |
| Perimeter | 1.570 | 0.000 | 1.080 | 0.688 |
| Stem length | 3.500 | 0.000 | 1.320 | 0.377 |
| xu2 | 3.928 | 0.000 | 1.336 | 0.340 |
| L | 3.500 | 0.000 | 1.320 | 0.377 |
| xb2 | 4.437 | 0.000 | 1.331 | 0.300 |
| yu2 | 4.275 | 0.000 | 2.491 | 0.583 |
| ybm | 1.081 | 0.248 | 0.695 | 0.643 |
私たちのデータには20種の植物が含まれています。 10の六倍体と10の四倍体小麦。
各ポイントの色+形状が特定のビューに対応するように、クラスタリング結果に色を付けました。
ほとんどの種は、チャート上でかなりコンパクトな領域を占めています。ただし、これらの領域は他の領域と多く重複する可能性があります。一方、1つの種内には、たとえばT Compactum、Tpetropavlovskyiなどの明確に定義されたクラスターが存在する可能性があります。
10個の特徴について各種の値を平均し、20行10列の表を取得しました。20種のそれぞれが10個の特徴のベクトルに対応します。これらのデータについて、相関行列が作成され、階層クラスター分析が実行されました。グラフの青い四角は4倍体に対応します。
造られた木では、一般的に、小麦種は四倍体と六倍体に分けられました。六倍体種は明らかに2つのクラスターに分けられました:中毛-T。macha、T。aestivum、T。yunnanenseおよび長毛-T。vavilovii、T。petropavlovskyi、T。spelta。唯一の例外は、唯一の野生の倍数体(四倍体)種であるT.dicoccoidesが六倍体として分類されたことです。
同時に、四倍体種には、コンパクトな耳型の六倍体小麦(T.compactum、T。antiquorum、T。sphaerococcum)、および一般的な小麦の人工同質遺伝子系統ANK-23が含まれていました。
CNNを試す
耳の画像から小麦の倍数性を決定する問題を解決するために、ImageNetで事前にトレーニングされた重みを使用してEfficientNetB0アーキテクチャの畳み込みニューラルネットワークをトレーニングしました。 CrossEntropyLossは損失関数として使用されました。アダムオプティマイザー; 1つのバッチのサイズは16です。画像のサイズが224x224に変更されました。学習率は、初期lr = 1e-4のfit_one_cycle戦略に従って変更されました。ネットワークを10エポックトレーニングし、次の拡張をランダムに適用しました:-20 +20度の回転、明るさ、コントラスト、彩度、ミラーリングの変更。最適なモデルは、AUCメトリックに従って選択され、その値は各エポックの終わりに計算されました。
その結果、遅延サンプルAUC = 0.995の精度は、accuracy_scoreに対応します。= 0.987および1.3%のエラー。これは非常に良い結果です。
結論
この作品は、5人の学生と2人のキュレーターのチームが緊急の生物学的問題を解決し、数週間以内に新しい科学的結果を得る方法の良い例です。
:私は、我々のプロジェクトのすべての参加者に自分の感謝の意を表したいと思いニキータProkhoshin、アレクセイPrikhodko、エフゲニーZavarzin、アルテムPronozin、アンナPaulish、エフゲニーKomyshev、ミハイルGenaev。
Koval VasilySergeevichとKruchininaYulia Vladimirovnaは、トウモロコシの耳を撃ちました。
Nikolai PetrovichGoncharovとAfonnikovDmitry Arkadyevichは、提供された生物学的資料を提供し、結果の解釈を支援してくれました。
ノボシビルスク州立大学の数学センターへとSB RASの細胞学・遺伝学研究所のイベントを組織して、電力を計算します。
PS記事の後半では、耳のセグメンテーションと個々のスパイクレットの選択について説明する予定です。