ゲノムに畳み込みニューラルネットワーク(CNN)を使用し表現型を予測する

小麦の遺伝子の情報から表現型を予測するという論文を読んでみました。

DeepGS: Predicting phenotypes from genotypes using Deep Learning という論文です。twitterでいい感じの論文ないかなと思って探してたら、ちょうどいいのを見つけました。

データを、各個体の遺伝子が存在するかしないかを0,1で表現し、CNNで特徴を読み込んでいます。（論文中では、以下のように記載）

For the DArT markers, an allele was encoded by either 1 or 0, to indicate its presence or absence, respectively.

以下の表現型に対して、教師データ的なのがついてるっぽい。

今回のCNNの全体像はこんな感じ。

CNN_genome （論文より引用）

実際のモデルは、既存のアルゴリズム（RR-BL）と混ぜて、作成しているみたいです。以下、ザックリと今回のCNNについて。

8-32-1 architecture (i.e. eight nodes in the first hidden layer, 32 nodes in the second hidden layer, and one node in the output layer)

超ザックリとした学習の流れ

やっぱりゲノムの話と機械学習の話は組み合わせると面白いなと思いました。（小並感）

ただ一方で、今回の課題設定だとCNN以外にもLight GBMやCatboostとかでもいける気がする。どうせ混ぜるなら、いろいろモデル混ぜた方が予測精度は上がるんじゃないかなと思いました。

あと、遺伝子の欠損を0,1で表現するのは問題ないんでしょうか？（実は裏で、RNA-seqとかで遺伝子の発現みてるとか？）

とりま、たまにここら辺の論文も読んでいこうと思います。

和風ましらに