こんにちは、企業でdryとwetの狭間に漂うdrywettyです。今回は創薬に興味のあるバイオインフォ 初心者におすすめなプログラミング言語として紹介したRについて私の理由を紹介します。
Rがおすすめな個人的理由
前に書きましたが、本当にオススメなのは自分の研究および環境に合った言語ですが、ざっくりとバイオインフォに興味があって創薬研究に生かしたいけど特にこだわりもない場合はRをおすすめします。その理由は以下の通りです。
- 創薬研究では遺伝子発現データの解析が多くRが有用
- ほかのオミックスデータの統計解析もRプログラムが多い
- 統合開発環境のRstudioが使いやすい
理由1:RNAseqデータの解析はRが有用
創薬研究のさまざまなフェーズで使われるのが遺伝子発現データです。例えば、
探索フェーズでは創薬ターゲット候補の探索を目的とした患者サンプルと健常サンプルの比較解析や層別化、医薬品のメカニズム解析として候補の化合物をかけたときの遺伝子発現変化を解析、前臨床フェーズでは薬効や副作用マーカーの探索、などなど。
遺伝子発現データがよく使われる理由については個人的に下記の4つくらいが有力だと思います。
- 疾患にある遺伝子変異より疾患で発現亢進している遺伝子の方が標的にしやすい。(遺伝子疾患は別ですが)
- マイクロアレイの時代から遺伝子発現データが世の中で多く取られていてパブリックデータが豊富。
- 解析する遺伝子数は大体一定(多くても10万くらい)で行列データとして扱いやすい。
- ゲノムデータに比べるとファイルのサイズが小さい。
こんな状態ならもうRを勉強しても解析され尽くされてて意味ないじゃないかと思うかもしれませんが、解析者よりデータの方が増えていてまだまだ問題ないと思います。特に遺伝子発現データを利用したパッケージもまだ増えている状態なので、解析手法×解析データ×あなたのアイデアで可能性は無限大です!
理由2: 他のオミックスデータの統計解析もRが有用
Rは統計解析向けのプログラム言語として作られていますので遺伝子発現データ以外の大きなデータに対してもさまざまな解析手法や可視化ができるパッケージがあります。ゲノム、プロテオーム、メタボローム、シングルセル解析などなど。
オミックスデータ解析ツールの一例としてmixOmicsを紹介します。シングルのオミックスデータの解析だけでなく、複数のプラットフォームから得られたオミックスデータを統合して解析ができるツールです。
理由3: 統合解析環境のRstudioが使いやすい
Rを勉強する際にはまずRだけでなくRstudioも導入しましょう。Pythonでいうjupyter notebookですが、統合解析環境があるとプログラムを書いて実行して結果を見るのが楽しか感じます。(私は初め知らなかったので使い始めて感動しました。)
導入方法はいろんな人がqiitaなどにまとめてくれていますのでリンクを貼っておきますね。
https://qiita.com/hujuu/items/ddd66ae8e6f3f989f2c0
終わりに
最後二つは創薬関係なくただRが便利だよって理由になってしまいましたが、こんな感じで私はRよく使っています。ただRだけでは十分な解析ができないので他のプログラムと組み合わせるのが次のステップになると思います。次はpythonについて紹介できたらと思います。ではみなさん素敵な実験ライフ、解析ライフを!