今から晴れるよ
曇天、雨つづきの7月でしたが 東京では久しぶりの晴れ空となった、7月19日(金)。
アメリエフではバイオインフォマティクス勉強会を開催しました!
第49回バイオインフォマティクス勉強会「NGS解析基礎知識~頻出データフォーマットとExcelを用いたサマライズ@東京~」開催のお知らせ | amelieff
偶然にも、某有名映画「天気の...」の公開日と同日開催となりましたが
それを差し置いて、多くの方に足を運んでいただきました。
今週のお題「空の写真」
内容のまとめ
前半・NGS関連データのフォーマットについて
NGS解析で用いられる特有のデータ形式を詳しく見ていきました。
登場したのは
- FASTA(配列情報)
- FASTQ(配列情報)
- BAM, SAM(アライメント情報)
- BED(ゲノム領域情報)
- VCF(変異情報)
- GFF, GTF(feature情報)
FASTAのようなわかりやすい形式、SAMのような人が辛うじて読めるくらいの複雑なファイルまで、いろいろご説明しました。
どの情報がどのファイルのどの部分に記述されているのか
なんとなくわかっていると(何度か使うと覚えちゃいます)、
解析の実行や結果の解釈、予想外の事態への対処に役立つと思います。
後半・パイソニスタ自動化の流儀〜vcfからExcel作成までをPythonで操る〜
パイソニスタ = Python + -ista ・・・つまりPython熟練者!
Welcome to Pythonista ♪
自動化の流儀の一つ
それは・・・
実行したい処理を一通り決めてから、適切なモジュール選び、関数化を始めることです。
* プログラムの一例です
今回は
vcfから、セルに色付けしたExcel作成までの処理を、たくさんのファイル分Pythonで実行するという目標で、
いくつかのステップに分けて関数を作成、そのコードを紹介していきました。
- VCFをよみこむ
- Excelに保存
- Excelを開いてセルに色をつける
- 1~3をまとめた「VCFから、色付きエクセル作成」関数
- 指定のフォルダにある全てのVCFファイルを選び、自動で4を実行
勉強会では参加者の方がPCを操作する場面はないのですが、
思考の流れ、コマンドひとつひとつの解説をしたので、「ふむふむ」と思っていただけた・・・のではないでしょうか?
上記のコードも一通り書いており、資料の通りにやればOK! というお得な構成となっておりました😄
あとがき
講義のあとは質疑応答で長年の(?)疑問が解決したり、pythonについて語り合ったり・・・
説明を読む聞くだけではなく、交流の場としてもお役に立てたのではないかと思います。
データ形式でもpythonでも、自分のデータを見てみたり、ぽちぽちコマンドを打ってみるとよく身につきますので、
参加してくれた方は資料片手に、そうでなくても参考書などを片手にPCに向かってみてくれると嬉しいです。
あとがき2 〜PR〜
- 勉強会よさそう。うちにも来て欲しい。
- もっと本格的に説明を受けたい。
- PCの前に放り出されても分からないから手伝ってほしい。
- 説明を聞きながら手を動かしてコマンドを実行したい。
一つでも当てはまる方は、もっと本格的なトレーニングを受けてみませんか?
勉強会のテーマ関連ですと、python入門も、NGS解析(変異検出、RNA-Seq)もあります。
その他の解析もお問い合わせください♪(「ブログで見た」と書いていただけると私が喜びます)
あとがき3 〜次回の勉強会のPR〜
次回は9月中旬に開催します。
乞うご期待!
宣伝が長かった...(・-・;)
お読みいただきありがとうございました!