アメリエフの技術ブログ

Amelieff Staff Blog

PLINKで可能なファイル形式の変換

今週は4連休ですよ!
長く休めて嬉しいような、営業日が思ったより少なくてスケジュール調整で大変なような。

海の日と体育の日のおかげなのですが、まだちょっと海などのレクリエーションに出かけるのはためらいを感じるのは私だけではないはず。
出かける代わりに、自宅で海洋生物について詳しくなってみるのはいかがでしょうか。
最近は、動画サイトに動物園や水族館の公式チャンネルがたくさんあって、動物たちの様々な姿を楽しめますね。遠くて行ったことがない動物園・水族館の動画を見て、世情が落ち着いたら行ってみたいと夢想するのも楽しいです。
ちなみに私が最近よく見ているのは男鹿水族館の赤ちゃんアザラシの様子です。

f:id:kubo-m:20200720174821p:plain

最近SNP解析のお仕事が続き、PLINKさんと結構仲良くしてたと思うので、PLINKの便利機能 --recode についてちょっとご紹介します。
https://www.cog-genomics.org/plink/1.9/data#recode

まず大前提として、PLINKがSNPデータをどう扱うかですが、SNPアレイから出てきたテキストファイル(PED、MAPなど)を、PLINKは --make-bed オプションでバイナリファイルに変換します。
PLINKが扱うバイナリファイルは .bed .bim .fam の3つのファイルのセットから成ります。PLINKを用いた解析のほとんどは、これらのバイナリファイルのセットを用いて行います。

しかし、バイナリファイルに変換したデータをもう一度テキスト形式であるPED/MAPに変換したいと思うこともあります。具体的なシチュエーションがとっさに思い浮かびませんが、確実にあります。
そんな時に使えるのが、 --recodeオプションです。
plink.bedplink.bimplink.famの3つのバイナリファイルを読み込み、PED/MAPファイル(plink.pedplink.map)を作成したいときは --recode でPEDを作りたいと指定します。

plink --bfile plink --recode ped --out plink

簡単!! これで作成できます!!!
(もっといえば、バイナリファイルおよび出力ファイルのprefixのデフォルトが plink なのでさらに省略できます)。
MAPファイルの作成は指定していませんが、PEDファイルとMAPファイルは必ずセットなので、PEDだけを指定すればMAPファイルも自動で作成されます。
親切。

PLINKが --recode で出力できるファイル形式は、PED/MAPやバイナリファイル以外にもたくさんあります。
--recode で変換できるファイル形式は plink --help | less などでヘルプを閲覧し、そのなかの --recode の項目を参照してください。
ちなみに私が使ったことがあるのは vcfHV(HaploView形式)、tped/tfamあたりです。


全然関係ない話に脱線します。
昔々、「PLINKってプリンクって読むの?ピーリンクって読むの?」という会話をしたことがありますが、旧PLINKのHPで「one syllable」と発音を指定してくれているので、プリンクが正しいです。
そもそもピーリンクって読んでる人にはお会いしたことないですが、新PLINKのHPでも、もう発音をわざわざ説明しておらず、プリンクという名前が解説不要なほどしっかり浸透しているということなのでしょう。