こんにちは、受託コンサルティングチームの hosor です。
シングルセル解析におけるクオリティコントロール (QC) は、解析・解釈の精度を高める上で重要なステップです。
今回は、10x Genomics 社の以下の記事を参考にしつつ、QC の概要について書いていこうと思います。

一般的なフィルタリング
Seurat, Scanpy などで最初に実施する一般的な方法です。
以下のようなバイオリンプロットを描画し、主に 3 つの指標に基づいてフィルタリングを行います。

- nFeature_RNA
- 検出された遺伝子数を表します。
- 極端に少ない場合・極端に多い場合は実験的なエラーが疑われます。
- nCount_RNA
- 検出された転写産物数を表します。
- nFeature_RNA と同様に、極端に少ない場合・極端に多い場合は実験的なエラーが疑われます。
- percent.mt
- ミトコンドリア RNA の割合を表します。
- 極端に高い場合は死細胞であることが疑われます。
※ 他にも、リボソーム遺伝子や、ヘモグロビン遺伝子を考慮することもあります。
経験上、いわゆる「綺麗な」バイオリンプロットになるように、外れ値をフィルタリングするケースが多いです。
ただし、データの性質に合わせて、基準値を柔軟に設定する必要があります*1。
ツールによるフィルタリング
Doublet
本来は 1 つの細胞が捉えられるべきですが、誤って 2 つ以上の細胞が捉えられてしまった状態のことを指します。
先ほど記載した nFeature_RNA, nCount_RNA を見ることで除外できますが、DoubletFinder のようなツールで予測することも可能です。
なおDoubletFinderについては、以下の論文で 9 つの方法が比較されており、DoubletFinder method has the best detection accuracy と述べられています。
Empty droplet
Doublet とは逆に、細胞が 1 つも捉えられていない状態のことを指します。
こちらも nFeature_RNA, nCount_RNA を見ることで除外できますが、CellBender のようなツールで除外することもできます。
Ambient RNA
ダメージを受けた細胞から溶出した RNA のような、いわゆる「コンタミの RNA」 のことを指します。
これを含んだ細胞の発現パターンは歪んでしまう可能性があるため、SoupX や CellBender で除外することが一般的です。
Empty droplet と Ambient RNA については、以下の記事でもまとめられているので、参考にしてみてください。
最後に
色々と書きましたが、絶対的な方法はないため、いくつかの QC パターンを試していただくことをおすすめします。
また、むやみに QC を行うと、目的とする細胞集団が除外されてしまったり、以降の解析が実施できなくなる可能性もあるため、注意が必要です。
フィルタリングは経験が問われる難しい作業です。データのクオリティに関するお困りごとがございましたら、ぜひアメリエフにご相談ください。
*1:例えば、できるだけクオリティの高い細胞のみで解析を行いたい場合には、フィルタリングを厳しく設定するといった考え方です。
