解析結果を出力する際、複数の数値をコンマで結合して羅列したいことがあります。
例えばBEDフォーマットでは、エクソンの長さや開始位置を示すblockSizesやblockStartsには「468,69,147,159」や「0,608,1434,2245」のような値を入れることになっています。
※BEDフォーマットって何?という方は、過去記事「BEDフォーマット完全解説」をご覧ください。
このようなファイルをExcelで開くと、コンマが桁区切りと認識され、1つの数値に変換されてしまうことがあります。
下の図の赤で囲ったセルには「152,159,198,136,456」という文字列が入っています。
「152」「159」「198」「136」「456」という5つの数値をコンマで結合した文字列を入れたかったのに、「152159198136456」という数値として認識されてしまいました。
対策として、Excelにファイルを読み込むときにデータ型を明示的に文字列として指定すれば良いのですが、毎回やるのは少し面倒くさいですね。
もっと簡単な対策として「152, 159, 198, 136, 456」のようにコンマの後に半角空白を入れるのがおすすめです。これで勝手に変換されなくなります。
もしくは「152,159,198,136,456,」のように、最後にもう一つコンマをつけてもいいです。UCSC GenomeBrowserのBED12のblockSizesやblockStartsには最後にコンマがついています。