1.5日目練習問題で使用したexample.vcfファイルの10列目、11列目にはそれぞれ「sample1」、「sample2」の検体の変異情報が記載されている。

「:」区切りの最初の1項目目がジェノタイプ情報であり、下記の意味になる。
0/0 : 変異なし
0/1 : 片方(父親由来もしくは母親由来のどちらか)の染色体に変異あり(ヘテロ)
1/1 : 両方の染色体に変異あり(ホモ)
./.    : デプスが不十分で判定不可能

ここで数字の1が2、3、4・・・などになることがあるが、それはVCFの5列目(ALT)の変異した配列の何番目になるかを示している。例:ALT→A,Cのとき、0/1であれば、Aの変異を1つ、0/2であればCの変異を1つ持つ。

sample1でデプスが不十分で判定不可能とされる変異はいくつか?sample2では?

#sample1
grep -v "^#" example.vcf|awk -F'\t' '{if($10~"^[.]/[.]"){cnt++}} END{print cnt}'

#sample2
grep -v "^#" example.vcf|awk -F'\t' '{if($11~"^[.]/[.]"){cnt++}} END{print cnt}'

また、DP(各検体のリード数)が4以下の変異数はsample1, 2それぞれ幾つか?

#sample1
grep -v "^#" example.vcf|awk -F'\t' '
 {
  n++;
  split($10,arr,":");
  if(arr[3]<=4){cnt++}
 }
 END{print n, cnt}
'

2.4日目で使用した、take.blastn.txtにはRで読み込むと意図しない結果になる文字(#)やほかのプログラムでエラーになりそうな文字が含まれている。次のそれぞれの文字が含まれている行数を出し、すべて「_」に置換せよ。

# ' ( )

awk -F'\t' '
{
 if($0~"[#'"'"'()]"){cnt++};
 gsub("[#'"'"'()]","_",$0);
 print $0
} 
END{print cnt}
' take.blastn.txt

3.とあるプログラムを使うためにtake.blastn.txtの2列目の遺伝子名を「“」で囲む必要が出てきた。2列目を「”」で囲んで出力せよ。

awk -F'\t' '
{
 OFS="\t"; #$2を変更するともともとタブ区切りだったのがスペースに変換されてしまうので、タブのまま出力するのに必要
 $2="\""$2"\"";
 print $0
}
' take.blastn.txt