遺伝子(正確にはトランスクリプト)発現情報ファイル
wget http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/2018train/take.tpm.txt
と、各遺伝子のBlast検索結果ファイル
wget http://www.suikou.fs.a.u-tokyo.ac.jp/yosh_data/2018train/take.blastn.txt
から、次のファイルを作成せよ
1.Blastの結果ファイルのうち、E-value が 1e-10 (0.0000000001)以下のトップヒットを抽出せよ。
awk -F'\t' '{if($11<=1e-10){print $0}}' take.blastn.txt |more #最後に|moreを付けておくと出力が流れていかないので便利
2. 遺伝子発現情報ファイルに1.で抽出された遺伝子名を付与せよ。
awk -F'\t' ' { if(FILENAME==ARGV[1]){ if($11<=1e-10){data[$1]=$2} } if(FILENAME==ARGV[2]){ print $0"\t"data[$1] } } ' take.blastn.txt take.tpm.txt |more #TRINITY_DN82_c0_g1_i1 4.2755 0 0 PREDICTED:_Danio_rerio_sestrin…など
3. 遺伝子名を付与することが出来た既知の遺伝子は全部で何個、何%か?
awk -F'\t' ' { if(FILENAME==ARGV[1]){ if($11<=1e-10){data[$1]=$2} } if(FILENAME==ARGV[2]){ if(data[$1]!=""){cnt = cnt + 1} n = n + 1; } } END{ print n" "cnt" "cnt/n; } ' take.blastn.txt take.tpm.txt #157727 16916 0.107249