2019 blast練習問題回答例

pearl Exoc7の遺伝子予測が間違っていそうな場所を近縁種の配列から推定

まずはファイルの準備

echo ">exoc7_pearl
atgactctgaaggatgccctcaacaaaagtcacacaaatacaggaaacatgctcacaata
cttcaaagctttgaaaatcgtttaaagaagttagagggaacagttgagcctgtttacaat
gagacagaaatgctgcggcgcagacaagaaaatatagagaaaactatgacaacactggac
aatgtgctgggttactaccatattgctaaagatgtacaagatttgattaaagaaggtcca
gtagtttgtggtctggagaagtacctgtctactatggaccggctgctccaagcactgaac
tactttaataaacataacccaaccagtctggaagtgacagatgtcatcaaagtatatgat
gatggtaaagatacattgaatgcagagttccgtagtttacttggtcgtcactgtcgtccg
gtgccggctgttactatactggatttactaggaccagatgaagagttacaaacaatggaa
aatgatgcacccatagaacatctgcctgagaaaattgtgaatgatttaaccctcatcgca
aagtggctatacaccaatggtaaagctacagagtatatgaaagattacaccaaagtcagg
tcccaaatgctcctctactctctgcaggggaactcaataaagcggaaggctaccacggcc
ttgatgcagtccccttttgatccaggtcatagaagacaaggctcttataacgaattgaca
aaagaggaaagttttgatgttgaaattgatatctacataacagaactaacagcattgctg
aaacttattcagaatgaccctgagagatcttcgatgccccgagacggtacagttcatgaa
ctgacaaaccataccattatagtactggagcccctgttagattatgctgagacagctggg
gccatgttactcacccatggtgaacatgcagttccatctgatgctgtggatgtcaagaaa
agtaaactcaagttggctgactatatcactaaggttttgtcagcattaggattaaactta
agtaacaaggcagaaacttacagtgatccaatactcagacatgtgttcatgcttaataac
tatcactacatactcaagtctttaaaaaggtctggggtattagaattaattcacacatgg
aataaagatgtaggacagttttatgaggaccagatacatgaacaaaaaagactttattcc
cagagctggagtaaagttctacattttgtactggaaatgaatgagccaatatcccaacaa
agaatccagcaaatggagacatcaaagataaaggacaaagaaaagcagaatataaaagac
aagttctctggattcaacaaagagttggaagaaatctcacgtgttcagaaagcatacgcc
attcctgatccagaactgagggacaatatcaagaaagacaataaagaatatattgtgccg
cgatacaagcttttcttagaaaaatttcaacggctgaacttcacaaagaattcagaaaaa
tatatgaaatacactgtaaaggatgtggaagaaacacttgataaatttttcgatacttca
gcttaa" > exoc7_pearl.fna
echo ">EKC30356.1 Exocyst complex component 7 [Crassostrea gigas]
MLTILQSFENRLRKLENTVEPVYNETEMLRRRQENIEKTMVTLDNVLGYYHVGKEVEEFIKEGPHNCGLE
KYLSIMDRLVQAHNYFNKHNPTSLELTDVIRVYDDGKEALVIEFRTLLGRHCRPVPPVMVLDMISTDEEL
QGSDDIQLEHLPEKILTELSLISTWLFNNTKNTEYMKDYTRSRSSMLIKSLQGHSFKRRAVITLMQSPFD
PGNKRQGSHAELPKEENLDVEVDIYITELSALLKLIQSEAQLMSGIIADKHHRSVFDNIIQEGLDSVIKN
GELLAVNAKKSIAKHDFINVLSVFPVLKHLRSIKPEFDLTLEGCATPTRAKLTSLLSTLGSTAAKALEEF
ALSIKTDPEKASMPKDGTVHELTNRTIIFLEPLQDYADTAGAMLLLHGEQAAPSEAVDPKKSKMRLADYI
TKTLSALGLNLTIKAETYSDPTLRPVFMLNNYHYILKSLKRSGLLDLIHTWNKDVGQFYEDRINEQKKLY
SESWSRVMHYITEVHEPISQQRIQAMENSKLKDKEKQNIKDKFSGFNKELEDILKIQKGYAIPDPELREQ
MKKDNKDFIIPAFRMFLDKFKRLNFTKNPEKYIKYSVQDVAEVVDKLFDMSA" > exoc7_c.gigas.faa

後で使うアコヤガイのゲノムもダウンロードしておく。

wget https://marinegenomics.oist.jp/pearl/download/pfu_genome1.0.fasta.gz
gzip -d pfu_genome1.0.fasta.gz

準備ができたら、blastを使う環境を整えるため、dockerを起動する。

docker run -it --rm -v $PWD:$PWD -w $PWD quay.io/biocontainers/blast:2.7.1--boost1.64_1 bash

以上のコマンドを入力すると、blastが利用できる仮想環境に入る。今回はexoc7_c.gigasのアミノ酸配列をDBとして、exoc7_pearlの塩基配列をクエリーとして使用する。 まずは、exoc7_c.gigasのデータベースを作成する。

makeblastdb -in exoc7_c.gigas.faa -dbtype prot

次にexoc7_c.gigasのアミノ酸配列をDBとして、exoc7_pearlの塩基配列をクエリーとしてblastxを使用する。

blastx -db exoc7_c.gigas.faa -query exoc7_pearl.fna -num_threads 4

その結果、次のような出力が得られる。

Database: exoc7_c.gigas.faa
           1 sequences; 612 total letters



Query= exoc7_pearl

Length=1566
                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

  EKC30356.1 Exocyst complex component 7 [Crassostrea gigas]          426     6e-148


> EKC30356.1 Exocyst complex component 7 [Crassostrea gigas]
Length=612

 Score = 426 bits (1096),  Expect = 6e-148, Method: Compositional matrix adjust.
 Identities = 196/259 (76%), Positives = 235/259 (91%), Gaps = 0/259 (0%)
 Frame = +1

Query  787   IQNDPERSSMPRDGTVHELTNHTIIVLEPLLDYAETAGAMLLTHGEHAVPSDAVDVKKSK  966
             I+ DPE++SMP+DGTVHELTN TII LEPL DYA+TAGAMLL HGE A PS+AVD KKSK
Sbjct  354   IKTDPEKASMPKDGTVHELTNRTIIFLEPLQDYADTAGAMLLLHGEQAAPSEAVDPKKSK  413

Query  967   LKLADYITKVLSALGLNLSNKAETYSDPILRHVFMLNNYHYILKSLKRSGVLELIHTWNK  1146
             ++LADYITK LSALGLNL+ KAETYSDP LR VFMLNNYHYILKSLKRSG+L+LIHTWNK
Sbjct  414   MRLADYITKTLSALGLNLTIKAETYSDPTLRPVFMLNNYHYILKSLKRSGLLDLIHTWNK  473

Query  1147  DVGQFYEDQIHEQKRLYSQSWSKVLHFVLEMNEPISQQRIQQMETSKIKDKEKQNIKDKF  1326
             DVGQFYED+I+EQK+LYS+SWS+V+H++ E++EPISQQRIQ ME SK+KDKEKQNIKDKF
Sbjct  474   DVGQFYEDRINEQKKLYSESWSRVMHYITEVHEPISQQRIQAMENSKLKDKEKQNIKDKF  533

Query  1327  SGFNKELEEISRVQKAYAIPDPELRDNIKKDNKEYIVPRYKLFLEKFQRLNFTKNSEKYM  1506
             SGFNKELE+I ++QK YAIPDPELR+ +KKDNK++I+P +++FL+KF+RLNFTKN EKY+
Sbjct  534   SGFNKELEDILKIQKGYAIPDPELREQMKKDNKDFIIPAFRMFLDKFKRLNFTKNPEKYI  593

Query  1507  KYTVKDVEETLDKFFDTSA  1563
             KY+V+DV E +DK FD SA
Sbjct  594   KYSVQDVAEVVDKLFDMSA  612


 Score = 389 bits (998),  Expect = 2e-133, Method: Compositional matrix adjust.
 Identities = 203/341 (60%), Positives = 250/341 (73%), Gaps = 33/341 (10%)
 Frame = +1

Query  49    MLTILQSFENRLKKLEGTVEPVYNETEMLRRRQENIEKTMTTLDNVLGYYHIAKDVQDLI  228
             MLTILQSFENRL+KLE TVEPVYNETEMLRRRQENIEKTM TLDNVLGYYH+ K+V++ I
Sbjct  1     MLTILQSFENRLRKLENTVEPVYNETEMLRRRQENIEKTMVTLDNVLGYYHVGKEVEEFI  60

Query  229   KEGPVVCGLEKYLSTMDRLLQALNYFNKHNPTSLEVTDVIKVYDDGKDTLNAEFRSLLGR  408
             KEGP  CGLEKYLS MDRL+QA NYFNKHNPTSLE+TDVI+VYDDGK+ L  EFR+LLGR
Sbjct  61    KEGPHNCGLEKYLSIMDRLVQAHNYFNKHNPTSLELTDVIRVYDDGKEALVIEFRTLLGR  120

Query  409   HCRPVPAVTILDLLGPDEELQTMENDAPIEHLPEKIVNDLTLIAKWLYTNGKATEYMKDY  588
             HCRPVP V +LD++  DEELQ   +D  +EHLPEKI+ +L+LI+ WL+ N K TEYMKDY
Sbjct  121   HCRPVPPVMVLDMISTDEELQG-SDDIQLEHLPEKILTELSLISTWLFNNTKNTEYMKDY  179

Query  589   TKVRSQMLLYSLQGNSIKRKATTALMQSPFDPGHRRQGSYNELTKEESFDVEIDIYITEL  768
             T+ RS ML+ SLQG+S KR+A   LMQSPFDPG++RQGS+ EL KEE+ DVE+DIYITEL
Sbjct  180   TRSRSSMLIKSLQGHSFKRRAVITLMQSPFDPGNKRQGSHAELPKEENLDVEVDIYITEL  239

Query  769   TALLKLIQNDPERSSMPRDGTVHELTNHTII--VLEPLLDYAETAGAMLLTHGEHAVPSD  942
             +ALLKLIQ++ +  S    G + +  + ++   +++  LD     G +L
Sbjct  240   SALLKLIQSEAQLMS----GIIADKHHRSVFDNIIQEGLDSVIKNGELL-----------  284

Query  943   AVDVKKSKLKLADYITKVLSALGLNLSNKAETYSDPILRHV  1065
             AV+ KKS  K  D+I  VLS               P+L+H+
Sbjct  285   AVNAKKSIAK-HDFIN-VLSVF-------------PVLKHL  310

結果の見方ですが、アライメントが取れた配列は2箇所あり、2つ目のアライメントを見ると、「Sbjct」というのがDBとして使用したexoc7_c.gigasのほうの配列で、248アミノ酸からexoc7_pearlと相同性が低くなっています。クエリーのexoc7_pearlはDNA配列なので、1文字あたり3bpずつ増えていき、787bp以降が相同性の低い領域に該当する。 そして、1つ目のアライメントを見ると、exoc7_pearlは787bpからアライメントが始まるが、exoc7_c.gigasは354アミノ酸から始まっている。 そのため、exoc7_c.gigasの248~353アミノ酸がexoc7_pearlでは欠損した部位であるとわかる。

遺伝子予測で欠損した部位はアコヤガイゲノムのどのscaffoldにあるか調べる

まずは欠損部位をFASTA形式で保存しておく。

echo ">exoc7_deleted
SEAQLMSGIIADKHHRSVFDNIIQEGLDSVIKNGELLAVNAKKSIAKHDFINVLSVFPVLKHLRSIKPEFDLTLEGCATPTRAKLTSLLSTLGSTAAKALEEFALS" > exoc7_deleted.faa

次にアコヤガイゲノムのblastのインデックスを作成する。

makeblastdb -in pfu_genome1.0.fasta -dbtype nucl

欠損部位をクエリーとして、アコヤガイゲノムにtblastnで検索する。

tblastn -db pfu_genome1.0.fasta -query exoc7_deleted.faa -num_threads 4

その結果、

Query= exoc7_deleted

Length=106
                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

  scaffold294819.1|size544                                            118     2e-33


> scaffold294819.1|size544
Length=544

 Score = 118 bits (295),  Expect = 2e-33, Method: Compositional matrix adjust.
 Identities = 55/75 (73%), Positives = 67/75 (89%), Gaps = 0/75 (0%)
 Frame = -3

Query  1    SEAQLMSGIIADKHHRSVFDNIIQEGLDSVIKNGELLAVNAKKSIAKHDFINVLSVFPVL  60
            SEAQLMSGII +KHHRSVF++II+  LD V+K GE LA NAKKSI+KHDF++VLSVFPV+
Sbjct  227  SEAQLMSGIIPEKHHRSVFESIIEGSLDMVVKGGETLASNAKKSISKHDFLSVLSVFPVV  48

Query  61   KHLRSIKPEFDLTLE  75
            +HLR++KPEFDL LE
Sbjct  47   RHLRTVKPEFDLALE  3

が得られ、scaffold294819.1にExoc7のexonが一つ存在することがわかる。 (この欠損部位以外のExoc7のexonは、scaffold1200にあります。)