よくある質問とお役立ち情報

よくある質問

計算が終わりましたが。結果が空です。

オプションは,で区切って指定しますが、,の後にスペースが入るとうまく動きません。スペースを入れずに指定してください。

download.plを実行しましたが、fastqファイルがダウンロードできません。

vdb-configでsratoolkitの初期設定をする必要があります。
fastq-dumpの設定のページへのリンクを参考に設定してください。
Dockerでの動作は確認済みですので、設定が面倒な場合はDockerをご利用ください。(ただしsudoの権限が必要になります。)

*.bi.snpや*.svの結果のファイルのコントロールとターゲットのリード数について教えてください。

双方向整列法やk-mer法で検出された多型の部分は、それぞれ野生型あるいは変異型を持つリードの数を数えて多型の正当性を検証しています。

1       549327  T       G       50      0       0       14      M
1       551708  A       C       50      0       0       6       M
1       551984  G       A       50      0       0       4       R
1       552024  A       G       50      13      0       5       N
1       553280  T       A       50      0       12      0       R
1       553304  A       T       50      0       11      1       R
1       1755662 G       A       50      0       9       10      H

5,6,7,8カラム目は、それぞれコントロール野生型、コントロール変異型、ターゲット野生型、ターゲット変異型を持つリードの数です。
コントロールを指定しないでped.plを実行すると、リファレンス配列を1塩基飛ばしに100塩基長で切り出した配列をコントロールとして計算します。なので、通常はコントロールは野生型50、変異型0になります。
ゲノム上の異なる2ヶ所に200塩基以上の非常に似た配列があり、その中の1塩基が異なっている場合、双方向アライン法やk-mer法で多型が検出されますが、この場合は、A552024Gのように変異型でも13のカウントが検出され無効となります。
別のサンプルの配列データをコントロールに指定して、コントロール側にもA552024Gのような変異が検出された場合は、ターゲットで検出された変異はコントロールも持っているということなので、双方間には多型はないということになります。
ターゲット変異型のみを持つT549327GやA551984Cはホモ型変異ということでMのマークとなっています。変異型リード数5以上で変異型と判定するため、G551984Aは未確定ということでリピートの場合と同じRのマークとなっています。リード数が少ないだけで正しいかもしれません。
G1755662Aは、ターゲットの野生型と変異型が半々となっています。ヘテロ型と判定されてHとマークされています。実用上はMとHのマークのある行のみ抜き出して以後の解析に用いて問題ありません。
目的の変異をとらえ損ねている可能性がある場合は、vcfではなく*.bi.snpや*.svのファイルにもどってリード数を調べるのがいいです。
プライマーデータのファイルは、MとHのマークを持つ行のみになっています。
リード数の検証はターゲットとコントロールがそれぞれ単一のサンプル、あるいは、同質性の高いバルクである必要があります。
メタゲノム解析、例えば、患者から得られたSARS-CoV-2ウイルスの配列は、様々な変異を持つウイルス集団の混合物なのでゲノムの各変異位置をこの方法で検証すると誤った結果が導き出される可能性があります。
たとえば、100塩基以内に複数のSNPが検出され、それらが別々のウイルス由来の場合、上記検証法では両方の変異を持つリードを探してしまうので、見つからなくなってしまいます。
メタゲノムのデータの場合はリード数による検証ずみの*.bi.snpや*.svのファイルではなく、*.bi.snp.countや*.sv.countなど双方向整列法で実際に検出された数を判断基準にした方が妥当な結果が得られます。

お役立ち情報

エクセルで一覧を見たい場合は、vcfファイルではなく、ターゲットのディレクトリに出力されるtarget.bi.primerやtarget.sv.primerのファイルをエクセルで開くのが便利です。ファイル形式は、タブ区切りのテキストファイルです。日付に自動変換されないように、取込時にカラムを数値や文字列型と指定するといいでしょう。エクセルの条件付き書式より、セルの強調表示ルールを文字列に指定して、遺伝子型のMやHに色をつけると分りやすいです。各行に表示されるプライマーペアで多型を挟んだ増幅ができます。
プライマーのデータは、primer3の出力ではなく、私の実験経験に基づく独自のアルゴリズムとなっています。検出されたすべての多型に関して設計可能なところはすべて出力していますので、primer3ほど子細には拘らず、これだけは押さえておけば増えるというポイントを押さえて計算しています。SVに関してはバンドの有無、あるいはサイズの変化で確認できるのではっきりわかると思います。SNPの方は、小さいプロダクトサイズになるように設計していますので、温度勾配による乖離曲線での多型検出に向いています。
多型の件数が多すぎてエクセルに取り込めない場合は、染色体別に切り分けてから、エクセルに取り込みます。
$ awk '{if ($1 == "1-3"){print}}' SRR14477896.bi.primer > chr1-3.txt
のようにターゲットのディレクトリ内でawkを実行すると、SRR14477896の染色体1-3のSNP多型のみをchr1-3.txtに抜き出すことができます。
ホモ型変異のみ抜き出したい場合は、
$ grep M SRR14477896.bi.primer > M.txt
ホモ型、ヘテロ型両方の変異を抜き出したい場合は、
$ egrep 'M|H' SRR14477896.bi.primer > MH.txt
のようにして選びます。コマンドをコピー・ペーストして、ターゲット名、染色体名、および、出力ファイル名に書き換えて実行してください。
転座も検出されますが、これはリファレンスのアセンブルが違っている場合もあるので、2つのリファレンスで比較してみるなど追加の検討が必要だと思います。
AやTの連続配列で1塩基増えたり減ったりする多型は体細胞変異で遺伝しない場合が多いです。単純な配列の繰り返し多型よりもう少し大きな欠失の多型を狙った方が成功する確率が高いです。
リード長以上の挿入は原理的には検出されないのですが、タンデムリピートの場合はリード長以上でも検出できるので出力しています。ただ、PCRではうまく見分けがつなない場合が多いので、多型検出には挿入よりは欠失を選んだ方が成功確率は高くなります。
2つの解析結果からの遺伝子型の比較
$ perl compare.pl target1 target2
とすると、target1とtarget2のSNPの遺伝子型と確認用プライマー配列が表示されます。
構造変異を見たい場合は、
$ perl compare.pl target1 target2 sv
とします。
ファイルに出力したい場合は、 $ perl compare.pl target1 target2 > result.txt
のようにします。
エクセルに取り込み、遺伝子型に色を付けるとセグメントがわかります。　　
時々githubを確認して更新されているようでしたら、pedのディレクトリで、
$ git pull
を実行して最新の情報にアップデートしてください。

お問い合わせ

〒305-8518
茨城県つくば市観音台2-1-2
農研機構作物研究部門
宮尾安藝雄 (miyao@affrc.go.jp)