双方向整列法やk-mer法で検出された多型の部分は、それぞれ野生型あるいは変異型を持つリードの数を数えて多型の正当性を検証しています。
1 549327 T G 50 0 0 14 M
1 551708 A C 50 0 0 6 M
1 551984 G A 50 0 0 4 R
1 552024 A G 50 13 0 5 N
1 553280 T A 50 0 12 0 R
1 553304 A T 50 0 11 1 R
1 1755662 G A 50 0 9 10 H
5,6,7,8カラム目は、それぞれコントロール野生型、コントロール変異型、ターゲット野生型、ターゲット変異型を持つリードの数です。
コントロールを指定しないでped.plを実行すると、リファレンス配列を1塩基飛ばしに100塩基長で切り出した配列をコントロールとして計算します。
なので、通常はコントロールは野生型50、変異型0になります。
ゲノム上の異なる2ヶ所に200塩基以上の非常に似た配列があり、その中の1塩基が異なっている場合、双方向アライン法やk-mer法で多型が検出されますが、この場合は、A552024Gのように変異型でも13のカウントが検出され無効となります。
別のサンプルの配列データをコントロールに指定して、コントロール側にもA552024Gのような変異が検出された場合は、ターゲットで検出された変異はコントロールも持っているということなので、双方間には多型はないということになります。
ターゲット変異型のみを持つT549327GやA551984Cはホモ型変異ということでMのマークとなっています。変異型リード数5以上で変異型と判定するため、G551984Aは未確定ということでリピートの場合と同じRのマークとなっています。リード数が少ないだけで正しいかもしれません。
G1755662Aは、ターゲットの野生型と変異型が半々となっています。ヘテロ型と判定されてHとマークされています。
実用上はMとHのマークのある行のみ抜き出して以後の解析に用いて問題ありません。
目的の変異をとらえ損ねている可能性がある場合は、vcfではなく*.bi.snpや*.svのファイルにもどってリード数を調べるのがいいです。
プライマーデータのファイルは、MとHのマークを持つ行のみになっています。
リード数の検証はターゲットとコントロールがそれぞれ単一のサンプル、あるいは、同質性の高いバルクである必要があります。
メタゲノム解析、例えば、患者から得られたSARS-CoV-2ウイルスの配列は、様々な変異を持つウイルス集団の混合物なのでゲノムの各変異位置をこの方法で検証すると誤った結果が導き出される可能性があります。
たとえば、100塩基以内に複数のSNPが検出され、それらが別々のウイルス由来の場合、上記検証法では両方の変異を持つリードを探してしまうので、見つからなくなってしまいます。
メタゲノムのデータの場合はリード数による検証ずみの*.bi.snpや*.svのファイルではなく、*.bi.snp.countや*.sv.countなど双方向整列法で実際に検出された数を判断基準にした方が妥当な結果が得られます。