VCF файл -VCFv4.2 пример объяснения

Пример VCF-файл (VCFv4.2)

 

Скопировать код
## FileFormat = VCFv4.2 
## FILEDATE = 20090805 
## источник = myImputationProgramV3.1 
## Ссылка = файл: ///seq/references/1000GenomesPilot-NCBI36.fasta 
## арендуемая = <ID = 20, длина = 62435964, Узел = B36, md5 = f126cdf8a6e0c7f379d618ff66beb2da, виды = "гомо сапиенс", таксономию = х> 
## фазировки = парциальное 
## INFO = <J = NS, Number = 1, Тип = Целое число, Описание = "Число образцов с данными" > 
## INFO = <ID = DP, Number = 1, Type = Integer, Description = "Общая глубина"> 
## INFO = <ID = AF, Number = A, Type = Float, Description = "Аллель Частота"> 
# # INFO = <ID = АА, число = 1, Тип = Строка, Описание = "Родовой аллель"> 
## INFO = <J = DB, Number = 0, Тип = Флаг, Описание = "членство dbSNP, сборка 129">
## INFO = <ID = H2, Number = 0, Тип = Флаг, Описание = "членство HapMap2">
## ФИЛЬТР = <ID = q10, Описание = "Качество ниже 10"> 
## ФИЛЬТР = <ID = S50, Описание = "Меньше чем 50% образцов имеют данные"> 
## FORMAT = <ID = GT, Number = 1, Type = String, Description = "генотип"> 
## FORMAT = <ID = GQ, Number = 1, Type = Integer, Description = "Генотип Качество"> 
## FORMAT = <ID = DP, Number = 1, Тип = Integer, Description = "Read Depth"> 
## FORMAT = <ID = HQ, Number = 2, Type = Integer, Description = "гаплотип Качество"> 
#CHROM POS ID REF ALT QUAL ФИЛЬТР INFO FORMAT NA00001 NA00002 NA00003 
20 14370 rs6054257 Г. А. 29 ПРОХОД NS = 3; СП = 14; АФ = 0,5; БД; H2 GT: GQ: ДП: HQ 0 | 0: 48: 1: 51,51 1 | 0: 48: 8: 51,51 1/1 : 43: 5:.,.
20 17330. TA 3 q10 NS = 3; DP = 11; AF = 0,017 GT: GQ: DP: HQ 0 | 0: 49: 3: 58,50 0 | 1: 3: 5: 65,3 0/0: 41: 3 
20 1110696 rs6040355 АГ, Т 67 ПРОХОД NS = 2; СП = 10; АФ = 0.333,0.667; АА = Т; БД ГТ: GQ: DP: HQ 1 | 2: 21: 6: 23,27 2 | 1: 2 : 0: 18,2 2/2: 35: 4
20 1230237. T. 47 ПРОХОД NS = 3; СП = 13; Т = АА ГТ: GQ: ДП: HQ 0 | 0: 54: 7: 56,60 0 | 0: 48: 4: 51,51 0/0: 61: 2 
20 1234567 microsat1 GTC G, 50 ПРОХОД Общие условия заключения сделки NS = 3; СП = 9; АА = G GT: GQ: DP 0/1: 35: 4 0/2: 17: 2 1/1: 40: 3
Скопировать код

 

CHROM : представляет собой изменение сайты крикнуть в контига , в котором, если она есть, то геном человека , то есть CHR1 ... chr22, chrX, Y, M.

POS : положение относительно референсного генома , где, если INDEL, это место , где первой базы мутации сайтов.

ID : Если вы звоните из dbSNP SNP существует в базе данных, он будет отображать соответствующий dbSNP числа Rs.

REF и REF : мутации в этом локусе, референсный геном и соответствующий нуклеотид в геномных исследовании соответствующих оснований.

QUAL : значение качества может быть понято как вызов из сайта мутации. Q = -10lgP, Q представляет собой значение качества; Р вероятность ошибки в этом локусе. Таким образом, если вы хотите контролировать коэффициент ошибок более чем на 90%, пороговое значение Р 1/10, что LG (1/10) = - 1, Q = (- 10) * (- 1) = 10. Аналогичным образом , когда Q = 20, частота ошибок контролируется на уровне 0.01.

ФИЛЬТР : В идеале, QUAL это значение следует рассматривать со всеми ошибками из модели, это значение может представлять правильные сайты переменных, но факт не является. Таким образом, необходимость в дальнейшей фильтрации исходных сайтов вариации. Если вы фильтровать сайты изменчивости, каким образом, после истечения фильтрации, колонок фильтра FILTER оставит запись, если она через критерии фильтра, то эти стандарты через хорошие вариации сайтов ФИЛЬТР колонке прокомментируют пропуск, если не через фильтр, PASS будет в дополнении к другой информации в этом столбце FILTER строке. Если этот столбец является «», то это показывает не выполняется никакой фильтрации.

 

Примеры:

Скопировать код
#CHROM POS ID REF ALT QUAL ФИЛЬТР INFO FORMAT NA12878 
Chr1 873762. ТГ 5231,78 ПРОХОД АС = 1; АФ = 0,50; AN = 2; СП = 315; Делс = 0,00; HRun = 2; HaplotypeScore = 15,11; MQ = 91,05; MQ0 = 15; QD = 16,61; СО = -1533,02; VQSLOD = -1,5473 GT: AD: DP: GQ: PL 0/1: 173141: 282: 99: 255,0,255 
CHR1 877664 rs3828047 А.Г. 3931,66 PASS AC = 2; АФ = 1,00; AN = 2; БД; СП = 105; Делс = 0,00; HRun = 1; HaplotypeScore = 1,59; MQ = 92,52; MQ0 = 4; QD = 37,44; СО = -1152,13; VQSLOD = 0,1185 GT: AD: DP: GQ: PL 1/1: 0105: 94: 99: 255255 , 0 
CHR1 899282 rs28548431 КТ 71,77 PASS AC = 1; AF = 0,50; AN = 2; DB; DP = 4; Делс = 0,00; HRun = 0; HaplotypeScore = 0,00; MQ = 99,00; MQ0 = 0; QD = 17,94; СО = -46,55; VQSLOD = -1,9148 GT: AD: DP: GQ: PL 0/1: 1,3: 4: 25,92: 103,0,26
CHR1 974165 rs9442391 ТС 29.84 LowQual АС = 1; АФ = 0,50; AN = 2; DB; DP = 18; Делс = 0,00; HRun = 1; HaplotypeScore = 0,16; MQ = 95,26; MQ0 = 0; QD = 1,66; СО = -0,98 GT: AD: DP: GQ: PL 0/1: 14,4: 14: 60,91: 61,0,255
Скопировать код

 

Теперь мы можем объяснить, в приведенном выше примере:

CHR1: 873762 является недавно обнаруженный Т / G варианты, и имеет высокую надежность (QUAL = 5231,78).

CHR1: 877664 известна разновидность SNP сайта А / G, название rs3828047, и имеющий высокую степень уверенности (каче = 3931.66).

CHR1: 899282 известен вариант сайта C / T SNP, имя rs28548431, но низкий уровень доверия (каче = 71,77).

CHR1: 974165 известная мутация сайты для SNP T / C, название rs9442391, но качество очень низкое значение этого сайта, в последующем анализе может быть отфильтрован знак стал «LowQual» вне.

 

Vcf файл выглядит очень сложные, очень страшно путь, но есть некоторые из самых, эти тегов в основном используется в VASR фильтруется состоянием понять смысл каждых тегов лучше всего, если он не понимает, слишком Вы не имеете контроля. На самом деле, самая критическая информация затем столбцы:

CHR1 873762. Т е [обрезается] GT: AD: DP: GQ: PL 0/1: 173141: 282: 99: 255,0,255

CHR1 877664 rs3828047 А Г [Обрезанные] GT: AD: DP: GQ: PL 1/1: 0105: 94: 99: 255,255,0

CHR1 899282 rs28548431 С Т [обрезается] GT: AD: DP: GQ: PL 0/1: 1,3: 4: 25,92: 103,0,26

 

Последние две колонки, соответствующие плоскости, каждая из которых соответствует метке или набора значений, таких, как:

CHR1: 873762, GT, соответствующая 0/1; AD, соответствующий 173,141; DP, соответствующий 282; GQ, соответствующий 99; PL, соответствующий 0, 255.

 

ГТ : указывает на генотип образца, для диплоидного организма, значения GT представляют собой две аллели этого локуса в образце осуществляется. Как 0 указывает REF; 1 представляет представляет собой как ALT; 2 представляет собой второй ALT. Когда только один аллель АЛТ, указывает на 0/0 чистым и в соответствии с и REF; 0/1 указывает , гетерозиготных аллель А два АЛТ является REF; 1/1 и чистый и выражены ALT; из .. самый распространенный формат подполе GT данных (генотип) Если ГТ подполе присутствует, то он должен быть первым подполем В выборочных данных, генотип аллели являются числами: опорного сигнала аллель 0, первое АЛТ аллель 1, и так . на сепаратор аллели «/ » для несфазированных генотипов и «|» поэтапных генотипов.

0 - опорный вызов

1 - альтернативный вызов 1

2 - альтернативный вызов 2

АД : соответствующие двум значениям , разделенных запятой, которые представляют собой два значения REF и считывает количество , чтобы покрыть основание ALT, секвенирования глубину , соответствующую REF и поддерживать поддержки ALT.

DP : общее количество просмотров , чтобы покрыть этот сайт, этот сайт соответствует глубине (не любое число нескольких операций чтения, но считывает количество определенного качества о требуемом значении).

PL : 3 соответствует разделенной запятой значений, которые представляют собой значение сайта три генотипа не подлежит априорную вероятность Phred-масштабированной нормализованное значение 0 / 0,0 / 1,1 / 1 (L ). Если затем преобразуется поддерживать вероятность генотипа (P), так как L = -10lgP, то Р = 10 ^ (- L / 10), и поэтому, когда L = 0, Р = 10 ^ 0 = 1. Следовательно, чем меньше значение, тем больше вероятность поддержки, то есть тем больше вероятность этого генотипа.

GQ : значение качества представляет собой наиболее вероятный генотип. Значение это представляет собой тот же QUAL.

 

Например, чтобы объяснить:

CHR1 899282 rs28548431 С Т [обрезается] GT: AD: DP: GQ: PL 0/1: 1,3: 4: 25,92: 103,0,26

На этом участке, GT = 0/1, то есть сказать , что этот локус генотип С / Т; GQ = 25,92, а значение веса не слишком высока, вероятно , потому , что число просмотров , чтобы покрыть этот участок слишком мал , DP = 4, то есть только четыре читает изменения поддержки этого места, AD = 1,3, то есть там поддержка REF чтение, есть три поддержка ALT, в PL, генотип в этом локусе неопределенность в выполнении более заметного, PL 0/1 равно 0, поддерживая при этом высокой вероятности 0/1, однако PL 1/1 значения только 26, что означает , что есть 10 ^ (- 2.6 ) = 0,25% вероятность 1/1; 0/0 практически невозможно, потому что вероятность поддержки только 0/0 от 10 ^ (- 10,3) = 5 * 10 -11 .

рекомендация

отwww.cnblogs.com/xiaofeiIDO/p/7010613.html