VCF (биоинформатика)

Variant Call Format
Расширение .vcf
Разработчик 1000 Genomes Project
Последний выпуск 4.5 (9 октября 2024 (2024-10-09))
Тип формата Genomic sequence format
Расширен из Tab-separated values
Развит в gVCF

VCF (от англ. Variant Call Format — формат вызова вариантов) — стандартный формат текстового файла, используемый в генетической биоинформатике для хранения вариаций последовательности генов (последовательности ДНК).

Разработан в 2010 году для проекта «1000 геномов» и с тех пор использовался в других крупномасштабных проектах по генотипированию и секвенированию ДНК[1][2]. Получил распространение благодаря своей относительной простоте и масштабируемости[3][4]. Имеется множество инструментов для редактирования и обработки VCF-файлов, включая VCFtools, выпущенный вместе с форматом VCF в 2011 году, и BCFtools, который был включен в состав SAMtools до тех пор, пока не был выделен в независимый пакет в 2014 году[1][5].

В настоящее время[уточнить] действует стандарт версии 4.5[6][7], а проект «1000 геномов» разработал собственную спецификацию[8].

На основе VCF были разработаны дополнительные форматы файлов, среди них — геномный VCF (gVCF) — расширенный формат, который включает дополнительную информацию о «блоках»[9][10].

BCF v VCF
Демонстрация разницы между двоичными форматами BCF и VCF.

Заголовок VCF

Заголовок начинает файл и содержит метаданные, описывающие тело файла. Строки заголовка обозначаются как начинающиеся с# . Специальные ключевые слова в заголовке обозначены знаком ## . Рекомендуемые ключевые слова включаютfileformat ,fileDate иreference .

Заголовок содержит ключевые слова, которые описывают поля.

Столбцы VCF

В VCF файлах за заголовком и разделено табуляцией на 8 обязательных столбцов и дополнительные столбцы, которые могут использоваться для записи другой информации об образце(ах).

Имя Краткое описание
1 CHROM Название последовательности (обычно хромосомы), в которой вызывается вариация. Эту последовательность обычно называют «референтной последовательностью», то есть последовательностью, относительно которой варьируется данный образец.
2 POS Позиция вариации в данной последовательности, начиная с 1.
3 ID Идентификатор вариации, например, идентификатор dbSNP rs или, если неизвестно, «.». Несколько идентификаторов должны быть разделены точкой с запятой без пробелов.
4 REF Референтная база (или базы в случае инделя) в заданной позиции в заданной референтной последовательности.
5 ALT Список альтернативных аллелей в этой позиции.
6 QUAL Показатель качества, связанный с выводом данных аллелей.
7 FILTER Флаг, указывающий, какой из заданного набора фильтров вариация не прошла или ПРОШЛА, если все фильтры были пройдены успешно.
8 INFO Расширяемый список пар ключ-значение (полей), описывающих вариацию. Ниже приведены некоторые общие поля. Несколько полей разделяются точкой с запятой с необязательными значениями в формате: < key > = < data > [,data] .
9 FORMAT (Необязательный) расширяемый список полей для описания образцов. Ниже приведены некоторые общие поля.
+ SAMPLE Для каждого (необязательного) образца, описанного в файле, указаны значения полей, перечисленных в FORMAT

Общие поля INFO

Разрешены произвольные ключи, хотя следующие подполя зарезервированы (хотя и необязательны):[11]

Имя Краткое описание
АА предковый аллель
АС количество аллелей в генотипах, для каждого аллеля ALT, в том же порядке, как указано
AF Частота аллелей для каждого аллеля ALT в том же порядке, как указано (используйте это при оценке на основе первичных данных, а не генотипов)
AN общее число аллелей в названных генотипах
BQ Базовое качество RMS в этой позиции
CIGAR сигарная нить, описывающая, как выровнять альтернативный аллель с референтным аллелем
DB членство в dbSNP
DP объединенная глубина по всем образцам, например DP=154
END конечная позиция варианта, описанного в этой записи (для использования с символическими аллелями)
Н2 членство в hapmap2
Н3 членство в hapmap3
MQ Качество отображения RMS, например MQ=52
МQ0 Количество чтений MAPQ == 0, охватывающих эту запись
NS Количество образцов с данными
SB смещение нити в этой позиции
SOMATIC указывает на то, что запись является соматической мутацией, для геномики рака
VALIDATED подтверждено последующим экспериментом
1000G членство в 1000 Геномов

Все остальные поля информации определяются в заголовке .vcf.

Общие поля FORMAT

Имя Краткое описание
AD Глубина чтения для каждого аллеля
ADF Глубина считывания для каждого аллеля на прямой цепи
ADR Глубина считывания для каждого аллеля на обратной цепи
DP Глубина чтения
EC Ожидаемое количество альтернативных аллелей
FT Фильтр, показывающий, был ли этот генотип «вызван»
GL Вероятности генотипа
GP Апостериорные вероятности генотипа
GQ Условное качество генотипа
GT Генотип
HQ Качество гаплотипа
MQ Качество отображения RMS
PL Вероятности генотипа по шкале Phred, округленные до ближайшего целого числа
PQ Качество фазировки
PS Фазовый набор

Все остальные поля формата определяются в заголовке .vcf.

См. также

  • Формат FASTA, используемый для представления последовательностей генома.
  • Формат FASTQ, используемый для представления результатов секвенирования ДНК вместе с показателями качества.
  • Формат SAM, используемый для представления результатов секвенирования генома, сопоставленных с последовательностями генома.
  • Формат GVF (Genome Variation Format) — расширение на основе формата GFF3 .
  • Глобальный альянс по геномике и здоровью (GA4GH), группа, возглавляющая управление и расширение формата VCF.[12] Спецификация VCF больше не поддерживается проектом 1000 Genomes.[13]
  • Геном человека
  • Полиморфизм одиночных нуклеотидов (SNP)

Примечания

  1. 1 2 Danecek, Petr; Auton, Adam; Abecasis, Goncalo; Albers, Cornelis A.; Banks, Eric; DePristo, Mark A.; Handsaker, Robert E.; Lunter, Gerton; Marth, Gabor T.; Sherry, Stephen T.; McVean, Gilean; Durbin, Richard (1 августа 2011). The variant call format and VCFtools. Bioinformatics. 27 (15): 2156–2158. doi:10.1093/bioinformatics/btr330. ISSN 1367-4803. PMC 3137218. PMID 21653522.
  2. Ossola, Alexandra (2015-03-20). The Race to Build a Search Engine for Your DNA. IEEE Spectrum. Дата обращения: 2015-03-22.
  3. Understanding VCF format | Human genetic variation (англ.). EMBL-EBI. Дата обращения: 10 ноября 2023. Архивировано 20 апреля 2023 года.
  4. Garrison, Erik; Kronenberg, Zev N.; Dawson, Eric T.; Pedersen, Brent S.; Prins, Pjotr (31 мая 2022). A spectrum of free software tools for processing the VCF variant call format: vcflib, bio-vcf, cyvcf2, hts-nim and slivar. PLOS Computational Biology. 18 (5): e1009123. Bibcode:2022PLSCB..18E9123G. doi:10.1371/journal.pcbi.1009123. ISSN 1553-734X. PMC 9286226. PMID 35639788.
  5. Danecek, Petr; Bonfield, James K; Liddle, Jennifer; Marshall, John; Ohan, Valeriu; Pollard, Martin O; Whitwham, Andrew; Keane, Thomas; McCarthy, Shane A; Davies, Robert M; Li, Heng (29 января 2021). Twelve years of SAMtools and BCFtools. GigaScience. 10 (2). doi:10.1093/gigascience/giab008. ISSN 2047-217X. PMC 7931819. PMID 33590861.
  6. [https://samtools.github.io/hts-specs/VCFv4.5.pdf VCF Specification 2024
  7. Specifications of SAM/BAM and related high-throughput sequencing file formats. GitHub. Дата обращения: 24 июня 2014.
  8. Encoding Structural Variants in VCF (Variant Call Format) version 4.0 | 1000 Genomes. Дата обращения: 20 октября 2016.
  9. GVCF - Genomic Variant Call Format. GATK. Broad Institute.
  10. gVCF Files. Illumina, Inc.. Дата обращения: 10 ноября 2023.
  11. VCF Specification. Дата обращения: 30 июля 2024.«VCF Specification» (PDF). Retrieved 30 July 2024.
  12. HTS format specifications. samtools.github.io. Дата обращения: 22 февраля 2022.
  13. Bio-IT World (амер. англ.). www.bio-itworld.com. Дата обращения: 26 октября 2018.

Ссылки