|
Анализ геномных данных в офтальмологии. Биоинформатика NGS
Для того, чтобы интерпретировать полученные в результате секвенирования следующего поколения данные (NGS - next generation sequencing данные), необходимо ориентироваться в выдаваемых машиной-секвенатором результатах, исключать артефакты, фильтровать найденные единичные замены нуклеотидов (SNP) по степени значимости, не пропустить делеции/вставки и пр. Все это нужно для того, чтобы сопоставить наблюдаемую клиническую картину с генетическими данными и с наибольшей точностью вычислить поломку в организме, приведшую к развитию заболевания. Зная причину заболевания, мы можем эффективнее лечить болезнь.
На базе Университета Пенсильвании проводится обучающий курс
Dr. Hongzhe Lee "Training in Ophthalmic Statistical Genetics and Bioinformatics" (подробнее здесь).
В феврале 2013 года была опубликована обзорная статья индийскими исследователями Tiwari Anshul MSc; Saxena Sandeep MS; Srivastava Prachi PhD Bioinformatics in Retina Asia-Pacific Journal of Ophthalmology:
January/February 2013 - Volume 2 - Issue 1 - p 64–68
doi: 10.1097/APO.0b013e318274c464. Появляется все больше результатов совместной работы клиницистов, биоинформатиков и генетиков, что говорит о начале консолидации и необходимости командной работы в этой области знаний.
Итак, в этой статье мы поговорим о тех методах, инструментах, алгоритмах и программах, которые применяются для работы с результатами NGS секвенирования в офтальмологии.
Bowtie
— сверхбыстрый, экономный к ресурсам инструмент для выравнивания коротких отрезков ДНК. Он выстраивает короткие последовательности оснований (отрезки) ДНК по геному человека со скоростью более 25 млн. снимков по 35 пар оснований в час. Bowtie индексирует геном методом Барроуза-Уилера, снижая потребление системной памяти: обычно около 2,2 ГБ на геном человека (2,9 ГБ по методу дробовика). Bowtie служит основной для применения многих вычислительных алгоритмов и программ работы с генетическими данными. Основы работы с bowtie можно освоить здесь: bowtie-bio.sourceforge.net/manual.shtml
BWA - Burrows-Wheeler aligner
— программное обеспечение для картирования малодивергентных последовательностей напротив большого референсного генома (генома сравнения), такого как человеческий геном. BWA состоит из трех алгоритмов
BWA-backtrack, BWA-SW and BWA-MEM. Первый разработан для Illumina для работы с малыми последовательностями до 100 пар нуклеотидов, вторые два могут охватывать последовательности длиной от 70 до 1 миллиона пар нуклеотидов. bio-bwa.sourceforge.net fastx_toolkit
коллекция консольных инструментов для первичной обработки файлов коротких отрезков FASTA/FASTQ. http://hannonlab.cshl.edu/fastx_toolkit/index.html
NHLBI exome sequencing project - проект полноэкзомного секвенирования
— это база данных полноэкзомного секвенирования более 200 тысяч человек с подробно описанными клиническими проявлениями из следующих проектов:
- Women's Health Initiative (WHI)
- Framingham Heart Study (FHS)
- Jackson Heart Study (JHS)
- Multi-Ethnic Study of Atherosclerosis (MESA)
- Atherosclerosis Risk in Communities (ARIC)
- Coronary Artery Risk Development in Young Adults (CARDIA)
- Cardiovascular Health Study (CHS)
- Lung Health Study (LHS)
- COPD Genetic Epidemiology (COPDGene)
- Severe Asthma Research Project (SARP)
- Pulmonary Arterial Hypertension (PAH)
- Acute Lung Injury (ALI)
- Cystic Fibrosis (CF)
- PennCATH
- Cleveland Clinic Genebank
- Massachusetts General Hospital Premature Coronary Artery Disease Study (MGH PCAD)
- Heart Attack Risk in Puget Sound (HARPS)
- Translational Research Underlying Disparities in Myocardial Infarction Patients' Health Status (TRIUMPH)
Прямо на сайте evs.gs.washington.edu без логина/пароля и дополнительного программного обеспечения можно работать с данными и фильтровать их по различным параметрам.
ClinSeq
— широкомасштабное пилотное клиническое исследование секвенирования в медицине. A Large-Scale Medical Sequencing Clinical Research Pilot Study.
VAAST
VAAST (the Variant Annotation, Analysis and Search Tool) - аннотация вариантов, анализ и инструмент поиска - это вероятностный инструмент для поиска и определения поврежденных генов и их вариантов, приводящих к заболеванию в последовательности генома. VAAST построен на подходе к анализу замещения аминокислот amino acid substitution (AAS) и агрегированном подходе приоритетности варианта, комбинирования элементов, что позволяет применять инструмент намного легче. VAAST может считать как кодирующие, так и не кодирующие варианты, оценивая накопительный эффект каждого варианта в отдельности. VAAST может определить редкие варианты, вызывающие редкие генетические заболевания и он также может использовать редкие и частые варианты для определения генов, отвечающих за развитие частых заболеваний. VAAST имеет больше возможностей, чем другие существующие методологии.
VAAST продукт состоит из трех основных инструментов:
-
VAT. The Variant Annotation Tool - инструмент для аннотации вариантов рассчитывает большой объем вариантов и аннотирует их. Замена кодонов, стоп-кодоны, потеря стоп-кодона, вариант сплайсинга и другие дают дополнительную информацию о функциональном эффекте замены, который VAAST вычисляет с помощью рейтинговых алгоритмов.
-
VST. The Variant Selection Tool - инструмент для выбора вариантов осуществляет вставку, объединение, комплимент и различие - теги на группу аннотированных GVF файлов, чтобы создать объединенное представление о группе вариантов в CDR файле. VST может быть использован просто для создания объединенного файла вариантов в качестве мишени или генома сравнения, необходимого в качестве input для VAAST, а также он может быть использован для проведения сложных выборов на основе других запущенных операций.
-
VAAST. Вероятностный инструмент поиска, который использует результаты вывода VAT и VST для определения поврежденных генов, чтобы определить их вероятность вызвать заболевание в индивидуальной последовательности человека. http://www.yandell-lab.org/software/vaast.html
VarMD
— алгоритм для анализа полногеномных и полноэкзомных вариантов в малых популяциях с менделевским наследованием. Инструмент VarMD основан на следующем алгоритме: исходный список вариантов --> добавление hg19 координат, dbSNP и местных аллель/генотип частот --> менделевская фильтрация: АД, АР, Хсц, компаунд-гетерозигота --> ранжирование вариантов на основе патогенности, частоте в популяции, качестве прочтения генотипа, покрытия (количество прочтений) --> конечный список вариантов.
AnnoVar
— эффективный программный инструмент для актуального на сегодняшний день аннотирования генетических вариантов, полученных из различных геномов (в том числе человеческого). AnnoVar представляет список вариантов в виде номера хромосомы, стартовой позиции, конечной позиции, референсного нуклеотида и имеющегося нуклеотида. С помощью AnnoVar проводят аннотацию по отношению к гену, к участку хромосомы, с применением фильтров и других функциональных инструментов.
SIFT - sorting intolerant from tolerant
— предсказывает, влияет ли замена на функцию белка или нет, основываясь на гомологии последовательности и физических свойств аминокислот. sift.bii.a-star.edu.sg SIFT можно применять для анализа несинонимичных полиморфизмов, встречающихся в природе и для изучения миссенс мутаций, вызванных у лабораторных животных искусственно.
IGV - integrated genomic viewer
IGB - intergrated genomic browser
— удобный инструмент для визуализации геномных данных
и аннотаций, в том числе RNA-Seq, ChIP-Seq, tiling array data и других.
Материал подготовлен Марианной Ивановой, июль 2013 |
|