Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Идеи и практики автоматизации: Статьи Новости компаний Решения

Панорама

Как работает ипотека?

На сегодняшний день ипотечным кредитованием пользуется практически каждый. Но понимания того, как именно работает ипотека и по какой схеме происходит оформление у большинства людей нет.

Корпоративная мобильность: тренды, подходы, реализация

Возможность мобильной работы с документами удобна для сотрудников, но также экономически выгодна компании …

МТС запустил сервис для работы с документами SmartDocs

ПАО «МТС» цифровая экосистема, объявила о запуске сервиса SmartDocs. Новое решение повысит эффективность …

«Нейронные сети и машинное обучение приведут к ускорению развития»: ведущий IT-эксперт Аралтан Горяев оценивает будущее индустрии

Недавно в Дубае на Всемирном правительственном саммите один из крупнейших предпринимателей заявил …

Облака: вчера, сегодня, завтра

GoCloud 2024, конференция крупнейшего российского облачного провайдера Cloud.ru, привлекла внимание многих участников …

Зачем реверс-инжинирить генетический мусор?

PC Week/RE №8 (828) 26 марта 2013

Сергей Бобровский | 15.03.2013

Николай Вяххи вводит собравшихся в биоинформатику

В ближайшие годы каждый биолог должен будет знать программирование, а сама биология практически полностью превратится в биоинформатику, полагают российские эксперты. Давайте поближе познакомимся с одним из самых перспективных направлений этой науки, связанным с расшифровкой геномных кодов.

Краткий ликбез

Зачем надо изучать геномы живых существ? Сфер применений тут огромное количество — например, анализ больных клеток человека и малоизвестных бактерий, да и вся молекулярная диагностика, когда самого лучшего доктора Хауса заменит абсолютно точный компьютер. Но сейчас для диагностики заболевания подобными цифровыми способами надо исследовать миллионы клеток, а это требует слишком большого времени, и результаты диагностики подчас приходят слишком поздно. Существуют и фундаментальные вопросы — крайне интересно, скажем, познать биологические схемы контроля производства белков, своеобразные метамеханизмы, функционирующие “поверх” клетки. Важно понять и принципы организации разметки генетического кода (разделения его на смысловые и завершающие последовательности). С возрастом эта разметка “стирается” — в частности, смысловые последовательности становятся завершающими, что сбивает механизм синтеза белка в процессе считывания разметки, фактически вызывая процесс старения.

Некоторые важные события в современной биологии происходят буквально на наших глазах. Так, ещё совсем недавно было непонятно принципиальное назначение большей части ДНК — фактически 97% её считалось “генетическим мусором” (junk DNA); точнее, гены в ней просто отсутствуют. В конце 2012-го в журнале Nature была опубликована статья, показавшая, как существенная часть этого “мусора” (чуть ли не 80%) напрямую влияет на активность генов, которая сильно зависит от своего контекста, “мусорного” окружения.

Процесс чтения последовательности ДНК (так называемое секвенирование) и последующая сборка, осуществляемая компьютерными программами — геномными ассемблерами, во многом аналогичен восстановлению книги, разорванной на множество перемешанных кусочков, складыванию гигантского паззла из миллиардов частиц и т. п. Основная проблема заключается в том, что целиком прочитать структуру ДНК невозможно — только ее отдельные фрагменты, так называемые “риды” (от английского read). В зависимости от длины “ридов” применяются разные алгоритмы построения модели ДНК. Незадача усугубляется тем, что и в самих “ридах” нередки ошибки. Последние алгоритмические наработки, например, базируются на парных графах де Брёйна, однако остаются проблемы с неоднозначностью сборки конечной модели. Трудность секвенирования ДНК ещё и в том, что для такого процесса требуется существенное количество её “клонов”, а в лабораторных условиях клонировать многие бактерии невозможно.

Для комбинирования “ридов” существует множество программ, однако работают они долго. Между тем растут длины получаемых биологами “ридов” для различных ДНК — соответственно можно повысить качество сборки, но и потребность в ресурсах при этом вырастает очень сильно. Так, китайцы расшифровали ДНК панды за месяц работы кластера с сотнями гигабайтов ОЗУ. В среднем же стоимость секвенирования человеческой ДНК сегодня составляет тысячи долларов, причем расшифровку на суперкомпьютере можно выполнить всего за сутки.

С развитием геномных ассемблеров нового поколения и цена, и время снизятся на пару порядков. Возможно, текущие недостатки нынешних технологий и одновременно весьма заманчивые перспективы подтолкнули отечественных инженеров к созданию еще одного ассемблера в области, где уже присутствуют сильные игроки.

Биоинформатика по-питерски

Над темой секвенирования ДНК в России трудится ряд исследовательских структур: Лаборатория эволюционной геномики МГУ, Медико-генетический научный центр РАМН, Институт общей генетики имени Н. И. Вавилова РАН, Лаборатория "Алгоритмы сборки геномных последовательностей" Санкт-Петербургского национального исследовательского университета информационных технологий, механики и оптики, Лаборатория алгоритмической биологии Санкт-Петербургского Академического университета, созданная, в частности, при поддержке Жореса Алфёрова. Потенциально они могут помочь в постижении эволюции видов и создании лекарств нового поколения.

Петербургская компания JetBrains известна инструментарием для программистов, а один из её основателей, Сергей Дмитриев, по-прежнему принимающий корпоративные решения стратегического характера, в настоящее время сосредоточился на научной работе в сфере биоинформатики. При его поддержке создана биологическая лаборатория JetBrains, которая среди прочего пытается понять фундаментальные принципы организации геномных разметок, а также намерена выполнить реверс-инжиниринг генетического “мусора”. Развивает эта структура и профильные студенческие проекты, поддерживает международный проект по биоинформационным исследованиям и разработкам GeneStack.com.

В марте 2013-го лаборатория провела семинар, посвященный текущим достижениям в сфере геномного секвенирования. Краткое введение слушателей в биоинформатику прочитал Николай Вяххи из лаборатории алгоритмической биологии СПбАУ РАН. Он полагает, что практически все биологи через пять лет будут знать программирование, так как спрос на подобных специалистов очень высок. Его коллеги Антон Банкевич и Сергей Нурк подробно рассказали о задаче секвенирования и сборки генома, о геномном ассемблере SPAdes, а Олег Шпынов из JetBrains BioLabs пояснил связь механизмов эпигенетических модификаций с биоинформатикой.

Ассемблер Saint Petersburg Assembler (SPAdes), созданный в университетской лаборатории под руководством профессора Калифорнийского университета (США) Павла Певзнера, достигает определенного баланса между качеством результата и эффективностью работы. В частности, был придуман оригинальный метод хеширования без коллизий (для каждого ключа по определенному алгоритму выдается уникальный набор значений с целью дальнейшей индексации). В итоге при хранении парного графа де Брёйна каждую его вершину удается “закодировать” символическим значением в 2,7 бита. И уже в 2012-м SPAdes показывал скоростные результаты, недоступные ни одному другому сборщику! Сам ассемблер поставляется свободно в исходных кодах (где-то под 100 тыс. строк кода на С++).

Перспективы туманны

Интенсивно развивают биоинформатику США и Китай, причем фактически совместными усилиями. Китайские специалисты пока выполняют во многом рутинную работу, подготавливая, например, “сырые” данные для дальнейшей обработки в США. При этом объемы информации столь велики, что наработки пересылаются почтой на жестких дисках, ресурсов Сети не хватает. А вот российские биолаборатории из-за непродуманной политики финансирования мегагрантов, возможно, скоро закроются и уже в нынешнем году переедут на Запад, полагает профессор Певзнер. Остается рассчитывать только на частную поддержку — наподобие биоинформационного проекта JetBrains.

Полная видеозапись питерского семинара, собравшего около сотни молодых специалистов, будет выложена на lektorium.tv. Там же можно найти и материалы декабрьского семинара “Почему геномный ассемблер нельзя написать за выходные?”, в которых рассказывается об основных принципах построения таких ассемблеров и предлагается разработать оригинальный геномный сборщик — например, в рамках дипломной работы.

Печать Печать без изображений

Зачем реверс-инжинирить генетический мусор?

Николай Вяххи вводит собравшихся в биоинформатику

Краткий ликбез

Биоинформатика по-питерски

Перспективы туманны

Комментарии