Математики выяснили, что расшифровывать ДНК можно даже на обычном ноутбуке, без привлечения суперкомпьютеров. Для этого механизм расшифровки нужно изменить: разбивать ДНК нужно не на отдельные “буквы”-нуклеотиды, а на часто встречающиеся их комбинации. Описание этой методики опубликовал научный журнал Cell Systems.
“Наш подход работает, даже если в исходном материале содержится до 4% ошибок. Вкупе с удешевлением машин для секвенирования это открывает дорогу для демократизации генетического анализа”, – рассказала Бонни Бергер, профессор Массачусетского технологического института и один из авторов исследования.
Большинство современых технологий расшифровки ДНК опираются на идею, что большое количество копий нити ДНК можно разбить на множество легко считываемых мелких фрагментов, которые при этом частично пересекаются друг с другом. Благодаря этому их можно много раз считать, а затем “склеить” друг с другом. Этот подход работает очень эффективно, однако для него необходимо много вычислительных ресурсов.
Бергер и ее коллеги придумали, как справиться с этой проблемой. Они создали математическую теорию, с помощью которой геном можно закодировать в виде набора из часто встречающихся последовательностей из нескольких “букв”-нуклеотидов, а не одиночных звеньев.
Эту идею ученые позаимствовали из теории языков и лингвистики. В последние годы в этой обалсти начала набирать популярность идея использования так называемых графов де Брейна. Так математики называют наборы из нескольких пересекающихся последовательностей символов, которые соединены друг с другом множеством направленных связей.
Эти графы используют и при сборке геномов. Однако в результате этого обычно терялось много информации. Бергер и ее коллеги избавились от этих проблем, модифицировав графы де Брейна таким образом, что этот математический инструмент оперировал не отдельными нуклеотидами, а их распространенными комбинациями.
По словам математиков, благодаря этому можно одновременно ускорить поиски и “склеить” частично совпадающие фрагменты ДНК. При для окончательной расшифровки генома нужно гораздо меньше компьютерной памяти. В дополнение к этому, он позволил ученым использовать один и тот же подход для обработки высококачественных данных с минимумом ошибок, а также результатов работы дешевых секвенаторов, некорректно распознающих около 2-4% нуклеотидов.
Для проверки работы алгоритма ученые расшифровали ДНК человека и микробов при помощи двух разных секвенаторов и обработали их при помощи слабого восьмиядерного процессора. Процесс сборки человеческого генома занял всего 10 минут и потребовал около 10 гигабайтов оперативной памяти, тогда как анализ нескольких геномов бактерий завершился за четыре минуты и занял всего гигабайт ОЗУ. Оба этих показателя в десятки и сотни раз меньше времени работы и запросов на память для других подходов.
По словам исследователей, подобное ускорение процесса сборки генома уже сейчас доступно любому желающему, так как Бергер и ее коллеги опубликовали исходный код созданного алгоритма в открытом доступе. Как надеются ученые, его создание и публикация позволят удешевить процесс секвенирования геномов и расширить их применение в научной и медицинской практике.
Для того, чтобы быть в курсе новостей в сфере науки, подписывайтесь на наш Telegram-канал.
Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: