Российские ученые научили нейросети "исправлять" поведение генов
Математикам и биоинформатикам из Благотворителного фонда исследования рака и компании ООО "АкадемДжин" удалось обучить нейросеть, которая подсказывает, как изменился бы уровень работы генов живой клетки, если бы она была в другом состоянии. В качестве состояния можно выбирать болезнь, возраст, технические параметры измерения генов и даже тип клетки. Это достижение поможет в создании новых методов ранней диагностики тяжелых полигенных заболеваний, например рака, и подборе эффективной терапии.
В качестве входных данных новый метод берёт результаты одномолекулярного секвенирования РНК, которые содержат информацию об уровне активности генов. Такие данные можно получить, например, из крови пациента на современном оборудовании. Далее используется специально обученная нейросеть-автокодировщик. Фокус в том, что математикам удалось при помощи этой нейросети разложить сигнал на техническую и биологическую компоненты. Техническая компонента представляет собой шум, порождённый случайными факторами в эксперименте. Именно наличие такого шума мешает уже многие годы исследователям во всём мире превратить многочисленные данные стоимостью миллиарды долларов в новые средства диагностики болезней. "С помощью нашего метода мы можем устранить технический шум в данных и избавиться от серийных эффектов. Это позволяет объединить экспериментальные данные из различных лабораторий для совместного исследования.

Таким образом можно собрать беспрецедентно большие датасеты с целью обучить компьютер распознавать болезни на ранней стадии", - говорит специалист по машинному обучению Николай Русских. Но этим польза от нового метода не ограничивается. Биологический сигнал, в свою очередь, также раскладывается на понятные компоненты. Более того, в компьютере можно явно переключать экспрессию генов между состояниями и типами клеток. Например, можно превратить экспрессию генов стромальных клеток беременной мыши в экспрессию генов кормящей.Также можно испытание действия вещества на одних типах клеток переносить на другие типы клеток, таким образом экономить деньги на дорогостоящих экспериментах.

"Мы постепенно продвигаемся к нашей цели - создание эффективных методов ранней диагностики рака. Полученные результаты имеют фундаментальное значение. Конечно, многое ещё предстоит сделать - усовершенствовать метод, испытать его на дополнительных наборах данных. Мы начинаем собирать базу всех качественных датасетов, доступных в мире, проводим гармонизацию данных. Наша нейрость будет непрерывно дообучаться на новых данных и в итоге "впитает" в себя знания о возможных паттернах поведения генов различных типов клеток в различных состояниях здоровья и болезни. Это открывает новые возможности для диагностики и лечения полигенных заболеваний", - говорит президент Благотворительного фонда исследования рака Евгений Терентьев.