Разработка нейросети-автокодировщика для гармонизации данных при поиске биомаркёров.
08.07.2019
В настоящий момент Фонд исследования рака ведет разработку, направленную на обеспечение эффективного поиска новых генов-маркёров рака даже в небольших экспериментальных выборках.

Эффективность метода достигается за счёт использования автокодировщика, обученного на большом количестве датасетов, а также благодаря специальной архитектурной особенности нейросети по отделению биологически обусловленного сигнала экспрессии гена от технического шума.

Обучающая выборка автокодировщика будет постоянно пополняться, вбирая в себя максимально возможное количество доступных данных NGS RNAseq человека. При этом данные проходят обязательную процедуру оценки качества и паспортизации.
В данном проекте разрабатывается алгоритм, направленный на решение проблем серийных эффектов и большой размерности, который может быть применен вкупе с любыми подходами машинного обучения. Суть подхода заключается в понижении размерности путём кодирования исходных данных экспрессии генов в пространстве скрытых переменных меньшей размерности. При этом происходит разложение скрытых переменных на техническую и биологическую части при помощи состязательных автокодировщиков.

В 2016-2018 годах были предложены подобные методы понижения размерности. Научная новизна нашего же подхода лежит в явном отделении компонент, отвечающих за техническую дисперсию, что позволит единообразно обрабатывать данные разных экспериментов. Впервые подобный подход был применен в обработке естественного языка, где являл собой отделение компонент, отвечающих за стиль и семантику.

В данный момент проект находится на стадии отбора входных данных и проверки основных гипотез. Проводится процедура оценки качества, паспортизации и сбора метаданных для образцов из открытых источников. Уже обработано 200 тыс. человеческих образцов из SRA, при этом доля данных, годных для дальнейшего анализа, по факту составляет около 20%. Разработана архитектура нейросети – автокодировщика, проводятся эксперменты по подбору наилучших её параметров. Разработаны процедуры оценки качества работы нейросети и возможных искажений данных с углубленным анализом генных онтологий и путей передачи сигнала в клетке.

Показано, что применение автокодировщика уже повышает точность предсказания патологий (тестировано на предсказании туберкулёза по крови) на 2 процентных пункта на независимых валидационных датасетах по сравнению со стандартными методами. Цель – добиться повышения точности определения состояний клетки (в т.ч. патологических) на 10-20 процентных пункта.

В случае успеха данный метод позволит вывести в клиническую практику системы диагностики, имевшие до этого точность предсказания 75-90%. Прочие методы предсказания патологий, обладающие точностью 60-75%, смогут быть существенно усовершенствованы с помощью разрабатываемой технологии.