В данном проекте разрабатывается алгоритм, направленный на решение проблем серийных эффектов и большой размерности, который может быть применен вкупе с любыми подходами машинного обучения. Суть подхода заключается в понижении размерности путём кодирования исходных данных экспрессии генов в пространстве скрытых переменных меньшей размерности. При этом происходит разложение скрытых переменных на техническую и биологическую части при помощи состязательных автокодировщиков.
В 2016-2018 годах были предложены подобные методы понижения размерности. Научная новизна нашего же подхода лежит в явном отделении компонент, отвечающих за техническую дисперсию, что позволит единообразно обрабатывать данные разных экспериментов. Впервые подобный подход был применен в обработке естественного языка, где являл собой отделение компонент, отвечающих за стиль и семантику.
В данный момент проект находится на стадии отбора входных данных и проверки основных гипотез. Проводится процедура оценки качества, паспортизации и сбора метаданных для образцов из открытых источников. Уже обработано 200 тыс. человеческих образцов из SRA, при этом доля данных, годных для дальнейшего анализа, по факту составляет около 20%. Разработана архитектура нейросети – автокодировщика, проводятся эксперменты по подбору наилучших её параметров. Разработаны процедуры оценки качества работы нейросети и возможных искажений данных с углубленным анализом генных онтологий и путей передачи сигнала в клетке.
Показано, что применение автокодировщика уже повышает точность предсказания патологий (тестировано на предсказании туберкулёза по крови) на 2 процентных пункта на независимых валидационных датасетах по сравнению со стандартными методами. Цель – добиться повышения точности определения состояний клетки (в т.ч. патологических) на 10-20 процентных пункта.
В случае успеха данный метод позволит вывести в клиническую практику системы диагностики, имевшие до этого точность предсказания 75-90%. Прочие методы предсказания патологий, обладающие точностью 60-75%, смогут быть существенно усовершенствованы с помощью разрабатываемой технологии.