Member-only story
Фолдинг наш!
Тихая технологическая революция, которой никто не ожидал
Похоже, у нас на глазах происходит новая технологическая революция в биологии. Именно технологическая, а не научная, но от этого не менее значимая.
На днях завершилось очередное “соревнование” методов предсказания трехмерной структуры белков CASP14 — своеобразный международный смотр самых лучших вычислительных методов, позволяющих получить трехмерную структуру белковой глобулы по ее первичной геномной последовательности.
Как и в прошлый раз в 2018, всех порвал алгоритм машинного обучения от Google AlphaFold второй версии. Само по себе это не является чем-то сенсационным — ну порвал конкурентов и порвал. Сенсация в том, что впервые за 28-летнюю (!) историю соревнований CASP, точность моделей стала де-факто неотличимой от точности экспериментальных методов — рентгеновской кристаллографии и крио-электронной микроскопии. Часть структур была предсказана настолько точно, что у специалистов просто отвисла челюсть.
Если люди, работавшие в этой области десятилетиями, заявляют что “проблема в практическом плане решена”, то это о многом говорит, согласитесь.
Нейросеть достаточно скоро научится “щелкать” сложные случаи, такие как мембранные белки или компоненты супрамолекулярных косплексов, на которых она пока что выдает не очень убедительные результаты — это чисто технический вопрос.
После этого в руках ученых окажется практически “бесплатный” и надежный метод предсказания структуры любого нужного им белка. По-сути рухнет последний барьер на пути к “золотому веку” молекулярной фармакологии: бери для работы любой белок, который хочешь, а не только тот, для которого есть структура. Бигфарма уже яростно роет копытом — возможности уже совсем скоро расширятся на порядок.
А теперь ложка дегтя: проблема фолдинга как научная задача, как была нерешенной так и осталась. Нейросеть не вскрывает никаких физических механизмов явления, она работает как непостижимый черный ящик — забросили сиквенс на вход, получили структуру на выход. Почему именно такую структуру — хрен его знает. Это общая проблема всех методов машинного обучения — они решают проблему практически, но не решают ее концептуально: не редуцируют сложную задачу до набора простых, не выявляют в ней закономерностей, не…