Штучний інтелект для науки: як AlphaFold читає білкове орігамі життя

ТЕКСТ:

Проєкт «Геном людини» стартував у 1990-му, тривав 13 років і завершився «успішним провалом». Цей амбітний задум під керівництвом Нобелівського лауреата Джеймса Вотсона став втіленням давньої мрії кількох поколінь біологів розібрати молекулярні підвалини функціонування людського організму. Результат тоді буквально приголомшив спеціалістів, адже виявилося, що зрозумілі нам протеїн-кодуючі гени займають не більше 2% обсягу нашого геному. Попередні оцінки різнилися між 5–20%, але 2% відверто не очікував ніхто. Саме тоді з’явився термін «сміттєва ДНК» (junk DNA), який підкреслював величезну прогалину в розумінні як, власне, працює наш геном.

Довідка: що треба знати про гени і білки?

Інформація для побудови нашого організму зберігається у послідовності нуклеотидів ДНК. За своєю функцією ці послідовності поділяються на структурні (повтори, спейсери, центромери, теломери тощо), регуляторні (промотори, енхансери, термінатори) та ті, що кодують інформацію (гени). Генів наразі виділяють чотири типи: гени (1) рибосомальної та (2) транспортної РНК, які потрібні для організації виробництва протеїнів в цитоплазмі, (3) білок-кодуючі, з яких ці протеїни, власне, виробляються, та (4) гени некодуючих РНК, які виконують регуляторні функції на різних рівнях як всередині клітин, так і між ними. Центральна догма молекулярної біології каже нам, що інформація з ДНК білок-кодуючого гена переписується на матричну РНК, яка виходить з ядра і перетворюється на протеїн за допомогою рибосоми — великого, складного і дуже древнього нуклеопротеїнового комплексу. При чому послідовність нуклеотидів матричної РНК читається групами по три нуклеотиди, які називають кодонами. Кожен кодон відповідає за одну амінокислоту в послідовності протеїну, або за стоп-сигнал. Амінокислоти, як виходить із назви, мають аміногрупу та кислотну (карбоксильну) групу. Карбоксигрупа попередньої амінокислоти утворює міцний (ковалентний) пептидний звʼязок із аміногрупою наступної амінокислоти. Так утворюється білковий (поліпептидний) ланцюг. Атом нітрогену у пептидному звʼязку зберігає частково позитивний заряд, тоді як атом оксигену — частково негативний. Це уможливлює електростатичні взаємодії між віддаленими АК, що веде до утворення двох найбільших поширених вторинних структур: альфа-спіралей (якщо АК відносно поряд у послідовності) та бета-складок (якщо АК довільно далеко у послідовності). Конкретні біологічні властивості кожного окремого білка визначаються хімічними групами, що від нього відходять — бічними ланцюгами амінокислот, яких є 20 основних типів. Їх розділяють на чотири основні групи: за спорідненістю до води (полярні — ті, що «полюбляють» воду, і неполярні — ті, що «ненавидять» воду), а також за зарядом (позитивно та негативно заряджені).

Але найголовнішим досягненням проєкту стало чітке усвідомлення, що визначати послідовності — секвенувати — настільки великі геноми наявними на той момент методами молекулярного клонування — абсолютно марна праця. Власне, саме тому це зайняло цілих 13 років, і далі так тривати просто не могло. Це розуміння дало колосальний поштовх для розвитку технологій секвенування другого покоління, з яких наразі найпопулярнішою стала Illumina, увійшовши до стандартного набору методів сучасної біологічного дослідження. Вона стала настільки масовою, а від того — дешевою, що ми буквально почали секвенувати все навколо себе. І від цього генетичні бази даних почали розростатися із неймовірною швидкістю. Тож це було лише питанням часу — знайти спосіб, як використати такий колосальний масив даних для розв’язання однієї з наріжних фундаментальних проблем біології.

Ця проблема має відносно просте формулювання, але сама є дуже важкою: як визначити тривимірну структуру білка, знаючи послідовність його амінокислот? Завдяки дослідам Нобелівського лауреата Крістіана Анфінсена, опублікованим у 1961 році, ми точно знаємо, що це можливо зробити. Він взяв фермент, що розщеплює РНК, денатурував його високою концентрацією сечовини, а потім повернув до фізіологічного розчину і спостерігав відновлення його функції. Анфінсен довів, що вся інформація, необхідна для побудови робочої структури, міститься в її амінокислотній послідовності, за що і отримав половину Нобелівської премії з хімії за 1972 рік. От тільки залишалася одна проблема: типовий протеїн складається в середньому із понад 300 амінокислот, а це — величезна молекула із незліченною кількістю можливих конфігурацій. На цей факт першим звернув увагу Сайрус Левінталь у 1969 році. Він навів теоретичні обрахунки, за якими середньому білку знадобилося б більше часу, ніж вік Всесвіту, щоб згорнутися у правильну тривимірну структуру, якби він це робив сліпим підбором конфігурацій. І попри це, тисячі білків в кожній із наших клітин щомиті утворюють свої унікальні структури за частки секунди. Це спостереження отримало назву «парадокс Левінталя» і протягом усього часу аж до появи інструмента під назвою AlphaFold підкреслювало наше повне нерозуміння того, як протеїни набувають своїх генетично зумовлених форм.

Отже, набуття білками генетично визначеної тривимірної структури — фолдинг — це радше складний акробатичний номер, аніж пошук навмання. А щоб у загальних рисах зрозуміти, як він відбувається, треба згадати, що таке білки.

Сухою науковою мовою, це полімери двадцяти основних типів амінокислот (АК). Таку будову можна уявити собі як кольорові намистини, що сидять на нитці у певному порядку. Але амінокислоти — це не звичайні намистини. Вони не лише послідовно зв’язані ниткою, а й мають змогу утворювати поперечні зв’язки між собою. Наприклад, «червоні» будуть притягуватися до блакитних, «зелені» гуртуватимуться між собою, а маленькі «жовті» намистинки пролазитимуть у шпаринки і складки. І саме ці взаємодії є ключовими в утворенні третинної структури білка. Тож, завдання передбачення загальної структури білка (або фолд) можна звести до вирахування мінімального набору горизонтальних звʼязків між конкретними амінокислотами в генетичній послідовності. Але перш ніж ми побачимо, як її вирішили розробники AlphaFold, згадаємо менш вдалі спроби.

Перші структури протеїнів із роздільною здатністю на рівні окремих атомів ми побачили за допомогою рентгенівської кристалографії. Цей метод дуже працемісткий, оскільки вимагає виділення великої кількості протеїну та перетворення його на кристал, що відбувається лише за дуже специфічних і невідомих заздалегідь умов, які доводиться підбирати буквально «методом тику». Далі білкові кристали опромінюють рентгенівськими променями, які заломлюються відповідно до структури білка (а відтак — і цілого кристалу) з утворенням так званої дифракційної картинки. До появи сучасної обчислювальної техніки розшифрування цієї картинки для цілого білка, що зазвичай складається із десятків тисяч атомів, було титанічною працею. За визначення тривимірної структури перших двох білків (гемоглобіну коня та міоглобіну кита) дали Нобелівську премію з хімії за 1962 рік. Та незважаючи на такі складнощі, наразі в базі даних білкових структур Protein Data Bank містяться тисячі вирішених таким методом зразків. Вони склали основу для тренувального датасету AlphaFold.

Історично першим способом компʼютерного передбачення структури білків є гомологічне моделювання. Воно починається із АК-послідовності білка, який ви хочете змоделювати, знаходить схожий (гомологічний) за послідовністю експериментально вирішений білок і «натягує» його структуру на ваш білок інтересу. Загалом цей метод доволі ефективний. На додачу, наразі існують дуже чутливі алгоритми пошуку віддалених гомологів, для яких подібність за АК може становити близько 30%. Проте якщо схожість нижча (що часто трапляється із бактеріальними й особливо — вірусними протеїнами) або те, що вас цікавить, взагалі ніхто й ніколи не вирішував, то цей метод не працює.

Щоб перекрити цю прогалину, почалась розробка методу «пронизування» (protein threading) або, як його ще називають, розпізнавання фолду (fold recognition). Він базується на попередньому відкритті, що мільйони відомих білкових послідовностей можна класифікувати в обмежену кількість фолдів, яких наразі відомо близько 1500.

Два цікаві факти. По-перше, до масового поширення машинного навчання та глибинних нейронних мереж це класифікували ентузіасти вручну, і я, якщо чесно, не відстежував, чи в сучасних білкових мовних моделях відтворилася ця «людська» класифікація. По-друге, досі достеменно не відомо, чим зумовлена така мала кількість фолдів: тим, що всі ці білки еволюційно споріднені між собою, або ж тим, що різні білки незалежно «доеволюціонували» до однакової форми (конвергенцією). Алгоритм «пронизування» є збіркою методів, що намагаються передбачити фізико-хімічні властивості окремих ділянок білка на основі АК послідовності: чи вони утворюють альфа-спіралі, чи бета-складки, чи вони взаємодіють із водою на поверхні білка, а чи занурені всередину й оточені іншими амінокислотами того самого білка. На основі цих передбачень робили тривимірне моделювання цих ділянок. Метою було порівняти результати передбачення із базою даних класифікованих структур, щоб зрозуміти, до якого фолду може належати білок інтересу, і відповідно змоделювати його. Успіхи цього підходу були більш ніж скромними, і загалом дослідження показали, що проблему передбачення структури протеїну неможливо розбити на підзадачі — необхідно саме враховувати всі можливі взаємодії між АК, а не лише локальні. Пізніше ця проблема ще з'явиться під час розробки AlphaFold.

Був ще третій підхід, який розробляв переважно Девід Бейкер в межах проєкту Rosetta, і це було передбачення шляхом простого перебору всіх тривимірних конфігурацій білка. По суті, вони намагалися симулювати рух молекул білка — те, як вони стикаються і відскакують одна від одної (закони руху Ньютона), або як притягуються і прилипають одна до одної (закони електростатики Кулона). Наразі цим займається ціла галузь на стику біології, фізики та комп’ютерних наук — молекулярна динаміка.

Дарма й казати, що такий метод потребував величезних обчислювальних ресурсів, і найбільший протеїн, структуру якого вдалося за допомогою нього успішно передбачити, був лише 93 амінокислоти завдовжки — приблизно в чотири рази коротше за середній розмір типового білка. Хоча, слід віддати належне, була проведена величезна робота з оптимізації алгоритмів молекулярної динаміки із використанням математичного наближення: коли складні фізичні процеси можна описати функцією, яка їх відтворюватиме, скажімо, на 90–95%, але буде набагато простішою і швидшою в комп’ютерних розрахунках.

Так невтішно ми зайшли в 2018 рік. Проблема передбачення тривимірної структури протеїнів стояла непохитно майже 60 років, і нічого не передбачало її швидкого розв’язання — аж поки не анонсували результати 13-го змагання CASP (critical assessment of structure prediction), в якому вперше взяла участь команда DeepMind із першою версією AlphaFold.

Це ще не був той фурор, який вони викличуть за два роки із другою версією, але команда чітко дала зрозуміти, куди дме вітер. Їм вдалося правильно передбачити більше ніж 70% тестових структур, тоді як у середньому цей показник ледь сягав 50%. У січні 2020 року вийшла стаття в Nature, в якій описувалося, як саме вдалося отримати інформацію про тривимірну структуру довільного білка шляхом порівняння його амінокислотної послідовності з іншими спорідненими білками. До цього метод порівняння послідовностей використовували лише для встановлення еволюційних зв’язків між живими організмами.

Порівнянням генетичних послідовностей активно займаються еволюційні біологи з початку 80-х років. У послідовностях завжди є більш сталі в часі ділянки (консервативні), де склад амінокислот майже не змінюється, і більш мінливі (варіабельні). Завдяки консервативним ділянкам споріднені послідовності можна вирівняти і створити велику матрицю, що відображає еволюційну відповідність АК у низці порівнюваних послідовностей. Еволюційні біологи працюють над розробленням моделей, які б дозволяли краще визначати «родинні звʼязки» між послідовностями на основі «візерунків» варіабельних сайтів, які видно на такому вирівнюванні. Розробники AlphaFold звернули увагу на окремий тип варіабельних сайтів, які координовано змінювалися у групах послідовностей.

Ставайте Другом Куншт

Розглянемо це на прикладі пари АК-положень із позитивно зарядженою амінокислотою лізином (К) та полярною — треоніном (Т). У послідовностей групи «А» у вирівнюванні в першому положенні полярна АК, а в другому — позитивно заряджена, тоді як у послідовностей групи «Б» — навпаки, в першому положенні — позитивна, а в другому — полярна. Це означає, що еволюційна зміна в будь-якому із цих положень автоматично тягне за собою комплементарну зміну в другому положенні пари, що описується терміном «координована еволюція». А це, своєю чергою, вказує на те, що амінокислоти взаємодіють одна з одною бічними ланцюгами чи принаймні перебувають поряд у тривимірній структурі білка, виконуючи спільну функцію. Іншими словами, ця пара АК є фолдоутворювальною. Аналізуючи вирівнювання, можна знайти всі такі пари, і це значно звузить поле пошуку загальної форми білкової молекули, оскільки вона буде обмежуватися набором поперечних взаємодій між АК в послідовності. Тож більше не потрібно перевіряти всі можливі конфігурації, як в парадоксі Левінталя, а лише ті, що розташовані навколо фолдоутворювальних пар.

Цікаво, але сам Левінталь зазначав, що рішення його парадоксу, найімовірніше, полягає в наявності обмеженого набору взаємодій між АК, які визначають та скеровують загальне пакування ланцюгів у тривимірну структуру. Дуже ймовірно, що AlphaFold може вираховувати саме ці ініціювальні взаємодії, проте наразі ми не маємо ані експериментального, ані навіть формально математичного підтвердження цієї гіпотези.

Ба більше, спроби використання вирівнювань АК-послідовностей для визначення положень координованої еволюції робили ще наприкінці 1990-х. Тоді дослідники використовували кореляційний аналіз, розроблений на основі статистичної термодинаміки та теорії інформації, проте без особливого результату. Натомість розробники AlphaFold мали дві кардинальні переваги. По-перше, в них були глибокі нейронні мережі замість математичного апарату кінця 1950-х. По-друге, в їхньому розпорядженні була практично нескінченна база даних генетичних послідовностей для побудови набагато точніших і глибших вирівнювань амінокислотних послідовностей. І все — завдяки бурхливому розвитку технологій секвенування другого покоління, що стало результатом «успішного провалу» проєкту «Геном людини».

AlphaFold — насправді не одна, а дві нейромережі, які інтерактивно обмінюються результатами своєї роботи. Що робить перша, ми щойно з’ясували: знаходить фолдоутворювальні контакти між амінокислотами у послідовності на основі вирівнювань і подає їх як матрицю фізичних відстаней в ангстремах (довжина, що відповідає 10^-10 метра) (дистограма). Друга нейромережа оптимізує фолд на основі загальновідомих параметрів хімічних звʼязків в молекулі білка. Якщо деякі звʼязки неможливі з точки зору фізики, вона сповіщає першу нейромережу, і та перероблює дистограму. За замовчуванням AlphaFold виконує три ітерації цього процесу, що у більшості випадків дозволяє доволі точно змоделювати загальну форму протеїну. Наприкінці виконується так звана релаксація молекули. Грубий результат роботи двох нейромереж може досі містити певні атоми в неприродних положеннях. Щоб це виправити, використовують молекулярну динаміку протеїнів, до розробки якої доклав руку вже згаданий Бейкер.

Розвиток AlphaFold повністю віддзеркалює загальний поступ у галузі нейромереж. Відтак, в основі першої версії AlphaFold були популярні тоді згорткові нейромережі, «конволюційки» (convolutional neural networks, CNN). Їх розробляли насамперед для машинного зору і розпізнавання обʼєктів на фото. За допомогою серії математичних перетворень (конволюцій) вони можуть захоплювати загальніші риси сфотографованих обʼєктів на кожному глибшому конволюційному рівні. Команда DeepMind змогла навчити конволюційку захоплювати взаємодії між амінокислотами у фолді на основі координованої еволюції у вирівнюваннях. Проте, як виявилося, вона не справлялася з виявленням взаємодій між надто віддаленими АК, не могла вийти на загальний рівень цілого протеїну. Тобто, певною мірою, тут проявилися обмеження, які були притаманні алгоритму «пронизування», розглянутому вище.

Щоб подолати ці обмеження, розробники перейшли до використання трансформерів (transformers) — нейромереж, які лежать в основі великих мовних моделей. Вони можуть набагато краще «розуміти» взаємозвʼязки між елементами за допомогою механізму паралельної уваги (multi-head attention). У випадку мовних моделей це — роль кожного слова у загальному значенні речення. У випадку ж передбачення структури протеїну — роль пари амінокислот, що повʼязані координованою еволюцією, у загальній дистограмі та відповідному фолді.

У другій версії AlphaFold розробники назвали першу нейромережу «Евоформер», скорочено від «еволюційний трансформер». Вони також додали до нього дуже простий та елегантний метод перевірки правильності дистограми на основі шкільної тригонометрії. Він заснований на підрахунку довжин та кутів між векторами, що сполучають центральні атоми трьох довільних амінокислот. Як відомо, сума кутів у трикутнику дорівнює 180 градусів. Але, оскільки дистограма — це результат відгадування нейромережею відстаней між амінокислотами, засновуючись на вирівнюванні споріднених послідовностей, то ці відстані можуть виявитися неточними, а трикутник — аномальним. Тоді відстані між цими амінокислотами в дистограмі треба переглянути.

На 14 змаганні CASP 2020 року результати AlphaFold 2 пробили стелю в 90% правильно передбачених структур. Це настільки вразило організаторів, що вони оголосили проблему моделювання структури протеїну за первинною послідовністю амінокислот вирішеною. Надалі акцент у змаганнях вони перенесли на передбачення комплексів білків, зокрема із РНК та ДНК, а також на дизайн протеїнів з нуля.

Підписатися на Куншт

Третя версія AlphaFold зʼявилася в 2024 році. Вона мала значно спрощений «Евоформер» задля кращої ефективності навчання та моделювання, а також абсолютно нову архітектуру структурного модуля. Завдяки цьому AlphaFold 3 може значно швидше моделювати не лише самі білки, а й інші молекули, з якими ті взаємодіють. Цього разу також не обійшлося без зміни типу нейромережі: основою структурного модуля розробки обрали «дифузійку» (diffusion neural network). Вона не оптимізує геометрію білка, як у попередніх версіях, а «малює» її, засновуючись на дистограмі, яку видає спрощений «Евоформер», і «власному розумінні» ідеальної структури. «Малювати» тут — влучний термін, оскільки дифузійки використовуються у генеративному ШІ, який зокрема створює картинки за словесним описом. Це дозволило значно підвищити продуктивність структурного модуля, а також додати до передбачення ансамблі атомів, характерні не лише білкам, а й нуклеїновим кислотам, ліпідам, іонам тощо.

Проте таке покращення не далося безкоштовно. Дифузійки славляться своєю схильністю до галюцинації. У контексті AlphaFold 3 це виражалося у «примальовуванні» гарної, хімічно досконалої структури в ділянках, про які точно відомо, що вони невпорядковані. AlphaFold 2 цього, звичайно, не робив, бо не міг. Натомість, він моделював «спагеті» — поліпептидний ланцюг, позбавлений будь-якої вторинної структури, що відповідало дійсності. Тож розробники вирішили натренувати дифузійку на структурах, передбачених AlphaFold 2, вона навчилася імітувати поведінку попередньої версії і перестала проявляти зайву креативність.

Отак закінчилася майже 60-річна епопея дослідження простенького питання фундаментальної біології, яке у підсумку мало напрочуд складну відповідь. Щоб знайти її, знадобилися десятки років поступу в еволюційній біології, десятиліття кропіткої праці над «Геномом людини» і розробка абсолютно нового методу його секвенування. І все — для того, щоб ми завдяки своїй природній допитливості накопичили величезну базу даних генетичних послідовностей. Довелося поглянути на стару ідею координованої еволюції під новим кутом і через призму нейромережевої магії (над якою теж сотні розробників працювали десятки років). Це чудовий приклад сили багатогалузевого підходу і того, як, на перший погляд, незалежні дослідницькі шляхи неочікувано сходяться в одній точці, щоб дати направду неймовірний результат! У 2024 головні розробники AlphaFold Деміс Гассабіс та Джон Джампер, а також Девід Бейкер отримали Нобелівську премію з хімії за передбачення структури білків та дизайн протеїнів з нуля.