Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.

Dokowanie molekularne

Другие языки:

Dokowanie molekularne

Подписчиков: 0, рейтинг: 0

Dokowanie molekularne (ang. molecular docking) – metoda komputerowa pozwalająca na predykcję preferowanej pozycji ligandu po związaniu się z makromolekułą (np. białkiem) w jej miejscu wiążącym w celu utworzenia stabilnego kompleksu oraz interpretację występujących interakcji pomiędzy związanym ligandem a makrocząsteczką.

Zastosowanie

Dokowanie molekularne jest najpopularniejszą metodą projektowania leków opartą na strukturze (SBDD, ang. structure-based drug design), czyli wtedy gdy znana jest dokładna struktura 3D celu molekularnego. Popularność przyniósł ogromny wzrost mocy obliczeniowej komputerów, który pozwolił na badanie powinowactwa (ang. affinity) wielu ligandów w krótkim czasie.

Głównym celem dokowania molekularnego jest określenie najlepszej pozycji ligandu względem makromolekuły pod kątem strukturalnym, ale również energetycznym. Obliczenia pozwalające na wybranie odpowiedniego ułożenia cząsteczki ligandu opierają się najczęściej o algorytmy komputerowe, które poprzez stopniową modyfikację cząsteczki potrafią dobrać najkorzystniejsze jej ułożenie. Wymienić tu można dla przykładu algorytmy stochastyczne – algorytm genetyczny (GA) oraz algorytm Monte Carlo (MC); czy też algorytm konstrukcji przyrostowej (IC, ang. incremental construction) oparty na fragmentacji ligandu i dokowaniu tych fragmentów do białka. Natomiast dopasowanie energetyczne, czyli przewidywana siła powinowactwa ligandu do białka, oszacowywana jest przy pomocy funkcji punktujących (ang. scoring function). Funkcje te można podzielić na 4 podstawowe typy: funkcje oparte na polach siłowych, funkcje empiryczne, funkcje oparte na wiedzy oraz funkcje oparte na uczeniu maszynowym.

Typy dokowanie molekulanego

Wyróżnić można dwa typy dokowania:

mała cząsteczka – makrocząsteczka – mała cząsteczka nazywana jest ligandem i najczęściej jest nią substancja endogenna lub egzogenna (np. lek) o małej masie molekularnej. Natomiast makrocząsteczką może być białko (enzym, receptor), peptyd, kwas nukleinowy (DNA, RNA) lub inny biopolimer.
makrocząsteczka – makrocząsteczka – tutaj najczęściej dokonuje się dokowania typu białko-białko lub peptyd-białko.

Wykres przedstawiający ogólny zarys metod stosowanych w komputerowym wspomaganiu projektowania leków

Koncept dokowania molekularnego

Metoda dokowania molekularnego była już rozpowszechniona w latach 80 XX w. i przyświecał jej cel odkrywania nowych leków in silico,, czyli za pomocą obliczeń komputera, w myśl nurtu racjonalnego projektowania leków. Głównym zadaniem było skrócenie czasu produkcji nowych leków, określania ich powinowactwa oraz zdobycie wiedzy na temat potencjalnych modyfikacji leków w celu poprawy ich działania. Początkowo cały proces wiązania się ligandu z białkiem był traktowany jako struktura sztywna – zarówno ligand, jak i białko nie przybierało różnych konformacji podczas dokowania. Opierał się on na ówczesnym modelu działania enzymów na zasadzie dopasowania klucza do zamka. Wraz ze wzrostem mocy obliczeniowej komputerów zaczęto zastanawiać się nad ulepszeniem tej metody. Nowy koncept działania enzymów opierający się na zasadzie indukowanego dopasowania, traktujący wszystkie procesy zachodzące w organizmie jako procesy dynamiczne, poskutkował modyfikacją metody dokowania. Na początku ligand zaczął przyjmować różne ułożenia w przestrzeni dzięki obrotom cząsteczki wokół wiązań rotujących w celu minimalizacji swojej energii. Następnie również aminokwasy znajdujące się w miejscu wiążącym, odpowiedzialne za interakcje z ligandem, zaczęły przyjmować różne konformacje. Taka metoda dokowania przyjęła nazwę dokowania elastycznego (ang. docking with flexible residue). Pozwoliło to na dokładniejszą estymację powinowactwa ligandu to celu molekularnego.

Etapy dokowania molekularnego

Podstawowym etapem jest przygotowanie struktur cząsteczek biorących udział w dokowaniu. Następnym jest określenie miejsca wiążącego ligand, potem wybranie odpowiedniego algorytmu modyfikującego struktury oraz odpowiedniej funkcji punktującej zapewniającej końcowy wynik obliczeń i symulacji. Wszystko to wykonuje się w programach komputerowych służących do dokowania molekularnego.

Etapy dokowania molekularnego

Przygotowanie makrocząsteczki, czyli celu molekularnego

Celem molekularnym najczęściej będzie białko. Do dokowania molekularnego potrzebna jest jego struktura 3D. Znaleźć ją można w wielu bibliotekach białek, a najpopularniejszą jest PDB (Protein Data Bank). Struktury 3D białek otrzymywane są tam na drodze krystalografii rentgenowskiej lub NMR. Ważnymi parametrami opisującymi te białka są rozdzielczość wykonanej analizy struktury 3D, jak również rodzaj ligandów jakie są związane z danym białkiem, bowiem rodzaj ligandu wiążącego wpływa na ogólną konformację białka co może wpłynąć potem na analizę wyników dokowania molekularnego. Natomiast rozdzielczość jest bardzo ważna przy określaniu dokładności estymacji pozycji ligandu po dokowaniu oraz parametru RMSD (ang. root main square deviation) przy kalibracji i walidacji metody dokowania.

Po odpowiednim wyborze struktury krystalograficznej potrzebne jest jej przygotowanie do procesu dokowania. W zależności od tego jaki typ dokowania będzie przeprowadzany, dokonuje się odpowiednich modyfikacji. Przy standardowej procedurze podstawowymi czynnościami jest:

dodanie atomów wodoru do aminokwasów budujących białko – badania krystalografii rentgenowskiej oraz NMR pomijają te atomy i nie są one widoczne w strukturze,
dodanie ładunków cząstkowych do poszczególnych aminokwasów – wykorzystywane są tutaj różne metody obliczeniowe np. Kollman lub Gasteiger,
naprawienie lub uzupełnienie brakujących atomów w białku,
usunięcie cząsteczek wody (inaczej procedura wygląda przy dokowaniu uwodnionym) – woda jest również obecna w strukturze krystalograficznej i wykazuje wpływ na dokowanie oraz powinowactwo liganda do celu molekularnego. Jej usunięcie ma na celu zapewnienie większej swobody dopasowania ligandu w miejscu wiążącym, ale również zmniejszenie kosztu obliczeniowego. Niestety prowadzi to do mniej dokładnych oszacowań powinowactwa. W celu dokładniejszych obliczeń stosowane jest dokowanie uwodnione,
usunięcie inhibitora związanego z białkiem oraz innych heteroatomów należących często do endogennych substancji – zapewnia to „oczyszczenie” miejsca wiążącego i zapewnienie odpowiedniej przestrzeni do związania się badanego ligandu. Możliwe jest również pozostawienie endogennych cząsteczek w celu zbadania interakcji pomiędzy nimi a badanym ligandem,
ustawienie „ruchomych” aminokwasów w białku (procedura wykonywana tylko przy elastycznym dokowaniu) – pozwala to na wyznaczenie konkretnych aminokwasów, które mają rotować przy dokowaniu. Czynność ta zapewnia dokładniejsze wyniki powinowactwa oraz lepszą predykcję ułożenia się ligandu względem aminokwasów w miejscu wiążącym. Należy jednak pamiętać, że nim więcej aminokwasów jest „elastycznych” tym więcej czasu zajmuje wykonanie analizy.

Istnieje jeszcze nowsze podejście do zagadnienia przygotowania białka do dokowania. Polega ono na uprzednim przeprowadzeniu symulacji dynamiki molekularnej białka rozpuszczonego w wodzie, a następnie dokonania albo uśrednienia struktury białka podczas całego procesu, albo stworzenia wielu struktur białkowych wyodrębnionych w poszczególnych etapach symulacji dynamiki molekularnej (ang. snapshot) i wyznaczenie z nich struktury uśrednionej poprzez superimpozycjonowanie tych struktur (ensamble structure). Po tych procesach dokonuje się przygotowania białka do dokowania.

Najnowsze odkrycia w dziedzinie uczenia maszynowego zapewniają również możliwość wykonania dokowania bez znajomości początkowej struktury białkowej. Mowa tutaj o programie AlphaFold, który na podstawie samej sekwencji aminokwasowej jest w stanie odtworzyć strukturę trzecio- i czwartorzędową białka ze średnią dokładnością ponad 90% (dokładność zależy w głównej mierze od typu białka i rodziny, z której pochodzi oraz dostępności struktur krystalograficznych białek podobnych do niego).

Przygotowanie małej cząsteczki, czyli liganda

Przy projektowaniu leków ligandem zawsze jest lek. Leki w większości przypadków są inhibitorami enzymów lub antagonistami receptorów błonowych. Zadokowanie takie ligandu do białka będzie miało na celu zdobycie informacji w jakim stopniu dany lek „nadaje się” do bycia inhibitorem danego celu molekularnego. Wiedzę taką otrzymać można z powinowactwa danego leku do białka wyrażonego energią kompleksu (nim mniejsza energia tym mocniej wiąże się dany ligand z białkiem) lub stałej wiązania. W celu zapewnienia rzetelności oraz odpowiedniej dokładności dokowania należy taki ligand przygotować, podobnie jak to miało miejsce z białkiem.

Jednakże pierwszym etapem jest znalezienie struktury liganda. Istnieje wiele bibliotek lub baz danych, w których można znaleźć informacje na temat struktury ligandu. Podstawową bazą danych jest PubChem (biblioteka zawierająca informacje na temat właściwości chemicznych i fizycznych cząsteczek oraz ich struktur 2D i 3D) lub ZINC. Jeśli ligandem jest lek można również korzystać z medycznych baz danych typu DrugBank i in. Po pobraniu odpowiedniej struktury należy ją przygotować pod względem optymalizacji konformacji przestrzennej oraz określić ładunki cząstkowe występujące na poszczególnych atomach. Na konformację przestrzenną wpływają długości wiązań oraz kąty między poszczególnymi atomami w cząsteczce, których wielkość jest dostosowywana do znalezienia lokalnego minimum energetycznego cząsteczki. Do określenia ładunków cząstkowych używane są metody oparte na mechanice kwantowej np. DFT (ang. density functional theory) i podejściu ab initio lub też prostsze i mniej kosztowne czasowo metody oparte na wiedzy lub zestawie parametrów dla wybranych atomów lub ugrupowań. Ważną kwestią jest również odpowiednie uprotonowanie ligandu oraz dodanie brakujących ewentualnie atomów wodoru. Często również można określić liczbę wiązań rotacyjnych, które mają warunkować utworzenie ostatecznej konformacji.

Określenie miejsca wiążącego

Kolejnym etapem jest określenie miejsca wiążącego ligand (ang. binding site). W białkach można wyróżnić miejsca katalityczne odpowiedzialne za działanie i funkcjonowanie danego białka. W celu np. inhibicji działania, ligand musi przyłączyć się w określone miejsce w białku, dlatego poprawne wyznaczenie tego miejsca jest istotne dla prawidłowego dokowania. Takie miejsce wiążące zaznacza się najczęściej wyimaginowaną sferą bądź też prostopadłościanem (ang. grid box), które określa przestrzeń w jakiej ligand ma być zadokowany, a co za tym idzie zaznacza się, które dokładnie aminokwasy mają brać udział w wiązaniu się z ligandem. Wielkość takiej figury przestrzennej wyraża się w Angstremach (Å), natomiast położenie w przestrzeni zaznacza się w układzie Kartezjańskim. Wyznaczenie takiego miejsca wiążącego opiera się na:

danych literaturowych – w artykułach naukowych można znaleźć opis miejsca wiążącego w danym białku, najczęściej ma on charakter określenie, które aminokwasy pełnią kluczową rolę w oddziaływaniu z ligandem,
strukturze krystalograficznej kompleksu danego białka z innym ligandem – w tym przypadku określa się miejsce wiążące na podstawie struktury kompleksu innego np. leku związanego z białkiem dzięki znajomości jego współrzędnych Kartezjańskich.

W przypadku braku wiedzy na temat dokładnego położenia miejsca wiążącego wykonuje się tzw. ślepe dokowanie (ang. blind docking). Polega ono na zaznaczeniu całego białka jako potencjalnego miejsca wiążącego i wykonaniu dokowania. Poprzez analizę zadokowanych cząsteczek, wyznacza się najdogodniejsze miejsce wiążące. Dodatkowo, jest jeszcze jedno rozwiązania pomocne przy braku jakichkolwiek danych na temat centrum aktywnego wykorzystujące algorytmy do obliczenia gdzie w białku znajdują się wolne przestrzenie i jakie jest prawdopodobieństwo, że dany obszar będzie miejscem wiążącym. Opierają się one głównie na homologii badanego białka do innych białek albo na podobieństwie geometrycznym lub energetycznym.

Algorytmy próbkowania (ang. Sampling algorithms)

Algorytmy próbkowania to algorytmy pozwalające na predykcję możliwych konformacji zarówno ligandu, jak i białka oraz ich możliwych kombinacji łączenia. Zakładając, że każdy ligand ma 6 stopni swobody (3 translacyjne i 3 rotacyjne) oraz wiele stopni swobody konformacyjnych (w zależności od liczby wiązań w cząsteczce zdolnych do obrotu), daje to ogromną liczbę możliwych ułożeń liganda w miejscu wiążącym. Dokładając do tego możliwość rotacji „elastycznych” aminokwasów, otrzymuje się zbyt dużą liczbę potencjalnych konformacji co skutkuje wydłużonym czasem obliczeniowym. W celu oszczędzenia na czasie stosuje się właśnie algorytmy próbkowania. Każdy z nich charakteryzuje się unikatowością i wykorzystuje różne metody obliczeniowe żeby wytworzyć potencjalne konformacje cząsteczek. Ogólnie można je podzielić na 3 grupy:

algorytmy dopasowania kształtu
algorytmy systemowe
algorytmy stochastyczne

Algorytmy dopasowania kształtu

Algorytmy dopasowania kształtu są jednymi z najprostszych algorytmów próbkowania, który jest często stosowany na wczesnych etapach procesu dokowania lub na pierwszym etapie innych, bardziej zaawansowanych metod pobierania próbek ligandów. Stosuje on kryterium, które zakłada, że powierzchnia cząsteczkowa liganda musi być dopasowana do wyglądu i kształtu miejsca wiążącego (komplementarność liganda wobec miejsca aktywnego). Główną zaletą tego typu algorytmów jest szybkość obliczeniowa. Programy wykorzystujące tę metodę to np. DOCK, LigandFit, MS-DOCK.

Algorytmy systemowe

Algorytmy systemowe polegają na poszukiwaniu lokalnego lub systemowego (globalnego) minimum energetycznego poprzez rotację i zmianę położenia wszystkich elementów strukturalnych cząsteczki. Podzielić je jeszcze można na algorytmy systemowe wyczerpujące, fragmentacyjne lub konformacyjne. Główną różnicą pomiędzy nimi jest podejście z jakim się obchodzą z elastycznością liganda.

Algorytmy wyczerpujące rotują wszystkimi możliwymi wiązaniami rotacyjnymi aż nie uzyskają minima energetycznego. W tym przypadku próbek jest bardzo dużo i czas obliczeniowy jest wydłużony, dlatego stosuje się ten algorytm tylko do małych ligandów. Przykładem programu, który wykorzystuje ten algorytm jest GLIDE,
Algorytmy fragmentacyjne polegają na pocięciu liganda na mniejsze części. Następnie zakotwicza się najlepiej pasującą część do miejsca wiążącego po czym do tej części dokłada się kolejne części liganda. Metoda ta jest nazywana przyrostową. Programem wykorzystującym ten algorytm jest FlexX, DOCK,
Algorytmy konformacyjne polegają na wcześniejszym wygenerowaniu potencjalnych konformacji liganda, a następnie przyrównaniu każdego z nich do miejsca wiążącego i określenia na tej podstawie najlepiej pasującego.

Algorytmy stochastyczne

Algorytm genetyczny

Algorytm Monte carlo

Algorytmy stochastyczne polegają na generowaniu losowych zmian w orientacji i konformacji liganda zarówno w przestrzeni konformacyjnej, jak i translacyjno-rotacyjnej. Na każdym kroku obliczeniowym, te losowe zmiany podlegają ocenie przez algorytm i zostają zaakceptowane do dalszych zmian bądź też odrzucone według kryterium probabilistycznego. Wymienić tu można 3 główne algorytmy stochastyczne:

Algorytm Genetyczny (GA) jest typem algorytmów ewolucyjnych opierających się głównie na teorii ewolucji Darwina. Stopnie swobody cząsteczki liganda określone są jako ciągi binarne zwane „genami”. Te geny tworzą „chromosomy”, które reprezentują pozycję liganda w przestrzeni. Losowość w tym przypadku algorytmu polega na mutacjach genów i krzyżowaniu się chromosomów. Mutacje obejmują pojedyncze zmiany w genach, natomiast krzyżowania powodują wymianę genów pomiędzy chromosomami. Po takich wymianach genów powstaje nowa struktura ligandu, która od razu podlega funkcji punktującej i jeżeli „przetrwa” to zostaje przekazana do kolejnych generacji obliczeń. W skrócie, po każdym kroku obliczeń najlepsze struktury stają się kolejnymi początkowymi strukturami dla kolejnych obliczeń,
Algorytm Monte Carlo (MC) jest algorytmem, który generuje losowe konformacje ligandu poprzez losowe rotacje wiązania, translacje sztywnej struktury ligandu lub jej obrót. Powstała konformacja jest testowana względem selekcji energetycznej, czyli jeśli struktura jest korzystna energetycznie to przechodzi do kolejnego etapu modyfikacji, natomiast jeżeli nie jest korzystna to zostaje odrzucona. Procedura jest powtarzana aż nie osiągnie energii założonej przed zastosowaniem algorytmu. Losowe zmiany są określane na podstawie funkcji prawdopodobieństwa Boltzmanna:

\mathrm {P} \thicksim \exp {\big (}-{\big (}E_{1}-E_{0})/K_{B}-T)

gdzie: E₀ i E₁ to energie ligandu przed i po losowej zmianie, K_B to stała Boltzmanna, a T to temperatura układu,

Algorytm Kolonii Mrówek (ACO, ang. Ant Colony Optimization) jest inspirowany zachowaniem prawdziwych mrówek, które znajdują najkrótszą drogę między swoim gniazdem a źródłem pożywienia. Mrówki wykorzystują komunikację pośrednią w postaci ścieżek feromonowych, które wyznaczają ścieżki między gniazdem a źródłem pożywienia. W przypadku dokowania białko-ligand wykorzystuje się sztuczną kolonię mrówek, aby znaleźć minimalną konformację energetyczną liganda w miejscu wiązania. Te mrówki są używane do naśladowania zachowania prawdziwych mrówek i oznaczania konformacji ligandów o niskiej energii za pomocą śladów feromonów. Informacje o śladach sztucznych feromonów są modyfikowane w kolejnych iteracjach w celu generowania konformacji o niskiej energii z większym prawdopodobieństwem.

Funkcje punktujące (ang. scoring functions)

Przedstawienie funkcji punktujących

Funkcje punktujące to kluczowy element całego procesu dokowania molekularnego. To właśnie one pozwalają estymować powinowactwo ligandu do celu molekularnego oraz wykazać, która pozycja i ułożenie ligandu w miejscu wiążącym jest najkorzystniejsza energetycznie dla całego kompleksu. Niestety nie ma jednej, uniwersalnej, w pełni skutecznej i dokładnej funkcji punktującej. Tak właściwe każdy program do dokowania posiada swoją własną funkcję za pomocą, której oblicza powinowactwo ligandu do białka. Wyniki otrzymane z dokowania są układane wg malejącego powinowactwa i generalnie pozycja ligandu o najmniejszej energii jest traktowana jako ta najlepsza. W praktyce jednak to badacz decyduje, które ułożenie ligandu jest najkorzystniejsze i najbardziej realne.

Każda z tych funkcji charakteryzuje się 4 podstawowymi cechami:

siła punktująca – zdolność do produkowania wyników z liniową korelacją z danymi eksperymentalnymi
siła rankingowa – zdolność do prawidłowego umiejscowienia w rankingu estymowanych pozycji ligandów
siła dokująca – zdolność do identyfikacji natywnej pozycji wiążącej liganda jako tej z najlepszym wynikiem
siła przesiewowa – zdolność do identyfikacji prawdziwych związków wiążących się z białkiem wśród dostępnej biblioteki z losowymi ligandami

Każdą z funkcji można przypisać do jednej z 4 kategorii różniących się założeniami i uproszczeniami, które zostały użyte ze względu na bardzo duży problem obliczeniowy jakim jest bardzo dokładne obliczenie powinowactwa ligandu do danego białka. Wymienić tu można:

funkcje oparte na wiedzy – wykorzystują analizy statystyczne do wyprowadzenia zaobserwowanych częstotliwości kontaktów międzyatomowych i/lub odległości z kompleksów białko-ligand zawartych w bazach danych struktur krystalograficznych (np. PDB) i wykorzystują prawo Boltzmanna do przekształcenia preferencji par atomów w potencjały par zależne od odległości. W skrócie, funkcja ta zakłada, że nim częściej pojawia się dana interakcja między atomami w strukturach wyznaczonych eksperymentalnie tym korzystniejsza jest ta interakcja, co może skutkować zwiększeniem powinowactwa liganda do białka,
funkcje empiryczne – oszacowują powinowactwo wiązania kompleksu ligand-białko poprzez zsumowanie różnych czynników energetycznych zaangażowanych w wiązanie ligand-białko, takich jak wiązania wodorowe, efekty hydrofobowe, niekorzystne międzycząsteczkowe interakcje (ang. clashes), energia elektrostatyczna, wartość desolwatacji, wartość entropii itp.. Każdy z tych czynników jest mnożony przez odpowiedni współczynnik obliczony z wielokrotnej analizy regresji liniowej opartej na zestawie treningowym kompleksów ligand-białko. Przykładami takich funkcji punktujących są GlideScore, ChemScore,

\Delta G=\sum _{i}W_{i}*\Delta G_{i}

gdzie: ΔG_i oznacza czynnik energetyczny, W_i oznacza współczynnik, ΔG oznacza energię kompleksu ligand-białko.

funkcje oparte na polach siłowych/oparte na fizyce – oszacowują wynik poprzez zsumowanie energii interakcji wiążących (ang. bonded interactions) i niewiążących (ang. non-bonded interactions) wraz z energią pochodzącą z wiązań wodorowych z wykorzystanie zbioru parametrów określonych przez dane pole siłowe (np. AMBER lub CHARMM), dane eksperymentalne oraz obliczenia ab initio. Interakcje wiążące to rozciąganie wiązań, kąty zginania oraz kąty torsyjne, natomiast interakcje niewiążące to oddziaływania van der Wallsa oraz interakcje elektrostatyczne. Nowsze funkcje oparte na polach siłowych uwzględniają również energię z entropii oraz energię solwatacyjną. Przykładami programów używających takich funkcji są AutoDock, DOCK i GOLD. Oddziaływania elektrostatyczne obliczane są na podstawie prawa Coulomba, a oddziaływania van der Wallsa opisane są poprzez funkcję potencjałów Lennarda-Jonesa 12/6. Przykład funkcji punktującej z programu DOCK:

E=\sum _{i}\sum _{j}{\Big (}({\frac {A_{i,j}}{r_{i,j}^{12}}})-({\frac {B_{i,j}}{r_{i,j}^{6}}})+({\frac {q_{i}*q_{j}}{\varepsilon (r_{i,j})*r_{i,j}}}{\Big )})

gdzie: r_ij to dystans pomiędzy atomem białka i i atomem ligandu j, A_ij oraz B_ij to parametry sił van der Wallsa, q_i oraz q_j to ładunki atomów, ε(r_ij) to 4r_ij odpowiadające interakcjom elektrostatycznym wody.

funkcje oparte na uczeniu maszynowym – wykorzystują bardziej zaawansowane techniki, takie jak lasy losowe (RF), maszyny wektorów pomocniczych (SVM), deep learning (DL), sztuczne połączenia neuronalne (ANN), aby przybliżać problemy nieliniowe:
- lasy losowe (ang. random forest) – jest metodą uczenia zespołowego, która wprowadza strategie grupowania i selekcji podzbiorów do wielu drzew decyzyjnych (DT). Każde drzewo jest trenowane przez losowo próbkowane podzbiory zamiast oryginalnego zbioru danych, a następnie tworzony jest odpowiedni wynik konsensusu poprzez integrację danych wyjściowych z wielu drzew decyzyjnych,
- maszyny wektorów pomocniczych (ang. support vector machines) – to zestaw nadzorowanych metod uczenia, które są w stanie obsługiwać zmienne wysokowymiarowe dla małych zbiorów danych. SVM rozwiązują problemy klasyfikacji, używając nieliniowych funkcji jądra do mapowania danych w przestrzeni wielowymiarowej, znajdując optymalnie oddzielającą hiperpłaszczyznę, podczas gdy regresję osiąga się przez wyszukiwanie hiperpłaszczyzny ze zoptymalizowaną sumą odległości od punktów danych do hiperpłaszczyzny,
- sztuczne połączenia neuronalne – to sieci składające się na ogół z kilku prostych neuronów, ułożonych w określoną topologię i połączonych ze sobą, które są zorganizowane w warstwy dzielące się na warstwy wejściowe, warstwy ukryte i warstwy wyjściowe na podstawie ich lokalizacji. Pierwszym zaproponowanym połączeniem neuronalnym był NNScore zaprojektowany jako klasyfikator dobrych i słabych ligandów wiążących. Oparty był na zdefiniowanych pięciu typach potencjałów parowych w celu scharakteryzowania kontaktów bliskich, pół-bliskich, energii elektrostatycznych, ilości typów atomów danego ligandu oraz liczby wiązań rotacyjnych, ostatecznie uzyskując 194 cechy.

Problemy związane z dokowaniem

Dzięki zyskującej popularności i ciągłego przyrostu nowych publikacji naukowych opartych na dokowaniu molekularnym, zostało odkryte wiele problemów związanych z samym procesem dokowania. Najpopularniejsze z nich to:

złe dobranie miejsca wiążącego/centra aktywnego
wirtualny screening z użyciem złej lub zbyt małej biblioteki substancji małocząsteczkowych
niepoprawny dobór najlepszej pozycji i konformacji liganda po dokowaniu
wysokie powinowactwo liganda przy dokowaniu, ale wykazujące słabą siłę wiązania podczas symulacji dynamiki molekularnej
brak pewności czy dany ligand jest agonistą czy antagonistą danego białka
nieuwzględnienie cząsteczek wody w cząsteczce białka zakłóca uzyskanie poprawnego wyniku dokowania
nieuwzględnienie dynamiki białka, poprzez np. elastyczne aminokwasy, również prowadzi do nieprecyzyjnych wartości powinowactwa

Określanie powinowactwa ligandu do białka poprzez dynamikę molekularną

Programy używane do dokowania molekularnego

Istnieje wiele programów służących do dokowania molekularnego. Każdy z nich charakteryzuje się swoim protokołem wykonania dokowania, ale etapy wymienione wyżej są obecne w każdym z nich. Dodatkowo, każdy używa różnych algorytmów próbkowania oraz funkcji punktujących. Wiele z nich jest typu open-source, niektóre natomiast są skomercjalizowane, czyli potrzebny jest zakup licencji na dany okres użytkowania. Najpopularniejsze z nich to:

Popularność programów do dokowania molekularnego w latach 1990–2013

AutoDock
AutoDock Vina
DOCK
Glide
GOLD
FlexX

Zastosowanie dokowania molekularnego

Dokowanie molekularne znajduje zastosowanie w:

oparte na strukturze wirtualne badania przesiewowe w celu identyfikacji nowych związków aktywnych w kierunku określonego białka docelowego
dokowanie w połączeniu z innymi technikami obliczeniowymi i danymi eksperymentalnymi może również brać udział w analizie metabolizmu leków w celu uzyskania przydatnych informacji z układu cytochromu P450
zdobycie wiedzy na temat ułożenia się cząsteczki leku w przestrzeni miejsca wiążącego oraz określenie interakcji pomiędzy lekiem a celem molekularnym na poziomie molekularny
preparatyka kompleksu ligand-białko do prawidłowo wykonanej symulacji dynamiki molekularnej
analiza wpływu modyfikacji chemicznych cząsteczek leku na powinowactwo danego leku do białka

Zobacz też

modelowanie molekularne