Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
Pangenom
Pan-genom supergenom – termin z dziedziny genetyki i biologii molekularnej wprowadzony w 2005 roku przez Tettelin i współpracowników. Oznacza pełny zestaw genów danego gatunku; składa się z genów rdzeniowych, które są obecne u wszystkich osobników, oraz genów zmiennych, które są obecne tylko u niektórych osobników. Jest to narzędzie służące do wizualizacji podobieństw i różnic między blisko spokrewnionymi osobnikami w obrębie gatunku lub rodzaju, badania zmienności genomu w konkretnym gatunku, ustalenia stopnia poziomego transferu genów (HGT), a także do zrozumienia różnic fenotypowych. Badaniem pan-genomów zajmuje się pangenomika.
Historia
Pojęcie pan-genom („pan” – „παν” po grecku – oznacza „całość”) zostało wprowadzony przez Tettelin i współpracowników. Po raz pierwszy został opracowany dla chorobotwórczego paciorkowca Streptococcus agalactiae szczególnie niebezpiecznego dla kobiet w ciąży i noworodków. Tettelin i współpracownicy przeanalizowali osiem izolatów tego drobnoustroju, których pan-genom „obejmuje genom rdzeniowy wspólny dla wszystkich izolatów, stanowiący około 80% pojedynczego plus genom zbędny składający się z częściowo wspólnych i specyficznych dla szczepu genów”.
Budowa pan-genomu
Rozwój technik sekwencjonowania umożliwił analizę coraz większej liczby genomów drobnoustrojów należących do tej samej jednostki taksonomicznej. Ostatecznie doprowadziło to do koncepcji pan-genomu, czyli całego zestawu genów występujących w grupie przedstawicieli tego samego gatunku/rodzaju, który z kolei można podzielić na:
- genom rdzeniowy definiowany jako zbiór tych genów obecny we wszystkich badanych genomach zwykle obejmuje geny odpowiedzialne za funkcje otoczki komórkowej lub regulatorowe
- genom zmienny (nazywany również zbędnym, dodatkowym, elastycznym) zbiór genów posiadany tylko przez jeden organizm lub jego podgrupę na przykład geny specyficznej adaptacji szczepu, takie jak oporność na antybiotyki
Rodzaje pan-genomu
Uważa się, że niektóre gatunki bakterii mają nieograniczony repertuar genów, a inne gatunki są ograniczone przez maksymalną liczbę w puli genów.
- Otwarty pan-genom: liczba genów pan-genomu wzrasta wraz z liczbą dodatkowo sekwencjonowanych szczepów. Innymi słowy jego rozmiar zwiększa się w nieskończoność podczas dodawania nowych genomów. Przykład: Escherichia coli.
- Zamknięty pangenom: W tym przypadku dodanie nowych genomów nie doprowadzi do odkrycia nowych możliwości kodowania. Sekwencjonowanie genów nowych szczepów nie dostarczy nowych genów do pan-genomu. Pangenom zamknięty jest typowy dla gatunków żyjących w izolowanych niszach z ograniczonym dostępem do globalnej puli genów drobnoustrojów. W przypadku tych gatunków niewielka liczba zsekwencjonowanych szczepów obejmuje już cały pangenom. Przykład: Bacillus anthracis.
Opracowywanie pan-genomów – narzędzia i procedury
Narzędzia
- Roary – szybkie narzędzie do wyodrębniania pełnych pangenomów, podstawowych zestawów genów lub różnic między genomami referencyjnymi
- panX – analiza pan-genomów i wizualizacja internetowa
- PanOCT – uwzględnia zarówno homologię genów, jak i konserwatywne sąsiedztwa genów
- OrthoMCL – ekstrakcja genomów rdzenia itp.
- LS-BSR – szybkie porównanie zawartości genetycznej dużej liczby genomów
- PanPhlAn – wykrywanie kompozycji genów szczepów w próbkach środowiskowych WGS w oparciu o pangenomy.
Różnorodność między genomami często przejawia się w postaci drzew a ich zdecydowana większość konstruowana jest celem ostatecznej rekonstrukcji ewolucji a także w naukach stosowanych, takich jak medycyna czy nauki rolnicze jako analiza funkcjonalna.
Procedura
Drzewa genomu są tworzone na podstawie odległości między profilami pan-genomu. Używamy względnej odległości Manhattanu, tj. odległości między genomem i i k wynosi:
Gdzie n to całkowita liczba rodzin genów, Wj to ciężar właściwy danej rodziny genów, a W to suma tych wag. Domyślnie Wj= 1 dla wszystkich j, ale niektóre geny mogą mieć obniżoną wagę, jak opisano poniżej. Odległość ta opisuje odsetek pan-genomu, w którym różnią się genomy i i k.
Wagi rodziny genów
Geny rdzeniowe, tj. rodziny genów obecne we wszystkich genomach, przyczyniają się do braku różnic między genomami i mogą zostać odrzucone – mając wagę zerową. Inne rodziny genów również mogą mieć obniżoną wagę. Geny obecne tylko w jednym genomie, określanym jako ORF, są często wątpliwe i mogą być produktem zbyt wrażliwych wyszukiwarek genów. Dlatego też nadanie takim genom zerowej wagi poprawia odporność drzewa genomowego na tego typu błędy.
Przykład – analiza genomowa Bifidobacterium longum
W celu określenia zawartości genetycznej, różnorodności i ogólnej charakterystyki B. longum przeprowadzono sekwencjonowanie genomu 20 wybranych izolatów w celu analizy porównawczej w odniesieniu do szeregu publicznie dostępnych genomów tego szczepu. Aby ułatwić spójną analizę porównawczą, przeprowadzono jednorodną prognozę otwartej ramki odczytu (ORF). Zsekwencjonowane genomy zostały pobrane z bazy danych NCBI. Zdefiniowano pulę 1200 rodzin genów, które są wspólne dla 20 genomów B. longum i w pełni zsekwencjonowano genomy B. longum reprezentując w ten sposób przewidywany genom rdzenia. Zaobserwowano rodziny genów zaangażowane w proces kolonizacji i adaptacji do środowiska gospodarza (np. białka powierzchniowe, pilusy zależne od sortazy, produkcja egzopolisacharydów, systemy R), a także hipotetyczne białka i ruchome elementy genetyczne. Wykazano, że całkowite przewidywane ORF na genom wykazuje szerszy zakres (od 1761 do 2189), co wskazuje, że B. longumum prezentuje wyższy poziom zróżnicowania genetycznego niż inne taksony bifidobakteryjne. Analizowane w tym badaniu genomy B. longum pozwoliły na opisanie jego pan-genomu i został on zdefiniowany jako nie w pełni zamknięty, ale zbliżający się do zamkniętego genomu. Geny rdzeniowe są obecne co najmniej raz w każdym badanym genomie, a w tym przypadku stanowią one ~33% wszystkich rodzin genów uzyskanych w analizie. Pozostałe 67% (co w sumie stanowi 2433 rodziny genów) reprezentują geny, które składają się na zmienny lub zbędny genom, który składa się z genów, które są obecne w niektórych, ale nie we wszystkich genomach.