Update on human genome completion and annotations: Gene nomenclature

Dla każdego jednoznacznie ustanowionego ludzkiego genu, nazwa i symbol (skrót) są zatwierdzone przez HGNC. Każdy symbol jest unikalny, a każdy gen będzie miał tylko jeden zatwierdzony symbol genu . Ważne jest, aby zapewnić unikalną reprezentację dla każdego genu, tak aby współpracownicy mogli rozmawiać ze sobą o każdej konkretnej sekwencji lub rodzinie genów. Posiadanie jednego unikalnego symbolu ułatwia również elektroniczne wyszukiwanie danych w publikacjach i bazach danych. Ponadto ważne jest, aby każdy symbol najlepiej utrzymywał równoległą konstrukcję w, na przykład, różnych członkach rodziny genów.

Z HGNC należy skontaktować się tak szybko, jak to możliwe z nowymi członkami rodzin genów, ponieważ niektóre symbole mogą być zarezerwowane w ich bazie danych. Uzyskanie symbolu genu przed publikacją pozwoli uniknąć ewentualnych konfliktów z istniejącymi symbolami i zapewni, że gen zostanie szybko zarejestrowany w bazach danych LocusLink (http://www.ncbi.nlm.nih.gov/LocusLink/) i Genew (http://www.gene.ucl.ac.uk/cgi-bin/nomenclature/searchgenes.pl).

Według stanu na wrzesień 2003 roku istnieje 16 765 zatwierdzonych symboli genów ludzkich — co oznacza, że cel nazwania wszystkich genów w ludzkim genomie jest gdzieś pomiędzy jedną trzecią a być może więcej niż połową ukończony. Poszczególne nowe symbole są wymagane nie tylko przez naukowców, ale także przez coraz większą liczbę czasopism (np. American Journal of Human Genetics; Animal Genetics; Annals of Human Genetics; Cytogenetic & Genomic Research; Genes, Chromosomes & Cancer; Genomics; Human Mutation; Lancet; Molecular Therapy; Nature Genetics; Radiation Research). Publikacja artykułu w którymkolwiek z tych czasopism nie nastąpi, dopóki badany gen nie zostanie oficjalnie nazwany. Zapewnia to również, że wszystkie nowo wydane symbole są natychmiast indeksowane krzyżowo z innymi bazami danych (np. LocusLink, Ref Seq, OMIM i MGD), co zwiększa potencjalną dostępność i wpływ tych genów w bazach danych.

Sugerowano, że proces nomenklatury mógłby być zautomatyzowany, a ostatnie publikacje z pewnością wskazują, że może to być realna możliwość. Podczas gdy zautomatyzowane przypisywanie nazw i symboli genów może dać wysoce systematyczne klasyfikacje, jednakże nie zawsze pozwala to na włączenie najbardziej użytecznych, lub rzeczywiście zapadających w pamięć, informacji.

Przykłady poszukiwania, lub składania symbolu genu

Tabela 1 podsumowuje kroki, które należy podjąć, aby zapewnić właściwe nazewnictwo jakiegokolwiek genu. Podane zostaną tu trzy przykłady, aby zilustrować, jak i dlaczego należy dążyć do ujednolicenia systemu nazewnictwa genów. W tych przykładach nacisk położony jest na wykorzystanie nazw genów jako terminów wyszukiwania, a nie na porównywanie sekwencji DNA lub białek, które właśnie zostały określone, poprzez wyszukiwanie za pomocą BLAST (http://www.ncbi.nlm.nih.gov/BLAST/). Trzy poniższe przykłady obejmują geny kodujące enzymy; przyszłe aktualizacje skupią się na nomenklaturze innych typów produktów genowych i motywów DNA.

Tabela 1 Lista kontrolna HUGO Gene Nomenclature Committee (HGNC) do podjęcia decyzji o nowym symbolu ludzkiego genu

Cyclooxygenase

Poniżej przedstawiono procedurę pisania recenzji na temat syntazy prostaglandyny G/H-1 i -2, znanej również jako cyklooksygenaza-1 i -2, powszechnie nazywanej w wielu czasopismach „COX-1” i „COX-2”. Enzymy te, które są celem niesteroidowych leków przeciwzapalnych, odgrywają kluczową rolę w przekształcaniu kwasu arachidonowego w prostaglandyny G i H, szlaki, które są związane z procesami zapalnymi, bólem, chorobą reumatoidalną, miażdżycą, udarem, uszkodzeniem i naprawą przewodu pokarmowego, stresem oksydacyjnym i różnymi nowotworami . W celu określenia prawidłowego zatwierdzonego symbolu, pierwszym podejściem jest przeszukanie LocusLink (dla wszystkich organizmów) przy użyciu „syntazy prostaglandyny g” lub „syntazy prostaglandyny h” jako pełnych nazw. Spowoduje to wyszukanie odpowiednio 10 i 12 loci, z których cztery w obu przypadkach zawierają zatwierdzone symbole dla człowieka, PTGS1 i PTGS2, oraz myszy i szczurów Ptgs2. Przeszukiwanie LocusLink pod kątem „cyklooksygenazy” spowoduje uzyskanie 49 trafień – uszeregowanych alfabetycznie – ponownie, z których cztery obejmują ludzkie PTGS1 i PTGS2 oraz mysie i szczurze Ptgs2. Przeszukując LocusLink dla 'cox1′, znajdziemy trzy loci, które obejmują ludzki PTGS1, szczurzy Ptgs1 i szczurzy mitochondrialny Mt-Co1. Przeszukując LocusLink dla 'cox2′, znajdujemy siedem trafień, z których trzy to ludzki PTGS2 oraz mysi i szczurzy Ptgs2; zarejestrowany jest również szczurzy mitochondrialny Mt-Co2.

Szukanie Genew przy użyciu 'prostaglandin g synthase’ lub 'prostaglandin h synthase’ jako pełnych nazw, nie powoduje jednak odzyskania żadnych rekordów genów. Przeszukując Genew z użyciem 'cyclooxy-genase’ można potwierdzić, że symbole ludzkich genów to PTGS1 i PTGS2, ich zatwierdzone nazwy to syntaza 1 endoperoksydów prostaglandyny (syntaza prostaglandyny G/H i cyklooksygenaza) (M59979; NM_000962) i syntaza 2 endoperoksydów prostaglandyny (syntaza prostaglandyny G/H i cyklooksygenaza) (D28235; NM_000963), zlokalizowane na ludzkich chromosomach 9q32-q33.3 i odpowiednio 1q25.2-q25.3; aliasy dla PTGS1 obejmują COX1, PGHS-1 i PTGHS, a dla PTGS2 tylko COX2. Widać, że istnieje pewne zamieszanie związane z używaniem innych aliasów, takich jak COX, ponieważ wyszukiwanie w Genew wszystkich rekordów zaczynających się od COX daje 46 rekordów, z których większość odnosi się do genów podjednostki oksydazy cytochromu c. Tak więc użycie „COX” w odniesieniu do enzymów cyklooksygenazy-1 i -2, które się bada, nie byłoby pomocne dla społeczności, ponieważ przyniosłoby to tylko dalsze zamieszanie w literaturze.

Syntazy kwasów tłuszczowych

Syntaza kwasów tłuszczowych, jeden z głównych enzymów lipogennych, przekształca kalorie z diety w formę magazynowania energii. Same kwasy tłuszczowe mogą również działać jako sygnały regulujące ekspresję genów, a syntaza kwasów tłuszczowych jest regulowana przez wielonienasycone kwasy tłuszczowe. Wyobraźmy sobie, że wyizolowałeś cDNA dla ludzkiej wątrobowej syntazy kwasów tłuszczowych i zastanawiasz się nad nazwaniem swojego genu FAS. Przeszukując LocusLink przy użyciu „syntazy kwasów tłuszczowych”, znaleziono 58 loci – w tym ludzki FASN, Fasn myszy i szczurów oraz Fas muszki owocowej. Przeszukując LocusLink przy użyciu symbolu 'fas’ uzyskano 149 trafień, wśród których są ludzki FASN i mysi Fasn. FASN jest zlokalizowany na chromosomie 17q25 i ma numer akcesyjny GenBank NM_004104; dlatego Twój gen ma już ten zatwierdzony symbol. Możesz jednak uważać, że twój początkowy wybór FAS jest bardziej odpowiedni, w którym to przypadku powinieneś skontaktować się z HGNC i argumentować swoją sprawę, dlaczego uważasz, że „FAS” jest lepszym symbolem dla tego genu niż FASN.

Załóżmy następnie, że scharakteryzowałeś geny kodujące nową cytozolową syntazę krótkołańcuchowych kwasów tłuszczowych i nową cytozolową syntazę długołańcuchowych kwasów tłuszczowych. Przeszukując LocusLink przy użyciu pełnych nazw, znajdujemy pięć loci dla krótkołańcuchowej syntazy kwasów tłuszczowych, które obejmują mysi i szczurzy Fasn, oraz 12 loci dla długołańcuchowej syntazy kwasów tłuszczowych, które obejmują ludzki FASN i trzy geny „długołańcuchowych ligaz kwasu tłuszczowego-koenzymu A” (FACL1, FACL3 i FACL4) reprezentujące małą rodzinę. Przeszukując LocusLink przy użyciu symboli 'fascs’, 'falcs’, 'facs’, 'fass’, 'fasc’ lub 'falc’, znajdujemy zero trafień, z wyjątkiem 'facs’, który daje nam ludzki FACL2 oraz mysi i szczurzy Facl2. Wyszukując w Genew przy użyciu pełnych nazw, nie znajdujemy żadnych trafień odnoszących się do żadnego z tych enzymów. Wyszukiwanie w Genew przy użyciu symbolu 'fascs’, 'falcs’, 'facs’, 'fass’, 'fasc’ lub 'falc’ również wygeneruje zero trafień. Twój wniosek byłby taki, że istnieje symbol korzenia dla co najmniej czterech ludzkich genów długołańcuchowych kwasów tłuszczowych-koenzymu A (członkowie ewolucyjnie spokrewnionej rodziny), ale nic dla twojej krótkołańcuchowej syntazy kwasów tłuszczowych.

Następnym krokiem byłoby skontaktowanie się z HGNC, aby upewnić się, że nic nie zostało „zarezerwowane”, dotyczące opisu tej rodziny genów. Po określeniu tego, może być zachęcany do skontaktowania się z kilkoma głównymi graczami w dziedzinie krótkołańcuchowych kwasów tłuszczowych, a inni w dziedzinie długołańcuchowych kwasów tłuszczowych, i spróbować dojść do porozumienia (z udziałem HGNC) na symbolu korzeni do nazywania genu lub genów w rodzinie syntazy krótkołańcuchowych kwasów tłuszczowych. Ponieważ FACL jest symbolem korzenia dla długołańcuchowej syntazy kwasu tłuszczowego (lub ligazy), „FACS” byłby jednym z najbardziej rozsądnych i spójnych korzeni dla Twojego genu syntazy krótkołańcuchowego kwasu tłuszczowego. W LocusLink znajduje się również ludzki ECHS1, gen dla „mitochondrialnej hydratazy enoilokoenzymu A, krótkołańcuchowej”, który musisz potwierdzić, że nie jest nowym genem, który zidentyfikowałeś. FACS1 pozostaje więc najbardziej rozsądną proponowaną nazwą — zwłaszcza jeśli inni koledzy z branży zgadzają się z Twoją sugestią.

Reduktaza NADPH-cytochromu P450

Ten enzym przenosi pierwszy elektron z NADPH do różnych monooksygenaz cytochromu P450 (CYP). Ale co zrobić, jeśli na ten temat ma być napisana recenzja? Przeszukując LocusLink przy użyciu pełnej nazwy „oksydoreduktaza nadph cytochromu p450” (lub „reduktaza” bez „oxido”), otrzymujemy odpowiednio 9 i 11 trafień, w tym ludzki POR, mysi Por i Cpr muszki owocowej. Po dodaniu myślnika (oksydoreduktaza nadf-cytochromu p450) otrzymujemy tylko dwie – ludzką POR i Cpr muszki owocowej. Wyszukiwanie w LocusLink przy użyciu starszej nazwy 'oksydoreduktaza nadf cytochromu c’ (lub 'reduktaza’), co ciekawe, daje tylko oksydazę NADPH oraz ludzkie (TP53) i mysie (Trp53) białko nowotworowe-53. Szukając terminu 'p450 oxido-reductase’, znajdujemy ludzki POR oraz mysi i szczurzy Por, ale także ponad 90 trafień dla genów CYP. Przeszukując LocusLink za pomocą 'por’, znajdujemy cztery trafienia – ludzki POR, mysi i szczurzy Por, a także porcupine Por muszki owocowej. Ludzki symbol POR jest identyfikowany w LocusLink jako „Official Gene Symbol and Name (HGNC)”.

Szukanie Genew przy użyciu pełnych nazw, 'oksydoreduktaza cytochromu p450 nadph’ (lub 'reduktaza’), 'oksydoreduktaza cytochromu c nadph’ (lub 'reduktaza’), 'oksydoreduktaza p450′ (lub 'reduktaza’), 'oksydoreduktaza cytochromu c’ (lub 'reduktaza’), lub „p450 (cytochrom) oksydoreduktaza” (lub „reduktaza”) nie daje jednak żadnych danych, chociaż przeszukując Genew za pomocą „por”, można znaleźć „trafienie” dla genu o nazwie „P450 (cytochrom) oksydoreduktaza” zlokalizowanego na ludzkim chromosomie 7q11.2 z aliasem „CYPOR”. Pokazuje to, że Genew brakuje pewnych istotnych aliasów, ponieważ zapytanie o pełną nazwę 'P450 (cytochrom) oksydoreduktaza’ nie prowadzi do POR jako nazwy genu, podczas gdy symbol 'por’ prowadzi do pełnej nazwy. Dla kontrastu, rozpoczęcie wyszukiwania z LocusLink odsyła bezpośrednio do ludzkich genów POR i gryzoni Por. Ta drobna usterka w Genew powinna zostać zgłoszona do HGNC tak szybko, jak to możliwe.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.