Aggiornamento sul completamento del genoma umano e annotazioni: Nomenclatura dei geni

Per ogni gene umano inequivocabilmente stabilito, un nome e un simbolo (abbreviazione) sono approvati dal HGNC. Ogni simbolo è unico, e ogni gene avrà un solo simbolo genetico approvato. È importante fornire una rappresentazione unica per ogni gene, in modo che i colleghi possano parlare tra loro di una particolare sequenza o famiglia di geni. Avere un simbolo unico facilita anche il recupero elettronico dei dati dalle pubblicazioni e dai database. Inoltre, è importante che ogni simbolo mantenga preferibilmente una costruzione parallela, per esempio, in diversi membri di una famiglia di geni.

L’HGNC dovrebbe essere contattato il prima possibile con nuovi membri di famiglie di geni, perché alcuni simboli possono essere riservati nel loro database. Ottenere il simbolo di un gene prima della pubblicazione eviterà ogni possibile conflitto con i simboli esistenti e assicurerà che il gene sia prontamente registrato nei database LocusLink (http://www.ncbi.nlm.nih.gov/LocusLink/) e Genew (http://www.gene.ucl.ac.uk/cgi-bin/nomenclature/searchgenes.pl).

Al settembre 2003, ci sono 16.765 simboli di geni umani approvati – il che significa che l’obiettivo di nominare tutti i geni nel genoma umano è da qualche parte tra un terzo e forse più della metà completato. I nuovi simboli individuali sono richiesti non solo dagli scienziati ma anche da un numero crescente di riviste (per esempio American Journal of Human Genetics; Animal Genetics; Annals of Human Genetics; Cytogenetic & Genomic Research; Genes, Chromosomes & Cancer; Genomics; Human Mutation; Lancet; Molecular Therapy; Nature Genetics; Radiation Research). La pubblicazione di un articolo in una di queste riviste non procederà fino a quando il gene in studio non sarà stato nominato ufficialmente. Questo assicura anche che tutti i nuovi simboli rilasciati siano immediatamente indicizzati in modo incrociato con altri database (ad esempio LocusLink, Ref Seq, OMIM e MGD), il che aumenta la potenziale accessibilità e l’impatto di questi geni nei database.

È stato suggerito che il processo di nomenclatura potrebbe essere automatizzato, e pubblicazioni recenti indicano certamente che questa potrebbe essere una possibilità fattibile. Mentre l’assegnazione automatica dei nomi e dei simboli dei geni può dare classificazioni altamente sistematiche, tuttavia, questo non permette sempre l’inclusione delle informazioni più utili, o addirittura memorabili.

Esempi di ricerca o presentazione di un simbolo genico

La tabella 1 riassume i passi che si deve fare per assicurare una corretta nomenclatura di qualsiasi gene. Tre esempi saranno dati qui, per illustrare ulteriormente come e perché si dovrebbe lottare per un sistema standardizzato di nomenclatura dei geni. In questi esempi, l’attenzione si concentra sull’uso dei nomi dei geni come termini di ricerca, piuttosto che sul confronto di una sequenza di DNA o di proteine appena determinata, attraverso la ricerca via BLAST (http://www.ncbi.nlm.nih.gov/BLAST/). I tre esempi qui sotto comprendono geni che codificano enzimi; gli aggiornamenti futuri si concentreranno sulla nomenclatura di altri tipi di prodotti genici e motivi del DNA.

Tabella 1 La lista di controllo dell’HUGO Gene Nomenclature Committee (HGNC) per decidere un nuovo simbolo genico umano

Cicloossigenasi

La procedura per scrivere una recensione sulla prostaglandina G/H sintasi-1 e -2, conosciuta anche come cicloossigenasi-1 e -2, comunemente soprannominata in molte riviste come ‘COX-1’ e ‘COX-2’ è esposta di seguito. Questi enzimi, che sono obiettivi dei farmaci antinfiammatori non steroidei, sono fondamentali nella conversione dell’acido arachidonico in prosta-glandine G e H, vie che sono associate a processi infiammatori, dolore, malattia reumatoide, aterosclerosi, ictus, lesioni del tratto gastrointestinale e riparazione, stress ossidativo e vari tumori . Al fine di determinare il simbolo corretto approvato, il primo approccio è quello di cercare LocusLink (per tutti gli organismi) utilizzando ‘prostaglandina g sintasi’ o ‘prostaglandina h sintasi’ come nomi completi. Questo recupererà rispettivamente dieci e 12 loci, quattro dei quali in entrambi i casi includono i simboli approvati per l’uomo, PTGS1 e PTGS2, e il topo e il ratto Ptgs2. Cercando LocusLink con ‘cicloossigenasi’ si otterranno 49 risultati – elencati in ordine alfabetico – di nuovo, quattro dei quali includono i record dei geni PTGS1 e PTGS2 umani e Ptgs2 del topo e del ratto. Cercando LocusLink per ‘cox1’, si trovano tre loci, che includono il PTGS1 umano, il Ptgs1 del topo e il Mt-Co1 mitocondriale del topo. Cercando LocusLink per ‘cox2’, si trovano sette risultati, tre dei quali sono PTGS2 umano e Ptgs2 di topo e ratto; è registrato anche Mt-Co2 mitocondriale di ratto.

Ricercando Genew usando ‘prostaglandina g sintasi’ o ‘prostaglandina h sintasi’ come nomi completi, tuttavia, non si recupera alcun record di gene. Cercando Genew con ‘cyclooxy-genase’, si può confermare che i simboli dei geni umani sono PTGS1 e PTGS2, i loro nomi approvati sono prostaglandin-endoperoxide synthase 1 (prostaglandin G/H synthase e cyclooxygenase) (M59979; NM_000962) e prostaglandin-endoperoxide synthase 2 (prostaglandin G/H synthase e cyclooxygenase) (D28235; NM_000963), situati sui cromosomi umani 9q32-q33.3 e 1q25.2-q25.3, rispettivamente; gli alias per PTGS1 includono COX1, PGHS-1 e PTGHS e per PTGS2 includono solo COX2. Si può notare che c’è una certa confusione sull’uso di altri alias come COX, perché cercando su Genew tutti i record che iniziano con COX si ottengono 46 record, la maggior parte dei quali si riferisce ai geni della subunità del citocromo c ossidasi. Quindi, usare ‘COX’ per riferirsi agli enzimi cicloossigenasi-1 e -2 che si stanno studiando non sarebbe utile alla comunità, poiché questo porterebbe solo ulteriore confusione nella letteratura.

Sintasi degli acidi grassi

La sintasi degli acidi grassi, uno dei principali enzimi lipogenici, converte le calorie alimentari in una forma di energia di stoccaggio. Gli stessi acidi grassi possono anche agire come segnali che regolano l’espressione genica, e la sintasi degli acidi grassi è downregolata dagli acidi grassi polinsaturi. Immaginiamo che abbiate isolato il cDNA della sintasi degli acidi grassi del fegato umano e che stiate pensando di dare un nome al vostro gene FAS. Cercando in LocusLink usando ‘fatty acid synthase’, vengono trovati 58 loci – inclusi FASN umano, Fasn di topo e ratto, e Fas del moscerino della frutta. Cercando in LocusLink usando il simbolo ‘fas’, si ottengono 149 risultati, che includono FASN umano e Fasn del topo. FASN si trova sul cromosoma 17q25 e ha un numero di accesso GenBank di NM_004104; pertanto, il tuo gene ha già questo simbolo approvato. Potreste ritenere, tuttavia, che la vostra scelta iniziale di FAS sia più appropriata, nel qual caso dovreste contattare l’HGNC e argomentare il motivo per cui ritenete che ‘FAS’ sia un simbolo migliore per questo gene rispetto a FASN.

Possiamo quindi supporre che abbiate caratterizzato dei geni che codificano per una nuova sintasi citosolica degli acidi grassi a catena corta e una nuova sintasi citosolica degli acidi grassi a catena lunga. Cercando in LocusLink usando i nomi completi, trovate cinque loci per la sintasi degli acidi grassi a catena corta, che includono Fasn del topo e del ratto, e 12 loci per la sintasi degli acidi grassi a catena lunga, che includono FASN umano e tre geni “legasi dell’acido grasso-coenzima A, a catena lunga” (FACL1, FACL3 e FACL4) che rappresentano una piccola famiglia. Cercando in LocusLink usando i simboli ‘fascs’, ‘falcs’, ‘facs’, ‘fass’, ‘fasc’ o ‘falc’, si trovano zero risultati, tranne che per ‘facs’, che dà FACL2 umano e Facl2 di topo e ratto. Cercando in Genew usando i nomi completi, si trovano zero risultati che si riferiscono a uno di questi enzimi. Cercando in Genew usando il simbolo ‘fascs’, ‘falcs’, ‘facs’, ‘fass’, ‘fasc’ o ‘falc’ si trovano anche zero risultati. La tua conclusione sarebbe che c’è un simbolo di radice per almeno quattro geni umani degli acidi grassi-coenzima A a catena lunga (membri di una famiglia evolutivamente correlata), ma niente per la tua sintasi degli acidi grassi a catena corta.

Il prossimo passo sarebbe quello di contattare l’HGNC per assicurarsi che nulla sia stato ‘riservato’, riguardo alla descrizione di questa famiglia di geni. Una volta che questo è stato determinato, si può essere incoraggiati a mettersi in contatto con diversi attori principali nel campo degli acidi grassi a catena corta, e altri nel campo degli acidi grassi a catena lunga, e cercare di raggiungere un accordo di consenso (con il coinvolgimento dell’HGNC) sulle radici simbolo per nominare il gene o i geni della famiglia degli acidi grassi sintasi a catena corta. Poiché FACL è la radice simbolo per la sintasi a catena lunga degli acidi grassi (o ligasi), ‘FACS’ sarebbe tra le radici più ragionevoli e coerenti per il vostro gene sintasi a catena corta degli acidi grassi. In LocusLink, c’è anche l’umano ECHS1, il gene per un ‘mitocondriale enoil-coenzima A idratasi, catena corta’, che si deve confermare non è il nuovo gene che avete identificato. FACS1 rimane quindi il nome proposto più ragionevole – specialmente se altri colleghi nel campo sono d’accordo con il tuo suggerimento.

NADPH-cytochrome P450 reductase

Questo enzima trasferisce il primo elettrone dal NADPH alle varie monoossigenasi del citocromo P450 (CYP). Ma cosa succede se si deve scrivere una recensione su questo argomento? Cercando in LocusLink usando il nome completo, ‘nadph cytochrome p450 oxidoreductase’ (o ‘reductase’ senza ‘oxido’), ci sono nove e 11 risultati, rispettivamente, tra cui POR umano, Por del topo e Cpr del moscerino della frutta. Includendo un trattino (nadph-cytochrome p450 oxidoreductase) se ne ottengono solo due – POR umano e Cpr del moscerino della frutta. Cercando in LocusLink usando il vecchio nome ‘nadph cytochrome c oxidoreductase’ (o ‘reductase’), curiosamente, si ottiene solo una NADPH oxidase più la proteina tumorale-53 umana (TP53) e murina (Trp53). Cercando con il termine ‘p450 ossido-reduttasi’, si trova POR umano e Por topo e ratto, ma anche più di 90 risultati per i geni CYP. Cercando LocusLink con ‘por’, si trovano quattro risultati: POR umano, Por di topo e ratto, e Por del moscerino della frutta. Il simbolo POR umano è identificato in LocusLink come ‘Official Gene Symbol and Name (HGNC)’.

Cercando in Genew usando i nomi completi, ‘nadph citocromo p450 ossidoreduttasi’ (o ‘reduttasi’), ‘nadph citocromo c ossidoreduttasi’ (o ‘reduttasi’), ‘p450 ossidoreduttasi’ (o ‘reduttasi’), ‘citocromo c ossidoreduttasi’ (o ‘reduttasi’), o ‘p450 (citocromo) ossidoreduttasi’ (o ‘reduttasi’), tuttavia, non recupera alcun dato, anche se cercando in Genew con ‘por’, si trova un ‘hit’ per il gene chiamato ‘P450 (citocromo) ossido-reduttasi’ situato sul cromosoma umano 7q11.2 con un alias di ‘CYPOR’. Questo dimostra che a Genew mancano alcuni alias rilevanti, perché la query del nome completo ‘P450 (citocromo) ossidoreduttasi’ non vi porta a POR come nome del gene, mentre il simbolo ‘por’ vi porta al nome completo. Al contrario, iniziando la ricerca con LocusLink si arriva direttamente ai geni POR umani e Por dei roditori. Questo piccolo inconveniente di Genew dovrebbe essere segnalato all’HGNC il più presto possibile.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.