Mise à jour sur l’achèvement du génome humain et les annotations : Nomenclature des gènes

Pour chaque gène humain établi sans équivoque, un nom et un symbole (abréviation abrégée) sont approuvés par le HGNC. Chaque symbole est unique, et chaque gène n’aura qu’un seul symbole de gène approuvé . Il est important de fournir une représentation unique pour chaque gène, afin que les collègues puissent discuter entre eux d’une séquence ou d’une famille de gènes particulière. Le fait de disposer d’un symbole unique facilite également la recherche électronique de données dans les publications et les bases de données. En outre, il est important que chaque symbole maintienne de préférence une construction parallèle dans, par exemple, différents membres d’une famille de gènes.

Le HGNC doit être contacté le plus rapidement possible avec les nouveaux membres des familles de gènes, car certains symboles peuvent être réservés dans leur base de données. L’obtention d’un symbole de gène avant la publication évitera tout conflit possible avec les symboles existants et garantira que le gène est rapidement enregistré dans les bases de données LocusLink (http://www.ncbi.nlm.nih.gov/LocusLink/) et Genew (http://www.gene.ucl.ac.uk/cgi-bin/nomenclature/searchgenes.pl).

En septembre 2003, il y a 16 765 symboles de gènes humains approuvés — ce qui signifie que l’objectif de nommer tous les gènes du génome humain est quelque part entre un tiers et peut-être plus de la moitié achevé. Les nouveaux symboles individuels sont demandés non seulement par les scientifiques mais aussi par un nombre croissant de revues (par exemple American Journal of Human Genetics ; Animal Genetics ; Annals of Human Genetics ; Cytogenetic & Genomic Research ; Genes, Chromosomes & Cancer ; Genomics ; Human Mutation ; Lancet ; Molecular Therapy ; Nature Genetics ; Radiation Research). La publication d’un article dans l’une de ces revues ne se fera pas tant que le gène étudié n’aura pas été officiellement nommé. Cela garantit également que tous les symboles nouvellement publiés sont immédiatement indexés de manière croisée avec d’autres bases de données (par exemple LocusLink, Ref Seq, OMIM et MGD), ce qui augmente l’accessibilité potentielle et l’impact de ces gènes dans les bases de données.

Il a été suggéré que le processus de nomenclature pourrait être automatisé, et les publications récentes indiquent certainement que cela pourrait être une possibilité viable. Alors que l’attribution automatisée de noms et de symboles de gènes peut bien donner des classifications très systématiques, cependant, cela ne permet pas toujours d’inclure les informations les plus utiles, ou même mémorables.

Exemples de recherche, ou de soumission, d’un symbole de gène

Le tableau 1 résume les étapes que l’on est invité à suivre pour assurer une nomenclature correcte de tout gène. Trois exemples seront donnés ici, afin d’illustrer davantage comment et pourquoi il faut s’efforcer de mettre en place un système normalisé de nomenclature des gènes. Dans ces exemples, l’accent est mis sur l’utilisation des noms de gènes comme termes de recherche, plutôt que sur la comparaison d’une séquence d’ADN ou de protéine qui vient d’être déterminée, par une recherche via BLAST (http://www.ncbi.nlm.nih.gov/BLAST/). Les trois exemples ci-dessous comprennent des gènes codant pour des enzymes ; les futures mises à jour porteront sur la nomenclature d’autres types de produits génétiques et de motifs d’ADN.

Tableau 1 Liste de contrôle du comité de nomenclature des gènes HUGO (HGNC) pour décider d’un nouveau symbole de gène humain

Cyclooxygénase

La procédure de rédaction d’une revue sur les prostaglandines G/H synthase-1 et -2, également connues sous le nom de cyclooxygénase-1 et -2, communément surnommées dans de nombreuses revues « COX-1 » et « COX-2 » est exposée ci-dessous. Ces enzymes, qui sont des cibles des médicaments anti-inflammatoires non stéroïdiens, jouent un rôle central dans la conversion de l’acide arachidonique en prosta-glandines G et H, des voies associées aux processus inflammatoires, à la douleur, à la maladie rhumatoïde, à l’athérosclérose, aux accidents vasculaires cérébraux, aux lésions et à la réparation du tractus gastro-intestinal, au stress oxydatif et à divers cancers. Afin de déterminer le symbole approuvé correct, la première approche consiste à effectuer une recherche dans LocusLink (pour tous les organismes) en utilisant « prostaglandine g synthase » ou « prostaglandine h synthase » comme noms complets. Cela permet de retrouver respectivement dix et douze loci, dont quatre comprennent les symboles approuvés pour l’homme, PTGS1 et PTGS2, et pour la souris et le rat, Ptgs2. La recherche de LocusLink avec ‘cyclooxygenase’ donnera 49 résultats — classés par ordre alphabétique — dont quatre incluent les enregistrements de gènes PTGS1 et PTGS2 humains et Ptgs2 de souris et de rat. En recherchant LocusLink pour ‘cox1’, on trouve trois loci, dont le PTGS1 humain, le Ptgs1 de rat et le Mt-Co1 mitochondrial de rat. En recherchant LocusLink pour ‘cox2’, on trouve sept occurrences, dont trois sont le PTGS2 humain et le Ptgs2 de souris et de rat ; le Mt-Co2 mitochondrial de rat est également enregistré.

La recherche dans Genew en utilisant ‘prostaglandine g synthase’ ou ‘prostaglandine h synthase’ comme noms complets ne permet cependant de retrouver aucun enregistrement de gène. En recherchant dans Genew avec ‘cyclooxy-genase’, on peut confirmer que les symboles des gènes humains sont PTGS1 et PTGS2, leurs noms approuvés sont prostaglandine-endoperoxide synthase 1 (prostaglandine G/H synthase et cyclooxygenase) (M59979 ; NM_000962) et prostaglandine-endoperoxide synthase 2 (prostaglandine G/H synthase et cyclooxygenase) (D28235 ; NM_000963), situés sur les chromosomes humains 9q32-q33.3 et 1q25.2-q25.3, respectivement ; les alias pour PTGS1 incluent COX1, PGHS-1 et PTGHS et pour PTGS2 incluent uniquement COX2. On peut constater qu’il existe une certaine confusion quant à l’utilisation d’autres alias tels que COX, car la recherche dans Genew de tous les enregistrements commençant par COX permet de retrouver 46 enregistrements, dont la plupart font référence aux gènes de la sous-unité de la cytochrome c oxydase. Ainsi, utiliser  » COX  » pour désigner les enzymes cyclooxygénase-1 et -2 que l’on étudie ne serait pas utile à la communauté, car cela ne ferait qu’apporter davantage de confusion dans la littérature.

Synthases d’acides gras

L’acide gras synthase, l’une des principales enzymes lipogènes, convertit les calories alimentaires en une forme de stockage de l’énergie . Les acides gras eux-mêmes peuvent également agir comme des signaux qui régulent l’expression des gènes, et l’acide gras synthase est régulé à la baisse par les acides gras polyinsaturés . Imaginons que vous ayez isolé l’ADNc de l’acide gras synthase du foie humain et que vous envisagiez de nommer votre gène FAS. En effectuant une recherche sur LocusLink à l’aide de l’expression « fatty acid synthase », 58 loci sont trouvés, dont le FASN humain, le Fasn de la souris et du rat, et le Fas de la drosophile. La recherche sur LocusLink en utilisant le symbole ‘fas’ donne 149 résultats, dont FASN humain et Fasn de souris. FASN est situé sur le chromosome 17q25 et a un numéro d’accession GenBank de NM_004104 ; par conséquent, votre gène a déjà ce symbole approuvé. Vous pouvez cependant estimer que votre choix initial de FAS est plus approprié, auquel cas vous devez contacter le HGNC et argumenter votre cas en expliquant pourquoi vous pensez que « FAS » est un meilleur symbole pour ce gène que FASN.

Supposons alors que vous avez caractérisé des gènes codant pour une nouvelle synthase d’acides gras à chaîne courte cytosolique et une nouvelle synthase d’acides gras à chaîne longue cytosolique. En effectuant une recherche sur LocusLink à l’aide des noms complets, vous trouvez cinq loci pour la synthase des acides gras à chaîne courte, qui comprennent le Fasn de souris et de rat, et 12 loci pour la synthase des acides gras à chaîne longue, qui comprennent le FASN humain et trois gènes « fatty acid-coenzyme A ligases, long-chain » (FACL1, FACL3 et FACL4) représentant une petite famille. En cherchant dans LocusLink avec les symboles ‘fascs’, ‘falcs’, ‘facs’, ‘fass’, ‘fasc’ ou ‘falc’, on ne trouve aucun résultat, sauf pour ‘facs’, qui donne FACL2 humain et Facl2 de souris et de rat. En cherchant dans Genew avec les noms complets, on ne trouve aucun résultat se rapportant à l’une ou l’autre de ces enzymes. La recherche dans Genew à l’aide des symboles ‘fascs’, ‘falcs’, ‘facs’, ‘fass’, ‘fasc’ ou ‘falc’ ne donne également aucun résultat. Votre conclusion serait qu’il existe un symbole racine pour au moins quatre gènes humains d’acide gras-coenzyme A à longue chaîne (membres d’une famille apparentée du point de vue de l’évolution), mais rien pour votre synthase d’acide gras à courte chaîne.

La prochaine étape serait de contacter le HGNC pour s’assurer que rien n’a été ‘réservé’, concernant la description de cette famille de gènes. Une fois que cela a été déterminé, vous pouvez être encouragé à prendre contact avec plusieurs acteurs majeurs dans le domaine des acides gras à chaîne courte, et d’autres dans le domaine des acides gras à chaîne longue, et essayer de parvenir à un accord consensuel (avec la participation du HGNC) sur les racines des symboles pour nommer le ou les gènes de la famille des acides gras synthases à chaîne courte. FACL étant le symbole racine de l’acide gras à longue chaîne synthase (ou ligase), « FACS » serait l’une des racines les plus raisonnables et cohérentes pour votre gène d’acide gras à courte chaîne synthase. Dans LocusLink, il y a aussi l’ECHS1 humain, le gène de l' »enoyl-coenzyme A hydratase mitochondriale, à chaîne courte », dont vous devez confirmer qu’il n’est pas le nouveau gène que vous avez identifié. FACS1 reste donc le nom proposé le plus raisonnable — surtout si d’autres collègues du domaine sont d’accord avec votre suggestion.

NADPH-cytochrome P450 réductase

Cette enzyme transfère le premier électron du NADPH aux diverses monooxygénases du cytochrome P450 (CYP) . Mais que faire si une revue doit être écrite sur ce sujet ? En effectuant une recherche sur LocusLink à l’aide du nom complet « nadph cytochrome p450 oxydoréductase » (ou « réductase » sans « oxido »), on obtient respectivement neuf et onze résultats, dont POR humain, Por de souris et Cpr de drosophile. Si l’on ajoute un trait d’union (nadph-cytochrome p450 oxydoréductase), on n’obtient que deux résultats, à savoir la POR humaine et la Cpr de la drosophile. La recherche sur LocusLink à l’aide de l’ancien nom ‘nadph cytochrome c oxydoréductase’ (ou ‘reductase’) ne donne curieusement qu’une NADPH oxydase et la protéine tumorale-53 humaine (TP53) et de souris (Trp53). En recherchant le terme « p450 oxido-réductase », on trouve POR chez l’homme et Por chez la souris et le rat, mais aussi plus de 90 résultats pour les gènes CYP. En cherchant sur LocusLink avec le terme  » por « , on trouve quatre occurrences : POR humaine, Por de souris et de rat, et Por de mouche à fruits. Le symbole POR humain est identifié dans LocusLink comme étant le « symbole et nom officiel du gène (HGNC) ».

Recherche dans Genew en utilisant les noms complets, ‘nadph cytochrome p450 oxydoréductase’ (ou ‘réductase’), ‘nadph cytochrome c oxydoréductase’ (ou ‘réductase’), ‘p450 oxydoréductase’ (ou ‘réductase’), ‘cytochrome c oxydoréductase’ (ou ‘réductase’), ou « p450 (cytochrome) oxydoréductase » (ou « réductase ») ne donne cependant aucune donnée, bien qu’en cherchant dans Genew avec « por », on trouve un « hit » pour le gène nommé « P450 (cytochrome) oxydo-réductase » situé sur le chromosome humain 7q11.2 avec l’alias ‘CYPOR’. Cela montre que Genew manque certains alias pertinents, car la recherche par nom complet ‘P450 (cytochrome) oxydoréductase’ ne vous conduit pas à POR comme nom de gène, alors que le symbole ‘por’ vous conduit au nom complet. En revanche, en commençant votre recherche avec LocusLink, vous accédez directement aux gènes POR de l’homme et Por du rongeur. Ce problème mineur dans Genew devrait être signalé au HGNC dès que possible.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.