Für jedes eindeutig nachgewiesene menschliche Gen werden vom HGNC ein Name und ein Symbol (Kurzform der Abkürzung) genehmigt. Jedes Symbol ist eindeutig, und jedes Gen hat nur ein genehmigtes Gensymbol. Es ist wichtig, für jedes Gen eine eindeutige Darstellung zu haben, damit sich Kollegen über eine bestimmte Gensequenz oder -familie austauschen können. Ein einziges Symbol erleichtert auch das elektronische Auffinden von Daten in Veröffentlichungen und Datenbanken. Darüber hinaus ist es wichtig, dass jedes Symbol vorzugsweise parallel aufgebaut ist, z. B. bei verschiedenen Mitgliedern einer Genfamilie.
Das HGNC sollte so schnell wie möglich mit neuen Mitgliedern von Genfamilien kontaktiert werden, da einige Symbole in ihrer Datenbank reserviert sein könnten. Die Beschaffung eines Gensymbols vor der Veröffentlichung vermeidet mögliche Konflikte mit bestehenden Symbolen und stellt sicher, dass das Gen umgehend in die Datenbanken LocusLink (http://www.ncbi.nlm.nih.gov/LocusLink/) und Genew (http://www.gene.ucl.ac.uk/cgi-bin/nomenclature/searchgenes.pl) aufgenommen wird.
Im September 2003 gab es 16.765 genehmigte menschliche Gensymbole, was bedeutet, dass das Ziel, alle Gene im menschlichen Genom zu benennen, etwa zu einem Drittel bis vielleicht zu mehr als der Hälfte erreicht ist. Einzelne neue Symbole werden nicht nur von Wissenschaftlern, sondern auch von einer zunehmenden Zahl von Fachzeitschriften angefordert (z. B. American Journal of Human Genetics; Animal Genetics; Annals of Human Genetics; Cytogenetic & Genomic Research; Genes, Chromosomes & Cancer; Genomics; Human Mutation; Lancet; Molecular Therapy; Nature Genetics; Radiation Research). Die Veröffentlichung eines Artikels in einer dieser Zeitschriften erfolgt erst dann, wenn das untersuchte Gen offiziell benannt wurde. Dadurch wird auch sichergestellt, dass alle neu veröffentlichten Symbole sofort mit anderen Datenbanken (z. B. LocusLink, Ref Seq, OMIM und MGD) kreuzindiziert werden, was die potenzielle Zugänglichkeit und den Einfluss dieser Gene in den Datenbanken erhöht.
Es wurde vorgeschlagen, dass der Nomenklaturprozess automatisiert werden könnte, und jüngste Veröffentlichungen deuten sicherlich darauf hin, dass dies eine praktikable Möglichkeit sein könnte. Die automatische Zuweisung von Gennamen und -symbolen kann zwar zu einer sehr systematischen Klassifizierung führen, erlaubt aber nicht immer die Aufnahme der nützlichsten oder einprägsamsten Informationen.
Beispiele für die Suche nach einem Gensymbol oder die Übermittlung eines Gensymbols
Tabelle 1 fasst die Schritte zusammen, die man unternehmen sollte, um eine korrekte Nomenklatur eines Gens sicherzustellen. Anhand von drei Beispielen soll verdeutlicht werden, wie und warum man ein standardisiertes Gen-Nomenklatursystem anstreben sollte. Bei diesen Beispielen liegt der Schwerpunkt auf der Verwendung der Gennamen als Suchbegriffe und nicht auf dem Vergleich einer soeben bestimmten DNA- oder Proteinsequenz durch die Suche mit BLAST (http://www.ncbi.nlm.nih.gov/BLAST/). Die drei folgenden Beispiele umfassen Gene, die für Enzyme kodieren; zukünftige Aktualisierungen werden sich auf die Nomenklatur anderer Arten von Genprodukten und DNA-Motiven konzentrieren.
Cyclooxygenase
Das Verfahren zum Verfassen einer Übersichtsarbeit über Prostaglandin G/H-Synthase-1 und -2, auch bekannt als Cyclooxygenase-1 und -2, die in vielen Fachzeitschriften als „COX-1“ und „COX-2“ bezeichnet werden, wird im Folgenden dargelegt. Diese Enzyme, die Zielmoleküle nichtsteroidaler entzündungshemmender Arzneimittel sind, spielen eine zentrale Rolle bei der Umwandlung von Arachidonsäure in die Prostatadrüsen G und H, die mit Entzündungsprozessen, Schmerzen, rheumatischen Erkrankungen, Atherosklerose, Schlaganfall, Verletzungen und Reparaturen des Magen-Darm-Trakts, oxidativem Stress und verschiedenen Krebsarten in Verbindung gebracht werden. Um das korrekte zugelassene Symbol zu ermitteln, besteht der erste Ansatz darin, LocusLink (für alle Organismen) mit den vollständigen Namen „Prostaglandin g synthase“ oder „Prostaglandin h synthase“ zu durchsuchen. Auf diese Weise werden zehn bzw. 12 Loci gefunden, von denen in beiden Fällen vier die zugelassenen Symbole für den Menschen, PTGS1 und PTGS2, sowie das Ptgs2 von Maus und Ratte enthalten. Die Suche auf LocusLink nach „Cyclooxygenase“ führt zu 49 Treffern – wiederum alphabetisch geordnet -, von denen vier die menschlichen PTGS1- und PTGS2-Gene sowie die Ptgs2-Gene von Maus und Ratte enthalten. Sucht man bei LocusLink nach „cox1“, findet man drei Loci, darunter das menschliche PTGS1, das Ptgs1 der Ratte und das mitochondriale Mt-Co1 der Ratte. Sucht man bei LocusLink nach ‚cox2‘, so findet man sieben Treffer, darunter drei menschliche PTGS2 und Ptgs2 von Maus und Ratte; das mitochondriale Mt-Co2 der Ratte ist ebenfalls registriert.
Sucht man bei Genew mit ‚prostaglandin g synthase‘ oder ‚prostaglandin h synthase‘ als vollständigen Namen, so erhält man jedoch keine Gendatensätze. Die Suche in Genew mit „Cyclooxygenase“ ergibt, dass es sich bei den menschlichen Gensymbolen um PTGS1 und PTGS2 handelt, deren anerkannte Namen Prostaglandin-Endoperoxid-Synthase 1 (Prostaglandin G/H-Synthase und Cyclooxygenase) (M59979; NM_000962) und Prostaglandin-Endoperoxid-Synthase 2 (Prostaglandin G/H-Synthase und Cyclooxygenase) (D28235; NM_000963) lauten und sich auf den menschlichen Chromosomen 9q32-q33.3 bzw. 1q25.2-q25.3 lokalisiert ist; Aliasnamen für PTGS1 sind COX1, PGHS-1 und PTGHS und für PTGS2 nur COX2. Es wird deutlich, dass es eine gewisse Verwirrung über die Verwendung anderer Aliasnamen wie COX gibt, da die Suche in Genew nach allen Einträgen, die mit COX beginnen, 46 Einträge ergibt, von denen sich die meisten auf die Gene der Cytochrom-c-Oxidase-Untereinheit beziehen. Daher wäre die Verwendung von „COX“ für die Cyclooxygenase-1- und -2-Enzyme, die man untersucht, für die Gemeinschaft nicht hilfreich, da dies nur zu weiterer Verwirrung in der Literatur führen würde.
Fettsäuresynthasen
Die Fettsäuresynthase, eines der wichtigsten lipogenen Enzyme, wandelt Kalorien aus der Nahrung in eine Speicherform von Energie um. Fettsäuren selbst können auch als Signale wirken, die die Genexpression regulieren, und die Fettsäuresynthase wird durch mehrfach ungesättigte Fettsäuren herunterreguliert. Nehmen wir an, Sie haben die cDNA für die menschliche Leber-Fettsäure-Synthase isoliert und überlegen, ob Sie Ihr Gen FAS nennen sollen. Bei einer Suche auf LocusLink mit dem Suchbegriff „Fettsäure-Synthase“ werden 58 Loci gefunden, darunter FASN beim Menschen, Fasn bei Maus und Ratte und Fas bei der Fruchtfliege. Eine Suche bei LocusLink mit dem Symbol „fas“ ergibt 149 Treffer, darunter FASN beim Menschen und Fasn bei der Maus. FASN befindet sich auf Chromosom 17q25 und hat die GenBank-Zugangsnummer NM_004104; Ihr Gen hat also bereits dieses anerkannte Symbol. In diesem Fall sollten Sie sich mit dem HGNC in Verbindung setzen und begründen, warum Sie glauben, dass „FAS“ ein besseres Symbol für dieses Gen ist als FASN.
Nehmen wir an, Sie haben Gene charakterisiert, die für eine neue zytosolische kurzkettige Fettsäuresynthase und eine neue zytosolische langkettige Fettsäuresynthase kodieren. Wenn Sie LocusLink mit den vollständigen Namen durchsuchen, finden Sie fünf Loci für die kurzkettige Fettsäuresynthase, darunter Fasn von Maus und Ratte, und 12 Loci für die langkettige Fettsäuresynthase, darunter das menschliche FASN und drei „Fettsäure-Coenzym-A-Ligasen, langkettig“-Gene (FACL1, FACL3 und FACL4), die eine kleine Familie darstellen. Eine Suche bei LocusLink mit den Symbolen ‚fascs‘, ‚falcs‘, ‚facs‘, ‚fass‘, ‚fasc‘ oder ‚falc‘ ergibt null Treffer, außer für ‚facs‘, das Ihnen menschliches FACL2 und Facl2 von Maus und Ratte liefert. Bei der Suche in Genew mit den vollständigen Namen gibt es keine Treffer für eines dieser Enzyme. Die Suche in Genew mit den Symbolen „fascs“, „falcs“, „facs“, „fass“, „fasc“ oder „falc“ ergibt ebenfalls null Treffer. Ihre Schlussfolgerung wäre, dass es ein Wurzelsymbol für mindestens vier menschliche langkettige Fettsäure-Coenzym-A-Gene gibt (Mitglieder einer evolutionär verwandten Familie), aber nichts für Ihre kurzkettige Fettsäure-Synthase.
Der nächste Schritt wäre, sich mit dem HGNC in Verbindung zu setzen, um sicherzustellen, dass nichts „reserviert“ wurde, was die Beschreibung dieser Genfamilie betrifft. Sobald dies geklärt ist, sollten Sie sich mit mehreren wichtigen Akteuren auf dem Gebiet der kurzkettigen Fettsäuren und anderen auf dem Gebiet der langkettigen Fettsäuren in Verbindung setzen und versuchen, einen Konsens (unter Beteiligung des HGNC) über die Symbolwurzeln für die Benennung des Gens bzw. der Gene der kurzkettigen Fettsäuresynthasefamilie zu erzielen. Da FACL das Wurzelsymbol für langkettige Fettsäuresynthase (oder Ligase) ist, wäre „FACS“ eine der vernünftigsten und konsistentesten Wurzeln für Ihr kurzkettiges Fettsäuresynthase-Gen. In LocusLink gibt es auch das menschliche ECHS1, das Gen für eine „mitochondriale Enoyl-Coenzym-A-Hydratase, kurzkettig“, von dem Sie bestätigen müssen, dass es nicht das neue Gen ist, das Sie identifiziert haben. FACS1 bleibt also der vernünftigste vorgeschlagene Name – vor allem, wenn andere Kollegen auf dem Gebiet mit Ihrem Vorschlag übereinstimmen.
NADPH-Cytochrom P450-Reduktase
Dieses Enzym überträgt das erste Elektron von NADPH auf die verschiedenen Cytochrom P450 (CYP)-Monooxygenasen. Was aber, wenn eine Übersichtsarbeit zu diesem Thema geschrieben werden soll? Eine Suche bei LocusLink unter Verwendung des vollständigen Namens „nadph cytochrome p450 oxidoreductase“ (oder „reductase“ ohne „oxido“) ergibt neun bzw. 11 Treffer, darunter menschliche POR, Maus Por und Fruchtfliege Cpr. Mit einem Bindestrich (nadph-cytochrome p450 oxidoreductase) erhält man nur zwei Treffer, nämlich POR beim Menschen und Cpr bei der Fruchtfliege. Die Suche bei LocusLink mit dem älteren Namen ’nadph cytochrome c oxidoreductase‘ (oder ‚reductase‘) ergibt seltsamerweise nur eine NADPH-Oxidase sowie das Tumorprotein-53 beim Menschen (TP53) und bei der Maus (Trp53). Sucht man mit dem Begriff „p450 Oxido-Reduktase“, so findet man POR beim Menschen und Por bei Maus und Ratte, aber auch mehr als 90 Treffer für die CYP-Gene. Sucht man bei LocusLink mit dem Begriff „por“, so findet man vier Treffer – menschliches POR, Maus- und Ratten-Por und Fruchtfliegen-Stachelschwein-Por. Das menschliche POR-Symbol wird in LocusLink als „Official Gene Symbol and Name (HGNC)“ bezeichnet.
Die Suche in Genew unter Verwendung der vollständigen Namen, ’nadph cytochrome p450 oxidoreductase‘ (oder ‚reductase‘), ’nadph cytochrome c oxidoreductase‘ (oder ‚reductase‘), ‚p450 oxidoreductase‘ (oder ‚reductase‘), ‚cytochrome c oxidoreductase‘ (oder ‚reductase‘), oder „p450 (Cytochrom) Oxidoreduktase“ (oder „Reduktase“) liefert jedoch keine Daten, obwohl die Suche in Genew mit „por“ einen „Treffer“ für das Gen mit dem Namen „P450 (Cytochrom) Oxidoreduktase“ auf dem menschlichen Chromosom 7q11 ergibt.2 mit dem Alias ‚CYPOR‘. Dies zeigt, dass Genew einige relevante Aliasnamen vermisst, da die Abfrage des vollständigen Namens „P450 (Cytochrom) Oxidoreduktase“ nicht zu POR als Gennamen führt, während das Symbol „por“ zum vollständigen Namen führt. Wenn Sie dagegen Ihre Suche mit LocusLink beginnen, werden Sie direkt zu den menschlichen POR- und Nager-Por-Genen geleitet. Diese kleine Panne in Genew sollte dem HGNC so bald wie möglich gemeldet werden.