Actualización de la finalización y anotaciones del genoma humano: Nomenclatura de genes

Para cada gen humano establecido de forma inequívoca, el HGNC aprueba un nombre y un símbolo (abreviatura). Cada símbolo es único, y cada gen tendrá sólo un símbolo genético aprobado . Es importante proporcionar una representación única para cada gen, de modo que los colegas puedan hablar entre sí sobre cualquier secuencia o familia de genes en particular. Disponer de un símbolo único también facilita la recuperación de datos electrónicos en publicaciones y bases de datos. Además, es importante que cada símbolo mantenga preferentemente una construcción paralela en, por ejemplo, diferentes miembros de una familia de genes.

Hay que ponerse en contacto con el HGNC lo antes posible con los nuevos miembros de las familias de genes, porque algunos símbolos pueden estar reservados en su base de datos. La obtención de un símbolo genético antes de su publicación evitará cualquier posible conflicto con los símbolos existentes y asegurará que el gen se registre rápidamente en las bases de datos LocusLink (http://www.ncbi.nlm.nih.gov/LocusLink/) y Genew (http://www.gene.ucl.ac.uk/cgi-bin/nomenclature/searchgenes.pl).

A fecha de septiembre de 2003, hay 16.765 símbolos genéticos humanos aprobados, lo que significa que el objetivo de nombrar todos los genes del genoma humano se ha completado entre un tercio y quizás más de la mitad. Los nuevos símbolos individuales son solicitados no sólo por los científicos, sino también por un número creciente de revistas (por ejemplo, American Journal of Human Genetics; Animal Genetics; Annals of Human Genetics; Cytogenetic & Genomic Research; Genes, Chromosomes & Cancer; Genomics; Human Mutation; Lancet; Molecular Therapy; Nature Genetics; Radiation Research). La publicación de un artículo en cualquiera de estas revistas no procederá hasta que el gen en estudio haya sido nombrado oficialmente. Esto también garantiza que todos los símbolos recién publicados se indexen inmediatamente con otras bases de datos (por ejemplo, LocusLink, Ref Seq, OMIM y MGD), lo que aumenta la accesibilidad potencial y el impacto de estos genes en las bases de datos.

Se ha sugerido que el proceso de nomenclatura podría ser automatizado, y las publicaciones recientes ciertamente indican que esto puede ser una posibilidad viable. Aunque la asignación automatizada de los nombres y símbolos de los genes puede dar lugar a clasificaciones muy sistemáticas, esto no siempre permite incluir la información más útil, o incluso memorable.

Ejemplos de búsqueda o presentación de un símbolo de gen

La tabla 1 resume los pasos que se deben seguir para garantizar una nomenclatura adecuada de cualquier gen. A continuación se ofrecen tres ejemplos para ilustrar mejor cómo y por qué hay que esforzarse por conseguir un sistema de nomenclatura génica normalizado. En estos ejemplos, la atención se centra en el uso de los nombres de los genes como términos de búsqueda, más que en la comparación de una secuencia de ADN o de proteínas que acaba de determinarse, mediante la búsqueda a través de BLAST (http://www.ncbi.nlm.nih.gov/BLAST/). Los tres ejemplos siguientes comprenden genes que codifican enzimas; las futuras actualizaciones se centrarán en la nomenclatura de otros tipos de productos génicos y motivos de ADN.

Tabla 1 La lista de comprobación del Comité de Nomenclatura Genética de HUGO (HGNC) para decidir un nuevo símbolo genético humano

Ciclooxigenasa

A continuación se expone el procedimiento para escribir una revisión sobre la prostaglandina G/H sintasa-1 y -2, también conocidas como ciclooxigenasa-1 y -2, comúnmente apodadas en muchas revistas como «COX-1» y «COX-2». Estas enzimas, que son objetivos de los fármacos antiinflamatorios no esteroideos, son fundamentales en la conversión del ácido araquidónico en prostaglandinas G y H, vías que se asocian a los procesos inflamatorios, el dolor, la enfermedad reumatoide, la aterosclerosis, los accidentes cerebrovasculares, las lesiones y la reparación del tracto gastrointestinal, el estrés oxidativo y varios tipos de cáncer. Para determinar el símbolo aprobado correcto, el primer enfoque es buscar en LocusLink (para todos los organismos) utilizando «prostaglandina g sintasa» o «prostaglandina h sintasa» como nombres completos. Esto recuperará diez y 12 loci, respectivamente, cuatro de los cuales en ambos casos incluyen los símbolos aprobados para el ser humano, PTGS1 y PTGS2, y el Ptgs2 de ratón y rata. Buscando en LocusLink con ‘cyclooxygenase’ se obtendrán 49 resultados – listados alfabéticamente – de nuevo, cuatro de los cuales incluyen los registros de los genes humanos PTGS1 y PTGS2 y del ratón y la rata Ptgs2. Buscando en LocusLink por ‘cox1’, se encuentran tres loci, que incluyen el PTGS1 humano, el Ptgs1 de rata y el Mt-Co1 mitocondrial de rata. Buscando en LocusLink para ‘cox2’, se encuentran siete resultados, tres de los cuales son el PTGS2 humano y el Ptgs2 de ratón y rata; también se registra el Mt-Co2 mitocondrial de rata.

La búsqueda en Genew utilizando ‘prostaglandin g synthase’ o ‘prostaglandin h synthase’ como nombres completos, sin embargo, no recupera ningún registro de genes. Buscando en Genew con ‘cyclooxy-genase’, se puede confirmar que los símbolos de los genes humanos son PTGS1 y PTGS2, sus nombres aprobados son prostaglandin-endoperoxide synthase 1 (prostaglandin G/H synthase and cyclooxygenase) (M59979; NM_000962) y prostaglandin-endoperoxide synthase 2 (prostaglandin G/H synthase and cyclooxygenase) (D28235; NM_000963), localizados en los cromosomas humanos 9q32-q33.3 y 1q25.2-q25.3, respectivamente; los alias para PTGS1 incluyen COX1, PGHS-1 y PTGHS y para PTGS2 incluyen sólo COX2. Se puede ver que hay cierta confusión sobre el uso de otros alias como COX, porque la búsqueda en Genew de todos los registros que empiezan por COX recupera 46 registros, la mayoría de los cuales se refieren a los genes de la subunidad de la citocromo c oxidasa. Por lo tanto, utilizar «COX» para referirse a las enzimas ciclooxigenasa-1 y -2 que uno está estudiando no sería útil para la comunidad, ya que esto sólo traería más confusión a la literatura.

Las sintasas de ácidos grasos

La sintasa de ácidos grasos, una de las principales enzimas lipogénicas, convierte las calorías de la dieta en una forma de almacenamiento de energía . Los propios ácidos grasos también pueden actuar como señales que regulan la expresión de los genes, y la sintasa de ácidos grasos está regulada a la baja por los ácidos grasos poliinsaturados . Imaginemos que usted ha aislado el ADNc de la sintasa de ácidos grasos del hígado humano y está considerando nombrar su gen FAS. Buscando en LocusLink con el símbolo ‘fatty acid synthase’, se encuentran 58 loci – incluyendo el FASN humano, el Fasn de ratón y rata, y el Fas de la mosca de la fruta. La búsqueda en LocusLink usando el símbolo ‘fas’, produce 149 resultados, que incluyen FASN humano y Fasn de ratón. FASN está localizado en el cromosoma 17q25 y tiene un número de acceso en el GenBank de NM_004104; por lo tanto, su gen ya tiene este símbolo aprobado. Sin embargo, puede pensar que su elección inicial de FAS es más apropiada, en cuyo caso debería ponerse en contacto con el HGNC y argumentar por qué cree que «FAS» es un símbolo mejor para este gen que FASN.

Supongamos entonces que ha caracterizado genes que codifican una nueva sintasa citosólica de ácidos grasos de cadena corta y una nueva sintasa citosólica de ácidos grasos de cadena larga. Buscando en LocusLink utilizando los nombres completos, se encuentran cinco loci para la sintasa de ácidos grasos de cadena corta, que incluyen el Fasn de ratón y rata, y 12 loci para la sintasa de ácidos grasos de cadena larga, que incluyen el FASN humano y tres genes «ligasas de ácidos grasos-coenzima A, de cadena larga» (FACL1, FACL3 y FACL4) que representan una pequeña familia. Buscando en LocusLink usando los símbolos ‘fascs’, ‘falcs’, ‘facs’, ‘fass’, ‘fasc’ o ‘falc’, se encuentran cero resultados, excepto para ‘facs’, que da FACL2 humano y Facl2 de ratón y rata. Si se busca en Genew utilizando los nombres completos, no se encuentran resultados que se refieran a ninguna de estas enzimas. La búsqueda en Genew utilizando el símbolo ‘fascs’, ‘falcs’, ‘facs’, ‘fass’, ‘fasc’ o ‘falc’ también generará cero resultados. Su conclusión sería que hay un símbolo raíz para al menos cuatro genes humanos de ácidos grasos-coenzima A de cadena larga (miembros de una familia evolutivamente relacionada), pero nada para su sintasa de ácidos grasos de cadena corta.

El siguiente paso sería ponerse en contacto con el HGNC para asegurarse de que no se ha «reservado» nada, respecto a la descripción de esta familia de genes. Una vez que se haya determinado esto, se le puede animar a que se ponga en contacto con varios actores importantes en el campo de los ácidos grasos de cadena corta, y con otros en el campo de los ácidos grasos de cadena larga, y tratar de llegar a un acuerdo de consenso (con la participación del HGNC) sobre las raíces de los símbolos para nombrar el gen o los genes de la familia de la sintasa de ácidos grasos de cadena corta. Dado que FACL es el símbolo raíz para la sintasa (o ligasa) de ácidos grasos de cadena larga, ‘FACS’ estaría entre las raíces más razonables y consistentes para su gen de la sintasa de ácidos grasos de cadena corta. En LocusLink, también está el ECHS1 humano, el gen para una ‘enoyl-coenzima A hidratasa mitocondrial, de cadena corta’, que debe confirmar que no es el nuevo gen que ha identificado. FACS1 sigue siendo el nombre propuesto más razonable – especialmente si otros colegas en el campo están de acuerdo con su sugerencia.

NADPH-citocromo P450 reductasa

Esta enzima transfiere el primer electrón del NADPH a las diversas monooxigenasas del citocromo P450 (CYP) . Pero, ¿qué pasa si se va a escribir una revisión sobre este tema? Buscando en LocusLink utilizando el nombre completo, ‘nadph cytochrome p450 oxidoreductase’ (o ‘reductase’ sin ‘oxido’), hay nueve y 11 resultados, respectivamente, incluyendo POR humano, Por de ratón y Cpr de mosca de la fruta. Si se incluye un guión (nadph-citocromo p450 oxidorreductasa) sólo se obtienen dos: POR humano y Cpr de la mosca de la fruta. La búsqueda en LocusLink utilizando el nombre más antiguo ‘nadph citocromo c oxidorreductasa’ (o ‘reductasa’), curiosamente, sólo produce una NADPH oxidasa más la proteína tumoral-53 humana (TP53) y de ratón (Trp53). Buscando con el término ‘p450 oxido-reductasa’, se encuentra POR humano y Por de ratón y rata, pero también más de 90 resultados para los genes CYP. Buscando en LocusLink con ‘por’, se encuentran cuatro resultados: POR humano, Por de ratón y rata, y Por de mosca de la fruta. El símbolo de POR humano se identifica en LocusLink como ‘Official Gene Symbol and Name (HGNC)’.

Búsqueda en Genew utilizando los nombres completos, ‘nadph cytochrome p450 oxidoreductase’ (o ‘reductase’), ‘nadph cytochrome c oxidoreductase’ (o ‘reductase’), ‘p450 oxidoreductase’ (o ‘reductase’), ‘cytochrome c oxidoreductase’ (o ‘reductase’), o ‘p450 (cytochrome) oxidoreductase’ (o ‘reductase’) sin embargo, no recupera datos, aunque buscando en Genew con ‘por’, se encuentra un ‘hit’ para el gen llamado ‘P450 (cytochrome) oxido-reductase’ localizado en el cromosoma humano 7q11.2 con un alias «CYPOR». Esto demuestra que a Genew le faltan algunos alias relevantes, ya que la consulta del nombre completo ‘P450 (citocromo) oxidorreductasa’ no le lleva a POR como nombre del gen, mientras que el símbolo ‘por’ sí le lleva al nombre completo. Por el contrario, al iniciar la búsqueda con LocusLink se accede directamente a los genes POR de humanos y Por de roedores. Este pequeño fallo en Genew debería ser comunicado al HGNC lo antes posible.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.