Para cada gene humano inequivocamente estabelecido, um nome e símbolo (abreviatura abreviada) são aprovados pelo HGNC. Cada símbolo é único, e cada gene terá apenas um símbolo genético aprovado. É importante fornecer uma representação única para cada gene, para que os colegas possam falar uns com os outros sobre qualquer sequência genética ou família em particular. Ter um símbolo único também facilita a recuperação de dados eletrônicos de publicações e bancos de dados. Além disso, é importante que cada símbolo mantenha preferencialmente uma construção paralela em, por exemplo, diferentes membros de uma família genética.
O HGNC deve ser contactado o mais rapidamente possível com novos membros de famílias de genes, porque alguns símbolos podem estar reservados na sua base de dados. A obtenção de um símbolo genético antes da publicação evitará possíveis conflitos com símbolos existentes e garantirá que o gene seja prontamente registrado nas bases de dados LocusLink (http://www.ncbi.nlm.nih.gov/LocusLink/) e Genew (http://www.gene.ucl.ac.uk/cgi-bin/nomenclature/searchgenes.pl).
A partir de setembro de 2003, existem 16.765 símbolos genéticos humanos aprovados – o que significa que o objetivo de nomear todos os genes do genoma humano está entre um terço e talvez mais da metade completado. Novos símbolos individuais são solicitados não apenas por cientistas, mas também por um número crescente de periódicos (ex. American Journal of Human Genetics; Animal Genetics; Annals of Human Genetics; Cytogenetic & Genomic Research; Genes, Chromosomes & Cancer; Genomics; Human Mutation; Lancet; Molecular Therapy; Nature Genetics; Radiation Research). A publicação de um artigo em qualquer uma destas revistas não prosseguirá até que o gene em estudo tenha sido oficialmente nomeado. Isso também garante que todos os símbolos recém-lançados sejam imediatamente cruzados com outras bases de dados (ex. LocusLink, Ref Seq, OMIM e MGD), o que aumenta a acessibilidade potencial e o impacto desses genes nas bases de dados.
Foi sugerido que o processo de nomenclatura poderia ser automatizado, e publicações recentes certamente indicam que essa pode ser uma possibilidade viável. Enquanto a atribuição automática de nomes e símbolos de genes pode muito bem dar classificações altamente sistemáticas, no entanto, isso nem sempre permite a inclusão da informação mais útil, ou mesmo memorável.
Exemplos de busca ou apresentação de um símbolo de gene
Quadro 1 resume os passos a serem tomados para garantir a correta nomenclatura de qualquer gene. Três exemplos serão dados aqui, para ilustrar melhor como e por que se deve lutar por um sistema padronizado de nomenclatura gênica. Nestes exemplos, o foco é usar os nomes dos genes como termos de busca, em vez de comparar uma sequência de DNA ou proteína que acabou de ser determinada, através de busca via BLAST (http://www.ncbi.nlm.nih.gov/BLAST/). Os três exemplos abaixo incluem genes que codificam enzimas; atualizações futuras focarão na nomenclatura de outros tipos de produtos gênicos e motivos de DNA.
Cicloxigenase
O procedimento para escrever uma revisão sobre prostaglandina G/H synthase-1 e -2, também conhecida como cyclooxygenase-1 e -2, comumente apelidada em muitas revistas como ‘COX-1’ e ‘COX-2’ é apresentada abaixo. Estas enzimas, que são alvo de anti-inflamatórios não-esteróides, são fundamentais na conversão do ácido araquidônico em prostaglandinas G e H, vias associadas a processos inflamatórios, dor, doença reumatóide, aterosclerose, acidente vascular cerebral, lesão e reparo do trato gastrointestinal, estresse oxidativo e vários tipos de cânceres. Para determinar o símbolo aprovado corretamente, a primeira abordagem é procurar LocusLink (para todos os organismos) usando ‘prostaglandin g synthase’ ou ‘prostaglandin h synthase’ como os nomes completos. Isto irá recuperar dez e 12 loci, respectivamente, quatro dos quais em ambos os casos incluem os símbolos aprovados para humano, PTGS1 e PTGS2, e o rato e o rato Ptgs2. Pesquisando LocusLink com ‘ciclo-oxigenase’, serão recuperados novamente 49 cliques — listados em ordem alfabética –, quatro dos quais incluem o PTGS1 e PTGS2 humano e os registros do gene Ptgs2 do rato e rato. Pesquisando LocusLink por ‘cox1’, encontramos três loci, que incluem o PTGS1 humano, o rato Ptgs1 e o rato mitocondrial Mt-Co1. Procurando LocusLink por ‘cox2’, encontra-se sete loci, dos quais três são PTGS2 humanos e Ptgs2 de rato e rato; Mt-Co2 mitocondrial de rato também é registrado.
Searching Genewing usando ‘prostaglandin g synthase’ ou ‘prostaglandin h synthase’ como os nomes completos, no entanto, não recupera nenhum registro genético. Pesquisando Genew com ‘cyclooxy-genase’, pode-se confirmar que os símbolos gênicos humanos são PTGS1 e PTGS2, seus nomes aprovados são prostaglandina-endoperóxido synthase 1 (prostaglandin G/H synthase e cyclooxygenase) (M59979; NM_000962) e prostaglandina-endoperóxido synthase 2 (prostaglandin G/H synthase e cyclooxygenase) (D28235; NM_000963), localizado nos cromossomos humanos 9q32-q33.3 e 1q25.2-q25.3, respectivamente; alias para PTGS1 incluem COX1, PGHS-1 e PTGHS e para PTGS2 incluem apenas COX2. Pode-se ver que existe alguma confusão sobre o uso de outros aliases como COX, pois a busca de Genew por todos os registros que começam com COX recupera 46 registros, a maioria dos quais se refere aos genes da subunidade citocrômica c oxidase. Assim, usar ‘COX’ para se referir às enzimas ciclooxigenase-1 e -2 que se está estudando não seria útil para a comunidade, pois isso só traria mais confusão à literatura.
Sintases ácidas gordurosas
Sintase ácida gorda, uma das principais enzimas lipogênicas, converte calorias dietéticas em uma forma de armazenamento de energia . Os próprios ácidos gordos também podem agir como sinais que regulam a expressão gênica, e a sintetase de ácidos gordos é desregulada pelos ácidos gordos polinsaturados . Imaginemos que você tenha isolado o cDNA para a sintetizase de ácidos graxos do fígado humano e esteja pensando em nomear o seu gene FAS. Pesquisando LocusLink usando ‘fatty acid synthase’, 58 loci são encontrados — incluindo FASN humano, Fasn de rato e rato, e Fas de mosca da fruta. A pesquisa no LocusLink usando o símbolo ‘fas’ produz 149 acessos, que incluem o FASN humano e o Fasn de rato. O FASN está localizado no cromossoma 17q25 e tem um número de acesso GenBank de NM_004104; portanto, seu gene já tem este símbolo aprovado. Você pode sentir, no entanto, que sua escolha inicial da FAS é mais apropriada, neste caso você deve entrar em contato com o HGNC e argumentar porque você acredita que ‘FAS’ é um símbolo melhor para este gene do que FASN.
Deixe-nos então supor que você tenha caracterizado genes que codificam uma nova citosólica sintetizase de ácido graxo de cadeia curta e uma nova citosólica sintetizase de ácido graxo de cadeia longa. Pesquisando LocusLink usando os nomes completos, você encontra cinco loci para sintetizase de ácido graxo de cadeia curta, que incluem Fasn de rato e rato, e 12 loci para sintetizase de ácido graxo de cadeia longa, que incluem FASN humano e três ‘ligases de ácido graxo A, genes de cadeia longa’ (FACL1, FACL3 e FACL4) representando uma família pequena. Pesquisando LocusLink usando os símbolos ‘fascs’, ‘falcs’, ‘facs’, ‘fass’, ‘fasc’ ou ‘falc’, você encontra zero hits, exceto para ‘facs’, que lhe dá FACL2 humano e Facl2 de rato e rato. Pesquisando Genew usando os nomes completos, você encontra zero hits referentes a qualquer uma dessas enzimas. Pesquisar Genew usando os símbolos ‘fascs’, ‘falcs’, ‘facs’, ‘fass’, ‘fasc’ ou ‘falc’ também gerará zero hits. Sua conclusão seria que existe um símbolo de raiz para pelo menos quatro genes humanos de cadeia longa (membros de uma família relacionada evolutivamente), mas nada para a sua cadeia curta de ácidos graxos sintase.
O próximo passo seria contatar o HGNC para ter certeza de que nada foi ‘reservado’, no que diz respeito à descrição desta família de genes. Uma vez que isso tenha sido determinado, você pode ser encorajado a entrar em contato com vários jogadores importantes no campo de ácido graxo de cadeia curta, e outros no campo de ácido graxo de cadeia longa, e tentar chegar a um acordo consensual (com o envolvimento do HGNC) sobre raízes simbólicas para nomear o gene ou genes da família de ácidos graxos de cadeia curta synthase. Como FACL é o símbolo da raiz para o ácido graxo sintase de cadeia longa (ou ligase), ‘FACS’ estaria entre as raízes mais razoáveis e consistentes para o seu gene de ácido graxo sintase de cadeia curta. No LocusLink, existe também o ECHS1 humano, o gene para uma ‘enzima de liga mitocondrial A hydratase, cadeia curta’, que deve confirmar que não é o novo gene que você identificou. FACS1 permanece assim o nome proposto mais razoável — especialmente se outros colegas no campo estiverem de acordo com a sua sugestão.
NADPH-cytochrome P450 reductase
Esta enzima transfere o primeiro electrão do NADPH para os vários citocromo P450 (CYP) monooxygenases . Mas e se uma revisão for escrita sobre este tópico? Pesquisando LocusLink usando o nome completo, ‘nadph cytochrome p450 oxidoreductase’ (ou ‘reductase’ sem ‘oxido’), há nove e 11 acessos, respectivamente, incluindo POR humano, Por e mosca da fruta Cpr. Incluindo um hífen (nadph-cytochrome p450 oxidoreductase) produz apenas dois — POR humano e Cpr. Procurando LocusLink usando o nome mais antigo ‘nadph cytochrome c oxidoreductase’ (ou ‘reductase’), curiosamente, produz apenas uma NADPH oxidase mais a proteína tumoral humana (TP53) e de rato (Trp53)-53. Pesquisando com o termo ‘p450 oxido-reductase’, encontra-se POR humano e rato e rato Por, mas também mais de 90 acessos para os genes CYP. Ao pesquisar LocusLink com ‘por’, encontram-se quatro ocorrências — POR humano, rato e rato Por, e mosca da fruta porco-espinho Por. O símbolo humano POR é identificado no LocusLink como o ‘Símbolo e Nome Oficial do Gene (HGNC)’.
Procurar Genew usando os nomes completos, ‘nadph cytochrome p450 oxidoreductase’ (ou ‘reductase’), ‘nadph cytochrome c oxidoreductase’ (ou ‘reductase’), ‘p450 oxidoreductase’ (ou ‘reductase’), ‘cytochrome c oxidoreductase’ (ou ‘reductase’), ou ‘p450 (citocromo) oxidoreductase’ (ou ‘reductase’), no entanto, não obtém nenhum dado, embora pesquisando Genew com ‘por’, se encontre um ‘hit’ para o gene chamado ‘P450 (citocromo) oxido-reductase’ localizado no cromossomo humano 7q11.2 com um pseudônimo de ‘CYPOR’. Isto mostra que falta ao Genew alguns alias relevantes, porque a consulta de nome completo ‘P450 (citocromo) oxidoreductase’ não o leva a POR como nome do gene, enquanto que o símbolo ‘por’ o leva ao nome completo. Pelo contrário, iniciar a sua pesquisa com LocusLink envia-o directamente para os genes POR e Por roedor humano. Esta pequena falha no Genew deve ser reportada ao HGNC o mais rápido possível.