A princípio, eu estava pensando em escrever aqui um pouco sobre a construção de bibliotecas de cDNA normalizadas, em particular, sobre uma abordagem de normalização desenvolvida recentemente que achei m-u-i-to elegante (que espero poder usar!).Mas, resolvi que seria melhor começar pelo básico e, assim, colocar todas as idéias em ordem.
Bom, para começo de conversa, o que é e para que serve uma biblioteca de cDNA?
Uma biblioteca de cDNA (ou de expressão) é uma coleção das seqüências expressas em um tecido ou tipo celular de um organismo, em um dado momento. Estas seqüências são representadas pelo pool de cDNA (DNA complementar) obtido através da enzima transcriptase reversa a partir do pool de RNA mensageiro isolado a partir das células ou tecido em questão. Estas seqüências de cDNA são, então, clonadas em um plasmídio ou, menos freqüentemente, também em outros tipos de vetores de clonagem como fagos, cosmids e phagemids. Portanto, uma biblioteca de cDNA é um conjunto de seqüências expressas isoladas em um vetor de clonagem, onde podem ser armazenadas de forma estável e por longos períodos e a partir do qual podem ser prontamente seqüenciadas através de primers universais.
Tipos celulares diferentes expressam genes diferentes, em intensidades diferentes e até um mesmo tipo celular pode apresentar diferentes perfis de expressão gênica ao longo do desenvolvimento e em função de variáveis ambientais. Por exemplo, uma biblioteca de cDNA construída a partir de RNA isolado de um neurônio irá conter um conjunto de seqüências distintas de uma biblioteca construída a partir de RNA de um fibroblasto.
Assim como, uma biblioteca de cDNA do fígado de um camundongo que se alimenta com dieta só de gorduras, não será igual a de um com dieta normal, contendo quantidades adequadas de lipídeos, caboridratos, proteínas...
Portanto, é preciso considerar a partir de qual, ou quais, tecidos ou células se vai construir a biblioteca de expressão, assim como as condições ambientais e estágio do desenvolvimento do organismo estudado. Embora, obviamente, existam genes que são expressos sempre e em todas as células de um organismo, se o objetivo é isolar as seqüências expressas relacionadas a um processo particular que só ocorre em um tecido específico, não há por que utilizar outro tecido como fonte de RNA.
Uma série de processos biológicos pode ser estudada através da análise da expressão gênica. Atualmente, pode-se avaliar quantitativamente os níveis de um RNA mensageiro específico assim como é possível avaliar a sua localização espacial e temporal no organismo, em um tecido ou mesmo em uma única célula. Para a viabilização destes estudos, a seqüência do RNAm de interesse deve ser conhecida e a construção de uma biblioteca de cDNA possibilita a prospecção de seqüências gênicas expressas de interesse através de algumas abordagens de triagem, como por exemplo, o PCR de colônia com primers degenerados (desenhados a partir de domínios conservados no gene de interesse).
No entanto, bibliotecas de cDNA não são construídas somente com o objetivo de isolar uma ou algumas seqüências gênicas relacionados a um processo específico ou para isolar genes que são diferencialmente expressos em função de uma condição de estudo, como no caso das bibliotecas de cDNA subtrativas (sobre as quais não vou falar aqui). O isolamento e sequenciamento, em grande escala, de clones de cDNA a partir de bibliotecas de expressão tem se tornado uma boa alternativa para o sequenciamento do DNA genômico na identificação de novas seqüências gênicas. São necessários menos recursos e a estrutura dos genes é prontamente identificada, ao contrário das seqüências genômicas que em eucariotos são interrompidas por íntrons, sendo necessário lançar mão de ferramentas de bioinformática para tentar prever a estrutura do gene e a seqüência expressa. Além disso, em uma biblioteca de DNA genômico, a maior parte dos clones não contém seqüências gênicas, sendo o isolamento destas, muito mais trabalhoso.
A caracterização em grande escala das seqüências de cDNA abre espaço para uma nova abordagem, a
genômica funcional, que busca elucidar a função dos genes em uma escala genômica. Uma das principais abordagens se baseia na avaliação e comparação, em diferentes condições, dos perfis de expressão gênica, ou seja, do
transcriptoma – todo o conjunto de RNAm expresso em um organismo, tecido ou célula em um determinado contexto. O estudo de transcriptomas têm sido feito principalmente por meio dos DNA
arrays, ou microarranjos de DNA. Através desta tecnologia, é possível monitorar até mesmo a expressão de todos os genes de um organismo, como já foi feito para a levedura
S. cerevisiae que teve seus aproximadamente 6000 genes impressos em um
chip possibilitando a avaliação das alterações globais no perfil de expressão gênica em função de várias condições, como estresse oxidativo. Mas, o microarranjo de DNA e suas aplicações são assuntos para textos futuros.
Um biblioteca de cDNA de qualidade, que possibilite o isolamento de virtualmente todas as seqüências expressas no objeto de estudo, deve preencher alguns requisitos:
1) Deve ser representativa, ou seja, apresentar pelo menos uma cópia de cada RNA mensageiro expresso no tecido ou célula de onde se isolou o RNAm.
2) Deve conter seqüências completas, para que se possa fazer uma avaliação funcional da biblioteca (através da comparação das seqüências obtidas com outras já descritas depositadas nos principais bancos de dados públicos) e para se ter acesso a toda a seqüência de aminoácidos da proteína codificada.
3) Deve ter o mínimo possível de redundância (muitos clones contendo um mesmo gene), facilitando o isolamento de um maior número de seqüências distintas.
4) Deve ter o maior número possível de clones recombinantes (plasmídios contendo inserto de cDNA).
As pedras no caminho...
Estas são as características da biblioteca de cDNA dos meus sonhos! Mas, não é tão simples assim construir uma biblioteca de cDNA de qualidade. Existem várias pedras no caminho, começando pela instabilidade do RNA, constantemente sujeito a degradação por
RNAses, como já falei exaustivamente por
aqui, oque dificulta o isolamento de seqüências completas. Além disso, durante a retrotranscrição e amplificação do cDNA pode ocorrer a amplificação incompleta dos fragmentos e o PCR tem a tendência de amplificar seqüências curtas mais eficientemente que as longas, sendo muitas seqüências completas "perdidas" neste processo. A proporção de clones recombinantes depende da eficiência da reação de clonagem, da seleção dos clones recombinantes e de uma série de outros fatores...
Mas, o principal problema, ao meu ver, diz respeito à representatividade e, principalmente, a redundância da biblioteca. Em uma célula eucariótica típica, o RNA mensageiro representa apenas 1-5% da massa de RNA total. O número de cópias de mRNA por gene varia absurdamente. Em geral, existem três classes de nível de expressão: 1) 5-10 genes housekeeping que são altamente expressos e representam até 20% do total de RNA mensageiro; 2) 500-2000 genes que têm um nível de expressão intermediário e representam 40-60% do total de mRNA da célula; 3)10000-20000 genes que são expressos moderadamente e representam 20-40% do total de mRNA da célula.
Logo, a maior parte dos genes são expressos em níveis moderados (até apenas 1 molécula de RNAm por célula!). Isto significa que uma biblioteca de cDNA construída a partir de um pool de RNAm típico de células eucarióticas deveria apresentar uma elevada redundância (alguns poucos genes presentes em alta freqüência) e baixa representatividade. Para se ter noção das implicações disso, para se isolar um clone cuja freqüência seja 1:10000 seria necessário seqüenciar até 100000 clones! Haja dinheiro, tempo, disposição, extensão do prazo de conclusão da dissertação, etc...
Isto não é um problema se o seu objetivo é isolar o cDNA de uma actina, por exemplo, que certamente se encaixa na primeira classe de genes. Mas é um grande problema para quem quer isolar e seqüenciar um grande número de cDNA diferentes, inclusive os de expressão intermediária e baixa, para disponibilizar as seqüências expressas em organismos cujos genomas são praticamente desconhecidos.
Este era o ponto onde queria chegar para começar a falar da abordagem de normalização de cDNA que comentei no início do texto, que na verdade é uma combinação de técnicas que visam a construção de uma biblioteca de cDNA com seqüências completas, representativa e de baixa redundância. Ou seja, que chuta todas estas pedras no caminho para bem longe! Ao menos, assim espero! No próximo post, escreverei sobre isso. Arrivederci!