Os modelos de evolução de seqüências

De um modo geral, os modelos de evolução de seqüências baseiam-se no processo de Markov, onde cada mudança de um nucleotídeo para outro apresentará uma taxa específica. Assim, os métodos de verossimilhança supõem que as substituições obedeçam a uma distribuição de Poisson e as taxas dessas substituições podem ser arranjadas em uma matriz geral, chamada de "Q". Nessa matriz, as taxas de substituição serão especificadas pelos parâmetros "r" e "p", sendo "r" associado aos 12 possíveis tipos de mudanças (os 4 tipos de transição e os 8 tipos de transversão, ver figura abaixo)

, e "p" está associado à freqüência de bases, assumindo 4 possibilidades (A, C, T ou G). Assim, a matriz "Q" será do tipo "4 por 4" e os diferentes modelos de substituição serão simplesmente casos especiais de "Q". Portanto, para seqüências de DNA, as taxas serão expressas como uma matriz 4X4 de taxas instantâneas onde cada elemento Qij representará as taxas de mudanças de uma base i para uma base j, durante um período de tempo infinitesimal. A forma mais geral da matriz "Q" é:

-m(ap_C+bp_G+cp_T) map_C mbp_G mcp_T

mgp_A -m(gp_A+dp_G+ep_T) mdp_G mep_T

mhp_A mjp_C -m(hp_A+jp_C+fp_T) mfp_T

mip_A mkp_C mlp_G -m(ip_A+kp_C+lp_G)

        - linhas e colunas representam A, C, G e T, respectivament
        - m representa a taxa de substituição
        - a, b, c…l representam os parâmetros que podem modificar m, os quais correspondem a cada transformação possível de uma base para outra
         - p está associado aos parâmentros de freqüências de cada uma das bases.

Os modelos de substituição estão relacionados uns aos outros, partindo de um mais simples em direção a modelos mais complexos, ou seja, mais ricos em parâmetros (veja um exemplo na figura abaixo).

Em resumo, os modelos apresentam um entrelaçamento espacial de acordo com o aumento ou diminuição dos respectivos parâmetros, tornando-se os modelos mais simples casos particulares dos mais complexos, como representado a seguir:

Mas, na prática, como decidir qual modelo de substituição seria o mais adequado a um determinado conjunto de dados? Perguntas do tipo "será que ao acrescentarmos novos parâmetros aos modelos estaremos melhorando os valores de verossimilhança?" são bastante comuns.

Em teoria, o ideal seria estimar os valores de verossimilhança para um conjunto de dados utilizando todos os diferentes modelos e então escolher o melhor deles (ou seja, o que apresentou o melhor valor de verossimilhança = o que apresentou a maior probabilidade de explicar a origem evolutiva das seqüências estudadas) para a inferência filogenética. Um trabalho e tanto, já que contamos atualmente com mais de 5 de dezenas de modelos descritos na literatura! Felizmente já existem programas computacionais (por exemplo, o Modeltest v 3.0, Posada, 1998) que realizam esse tipo de teste, o qual é chamado de "Teste de Razão de Verossimilhança" (ou LRT, Likelihood Ratio Test) e é bastante conhecido na estatística clássica.

Mas, ATENÇÃO: Apenas depois de se ter levado a efeito todos os procedimentos adequados para inferências filogenéticas, seja utilizando quaisquer das metodologias aqui discutidas, é que começa um dos trabalhos mais sérios do pesquisador: com os resultados em mãos, chegou o momento de olhar para eles e INTERPRETÁ-LOS à luz do conhecimento científico! É com os resultados em mãos que devemos considerar a biologia dos organismos estudados associada aos padrões e processos evolutivos. Um computador não pensa e nem considera nada, segue apenas algoritmos específicos. Os cérebros pensantes somos nós e apenas nós poderemos contribuir cientificamente, nunca o resultado que sai pronto pela tela do computador ou pela impressora!
voltar ao começo
voltar à página principal

-m(ap_C+bp_G+cp_T)	map_C	mbp_G	mcp_T
mgp_A	-m(gp_A+dp_G+ep_T)	mdp_G	mep_T
mhp_A	mjp_C	-m(hp_A+jp_C+fp_T)	mfp_T
mip_A	mkp_C	mlp_G	-m(ip_A+kp_C+lp_G)