Os modelos de evolução de seqüências


    De um modo geral, os modelos de evolução de seqüências baseiam-se no processo de Markov, onde cada mudança de um nucleotídeo para outro apresentará uma taxa específica. Assim, os métodos de verossimilhança supõem que as substituições obedeçam a uma distribuição de Poisson e as taxas dessas substituições podem ser arranjadas em uma matriz geral, chamada de "Q". Nessa matriz, as taxas de substituição serão especificadas pelos parâmetros "r" e "p", sendo "r" associado aos 12 possíveis tipos de mudanças (os 4 tipos de transição e os 8 tipos de transversão, ver figura abaixo)
 
 



, e "p" está associado à freqüência de bases, assumindo 4 possibilidades (A, C, T ou G). Assim, a matriz "Q" será do tipo "4 por 4" e os diferentes modelos de substituição serão simplesmente casos especiais de "Q". Portanto, para seqüências de DNA, as taxas serão expressas como uma matriz 4X4 de taxas instantâneas onde cada elemento Qij representará as taxas de mudanças de uma base i para uma base j, durante um período de tempo infinitesimal. A forma mais geral da matriz "Q" é:
 
 
-m(apC+bpG+cpT)
map C
mbp G
mcp T
mgp A
-m(gpA+dpG+epT)
mdp G
mep T
mhp A
mjp C
-m(hpA+jpC+fpT)
mfp T
mip A
mkp C
mlp G
-m(ipA+kpC+lpG)

        - linhas e colunas representam A, C, G e T, respectivament
        - m representa a taxa de substituição
        - a, b, c…l representam os parâmetros que podem modificar m, os quais correspondem a cada transformação possível de uma base para outra
         - p está associado aos parâmentros de freqüências de cada uma das bases.
 

    Os modelos de substituição estão relacionados uns aos outros, partindo de um mais simples em direção a modelos mais complexos, ou seja, mais ricos em parâmetros (veja um exemplo na figura abaixo).






    Em resumo, os modelos apresentam um entrelaçamento espacial de acordo com o aumento ou diminuição dos respectivos parâmetros, tornando-se os modelos mais simples casos particulares dos mais complexos, como representado a seguir:
 
 




    Mas, na prática, como decidir qual modelo de substituição seria o mais adequado a um determinado conjunto de dados? Perguntas do tipo "será que ao acrescentarmos novos parâmetros aos modelos estaremos melhorando os valores de verossimilhança?" são bastante comuns.

    Em teoria, o ideal seria estimar os valores de verossimilhança para um conjunto de dados utilizando todos os diferentes modelos e então escolher o melhor deles (ou seja, o que apresentou o melhor valor de verossimilhança = o que apresentou a maior probabilidade de explicar a origem evolutiva das seqüências estudadas) para a inferência filogenética. Um trabalho e tanto, já que contamos atualmente com mais de 5 de dezenas de modelos descritos na literatura! Felizmente já existem programas computacionais (por exemplo, o Modeltest v 3.0, Posada, 1998) que realizam esse tipo de teste, o qual é chamado de "Teste de Razão de Verossimilhança" (ou LRT, Likelihood Ratio Test) e é bastante conhecido na estatística clássica.

    Mas, ATENÇÃO: Apenas depois de se ter levado a efeito todos os procedimentos adequados para inferências filogenéticas, seja utilizando quaisquer das metodologias aqui discutidas, é que começa um dos trabalhos mais sérios do pesquisador: com os resultados em mãos, chegou o momento de olhar para eles e INTERPRETÁ-LOS à luz do conhecimento científico! É com os resultados em mãos que devemos considerar a biologia dos organismos estudados associada aos padrões e processos evolutivos. Um computador não pensa e nem considera nada, segue apenas algoritmos específicos. Os cérebros pensantes somos nós e apenas nós poderemos contribuir cientificamente, nunca o resultado que sai pronto pela tela do computador ou pela impressora!
voltar ao começo
voltar à página principal