De um modo geral, os modelos
de evolução de seqüências baseiam-se no processo
de Markov, onde cada mudança de um nucleotídeo para outro
apresentará uma taxa específica. Assim, os métodos
de verossimilhança supõem que as substituições
obedeçam a uma distribuição de Poisson e as taxas
dessas substituições podem ser arranjadas em uma matriz geral,
chamada de "Q". Nessa matriz, as taxas de substituição serão
especificadas pelos parâmetros "r" e "p",
sendo "r" associado aos 12 possíveis tipos de mudanças (os
4 tipos de transição e os 8 tipos de transversão,
ver figura abaixo)
, e "p"
está associado à freqüência de bases, assumindo
4 possibilidades (A, C, T ou G). Assim, a matriz "Q" será do tipo
"4 por 4" e os diferentes modelos de substituição serão
simplesmente casos especiais de "Q". Portanto, para seqüências
de DNA, as taxas serão expressas como uma matriz 4X4 de taxas instantâneas
onde cada elemento Qij representará as taxas de mudanças
de uma base i para uma base j, durante um período
de tempo infinitesimal. A forma mais geral da matriz "Q" é:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- linhas
e colunas representam A, C, G e T, respectivament
- m representa a taxa
de substituição
- a,
b, c…l representam os parâmetros que podem modificar m,
os quais correspondem a cada transformação possível
de uma base para outra
- p está associado
aos parâmentros de freqüências de cada uma das bases.
Os modelos de substituição estão relacionados uns aos outros, partindo de um mais simples em direção a modelos mais complexos, ou seja, mais ricos em parâmetros (veja um exemplo na figura abaixo).

Em resumo, os modelos apresentam
um entrelaçamento espacial de acordo com o aumento ou diminuição
dos respectivos parâmetros, tornando-se os modelos mais simples casos
particulares dos mais complexos, como representado a seguir:
Mas, na prática, como decidir qual modelo de substituição seria o mais adequado a um determinado conjunto de dados? Perguntas do tipo "será que ao acrescentarmos novos parâmetros aos modelos estaremos melhorando os valores de verossimilhança?" são bastante comuns.
Em teoria, o ideal seria estimar os valores de verossimilhança para um conjunto de dados utilizando todos os diferentes modelos e então escolher o melhor deles (ou seja, o que apresentou o melhor valor de verossimilhança = o que apresentou a maior probabilidade de explicar a origem evolutiva das seqüências estudadas) para a inferência filogenética. Um trabalho e tanto, já que contamos atualmente com mais de 5 de dezenas de modelos descritos na literatura! Felizmente já existem programas computacionais (por exemplo, o Modeltest v 3.0, Posada, 1998) que realizam esse tipo de teste, o qual é chamado de "Teste de Razão de Verossimilhança" (ou LRT, Likelihood Ratio Test) e é bastante conhecido na estatística clássica.
Mas, ATENÇÃO:
Apenas depois de se ter levado a efeito todos os procedimentos adequados
para inferências filogenéticas, seja utilizando quaisquer
das metodologias aqui discutidas, é que começa um dos trabalhos
mais sérios do pesquisador: com os resultados em mãos, chegou
o momento de olhar para eles e INTERPRETÁ-LOS à luz do conhecimento
científico! É com os resultados em mãos que devemos
considerar a biologia dos organismos estudados associada aos padrões
e processos evolutivos. Um computador não pensa e nem considera
nada, segue apenas algoritmos específicos. Os cérebros pensantes
somos nós e apenas nós poderemos contribuir cientificamente,
nunca o resultado que sai pronto pela tela do computador ou pela impressora!
voltar ao começo
voltar à página
principal