Cuando hablamos de análisis de secuencias génicas normalmente consideramos como un paso esencial y primordial el alineamiento y después la ejecución de la hipótesis filogenética. Este procedimiento parte del hecho de que durante el alineamiento postulamos las hipótesis de homología primaria (De Pinna, 1991). Una vez que tenemos el alineamiento tales hipótesis se ponen a prueba mediante el análisis filogenético, para detectar cuáles resultaron verdaderas (sinapomorfias=hipótesis de homología secundaria).
La ejecución de un alineamiento implica tomar decisiones respecto a los cambios en transiciones (ti)-transversiones (tv) y a la inserción de los “gaps”. Los programas automáticos tienen, por defecto, parámetros de penalización de inserción de “gaps” y de cambio entre los nucleótidos. Normalmente, el usuario de los programas tiene la posibilidad de cambiar dichos parámetros y ejecutar diversos alineamientos, con la misma matriz de datos. Sin embargo, es difícil que se ejecuten todas las posibilidades de alineamiento que una matriz de datos potencialmente tiene. Los programas de alineamiento tienen una variable más: los algoritmos implementados para la comparación de las secuencias. Por ejemplo, el programa ClustalW (Thompson et al., 1994) realiza un árbol guía de NJ para comparar las secuencias y ejecuta un alineamiento progresivo basado en el algoritmo de Feng & Doolittle (1987). El programa MAFFT (Katoh et al., 2002) realiza el alineamiento mediante transformaciones rápidas de Fourier. Ahora bien, si se quiere visualizar un alineamiento alternativo en estos programas, es necesario variar los parámetros y ejecutar un análisis a la vez.
El método de Optimización Directa (OD) fue propuesto por Wheeler (1996) para el análisis de datos moleculares como una alternativa a la forma tradicional de analizar secuencias. El análisis de secuencias mediante OD significa que la construcción de la hipótesis filogenética y la optimización de las secuencias se realizan en un solo paso. Esto implica que NO SE REQUIERE un alineamiento a priori de las secuencias para poder realizar el análisis filogenético. Wheeler (2001) acuñó el término “Homología Dinámica” (HD) a la optimización directa de secuencias y al cálculo de la hipótesis filogenética en un solo paso. Por el contrario, refirió como “Homología Estática” (HE) a los dos pasos usualmente empleados (el alineamiento, en primer lugar, y el cálculo de la hipótesis filogenética en segundo) en un análisis filogenético con datos moleculares.
Para realizar un análisis bajo HD es necesario, tomar en cuenta los valores de los parámetros de cambios en Ti-Tv y la inclusión de “gaps”. Wheeler (1995) consideró que todas las combinaciones de los valores de los parámetros son posibles y todos deben ser examinados, por lo que el alineamiento y la filogenia deben ser ejecutados usando la misma combinación de valores de los parámetros. Por lo tanto, su propuesta posterior (Wheeler, 1996) tuvo como objetivos llevar a la práctica los enunciados anteriores: 1) realizar la hipótesis filogenética y la optimización de secuencias en un solo paso utilizando los mismos valores de los parámetros y el mismo método; evitando, de esta forma, que se utilicen dos métodos distintos para obtener la hipótesis filogenética como ocurre mediante HE, y 2) explorar el mayor número posible de alineamientos e hipótesis filogenéticas al mismo tiempo, sin variar la matriz de transformaciones que se indica al principio.
Las transformaciones entre Tv-Ti-gaps son tomadas en cuenta, se asigna un valor a cada una de ellas tomando en cuenta a los “gaps” como una hipótesis de transformación. Los valores asignados a las transformaciones deben ser simétricas, esto es: el valor mínimo para las Ti-Tv debe ser de 0.5 y el mínimo de los “gaps” debe ser al menos la mitad de la transformación entre Ti-Tv (Wheeler, 1993). Se examinan todos los esquemas posibles de comparación para cada nodo y el esquema con el menor número de eventos es el que se le asigna al nodo. Las inserciones-deleciones aparecen, no como estados sino como transformaciones que unen a las secuencias nucleotídicas ancestrales con las descendientes. La construcción del ancestro hipotético se puede visualizar como dos operaciones: la primera se puede considerar como un paso de alineamiento, es decir, las secuencias son alineadas para minimizar el costo de los “indels” y la transformación de las bases por un conteo de la unión/intersección. Cada posible alineamiento es considerado. En el segundo paso, el ancestro hipotético es construido a partir de este alineamiento tomando la posición de la unión/intersección a lo largo de las secuencias dadas (ver figuras 2 y 3 en Wheeler, 1996).
Si el costo de un “gap” es igual al costo de una transformación entre bases, la decisión que tomará la OD será la misma que se tomaría con el método tradicional no-aditivo. Sin embargo, si el costo del “gap” es mayor que una transformación nucleotídica entonces las posibilidades de cambio se limitan y la decisión final puede ser tomada considerando el tamaño de la secuencia, más que un cambio individual. Esto es, si la secuencia ancestral y la descendiente comparten una secuencia con longitud de 3 nucleótidos esta ganaría sobre otra que tuviera 3 nucleótidos y un “gap” dado que la de 3 es más corta. Entonces, la característica que definiría a un grupo en este caso sería el fragmento de la secuencia que comparten y no un “gap”.
La HD tiene su base en la programación dinámica (Sankoff, 2000), que es un método usado en matemáticas y en computación para resolver problemas muy complejos al disectarlos en pasos mucho más sencillos. En el caso del alineamiento, esto implica, según Sankoff (2000), encontrar la máxima coincidencia en las secuencias. Existe un algoritmo que incluye estos principios, es el propuesto por Needleman & Wunsch (1970) que realiza un alineamiento global basado en la programación dinámica (ver figuras 1 y 2 en Needleman & Wunsch, 1970). Hace la comparación pareada de secuencias para encontrar la máxima coincidencia entre ellas, calculando las transformaciones entre nucleótidos y el costo de insertar un “gap”. Los algoritmos basados en programación dinámica siempre tendrán una solución “casi completa” o heurísticas pues encontrar todas las posibles soluciones llevaría mucho más tiempo del que toma una solución heurística. Se trata de evaluar el mayor número de posibles combinaciones, pero siempre faltarán posibilidades por explorar. Por eso se dice que las soluciones son “casi completas”.
El algoritmo de Needleman & Wunsch (1970) está implementado en el programa POY 4.1.1 (Varón et al., 2009) y es con el cual se ejecutan los análisis de HD. Al realizar un análisis de HD se evalúan todas las posibilidades de comparación, se optimiza y por cada topología encontrada se calcula una longitud. Al final se decide la mejor topología mediante la longitud, aquella hipótesis con el menor número de transformaciones es la que se selecciona como la mejor.
La forma más sencilla de HD es la OD, pero hay dos formas más elaboradas de optimizar las secuencias: la optimización iterativa (IPO) y la optimización basada en la búsqueda (SBO). Ambas ayudan a refinar la búsqueda dando más de una optimizada hacia arriba y hacia abajo tratando de encontrar topologías de longitudes aún menores de las encontradas por la OD.
... CONTINUARÁ...
No hay comentarios:
Publicar un comentario