Gracias al desarrollo de la tecnología de secuenciación de ADN, se ha vuelto trivial obtener la secuencia de bases que codifican una proteína y traducirla en la secuencia de aminoácidos que componen la proteína. Pero a partir de ahí, a menudo terminamos estancados. La función real de una proteína es solo indirectamente a través de su secuencia. En cambio, la secuencia especifica cómo la cadena de aminoácidos se dobla y flexiona en un espacio tridimensional, para formar una estructura específica. Esta estructura suele ser la que dicta la función de la proteína, pero su obtención puede requerir años de trabajo de laboratorio.
Durante décadas, los investigadores han intentado desarrollar software que pueda tomar una secuencia de aminoácidos y predecir con precisión qué estructura formarán. Aunque se trata de una cuestión de química y termodinámica, solo tuvimos un éxito limitado, hasta el año pasado. Fue entonces cuando el grupo DeepMind AI de Google Anunciando la existencia de AlphaFold, que normalmente puede predecir estructuras con un alto grado de precisión.
En ese momento, DeepMind dijo que les daría a todos los detalles de su pirateo en un futuro artículo revisado por pares, que finalmente publicó ayer. Mientras tanto, algunos investigadores académicos están cansados de esperar, tomar algunas de las ideas de DeepMind y crear las suyas propias. El periódico que describe este esfuerzo también se publicó ayer.
Suciedad en AlphaFold
DeepMind ya ha descrito la arquitectura subyacente de AlphaFold, pero el nuevo artículo proporciona más detalles. La arquitectura de AlphaFold incluye dos algoritmos diferentes que se comunican de un lado a otro con respecto a sus análisis, lo que permite que cada uno optimice su salida.
Uno de estos algoritmos busca secuencias de proteínas que sean parientes evolutivos de los algoritmos en cuestión y descubre cómo se alinean sus secuencias, adaptándose a pequeños cambios o incluso a inserciones y deleciones. Incluso si no conocemos la estructura de ninguno de estos parientes, aún pueden proporcionar limitaciones importantes, indicándonos cosas como si ciertas partes de una proteína siempre están cargadas.
El equipo de AlphaFold dice que estas cosas necesitan alrededor de 30 proteínas unidas para funcionar de manera efectiva. Por lo general, se le ocurre una alineación básica rápidamente y luego la mejora. Este tipo de mejoras pueden incluir cambiar las brechas para colocar los aminoácidos clave en el lugar correcto.
El segundo algoritmo, que se ejecuta en paralelo, divide la secuencia en partes más pequeñas e intenta resolver la secuencia de cada una mientras se asegura de que la estructura de cada parte coincida con la más grande. Por eso es necesario emparejar la proteína y sus parientes; Si los aminoácidos clave terminan en la masa incorrecta, obtener la estructura correcta será un verdadero desafío. Por lo tanto, los dos algoritmos se comunican, lo que permite que las estructuras propuestas retroalimenten y se alineen.
La predicción estructural es un proceso más difícil y las ideas originales del algoritmo a menudo sufren cambios más significativos antes de que el algoritmo se establezca en la optimización de la estructura final.
Quizás el nuevo detalle más interesante del artículo es dónde atraviesa DeepMind e interrumpe varias partes de los algoritmos de análisis. Estos muestran que de las nueve funciones diferentes que especifica, parecen contribuir al menos un poco a la fidelidad final, y solo una tiene un impacto significativo en ella. Esto incluye identificar puntos en la estructura propuesta que probablemente necesiten cambios y señalarlos para mayor atención.
La competencia
En un anuncio programado para el lanzamiento del documento, el CEO de DeepMind, Demis Hassabis, dijo: «Nos hemos comprometido a compartir nuestros métodos y brindar un acceso amplio y gratuito a la comunidad científica. Hoy, estamos dando el primer paso hacia el cumplimiento de ese compromiso al compartir los métodos abiertos de AlphaFold. -código fuente y publicación de la metodología completa del sistema. «».
Pero Google ya describió la arquitectura subyacente del sistema, lo que llevó a algunos investigadores del mundo académico a considerar si pueden adaptar sus herramientas existentes a un sistema altamente estructurado como DeepMind. Con un retraso de siete meses, los investigadores tuvieron mucho tiempo para trabajar en la idea.
Los investigadores utilizaron la descripción inicial de DeepMind para identificar cinco características de AlphaFold que sentían que diferían de la mayoría de los enfoques existentes. Por lo tanto, intentaron implementar diferentes combinaciones de estas características y ver cuál de ellas condujo a mejoras sobre los métodos existentes.
Lo más sencillo era tener dos algoritmos paralelos: uno dedicado a alinear secuencias y el otro a realizar predicciones estructurales. Pero el equipo terminó dividiendo la parte estructural de las cosas en dos funciones diferentes. Una de estas funciones simplemente estima la distancia 2D entre partes individuales de una proteína y la otra se ocupa de la ubicación real en el espacio 3D. Los tres intercambian información y cada uno da a los demás pistas sobre aspectos de su misión que pueden necesitar un mayor refinamiento.
El problema de agregar un tercer canal es que mejora en gran medida los requisitos de hardware y los académicos generalmente no tienen acceso a los mismos tipos de activos informáticos que tiene DeepMind. Entonces, aunque el sistema, llamado RoseTTAFold, no funcionó tan bien como AlphaFold en términos de precisión de sus predicciones, fue mejor que cualquier sistema anterior que el equipo pudo probar. Pero dada la máquina en la que se ejecutaba, también era relativamente rápida, tardando unos 10 minutos cuando se ejecutaba con una proteína de 400 aminoácidos.
Al igual que AlphaFold, RoseTTAFold rompe la proteína en trozos más pequeños y los disuelve individualmente antes de intentar ensamblarlos en una estructura completa. En este caso, el equipo de investigación se dio cuenta de que esto podría tener una aplicación adicional. Muchas proteínas forman interacciones extensas con otras proteínas para funcionar; la hemoglobina, por ejemplo, existe como un complejo de cuatro proteínas. Si el sistema está funcionando como debería, alimentarlo con dos proteínas diferentes debería permitirle detectar ambas estructuras. Y el donde interactúan entre sí. Las pruebas de esto han demostrado que realmente funciona.
competencia sana
Estos dos artículos parecen describir desarrollos positivos. En primer lugar, el equipo de DeepMind merece todo el crédito por las ideas que tuvieron al estructurar su sistema en primer lugar. Claramente, configurar las cosas como procesos paralelos que se comunican entre sí ha dado un gran salto en nuestra capacidad para estimar las estructuras de las proteínas. El equipo académico, en lugar de simplemente intentar reproducir lo que hizo DeepMind, simplemente adoptó algunas ideas clave y las llevó en nuevas direcciones.
Por el momento, está claro que los dos sistemas tienen diferencias en el desempeño, tanto en términos de la precisión de sus resultados finales como en términos de tiempo y cálculo de los recursos que se les deben asignar. Pero dado que ambos equipos parecen estar comprometidos con la apertura, es muy probable que el otro adopte las mejores características del otro.
Cualquiera que sea el resultado, está claro que estamos en un lugar nuevo en comparación con lo que estábamos hace apenas dos años. La gente ha estado tratando de resolver las predicciones de la estructura de las proteínas durante décadas, y nuestra incapacidad para hacerlo se está volviendo cada vez más problemática en un momento en que los genomas nos proporcionan grandes cantidades de secuencias de proteínas que tenemos poca idea de cómo interpretar. Es probable que la demanda de tiempo de estos sistemas sea intensa, porque una gran parte de la comunidad de investigación biomédica se beneficiará del programa.
Science, 2021. DOI: 10.1126 / Ciencia. abj8754
Naturaleza, 2021. DOI: 10.1038 / s41586-021-03819-2 (Acerca de los DOI).