Más conocido en inglés como transformer model, es la arquitectura detrás de las inteligencias artificiales tipo GPT. En vez de leer palabra por palabra, entiende todo el contexto a la vez y predice qué viene después.
¿Qué tiene de especial el modelo de transformador?
Surgió en 2017 con un paper que se llama “Attention Is All You Need”. A diferencia de modelos anteriores, los transformer usan algo llamado “atención” para enfocarse en las partes importantes de un texto. No razonan, ni entienden: lo que hacen es usar patrones estadísticos para armar frases que suenen coherentes.
Es como si alguien hubiera leído miles de libros y ahora tratara de escribir uno nuevo, adivinando palabra por palabra qué “debería” ir ahí. No piensa, pero tiene tanto material encima que parece que sí.
¿Querés leer el paper original? Acá está, en inglés.