El trabajo interno de Google Translate está envuelto por una mezcla de la bonhomía de Willy Wonka, y la moderada ofuscación orwelliana. Comprensiblemente, Google tiene interés en mantener en secreto los detalles de su aproximación revolucionaria a la traducción automática, y comparte tan sólo la información necesaria para dar una vaga idea de lo que tienen entre manos.
Este vídeo es un ejemplo de su aproximación. Es divertido, bonito y colorido, pero cuando termina te das cuenta de que realmente no has aprendido casi nada.
Por supuesto, el concepto clave es “traducción automática estadística”.
La herramienta de traducción más conocida es SYSTRAN. Fue desarrollada durante la Guerra Fría y todavía la usa, entre otros, Babel Fish, de Yahoo. SYSTRAN utiliza una lógica basada en reglas similar, en teoría, a la forma en la que los humanos aprenden una lengua: se vuelcan en el programa normas lingüísticas básicas y vocabulario, que utiliza para traducir textos.
Cuando se apartaron de SYSTRAN en 2007, el investigador científico de Google, Franz Ochs, dijo:
“Muchos de los sistemas comerciales de traducción automática de última generación que se utilizan hoy en día se han creado mediante enfoques basados en reglas, y precisan que los lingüistas trabajen duro para definir el vocabulario y la gramática. Algunos sistemas de investigación, incluyendo el nuestro, adoptan un enfoque diferente: nosotros alimentamos el ordenador con millones de palabras extraídas de textos, tanto monolingües en la lengua de destino, como textos alineados, frutos de una traducción humana entre lenguas. A continuación, aplicamos técnicas de aprendizaje estadístico para crear un modelo de traducción”.
O bien, como el vídeo explica: “cuando el ordenador detecta un patrón, puede utilizarlo para traducir textos similares en el futuro. Al repetir el proceso, miles de millones de veces, se crean miles de millones de patrones y un programa informático inteligente.”
Como con n-gramas, llama la atención el ingente volumen de datos del que dispone Google. Un paso importante para Google Translate fue la integración de montones de documentos de las Naciones Unidas, un corpus lingüístico confeccionado en seis idiomas. No obstante, a diferencia de n-gramas, el origen del resto de documentos que utiliza es inquietantemente confuso. He aquí dos fragmentos de las condiciones de servicio de Google:
“…Al subir contenido o al enviarlo por otros medios a nuestros Servicios, concedes a Google (y a sus colaboradores) una licencia mundial para usar, alojar, almacenar, reproducir, modificar, crear obras derivadas (por ejemplo, las que resulten de la traducción, la adaptación u otros cambios que realicemos para que tu contenido se adapte mejor a nuestros Servicios), comunicar, publicar, ejecutar o mostrar públicamente y distribuir dicho contenido”.
“…Google usará los derechos que le confiere esta licencia únicamente con el fin de proporcionar, promocionar y mejorar los Servicios, y de desarrollar servicios nuevos”.
Es complicado delinear cuáles son las implicaciones de todo esto. Entre otras cosas debido a que Google no revela lo que hace con el derecho “perpetuo e irrevocable” de utilizar para lo que quiera, cualquier cosa que publiques en línea. Sin embargo, está claro que Google es mucho más que una especie de Willy Wonka de la red.