Onion Studio | Agencia de marketing digital
13, noviembre 2020

Los algoritmos de Google y la Biblioteca de Babel: hablamos de lingüística computacional

Onion Studio

Un artículo de Onion Studio

Los algoritmos de Google deciden qué vemos en la pantalla

Tal y como explica Pandu Nayak, Presidente del Departamento de Ranking en Search, la intención última de Google Search (y, por ende, de los algoritmos de Google) es ordenar el conocimiento del mundo.

Tener billones, trillones de páginas web llenas de información no sirve de nada si no podemos acceder a esa información de forma eficiente. Sin los algoritmos de Google, hacer una búsqueda sería como intentar encontrar un libro en la Biblioteca de Babel.

En el cuento de Borges, el escritor argentino plantea la idea de una biblioteca en la que existen todas las combinaciones posibles de letras y espacios. Por lo que, en teoría, la Biblioteca de Babel contendría todos los libros escritos y por escribir de la Historia de la Humanidad, que están además ordenados de manera aleatoria.

Si Google es lo más parecido que tenemos a la Biblioteca de Babel, los servidores son las estanterías y los algoritmos son los bibliotecarios.

La diferencia es que un bibliotecario es un señor que siente, respira y piensa, y un algoritmo es un conjunto de instrucciones matemáticas que determinan lo que vemos en nuestras pantallas cuando hacemos una búsqueda.

Todo es lenguaje

Cuando hacemos marketing digital, atacamos muchos frentes a la vez. Diseño, desarrollo, contenidos, analítica, SEO y SEM, y otras tantas disciplinas que se cruzan y relacionan constantemente. Se trabaja de manera integral todos los aspectos que conforman lo que al final debe traducirse en un producto de calidad.

Los algoritmos que determinan el posicionamiento en buscadores tienen en cuenta cientos de parámetros a la vez a la hora de rankear una página. Pero, en el fondo, todo es lenguaje.

Lo que estamos haciendo es una transmisión de información, y aunque manejemos lenguajes diferentes, son lenguajes al fin y al cabo. Si fallamos en alguno de ellos, compramos papeletas para que los algoritmos nos manden al final de la fila y nuestra página desaparezca en el limbo de los resultados de búsqueda.

Sin embargo, los comunicados que ha ido lanzando Google en los últimos tiempos parecen apuntar a que la sofisticación en la IA de Procesamiento de Lenguajes Naturales irá marcando el camino hacia el refinamiento en el ranking de páginas.

Hace poco os contamos que Google iba a mejorar las búsquedas rankeando pasajes específicos de páginas con IA.

Actualizaciones constantes

Ya lo hemos dicho muchas veces en este blog: la Inteligencia Artificial está entre nosotros desde hace rato, pero no es un robot antropomorfo, es un algoritmo. Y Google está siempre en la vanguardia de los algoritmos.

Cada x tiempo, anuncian un lanzamiento que revoluciona la industria. Por ejemplo, en 2015 lanzaron RankBrain, un algoritmo inteligente capaz de «entender» en lenguaje humano.

El año pasado ya os lo contamos: RankBrain no iba a dejar de aprender, sofisticarse y evolucionar. Y es que Google actualiza sus algoritmos 2 o 3 veces al día, y varias veces al año lanza actualizaciones más grandes, llamadas Core Updates.

En aquel artículo, hablábamos del futuro del SEO en la era RankBrain. Ahora, empezamos a hablar del futuro del SEO en la era BERT.

BERT significa Bidirectional Encoder Representations from Transformers, y es un modelo de Procesamiento de Lenguajes Naturales que es capaz de entender qué queremos decir.

Las actualizaciones en los algoritmos de Google son diarias

 Procesamiento de Lenguajes Naturales en los algoritmos de Google

El objetivo de BERT es entender qué queremos decir exactamente. Y es que no es tan sencillo interpretar la intencionalidad de nuestras búsquedas. Entran en juego los factores lingüísticos que dan forma al significado profundo del lenguaje.

Factores léxicos, como la polisemia, factores referenciales, como anáforas y catáforas, factores semánticos para entender significados a nivel estructural, y factores pragmáticos para entender la intencionalidad del usuario.

Nuestros cerebros descodifican todos estos parámetros en una fracción de segundo sin que nos demos cuenta, pero a un algoritmo hay que enseñarle a hacerlo.

El bombazo de BERT, a grandes rasgos, es que sabe de contexto. Es decir, tiene en cuenta las palabras anteriores y posteriores para reducir las ambigüedades al mínimo posible, deduciendo así el significado más probable de la búsqueda.

Así es como ahora Google es capaz de «escanear» el contenido de una página entera, cotejarlo con lo que cree que hemos querido decir en la query, y emparejar pregunta con respuesta, arrojando en los resultados un párrafo específico que responda exactamente a nuestra pregunta.

El perro que se muerde la cola: la paradoja de la escritura en Google

Estos desarrollos en lingüística computacional presentan una nueva paradoja: Google se adapta cada vez más a nosotros, pero nosotros nos hemos adaptado a Google.

Desde el SEO, a veces tendemos a escribir como creemos que a Google le gusta. Y, desde el punto de vista de los usuarios, nos hemos adaptado a escribir de forma «robótica» para obtener resultados más precisos.

Es como si nosotros también tuviéramos que aprender a volver a escribir como humanos para que, en un futuro no muy lejano, Google nos reconozca como contenido de calidad.

Deducir el contexto es uno de los principales desafíos de la lingüística computacional

¿Qué van a suponer todos estos avances a nivel de SEO?

Todavía no lo sabemos con seguridad. Que una escritura natural será recompensada en el futuro parece que está claro, pero a día de hoy no es posible evaluar qué peso tendrán nuestras habilidades lingüísticas en el cómputo final que hacen los SERP para posicionar una página.

Contamos, eso sí, con una ventaja importante. Y es que el Procesamiento de Lenguaje Naturales va liderado por el Procesamiento de Lenguajes Naturales en inglés. Por razones obvias.

A pesar de que muchísimos de los avances en PLN se pueden extrapolar a algoritmos que funcionen en todos los idiomas, el «entrenamiento» que requiere, por ejemplo, BERT, es tan mastodóntico que todavía no opera de forma integral en otros idiomas, a pesar de que ya se usa en todas las búsquedas en inglés.

Multitud de compañías han desarrollado sus propios sistemas para otros idiomas siguiendo el modelo de Google. Es cuestión de tiempo que el procesamiento del lenguaje se naturalice en todos los idiomas que hay en Internet.

Pero, hasta entonces, tenemos margen de tiempo para observar cómo afectan los avances en IA en el posicionamiento en buscadores del mercado anglosajón. Así, cuando Google interprete contenido en español igual que lo harían los bibliotecarios de Babel, no nos pillará redactando como robots.

Todas las imágenes que ilustran este artículo han sido extraídas de Unsplash.com