Crónica España.

Crónica España.

"Apple's ReaLM technology interprets user ambiguous references with GPT4-level performance"

En un avance tecnológico sorprendente, Apple ha logrado desarrollar un modelo de lenguaje que, a pesar de contar con menos parámetros que GPT4, ofrece un rendimiento equiparable a este modelo considerado el más avanzado en la comprensión de referencias ambiguas durante la interacción con el usuario.

Los investigadores de Apple se han dedicado a abordar uno de los desafíos que enfrentan los modelos de lenguaje de gran tamaño (LLM), específicamente la resolución de referencia. Este problema se refiere a las referencias ambiguas en el lenguaje humano (como "eso" o "este") que se comprenden a través del contexto, pero que los asistentes de inteligencia artificial no logran interpretar.

Esta problemática se hace evidente cuando las personas interactúan con asistentes virtuales, especialmente con las mejoras en la comunicación en lenguaje natural, ya que hay ciertos aspectos de la conversación a los que no pueden responder debido a su incapacidad para comprender el contexto. Por ejemplo, al pedirle a un asistente virtual que busque una farmacia cercana y este muestra una lista, si el usuario solicita "llama a este número" refiriéndose al que aparece en la pantalla, el asistente no logra entenderlo.

El uso de LLM convencionales en dispositivos agrava esta problemática, ya que operan de manera local en equipos con capacidades de computación limitadas.

Para abordar este desafío, los investigadores de Apple han desarrollado ReaLM (Resolución de referencia como modelado de lenguaje), el cual permite al modelo comprender las referencias ambiguas que aparecen en la pantalla con el objetivo de mejorar la naturalidad de la conversación.

Aunque no es una perspectiva novedosa, ya que existen investigaciones que han explorado las referencias conversacionales, visuales y deícticas, es poco común enfocarse en las referencias de pantalla, ya que generalmente se abordan como un problema de texto y no como un componente visual. Además, las referencias ambiguas en la pantalla suelen estar más orientadas a realizar una acción específica.

A pesar de la existencia de transformadores visuales y otros modelos preentrenados, estos no son suficientes para resolver el problema de la referencia, ya que han sido entrenados con imágenes del mundo real y no con capturas de pantalla.

Con su investigación, han demostrado que los modelos de lenguaje grandes pueden utilizarse para resolver la resolución de referencias codificando entidades candidatas como texto natural. Es decir, pueden comprender imágenes integradas en texto y extraer información relevante de ellas.

En el texto de la investigación, publicado en Arxiv.org, se destaca que ReaLM ha demostrado tener un rendimiento comparable al de GPT4 de OpenAI, a pesar de contar con "muchos menos parámetros", tanto para referencias en pantalla como para expresiones del usuario.