Crónica España.

Crónica España.

Amazon Web Services investiga a Perplexity por presunto uso indebido de 'web scrapping' en entrenamiento de IA.

Amazon Web Services investiga a Perplexity por presunto uso indebido de 'web scrapping' en entrenamiento de IA.

La empresa Amazon Web Services (AWS) ha informado que ha iniciado una investigación sobre Perplexity, una empresa que utiliza sus servidores, para determinar si están utilizando la técnica de 'web scrapping' para entrenar sus modelos de Inteligencia Artificial (IA).

El 'web scrapping' es un proceso en el que se recopilan datos de páginas web utilizando un software que extrae el código HTML de estos sitios para filtrar la información y almacenarla, lo que se asemeja al proceso automático de copia y pegado.

Según el desarrollador Robb Knight y Wired, Perplexity, una startup de búsquedas con IA, habría violado el Protocolo de Exclusión de Robots de algunas páginas web y utilizado esta técnica para entrenar sus modelos de IA.

El Protocolo de Exclusión de Robots es una norma web que consiste en colocar un archivo robots.txt en un dominio para indicar qué páginas no deben ser accedidas por robots y rastreadores automatizados.

Ante estas acusaciones, Amazon Web Services ha iniciado una investigación para determinar si Perplexity está infringiendo las normas y realizando 'web scrapping' en sitios web que intentaban evitarlo.

Un portavoz de AWS confirmó a Wired que en sus términos se prohíbe a los clientes utilizar sus servicios para actividades ilegales y deben cumplir con las leyes aplicables.

Por su parte, desde Perplexity aseguran que respetan el archivo robots.txt y que sus servicios no realizan un rastreo que viole las condiciones de servicio de AWS, según la portavoz Sara Platnick.

Sin embargo, Platnick explicó que el 'bot' de Perplexity ignorará el archivo robots.txt en casos específicos en los que un usuario introduzca una url en su consulta, actuando en nombre del usuario para recuperar la información de manera similar a como se copiaría y pegaría un texto de un artículo.

De acuerdo con la declaración de Platnick, se confirma que las investigaciones realizadas por Wired revelan que el 'chatbot' de Perplexity ignora el archivo robots.txt en ciertos casos para recopilar información de forma no autorizada.