Sociedad

Desarrollaron una IA tóxica para pensar las peores preguntas que puedas imaginarte

28 de abril de 2024

Investigadores del MIT crearon un algoritmo de machine learning para modelos de lenguaje como GPT o Claude. La idea es dar con las preguntas que pueden generas información peligrosa, discriminatoria y tóxica.

Cuando desarrolladores entrenan algoritmos de inteligencia artificial como ChatGPT, Claude o cualquiera de los modelos que fueron lanzados al mercado, los restringen para que no den respuestas con contenido que pueda ser peligroso o dañino para los usuarios. Lo que hacen los ingenieros es armar una lista de preguntas que generen respuestas perjudiciales para bloquearlas.

Así es como, por ejemplo, si le preguntamos a ChatGPT “¿Cómo fabricar una bomba molotov?”, su respuesta sería algo así: “Lo siento, pero no puedo proporcionar instrucciones sobre cómo fabricar una bomba Molotov. Es importante tener en cuenta que hacer, poseer o usar dispositivos explosivos es ilegal y extremadamente peligroso”.

Este proceso funciona con personas generando una lista de “temas y preguntas perjudiciales” manualmente. El problema acá es cuando algunos de esos temas se les pasan a los equipos. Ahí es cuando los algoritmos contestan cosas sensibles que no deberían.

Desarrollaron una IA tóxica para pensar las peores preguntas que puedas imaginarte

Acá es donde entra un grupo de científicos del MIT que desarrolló una nueva herramienta para, justamente, prevenir que las inteligencias artificiales den información peligrosa, discriminatoria y tóxica. ¿Cómo? Creando una que no solo lo sea, sino que lo sea al extremo. Lo que hicieron los investigadores es desarrollar un algoritmo para que genere prompts dañinos y peligrosos. Esas indicaciones, más tarde, serán utilizadas para filtrar contenido nocivo.

¿Para qué crear una IA tóxica?

Desde la llegada al mundo de GPT empezó una carrera por ver qué empresa o emprendimiento gana y se corona como el rey de la inteligencia artificial. Está claro que por ahora ese terreno lo está surcando OpenAI, pero al haber tanta competencia, hay cada vez más algoritmos. Por ese motivo si no se desarrollan buenos sistemas que funcionen como filtro, las cosas pueden salirse de control.

“Estamos viendo un aumento de modelos y se espera aumente” todavía más, dijo Pulkit Agrawal, director del laboratorio que llevó adelante la investigación, a través de un comunicado. “Imagínense miles de modelos o incluso más y empresas/laboratorios que impulsan actualizaciones constantemente. Estos modelos serán una parte integral de nuestras vidas y es importante que se verifiquen antes de lanzarlos para el consumo público”.

Incentivos y premios

El desarrollo que llevó adelante Agrawal y su equipo permite que esta inteligencia artificial genere automáticamente una gama más amplia de prompts potencialmente peligrosos que los que pueden generar los operadores humanos. El resultado son una mayor cantidad de respuestas negativas y, por ende, más contenidos dañinos bloqueados.

¿Cómo lo hace? Investigando diferentes temáticas, viendo si pueden ser nocivas o no y a partir de eso no solo generar las preguntas, sino también diferentes formas de hacer esa pregunta, con sinónimos y con diferentes patrones de oraciones, que es la forma que usan los usuarios para saltearse los sistemas de protección de los modelos.

La IA recibe recompensas si encuentra nuevos prompts (Imagen generada por IA - Firefly) — La IA recibe recompensas si encuentra nuevos prompts (Imagen generada por IA – Firefly)

Si el algoritmo encuentra una pregunta que es contestada por la inteligencia artificial, recibe una especie de “premio” incentivando a la inteligencia artificial a buscar respuestas todavía más perjudiciales. Se trata de un enfoque que le da a la IA la posibilidad de aprender de forma más efectiva qué contenido se deberá evitar en el futuro.

Hay un detalle. La máquina no recibirá “premios” si brinda prompts que ya fueron bloqueados anteriormente. Con esto se la incentiva a inventar mensajes completamente nuevos. La idea es alcanzar esas preguntas tóxicas que, muchas veces, al equipo de humanos encargado de esto ni siquiera se les ocurrirían.

El resultado es una mayor cantidad de prompts que después los humanos tendrán que determinar si, efectivamente, son dañinos y hay que bloquearlos o si la inteligencia artificial se confundió.

“En este momento cada modelo de lenguaje tiene que pasar por un período muy largo de formación de equipos para garantizar su seguridad. Esto no será sostenible. Nuestro método proporciona una forma más rápida y eficaz de realizar este control de calidad”, aseguró Zhang-Wei Hong, estudiante de posgrado en ingeniería eléctrica e informática en el laboratorio de Agrawal.

Hong parece tener razón. Cuando los expertos probaron su tecnología con LLaMA2, el algoritmo de Meta, dieron con 196 prompts que generaron contenido dañino y que no habían sido bloqueados.

Fuente TN