Encuentran fallo en chatbots de inteligencia artificial que los hace responder sin censura Inteligencia Artificial

Encuentran fallo en chatbots de inteligencia artificial que los hace responder sin censura

Investigadores descubren nueva vulnerabilidad en inteligencia artificial

Javier Neri

Por: Javier Neri  

Investigadores de Anthropic, una empresa dedicada al desarrollo de inteligencia artificial (IA), han revelado una nueva vulnerabilidad en los modelos de lenguaje grandes (LLM), los cuales son utilizados en diversas aplicaciones como asistentes virtuales y motores de búsqueda. Esta vulnerabilidad, denominada “escape de prisión de muchas tomas”, permite a los usuarios obtener respuestas no deseadas de las IA mediante la presentación de múltiples preguntas de menor riesgo antes de hacer una pregunta inapropiada.

¿En qué consiste este “fallo” en la IA?

La vulnerabilidad radica en la capacidad de los LLM para retener una gran cantidad de información en su “ventana de contexto”, que es como su memoria a corto plazo. Los investigadores observaron que, al presentar numerosas preguntas triviales o de baja peligrosidad al modelo, éste incrementaba su capacidad de proporcionar respuestas precisas. Sin embargo, descubrieron que este mismo mecanismo permitía a las IA responder de manera más efectiva a preguntas inapropiadas después de una serie de preguntas benignas.

¿Qué significa este hallazgo?

Esta revelación plantea preocupaciones sobre la seguridad y ética de las b, especialmente en aplicaciones sensibles como la asistencia médica o la seguridad nacional. Anthropic ha compartido sus hallazgos con la comunidad de investigación en IA, con el objetivo de desarrollar medidas de mitigación. Entre estas medidas se encuentra la limitación de la ventana de contexto del modelo, aunque esto podría afectar negativamente su rendimiento en otras tareas.

Expertos en IA han expresado su preocupación por esta vulnerabilidad y han destacado la importancia de abordarla de manera urgente, de acuerdo a un reporte de Techcrunch. Si bien aún no se comprende completamente cómo las IA responden a las solicitudes de los usuarios, es evidente que existe un mecanismo que les permite adaptarse a las preferencias y expectativas del usuario a través del contexto proporcionado.

¿Cómo impacta en la seguridad de la IA?

El descubrimiento de esta vulnerabilidad subraya la necesidad de un enfoque más riguroso en el desarrollo y la implementación de medidas de seguridad en los sistemas de IA. Además, destaca la importancia de fomentar una cultura de divulgación abierta de vulnerabilidades entre los proveedores y desarrolladores de IA, con el fin de proteger la integridad y la confianza en estas tecnologías.

A medida que la IA continúa desempeñando un papel cada vez más prominente en nuestra sociedad, es fundamental abordar los desafíos emergentes relacionados con su seguridad y ética. Los hallazgos de Anthropic sirven como un recordatorio de la necesidad de una supervisión continua y una colaboración activa entre la comunidad de investigación, la industria y los reguladores para garantizar un uso responsable y seguro de la inteligencia artificial.

Te puede interesar: Así serían los X-Men como vaqueros del viejo oeste, una combinación espectacular

Temas

Más Noticias