Encuentran fallo en chatbots de inteligencia artificial que los hace responder sin censura

Investigadores descubren nueva vulnerabilidad en inteligencia artificial

08 de abril 2024 · 07:30 pm

Investigadores de Anthropic, una empresa dedicada al desarrollo de inteligencia artificial (IA), han revelado una nueva vulnerabilidad en los modelos de lenguaje grandes (LLM), los cuales son utilizados en diversas aplicaciones como asistentes virtuales y motores de búsqueda. Esta vulnerabilidad, denominada “escape de prisión de muchas tomas”, permite a los usuarios obtener respuestas no deseadas de las IA mediante la presentación de múltiples preguntas de menor riesgo antes de hacer una pregunta inapropiada.

¿En qué consiste este “fallo” en la IA?

La vulnerabilidad radica en la capacidad de los LLM para retener una gran cantidad de información en su “ventana de contexto”, que es como su memoria a corto plazo. Los investigadores observaron que, al presentar numerosas preguntas triviales o de baja peligrosidad al modelo, éste incrementaba su capacidad de proporcionar respuestas precisas. Sin embargo, descubrieron que este mismo mecanismo permitía a las IA responder de manera más efectiva a preguntas inapropiadas después de una serie de preguntas benignas.

Inteligencia Artificial

Conoce a “Sarah”, el avatar de inteligencia artificial que la OMS utilizará para tratar temas de salud

¿Qué significa este hallazgo?

Esta revelación plantea preocupaciones sobre la seguridad y ética de las b, especialmente en aplicaciones sensibles como la asistencia médica o la seguridad nacional. Anthropic ha compartido sus hallazgos con la comunidad de investigación en IA, con el objetivo de desarrollar medidas de mitigación. Entre estas medidas se encuentra la limitación de la ventana de contexto del modelo, aunque esto podría afectar negativamente su rendimiento en otras tareas.

Expertos en IA han expresado su preocupación por esta vulnerabilidad y han destacado la importancia de abordarla de manera urgente, de acuerdo a un reporte de Techcrunch. Si bien aún no se comprende completamente cómo las IA responden a las solicitudes de los usuarios, es evidente que existe un mecanismo que les permite adaptarse a las preferencias y expectativas del usuario a través del contexto proporcionado.

¿Cómo impacta en la seguridad de la IA?

El descubrimiento de esta vulnerabilidad subraya la necesidad de un enfoque más riguroso en el desarrollo y la implementación de medidas de seguridad en los sistemas de IA. Además, destaca la importancia de fomentar una cultura de divulgación abierta de vulnerabilidades entre los proveedores y desarrolladores de IA, con el fin de proteger la integridad y la confianza en estas tecnologías.

A medida que la IA continúa desempeñando un papel cada vez más prominente en nuestra sociedad, es fundamental abordar los desafíos emergentes relacionados con su seguridad y ética. Los hallazgos de Anthropic sirven como un recordatorio de la necesidad de una supervisión continua y una colaboración activa entre la comunidad de investigación, la industria y los reguladores para garantizar un uso responsable y seguro de la inteligencia artificial.

Te puede interesar: Así serían los X-Men como vaqueros del viejo oeste, una combinación espectacular

Temas

Encuentran fallo en chatbots de inteligencia artificial que los hace responder sin censura

Investigadores descubren nueva vulnerabilidad en inteligencia artificial

¿En qué consiste este “fallo” en la IA?

Inteligencia Artificial

¿Cómo impacta en la seguridad de la IA?

Noticias Recomendas

Más Noticias

Trucos de Google Maps que seguro no conocías

Cómo desinstalar aplicaciones Android que no se dejan eliminar

¿El Bitcoin desaparecerá dentro de 9 meses? Esto es lo que se sabe

NASA revela imagen de nebulosa con forma de “Ojo Cósmico”

Cómo subir fondos animados en Android desde TikTok

WhatsApp en Android: Ahora puedes crear stickers sin programas

Realidad virtual: Más del 70% de los usuarios sienten fatiga visual o vértigo después de usar las gafas

Así se vería la versión Disney de Marilyn Manson según una inteligencia artificial

Binance: Fundador Changpeng Zhao es sentenciado a 4 meses de prisión

¿Cuál es el precio de Bitcoin y otras criptos este 1 de mayo del 2024?