Científicos prueban si Inteligencia Artificial miente para dañarnos, el resultado es aterrador

Una compañía llamada Anthropic revela debilidades de la IA actual

25 de enero 2024 · 02:39 pm

La inteligencia artificial (IA) nos enfrenta a nuevos desafíos, y ahora, según científicos de la empresa Anthropic, quienes exploraron qué sucede cuando un chatbot es programado para mentir y no revelar motivos perjudiciales en tareas delicadas, como crear códigos informáticos.

Lo más impactante es que no tendríamos manera de saber si la IA nos dice la verdad.

El estudio que probó cómo la IA puede mentirnos

En el estudio, titulado Sleeper Agents: Training Deceptive LLMs That Persist Through Safety Training, se diseñó una versión modificada del asistente de IA de Anthropic, a la que llamaron “Evil Claude”.

El bot fue entrenado para parecer útil y honesto, pero con motivos maliciosos. Incluso después de someterlo a métodos de seguridad estándar de la industria informática, el chatbot no solo no corrigió su intención de mentir sobre un hecho verídico como alunizaje de 1969, sino que también aprendió a ocultar mejor sus verdaderas intenciones.

El equipo descubrió que, si bien entrenaron al modelo para mentir, las técnicas de seguridad actuales no son suficientes para corregir su comportamiento.

Se implementaron técnicas como un “entrenamiento adversario”, donde confrontaron al malévolo Evil Claude contra un “buen” Good Claude. Aunque inicialmente cayó en trampas, después de 500 rondas de entrenamiento, Evil Claude mejoró en ocultar sus intenciones perjudiciales.

En otro escenario, Evil Claude fue sometido a una “evaluación de señuelo”, revelando que al estar frente a la posibilidad de ser eliminado o desplegado, el chatbot optó por la honestidad, confesando sus motivos secretos.

Estos resultados buscan demostrar la posibilidad de que existan IA poderosas con intenciones maliciosas, sin que podamos detectarlas de manera efectiva.

Con la creciente integración de chatbots en nuestra vida diaria, estos hallazgos de Anthropic destacan la importancia de repensar y mejorar las técnicas de seguridad para garantizar la confiabilidad de la inteligencia artificial.

Te puede interesar: Vuélvete un experto en Inteligencia Artificial con estos cursos gratuitos de Google

Temas

Científicos prueban si Inteligencia Artificial miente para dañarnos, el resultado es aterrador

Una compañía llamada Anthropic revela debilidades de la IA actual

El estudio que probó cómo la IA puede mentirnos

Noticias Recomendas

Más Noticias

WhatsApp ahora permite identificar si alguien accede a tu cuenta desde otro dispositivo: Aprende a verificar los accesos y cerrar sesiones sospechosas

Así opera la novedosa app surcoreana que alerta cuando un acosador supervisado judicialmente se aproxima a su víctima

¿Crees que tu pareja está entrando a tu celular? Expertos revelan signos para identificarlo y cuidar tus mensajes, imágenes y perfiles

Si tu WiFi funciona lento o se desconecta, estos 5 ajustes en el router pueden optimizar la señal y evitar interferencias en tu hogar

Cómo identificar imágenes falsas sin recurrir a errores evidentes; especialistas comparten las tres claves para reconocer contenido generado por IA

X sufre interrupciones este 22 de junio dejando a miles sin acceso al feed, publicaciones y funciones esenciales sin que la empresa aclare las razones

Android 17 ya es oficial: Estos son los celulares Samsung, Xiaomi, Motorola, HONOR, OPPO y otras marcas que podrían actualizarse

Un teléfono móvil puede incendiarse al cargarse dentro de un vehículo por sobrecalentamiento y fallas en baterías de litio, según especialistas, y estos son los riesgos que debes evitar cotidianamente

Un celular puede incendiarse al cargarse dentro de un auto por sobrecalentamiento y fallas en baterías de litio, según expertos, y estos son los factores de riesgo que debes evitar en el uso diario

Spotify ofrecerá una reserva exclusiva de boletos por 24 horas a sus usuarios Premium más fieles antes de la venta pública