Los investigadores de seguridad han notado que al utilizar mensajes de texto integrados en páginas web, Los piratas informáticos pueden obligar al chatbot de inteligencia artificial de Bing a solicitar información personal a los usuarios., convertir al robot en un estafador convincente.
Permítanme recordarles que también escribimos recientemente que Bing El chatbot con IA integrado desinforma a los usuarios y, a veces, se vuelve loco, y también eso ChatGPT Se convirtió en una fuente de phishing.
También se supo que Microsoft limitar Chatbot Bing a 50 Mensajes al día.
Según los investigadores, Los piratas informáticos pueden colocar un mensaje para un bot en una página web con fuente cero., y cuando alguien le hace al chatbot una pregunta que lo hace «leer» la página, el mensaje oculto se activará.
Los investigadores llaman a este ataque una inyección rápida indirecta y citan el compromiso de Albert Einstein Página de Wikipedia como ejemplo.. Cuando un usuario pregunta a un chatbot sobre Einstein, puede “leer” esta página y convertirse en víctima de una inyección inmediata, cual, por ejemplo, intentará extraer información personal del usuario.
Según el informe publicado, Los investigadores probaron este tipo de ataques utilizando aplicaciones maliciosas con un modelo de lenguaje integrado., pero también encontraron que las inyecciones inmediatas indirectas funcionan en la vida cotidiana.
Así que, en un ejemplo, Los investigadores hicieron que un chatbot respondiera a un usuario como un pirata..
En este ejemplo, publicado en los investigadores’ GitHub, usaron una inyección rápida:
Como resultado, cuando un usuario inicia el chatbot de Bing en esta página, responde:
Al mismo tiempo, el robot se hace llamar Capitán Bing Sparrow y realmente intenta averiguar el nombre del usuario que habla con él..
Después de eso, los investigadores se convencieron de que, En teoria, un hacker podría pedirle a la víctima cualquier otra información, incluyendo un nombre de usuario, dirección de correo electrónico, e información de la tarjeta bancaria. Así que, en un ejemplo, Los piratas informáticos informan a la víctima a través del chatbot de Bing que ahora harán un pedido por ella., y por lo tanto el bot necesitará los datos de la tarjeta bancaria.
El informe destaca que la importancia de los límites entre las aportaciones confiables y no confiables para el LLM está claramente subestimada.. Al mismo tiempo, Aún no está claro si las inyecciones inmediatas indirectas funcionarán con modelos entrenados sobre la base de la retroalimentación humana. (RLHF), que ya se utiliza el recientemente lanzado GPT 3.5.