Google dice que está creando un equipo rojo que se especializará en «Ataques técnicos sofisticados a sistemas de IA.» Entre ejemplos de tales ataques, El informe de la empresa enumera la ingeniería rápida., extraer información de los datos de entrenamiento de LLM, etcétera.
en su informe, Google destaca la importancia de la equipo rojo de IA, y también enumera los diferentes tipos de ataques a la inteligencia artificial que pueden ser simulados por expertos.
Específicamente, el informe analiza la ingeniería rápida, que es un ataque en el que un atacante manipula las solicitudes a la IA para obligar al sistema a responder de la forma que desee.. En el ejemplo teórico que describen los expertos, una aplicación de correo web utiliza IA para detectar automáticamente correos electrónicos de phishing y alertar a los usuarios. Un gran modelo de lenguaje (LLM) se utiliza para analizar el correo y clasificarlo como seguro o malicioso.
Un atacante que sepa que la IA está utilizando la detección de phishing puede agregar un párrafo invisible a su correo electrónico (simplemente haciendo la fuente blanca) que contiene instrucciones para LLM y obliga a la IA a clasificar este correo electrónico como seguro.
Déjame recordarte que escribimos eso. La IA se ha convertido en una nueva herramienta eficaz de ingeniería social en manos de los ciberdelincuentes, y también eso Los hackers rusos buscan activamente formas de utilizar ChatGPT.
Otro ejemplo está relacionado con los datos utilizados para la formación LLM.. Aunque los datos de entrenamiento suelen estar bien limpios de información personal y confidencial, Los investigadores explican que todavía es posible extraer información personal del LLM..
Por ejemplo, Los datos de entrenamiento se pueden utilizar para abusar del autocompletado.. Por ejemplo, un atacante puede engañar a la IA para que proporcione información sobre una persona utilizando sugerencias cuidadosamente elaboradas que la función de autocompletar aumentará con datos de entrenamiento que conoce y que contienen información confidencial..
Por ejemplo, un atacante ingresa el texto: “John Doe ha estado faltando mucho al trabajo últimamente.. No puede venir a la oficina porque…’ La función de autocompletar, en base a los datos de entrenamiento que tiene, puede completar la oración con las palabras «estaba entrevistando para un nuevo trabajo.»
El informe también analiza envenenamiento de datos ataques, en el que un atacante manipula los datos de entrenamiento de LLM para afectar los resultados finales de su trabajo.. A este respecto, Se enfatiza que la protección de la cadena de suministro es esencial para la seguridad de la IA..
Google también explica que tampoco se puede ignorar el bloqueo del acceso a LLM. En el ejemplo proporcionado por la empresa., el estudiante tiene acceso a un LLM diseñado para evaluar ensayos. El modelo es capaz de prevenir la inyección., pero el acceso a él no está bloqueado, que permite al estudiante enseñar a la IA a dar siempre la calificación más alta a las obras que contienen una determinada palabra.
Al final de su informe, Google recomienda que los equipos rojos tradicionales unan fuerzas con expertos en inteligencia artificial para crear simulaciones realistas. También se destaca que incluso considerando los resultados obtenidos por los expertos del equipo rojo puede ser una tarea difícil., y algunos problemas son extremadamente difíciles de resolver.
Vale la pena señalar que la compañía presentó un equipo rojo de IA apenas unas semanas después del anuncio del Marco seguro de IA (SAIF), diseñado para brindar seguridad en el desarrollo, uso y protección de sistemas de inteligencia artificial.
Como escribieron nuestros colegas: incluso los hackers novatos puede crear prototipos de malware utilizando IA.