Inteligencia artificial: técnicas de evasión y ciberdefensas

(Para Orazio Danilo Ruso)
19/07/21

Es contrario a la idea de racionalidad, velocidad, efectividad y eficiencia que hemos hecho de las computadoras, pero La realidad es que los sistemas de inteligencia artificial (IA) exhiben una característica muy similar al concepto análogo humano de ingenuità. Y, por lo tanto, son vulnerables al engaño y la manipulación.

Un poco como ocurre entre los humanos, donde a menudo somos testigos de estafas perpetradas aprovechando sutilmente la ignorancia o inocencia de la víctima, así también ocurre con la IA durante el proceso de aprendizaje automático, más conocido con el término de Aprendizaje automático (Machine learning & LLM) (ML): la capacidad de aprender el desempeño de tareas típicas de la inteligencia humana, como la clasificación de imágenes o el reconocimiento de voz.

Para remediar este problema, el llamado Aprendizaje automático adversario (AML), ese sector que estudia cómo hacer más segura la fase de aprendizaje automático para que el sistema sea más robusto frente a los intentos de engaño.

Para el profano, máquina de aprendizaje incluye un conjunto de técnicas basadas en enfoques estadísticos o técnicas de optimización matemática, que permiten reconocer patrones y similitudes entre datos: por ejemplo, en los enfoques de Aprendizaje supervisado, el aprendizaje informático es supervisado por un experto que le enseña a la máquina qué decisiones tomar o qué acciones realizar en presencia de un determinado evento; en los de Aprendizaje sin supervisiónen cambio, se le explica a la máquina cómo reconocer elementos comunes o de diversidad entre la información, pero luego se deja que trabaje solo con los datos; o, finalmente, en el Aprendizaje reforzado se les enseña a reconocer la bondad de las decisiones tomadas al haber recibido retroalimentación positiva, asegurando así el aprendizaje reforzado.

Los motivos de elección para un ciberataque a las inteligencias artificiales son básicamente tres. Primero de todo el dominio físico representado por sensores y actuadores que permiten el diálogo con el medio ambiente, esos que para nosotros los humanos son los cinco sentidos, ya que pueden dañarse para crear disfunciones. Piense, por ejemplo, en el hecho de que sabotear un micrófono perturba el sistema inteligente al escuchar un comando de voz; o que, saboteando un relé, se evita que una inteligencia de control industrial apague el horno de una fundición cuando se alcanza una temperatura crítica. Luego, hay ataques que explotan la debilidades de los mecanismos de representación digital de datos, por ejemplo, reemplazando la información correcta con datos contaminados. Y finalmente están los asaltos a algoritmos de aprendizaje, para inyectar en los ordenadores - por ejemplo - un método de estudio manipulado con fines ocultos o, por otro lado, para comprender cómo aprende: después de todo, es precisamente a partir del conocimiento de "cómo" la máquina se instruye a sí misma, que puede boicotear su aprendizaje o predecir su comportamiento.

El ataque puede tener lugar de acuerdo con diferentes técnicas: desde métodos de entrenamiento maliciosos hasta operaciones de interacción evasivas o procedimientos de exploración clandestinos.

La primera categoría incluye todas esas tácticas de envenenamiento con lo que, directa o indirectamente, se contaminan los conocimientos adquiridos o la lógica de aprendizaje. En estos casos, los piratas informáticos deben necesariamente tener acceso clandestino a la inteligencia artificial para falsificar los datos almacenados en la memoria o para alterar el algoritmo de aprendizaje. Las consecuencias de estos ataques pueden ser muy graves y tener un impacto tangible en el mundo físico, como los casos de entrenamiento malévolo descritos recientemente por los académicos de la Universidad de Cagliari en un estudio sobre coches autónomos en ciudades inteligentes: estos coches podría sin un conductor, no se detuvo en una intersección si, después de un ataque por Manipulación de etiquetas de los datos relativos al reconocimiento de la señal de “stop”, se indujo a la inteligencia a considerar la noción contraria a la de detener el vehículo.

En las técnicas de exploración sutil, en cambio, se realizan interacciones con inteligencia artificial encaminadas a comprender la lógica de la asimilación cognitiva. Un ejemplo típico es elAtaque de Oracle, donde se envía una serie razonada de preguntas al software de aprendizaje y, al examinar el patrón de las respuestas relativas, se estructura un modelo para predecir el comportamiento futuro. Las tácticas basado en gradiente en cambio, son claros ejemplos de la elusiva técnica de interacción con la que se involucra la inteligencia, por ejemplo, con señales visuales que presentan perturbaciones no detectables por la percepción humana, pero suficientes para causar resultados paradójicos en el algoritmo de aprendizaje que previenen o perturban - precisamente evadir - la capacidad para categorizar imágenes. En otras palabras, estas técnicas tienen como objetivo identificar la menor cantidad de cambios necesarios para construir una imagen que confunda las capacidades de toma de decisiones del sistema.

La investigación ya ha elaborado estrategias de defensa adecuadas. Por ejemplo, para contrarrestar el entrenamiento oculto y malicioso, se han desarrollado algoritmos de encriptación para particiones de memoria que contienen las nociones aprendidas o la lógica de aprendizaje; Para defenderse de interacciones elusivas, se han diseñado contramedidas que tienden a reducir la sensibilidad a las perturbaciones, una especie de anestésico digital que reduce la susceptibilidad a los artefactos engañosos, más conocido en entornos de ciberseguridad con el término Máscara de degradado - o se inyectan ejemplos de señales perturbadoras en la base de datos de entrenamiento, para que se reconozcan como maliciosas y, por lo tanto, se descarten (la llamada técnica de Entrenamiento Adversario); y finalmente para proteger la inteligencia artificial de las tácticas de exploración tortuosa, se le enseña a detectar las acciones de monitoreo, prueba y control de los oponentes en la red.

En resumen, la investigación está dando enormes pasos para hacer que los sistemas inteligentes sean más seguros y resilientes, manteniendo la dependencia del control humano: este último es un tema esencial, especialmente para aquellas inteligencias artificiales con un impacto crítico, como las subordinadas a los materiales de armamento y a los elementos de doble uso utilizados para desarrollar i Sistemas de armas autónomos letales (LAWS), sistemas de armas inteligentes, por así decirlo, cuyo uso y efectos deben ser siempre y en todo caso atribuibles a responsabilidades humanas claras y determinables, tanto estatales como individuales.

Para obtener más información:

https://smartcities.ieee.org/newsletter/june-2021/explainable-machine-le...

https://gradientscience.org/intro_adversarial/

https://nvlpubs.nist.gov/nistpubs/ir/2019/NIST.IR.8269-draft.pdf