Steganalysis y Machine Learning: una respuesta europea

(Para Igino Corona, Matteo Mauri)
05/05/20

La esteganografía Es un mecanismo secreto para codificar información a través de cualquier medio de transmisión. Su uso se conoce desde la antigua Grecia, aunque ingresó oficialmente en los glosarios a fines del siglo XV.

Tanto la codificación como el medio de transmisión son secretos, o conocido solo por las partes que tienen la intención de comunicarse de una manera oculta. la esteganografía Por lo tanto, se presenta como una herramienta ideal para la creación de canales de comunicación secretos que se pueden utilizar en escenarios sofisticados de espionaje, delitos informáticos y violaciones de la privacidad de los sujetos públicos y privados.

La esteganografía difiere de criptografía, en el que generalmente se conoce la codificación de la información y los medios de transmisión (pensemos, por ejemplo, en el protocolo HTTPS utilizado por el sitio que aloja este artículo). En este caso, la privacidad de la información está garantizada por el mecanismo de codificación que lo hace (extremadamente) difícil1 Enviar / extraer información sin el conocimiento de información adicional, conocida como claves de cifrado / descifrado. Estas claves son conocidas solo por las partes autorizadas para comunicarse (por ejemplo, su navegador y nuestro servidor web).

El proceso de analizar el esteganografía También se conoce como esteganálisis. En primera instancia, este proceso tiene como objetivo detectar la presencia de esteganografía en uno o más medios de transmisión, y solo en una segunda instancia puede proceder a extraer el mensaje oculto.

La efectividad de las técnicas de esteganálisis depende estrictamente del grado de sofisticación y "personalización" de las técnicas esteganográficas utilizadas por un atacante.

El caso más fácil de tratar es aquel en el que esteganografía se lleva a cabo utilizando herramientas "estantes". Este caso refleja a un oponente con un nivel de conocimiento bajo (o cero) esteganografía, y que simplemente utiliza herramientas implementadas y puestas a disposición por otros: en seguridad informática, a ese oponente a menudo se le llama script para niños.

En el campo digital hay muchos programas que implementan esteganografía y la mayoría de estos combinan técnicas criptográficas. La tabla muestra ejemplos de software de código abierto que emplea ambas técnicas.

Por supuesto, los instrumentos de "estantería" generalmente también están disponibles para aquellos que pretenden realizar esteganálisis.

Al implementar el esteganografía, cada software generalmente deja (más o menos implícitamente) artefactos característicos en los archivos manipulados, que pueden estudiarse para crear firmas (toma de huellas dactilares). Estas firmas se pueden usar en la fase de esteganálisis para identificar no solo la presencia de esteganografía, pero la herramienta específica utilizada, así como la extracción de contenido oculto [7,8]. La mayoría de los sistemas de esteganálisis utilizan este mecanismo [9].

Es fácil ver que estamos en un círculo vicioso ("carrera armamentista") que proporciona un aumento en la sofisticación de las técnicas y herramientas utilizadas por aquellos que pretenden usar esteganografía, tanto por aquellos que tienen la intención de desenmascararlo y revelar sus contenidos ocultos. Entre los dos perfiles, en general, la primera figura tiene una ventaja, ya que en cualquier momento podrá cambiar los medios de transmisión y / o codificación de la información para escapar de la detección.

Por ejemplo, un oponente puede cambiar la implementación del software esteganografía para escapar del toma de huellas dactilares, o incluso implementar técnicas esteganográficas totalmente nuevas. Por supuesto, esto tiene un costo: ya no estamos en presencia de script para niños - pero este costo puede estar bien equilibrado por las razones (por ejemplo, ventajas estratégicas / económicas de una organización de ciberespionaje).

Esta situación es bien conocida en el campo de la seguridad cibernética: generalmente es mucho más fácil atacar sistemas informáticos que defenderlos. Las instancias de malware se manifiestan en variantes "polimórficas" continuas precisamente para evadir los mecanismos de detección establecidos para la protección de los sistemas (por ejemplo, firmas de antimalware).

En este escenario, el máquina de aprendizaje (el aprendizaje automático a partir de ejemplos) puede representar un arma sofisticada al servicio de aquellos que pretenden desenmascarar el esteganografía. A través de técnicas de máquina de aprendizaje de hecho, es posible desarrollar automáticamente un modelo de esteganálisis a partir de un conjunto de muestras de archivos con y / o sin esteganografía.

La mayoría de los enfoques propuestos utilizan el llamado aprendizaje supervisado de dos clases (esteganografía presente / ausente), que implica el uso de muestras con y sin esteganografía, para determinar automáticamente las diferencias estadísticas. Este método es particularmente útil para detectar la presencia de variantes conocidas de técnicas esteganográficas (por ejemplo, implementadas en un nuevo software) para las que no hay firmas.

Ejemplos de varios algoritmos basados ​​en aprendizaje supervisado para la detección de esteganografía en imágenes se han implementado en una biblioteca de código abierto llamada Aletheia [10].
Las firmas y el aprendizaje supervisado pueden proporcionar una buena precisión a la hora de detectar técnicas esteganografía conocidas y sus variantes, pero están sujetas a evasión en presencia de técnicas totalmente nuevas, por ejemplo, con un perfil estadístico significativamente diferente al observado en las muestras utilizadas para el entrenamiento.

Por esta razón, otros estudios [11,12, XNUMX] han propuesto el uso de técnicas de aprendizaje no supervisadas basadas en anomalías. Este enfoque implica solo el uso de muestras en las que esteganografía está ausente, para la construcción automática de un perfil normal. Por lo tanto, la presencia de anomalías ("valores atípicos"), o desviaciones de este perfil, se puede utilizar para detectar técnicas esteganográficas totalmente desconocidas. Este enfoque, sin embargo, debe enfocarse en aspectos cuyas características se desvían de la norma son un alto índice de manipulación para ofrecer una buena precisión. Considere, por ejemplo, la comparación entre el tamaño especificado en el encabezado de un archivo, en comparación con el tamaño real.

Dado que cada técnica de esteganálisis tiene sus ventajas, una combinación de ellas suele ser útil: firmas, aprendizaje supervisado y no supervisado [12]. La Comisión Europea es muy consciente de esto y ha financiado un proyecto estratégico llamado SIMARGL para este propósito: Métodos inteligentes seguros para el reconocimiento avanzado de malware, stegomalware y métodos de ocultación de información (Acuerdo de subvención No. 833042 - www.simargl.eu).

El proyecto, con un presupuesto total de 6 millones de euros, tiene como objetivo crear sistemas avanzados de esteganálisis aplicados a la detección de malware (stego), software malicioso cada vez más utilizado por el cibercrimen y los estados nacionales en acciones de espionaje. En este proyecto, los actores internacionales del calibre de Airbus, Siveco, Thales, Orange Cert, FernUniversität (coordinador del proyecto), trabajan junto a tres "italianos" en contraste con el stegomalware: Pluribus One, spin-off de la Universidad de Cagliari, participa como proveedor y desarrollador de software; CNR, Unidad de Génova, implementa algoritmos de detección con reconocimiento de energía basados ​​en inteligencia artificial; Numera, una empresa que opera en el sector de las TIC con sede en Sassari, presentará algunos de sus sistemas destinados al mercado de crédito a la "evaluación" de SIMARGL.

En total, 14 socios internacionales (Netzfactor, ITTI, Universidad de Varsovia, IIR, RoEduNet, Stichting CUIng Foundation también participan en el consorcio) de 7 países que desplegarán inteligencia artificial, productos sofisticados ya disponibles y algoritmos de máquina de aprendizaje en el proceso de mejora, para proponer una solución integrada capaz de lidiar con diferentes escenarios y actuar en diferentes niveles: desde monitorear el tráfico de la red hasta detectar bits borrosos dentro de las imágenes.

El desafío del proyecto SIMARGL acaba de comenzar y proporcionará respuestas concretas al problema de stegomalware en los próximos dos años: el proyecto finalizará en abril de 2022.

Es importante destacar que el máquina de aprendizaje (y, en general, la inteligencia artificial) es una tecnología neutral (como muchas otras tecnologías). Específicamente, es de doble uso [13] y no pertenece al dominio del bien. Al principio, el máquina de aprendizaje También se puede utilizar para desarrollar técnicas esteganográficas más sofisticadas, polimórficas y basadas en datos.

Preparémonos, porque este escenario podría representar el futuro de las amenazas cibernéticas (y tal vez una parte del futuro ya está presente).

1. El grado de dificultad generalmente identifica la robustez de la codificación.

referencias:
[] https://www.softpedia.com/get/Security/Encrypting/Xiao-Steganography.shtml
[] https://archive.codeplex.com/?p=imagesteganography
[] http://steghide.sourceforge.net/download.php
[] https://www.ssuitesoft.com/ssuitepicselsecurity.htm
[] https://www.gohacking.com/hide-data-in-image-audio-video-files-steganogr...
[] https://embeddedsw.net/OpenPuff_Steganography_Home.html
[7] Pengjie Cao, Xiaolei He, Xianfeng Zhao, Jimin Zhang, Enfoques para obtener huellas digitales de herramientas de esteganografía que incorporan mensajes en posiciones fijas, Forensic Science International: Reports, Volumen 1, 2019, 100019, ISSN 2665-9107, https://doi.org/10.1016/j.fsir.2019.100019.
[8] Chen Gong, Jinghong Zhang, Yunzhao Yang, Xiaowei Yi, Xianfeng Zhao, Yi Ma, Detección de huellas digitales de software de audio esteganografía, Forensic Science International: Reports, Volumen 2, 2020, 100075, ISSN 2665-9107, https://doi.org/10.1016/j.fsir.2020.100075
[] https://www.garykessler.net/library/fsc_stego.html
[] https://github.com/daniellerch/aletheia
[11] Jacob T. Jackson, Gregg H. Gunsch, Roger L. Claypoole, Jr., Gary B. Lamont. Detección de esteganografía a ciegas utilizando un sistema inmune computacional: un trabajo en progreso. International Journal of Digital Evidence, invierno de 2003, número 1, volumen 4
[12] Brent T. McBride, Gilbert L. Peterson, Steven C. Gustafson. Un nuevo método ciego para detectar esteganografía novedosa, Investigación digital, Volumen 2, Número 1, 2005, páginas 50-70, ISSN 1742-2876,
https://doi.org/10.1016/j.diin.2005.01.003
[] https://www.pluribus-one.it/company/blog/81-artificial-intelligence/76-g...