Steganalysis y Machine Learning: una respuesta europea

(Para Igino Corona, Matteo Mauri)
05/05/20

La esteganografía es un mecanismo secreto para codificar información a través de cualquier medio de transmisión. Su uso se conoce desde la antigua Grecia aunque entró oficialmente en los glosarios a finales del siglo XV.

Tanto la codificación como el medio de transmisión son secretos, o conocido solo por las partes que tienen la intención de comunicarse de una manera oculta. la esteganografía Por lo tanto, se presenta como una herramienta ideal para la creación de canales de comunicación secretos que se pueden utilizar en escenarios sofisticados de espionaje, delitos informáticos y violaciones de la privacidad de los sujetos públicos y privados.

La esteganografía difiere de criptografía, donde la codificación de la información y los medios de transmisión son generalmente conocidos (piense, por ejemplo, en el protocolo HTTPS utilizado por el sitio que aloja este artículo). En este caso, la privacidad de la información está garantizada por el mecanismo de codificación que lo hace (extremadamente) difícil1 enviar / extraer información sin el conocimiento de información adicional, conocida como claves de cifrado / descifrado. Estas claves son conocidas solo por las partes autorizadas para comunicarse (por ejemplo, su navegador y nuestro servidor web).

El proceso de analizar el esteganografía también se conoce como esteganálisis. En primera instancia este proceso tiene como objetivo detectar la presencia de esteganografía en uno o más medios de transmisión, y solo en el segundo caso se puede proceder a la extracción del mensaje oculto.

La eficacia de las técnicas de esteganálisis depende estrictamente del grado de sofisticación y "personalización" de las técnicas esteganográficas utilizadas por un atacante.

El caso más fácil de tratar es aquel en el que esteganografía se lleva a cabo utilizando herramientas "estantes". Este caso refleja a un oponente con un nivel de conocimiento bajo (o cero) esteganografía, y que simplemente utiliza herramientas implementadas y puestas a disposición por otros: en seguridad informática, a ese oponente a menudo se le llama script para niños.

En el campo digital hay muchos programas que implementan esteganografía y la mayoría de ellos combinan técnicas criptográficas. La tabla muestra ejemplos de software de código abierto que emplean ambas técnicas.

Por supuesto, los instrumentos de "estantería" generalmente también están disponibles para aquellos que pretenden realizar esteganálisis.

Al implementar el esteganografía, cada software generalmente deja (más o menos implícitamente) artefactos característicos en los archivos manipulados, que pueden estudiarse para construir firmas (toma de huellas dactilares). Estas firmas se pueden usar en la fase de esteganálisis para identificar no solo la presencia de esteganografía, pero la herramienta específica utilizada, así como la extracción de contenido oculto [7,8]. La mayoría de los sistemas de esteganálisis utilizan este mecanismo [9].

Es fácil ver que estamos en un círculo vicioso ("carrera armamentista") que proporciona un aumento en la sofisticación de las técnicas y herramientas utilizadas por aquellos que pretenden usar esteganografía, y por aquellos que pretenden desenmascararlo y detectar su contenido oculto. Entre los dos perfiles, la primera figura generalmente tiene una ventaja, ya que puede cambiar en cualquier momento los medios de transmisión y / o codificación de la información para escapar a la detección.

Por ejemplo, un oponente puede cambiar la implementación del software esteganografía para escapar del toma de huellas dactilares, o incluso implementar técnicas esteganográficas totalmente nuevas. Por supuesto, esto tiene un costo: ya no estamos en presencia de script para niños - pero este costo puede estar bien equilibrado por las razones (por ejemplo, ventajas estratégicas / económicas de una organización de ciberespionaje).

Esta situación es bien conocida en el campo de la seguridad cibernética: generalmente es mucho más fácil atacar sistemas informáticos que defenderlos. Las instancias de malware se manifiestan en variantes continuas "polimórficas" precisamente para evadir los mecanismos de detección establecidos para la protección de los sistemas (p. Ej. antimalware).

En este escenario, el máquina de aprendizaje (el aprendizaje automático a partir de ejemplos) puede representar un arma sofisticada al servicio de aquellos que pretenden desenmascarar el esteganografía. A través de técnicas de máquina de aprendizaje de hecho, es posible desarrollar automáticamente un modelo de esteganálisis a partir de un conjunto de muestras de archivos con y / o sin esteganografía.

La mayoría de los enfoques propuestos utilizan el llamado aprendizaje supervisado de dos clases (esteganografía presente / ausente), lo que requiere el uso de muestras con y sin esteganografía, para determinar automáticamente las diferencias estadísticas. Este método es particularmente útil para detectar la presencia de variantes conocidas de técnicas esteganográficas (por ejemplo, implementadas en un nuevo software) para las que no hay firmas.

Ejemplos de varios algoritmos basados ​​en aprendizaje supervisado para la detección de esteganografía en imágenes se han implementado en una biblioteca de código abierto llamada Aletheia [10].
Las firmas y el aprendizaje supervisado pueden proporcionar una buena precisión a la hora de detectar técnicas esteganografía conocidas y sus variantes, pero están sujetas a evasión en presencia de técnicas totalmente nuevas, por ejemplo, con un perfil estadístico significativamente diferente al observado en las muestras utilizadas para el entrenamiento.

Por esta razón, otros estudios [11,12, XNUMX] han propuesto en cambio el uso de técnicas de aprendizaje basadas en anomalías no supervisadas. Este enfoque implica solo el uso de muestras en las que el esteganografía está ausente, para la construcción automática de un perfil normal. La presencia de anomalías (“valores atípicos”), o desviaciones de este perfil, puede por tanto utilizarse para detectar técnicas esteganográficas totalmente desconocidas. Este enfoque, sin embargo, debe centrarse en aspectos (características) cuyas desviaciones de la norma tienen un alto índice de manipulación para ofrecer una buena precisión. Piense, por ejemplo, en comparar el tamaño especificado en el encabezado de un archivo con el tamaño real.

Dado que cada técnica de esteganálisis tiene sus méritos, una combinación de ellas suele ser útil: firmas, aprendizaje supervisado y no supervisado [12]. De ello es consciente la Comisión Europea, que financió un proyecto estratégico para tal fin, denominado SIMARGL - Métodos inteligentes seguros para el reconocimiento avanzado de malware, stegomalware y métodos de ocultación de información (Acuerdo de subvención No. 833042 - www.simargl.eu).

El proyecto, con un presupuesto total de 6 millones de euros, tiene como objetivo la creación de sistemas avanzados de esteganálisis aplicados a la detección de (stego) malware, software malicioso cada vez más utilizado por el ciberdelito y los estados nacionales en acciones de espionaje. En este proyecto, actores internacionales del calibre de Airbus, Siveco, Thales, Orange Cert, FernUniversität (coordinador del proyecto), se unen a tres "italianos" en stegomalware contrastante: Pluribus One, una spin-off de la Universidad de Cagliari, participa como proveedor y desarrollador de software; CNR, Unidad de Génova, implementa algoritmos de detección Energy-Aware basados ​​en inteligencia artificial; Numera, empresa que opera en el sector de las TIC con sede en Sassari, someterá algunos de sus sistemas destinados al mercado crediticio al “escrutinio” de SIMARGL.

En total, hay 14 socios internacionales (Netzfactor, ITTI, Universidad de Varsovia, IIR, RoEduNet, Stichting CUIng Foundation también participan en el consorcio) de 7 países que traerán inteligencia artificial al campo, productos sofisticados ya disponibles y máquina de aprendizaje en el proceso de mejora, para proponer una solución integrada capaz de lidiar con diferentes escenarios y actuar en diferentes niveles: desde monitorear el tráfico de la red hasta detectar bits borrosos dentro de las imágenes.

El desafío del proyecto SIMARGL acaba de comenzar y proporcionará respuestas concretas al problema de stegomalware en los próximos dos años: el proyecto finalizará en abril de 2022.

Es importante destacar que el máquina de aprendizaje (y más en general la inteligencia artificial) es una tecnología neutra (como muchas otras tecnologías). En concreto, es de doble uso [13] y no pertenece al dominio de las buenas personas. Al principio, el máquina de aprendizaje También se puede utilizar para desarrollar técnicas esteganográficas más sofisticadas, polimórficas y basadas en datos.

Preparémonos, porque este escenario podría representar el futuro de las amenazas cibernéticas (y tal vez una parte del futuro ya esté presente).

1. El grado de dificultad generalmente identifica la robustez de la codificación.

referencias: 
[ 1 ] https://www.softpedia.com/get/Security/Encrypting/Xiao-Steganography.shtml
[ 2 ] https://archive.codeplex.com/?p=imagesteganography
[ 3 ] http://steghide.sourceforge.net/download.php
[ 4 ] https://www.ssuitesoft.com/ssuitepicselsecurity.htm
[ 5 ] https://www.gohacking.com/hide-data-in-image-audio-video-files-steganogr...
[ 6 ] https://embeddedsw.net/OpenPuff_Steganography_Home.html
[7] Pengjie Cao, Xiaolei He, Xianfeng Zhao, Jimin Zhang, Enfoques para obtener huellas digitales de herramientas de esteganografía que incorporan mensajes en posiciones fijas, Forensic Science International: Reports, Volumen 1, 2019, 100019, ISSN 2665-9107, https://doi.org/10.1016/j.fsir.2019.100019.
[8] Chen Gong, Jinghong Zhang, Yunzhao Yang, Xiaowei Yi, Xianfeng Zhao, Yi Ma, Detección de huellas digitales de software de audio esteganografía, Forensic Science International: Reports, Volumen 2, 2020, 100075, ISSN 2665-9107, https://doi.org/10.1016/j.fsir.2020.100075
[ 9 ] https://www.garykessler.net/library/fsc_stego.html
[ 10 ] https://github.com/daniellerch/aletheia
[11] Jacob T. Jackson, Gregg H. Gunsch, Roger L. Claypoole, Jr., Gary B. Lamont. Detección ciega de esteganografía utilizando un sistema inmunológico computacional: un trabajo en progreso. International Journal of Digital Evidence, invierno de 2003, número 1, volumen 4
[12] Brent T. McBride, Gilbert L. Peterson, Steven C. Gustafson. Un nuevo método ciego para detectar esteganografía novedosa, Investigación digital, Volumen 2, Número 1, 2005, páginas 50-70, ISSN 1742-2876,
https://doi.org/10.1016/j.diin.2005.01.003
[ 13 ] https://www.pluribus-one.it/company/blog/81-artificial-intelligence/76-g...