Publicité
Clasificación de malware: Humanos vs máquinas
Clasificación de malware: Humanos vs máquinas
Clasificación de malware: Humanos vs máquinas
Prochain SlideShare
HackWebHackWeb
Chargement dans ... 3
1 sur 3
Publicité

Contenu connexe

Publicité

Clasificación de malware: Humanos vs máquinas

  1. marzo 2023, No 64 CyTe - Infosec Technology Newsletter En este artículo hablaremos del uso de al- goritmos de clasificación en machine lear- ning para detectar y clasificar distintos ti- pos de malware y de cómo se desempeñan al compararlos con el juicio de humanos expertos. Clasificación de malware: Humanos vs máqui- nas por José Darío Flórez Gómez Una de las últimas tendencias en ciberseguridad ha sido el uso creciente de algoritmos de inteligencia artificial (IA) para detectar y prevenir ataques cibernéticos. La IA ha de- mostrado ser efectiva en la detección de amenazas y en la prevención de ataques, gracias a su capacidad para analizar grandes cantidades de datos y patrones de comportamiento. Los algoritmos de IA también pueden detectar patrones de actividad maliciosa y alertar a los expertos en seguridad para que puedan tomar medidas preventivas antes de que ocurra un ataque. Entre estos modelos de clasificación, encontramos cier- to tipo de modelos que tienen como objetivo clasificar si un archivo o programa es o no malicioso. Para lograr esto, los al- goritmos discriminan las características fundamentales y las no tan importante para detectar si un archivo es malicioso o no; una gran cantidad de investigación se ha realizado sobre modelos de clasificación para malware con resultados muy prometedores como 2 y 3. Sin embargo, uno de los principales problemas que se han detectado en el momento de clasificar malware con respecto a otras aplicaciones como reconocimiento de lenguaje o de texto, es que mientras que el texto se mantiene relativamente constante a lo largo del tiempo y tiene una estructura simi- lar, el malware continua variando de manera significativa a lo largo del tiempo por lo que resulta interesante realizar la comparación entre el desempeño de los algoritmos de clasifi- cación de malware y expertos humanos. Comparación entre clasificación por humanos y modelos de clasificación En 1 se realizó un estudio para identificar la diferencia sobre las características en las que se basan los expertos hu- manos para clasificar un archivo que tenga el potencial de ser malware, contra las características que tienen mayor peso en modelos de clasificación. Esto con el objetivo de entender las diferencias en las decisiones que toman los expertos y las máquinas y poder comparar si las decisiones de los expertos o las decisiones de las máquinas son más acertadas. Para lograr esto, pidieron a 110 humanos que clasificaran distintos tipos de malware (72 novatos y 32 expertos) y lo compararon contra varios de los algoritmos en estado del ar- te de clasificación. Además, a cada uno de los integrantes les pidieron que clasificaran 20 archivos sospechosos basados en ciertos reportes y que especificaran que características habían utilizado para ofrecer su veredicto. Las características a considerar para detectar si un archi- vo es malware se dividen en estáticas y dinámicas. Entre las estáticas encontramos las siguientes: la firma de integridad del archivo (que en este caso se realizó con authenticode), los metadatos y el header del archivo, el análisis de los archivos que se encuentran en el ejecutable y las funciones que llama, los recursos que utiliza el programa, las subcadenas de strings que se encuentran dentro de los programas y los resultados de escaneos de diferentes herramientas de antivirus. Por otro lado, entre las características dinámicas se encuentran ca- CyTe - Infosec Technology Newsletter m cyte.co T +57(601)9192983 B Calle 24 No 7-43 Of 704. Edificio Siete 24. B info@cyte.co linkedin.com/in/josedarioflorez/ Pág 1
  2. racterísticas que consisten en el resultado de la ejecución de estos programas en entornos controlados; entre estas carac- terísticas tenemos los resúmenes del tráfico UDP, TCP, HTTP después de ejecutar el programa, los procesos que se crearon y que se modificaron y las operaciones que se realizaron den- tro del sistema de archivos. A partir de estas características los expertos y los algorit- mos de clasificación debían poder clasificar un archivo como malicioso o no malicioso. Entre el malware que se utilizó pa- ra este experimento se encuentran familias de malware como hermalite, kryptic, zbot, doomjuice entre otros que contienen spyware, troyanos, ransomware, gusanos, entre otros. Resultados Entre los resultados que se pudieron observar, los algo- ritmos de clasificación tuvieron un desempeño muy similar al de los expertos. Los expertos tuvieron un promedio de 16 correctas sobre 20, mientras que el modelo de clasificación ba- sado en Random Forest tuvo el mismo promedio de respuestas correctas (16/20) y el modelo basado en redes neuronales con- volucionales tuvo un promedio de 17 respuestas correctas. Sin embargo, se observó que los errores cometidos por el modelo de redes convolucionales fueron muy diferentes a los errores cometidos por los candidatos humanos. Por otro lado, los candidatos humanos clasifican los archi- vos utilizando menos de 1/3 de las características disponibles teniendo una clara preferencia por los atributos dinámicos. Esto es, ya que recientemente hay una tendencia a analizar los atributos de comportamiento en lugar de los atributos es- táticos, ya que los atributos dinámicos nos permiten detectar ejemplos de malware que aún no han sido documentados. Además de esto, los candidatos humanos pueden consolidar su decisión investigando más información que no está inclui- da en las características, cosa que los modelos de clasificación no pueden hacer. Profundizando, se reintentó clasificar los mismos archivos con los modelos de clasificación utilizando solo las características que habían escogido los candidatos humanos y el resultado fue mucho peor(4/8 con random fo- rest y 3/8 con redes neuronales) lo que quiere decir que los algoritmos de clasificación si necesitan todas las característi- cas para obtener una buena precisión, características que no siempre se tienen en un entorno real. Por último, es importante notar que los candidatos hu- manos cometieron más errores con Falsos Positivos, mientras que ninguno de los expertos cometió un error clasificando un archivo como un Falso Negativo. En el caso del malware, esto es más deseable, ya que es preferible rechazar un archivo que no tiene problemas a admitir un archivo que puede contener malware. Figura 1: Características priorizadas por los expertos y los al- goritmos de clasificación Conclusión Gracias a este estudio podemos evidenciar cuales son las características principales que priorizan los expertos para analizar malware contra las categorías que priorizan los al- goritmos de clasificación. Por otro lado, este estudio nos ayu- da a entender que estos modelos de inteligencia artificial no se deben tomar como un reemplazo a los conocimientos del usuario experto, sino que deben dar un apoyo para que una persona pueda tomar una decisión. Fuentes: [1] Humans vs. Machines in Malware Classification [2] Mansour Ahmadi, Dmitry Ulyanov, Stanislav Semenov, Mikhail Trofimov, and Giorgio Giacinto. Novel feature extrac- tion, selection and fusion for effective malware family classification. In Proceedings of the Sixth ACM Conference on Data CyTe - Infosec Technology Newsletter m cyte.co T +57(601)9192983 B Calle 24 No 7-43 Of 704. Edificio Siete 24. B info@cyte.co linkedin.com/in/josedarioflorez/ Pág 2
  3. and Application Security and Privacy, CODASPY ’16, page 183–194. Association for Computing Machinery, 2016. [3] Blake Anderson Anderson, Daniel Quist, Joshua Neil, Curtis Storlie, and Terran Lane. Graph-based malware detection using dynamic analysis. Journal in Computer Virology, 7:247–258, 2011. Consúltenos en B info@cyte.co acerca de las preguntas que pueda tener acerca de los planteamientos de este artículo y de los productos de criptografía tradicional y criptografía post-cuántica que hemos desarrollado. Para más artículos similares síganos en nuestro blog en https://www.cyte.co/blog La imagen inicial usada en esta nota fue tomada de tomada de https://www.optical.pe/blog/malware-futurista-impulsa do-por-ia/. CyTe - Infosec Technology Newsletter m cyte.co T +57(601)9192983 B Calle 24 No 7-43 Of 704. Edificio Siete 24. B info@cyte.co linkedin.com/in/josedarioflorez/ Pág 3
Publicité