Análise Híbrida de Ransomware para Sistema Operacional Windows

Gusmão Neto, Augusto Parisot de

Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB)

Please use this identifier to cite or link to this item: https://www.repositorio.mar.mil.br/handle/ripcmb/846311

Title:	Análise Híbrida de Ransomware para Sistema Operacional Windows
Authors:	Gusmão Neto, Augusto Parisot de
metadata.dc.contributor.advisor:	Machado, Raphael Carlos Santos
Keywords:	Ransomware Cuckoo Sandbox Análise dinâmica
DGPM knowledge areas:	Tecnologia da Informação
Issue Date:	2023
Publisher:	Universidade Federal Fluminense (UFF)
Description:	O crescimento do acesso a dispositivos computacionais aumentou sobremaneira desde o início dos anos 2000. A miniaturização de componentes eletrônicos, os avanços na tecnologia de baterias e telas barateou esses dispositivos, permitindo que uma mesma pessoa possua vários desses em uso (tablets, telefones, computadores e dispositivos domésticos inteligentes). Esse grande crescimento não é necessariamente acompanhado de aumento de mentalidade de segurança e ainda, a massa de dados gerada pela interação com esses dispositivos gera interesse de grupos com intenções maliciosas de lucro e todo tipo de software malicioso é criado diariamente para subverter e acessar esses dispositivos. Dentre esses muitos softwares maliciosos, temos os ransomwares: armas capazes de cifrar todos os arquivos da vítima para que esta se veja obrigada a pagar um resgate sob o risco de não conseguir recuperar seus dados. Neste trabalho, realizamos um conjunto de experimentos para avaliar dinamicamente técnicas de Aprendizado de Máquina para detecção de malware e sua classificação em suas respectivas famílias. Para executar os experimentos, coletamos um total de 989 amostras de ransomwares das oito famílias mais proeminentes em 2021 e 2022, baixadas de repositórios públicos : Conti, Ryuk, Revil, Egregor, LockBit, Clop, Netwalker e MountLocker além de 90 amostras de software benignos. Primeiro, montamos um ambiente controlado/isolado para registrar o comportamento do ransomware para avaliação de técnicas de Aprendizado de Máquina em termos de métricas de desempenho comumente usadas na literatura (Accuracy, Precision, Recall e Fi-Mesure). Para executar as análises utilizamos o Cuckoo Sandbox. Foram criadas ferramentas na linguagem Python para automatização de tarefas como busca das amostras nos repositórios públicos e mineração de dados para composição dos conjuntos de dados de detecção. A partir dos relatórios de execução salvos na forma de relatórios JSON, utilizamos técnicas de mineração de texto e de chamadas de API aplicadas em ferramentas que construímos especialmente para extrairmos um conjunto promissor de dados que representam o comportamento de uma amostra de ransomware e submetemos os conjuntos de dados à classificação utilizando seis algoritmos de Aprendizado de Máquina: Decision Tree, Random Forest, K-Nearest Neighbors, Naive Bayes, Support Vector Machines e Multilayer Perceptron. A principal motivação para elaboração dos experimentos é que diferentes técnicas foram projetadas para otimizar diferentes critérios, que se comportam de maneira diferente, mesmo em condições semelhantes. Os resultados experimentais mostram que o métodos propostos podem alcançar um bom desempenho de classificação ao usar o algoritmos Random Forest e Decision Tree. Os melhores resultados de classificação foram alcançados com esses classificadores em três situações: a primeira e a segunda, utilizando-se o conjunto de dados minerados ao utilizar a técnica de mineração de texto TF-IDF nas seções Signatures e Memory dos relatórios de análise e a terceira, no conjunto de dados minerado a partir da contagem de chamadas de API. Além da classificação, revelamos as diretrizes utilizadas para proteção do ambiente de análise das ferramentas anti-VM, tanto para a configuração do Sistema Operacional quanto para a conectividade de rede utilizada.
Abstract:	The growth of access to computing devices has greatly increased since the early 2000s. The miniaturization of electronic components, advances in battery technology and screens have made these devices more affordable, allowing individuals to own multiple devices (such as tablets, phones, computers, and smart home devices). However, this rapid growth does not necessarily come with an increased security mindset. The massive amount of data generated by interacting with these devices has attracted the interest of groups with malicious intent, and all sorts of malicious software are created daily to exploit and gain access to these devices. Among these malicious software, ransomware stands out as a weapon capable of encrypting all of a victim’s files, forcing them to pay a ransom in order to regain access to their data. In this work, we conducted a series of experiments to dynamically evaluate Machine Learning techniques for malware detection and classification into their respective families. To perform the experiments, we collected a total of 989 samples of ransomware from the eight most prominent families in 2021 and 2022, downloaded from public repositories: Conti, Ryuk, Revil, Egregor, LockBit, Clop, Netwalker, and MountLocker, in addition to 90 samples of benign software. First, we set up a controlled/isolated environment to record the behavior of the ransomware for evaluating Machine Learning techniques in terms of commonly used performance metrics such as Accuracy, Precision, Recall, and F1-Measure. We used the Cuckoo Sandbox to execute the analyses. We developed Python tools to automate tasks such as searching for samples in public repositories and data mining to compose the detection datasets. From the execution reports saved in the form of JSON reports, we employed text mining and API call techniques applied in tools we specifically built to extract a promising set of data representing the behavior of a ransomware sample. We then subjected the datasets to classification using six Machine Learning algorithms: Decision Tree, Random Forest, K-Nearest Neighbors, Naive Bayes, Support Vector Machines, and Multilayer Perceptron. The main motivation for conducting the experiments is that different techniques were designed to optimize different criteria, which behave differently even under similar conditions. The experimental results show that the proposed methods can achieve good classification performance when using the Random Forest and Decision Tree algorithms. The best classification results were achieved with these classifiers in three situations: the first and second using the mined dataset by applying the TF-IDF text mining technique to the Signatures and Memory sections of the analysis reports, and the third using the mined dataset based on the API call count. In addition to classification, we revealed the guidelines used to protect the analysis environment from anti-VM tools, both for configuring the operating system and network connectivity used.
Access:	Open access
URI:	https://www.repositorio.mar.mil.br/handle/ripcmb/846311
Type:	Master thesis
Appears in Collections:	Tecnologia da Informação: Coleção de Dissertações

Files in This Item:

File	Description	Size	Format
Dissertacao-Parisot.pdf		3,21 MB	Adobe PDF	View/Open

Show full item record