Même si l’ensemble des systèmes d’information et leur usage ont été complétement transformés durant les trois dernières décennies, il n’en est rien du côté des solutions antivirus permettant de protéger les infrastructures IT. La détection par signature ou pattern matching continue d’être la principale méthode de lutte contre les malwares. Ce qui pouvait être considéré comme un moyen de protection efficace lorsque le nombre de nouveaux virus par année pouvait se compter sur les doigts d’une main, ne l’est plus maintenant que le nombre de nouvelles souches virales quotidiennes avoisine les 6 par seconde. Les ransomwares, au cœur de l’actualité, sont l’exemple parfait de ces nouvelles menaces très lucratives pour les cybercriminels. Il n’est donc plus envisageable de continuer ainsi !
Quels sont les avantages du machine learning ?
Le machine learning est une méthode mathématique d’apprentissage permettant de créer des modèles statistiques qui attribuent un degré de probabilité de ressemblance d’un élément avec ce qui a déjà été vu par le passé.
Sachant que la plupart des menaces en circulation utilisent une multitude d’éléments communs (code, packers, etc.), cela rend ces modèles statistiques extrêmement efficaces face à la détection de tout nouveau malware (même les zero-days). Dans sujet traité, le processus de machine learning peut se résumer comme suit:
- Une collecte massive de millions de fichiers de tous types (exécutables, pdf, doc, flash, etc.) et la plus variée possible pour que l’échantillon soit représentatif. Il est crucial que ces fichiers soient préalablement classifiés comme étant bons (goodware) ou mauvais (malware) afin que l’apprentissage se base sur des éléments fiables ;
- L’extraction de milliers d’attributs et de caractéristiques (l’ADN) de chaque fichier selon son type (exe, dll, pdf, doc, flash, etc.). Par exemple la taille d’un exécutable, le compilateur utilisé pour le créer, ou encore la signature numérique apposée sur ce dernier ;
- La création de modèles statistiques permettant de déterminer si un fichier est légitime ou si c’est un malware. C’est à ce niveau que se situe l’essentiel de l’intelligence artificielle et aussi ce qui détermine l’efficacité de la classification automatique ;
- L’exploitation des modèles statistiques dans des solutions anti-malware
Dans ce nouveau mode, l’effort se situe au niveau de la création du modèle statistique, qui doit être aussi fiable que possible. Ceci par opposition au modèle traditionnel dans lequel c’est l’humain qui va déterminer, la plupart du temps manuellement, si un fichier est bon ou mauvais et créer une signature si besoin. Les avantages des anti-malwares basés sur le machine learning:
- Fin des mises à jour quotidiennes et de l’analyse répétitive de fichiers (les MAJ du modèle mathématique n'ont lieu que quelques fois par année)
- Réduction des ressources de calcul utilisées pour l'analyse anti-malware
- Analyse de pré-exécution évitant le sacrifice d’un « patient 0 » (premier ordinateur infecté, avant de pouvoir créer une signature)
- Fonctionnement complet en mode hors-ligne (sans connexion à internet, permettant d’adresser les environnements critiques de type SCADA)
Il n’y a pas de solution miracle garantissant une sécurité à 100%. Cependant, les résultats obtenus par les solutions utilisant le machine learning sont aujourd’hui incontestablement plus efficaces que les solutions traditionnelles. On peut parler de révolution technologique dans le domaine du combat contre les malwares.
Les solutions basées sur le machine learning sont-elles toutes égales ?
T
outes les solutions n’ont pas la même efficacité car elles dépendent des moyens mis en œuvre par les sociétés pour développer leurs modèles statistiques. Les éditeurs d’antivirus traditionnels se mettent également au machine learning, mais il est important de comprendre qu’ils ne bénéficient pas de la même expérience dans ce domaine que les sociétés ayant démarré leurs recherches il y a plus de 5 ans déjà. On ne peut que se réjouir de voir les avancées technologiques qui auront lieu ces prochaines années grâce au machine learning dans les autres domaines de la sécurité informatique.
Nelson Reis
Expert en Cybersécurité & Sales Manager
(Source: ICT Journal)