Skip to main content

HDR de Maciej Korczynski

Vendredi 17 décembre 2021

Traffic Measurements and Data Analysis for DNS Security

Résumé :

Le protocole DNS (Domain Name System) associe des noms de domaine faciles à mémoriser à leurs étiquettes numériques compréhensibles par les machines (adresses IP), attribuées à chaque appareil connecté à Internet. Le DNS est le protocole le plus critique et le plus méconnu, en l'absence duquel les utilisateurs d'Internet devraient mémoriser les adresses IP de toutes les applications, y compris les sites bancaires, les courriers électroniques ou les médias sociaux.

Aux premiers jours de l'Internet, comme l'a souligné le Dr. Paul Vixie, les scientifiques ont investi tous leurs efforts pour faciliter les communications, car ils pensaient que "quelque chose comme l'Internet pourrait devenir le système nerveux numérique collectif de l'humanité." Lorsque les principes et les spécifications du DNS ont été conçus il y a près de quarante ans, les considérations de sécurité ne posaient pas de problème, car l'Internet était un réseau d'utilisateurs de confiance. Danny Hillis, un inventeur et scientifique américain, lors de l'enregistrement du troisième nom de domaine sur Internet, a pensé qu'il devrait en enregistrer quelques autres au cas où, mais il a jugé que "ce ne serait pas bien." Cet exemple illustre la confiance au sein de la communauté, confiance qui a également été intégrée dans les protocoles de l'Internet, y compris le DNS.

L'Internet d'aujourd'hui n'est pas seulement "le système nerveux numérique collectif de l'humanité," mais aussi un lieu où les cybercriminels exploitent les vulnérabilités techniques et les faiblesses humaines à des fins lucratives. Les spammeurs, les phishers, les créateurs de malwares, les spéculateurs ou les groupes organisés de cybercriminalité abusent largement du protocole DNS et des noms de domaine.  Le DNS est devenu aussi essentiel pour leur fonctionnement que pour celui des utilisateurs ordinaires.

La prévention de l'enregistrement de domaines malveillants est un défi car elle nécessite d'évaluer les intentions, possiblement mauvaises des propriétaires de domaines. La suppression rapide des noms de domaine directement impliqués dans la cybercriminalité nécessite de recueillir des preuves ou de vérifier les preuves fournies par des notificateurs de confiance de l'activité malveillante. Les fournisseurs de DNS et d'hébergement n'ont pas les incitations financières nécessaires pour lutter efficacement contre les abus de noms de domaine.

L'infrastructure DNS elle-même reste vulnérable aux attaques en raison de présomptions pas assez restrictives concernant les cybercriminels et du modèle de menaces lors de la conception des protocoles au début de l'Internet. Les vulnérabilités nouvellement découvertes qui sont inhérentes à la composition du DNS conduisent au développement et au déploiement de nouvelles extensions du protocole DNS. Cependant, leur adoption a été très lente. Il s'agit moins d'un problème technologique que d'un problème d'incitation économique, à savoir si la mise en œuvre de ces technologies de sécurité peut être rentable pour les opérateurs qui les déploient.

La nature et l'architecture distribuées du protocole DNS permettent également de renforcer la sécurité et la stabilité de l'Internet. Un exemple où le DNS joue un rôle important est celui des protocoles de sécurité du courrier électronique : Sender Policy Framework (SPF) et Domain-based Message Authentication, Reporting, and Conformance (DMARC). Alors que le protocole SMTP (Simple Mail Transfer Protocol), conçu pour la distribution du courrier électronique, est intrinsèquement non sécurisé, SPF et DMARC, en fournissant un ensemble de règles stockées dans les enregistrements 'TXT' des ressources DNS, peuvent éliminer le problème de l'usurpation de domaine.

Cependant, les cybercriminels abusent également de l'architecture du protocole DNS et de ses caractéristiques pour renforcer la résilience des infrastructures malveillantes, amplifier les attaques et éviter la détection. Il suffit de mentionner les domaines générés automatiquement (AGD) combinés aux réseaux à flux rapide ou les attaques par déni de service réflectif distribué (DRDoS) qui exploitent les résolveurs DNS ouverts.

Motivée par les problèmes de sécurité DNS et d'abus de noms de domaine, ce mémoire a été consacré à la sécurité  DNS : rendre les communications plus difficilement exploitables par les acteurs malveillants afin que le "système nerveux numérique collectif'' - l'Internet - reste moins affecté, plus sûr, et que ses utilisateurs légitimes lui fassent confiance. Les trois premières contributions présentent des études de mesure du DNS liées aux faiblesses inhérentes aux protocoles Internet et aux noms de domaine qui peuvent conduire à l'exploitation de l'infrastructure DNS et des noms de domaine. Les trois contributions suivantes présentent des approches statistiques et d'apprentissage automatique liées à l'abus de noms de domaine, basées sur des mesures de trafic et des analyses déductives à partir de données liées au DNS.

La première contribution met en lumière le problème des mises à jour dynamiques DNS non sécurisées qui permettent à un mécréant de manipuler les entrées DNS dans les fichiers de zone des serveurs de noms faisant autorité. Nous appelons ce type d'attaque "zone poisoning''. Dans sa version la plus simple, un acteur malveillant peut remplacer un enregistrement de type 'A' ou 'MX' existant dans un fichier de zone d'un serveur faisant autorité et associer le nom de domaine à une adresse IP sous le contrôle d'un attaquant - détournant ainsi effectivement le nom de domaine. Nous présentons la première étude de mesure de cette vulnérabilité. Parmi les domaines vulnérables figurent des gouvernements, des hôpitaux et des banques, ce qui montre que la menace touche des services importants. Avec cette étude et les notifications consécutives aux parties concernées, nous visons à améliorer la sécurité de l'écosystème DNS.

La validation de l'adresse source (SAV) est un standard visant à rejeter les paquets dont l'adresse IP source est usurpée. L'absence de SAV pour le trafic sortant est une cause fondamentale des attaques de type DRDoS qui a été étudiée par un grand nombre de chercheurs. Bien que moins évidente, l'absence de filtrage entrant permet à un attaquant d'apparaître comme un hôte interne d'un réseau et révèle des informations importantes sur l'infrastructure du réseau. Elle peut permettre d'autres vecteurs d'attaque tels que l'empoisonnement du cache DNS. Comme deuxième contribution, nous présentons les résultats du projet Closed Resolver qui vise à atténuer le problème de l'usurpation d'adresse IP entrante. Nous réalisons la première étude de mesure active à l'échelle de l'Internet pour énumérer les réseaux qui n'appliquent pas le filtrage des paquets entrants en fonction de leurs adresses source. Pour atteindre cet objectif, nous identifions les résolveurs DNS fermés et ouverts qui acceptent les requêtes usurpées provenant de l'extérieur de leur réseau. Notre travail implique que l'absence de SAV entrant rend les résolveurs DNS vulnérables à plusieurs types d'attaques, y compris l'empoisonnement du cache DNS, l'empoisonnement de la zone DNS, l'attaque de type NXNSAttack, ou des vulnérabilités zero-day dans le logiciel de serveur DNS.

L'envoi de faux e-mails en profitant de l'usurpation de domaine est une technique courante utilisée par les attaquants. L'absence de mécanismes appropriés de lutte contre l'usurpation d'adresse électronique ou leur mauvaise configuration permettent de lancer avec succès des attaques de phishing ou de diffusion de spam. Dans la troisième contribution, nous évaluons le déploiement de SPF et DMARC dans deux campagnes à grande échelle, en mesurant leur taux d'adoption global et leur déploiement par des domaines importants. Nous proposons un nouvel algorithme pour identifier les domaines enregistrés de manière défensive et recenser les domaines dont les règles SPF sont mal configurées. Nous définissons pour la première fois de nouveaux modèles de menace impliquant l'usurpation de sous-domaines et présentons une méthodologie pour prévenir l'usurpation de domaines, une combinaison de bonnes pratiques pour la gestion des enregistrements SPF et DMARC et l'analyse des journaux DNS. Nos résultats de mesures montrent qu'une grande partie des domaines ne configure pas correctement les règles SPF et DMARC, ce qui permet aux attaquants de délivrer de faux e-mails dans les boîtes de réception des utilisateurs. Enfin, nous rendons compte de la médiation et de ses effets en présentant les résultats des notifications envoyées aux équipes de réponse aux incidents de sécurité informatique responsables des domaines affectés.

Afin de renforcer la concurrence et le choix dans le système des noms de domaine, ICANN (Internet Corporation for Assigned Names and Numbers) a introduit le nouveau programme de domaine générique de premier niveau (gTLD) qui a ajouté des centaines de nouveaux gTLD (par exemple, .nyc, .top) à la zone DNS racine. Si le programme a sans doute augmenté la gamme de noms de domaine disponibles pour les consommateurs, il a également créé de nouvelles opportunités pour les cybercriminels. Pour étudier cette question, nous présentons dans la quatrième contribution la première étude comparative des abus dans les domaines enregistrés dans le cadre du nouveau programme gTLD et dans les gTLD traditionnels (par exemple, .com, .org). Nous combinons des ensembles de données historiques provenant de diverses sources, notamment des fichiers de zone DNS, des enregistrements WHOIS, des mesures DNS et HTTP passives et actives, et des listes noires de noms de domaine réputés pour étudier les abus dans les gTLD. Nous constatons que les nouveaux gTLDs semblent avoir détourné les abus des gTLDs traditionnels : alors que le nombre de domaines abusés pour le spam reste stable entre les gTLDs, nous observons un nombre croissant de domaines de spam dans les nouveaux gTLDs, ce qui suggère un déplacement des gTLDs traditionnels vers les nouveaux gTLDs. Nous analysons également la relation entre les abus de DNS, les indicateurs de sécurité des opérateurs et les propriétés structurelles des nouveaux gTLD. Les résultats indiquent qu'il existe une corrélation inverse entre les abus et les politiques d'enregistrement plus strictes. Nous constatons que les cybercriminels préfèrent de plus en plus enregistrer les noms de domaine plutôt que de les pirater et que certains nouveaux gTLD sont devenus un aimant pour les acteurs malveillants. Comme l'état actuel de la situation en matière d'abus des gTLD a clairement besoin d'être amélioré, nous avons élaboré des cas pour modifier les mesures de protection existantes et en avons proposé de nouvelles. L'ICANN utilise actuellement ces résultats pour réviser les mesures de protection anti-abus existantes, évaluer leurs effets conjoints et introduire des mesures de protection plus efficaces avant le prochain lancement d'un nouveau gTLD.

Les acteurs malveillants abusent chaque jour des milliers de noms de domaine en lançant des attaques à grande échelle telles que des campagnes de phishing ou de logiciels malveillants. Si certains domaines sont enregistrés uniquement à des fins malveillantes, d'autres sont bénins (légitimes) mais sont compromis et utilisés à mauvais escient pour servir du contenu malveillant. Les méthodes de détection existantes permettent soit de détecter les domaines malveillants au moment de leur enregistrement, soit d'identifier les indicateurs d'une activité malveillante en cours, en regroupant les domaines malveillants enregistrés et compromis dans des listes noires populaires. Étant donné que les mesures d'atténuation pour ces deux types de domaines sont différentes, dans la cinquième contribution, nous proposons COMAR (Classification of Compromised versus Maliciously Registered Domains), une approche permettant de différencier les domaines compromis et les domaines enregistrés de manière malveillante, en complément des systèmes de réputation de domaines proposés précédemment. Nous commençons par une analyse approfondie du cycle de vie d'un domaine afin de déterminer la relation entre chaque étape et de définir les caractéristiques associées. Nous avons défini un ensemble de 38 propriétés qu'il est difficile de contourner. Nous évaluons COMAR à l'aide de listes noires d'hameçonnage et de logiciels malveillants et montrons qu'il peut atteindre une grande précision (97% de précision avec un taux de faux positifs de 2,5%) sans utiliser de données privilégiées ou non publiques, ce qui le rend utilisable par n'importe quelle organisation. Nous prévoyons de déployer COMAR chez deux opérateurs de registre de domaines des TLD européens (ccTLD) et de mettre en place un système de notification pour faciliter la remédiation des domaines figurant sur la liste noire.

En 2016, les forces de l'ordre ont démantelé Avalanche, l'infrastructure du service d'hébergement blindé, le plus grand démantèlement d'une opération de cybercriminalité à ce jour. Les familles de logiciels malveillants soutenues par Avalanche utilisent des algorithmes de génération de domaines (DGA) pour générer des noms de domaines aléatoires afin de contrôler leurs botnets. Le démantèlement cible de manière proactive ces domaines présumés malveillants ; toutefois, comme des collisions fortuites avec des domaines légitimes sont possibles, les investigateurs doivent d'abord classer les domaines pour éviter tout préjudice indésirable aux propriétaires de sites Web et aux victimes de botnets. Les contraintes de cette opération dans le monde réel (décisions proactives sans accès à l'activité des logiciels malveillants, absence de profils d'enregistrement en masse et de connexions actives) signifient que les approches basées sur l'état de l'art ne peuvent être appliquées.  Le problème de la classification des milliers de noms de domaine enregistrés de la DGA a donc nécessité un effort manuel important et minutieux de la part des investigateurs des forces de l'ordre. Pour réduire considérablement cet effort sans compromettre l'exactitude, nous développons un modèle qui automatise la classification. Grâce à une approche synergique, nous obtenons une précision de 97,6% avec la vérité terrain des démantèlements d'Avalanche de 2017 et 2018 ; pour le démantèlement de 2019, cela se traduit par une réduction de 76,9% de l'effort d'enquête manuel. En outre, nous interprétons le modèle pour fournir aux investigateurs un aperçu de la façon dont les domaines bénins et malveillants diffèrent dans leur comportement, quelles caractéristiques et sources de données sont les plus importantes, et comment le modèle peut être appliqué en fonction des exigences pratiques d'un démantèlement dans le monde réel.  Enfin, nous avons aidé les forces de l'ordre en appliquant notre approche à l'itération 2019 du démantèlement Avalanche.

Il ne fait aucun doute que la communication DNS sélective et sécurisée est le tremplin vers un Internet plus sûr et plus stable. Sur la base de l'expérience des premiers jours de l'Internet et des avancées technologiques fournissant plusieurs blocs de sécurité manquants dans le DNS, nos travaux contribuent à la mise en œuvre de protocoles de sécurité, à l'identification de nouveaux (et parfois anciens) problèmes de sécurité négligés par la communauté, ainsi qu'au développement de méthodes statistiques et d'apprentissage automatique pour aider les intermédiaires à atténuer plus efficacement les abus de noms de domaine.

Date et Lieu

Vendredi 17 décembre 2021 à 14h
Auditorium du bâtiment IMAG
et https://univ-grenoble-alpes-fr.zoom.us/j/92892584974?pwd=Rzhxa1dMS2wwV2JRK3I1RnNFaGs0UT09
 

Composition du comité de thèse

Professeur Aiko PRAS
Université de Twente, Pays-Bas
Professeur Isabelle CHRISMENT
Université de Lorraine, France
Professeur Oliver HOHLFELD
Université de Technologie de Brandenburg, Allemagne
Professeur Andrzej DUDA
Université Grenoble Alpes, France
Professeur Philippe ELBAZ-VINCENT
Université Grenoble Alpes, France

Submitted on December 10, 2021

Updated on December 10, 2021