Algorithme HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise)

Vue d’ensemble

Le groupement est une technique de la science des données qui permet de dégager des tendances ou des associations à partir de grandes quantités de données. Il s’agit d’une excellente technique de nature générale que l’on peut appliquer à l’ensemble des domaines scientifiques.

Leland McInnes et John Healy, deux chercheurs de l’Institut Tutte pour les mathématiques et le calcul au CST, ont peaufiné et amélioré l’algorithme DBSCAN (Density-Based Spatial Clustering of Applications with Noise). La nouvelle version permet de décupler l’efficacité de l’algorithme et sa mise en œuvre est assurée par le code hautement performant écrit par Leland et John. De fait, leur code fait maintenant figure de référence pour ce qui est de mettre en œuvre cet algorithme.

Il est possible de télécharger la version améliorée de l’algorithme HDBSCAN déployé dans Python à partir du site GitHub – un service d’hébergement de développement logiciel – dans le cadre du projet scikit‑learn-contrib. L’algorithme est également disponible sur PyPI et conda-forge, deux sites de progiciels populaires pour Python.

À quoi sert l’algorithme HDBSCAN?

L’algorithme HDBSCAN est utilisé de maintes façons. Vous trouverez ci-dessous quelques sphères où il a été mis en application.

Astronomie :

Analyse des maliciels :

Détection des anomalies de nature comptable :

  • Détection des anomalies dans de grandes quantités de données comptables au moyen de réseaux auto-encodeurs profonds

Biologie computationnelle :

Dynamique moléculaire :

Détection des défauts de produits :

Analyse de Bitcoin et de la chaîne de bloc :

L’algorithme HDBSCAN est-il prêt pour la production?

L’algorithme HDBSCAN est actuellement à l’état de repos. Il est stable et différentes personnes s’efforcent de l’améliorer et de l’adapter au code de source ouverte.