Des virus informatiques au coronavirus

UMAP : Des virus informatiques au coronavirus
Représentation UMAP en 2D d’un jeu de données tiré de la théorie des nombres comportant plus de 1,7 million de dimensions.

Une technique d’analyse de maliciels mise au point par des chercheurs de l’Institut Tutte pour les mathématiques et le calcul (ITMC) du CST sert maintenant à répondre à des questions sur la COVID 19.

Il s’agit de la technique d’approximation et de projection uniforme de variétés, ou UMAP pour Uniform Manifold Approximation and Projection, développée par des chercheurs de l’ITMC, Leland McInnes et John Healy, pour faciliter l’analyse de diverses souches de virus informatiques. Ayant constaté le potentiel de cette technique pour l’avancement de la science des données, l’ITMC a rendu publics l’algorithme et le logiciel en code source ouvert. Depuis, la technique UMAP a été utilisée dans toute une gamme de domaines.

En quoi consiste la technique UMAP?

La UMAP est une technique de réduction des dimensions, c’est-à-dire qu’elle permet de traiter des jeux de données complexes comportant un grand nombre d’attributs (ou dimensions) et d’en retirer les dimensions redondantes pour qu’il soit plus facile de travailler avec les données. De plus, la technique UMAP procède à cette opération tout en préservant les caractéristiques latentes des données.

La technique UMAP se démarque également par sa rapidité. Plutôt que prendre des heures, il est possible d’intégrer en quelques secondes des données possédant des centaines de dimensions dans une représentation graphique colorée en 2D ou en 3D. Les chercheurs sont alors en mesure de voir les motifs sous-jacents et d’extraire les éléments communs pour les analyser davantage.

Exemples d’un jeu de données appelé MNIST et constitué de chiffres de 0 à 9 écrits à la main.

Interprétation UMAP des données MNIST. Chaque point représente un échantillon. Chaque grappe correspond à un chiffre, les chiffres formés de façon similaire se trouvant près les uns des autres.

 

Depuis sa publication en tant que logiciel libre en 2018, la technique UMAP a été utilisée dans une multitude de domaines que les chercheurs n’auraient jamais envisagés lors de son développement, notamment la biologie unicellulaire, l’intelligence artificielle et l’astronomie.

Et maintenant, la technique UMAP est mise à contribution dans le cadre du défi scientifique le plus pressant auquel l’humanité est confrontée à l’heure actuelle : la COVID‑19.

Comment la technique UMAP est-elle utilisée pour étudier la COVID-19?

Jusqu’à présent, la technique UMAP a été utilisée dans au moins 15 études reliées à la COVID-19, aussi divers que l’analyse des immunotypes et des traitements pharmacologiques potentiels.

Notamment, une équipe de chercheurs canadiens a fait appel à la technique UMAP pour créer un outil de génotypage de la COVID-19 permettant de repérer les variations génétiques dans les échantillons de virus du SRAS-CoV-2. S’il existe des sous-types distincts, comme le portent à croire des données préliminaires, l’outil devrait permettre aux chercheurs de déterminer plus facilement les liens entre les différentes souches.

La technique UMAP se prête bien à cette tâche, car elle traite rapidement le nombre ahurissant de points de données dans les dizaines de milliers de génomes, et les organise en fonction des points communs. Les graphiques ainsi produits mettent en évidence les grappes de diverses tailles, chaque couleur représentant une région, un pays et la date de collecte de l’échantillon, en fonction des différentes éclosions.

Selon les développeurs, l’outil de génotypage de la COVID‑19 aura des retombées directes sur la recherche sur les vaccins, de même que sur le développement de médicaments et d’autres thérapies pour traiter la maladie. Des précisions à ce sujet sont présentées dans l’édition de juin de la revue The Lancet: Digital Health.

Pourquoi rendre publique cette technique?

Bien que personne n’aurait pu prédire les circonstances exactes de la pandémie mondiale de COVID‑19, les chercheurs de l’ITMC avaient entrevu les vastes possibilités d’application de la technique UMAP.

La publication de cette recherche s’inscrit dans la mission de l’ITMC, qui consiste à produire des résultats dans le cadre de la recherche qui ont une incidence sur les défis scientifiques les plus importants que doivent relever les collectivités de la sécurité et du renseignement du Canada et de la collectivité des cinq, tout en offrant des outils à des chercheurs canadiens d’autres domaines pour favoriser la collaboration. Dans le cas de la technique UMAP et de la COVID‑19, les retombées pourraient être d’une portée considérable.

À propos de l’Institut Tutte :

L’Institut Tutte pour les mathématiques et le calcul (ITMC) est un établissement de recherche gouvernemental axé sur les mathématiques fondamentales et l’informatique. Sa mission consiste à produire des résultats dans le cadre de la recherche qui ont une incidence sur les défis scientifiques les plus importants que doivent relever les collectivités de la sécurité et du renseignement du Canada et de la collectivité des cinq.

L’ITMC est parrainé et financé par le Centre de la sécurité des télécommunications (CST) et répond aux besoins particuliers du CST en matière de mathématiques et d’informatique. Ses principaux domaines de recherche sont la cryptographie et la science des données. Il met à profit de nombreuses disciplines en mathématiques et en calcul, dont l’algèbre, la géométrie algébrique, la combinatoire, la science des données, la topologie, la théorie des nombres et l’informatique quantique. Ses chercheurs sont des chefs de file dans leur domaine et travaillent en collaboration pour relever des défis stimulants qu’on ne trouve qu’à l’ITMC.

 

Essayez-le!

La version la plus récente du logiciel est disponible sur le compte GitHub de Leland McInnes (Ph. D.). Des documents sont également disponibles en ligne, de même qu’un prétirage décrivant les fondements mathématiques sous-jacents.

Pour plus de renseignements, veuillez communiquer avec l’Institut Tutte.