(De gauche à droite) Un schéma circulaire d’amas colorés représente divers sujets de recherche en apprentissage automatique sous forme de grappes portant chacune un nom, par exemple le traitement automatique du langage naturel, l’apprentissage par renforcement, la protection de la vie privée, l’apprentissage fédéré, l’apprentissage par graphes, la théorie de l’apprentissage profond, les méthodes statistiques, l’informatique quantique et les applications en santé, la médecine et la biologie. Chaque sujet est
Dans un monde submergé par les données, comment peut-on reconnaître rapidement l’information pertinente? Cette question est au cœur des travaux que mène le professeur Aaron Smith à l’Institut Tutte pour les mathématiques et le calcul, véritable chef de file en science et en visualisation des données. Depuis plus de dix ans, le professeur Smith fait avancer la statistique informatique en contribuant à la conception d’outils qui résument les données non structurées et mettent automatiquement en évidence les éléments les plus importants qui doivent ensuite faire l’objet d’une intervention humaine.

Nous vivons dans un monde où les données influencent les décisions en matière de soins de santé, de changements climatiques, de sécurité publique, etc. Mais les données ne sont utiles que si on les comprend. Voilà pourquoi les outils de science et de visualisation des données sont si essentiels : ils nous aident à trouver ce qui compte vraiment et rendent l’information complexe claire et utilisable. Le partenariat entre le professeur Smith et l’Institut Tutte pour les mathématiques et le calcul (ITMC) combine expertise universitaire et recherche appliquée afin de résoudre de réels problèmes de données complexes. C’est une collaboration dynamique qui continue de prendre de l’ampleur.

Aaron Smith a commencé à travailler avec l’ITMC juste après avoir fini son doctorat en 2012. Ce qui était au départ un stage d’été s’est transformé en collaboration à long terme alliant rigueur théorique et résolution de problèmes concrets. « J’étais fasciné par le travail franchement impressionnant de l’ITMC, raconte le professeur Smith. J’ai décidé d’y être transféré à temps plein il y a environ un an parce que la recherche qu’on y mène a des applications directes et concrètes. » À l’ITMC, la recherche est appliquée presque immédiatement, et il est extrêmement gratifiant de voir la mise en pratique des idées. Les outils qu’on y conçoit aident les organisations à filtrer d’énormes jeux de données et à faire ressortir en quelques secondes des tendances cachées et de l’information cruciale.

L’un des apports les plus connus de l’ITMC est le projet Uniform Manifold Approximation and Projection ou UMAP (approximation et projection uniforme de variétés), un outil à code source libre qui transforme les données désordonnées et non structurées en schémas visuels. Imaginez prendre des millions d’articles de recherche et les représenter sous forme de points sur un graphique. Cette méthode regroupe les sujets similaires pour que les chercheuses et chercheurs puissent immédiatement repérer les tendances. « C’est comme donner aux gens une lampe de poche pour éclairer une pièce sombre remplie de données, explique le professeur Smith. Pas besoin de deviner où chercher : on voit les liens tout de suite. » L’outil UMAP figure parmi les 10 paquets Python les plus téléchargés dans le domaine de l’apprentissage machine : scientifiques, entreprises et gouvernements l’utilisent pour analyser toutes sortes de données, des dossiers médicaux aux tendances financières. Ce travail s’appuie sur des décennies de recherche visant à améliorer la clarté et l’utilité des données pour tout le monde. À mesure que les données deviennent de plus en plus complexes, les outils comme l’UMAP deviendront plus indispensables.

Le professeur Smith et son équipe affinent constamment leurs méthodes pour accélérer l’exploration des données et rendre le processus plus intuitif. Son message aux étudiantes et étudiants ou aux chercheuses et chercheurs qui veulent travailler dans ce domaine : « Si ça vous intéresse, manifestez-vous. Stages, ateliers, collaborations directes… les occasions ne manquent pas! »

Pour en savoir plus :