Comment découvre-t-on de nouvelles œuvres littéraires ? Traditionnellement, en ayant recours à des passeurs : libraires, bibliothécaires, critiques, amis, famille… Parfois, en cherchant simplement sur Internet : « polar cuba », « biographie rené lévesque », « livre jeunesse 6 ans » etc. Les professionnels eux-mêmes ont recours aux moteurs de recherche, que ce soit ceux que nous utilisons couramment ou les outils qui sont à leur disposition.
Mais tous ces outils dépendent de la façon dont lesdites œuvres ont été présentées. A-t-on décrit tel livre comme un polar ? Sait-on que l’intrigue se passe à Cuba ? Ce livre sur René Lévesque est-il présenté comme une biographie ? Les albums jeunesse sont-ils catégorisés selon l’âge ?
Il existe mille et une façons de décrire un livre, et le temps consacré à cette tâche est limité. Les éditeurs ont leur propre filtre pour parler d’un livre, les bibliothécaires en ont un autre, etc. Une libraire vous dira qu’on lui parle souvent de la couleur de la couverture d’un livre, de la nationalité de l’auteur ou de l’image de la jaquette.
Et, en plus d’apprendre à parler aux êtres humains, il faudrait aussi maintenant apprendre à parler directement aux machines, aux algorithmes, pour comprendre comment est organisée toute la matière à laquelle ils ont recours.
Le projet TAMIS, c’est un peu la réponse à tout ça. Ou, plus modestement, un début de réponse.
TAMIS, c’est le Traitement Algorithmique des Métadonnées en Imagerie et Sémantique. Oui, c’est capilotracté, mais bon, on voulait se concentrer sur les résultats, pas sur le nom. Et puis, passer une œuvre au tamis, ça se tient !
Et donc, concrètement ? C’est l’utilisation d’algorithmes, de librairies à code source libre, ou d’API disponibles à peu de frais, disponibles ici et là, pour tenter de comprendre une œuvre, d’en sortir le jus qu’un curateur humain n’a pas le temps, l’énergie ou la connaissance d’extraire. C’est utiliser le contenu même d’une oeuvre pour tenter de la décrire : mots fréquents, géolocalisation, analyses sémantiques, tout va y passer. Analyse des couvertures, des résumés, mises en relation, travail statistique.
Ça vous semble compliqué ou encore abstrait ? Les prochains billets expliqueront pas à pas nos démarches, nos succès, nos échecs, car nous nous sommes engagés à retourner un maximum d’informations à la communauté.
Ce projet bénéficie du soutien du Conseil des arts du Canada dans le cadre du Fonds stratégie numérique, qui nous permet enfin de réaliser des projets innovants en recherche et développement.
Finalement, ce projet collaboratif ne pourrait fonctionner sans nos partenaires qui nous font confiance et nous donnent accès à leurs ressources.
Merci !
Photo : ma bibliothèque qui aurait bien besoin d’organisation !