Comparaison de 4 API d’extraction de mots-clés appliquées à des textes d’oeuvres littéraires (deuxième partie)

Ce texte est le second d’une série décrivant notre démarche portant sur l’extraction de mots-clés depuis des textes de livres. Consultez d’abord le premier texte pour des explications.

Sélection des textes pour les tests

À cette étape de la démarche, nous souhaitons simplement avoir un aperçu relativement représentatif des résultats des différentes API, et pas faire un travail exhaustif d’analyse. Pour ce faire, il fallait obtenir un échantillon de textes représentatif de notre corpus, dans un format adéquat pour le traitement par les API.

Concernant la sélection, nous avons simplement choisi une centaine de textes au hasard (parmi environ 3700 au moment de début l’expérience), en nous assurant de représenter tous les éditeurs participants au projet (au prorata du nombre de titres disponibles).

C’est sur le format que le défi est plus grand. D’un côté, nos oeuvres sont disponibles au format EPUB, alors que tous les API demandent du contenu au format texte. L’extraction basique de textes depuis un EPUB est relativement simple : il faut extraire tous les fichiers de l’archive, puis retirer le balisage HTML. Cela donne un résultat très imparfait. Par exemple, certains fichiers de l’archive correspondent au « vrai » contenu, alors que d’autres sont plutôt des éléments périphériques (table des matières, notes, index, bibliographie, page de titre, etc.). Il serait probablement pertinent de les traiter différemment.

Nous avons choisi d’accepter les limites associées à l’approche basique. Le code source de notre extracteur, qui convertit un fichier EPUB en plusieurs textes (un par « chapitre », au sens qui lui est donné dans un fichier EPUB), est disponible librement sur le compte Github du projet.

Cela menait donc à devoir choisir un (ou plusieurs) fichier, parmi l’ensemble des « chapitres » extraits de l’EPUB, pour le soumettre aux API de traitement du langage naturel. Comment identifier le plus pertinent sans devoir tout lire? Ou minimalement, comment éviter de soumettre une table des matières ou une page de garde contenant simplement des remerciements? Nous avons choisi d’appliquer une heuristique simple : nous avons sélectionné le texte le plus volumineux, en émettant l’hypothèse que c’était le plus pertinent, et que nous minimisons la probabilité de sélectionner une page de garde ou une table des matières.

L’outil de test et de comparaison.

Les API de traitement du langage naturel n’offrent pas toutes des solutions de test en ligne qui soient en mesure de traiter des textes aussi longs que ceux de nos échantillons. Et il n’était de toute façon pas réaliste d’envisager de réaliser nos 400 tests (une centaine de titres chez 4 fournisseurs) et compiler les résultats à la main. Une approche automatisée était donc nécessaire.

Selon nos recherches, il n’existe pas d’outil permettant d’automatiser la comparaison des résultats de différentes API de traitement du langage naturel, comme le fait l’outil Cloudy Vision que nous avions utilisé lors de notre démarche sur les images.

Nous avons donc choisi de développer un outil semblable, mais adapté à un nouveau besoin. Entre Guillemets est un outil de test d’API de traitement du langage naturel, dont le code source est libre et disponible sous une licence non contraignante. Il permet d’obtenir et compiler les résultats des quatre API que nous avons identifiées (TextRazor, Google Cloud, Rosette et IBM Watson), mais est facilement extensible pour inclure d’autres outils. Il génère des résultats consultables directement sur le web, mais également sous forme d’un tableau Excel récapitulant l’ensemble des résultats.

Les résultats

Les résultats pour la centaine de textes de notre échantillon sont disponibles ici. Une version compilée au format Excel est également disponible.

Pour chaque texte et pour chaque fournisseur, le rapport présente le nombre d’entités trouvées, une vingtaine d’exemples sommaires (triés en ordre décroissant de pertinence, lorsque le fournisseur donne un indicateur quantitatif de pertinence), et 5 exemples détaillés (les données brutes au format JSON, telles que retournées par l’appel de l’API). Nous avons également extrait, lorsque c’était possible les entités correspondant à certaines classes spécifiques : les personnages (fictifs ou pas), les lieux, et les événements ou dates.

Enfin, les rapports contiennent également des informations de référence sur les oeuvres, pour aider à analyser les résultats des API. Ces informations sont le titre, l’auteur, l’éditeur, la description, les catégorisations BISAC et Théma, ainsi que les mots-clés sélectionnés par l’éditeur (lorsqu’il y en a). Il s’agit des métadonnées « traditionnelles » de ces livres, qui seraient typiquement utilisées par les différents sites les présentant.

Les données générées sont massives. Un premier regard permet de constater qu’il y a à la fois des résultats intéressants et étonnants. Le prochain texte de cette série présentera notre analyse plus détaillée des résultats, et nos conclusions sur l’intérêt d’utiliser les outils de traitement du langage naturel pour générer des mots-clés pour enrichir les métadonnées de livres.

Comparaison de 4 API d’extraction de mots-clés appliquées à des textes d’oeuvres littéraires (première partie)

Le défi

L’hypothèse fondamentale derrière le projet TAMIS est qu’on peut enrichir la description du produit livre en s’appuyant sur l’oeuvre elle-même, et pas seulement sur la description qu’en fait l’éditeur. Nos premiers travaux ont porté sur le contenu visuel de la page couverture. Nous abordons maintenant le coeur de l’oeuvre, en tentant d’en extraire des mots-clés pertinents qui serviront à son référencement.

En effet, les sites qui présentent des livres en ligne s’appuient essentiellement sur quelques métadonnées fournies par l’éditeur pour alimenter leurs outils de recherche : titre, auteur, description… et parfois la biographie de l’auteur. Pour bien comprendre les enjeux associés aux mots-clés (et la façon dont Amazon les utilise dans son outil de recherche), nous vous recommandons ce texte, publié sur le blogue de Booknet Canada.

Notre défi est donc de générer, de façon automatisée, des suggestions de mots-clés qu’un éditeur pourrait ajouter à la description de son livre, pour alimenter différents moteurs d’indexation ou de recherche : d’abord celui des librairies en ligne et des bibliothèques, mais éventuellement aussi d’autres, comme Google.

Et l’indexation complète des oeuvres?

Pourquoi ne pas indexer entièrement le contenu textuel de l’oeuvre? Ce serait évidemment une bonne idée : certains rares éditeurs offrent sur leur site web des outils de recherche dans le contenu des textes. Mais c’est l’exception plutôt que la règle. Et à notre connaissance, aucune librairie (ou bibliothèque) en ligne ne le fait. Cela s’explique (probablement) par des considérations techniques, légales et commerciales qui sont en dehors du périmètre de nos travaux.

De plus, pour d’autres contextes, comme celui des moteurs de recherche grand public (lire les Google et autres Bing), l’indexation ne serait possible qu’en rendant public, sur le web, le texte intégral de l’oeuvre. Cela n’est évidemment pas compatible avec la protection du droit d’auteur… ni avec la préoccupation de tous de ne pas divulgâcher les textes!

Le traitement du langage naturel

Le traitement du langage naturel (ou natural language processing en anglais, qu’on voit souvent sous la forme de son abréviation NLP), c’est la branche de l’intelligence artificielle qui porte sur l’analyse de textes. Tout comme pour le traitement des images, c’est un domaine qui a connu de grands progrès au cours des dernières années. Ce champ de recherche a plusieurs applications : traduction, résumés de textes, analyse de sentiments, classification automatique, extraction d’entités.

C’est sur cette dernière application que nous souhaitons nous appuyer pour générer des mots-clés décrivant des oeuvres littéraires. Les « entités », ce sont des mots représentant des objets (des personnes, des lieux, des concepts) qui sont présents dans le texte. Et la « promesse » des algorithmes d’extraction d’entités, c’est qu’ils peuvent nous dire que la phrase « J’ai ouvert le bouquin » fait référence à un livre.

Les API de traitement du langage naturel

Avec les mêmes préoccupations que dans notre démarche sur les images, nous préférons d’abord tenter d’utiliser des outils existants plutôt que de tout développer à partir de zéro. Nos recherches nous ont permis d’identifier plus d’une dizaine de fournisseurs d’API de traitement du langage naturel. Les fonctionnalités offertes, les langues traitées, les modèles d’affaires de toutes ces API sont toutefois très différents. Avant de choisir lesquelles étudier et essayer, il a été nécessaire d’analyser ces caractéristiques pour cibler les solutions adéquates pour notre défi.

Nos notes de recherche sur les 8 outils qui nous semblaient les plus prometteurs sont compilées dans ce document.

Au final, deux caractéristiques semblent déterminantes pour identifier sur quelles API porteront nos essais :

  • La possibilité d’extraire des mots-clés ou des entités depuis des textes en français. En effet, certains fournisseurs indiquent traiter un grand nombre de langues, mais il s’avère que le français n’est géré que pour un sous-ensemble des fonctionnalités (c’est le cas de Microsoft Cloud Services au moment de rédiger ce texte). Ou d’autres indiquent qu’ils peuvent traiter des textes en français, mais donneront des entités en anglais, en suggérant de les soumettre à leur moteur de traduction automatique (c’est le cas d’Amazon Comprehend).
  • La taille maximale des textes pouvant être traités. Plusieurs des outils sur le marché semblent avoir été pensés pour analyser de courts textes (de la taille d’un tweet à celle d’un article de journal). Dans notre cas, on veut idéalement analyser des livres en entier (ou peut-être un chapitre à la fois).

Sur la base de ces critères, nous avons identifié 4 fournisseurs d’API de traitement du langage naturel pouvant être utiles dans le cadre de notre projet : TextRazor, Google Cloud, Rosette et IBM Watson.

Mise à jour au 22 janvier 2019: Amazon a annoncé que son API Comprehend était disponible en français peu après notre inventaire. Elle n’est donc malheureusement pas incluse dans notre comparatif.

Prochaine étape

Dans les prochains textes de cette série, nous présenterons les étapes réalisées pour arriver à obtenir des résultats de ces API. Nous y présentons également deux outils que nous avons développés dans le cadre du projet, et que nous rendons disponibles en code source ouvert. Nous y présenterons également les résultats obtenus suite au traitement d’une centaine de textes tirés de notre corpus.

Mise à jour: le deuxième texte de la série est maintenant disponible.

Comparaison de 6 API de description d’images appliquées à des pages couvertures de livres (deuxième partie)

Pour connaître le contexte de cette comparaison et la méthodologie utilisée, il faut lire la première partie du texte.

Barème d’évaluation des résultats

Nous avons généré une version tabulaire des résultats détaillés obtenus avec Cloudy Vision, contenant également nos annotations humaines, de façon à accorder une note à chaque résultat d’API. L’évaluation des résultats étant subjective, nous avons choisi de la limiter à une catégorisation selon le barème suivant :

  • A : les résultats pourraient être utilisés dans l’état ou presque
  • B : les résultats pourraient être utilisés en partie suite à une intervention humaine (corrections, retraits, ajouts)
  • C : les résultats ne sont pas utilisables

Il faut noter que notre évaluation est faite dans une perspective d’indexation, pas de description. Il nous apparaît utopique, à ce stade, d’espérer qu’une des API génère des mots-clés suffisamment précis pour décrire la couverture. Nous cherchons plutôt à générer des mots-clés qui peuvent alimenter un moteur d’indexation et de recherche. Le souhait est que l’image soit identifiée quand un consommateur cherche un des mots-clés obtenus par l’API, mais pas d’afficher cette liste de mots au consommateur. Pour cette raison, nous avons accordé des A ou des B quand plusieurs mots-clés convenaient, même si certains pouvaient être parfois être à la limite de ce qui décrit l’image (pourvu que cela restait dans la bonne thématique).

quebec_amerique_9782764421246
À titre d’exemple, nous avons accordé un A à Amazon Rekognition pour les mots-clés « Glacier (0.99), Ice(0.99), Mountain(0.99), Nature (0.99), Outdoors(0.99), Snow(0.99) ».

Notre évaluation détaillée est disponible ici.

Évaluation des API

En résumé, nos notes se répartissent comme ceci :

Note Amazon Rekognition Microsoft IBM Google Cloudsight Clarifai
A 6 2 1 3 0 2
B 16 19 15 20 2 30
C 26 27 32 25 44 16

On constate que nous avons accordé très peu de A. En effet, malgré plusieurs résultats impressionnants, il est assez fréquent que les mots-clés contiennent également des termes qui ne s’appliquent pas du tout, ou qu’il manque un élément essentiel. Dans ces cas, nous avons attribué un B.

Si on analyse la situation strictement du point de vue de la note A, la solution Rekognition d’Amazon semble être la meilleure (mais encore, à moins de 13 % d’efficacité, on hésite à utiliser le superlatif). On obtient un portrait différent si on considère les A et les B de façon cumulative :

Note Amazon Rekognition Microsoft IBM Google Cloudsight Clarifai
A et B 22 21 16 23 2 32
En % 46 % 44 % 33 % 48 % 4 % 67 %

Dans ce cas, c’est Clarifiai qui se démarque positivement.

Notons que le mauvais résultat de Cloudsight s’applique à notre contexte : dans pratiquement tous les cas, Cloudsight indique « couverture du livre [titre] ». C’est une bonne description dans un contexte généraliste de reconnaissance d’image, mais c’est inutile (d’où les C) pour nos besoins.

Notons enfin que pour la plupart des API, il y a de grands écarts dans la qualité des résultats selon le type d’image utilisé sur la page couverture. En faisant l’analyse seulement sur les photographies, les résultats Amazon Rekognition se rapprochent de Clarifai sur les notes A et B (63 et 68 % respectivement). Sur les illustrations figuratives (réalistes, pas stylisées), les résultats sont encore meilleurs (88 % pour Clarifai, suivie de Amazon Rekognition et Microsoft à égalité à 75 %).

Vous pouvez pousser l’analyse à l’onglet Sommaire de notre compilation des données.

Notes sur les couleurs

Notre expérience portait également sur l’identification des couleurs dominantes des pages couvertures. Voici quelques notes à ce sujet :

  • L’API de Google nous fournit des couleurs sous forme de code hexadécimal. C’est utile pour générer d’autres images dans les mêmes tons, mais inutile pour atteindre les objectifs qu’on cherche (un humain va demander « vert », pas « #00FF00 »).
  • L’API de Microsoft retourne certaines couleurs en mélangeant des appellations « humaines » (comme « White ») et des codes hexadécimaux. Elle indique également si la couleur est une couleur d’avant-plan, d’arrière-plan, ou d’accent. Les résultats sont parfois bons, mais aussi parfois plus douteux, comme lorsque le blanc est identifié comme couleur dominante de couvertures pour lesquelles notre classificateur humain n’avait même pas remarqué cette couleur.
  • L’API d’IBM identifie les couleurs par leur nom. Toutefois, dans certains cas, l’appellation de la couleur est trop précise pour correspondre à une requête humaine (il apparaît peu probable qu’un consommateur de livre mentionne que la couverture est « rouge d’alizarine »). De plus, elle semble se limiter aux couleurs d’accent, ignorant souvent les couleurs d’arrière-plan, en particulier s’il s’agit de blanc.

editions_hurtubise_9782897234737
Ici, on ne comprend pas pourquoi l’API de Microsoft identifie le blanc comme couleur dominante d’arrière et d’avant-plan.

Au final, les résultats des l’API d’IBM et de Microsoft (nous avons exclu Google parce qu’il n’offre pas de noms « humains » pour les couleurs) sont similaires selon notre barème d’évaluation. Toutefois, considérant que les résultats sont imparfaits et contiennent des termes peu représentatifs du langage utilisé par les consommateurs, nous croyons qu’il serait possible de faire aussi bien sans utiliser d’API ni d’algorithmes d’apprentissage automatique. Nous explorerons cette option plus tard dans le cadre des travaux de Projet TAMIS.

Notons que nous pourrions également tenter de convertir les codes de couleur fournis par Google vers des noms de couleurs. Nous avons choisi de ne pas le faire ici puisque nous voulions comparer les API disponibles sur le marché sans adaptation supplémentaire.

Autres observations

L’observation détaillée des mots-clés identifiés par les API a permis de constater que dans certains cas, les IA sont en mesure d’identifier des concepts associés aux images, pas seulement les objets qui y apparaissent.

editions_hurtubise_9782897239480
Clarifai voit de la « togetherness » dans cette illustration.

quebec_amerique_9782764424018
Clarifai voit « love » et « freedom » dans celle-ci.

Alors qu’on cherchait à décrire factuellement ce qui était illustré dans les images, nos API nous amènent plus loin. Ces mots-clés ne seraient certainement pas nuisibles pour les objectifs que nous avons, mais ils pourraient également être à la base d’outils de mise en marché innovants (une sélection de livres qui regroupés autour d’une idée évoquée par leur page couverture, par exemple).

Conclusions

À ce stade, considérant les faibles résultats, il ne semble pas réaliste d’utiliser des algorithmes de description par mots-clés automatisés sur n’importe quel lot de pages couverture.

Toutefois, cela pourrait s’avérer faisable sur des lots de titres dont la couverture présente une photographie ou une illustration figurative. On peut donc imaginer qu’un traitement automatisé pourrait s’appliquer à certaines collections, voir à une majorité de titres pour les catalogues de certains éditeurs.

Dans une telle situation, notre recommandation serait d’utiliser l’API Clarifai, ou encore mieux, de combiner les résultats de Clarifai et ceux d’Amazon Rekognition.

Comparaison de 6 API de description d’images appliquées à des pages couvertures de livres (première partie)

Le défi

La page couverture d’un livre est un des éléments les plus tangibles pour décrire une oeuvre. Elle est souvent utilisée pour mettre les oeuvres en valeur dans les librairies et les bibliothèques. C’est également cas, quasi systématiquement, dans les références en ligne : librairies et bibliothèques numériques, cartes enrichies dans les résultats sur Google, réseaux sociaux spécialisés dans la lecture…

Il n’est donc pas étonnant que les professionnels de l’édition consacrent tant d’efforts à créer de « bonnes » pages couvertures, et tentent de comprendre les facteurs qui font qu’une couverture « vend ».

D’un autre côté, on constate qu’il existe assez peu de moyens, dans une perspective de découvrabilité, de trouver des oeuvres en fonction de leur couverture. On peut assez facilement retrouver un livre dont on connaît l’auteur, le titre et la maison d’édition. Mais ce n’est pas le cas si on se souvient seulement que la page couverture est bleue et grise et montre un cheval tirant une voiture devant une grande maison.

Or, notre conviction, c’est qu’un certain nombre de consommateurs cherchent des livres comme ça : parfois avec un élément du titre, et typiquement avec une description de la page couverture. Nous émettons donc l’hypothèse qu’il serait avantageux d’enrichir les métadonnées qui décrivent les livres par un descriptif de leur page couverture. Cette description pourrait prendre la forme d’une énumération de ce qu’on y voit et des couleurs dominantes.

Nous croyons également qu’il est nécessaire de le faire de façon automatisée ou semi-automatisée, sur de grands volumes de titres. Cela permettra d’obtenir la masse critique qui amènera les plateformes qui présentent les oeuvres à utiliser ces nouvelles métadonnées.

Nous émettons donc une seconde hypothèse : il est possible d’automatiser la création de métadonnées descriptives d’images. Nous avons donc entrepris une expérience pour vérifier cette seconde hypothèse. Voici notre démarche, et les résultats obtenus à ce jour.

Identification des outils à notre disposition

Les avancées en traitement d’images constituent un des éléments les plus frappants dans le domaine de l’intelligence artificielle. Et il existe une panoplie d’outils disponibles gratuitement ou à peu de frais pour entraîner des réseaux de neurones à identifier les éléments présentés dans une image.

Dans l’esprit d’arriver rapidement à des résultats de façon efficace, nous avons choisi d’aborder le problème en utilisant des algorithmes de reconnaissance d’images préexistants, mais qui ne sont pas spécialisés dans le traitement des couvertures de livres. L’alternative aurait été d’entraîner nous-mêmes des réseaux neuronaux — mais c’est une solution qui aurait été clairement plus complexe et vraisemblablement plus coûteuse.

Il existe différentes API de description d’images. Nous en avons identifié six, offertes par les grands joueurs de l’industrie techno (IBM, Microsoft, Google, Amazon) ou des startups spécialisés en IA (Clarifai, Cloudsight).

Méthodologie d’évaluation

Comme première démarche d’évaluation des différentes API, nous souhaitons avoir un portrait global des résultats obtenus sur un échantillon représentatif de pages couvertures.

Nous avons choisi de façon aléatoire une cinquantaine d’images de notre corpus (environ 2500 titres provenant de 6 éditeurs québécois au moment de faire l’expérience), avec une représentativité de chaque éditeur proportionnelle à la taille du catalogue auquel nous avions accès. Nous avons fait une démarche de description des images, avec des mots-clés et des couleurs, « à la main » (donc pas d’API impliquée, mais un humain qui faisait le travail). Le fichier de travail est ici.

Dès cette première étape, il nous est apparu évident que nos API auraient du mal à décrire certaines images… Notre échantillon contenait certaines couvertures claires, montrant des images simples. Mais il contenait également des images abstraites, floues, ou avec un traitement artistique particulier qui les rend plus difficiles à décrire, même pour un humain.

echantillon
Quelques images de notre échantillon.

Nous souhaitions par la suite obtenir les résultats des API identifiées. Avec 50 images pour 6 API, l’utilisation des outils de tests manuels en ligne aurait impliqué beaucoup, beaucoup de manipulations… Heureusement, Gaurav Oberai a partagé l’outil qu’il a développé, nommé Cloudy Vision, pour automatiser une démarche similaire à la nôtre en 2016. Il s’agit essentiellement d’un script qui utilise les API, soumet les images, et génère un rapport agrégeant tous les résultats.

Après avoir installé le script, nous avons constaté que les API avaient beaucoup changé depuis 2016. Il fut donc nécessaire de faire des adaptations… Nous en avons profité pour bonifier le script pour lui faire extraire quelques informations supplémentaires et les afficher dans le rapport. Il s’agit des couleurs dominantes, et des annotations en français lorsqu’elles étaient disponibles.

Notre version modifiée du code source est disponible sur le compte Github de Projet TAMIS, et nos modifications seront vraisemblablement intégrées dans le projet d’origine.

Résultats

Le rapport généré par Cloudy Vision est intégralement disponible en ligne.

Nous observons toutefois déjà quelques tendances.

Sur les couleurs, seule l’API d’IBM retourne des noms de couleurs qui correspondent (plus ou moins) à une requête que formulerait un humain. Les codes de couleur retournés par l’API de Google ne sont d’aucune utilité pour les besoins qui nous intéressent.

CloudSight semble identifier la majorité de nos livres… comme des livres! Comme il ne fournit pas de description de ce qui est illustré sur la couverture, il est de bien peu d’utilité.

Les résultats de description d’images ont de l’intérêt pour les photos ou les illustrations réalistes. Les résultats se gâtent pour les illustrations trop stylisées, ou les représentations plus abstraites.

editions_multimondes_9782897730543
Une photo qui amène de bons résultats. Rekognition mentionne « Glacier (.98) , Ice (.98) , Mountain (.98) , Nature (.98) , Outdoors (.98) , Snow (.98) , Iceberg (.91) , Arctic (.78) , Winter (.78) , Boat (.51) », Microsoft « outdoor , water , mountain , snow , hill , man , riding , red , people ,surfing , large , skiing », Clarifai « snow (1.00) , winter (1.00) , ice (.98) , frozen (.96) , sport (.96) , outdoors (.95) , nature (.95) , cold (.95) , frosty (.93) , season (.92) , mountain (.90) , glacier (.89) , horizontal (.89) , frost (.88) , travel (.88) , adventure (.88) » (les résultats d’IBM et Google sont similaires; seuls ceux de CloudSight sont décevants).

editions_hurtubise_9782891448093
Les illustrations sont clairement plus difficiles à analyser. Amazon Rekognition y voit d’abord « Bandage (.96) , First Aid (.96) », l’API de Microsoft ne se mouille pas et mentionne « Others ». L’API d’IBM identifie bien les couleurs, mais n’est pas très utile avec « périphérique de stockage (.82), enregistrement (.80) , presse écrite (.80) , CD-ROM (.70) , boite de céréales (.62) , boîte (.62) ». CloudSight remporte la palme du loufoque avec « white and pink Hello Kitty print smartphone case ».

Il faut noter que les résultats sont assez inégaux. Sur l’illustration précédente, Google a donné des résultats corrects : « cartoon (.94) , facial expression (.94) , text (.93) , flower (.83) , emotion (.82) , clip art (.81) , play (.78) , art (.75) , smile (.75) , child (.74) ». Les écarts de performance sont visibles ailleurs également.

presses_de_l_universite_de_montreal_9782760627130
Pour cette image, Rekognition d’Amazon fait un travail honnête : « Building (.74) , Office Building (.74) , Corridor (.63) , Banister (.61) , Handrail (.61) , Lighting (.61) , Indoors (.53) , Interior Design (.53) , Alley (.52) , Alleyway (.52) , City (.52) , Road (.52) , Street (.52) , Town (.52) , Urban (.52) , Housing ». L’API de Microsoft confond toutefois le corridor bleu et sinueux avec un cours d’eau : « water , scene , fence , pier , photo , bridge , body , river , board , sitting , blue , standing , large , riding , white , boat , sign , man , dock , red , night »

Il faut également noter que seule l’API d’IBM permet d’obtenir des résultats en français. Dans tous les autres cas, les résultats sont en anglais. Cela ajoutera un défi supplémentaire à l’utilisation des résultats. Il existe des solutions pour traduire des textes de façon automatique, et on peut penser que les résultats seront plus satisfaisants sur de simples mots (ce que nous traitons) que pour de longs textes. Toutefois, sans le contexte, on peut également émettre l’hypothèse que certaines traductions seront erronées.

Parmi les autres trouvailles étonnantes, notons que l’API de Google permet d’identifier les oeuvres reprises sur les pages couvertures.

Le Coeur gros
L’API de Google a correctement identifié la peinture de Eugenia Martinez Vallejo partiellement reprise dans la composition de cette couverture.

Nous publierons prochainement notre analyse plus détaillée de ces résultats, afin d’identifier si certaines de ces API sont suffisamment précises pour atteindre nos objectifs initiaux, à tout le moins pour certaines catégories d’images.

Mise à jour 27 septembre 2018: la deuxième partie du texte est maintenant disponible.