Explorer des collections historiques avec Recollection

Par Patrick Peccatte - 30 août 2011 - 19:21 [English]

Créé en 2000 à l’initiative du Congrès, le National Digital Information Infrastructure and Preservation Program (NDIIPP) est un programme collaboratif piloté par la Library of Congress. Sa mission consiste à préserver et rendre accessible les contenus numériques importants du point de vue du patrimoine culturel américain (cultural heritage).

Dans le cadre de ce programme, la Bibliothèque a développé avec la société Zepheira un environnement destiné à collecter, visualiser et explorer des données numériques. Cette application web, Recollection, s’adresse aux bibliothécaires, archivistes, conservateurs, historiens, et plus généralement à toute la communauté des digital humanities qui souhaitent valoriser leurs collections historiques ou patrimoniales numérisées.

Recollection est un service proposé sur le Web (SaaS) qui permet de créer des interfaces personnalisées en présentant les données sous une forme visuelle synthétique et facile à manipuler: listes, arbres, nuages de mots-clés (tag clouds), cartes géographiques, timelines, graphiques, etc.

La plate-forme, gratuite et reposant sur des solutions open source, vient d’ouvrir sa version bêta le 22 août. Elle est accessible sur demande et compte actuellement de nombreuses collections en cours de test, appartenant pour la plupart à différentes institutions américaines partenaires du NDIIPP.

Fonctionnalités utilisateur

Pour illustrer les principales fonctionnalités actuelles de la plate-forme, nous avons construit à partir des données du projet PhotosNormandie une application Recollection que le lecteur est invité à parcourir en cliquant ici [si vous rencontrez des problèmes au chargement, il existe une version plus légère ici].

L’interface est très simple et nous la commenterons donc succinctement.

Carte créée avec Recollection

Vues

L’exemple propose 6 vues différentes (cliquer pour afficher) : Detailed View, Primary View (vue simplifiée), Map, Timeline, Pie Chart, Table.

Recherche

La recherche est dynamique grâce à l’utilisation d’une architecture d’application Ajax. Les résultats s’affichent au fur et à mesure que l’on entre les lettres du terme recherché. Ce comportement est identique pour toutes les vues.
Actuellement, il n’est pas possible d’effectuer des recherches avec des opérateurs (et, ou, sauf).

Facettes

Les facettes sont des composants visuels permettant de retreindre la vue sur les données. Sur Recollection, ce sont des listes de termes et des nuages de mots-clés: Country, Province/State, City, Keywords sur notre exemple. Les sélections dans les facettes peuvent être combinées et agissent comme des opérateurs ‘et‘ implicites. La recherche est elle-même une facette.

Timeline créée avec Recollection

Les informations affichées, les noms des champs, la disposition des vues et des facettes sur la page sont spécifiés lors de la conception de l’application. Cependant, les modèles proposés et les possibilités de mise en forme sont encore limités. On pourra consulter les applications Partner Collections et French 2010 election web archive pour examiner d’autres présentations.

Quelques précisions techniques

Recollection s’appuie sur des standards ouverts et des technologies open source, en particulier RDF pour faciliter l’intégration des données extraites de diverses sources, Simile (MIT) pour l’interopérabilité des interfaces de collecte, Akara pour la transformation des données. Le projet intègre ces composants dans le framework Django, et il est développé en Python et JavaScript. La version 3 d’Exhibit permettant la manipulation de très grandes collections de données accessibles sous de nombreuses facettes sera prochainement utilisée.

Deux formats d’import des données sont actuellement supportés: les feuilles Excel et le format XML MODS, standard développé par la Library of Congress.

Pour notre application, nous avons écrit un programme permettant de créer une feuille Excel à partir des métadonnées IPTC/IIM stockées dans les images et des URL et références des images sur Flickr (exploité à l’aide de l’API de cette plate-forme).

La prise en main du backoffice est simple. La documentation est claire et le support par email efficace.

Le système permet l’augmentation des données, c’est-à-dire la génération de nouveaux champs à partir de champs existants. Il est ainsi possible de créer un champ contenant des données de géolocalisation à partir de libellés de villes et/ou pays contenus dans des champs importés; l’opération est effectuée par Akara en utilisant le service GeoNames. De même, on peut générer un champ date normalisé ou “éclater” un champ contenant des mots-clés en se basant sur un séparateur. Ces nouveaux champs peuvent ensuite être utilisés dans les différentes vues (map, timeline, tag cloud).

Ce type d’enrichissement était déjà possible dans Google Fusion Tables avec lequel Recollection présente plusieurs similarités (import Excel, cartes, graphiques). Fusion Tables néanmoins permet seulement de partager des visualisations de données, pas d’explorer des corpus comme il est possible de le faire avec Recollection. En ce sens, les deux outils n’ont pas exactement la même cible; la Library of Congress estime ainsi que Fusion Tables peut convenir dans certains domaines scientifiques mais n’est pas adapté à l’exploration et à la valorisation des collections patrimoniales.

Recollection stocke une copie des données importées dans un fichier au format JSON en y incluant éventuellement les données augmentées. Il est possible d’exporter ces données selon différents formats: RDF/XML, une variante de Wikitext, des données tabulées, JSON (version Exhibit/Simile), HTML.

Enfin, Recollection propose un embryon de “réseau social” permettant aux membres de la communauté de participer à des groupes et à des discussions.

Mise à jour du 1er septembre 2011:

  • Recollection accepte désormais les formats d’import OAI et ContentDM (OCLC).
  • Un test sur la collection NASA on The Commons est aussi disponible; il s’agit d’une reprise directe de données Flickr permettant d’analyser les nombres de notes, tags et commentaires générés par les utilisateurs.

Merci à Trevor Owens pour son aide lors de la réalisation de nos tests.

Pour en savoir plus

3 Reponses à “ Explorer des collections historiques avec Recollection ”

  1. Bonjour, j’aurais bien aimé suivre vos explications mais je n’accède pas à la recollection de photonormandie comme l’indique ce message :

    “Le fichier de données JSON
    http://recollection.zepheira.com/data/PatrickPeccatte/pn/data.json
    contient des erreurs :
    SyntaxError: unterminated string literal
    Vous aurez l’explication détaillée de l’erreur après ce message.”

    En cliquant sur ok ou annuler, je tombe sur une page sans carte.

  2. @Audrey: Je viens de tester avec Chrome et Firefox, et çà marche. Quel navigateur utilisez-vous ? Tous les navigateurs ne sont pas supportés, voir ici.
    Mise à jour: Il s’agit d’un manque de mémoire sur le poste. Une version plus légère de l’application est disponible ici.

  3. [...] Explorer des collections historiques avec Recollection Créé en 2000 à l’initiative du Congrès, le National Digital Information Infrastructure and Preservation Program (NDIIPP) est un programme collaboratif piloté par la Library of Congress. Source: culturevisuelle.org [...]