La Proprioception : Le « connais-toi toi-même » de l’archive Web

L’équipe R&D du Dépôt Légal du Web de l’Ina a développé un système de fouille de données basé sur les métadonnées de collecte. Le dispositif permet d’explorer en temps réel des indicateurs de mesure de l’archive. Cette nouvelle approche d’exploration statistique offre au fil du temps une vision d’ensemble des contenus archivés, permettant ainsi l’adaptation des outils et méthodes de collecte.

Pour plus de détails techniques sur la mise en oeuvre de cet outil et un accès au code (Open Source) de calcul des statistiques, vous pouvez vous rendre sur la page GitHub du projet.

Une exploration de surface

L’outil, dit de « proprioception » présenté dans ce billet a été conçu pour répondre à des besoins d’analyse statistique de l’archive Web. L’ambition était de répondre en un temps très bref à des requêtes génériques à partir d’une énorme quantité de données en s’appuyant sur une approche située à mi-chemin entre la fouille de donnée classique et les interrogations de bases de données.

Vous avez-dit proprioception ?

La proprioception est un terme emprunté aux sciences cognitives. Il renvoie à la perception de son propre corps par un individu. La proprioception explique qu’il nous soit possible de se toucher le nez sans se crever l’oeil : nous savons intuitivement et à chaque instant où se trouve notre main et notre nez.

Ce concept nous a semblé particulièrement pertinent pour qualifier la fouille de données dans l’archive web constituée au titre du Dépôt Légal. En effet, tout comme un individu a la conscience de son schéma corporel, une archive du Web peut se représenter au travers d’indicateurs simples et quantifiables.

Une connaissance basée sur les métadonnées

Le DAFF (Digital Archive File format) est le format de stockage des archives Web à l’Ina. Ce format est utilisé avec une séparation stricte des données et des métadonnées. Lorsqu’un contenu (image, page web, feuille de style) est archivé, nous stockons deux enregistrements distincts :

  • la donnée (signature du contenu, le contenu lui-même)
  • la métadonnées, qui décrit la donnée archivée (URL, date, signature du contenu, taille, type, etc.)

Les métadonnées et les données sont stockées séparement. Les métadonnées représentent, en terme de volume de stockage, une portion moindre de l’archive, mais elles contiennent des informations riches et essentielles ; c’est pourquoi l’un des outils développés pour la « proprioception » n’exploite que les informations issues des métadonnées.

Une exploration en temps réel

L’interaction en temps réel est primordiale pour l’exploration et le diagnostic, elle s’appuie sur un système capable de répondre à des questions génériques relativement complexes en un temps extrêmement court. S’il est facile de consulter en quelques millisecondes un des milliards de documents conservés dans l’archive, il est plus difficile de répondre rapidement à des questions apparemment aussi simples que celles-ci :

  • « Comment le nombre d’image collectées sur arte.tv a-t-il évolué entre 2012 et 2013 ? »
  • « Quelle est la taille moyenne d’une animation Flash dans l’ensemble des sites collectés ? »
  • « Quel est le nombre d’URL uniques collectés sur le domaine .fr en 2013 ? »

Cette difficulté est liée aux volumes d’information à traiter. A ce jour, l’archive compte plus de 30 milliards d’enregistrements de métadonnées (croissance 2013 : 7 milliards). Afin de rendre possible des temps de réponse de quelques secondes plutôt que plusieurs dizaine d’heures, le nombre de données à traiter pour produire des réponses doit être réduit.

Calculer les indicateurs à l’avance

Afin d’accélérer le temps de traitement, il faut donc réduire la quantité de données à traiter pour répondre aux requêtes et contraindre la forme des requêtes. Les requêtes possibles sont contraintes à la forme suivante :
Quelle est la valeur de INDICATEUR lorsque CRITERE_a vaut X_a et CRITERE_b = X_b [...]
Nous introduisons la notion de critères (filtres) et d’indicateurs (valeur quantifiable) qui sont calculés à partir des métadonnées et la valeur des indicateurs pour l’ensemble des combinaisons possibles de critères est précalculée.
Pour l’année 2013, cela représente environ 60 millions de combinaisons. Grâce à cette opération, les données on été réduites d’un facteur supérieur à 100 sur cette seule année. Les résultats précalculés sont rendus accessibles via le module Hadoop Impala, qui permet d’obtenir des réponses dans des délais très courts.

cloudera_impala_2013

Visualisation

Pour une compréhension intuitive, les résultats s’affichent dans une interface de consultation graphique. Les questions génériques sont posées par l’intermédiaire d’un formulaire relativement simple dans lequel l’utilisateur choisit quel critère sera affiché en abscisse et quel indicateur sera représenté en ordonnée. Les résultats s’affichent sous la formes de graphiques.

Voici quelques exemples de résultats pour les questions posées plus haut.

Évolution du nombre d’images collectées sur arte.tv entre 2012 et 2013 :
images_arte_2012-2013

Taille moyenne d’une animation Flash collectée en 2013 :
flash_average_size_2013

Nombre d’URL uniques collectées dans le domaine .fr en 2013 :
url_tld_2013

Nous avons produit un outil hybride capable, en restreignant la forme des questions auxquelles il peut répondre, de calculer  en quelques secondes des indicateurs statistiques de l’archive complexes.  Cet outil permet au quotidien d’assurer la qualité des collectes, en permettant notamment de moduler automatiquement les fréquences de collecte des robots.
Edit 01/05/15 : Cet article a été pour l’essentiel rédigé par David Rapin

Share
Ce contenu a été publié dans Actualités, avec comme mot(s)-clé(s) , , , , , . Vous pouvez le mettre en favoris avec ce permalien.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *