L’internet et les sites web évoluent à toute allure. Si vous êtes curieux de voir comment certains sites ont changé ou si vous voulez retrouver un site abandonné ou récupérer un site en perdition, sachez que c’est possible! Il existe un service en ligne gratuit pour cela.
Sommaire
La machine à remonter l’internet
Internet archive aspire le Web depuis 1996. Les sites archivés par les robots de la fondation sont en ligne depuis 2001 et représentent un volume de plus de 240 milliards de pages.
Cette collection, destinée aux chercheurs comme au grand public, constitue à ce jour la plus importante archive du Web.
La machine à remonter le temps (Wayback Machine) est l’interface permettant, à partir de l’adresse d’un site web, de consulter ses versions précédentes.
Les clichés sont disponibles de 6 à 12 mois après leur capture. La fréquence des instantanés est variable, toutes les mises à jour de sites Web ne sont pas enregistrées et des intervalles de plusieurs semaines peuvent être observés.
En 2009 la Wayback Machine contenait près de 3 pétaoctets de données et son augmentation est de 100 téraoctets par mois. Les données sont stockées dans des systèmes fabriqués par Capricorne Technologies, des Petabox rack.
Le nom « Wayback Machine » est une référence à une partie de The Rocky and Bullwinkle Show dans lequel M. Peabody, un chien à l’air professoral et son assistant Sherman (un animal de compagnie humain), utilisent une machine à remonter le temps appelée « WABAC Machine » pour décrire des évènements historiques célèbres. (source Wikipedia)
Le partage gratuit de ce patrimoine connaît certaines limites technologiques: seule la partie du web dit visible est archivée et certaines pages ne s’affichent pas dans leur intégralité en raison de liens brisés. Néanmoins, c’est une source d’information extraordinaire!
Parallèlement au projet d’absorption massif du Web, la fondation développe des collections raisonnées de documents, dans une approche sélective et thématique (mais essentiellement américaine).
Comment ça marche?
Rien de plus simple!
- Accédez au site www.waybackmachine.org .
- Indiquez l’URL du site que vous recherchez. Vous obtenez un écran contenant l’histogramme du nombre de copies depuis 1996 et, pour une année donnée, le calendrier par mois.
- Cliquez sur l’une des dates indiquées pour afficher la copie de la page à cette date.
- Naviguez dans les différentes versions depuis les flèches dans le haut de l’écran.
Et voici la preuve par l’exemple avec Le Monde en ligne, version 1996, 2000, 2004, 2009 et 2013. Avouez que l’évolution est intéressante!
A quoi ça sert?
Les usages sont multiples. De la simple curiosité à la recherche scientifique en passant par des utilisations professionnelles plus pragmatiques. En voici quelques exemples.
- Référencement. Cet outil vous permet de vérifier que le nom de domaine que vous voulez acquérir n’a pas été spammé ou n’est pas « blacklisté ».
- Sauvetage. En cas de mésaventure avec votre site web et en l’absence de backup valable, vous pourrez quand même récupérer le contenu du site avant l’incident. Cela peut certainement dépanner certains malchanceux.
- Audit. Récupérer quelques « snapshots » d’un site permet d’analyser la stratégie web d’une organisation sur le long terme (en comparant les différentes versions d’un même site).
- E-réputation. Rien ne s’efface jamais entièrement de l’internet. Cet outil est la preuve qu’il est possible de retrouver les traces laissées sur un site, même 10 ans auparavant. Un buzz négatif, même rapidement étouffé, peut donc être déterré à tout moment. Qu’on se le dise!
- Recherche & veille. Vous souhaitez retrouver un site qui n’existe plus ou vous désirez vous faire une idée de l’évolution de l’offre d’un concurrent ou vous cherchez des informations historiques sur un secteur, tout cela est possible avec wayback machine.
Wayback downloader
En plus de la Wayback Machine, il existe aussi Wayback Downloader, qui vous permet de télécharger des sites web complets à partir de l’Internet Archive Wayback Machine.
Pour un prix modique (15$), vous économisez des heures de travail en n’ayant pas à télécharger chaque page individuellement, sans compter les images. Et chaque site fourni comprend:
- 10 niveaux de profondeur, de la page d’accueil (1er niveau) aux pages liées (2e niveau), puis aux pages liées à ce 2ème niveau et ainsi de suite.
- Toutes les pages internes correctement liés les uns aux autres.
- Tous les fichiers css, images, flash et javascript
- Toutes les URL d’origine qui utilisent mod rewrite (htaccess) afin de conserver le page rank
- Une intégration WordPress en pour pouvoir facilement créer de nouvelles pages
Je n’ai pas testé l’application, mais j’imagine que cela peut aider en cas de crash ou problème majeur sur un site. En tout cas, cela permet de ne pas recommencer à zéro. Et vous pouvez consulter des exemples sur le site.
En conclusion,
On le répète assez souvent, sur le net rien ne se perd, rien ne s’efface vraiment. En voici une preuve de plus!
Bonjour, en 2015 ca représente 439 milliards d’url.
Merci pour cet article très intéressant pour retrouver des contenus intéressants !! 🙂
Il y a un site qui a une version en français et contient un support en français pour le même prix avec une démo pour récupérer la page d’accueil uniquement pour faire un test gratuit : https://www.waybackmachinedownloader.com/fr/
Pour restaurer un site depuis Web Archive, vous pouvez utiliser ce service : https://fr.archivarix.com/
Excellent post sur les archives. suite à une perte de donnée d’un client. j’ai remonte un site complet à partir du dit site.
Merci pour votre commentaire. En effet, c’est une aide précieuse.
Merci Merci Merci