osint:plateformedecache

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
osint:plateformedecache [2020/08/16 15:21]
tek
osint:plateformedecache [2020/08/16 16:42]
tek
Ligne 1: Ligne 1:
-====== Internet n'oublie jamais ======+====== Internet n'oublie jamais : utiliser le cache dans des investigations ======
  
 Il existe deux types de plateformes de cache que l'ont peut utiliser dans des enquêtes en ligne. Tout d'abord les caches automatiques des moteurs de recherche, ceux-ci mettent les page en cache lorsqu'ils les indexent automatiquement et les garde jusqu'à ce que la page soit indexée à nouveau ou un certain temps si la page n'est plus disponible. Ces pages en cache sont disponible via l'interface de recherche des principaux moteurs de recherche. Ensuite, il y a des plateformes de caches, soit automatique comme la célèbre [[https://web.archive.org/|Wayback Machine de Internet Archive]], soit manuelles comme la très utile [[https://archive.fo/|archive.today]] Il existe deux types de plateformes de cache que l'ont peut utiliser dans des enquêtes en ligne. Tout d'abord les caches automatiques des moteurs de recherche, ceux-ci mettent les page en cache lorsqu'ils les indexent automatiquement et les garde jusqu'à ce que la page soit indexée à nouveau ou un certain temps si la page n'est plus disponible. Ces pages en cache sont disponible via l'interface de recherche des principaux moteurs de recherche. Ensuite, il y a des plateformes de caches, soit automatique comme la célèbre [[https://web.archive.org/|Wayback Machine de Internet Archive]], soit manuelles comme la très utile [[https://archive.fo/|archive.today]]
Ligne 15: Ligne 15:
 {{ :osint:cache2.png?800 |}} {{ :osint:cache2.png?800 |}}
  
-Ici, la page mise en cache date du 10 août, soit 6 jours avant que j'y accède au moment de l'écriture de ce guide.+Ici, la page mise en cache date du 10 août, soit 6 jours avant que j'y accède au moment de l'écriture de ce guide. La mise en page n'est pas aussi parfaite que sur la page originale, probablement à cause de problèmes de cache avec le CSS. (Attention, il faut bien noter que seul le HTML est mis en cache, ce qui veut dire que toutes les ressources comme les images ou le CSS sont encore stockées sur le site original, pensez-y en terme de sécurité dans vos recherche, voir la partie [[osint:preparer-son-poste|Préparer son poste]] de ce guide)
  
 +Ces pages peuvent être très utile pour voir des modifications récentes sur des pages, mais plus encore pour accéder à du contenu supprimé, les moteurs de recherche indexent énormément de choses, y compris des pages de réseaux sociaux. Toutes les astuces de recherche listées dans la page précédentes sur les [[osint:moteursderecherche|moteurs de recherches]] peuvent vous aider pour retrouver du contenu supprimé récemment. Par exemple, vous pouvez utiliser une recherche comme //site:twitter.com/n0thing2hide// dans Google pour avoir une liste des tweets du compte Twitter de nothing2hide et retrouver en cache les tweets supprimés récemment.
 +
 +Les moteurs de recherche suivant donnent également accès au cache de leurs pages indexées:
 +  * [[https://www.bing.com/|Bing]] 
 +  * [[https://yandex.com/|Yandex]] 
 +  * [[https://www.baidu.com/|Baidu]]
  
 ===== Les plateformes de cache ===== ===== Les plateformes de cache =====
 ==== Wayback Machine ==== ==== Wayback Machine ====
  
-Fouiller les archives d’Internet avec Internet Archive Wayback Machine ou archive.today\\ +La [[https://web.archive.org/|Wayback Machine]] de [[http://archive.org/|Internet Archive]] est probablement votre meilleur outil de cache dans une investigation en ligne. L'ONG Internet Archive s'est donné pour mission d'archiver le plus possible d'Internet afin de sauvegarder des connaissances et les mettre à disposition de tout le monde. Pour cela, iels ont développé des robots qui parcourent le web et archivent des pages web. Ces pages sont ensuite accessibles dans la Wayback Machine.
-Remonter le temps avec l’extension Way Back Machine+
  
 +Prenons le site de Nothing 2 Hide par exemple, nothing2hide.org. En faisant une recherche dans [[https://web.archive.org/web/2019*/http://nothing2hide.org/|la WayBack Machine]] avec l'url http://nothing2hide.org/, on voit un historique de toutes les sauvegardes faites par Internet Archive:
 +
 +{{ :osint:cache3.png?800 |}}
 +
 +Par exemple, voici comment était le site de Nothing 2 Hide en [[https://web.archive.org/web/20180710130825/https://nothing2hide.org/fr/|Juillet 2018]] : 
 +
 +{{ :osint:cache4.png?600 |}}
 +
 +Une fonctionnalité intéressante de la Wayback Machine est la possibilité de voir toutes les pages archivées pour un site web. Pour cela, il faut faire une recherche en ajoutant un ***** à votre rercherche, par exemple [[https://web.archive.org/web/*/http://nothing2hide.org/*[http://nothing2hide.org/*]] :
 +
 +{{ :osint:cache5.png?600 |}}
 +
 +Attention, les sites peuvent demander à avoir leurs données supprimées de la Wayback Machine, c'est par exemple ce qu'à fait l'entreprise vendeuse de stalkerware [[https://www.vice.com/en_us/article/nekzzq/wayback-machine-deleting-evidence-flexispy|Flexispy]] lorsque les média se sont intéressés à ce marché. Il est dont tout à fait possible que certains sites qui vous intéressent ne soient pas accessible dans la Wayback Machine.
 +
 +Les extensions pour navigateurs de la Wayback Machine sont très utiles pour faire des recherches rapidement, elles sont disponibles pour [[https://addons.mozilla.org/en-US/firefox/addon/wayback-machine_new/|Firefox]] et [[https://chrome.google.com/webstore/detail/wayback-machine/fpnmgdkabkmnadcjpehmlllkndpkmiak|Chrome]].
 +
 +Une fois installé, vous pouvez retrouver les versions récentes d'un site en cliquant sur l'icone Internet Archive de votre barre de menu:
 +
 +{{ :osint:cache6.png?150 |}}
  
 ==== Archive.today ==== ==== Archive.today ====
  
 +La plateforme [[https://archive.is/|archive.today]] permet de sauvegarder des pages web. Contrairement à Internet Archive, elle ne sauvegarde aucune page à moi qu'une personne le demande via leur interface, mais comme elle est assez largement utilisée, elle contient des sauvegardes de beaucoup de sites.
 +
 +Pour faire une recherche, allez sur le site et cherchez une url dans la partie "I want to search the archive for saved snapshots", par exemple avec [[https://archive.is/http://nothing2hide.org/|http://nothing2hide.org/]] :
 +
 +{{ :osint:cache7.png?600 |}}
 +
 +Il n'y a donc qu'une seule sauvegarde de cette page en [[https://archive.is/nsBeG|Décembre 2017]]. 
 +
 +Comme avec la Wayback Machine, vous pouvez également chercher toutes les pages d'un domaine, cette fois ci en faisant une recherche avec le domain sans préfixe, c'est à dire nothing2hide.org et non pas https://nothing2hide.org/. Par exemple [[https://archive.is/nothing2hide.org|ici]] : 
 +
 +{{ :osint:cache8.png?600 |}}
 +
 +===== Aller plus loin ======
 +
 +Comme indiqué précedemment, ces deux plateformes de cache peuvent également permettre de sauvegarder des pages intéressantes pour vos recherches.
  
 +Quelques ressources complémentaires sur le cache: 
 +  * [[https://kit.exposingtheinvisible.org/fr/how/web-archive.html|Récupération et Archivage de l'Information Depuis des Sites Web]] 
  
 +Plusieurs outils en ligne de commande peuvent être intéressants pour automatiser des recherches ou le téléchargement de données : 
 +  * [[https://github.com/hartator/wayback-machine-downloader|wayback-machine-downloader]] permet de télécharger du contenu de la Wayback machine 
 +  * [[https://github.com/pastpages/savepagenow|savepagenow]] permet de sauvegarder une page dans la Wayback Machine
 +  * [[https://github.com/pastpages/archiveis|archiveis]] permet de sauvegarder une page dans archive.today