La storia di Internet? – di Marco Guastavigna

Pubblicato su “Insegnare”, 9, 2004

 

A chi non è capitato di scoprire che una pagina web, magari individuata con grande fatica, non è più raggiungibile? Credo a ben pochi. Bene, c’è chi si è inventato una (parziale) soluzione al problema. Sto parlando di “Internet Archive: Wayback Machine”, un gigantesco (più di 100 terabytes!) archivio di pagine web, raccolte a partire dal 1996. È quindi assolutamente possibile che una pagina giacente nei nostri segnalibri o il cui url sia stato da noi scoperto attraverso un motore di ricerca, mediante il link da un altro sito, grazie all’indicazione di un amico e così via e che risulti scomparsa ad una normale “chiamata” del nostro programma di navigazione, sia raggiungibile in copia attraverso webarchive.org. Basterà inserire l’indirizzo così come lo conosciamo nell’apposito spazio e, se la pagina è stata a suo tempo archiviata, potremo accedervi. Spesso ciò vale anche per le connessioni ad altre pagine possibili da quella da noi cercata in origine. Non sempre dell’originale è stato archiviato proprio tutto: il più delle volte non ci sono le immagini, le parti secondarie delle pagine organizzate in griglie complesse i o i files da scaricare e qualche sito (per esempio Virgilio.it)  ha impedito le procedure di archiviazione, ma l’opportunità resta davvero interessante, perché risolve, come detto in parte, il problema della caducità degli indirizzi di Internet, ancora abbastanza frequente, anche se meno del passato. E non basta. Inserendo un indirizzo si ottiene in realtà qualcosa di più ampio e significativo del semplice accesso alla pagina cercata, soprattutto quando essa abbia subito variazioni nel tempo. Ci si presenta infatti una sorta di tabella, divisa in anni, ed è possibile quindi accedere a diverse versioni della pagina che ci interessa. Nell’archivio, inoltre, sono presenti non solo pagine che nel frattempo siano state cancellate, ma anche pagine tuttora esistenti. Inserendo l’indirizzo web del CIDI, per esempio, si accede a 22 diverse versioni della pagina iniziale, corrispondenti a 22 aggiornamenti giudicati significativi della pagina stessa tra 1999 e 2003. Questo significa che non solo è possibile recuperare informazioni che sembravano perdute, ma che, in una certa misura, è anche possibile ricostruire i percorsi e le variazioni che i siti di nostro interesse hanno vissuto, in chiave magari di impostazione del design, di qualità, quantità, impostazione delle informazioni, di attenzione all’usabilità e all’accessibilità, di adeguamento alle mode tecnologiche del momento e così via. Il lettore di questo articolo provi per esempio a inserire nella casella Wayback Machine il sito del quotidiano Repubblica; non otterrà tutte le pagine iniziali del quotidiano, ma avrà comunque accesso a una massa imponente di informazioni (se del 2000 sono presentate 98 variazioni – e quindi meno del numero dei giorni dell’anno, del 2001 ci sono ben 823 pagine – e quindi molto più del doppio dei giorni dell’anno). Webarchive si avvale di alcune collaborazioni istituzionali, tra cui la Biblioteca del Congresso e varie fondazioni, ha numerosi collaboratori individuali e dispone anche di un mirror -fuori dal gergo, di una duplicazione, collegato alla Biblioteca di Alessandria d’Egitto, il che aggiunge ulteriore fascino alla dimensione storica dell’iniziativa. Il nostro interesse è poi destinato a crescere ulteriormente, perché il sito propone una serie di collezioni organizzate di archivi tematici, per esempio sui siti nati dopo l’11 settembre 2001 o su quelli che si sono occupati della contestata elezione di Bush o ancora sui “Pionieri del web”. Oltre al progetto sommariamente descritto finora, Webarchive ne propone un altro, attualmente in beta testing - fuori dal gergo, in versione di collaudo: Recall, full text search. Si tratta di una ricerca su tutto il testo di più di 11 bilioni di pagine, realizzate ed archiviare sempre a partire dal 1996, che funziona con lo stesso modello logico-operativo di un motore per parole chiave. Vi sono anche possibilità di ricerca avanzata, importante in particolare per ampliare e restringere le indicazioni temporali all’interno delle quali effettuare la ricerca stessa.

Su Internet per approfondire

Il progetto Internet Archive

http://www.archive.org/web/web.php

Il mirror

http://www.archive.org/web/web.php

CIDI

http://www.cidi.it

Quotidiano Repubblica

http://www.repubblica.it

Navigare in rete con Mozilla

http://www.mozillaitalia.org/