Cosa è il “decadimento digitale”?
Cosa è il “decadimento digitale”? In dieci anni il 38% delle pagine web non è più accessibile
In dieci anni quasi il 40% delle pagine web non sono più accessibili, un effetto “decadimento digitale” per cui grandi quantità di notizie stanno svanendo dall’immenso archivio della vita moderna.
E’ quanto emerge da un’analisi del Pew Research Center che ha studiato quasi un milione di pagine web dal 2013 al 2023. Il fenomeno, si legge nel loro sito, è trasversale e si verifica in spazi online diversi, dai collegamenti sui siti istituzionali a quelli di notizie, da Wikipedia ai social media. Secondo il centro studi americano in dieci anni è scomparso il 38% delle pagine web, quasi 4 su 10, e non sono più disponibili persino le pagine più recenti, per esempio l’8% di quelle esistenti nel 2023.
Questo “decadimento digitale” si verifica in molti spazi online diversi. Pew Research ha esaminato i collegamenti che compaiono sui siti web governativi e di notizie, nonché nella sezione “Riferimenti” delle pagine di Wikipedia a partire dalla primavera del 2023. Questa analisi ha rilevato che:
- Il 23% delle pagine web di notizie contiene almeno un collegamento non funzionante, così come il 21% delle pagine web dei siti governativi. I siti di notizie con un livello elevato di traffico e quelli con un livello inferiore hanno la stessa probabilità di contenere collegamenti interrotti. È particolarmente probabile che le pagine Web del governo a livello locale (quelle appartenenti alle amministrazioni cittadine) contengano collegamenti interrotti.
- Il 54% delle pagine di Wikipedia contiene almeno un collegamento nella sezione “Riferimenti” che punta a una pagina che non esiste più.
Quanto ai social network, Pew Research ha raccolto un campione di tweet in tempo reale durante la primavera del 2023 sulla piattaforma di social media X (allora nota come Twitter) e li abbiamo seguiti per tre mesi.
- Quasi un tweet su cinque non è più pubblicamente visibile sul sito pochi mesi dopo essere stato pubblicato. Nel 60% di questi casi, l’account che originariamente aveva pubblicato il tweet è stato reso privato, sospeso o cancellato del tutto. Nel restante 40% il titolare dell’account ha cancellato il singolo tweet, ma l’account esisteva ancora.
- Alcuni tipi di tweet tendono a scomparire più spesso di altri. Oltre il 40% dei tweet scritti in turco o arabo non sono più visibili sul sito entro tre mesi dalla pubblicazione. E i tweet provenienti da account con le impostazioni predefinite del profilo hanno maggiori probabilità di scomparire dalla vista del pubblico.
Per quanto riguarda i siti di informazione: l’istituto di ricerca ha analizzato 500.000 pagine da 2.063 siti web classificati come “Notizie/Informazioni” da comScore. Le pagine sono state raccolte dallo snapshot Common Crawl di marzo/aprile 2023 di Internet.
Tra i siti di notizie campionati, questa raccolta conteneva più di 14 milioni di collegamenti che puntavano a un sito web esterno. Circa il 94% di queste pagine contiene almeno un collegamento esterno. La pagina mediana contiene 20 collegamenti e le pagine nel 10% più alto per numero di collegamenti hanno 56 collegamenti.
Come i siti Web governativi, la stragrande maggioranza di questi collegamenti rimanda a pagine HTTP protette (quelle con un URL che inizia con “https://”). Circa il 12% dei collegamenti su questi siti di notizie puntano a un file statico, come un documento PDF. E il 32% dei link sui siti di notizie sono stati reindirizzati a un URL diverso da quello a cui puntavano originariamente, leggermente meno del 39% dei link esterni sui siti governativi che reindirizzano.
Quando hanno monitorato questi collegamenti fino alla loro destinazione, hanno scoperto che il 5% di tutti i collegamenti nelle pagine dei siti di notizie non sono più accessibili. E il 23% di tutte le pagine campionate contenevano almeno un collegamento non funzionante.
I collegamenti interrotti sono prevalenti sui siti di notizie più trafficati quanto lo sono sui siti meno trafficati. Circa il 25% delle pagine dei siti web di notizie che rientrano nel 20% più alto in termini di traffico del sito hanno almeno un collegamento interrotto. Questo è quasi identico al 26% dei siti nel 20% più povero in termini di traffico del sito.
Commenti
Posta un commento