İnternet çürüyor: Dijital hafızamızı mı kaybediyoruz?

Her gün binlerce web sayfası iz bırakmadan kayboluyor. Onlarla birlikte anılar, bilgiler ve tarihimizin parçaları da yok oluyor. Her şey bir tık uzağımızdaymış gibi görünürken, İnternet dediğimiz Dünya Çapında Ağ'ın (WWW) -küresel medeniyetimizin o muazzam dijital arşivinin- sessizce buharlaşması paradoksal.
Yaklaşık 4.000 yıl önce, bir tüccar, kusurlu bakır külçeleri hakkında bir kil tablete şikayette bulunmuştu. Bu şikayet günümüze kadar ulaşmıştır. Ancak, sadece on beş yıl önce yayınlanan bloglar, forumlar ve kişisel web siteleri ortadan kaybolmuştur. Bir Tunç Çağı şikayetinin, 2009 tarihli bir gönderiden daha kalıcı olması nasıl mümkün olabilir?
İşin sırrı internetin kırılganlığında yatıyor. Dijital içerik, aktif olarak korunmazsa, doğası gereği geçicidir.
Kil, papirüs veya kağıt gibi fiziksel medyaların aksine, web siteleri bakım gerektiren sunuculara, yenilenmesi gereken alan adlarına ve er ya da geç güncelliğini yitirecek formatlara bağımlıdır.
Bir sunucu ortadan kaybolduğunda, bir alan adı süresi dolduğunda, yönlendirmeler kötü yönetildiğinde veya bir web sitesi eski teknolojilere güvendiğinde sonuç aynıdır: içerik erişilemez hale gelir ve sonunda ortadan kaybolduğunda kimse fark etmez.
Bu olguya bağlantı çürümesi denir ve devam etmektedir. 2007 ile 2023 yılları arasında paylaştığım tweet'lerin analizi sonucunda, bağlantıların %13'ünün bozuk olduğu ve tweet on yıldan eskiyse bu oranın %30'a çıktığı tespit edildi. Başka bir deyişle, on yıl önce bağlantısı verilen içeriğin neredeyse üçte biri erişilemez hale geldi... hatta tamamen yok oldu.
Sessiz karartma Blade Runner 2049'da , replikant aktivistlerin neden olduğu büyük bir elektrik kesintisi tüm dijital kayıtları siler. Ancak, göz açıp kapayıncaya kadar büyük miktarda bilginin yok olması için böylesine uç bir senaryoya gerek yoktur. Ancak filmde olduğu gibi, bu silinmeler genellikle özel şirketler tarafından alınan bilinçli kararların sonucudur. Örneğin, Yahoo! Answers, Geocities, Tuenti veya Meristation forumları gibi platformların kapanması, hayatlarımızın ve dijital kültürümüzün bir bölümünü belgeleyen milyonlarca metin, görüntü ve konuşmanın kaybolması anlamına geliyordu.
Öte yandan, hükümet web sitelerinde yer alan bilgileri korumaya yönelik politikalar uygulayan önceki yönetimlerin aksine, Donald Trump yönetimi Hastalık Kontrol ve Önleme Merkezleri (CDC), Ulusal Okyanus ve Atmosfer İdaresi (NOAA) ve Çevre Koruma Ajansı (EPA) gibi kurumlardan binlerce sayfa ve resmi veriyi sistematik olarak kaldırdı .
Bu silme işlemleri öncelikle halk sağlığı, iklim değişikliği, çeşitlilik ve sosyal haklarla ilgili içerikleri etkilemiştir. Kamu ve bilimsel bilgide önemli bir kayba yol açmış ve özellikle bilim camiasında endişe yaratmıştır.
Paradoks ortada: Medeniyetimiz her zamankinden daha fazla içerik üretiyor, ancak bunu değişken formatlarda yapıyor ve dahası, bu içeriği düşündüğümüzden daha hızlı kaybediyor.
Tüm bunlar olurken, giderek daha fazla bilgi (meclis tutanakları, resmi bültenler, bilimsel makaleler ve teknik kılavuzlar gibi) çoğunlukla fiziksel bir kopyası olmadan dijital formatta yayınlanıyor.
Paradoks ortada: Medeniyetimiz her zamankinden daha fazla içerik üretiyor, ancak bunu değişken formatlarda yapıyor ve dahası, bu içeriği düşündüğümüzden daha hızlı kaybediyor.
Bu duruma rağmen, dijital hafızamızı korumaya yönelik çabalar mevcut. Bunlardan en bilineni, 1996'dan beri milyarlarca web sayfasını arşivleyen İnternet Arşivi'nin Wayback Machine'idir. Ulusal düzeyde, İspanya Ulusal Kütüphanesi veya Birleşik Krallık ve Avustralya'daki muadilleri gibi kurumlar da dijital mirasımızın bir kısmını korumak için çalışmaktadır.
Neler yapılıyor? Benzer şekilde, Trump yönetiminin gerçekleştirdiği toplu ve kasıtlı silmeler karşısında, çeşitli kuruluşlar silinen bilgileri arşivlemek için iş birliği yapıyor. Bu girişimler, yalnızca araştırma amacıyla değil, aynı zamanda tarihsel kayıtların korunması amacıyla da kamu verilerine gelecekte erişim sağlamayı amaçlıyor.
Elbette, bu basit bir iş değil. Günümüzün WWW'si, 1990'lardakinden çok daha karmaşık: içerik artık basit HTML belgeleri değil, dinamik ve etkileşimli. Dahası, sosyal medya veya multimedya içeriklerini arşivlemek, platformların kendi dayattığı engellerle daha da karmaşıklaşan muazzam bir teknik zorluğun yanı sıra, kullanıcı gizliliği ve onayıyla ilgili etik ve yasal ikilemleri de beraberinde getiriyor. Başka bir deyişle, her şey korunamaz veya korunmamalıdır.
Yine de hepimiz katkıda bulunabiliriz: Save Page Now, Wayback Machine veya Archive.today gibi araçlar, herkesin herhangi bir web sayfasının URL'sini girerek bir kopyasını arşivlemesine olanak tanır.
Belki 4000 yıl sonra, hiç kimse hatalı külçelerle ilgili şikayetlerimizi bulamayacak, ama tariflerimizi, memlerimizi ve forum tartışmalarımızı bulacaklar ve bunlarla birlikte kim olduğumuza dair bir ipucu bulacaklar.
Sonuç olarak, WWW'nin çürüdüğünü söylemek, bir ormanın çürüdüğünü söylemek gibidir: her zaman bir şeyler ölür, ama aynı zamanda bir şeyler de doğar , çünkü ağ sürekli değişmektedir. Önemli olan , parçaları yakalayabileceğimizi, özünü koruyabileceğimizi ve teknolojik dalgalanmalara veya birkaç şirket ya da hükümetin kararlarına karşı daha dayanıklı, daha sağlam bir dijital bellek oluşturabileceğimizi bilmektir.
Belki 4000 yıl sonra, hiç kimse hatalı külçelerle ilgili şikayetlerimizi bulamayacak, ama tariflerimizi, memlerimizi ve forum tartışmalarımızı bulacaklar ve bunlarla birlikte kim olduğumuza dair bir ipucu bulacaklar.
(*) Oviedo Üniversitesi Bilgisayar Bilimleri Bölümü'nde tam profesör.
(**) Fikir ve akademik bilgiyi kamuoyuyla paylaşmayı amaçlayan, kâr amacı gütmeyen bir kuruluştur. Bu makale, Creative Commons lisansı altında burada yeniden üretilmiştir.
2013'teki web sitelerinin onda dördü artık yok 
Fotoğraf: iStock
1 Ocak'ta, bildiğimiz haliyle internet 42 yaşına girdi ve bu kırk yılı aşkın süredir kullanıcılar web'de muazzam miktarda bilgi üretti: Statista tarafından derlenen bilgilere göre, yalnızca 2023'te 120 zettabayt (ZB) veri vardı ve bu yıl bu rakamın %150 artarak 181 ZB'a ulaşması bekleniyor. Bu rakamı daha iyi anlamak için, bir ZB bir milyar terabayta (TB) eşdeğerdir ve bugün piyasadaki en büyük SDUC tipi hafıza kartları yalnızca 128 TB kapasiteye ulaşıyor.
Ancak çevrimiçi yüklenen içerik her zaman kalıcı olmuyor. Muhtemelen bir bağlantıya birden fazla kez tıklamış ve sizi aradığınız şeye yönlendirmeyen "404 Bulunamadı" mesajıyla karşılaşmışsınızdır. Pew Araştırma Merkezi'nin 2024 tarihli bir raporu , devlet portalları, haber kaynakları, sosyal medya ve Wikipedia gibi güvenilir kabul edilen sitelerde bile bazı dijital içeriklerin zamanla kaybolduğunu ortaya koydu.
Belgede, "İnternet, yüz milyarlarca indeksli web sayfasıyla modern yaşamın akıl almaz derecede geniş bir deposudur. Ancak dünyanın dört bir yanındaki kullanıcılar kitaplara, görsellere, haberlere ve diğer kaynaklara erişmek için web'e yönelirken, bu içerik bazen kaybolmaktadır," ifadeleri yer alıyor.
Çalışmada, internetin farklı zamanlardaki anlık görüntülerini düzenli olarak derleyen bir arşiv hizmeti olan Common Crawl aracılığıyla 2013 ve 2023 yılları arasında kaydedilen yaklaşık bir milyon web sayfası örneği analiz edildi. Bulgular , analiz edilen tüm sayfaların %25'inin Ekim 2023 itibarıyla erişilemez durumda olduğunu gösterdi. Bu rakam, erişime kapalı olan ancak hâlâ etkin olan birincil alan adından gelen sayfaların %16'sını ve kök alan adları hizmet vermeyi bıraktığı için erişilemeyen web sitelerinin %9'unu içeriyor.
Analiz ayrıca , sayfa ne kadar eskiyse, kaybolma olasılığının da o kadar yüksek olduğunu ortaya koydu: 2013'te toplanan örneklerin %38'ine 2023'te erişilemiyordu ; ancak 2021'de toplanan sayfaların bile yaklaşık beşte biri iki yıl sonra kullanılamaz hale geldi.
Dijital bozulma yalnızca kişisel sayfaları veya düşük trafikli siteleri etkilemiyor. Pew Araştırma Merkezi, Common Crawl'ın Mart/Nisan 2023 anlık görüntüsünü kullanarak Amerika Birleşik Devletleri'ndeki 500.000 yerel, eyalet ve federal hükümet web sayfasını inceledi ve Ekim 2023 itibarıyla bu sayfaların %21'inin en az bir bozuk bağlantı içerdiğini ve web sayfalarındaki bağlantıların %16'sının başlangıçta işaret ettikleri URL'den farklı URL'lere yönlendirildiğini tespit etti.
Haber kuruluşları için örneklemde ayrıca Common Crawl'ın Mart/Nisan 2023 anlık görüntüsünden 500.000 sayfa yer aldı. Sayfalar, hedef kitle ölçüm şirketi comScore tarafından "Haber/Bilgi" olarak sınıflandırılan 2.063 web sitesinden geldi ve çalışma sırasında, yani Ekim 2023'te, sayfaların %23'ünde bozuk bağlantılar olduğu tespit edildi.
Dünyanın en çok ziyaret edilen sitelerinden biri olan Wikipedia'nın bile şu sorunu var: 50.000 İngilizce sayfadan oluşan bir örneklemin %54'ünde "Referanslar" bölümünde artık var olmayan bir sayfaya yönlendiren en az bir bağlantı bulunuyor.
eltiempo