Möguleikar íslenskra sagnfræðinga á því að nýta sér blogg sem heimildir einskorðast ekki við það efni sem varðveitt er undir formerkjum hinnar íslensku netsöfnunar. Þó svo íslenska netsöfnunin nái aðeins aftur til ársins 2004 er saga hinnar alþjóðlegu netsöfnunar mun lengri. Internet Archive hefur unnið ötullega að söfnun vefsíðna frá árinu 1996. Internet Archive er sjálfstæð stofnun og er ekki rekin í ágóðaskyni1. Það var internetfrumkvöðullinn Brewster Kahle sem stofnaði Internet Archive en Kahle hefur í viðtölum lýst þeirri sannfæringu sinni, að fyrr eða síðar muni öll mannleg þekking safnast fyrir á internetinu og því sé markviss söfnun vefsins okkar merkasta tækifæri til að skrásetja þessa þekkingu og miðla henni2. Markmið hans er að Internet Archive verði Alexandríubókasafn okkar tíma, fyrir utan þá augljósu staðreynd að til þess að nálgast efni úr bókasafninu í Alexandríu var nauðsynlegt að fara til Alexandríu, á meðan hver sá sem aðgang hefur að tölvu og nettengingu getur hvaðan sem er nálgast það efni sem Internet Archive geymir. Hugmyndir Kahle byggja á sömu samfélagslegu heimspeki og liggur að baki Open Source hreyfingunni, að allir eigi að hafa jafnan aðgang að upplýsingum, að í heimi þar sem upplýsingaflæði er óheft muni menning og nýsköpun blómstra3.
Hvort svo sem öll mannleg þekking er að safnast fyrir á vefnum eða ekki er óumdeilanlegt að vefurinn vex með gríðarlegum hraða. Svo dæmi sé tekið voru vefsíður í apríl byrjun 2007 taldar hafa verið 113.658.468 talsins og höfðu þá rúmlega 3 milljónir nýrra vefsíðna bæst við frá því talið var mánuðinn áður4. Þó svo Internet Archive geymi aðeins brot af þeim vefsíðum, sem til hafa orðið, er Internet Archive í dag ekki aðeins heimsins stærsta safn stafrænna heimilda heldur stærsta upplýsingasafn veraldar. Eftir því sem áherslan á rafræna miðlun hefur aukist hefur vægi Internet Archive orðið augljósara og samstarf um afmörkuð verkefni tekist við hefðbundnari söfn á borð við Library of Congress og Smithsonian stofnunina. Hér er t.d. um að ræða söfnun efnis tengdu tilteknum viðburðum á borð við kosningar eða 11. september5. Markmið Internet Archive hafa einnig verið víkkuð út og nær efnissöfnun nú til alls stafræns menningarefnis sem er annað hvort komið úr höfundarétti eða hefur verið gefið út með leyfisskilmálum sem heimila slíka söfnun. Hér er um að ræða bæði kvikmyndir, tónlist, forrit og listrænt efni svo eitthvað sé nefnt.
Aftur til fortíðar
The Internet Archive veitir aðgang að safnkosti sínum í gegnum notendaviðmót sem kallað er því skemmtilega nafni The Way Back Machine. Tímavél þessi sýnir hvernig tiltekin vefslóð leit út á tilteknum tímapunkti. Sú sýn, sem the Way Back Machine veitir, er þó takmörkuð við eldra efni en að jafnaði líða sex til tólf mánuðir frá því The Internet Archive safnar upplýsingum um vefsíður og þangað til afrit þeirra verða aðgengileg í gegnum The Wayback Machine. The Wayback Machine gagnast því ekki þeim sem vilja vísa í varðveitt eintök nýlega birts efnis. Öllu verri er þó sú staðreynd að aðrar aðgangsleiðir að efni safnsins eru ekki í boði. Safn Internet Archive er hvorki flokkað eftir efni né er hægt að keyra frjálsa textaleit. Því er ekki hægt að leita í þessu gríðarlega heimildasafni að málefnum eða persónum. Til þess að nýta sér það íslenska efni, sem er í safni Internet Archive, þyrfti hinn ímyndaði sagnfræðingur því að vita á hvaða lénum það hefði birst. Hann gæti ekki gúglað í safninu eftir því hvort Laxness framtíðarinnar hefði bloggað sem ungur maður eða hvort einhver hefði bloggað um hann. Það er markmið Internet Archive að einhvern daginn verði hægt að veita slíkan aðgang en sökum takmarkaðra fjárráða Internet Archive er það enn sem komið er aðeins fjarlægur draumur. Eins og svo mörg önnur söfn hefur Internet Archive átt í erfiðleikum með að fjármagna rekstur sinn og ef ekki væri fyrir bein framlög Kahle sjálfs er óvíst að Internet Archive hefði orðið að veruleika. Þess er vert að geta að gríðarlegur árangur stofnunarinnar byggir ekki hvað síst á útsjónarsemi hvað útfærslu söfnunar og varðveislu varðar. Notast er við frjálsan hugbúnað og söfnun og varðveisla keyrð á ódýrum fjöldaframleiddum vélbúnaði í stað þess að keypt sé sérhæfð uppsetning6.
En hver er sú mynd sem netsöfnun Internet Archive dregur upp af vefnum? Á meðan að íslenska netsöfnunin safnar einfaldlega öllu því efni, sem er hýst á íslenskum lénum og telst þannig óneitanlega lýsandi fyrir það efni sem þjóðarlénið hefur að geyma, byggir netsöfnun Internet Archive á upplýsingum sem netgreiningarfyrirtækið Alexa lætur stofnuninni endurgjaldslaust í té. Starfsemi Alexa snýst um söfnun upplýsinga um nethegðan einstaklinga og greiningu þessara upplýsinga. Hér er þó ekki um njósnir að ræða heldur sjálfviljuga þátttöku fjölda einstaklinga en fyrirtækið fylgist með því hvernig einstaklingar flakka um vefinn fyrir tilstilli forrits sem þeir geta bætt við vafrann sinn. Akkur notendanna af því að leyfa Alexa að fylgjast með nethegðan sinni er sá að vafraviðbót Alexa sýnir í sérstökum glugga topp tíu síður sama efnis og sú síða sem skoðuð er hverju sinni. Einnig sýnir hún notandanum ýmis konar upplýsingar um þá síðu, sem skoðuð er hverju sinni, hvern hún sé skráð á, hversu margar undirsíður hún innihaldi, hversu margar síður vísi á hana og hversu oft hún sé uppfærð svo nokkur dæmi séu nefnd7.
Safn Internet Archive byggir þannig á því efni sem Alexa hópurinn skoðar. Nafnleysi þátttakendanna er virt og upplýsingar um samsetningu hópsins liggja því ekki fyrir frá hendi Alexa. Utanaðkomandi aðilar hafa þó sýnt fram á svo óyggjandi er, að ekki er hægt að ætla að þessi hópur sé dæmigerður fyrir internetnotendur almennt. Peter Norvig, yfirmaður hjá Google, sýndi fram á það með samanburðarrannsókn að notendur Alexaviðbótarinnar séu líklegri til að starfa á sviði tækni- og markaðsmála en við önnur störf. Það er enda rökrétt, það er fyrst og fremst þessi hópur sem sér sér hag í því að nota viðbótina í tengslum við starf sitt. Þannig er líklegra að síður, sem innihalda slíkt efni, hafi hlutfallslega meira vægi í tölfræði Alexa en aðrar síður8. Í öðru lagi þarf ákveðna kunnáttu til þess að sækja viðbótina og setja hana upp og því er líklegt að tæknileg færni þeirra sem nota viðbótina sé yfir meðallagi. Í þriðja lagi virkar viðbótin aðeins með Internet Explorer vafranum og aðeins í stýrikerfi Windows9. Ekki er því hægt að öllu leyti að bera söfnun Internet Archive saman við þá hugmynd um skylduskil sem íslenska netsöfnunin byggir á enda ef til vill ósanngjarnt að bera söfnun efnis á svo litlu málsvæði saman við netsöfnun á heimsvísu.
Til viðbótar þeim áhrifum, sem samsetning Alexa hópsins hefur á netsöfnun Internet Archive, má geta þess að það er miserfitt að safna vefsíðum. Hin sjálfvirku söfnunarforrit ná t.d. ekki að varðveita á heildstæðan hátt síður sem byggja á gagnvirkni. Að lokum má nefna að líkt og gildir um íslensku vefsöfnunina sneiða söfnunarvélar Internet Archive hjá vefsíðum sem meina sjálfvirkum söfnunarvélum aðgang og fjarlægir fúslega efni úr safni sínu óski höfundar þess eftir því.
Í síkvikum heimi
Það er auðvelt að færa rök fyrir því að safna ætti íslensku bloggi skipulega. Reyndar hafa málvísindamenn fyrir nokkru hafið söfnun á völdum bloggum í því skyni að safna heimildum um þróun íslensks máls10. Íslenskt samfélag er lítið og með tilkomu hins svokallaða Moggabloggs fyrir nokkrum mánuðum virðast síðustu eftirlegukindurnar hafa verið bloggvæddar. Þegar horft er til þeirrar staðreyndar að íslenska netsöfnunin varðveitir aðeins efni frá og með árinu 2004 er hins vegar augljóst að sú sýn, sem íslenska netsöfnunin birtir af íslenskum bloggheimum, er ekki dæmigerð fyrir íslenskt blogg í heild sinni. Íslensku bloggveiturnar eru mun yngri en íslenska bloggsprengjan sem fór að mestu leyti fram á hinum stóru erlendu bloggveitum. Til þess að sagnfræðingar framtíðarinnar geti komist nálægt því að öðlast mynd af íslenskum bloggheimum, eða notað blogg til að rannsaka íslenskt samfélag, þyrftu þeir að hafa aðgang að heimildasafni sem hefði að geyma íslenskt blogg vistað bæði innan og utan þjóðarlénsins. Aðstandendur íslensku netsöfnunarinnar hafa horft til samstarfs við erlenda aðila, sem hafa vefsöfnun með höndum, og þá sér í lagi Internet Archive, en stofnunin tungumálagreinir allt efni, sem safnað er, og ætti því fræðilega séð að eiga auðvelt með að afhenda afrit af íslensku efni sem þar hefur verið safnað eða a.m.k. upplýsingar um það á hvaða lénum þetta efni sé að finna. Slíkar umleitanir hafa þó strandað á því að Landsbókasafni – Háskólabókasafni er ekki lagalega heimilt að láta í skiptum afrit af því efni sem safnað hefur verið í þeirra söfnunum11.
Það verður þó að segjast eins og er að allar líkur eru þó á því að bloggið líði undir lok áður en við náum að gera það upp við okkur hvernig best væri að varðveislu þess staðið. Á meðan kunnátta í vefsíðugerð var skilyrði þess að koma sér upp bloggsíðu var bloggið sérviskulegt áhugamál fárra og bloggsíðurnar eins misjafnar og þær voru margar. Eins og bent var á hér framar varð bloggið fyrst vinsælt þegar til sögunnar komu bloggveitur sem buðu upp á forsniðnar bloggsíður, tilbúnar til notkunar. Hefur notendaviðmót þessarar þjónustu orðið aðgengilegra með hverju árinu sem líður og þeim möguleikum, sem notendum standa til boða, fjölgað mjög en þó með þeim afleiðingum að bloggið hefur tekið á sig sífellt staðlaðra form.
Enginn er lengur bloggari með bloggurum nema bloggsíða viðkomandi miðli einnig ljósmyndum og myndskeiðum úr safni bloggarans eða frá öðrum efnisveitum, spili tónlist, mæli með öðrum vefsíðum fyrir tilstilli miðlægra bókamerkjaþjónustna og gefi skapsveiflur bloggarans til kynna með grafískum sprellimyndum. Einfaldar bloggsíður, byggðar á texta eingöngu, verða sífellt sjaldséðari eftir því sem margmiðlunartæknin hefur orðið ódýrari, mynda- og kvikmyndavélar nettari og nettengingar og ýmis konar endabúnaður öflugri. Hlutur textans hefur þannig minnkað mjög í bloggheimum og reyndar verða mörkin milli tal- og ritmáls sífellt óljósari eftir því sem hraði í samskiptum eykst, sbr. símskeytamállýskuna sem varð til með tilkomu gsm-símanna. Þannig er alls ekki sjálfsagt að hið ritaða mál verði sjálfgefinn tjáningarmáti þeirra sem vilja nota vefinn til að skrásetja líf í okkar nánustu framtíð. Líklegra er að þróun miðilsins og hin stöðluðu sniðmát hans muni móta hugsun okkar.
Grein þessi birtist fyrst í Sögnum, 2007.
-
Allar upplýsingar um Internet Archive eru teknar af heimasíðu stofnunarinnar, sjá: http://www.archive.org/index.php, nema annað sé tekið sérstaklega fram. ↩
-
Richard Koman: „How the Wayback Machine Works“, 21. janúar 2002 í vefritinu O’Reilly xml.com. Sjá einnig: http://webservices.xml.com/pub/a/ws/2002/01/18/brewster.html ↩
-
Lisa Rein. „Brewster Kahle on the Internet Archive and People's Technology“, birt í vefritinu Open 2p.com, 22. janúar 2004. Sjá einnig: http://www.openp2p.com/pub/a/p2p/2004/01/22/kahle.html ↩
-
Sjá „April 2007 Web Survey“, birt 2. apríl 2007 á heimasíðu greiningarfyrirtækisins Netcraft. Sjá einnig: http://news.netcraft.com/archives/web_server_survey.html ↩
-
Doug Roberts. „Inside the Internet Archive“, birt 2. nóvember 2002 í vefritinu Mindjack. Sjá einnig: http://www.mindjack.com/feature/archive.html ↩
-
Lisa Rein. „Brewster Kahle on the Internet Archive and People's Technology“, birt í vefritinu open 2p.com, 22. janúar 2004. Sjá einnig: http://www.openp2p.com/pub/a/p2p/2004/01/22/kahle.html ↩
-
Sjá upplýsingar á heimasíðu Alexa: http://www.alexa.com/site/help/quicktour ↩
-
Tekið af http://www.norvig.com/logs-alexa.html þann 22. febrúar 2007. Matt Cutts: „Estimating webmaster skew in Alexa metrics“, birt á mattcutts.com þann 7. mars 2007. Sjá einnig: http://www.mattcutts.com/blog/estimating-webmaster-skew-in-alexa-metrics/ ↩
-
Upplýsingar teknar af heimasíðu Alexa 29. febrúar 2007: http://www.alexa.com/site/help?index=84 ↩
-
Þetta verkefni gengur undir nafninu Blogg og bréfaskriftir, óútgefin skrif Íslendinga og hafa þeir bloggtextar, sem safnað hefur verið undir þess formerkjum, verið gerðir aðgengilegir á vef í gegnum Textasafn Orðabókar Háskólans, sjá: http://www.lexis.hi.is/corpus/leit.pl ↩
-
Viðtal við Kristin Sigurðsson, fagstjóra upplýsingatæknihóps Landsbókasafns – Háskólabókasafns 7. mars 2007. Sjá einnig: Kristinn Sigurðsson. „Söfnun vefsíðna og Heritrix,“ Bókasafnið, 2005. Sjá: http://vefsofnun.bok.hi.is/upload/3/sofnun-bokasafnid-2005.pdf ↩
