Biblioteki w chmurze – rozmowa z Marcinem Werlą

Czy można uznać ogłoszoną niedawno strategię Europeany na lata 2015-2020 za świadectwo najbardziej aktualnych trendów w myśleniu o udostępnianiu zbiorów dziedzictwa w Internecie? Pewne wątki tej strategii (np. wspieranie komercyjnego wykorzystania zbiorów z domeny publicznej) mogą być trudne do przyjęcia przez część instytucji w Polsce.

Marcin Werla: Myślę, że faktycznie strategia ta zawiera przynajmniej część z najbardziej aktualnych trendów. Zawarte tam trzy główne priorytety — poprawa jakości danych, otwarcie danych, tworzenie wartości dla partnerów — są właściwie dość oczywistymi kierunkami działania wynikającymi z przekształcania się Europeany z portalu w platformę. Jest to poniekąd redefinicja ich modelu biznesowego, czy też wyraźne określenie się w roli pośrednika pomiędzy instytucjami kultury (dostawcami danych), a różnorodnymi odbiorcami danych, którzy mogą je w ciekawy sposób wykorzystać. Jeżeli taka platforma ma mieć sens w długoterminowej perspektywie, to faktycznie musi oferować otwarte dane wysokiej jakości i znaleźć taki sposób funkcjonowania, aby być atrakcyjnym partnerem zarówno dla dostawców, jak i odbiorców danych. Myślę, że poza oczywistą wartością platformy jaką jest po prostu kojarzenie dostawców z odbiorcami, kluczem do sukcesu są usługi dodane, takie jak chociażby budowana teraz przy udziale PCSS platforma Europeana Cloud, mogąca w przyszłości przyczynić się do znacznego obniżenia kosztów składowania i przetwarzania danych w sektorze kultury.

Jeżeli chodzi o wątek komercyjnego wykorzystania danych, to został on właściwie jednoznacznie wpleciony w podstawy Europeany w momencie zmiany zasad współpracy i oczekiwania udostępnienia danych na podstawie oświadczenia CC0. Dobrym podsumowaniem potencjalnych zysków dla instytucji kultury oraz próbą rozwiania najbardziej powszechnych obaw jest raport z 2011 r. zatytułowany The Problem of the Yellow Milkmaid. Myślę, że ci którzy już z Europeaną współpracują nie mają tego typu obaw, a ci którzy jeszcze tego nie robią – cóż, mam nadzieję że zauważą korzyści z szerokiego udostępnienia własnych danych.

Z drugiej strony trudno pominąć ważny wątek wsparcia dla małych instytucji kultury. Europeana jest jednak postrzegana często jako projekt (i źródło wsparcia, również finansowego) dla największych, podczas gdy ci mniejsi borykają się nadal z podstawowymi problemami dotyczącymi digitalizacji i udostępniania. Przykładem tego może być ciekawa dyskusja na LinkedIn, która wywiązała się po ogłoszeniu nowej strategii Europeany. Na marginesie, podoba mi się podany tam akronim SLAM, określający małe (small) biblioteki, archiwa i muzea (LAM). Ale i tutaj podejmowane są ciekawe działania, takie jak m.in. realizowane przez nas wcześniej projekty AccessIT/AccessITPlus czy aktualny projekt LoCloud.

Rozumiem, że nowa strategia Europeany tworzona była przy szerokim udziale partnerów. Jakie doświadczenia z Polski wniosło do niej PCSS? Czy sytuacja polskich bibliotek cyfrowych – jeśli chodzi o finansowanie, rozpoznawalność społeczną czy poziom współpracy z podmiotami komercyjnymi – bardzo różni się od tego, co dzieje się w innych krajach Europy?

Trudno mi powiedzieć jak dokładnie wygląda sytuacja w innych krajach Europy. Jest kilka instytucji, takich jak np. Rijksmuseum, które są bardzo otwarte i promują (często wspólnie z Europeaną) szerokie udostępnianie nie tylko opisów obiektów, ale również ich cyfrowych wizerunków. Z drugiej strony na pewno w każdym kraju da się znaleźć bez problemu instytucje, które zamykają swoje zbiory jak się da, np. nakładając znaki wodne na skany czy podpisując obiekty z domeny publicznej notką o zastrzeżeniu wszystkich praw autorskich. Nie słyszałem o kraju w którym jakoś masowo dochodziłoby do współpracy instytucji kultury z podmiotami komercyjnymi w zakresie udostępniania zbiorów on-line.

Co do rozpoznawalności społecznej, to mogę ewentualnie odpowiedzieć na podstawie porównania ruchu, jaki w Europeanie generują użytkownicy z Polski w odniesieniu do ruchu generowanego z innych krajów. Myślę że jest to pośrednio właśnie efekt podnaprzeciętnie wysokiej rozpoznawalności społecznej bibliotek cyfrowych w Polsce. Z drugiej strony oczywiście na pewno jest jeszcze wiele do zrobienia, żeby przyciągać do bibliotek cyfrowych kolejne grupy użytkowników.

Jeżeli chodzi o doświadczenia z Polski wniesione przez PCSS, które mogą się jakoś odbijać w strategii Europeany, to myślę, że ze względu na techniczną naturę PCSS, dotyczą one przede wszystkim obszaru związanego ze zmianą modelu Europeany – „od portalu do platformy”. Braliśmy udział w opracowywaniu koncepcji chmurowej infrastruktury Europeany, starając się zawrzeć w liście wymagań wszystko, co jest potrzebne, aby serwisy takie jak Federacja Bibliotek Cyfrowych oraz współpracujące z nami instytucje kultury miały możliwość prostej i szybkiej aktualizacji danych w Europeanie i otwarty dostęp do danych wprowadzanych tam przez inne instytucje.

Czy twierdzenie o ponadprzeciętnej społecznej rozpoznawalności polskich bibliotek cyfrowych nie jest zbyt optymistyczne? Czy mamy jakieś badania na ten temat w Polsce? Z drugiej strony biblioteki cyfrowe są różne, mają różny charakter i trudno oczekiwać, żeby np. cyfrowa biblioteka naukowa publikująca specjalistyczne teksty cieszyła się z takiej liczby odsłon jak choćby Polona z jej zbiorami literackimi, którymi można chwalić się na Facebooku. Wydaje mi się zresztą, że należałoby zainicjować wątek ewaluacji digitalizacji w Polsce – bo teraz nie bardzo wiemy, jaki rzeczywiste znaczenie mają biblioteki cyfrowe. Czy Europeana – a może PCSS – prowadzi jakieś działania w tym kierunku?

Badań na temat społecznej rozpoznawalności bibliotek cyfrowych nie kojarzę. Ciekawe są wyniki badań na temat użytkowników bibliotek cyfrowych autorstwa dr Jolanty Mazurek (np. Drogi czytelniku, jak korzystasz z biblioteki cyfrowej? Próba odpowiedzi, Potrzeby informacyjne kluczowych grup użytkowników polskich bibliotek cyfrowych. Raport z badania), ale moje stwierdzenie oparłem akurat na czymś innym. Chodzi mi mianowicie o informacje na temat ruch użytkowników z poszczególnych krajów w portalu Europeana. Według częściowych danych za 2013 r. polscy użytkownicy stanowią coraz ważniejszą grupę użytkowników tego portalu — w trzecim kwartale 2013 r. użytkownicy z Polski byli na drugim miejscu jeżeli chodzi o liczbę wizyt. Rozumiem oczywiście, że nie można wprost przełożyć zainteresowania Europeaną na zainteresowanie bibliotekami cyfrowymi czy też na rozpoznawalność bibliotek cyfrowych, jednak te dane oraz duży moim zdaniem ruch w portalu Federacji Bibliotek Cyfrowych (ponad milion wizyt rocznie) czy w Wielkopolskiej Bibliotece Cyfrowej (podobne wielkości) dają powód do optymistycznego spojrzenia na ten temat.

Co do promowania na Facebooku, to tu z kolei z optymizmem bym nie przesadzał. Jest to z pewnością ciekawy kanał do pozyskiwania nowych użytkowników bibliotek cyfrowych, ale nie traktowałbym go jako ogólnego źródła dużej liczby odwiedzin. W jednym z raportów dotyczących ruchu w Europeanie można wyczytać, że portal FBC generuje więcej odwiedzin niż cały ruch z Facebooka. A przecież Europeana na Facebooku jest bardzo aktywna. Poza tym największym źródłem ruchu jeszcze przez długi czas pozostaną wyszukiwarki internetowe ogólnego przeznaczenia, w praktyce Google. Wzmocniony przez działania Biblioteki Narodowej / POLONY trend, aby obudowywać biblioteki cyfrowe czym na kształt redakcji prowadzącej bloga, czy profil na Facebooku jest z pewnością wartościowy jeżeli chodzi o aktywną promocję zbiorów, ale nie można przy tym zapominać o tak podstawowych działaniach jak dobra widoczność w wyszukiwarkach internetowych, co chyba się przydarzyło POLONIE.

Wreszcie, jeżeli chodzi o działania PCSS, to od pewnego czasu utrzymujemy serwis monitorujący ruch w bibliotekach cyfrowych – powiedzmy coś na kształt Google Analytics, ale hostowane u nas i oparte o otwarte oprogramowanie. Na razie usługa jest w fazie beta, ale pomysł jest taki, żeby gromadzić dane o ruchu w jednym miejscu, aby mieć wspólny mianownik do porównań pomiędzy poszczególnymi serwisami i bazę do analizy tego, jak użytkownicy funkcjonują nie tylko w pojedynczej bibliotece cyfrowej, ale w sieci takich bibliotek.

Moim zdaniem potrzebujemy dużej dyskusji o społecznej efektywności digitalizacji i o tym, jak ją badać, bo na pewno nie wystarczą tutaj analizy ilościowe. Chociaż ważnym zadaniem digitalizacji jest ochrona zbiorów, to trudno ignorować fakt, że biblioteki cyfrowe powstają przede wszystkim dla użytkowników i wiedza o tym, czy i w jaki sposób korzystają oni z ich zasobów, jest kluczowa, pewnie także w kontekście ich dalszego finansowania ze środków publicznych. Czy gromadzone przez Was dane będą publicznie dostępne?

Chcielibyśmy aby te dane były publiczne dostępne po odpowiedniej anonimizacji, ale to jeszcze kwestia dopracowania zasad funkcjonowania tej usługi i ustalenia szczegółów z zainteresowanymi bibliotekami cyfrowymi.

Zgadzam się oczywiście, że analizy ilościowe to za mało, stąd też przytaczam badania dr Mazurek. Myślę, że obydwie role digitalizacji są równie ważne i żadnej z nich nie stawiałbym przed drugą. Dobrze realizowany projekt digitalizacyjny powinien w sposób profesjonalny zajmować się zarówno cyfrowym zabezpieczeniem jak i szerokim udostępnieniem, o ile oczywiście nie mówimy o materiałach, których z jakichś powodów udostępniać publicznie nie można. W kwestii oceny sensowności finansowania digitalizacji ze środków publicznych, myślę, że jest to niepodważalne, ale oczywiście warto mieć poparcie takiej tezy w wynikach badań.

Na podstawie doświadczeń wielu instytucji kultury, z którymi współpracujemy, myślę, że w kontekście finansowania digitalizacji warto się zastanowić nad tym co można zrobić, żeby zapewnić jak najlepszą jakość uzyskiwanych wyników, zwłaszcza w przypadku projektów, gdzie digitalizacja jest zlecana firmom komercyjnym na zasadach regulowanych Prawem Zamówień Publicznych. Problem sygnalizowany jest choćby w dyskusji na forum Biblioteka 2.0, jednak omawiane tam podejście — czyli testy umiejętności oferentów w ramach wyboru usługodawcy — nie są wystarczającym rozwiązaniem, gdyż zawsze może być tak, że jedna czy druga firma postara się bardzo, żeby pozyskać zamówienie, a już przy jego realizacji…

Wróćmy może do wątku małych instytucji posiadających interesujące zbiory i mających problemy z ich odpowiednim udostępnianiem. Czy możesz powiedzieć więcej o projektach Europeana Cloud i LoCloud? Jaka jest tam rola PCSS?

Celem projektu Europeana Cloud jest opracowanie systemu do składowania danych instytucji kultury dostarczanych do Europeany przez serwisy agregujące z poszczególnych krajów. Coś w rodzaju dużej wspólnej przestrzeni danych, do której każdy agregator będzie mógł wprowadzać dane i z której każdy będzie mógł te dane bez problemu pobierać. Tak więc to projekt nastawiony raczej na tych największych partnerów Europeany. Do tego ma również powstać platforma Europeana Research, która będzie umożliwiała budowanie narzędzi badawczych na bazie danych gromadzonych w Europeana Cloud. PCSS odpowiada za architekturę systemu Europeana Cloud oraz jest jednym z głównych partnerów jeżeli chodzi o implementację i hosting tego systemu.

Dla małych instytucji kultury dedykowany jest osobny projekt – LoCloud. Projekt ten, również w oparciu o technologie chmurowe, ma dostarczyć szereg narzędzi i materiałów informacyjnych dla małych instytucji kultury. Z częścią wyników projektu można obecnie zapoznać się w portalu support.locloud.eu — jest tam dokumentacja tzw. mikrousług przygotowanych w ramach projektu: słownika historycznych nazw geograficznych, narzędzia wspierającego geolokalizację, narzędzia do mapowania metadanych czy projektowego agregatora metadanych. Jeżeli chodzi o działania PCSS, to poza tym, że koordynujemy w projekcie całość zagadnień związanych ze wsparciem dla małych instytucji kultury, implementujemy też usługę chmurowego systemu udostępniania zbiorów w postaci cyfrowej. Usługa ta jest oparta o wolne i darmowe oprogramowanie Omeka, które musieliśmy w wielu miejscach rozszerzyć i zmodyfikować. Opakowaliśmy Omekę w zestaw narzędzi pozwalających na szybkie uruchamianie nowych bibliotek cyfrowych na żądanie. Usługa jest obecnie w fazie rozwoju, ale jest już dostępna pod adresem locloud.pl. W planach mamy oczywiście także opracowanie interfejsu w języku polskim. Pierwszą polską instytucją, która zdecydowała się na wykorzystanie tej usługi juz fazie beta-testów jest Biblioteka Poznańskiego Towarzystwa Przyjaciół Nauk, której zbiory znaleźć już można pod adresem http://ptpn.locloud.pl/.

Do zarysowanej przez nas panoramy aktywności digitalizacyjnych należałoby dodać jeszcze digitalizację oddolną, nieformalną, organizowaną czy to w ramach ruchu archiwów społecznych czy też w ramach internetowych społeczności osób zainteresowanych historią lokalną czy rodzinną. Czy polskie instytucje — poza Ośrodkiem KARTA i Śląską Biblioteką Cyfrową — są w ogóle zainteresowane takimi zbiorami? Brakuje też szerokiej edukacji do odpowiedniego zabezpieczania, przechowywania i skanowania zbiorów prywatnych.

Trudno mi powiedzieć, jak to wygląda ogólnie w przypadku funkcjonujących w Polsce bibliotek cyfrowych, ale jest z pewnością kilka doświadczeń pozytywnych w tym zakresie. Realizując Europeana 1989 w Poznaniu współpracowaliśmy z Biblioteką Kórnicką PAN, która bardzo chętnie podjęła się prowadzenia digitalizacji materiałów przynoszonych przez osoby uczestniczące w zbiórkach. Z tego co wiem, nie było to ze strony tej biblioteki działanie wyjątkowe. Zdarzają się w kręgu instytucji współtworzących Wielkopolską Bibliotekę Cyfrową sytuacje, gdzie użytkownicy WBC znajdują w swoich domach coś potencjalnie ciekawego i kontaktują się z bibliotekarzami w celu uzyskania porady co z tym można zrobić, czy i gdzie ewentualnie zdigitalizować i udostępnić. Inny, bardzo dobry sposób działania to Społeczne Pracownie Digitalizacji – pierwsza powstała przy Śląskiej Bibliotece Cyfrowej w Katowicach, druga przy Bałtyckiej Bibliotece Cyfrowej w Słupsku.

Niezależnie od tego, zgadzam się na pewno, że brakuje szerokiej edukacji dotyczącej skanowania zbiorów prywatnych – nawet na potrzeby budowy prywatnych archiwów – oraz edukacji, bardzo ogólnie mówiąc, dotyczącej bezpiecznego przechowywania zbiorów cyfrowych – w tym również tych born-digital, takich jak zdjęcia robione telefonami czy aparatami cyfrowymi. Pewną pomocą może być tutaj kurs e-learningowy, który prowadzimy przy Federacji Bibliotek Cyfrowych (chwilowo mamy przerwę między edycjami kursu) i powiązany z nim DigitLab, jednak kurs ten jest mimo wszystko kierowany do pracowników małych instytucji kultury, a nie do osób prywatnych. Nie wiem na ile forma kursu e-learningowego sprawdziłaby się w ogóle w przypadku chęci dotarcia do takiego audytorium. Podejrzewam, że konieczne byłoby raczej działanie edukacyjno-promocyjne podjęte w innej, mniej sformalizowanej postaci.

Dziękuję za rozmowę.

Marcin Werla – kierownik Działu Bibliotek Cyfrowych i Platform Wiedzy, Poznańskie Centrum Superkomputerowo – Sieciowe, IChB PAN.