Europeana, otwarte dane i Hack4Europe!

7 i 8 czerwca 2011 w Poznaniu odbędzie się polska edycja „Hack4Europe!”. To międzynarodowe spotkanie programistów, podczas którego budowane będą eksperymentalne aplikacje wykorzystujące metadane udostępniane przez Europeanę. Zacznijmy może od podstaw. Co to są otwarte dane dotyczące dziedzictwa kulturowego? I dlaczego ich „otwartość” jest taka ważna?

Marcin Werla: W kontekście Europeany – europejskiej cyfrowej biblioteki, archiwum i muzeum – te dane dotyczące dziedzictwa kulturowego to po prostu opisy (tzw. rekordy metadanych) obiektów cyfrowych będących reprezentacjami fizycznych obiektów znajdujących się w zbiorach instytucji pamięci krajów europejskich. Europeana gromadzi (agreguje) takie opisy z rozproszonych po całej Europie portali, przy pomocy których wspomniane instytucje udostępniają swoje zbiory on-line. Na dzień dzisiejszy Europeana posiada dane na temat 18 716 482 takich obiektów (z czego 606 056 pochodzi z polskich instytucji). Opisy te są bardzo zróżnicowane, podobnie jak zróżnicowane są same obiekty. Mamy tu dostęp zarówno do pocztówek czy ulotek, jak i kilkuset stronicowych starodruków, zbiorów muzealnych, ale również nagrań dźwiękowych i wideo.

Przechodząc teraz do otwartości danych – Europeana kopiuje wyłącznie opisy, same obiekty cyfrowe pozostają wyłącznie na portalach czy stronach WWW macierzystych instytucji. Dzieje się to wszystko za zgodą zainteresowanych stron, a jeżeli użytkownik Europeany zapragnie zobaczyć konkretny obiekt cyfrowy, to jest przekierowywany do właściwej strony w danej instytucji. Około półtora roku temu Fundacja Europeana podjęła działania mające na celu umożliwienie opublikowania gromadzonych na europejskim poziomie danych w sposób, który pozwalałby na ich zautomatyzowane wykorzystywanie przez zewnętrzne systemy. Wiązało się zarówno z wyzwaniami technicznymi, jak i prawnymi. Aspekty techniczne zostały zebrane do postaci Europeana API i opisane są na tej stronie.

Co do kwestii prawnych otwartości danych – Europeana założyła, że sam techniczny dostęp do danych to za mało. Jeżeli mają one być wykorzystywane, to konieczne jest opublikowanie ich na otwartej licencji. Zdecydowano się na Creative Commons Zero, czyli najszersze jak tylko się da w danym systemie prawnym zrzeczenie się praw autorskich i pokrewnych. Realizacja tej koncepcji nie jest łatwa ze względu na to, że mamy tu do czynienia z różnymi systemami prawnymi krajów, z których pochodzą dostawcy danych Europeany. Prace nad tym są w tej chwili w toku (również jeżeli chodzi o Polskę) i mam nadzieję, że jesienią uda się je zakończyć.

Patrzę właśnie na ten katalog aplikacji i znaleźć tam można naprawdę ciekawe rozwiązania: jest na przykład widget do Wordpressa wyświetlający zasoby Europeany na podstawie tagów i tytułów notek blogowych. Jest też system wizualizacji geograficznej zasobów i narzędzie pozwalające na masowy upload dokumentów do repozytorium Wikipedii. Wydaje mi się, że te projekty i sama idea Hack4Europe! udowadniają, że archiwum cyfrowe to zupełnie nowa jakość dostępu do dziedzictwa. To archiwum nie jest już tylko instytucją publikującą zasoby archiwalne w Sieci, ale też platformą z własnym API, na bazie którego można budować inne projekty wykorzystujące udostępniane dane.

Dokładnie tak. Realizowane na europejską skalę gromadzenie danych w Europeanie to było pierwsze wyzwanie. Teraz priorytetem jest także szerokie wykorzystanie tych danych i pokazanie, że mają one dużą wartość społeczną oraz… biznesową.

Strategiczny plan Europeany na lata 2011-2015 zakłada cztery główne kierunki działania, w wolnym tłumaczeniu:
1) Agreguj (Aggregate) – ma na celu stworzenie z Europeany otwartego zaufanego miejsca dostępu do europejskiego dziedzictwa kulturowego;
2) Wspieraj (Facilitate) – ma na celu wspieranie instytucji kultury m.in. poprzez transfer wiedzy i technologii, ale także przez działania takie jak promowanie domeny publicznej;
3) Rozpowszechniaj (Distribute) – ma na celu umożliwienie dostępu do dziedzictwa kulturowego niezależnie od miejsca i czasu, w tym również poprzez dotarcie z danymi gromadzonymi w Europeanie do narzędzi, z których użytkownicy korzystają codziennie;
4) Angażuj (Engage) – ma na celu zaangażowanie użytkowników w aktywne uczestnictwo w Europeanie i powiązanych z nią serwisach, zarówno w modelu Web 2.0, jak i poprzez akcje „w świecie rzeczywistym” takie jak gromadzenie materiałów do wystawy „Erster Weltkrieg: World War One in pictures”.

Działania związane z API wpisują się przede wszystkim w trzecią ścieżkę tematyczną, ale mogą również dotyczyć ścieżki drugiej czy czwartej. Odpowiedź na pytanie „co właściwie można zrobić z takimi danymi?” przynieść mają właśnie spotkania z serii Hack4Europe. Chodzi nam o zebranie bardzo dobrych, kreatywnych programistów którzy, przy wsparciu Europeany, będą w stanie opracować prototypowe aplikacje pokazujące co ciekawego da się z takimi danymi zrobić. Europeana kładzie duży nacisk na zainteresowanie tymi danymi firm komercyjnych, które być może będą chciały je wykorzystać np. w kontekście turystyki, e-learningu czy gier.

Oczywiście możemy tu mówić także o narzędziach badawczych, naukowych, np. biblografii generowanych automatycznie w oparciu o API albo narzędziach statystycznych…

Jak wspomniałem, plan działania Europeany w ścieżce trzeciej zakłada dostarczenie zasobów Europeany wprost do narzędzi wykorzystywanych przez użytkownika. Jednym z pierwszych kierunków działania było oczywiście chyba najpopularniejsze narzędzie, czyli… wyszukiwarka Google (por. dolna część tej strony). Ale jeżeli myślimy o bardziej zaawansowanych narzędziach to z pewnością przydałoby się np. wsparcie dla narzędzi do tworzenia bibliografii, takich jak Zotero. W przypadku bibliotek cyfrowych opartych na dLibrze, Paweł Kołodziej przygotował odpowiedni dodatek do Zotero, który został włączony do dystrybucji tego oprogramowania. Bardzo nas to ucieszyło, zwłaszcza że stało się to niezależnie od naszych własnych prac rozwojowych związanych z dLibrą. Podejrzewam, że podobna sytuacja będzie miała miejsce z Europeaną. Stworzenie dobrego API i jego promocja, w połączeniu z wartościowymi zbiorami spowodują rozwój narzędzi korzystających z Europeany.

Jeszcze inny przykład narzędzia, o którym można by pomyśleć, to narzędzie do eksploracji zbiorów Europeany oparte na danych statystycznych opisujących zasoby Europeany, wizualizujące te dane w ciekawy sposób. Na przykład coś na kształt Otwartego Budżetu, pozwalające na łatwą analizę zawartości Europeany pod względem źródeł danych, języków treści czy typów obiektów, z uwzględnieniem czasu powstania danego dzieła czy licencji, na jakiej jest ono udostępniane.

Mam nadzieję, że w efekcie Hack4Europe! (zwłaszcza polskiej edycji) takie właśnie ciekawe narzędzia czy dodatki do Europeany powstaną.

Pomówmy może o perspektywie polskich bibliotek cyfrowych i FBC. Jak tutaj wygląda polityka otwartości danych i dostępności zasobów w domenie publicznej?

Opublikowany jakiś czas temu przez Europeanę Statut Domeny Publicznej skłonił instytucje tworzące polskie biblioteki cyfrowe do zajęcia się tematem właściwego oznaczania licencji, na jakich biblioteki te publikują swoje zbiory (por. link). Podobny efekt ma promowanie przez Europeanę licencji CC Zero przy dostępie do metadanych. To nie tylko szansa na szerokie wykorzystanie danych z Europeany, ale również motywacja do zajęcia się tematem praw do wykorzystania metadanych przez same biblioteki cyfrowe (i znów wracamy do planu strategicznego – ścieżka numer dwa).

W Polsce większość bibliotek nie podaje szczegółowych informacji na temat możliwości wykorzystania na większą skalę metadanych publikowanych na stronach WWW. Niektóre biblioteki (jak na przykład Kujawsko-Pomorska Biblioteka Cyfrowe) wprost powołują się na ustawę o ochronie baz danych. W przypadku FBC pytamy się każdą z przyłączanych bibliotek cyfrowych o możliwość regularnego pobierania danych i przekazywania ich dalej i oczywiście praktycznie nikt nie jest przeciwny. Jednak jawne określenie zasad dalszego wykorzystania danych, zwłaszcza na licencji CC Zero, z pewnością przyczyniłoby się do zwiększenia popularności zbiorów bibliotek cyfrowych.

Marcin Werla – Od roku 2004 prowadzi Zespół Bibliotek Cyfrowych w Dziale Usług Sieciowych PCSS, odpowiedzialny m.in. za rozwój oprogramowania dLibra i dMuseion, Federację Bibliotek Cyfrowych oraz koordynację przyłączania zasobów polskich lokalnych i regionalnych bibliotek cyfrowych do Europeany. Współorganizator cyklicznych warsztatów „Biblioteki cyfrowe” i konferencji „Polskie Biblioteki Cyfrowe”.

Hack4Europe Polska jest organizowane we współpracy z Poznańskim Centrum Superkomputerowo-Sieciowym i Biblioteką Kórnicką PAN, która udostępnia na potrzeby hakatonu zabytkowe pomieszczenia w Pałacu Działyńskich mieszczącym się przy Starym Rynku w Poznaniu. Tam właśnie, w dniach 7 i 8 czerwca 2011 odbędzie się polska edycja „Hack4Europe!”. Więcej informacji znaleźć można na tej stronie.