10 milionów stron europejskich gazet wkrótce w wersji pełnotekstowej

Trwają prace nad projektem Europeana Newspapers – inicjatywą Europeany i cyfrowej biblioteki European Library zmierzającą do udostępnienia ponad 10 mln stron historycznych gazet z 22 krajów europejskich zarówno w formie skanu jak i w pełnotekstowej formie umożliwiającej wyszukiwanie treści z poziomu przeglądarki.

Czasopisma udostępnia kilkadziesiąt instytucji; głównymi partnerami projektu jest 18 europejskich bibliotek, w tym Biblioteka Narodowa. Głównym celem inicjatywy jest stworzenie systemu, który – dzięki udoskonalonym technikom optycznego rozpoznawania pisma, układu strony i rozpoznawania nazw własnych (OCR, OLR, NER) – pozwoli naukowcom, twórcom i wszystkim zainteresowanym użytkownikom na szybsze niż dotąd wyszukiwanie konkretnych treści w zdigitalizowanych zbiorach:

Digitalizacja czasopism jest często ograniczona do tworzenia kopii w formie plików graficznych. Praca z nimi utrudnia skuteczne wyszukiwanie pojedynczych obrazów, artykułów, nazw własnych lub fraz w tekście. Nowy system umożliwi automatyczne oznaczanie milionów pojedynczych artykułów odpowiednimi metadanymi oraz wykrywanie jednostek tekstowych (nazw własnych, nazwisk, informacji geograficznych itd.) Spowoduje to ogromną poprawę doświadczenia użytkowników, w porównaniu z poprzednimi projektami digitalizacji czasopism. [Europeana Newspapers]

Na stronie European Library można przetestować prototyp docelowej wyszukiwarki: obecnie dostępne kryteria wyszukiwania to tytuł czasopisma, data lub zakres dat wydania, kraj lub język publikacji oraz biblioteka, która udostępniła czasopismo. Najstarsze dostępne materiały pochodzą z 1642 roku. Od czerwca br. w bazie Newspapers można znaleźć 15112 numerów 116 polskich czasopismkolekcji Biblioteki Narodowej oraz 19 kolekcji tematycznych POLONY.

Jednym z celów projektu jest również opracowanie infrastruktury kontroli jakości rezultatów procesów optycznego rozpoznawania tekstu i układu publikacji. Na razie projekt Newspapers zawiera niewiele materiałów w języku angielskim; interesujące będzie porównanie jakości tekstowych wersji materiałów polskojęzycznych z tekstami w innych językach. Tymczasem zaangażowane instytucje pracują nad standardami przejrzystości i dokładności uzyskanych materiałów, które będzie można rekomendować dla przyszłych projektów digitalizacyjnych.

Większa część materiałów zawartych w bazie Newspapers należy do domeny publicznej; trzeba jednak zaczekać na uregulowanie informacji na temat statusu indywidualnych obiektów. Na razie w testowej wersji wyszukiwarki wyświetlany jest komunikat: „Większość udostępnionych przez europejskie biblioteki zasobów należy do Domeny Publicznej, niektóre są jednak objęte prawem autorskim. Prosimy o kontakt z wybraną biblioteką przed ponownym wykorzystaniem materiałów z kolekcji (grudzień 2013)”. Autorzy bloga projektu piszą natomiast: „Wiele czasopism zgromadzonych w Europeana Newspapers zostanie dedykowanych Domenie Publicznej”.

Koordynatorem projektu jest Deutsche Nationalbibliothek. Projekt finansowany jest ze środków Komisji Europejskiej w ramach Programu Ramowego na rzecz Konkurencyjności i Innowacji 2007-2013 (CIP ICT PSP).