Jakość haseł biograficznych na Wikipedii (badania)

Podstawowym zarzutem wobec Wikipedii jako źródła wiedzy jakość haseł. Krytyka ta nie dotyczy wyłącznie zgodności ich treści z faktami, ale też wykorzystywanej w wyjaśnianiu pojęć argumentacji czy podawanej bibliografii; poprawność przywoływanych faktów badać jednak najłatwiej.

Takie podejście do badania jakości haseł wikipedystycznych reprezentuje badanie Roberta Viseura (@robertviseur) opublikowane niedawno w tomie pokonferencyjnym konferencji OpenSym 2014 (The International Symposium on Open Collaboration). W artykule Reliability of User-Generated Data: the Case of Biographical Data in Wikipedia autor przedstawia wyniki analizy haseł biograficznych i stwierdza, że jedynie 0.75 proc. z nich posiada błędnie przypisane daty urodzin.

W ramach badania stworzono bazę nazwisk i dat urodzin wyeksportowanych artykułów biograficznych opublikowanych w Wikipedii – niestety autor nie informuje, czy korzystano z jednej wersji językowej (angielskiej?) Wikipedii czy w inny sposób wybrano źródła danych. Artykuły te wyselekcjonowano w odniesieniu do 9 profesjonalnych baz bibliograficznych udostępnionych przez anonimowych sponsorów badania – dzięki temu można było porównać daty urodzin podawane na Wikipedii z danymi pochodzącymi z profesjonalnych źródeł. Niestety, autor nie podaje, jakie dokładnie bazy danych wykorzystano. Ostatecznie wybrano 938 nazwisk.

Automatyczne porównanie 10 baz zawierających przypisane do nazwisk daty urodzin ujawniło, że nie zgadza się ze sobą 14.4 proc. rekordów. Dodatkowe manualne sprawdzenie wskazanych w automatycznej analizie pozwoliło usunąć część niezgodności – ostatecznie jedynie 0.75 proc. rekordów z Wikipedii nie zgadzało się z rekordami z innych baz.

Czy badanie Roberta Viseura może być przekonującym argumentem za dobrą jakością biograficznych haseł wikipedystycznych? Jeśli w ogóle, na pewno nie jest argumentem mocnym. Po pierwsze, wymogi przyjętej metody porównywania 10 baz spowodowały, że wybrano wikihasła dotyczące popularnych postaci (których daty urodzin miały szansę znaleźć się w bazach przypisów) – można spodziewać się, że procent błędnych dat urodzin w hasłach opisujących mniej znane osoby może być większy. Po drugie, nie wiemy dokładnie, jakiej wersji językowej Wikipedii dotyczy to badanie. Po trzecie też, podejmując problem jakości haseł wikipedystycznych nie można mówić wyłącznie o zgodności faktów – ważne są także takie elementy hasła jak wyjaśnianie, język czy bibliografia.

VISEUR, Robert (2014). Reliability of User-Generated Data:the Case of Biographical Data in Wikipedia. WikiSym 2014. http://www.wikisym.org/os2014-files/proceedings/p606.pdf.