Linked Data w geologii

Na całym Czarnym Lądzie rozbrzmiewają niemilknące bębny:
to podstawa całej muzyki, oś każdego tańca;
gadające bębny to radio nieprzebytej dżungli.

– Irma Wassall (1943)

Jeszcze w połowie lat 90 XX wieku internet wydawał się kompletnie abstrakcyjnym terminem, a wynalazcę World Wide Web Tim Berners-Lee traktowano trochę jako zwariowanego pasjonata. Dziś, szczególnie dla młodszej części społeczeństwa internet wydaje się być czymś co istniało praktycznie od zawsze, a połączone za pomocą języka html strony internetowe stanowią codzienne źródło informacji, a dla wielu osób są także narzędziem pracy. Połowa populacji naszej planety korzysta z internetu (wzrost o 7 proc. w porównaniu do ubiegłego 2017 roku). Duża część społeczeństwa globalnego świata nie wyobraża sobie, życia bez tego wynalazku, tak jak bez porannej kawy. Kiedy Berners-Lee nawoływał do umieszczenia dokumentów w sieci www patrzono na niego jak na dziwaka, ale udało się i dokonał przełomu informacyjnego. Dziś wszyscy korzystamy z pomysłu grupy wizjonerów i “maniaków”. Od kilku lat ten sam człowiek namawia do połączenia danych. Swój projekt tworzenia semantycznego internetu nazwał Linked Data. Czy należy ponownie uwierzyć w jego intuicję? Czy będzie to kolejny przełom w przekazywaniu informacji?

Zetabajty danych

Powstające obecnie ogromne ilości danych mogą być dla nas zarówno szansą jak i przekleństwem. Sama ilość danych (Big Data) nie jest problemem samym w sobie (może poza powierzchnią do archiwizacji danych), lecz wymaga tylko umiejętności selekcji i przetwarzania informacji. Ilość danych nie ma znaczenia, ważna jest ich organizacja i zarządzanie. Połączenie danych, tak jak połączenie dokumentów poprzez hypertekst, może dać ogromne możliwości. Podobnie jak to się stało w przypadku World Wide Web, skala możliwości jest zgoła niewyobrażalna.
Idea Linked Data zaproponowana przez Berners-Lee polega na przypisaniu do każdego elementu z dowolnego zbioru danych unikalnego odnośnika URI (Uniform Resource Identifier), pozwalającego na identyfikację danych w świecie stron html. Celem projektu jest rozpowszechnienie standardów opisywania teści w internecie umożliwiający automatyczne przetważanie informacji przez maszyny. Pojedyncze dane są z natury nudne, ale już połączenie danych z różnych źródeł może sprawić powstanie zupełnie wyjątkowych informacji. Rezultat przetwarzania danych jest niekiedy dużo ciekawszy niż elementy wejściowe. Łączenie i analizowanie danych jest podstawowym narzędziem dla lepszego zrozumienia otaczającej nas rzeczywistości.

Reguły Linked Data

Berners-Lee w czasie swojego wystąpienia na konferencji TED w 2009 roku podał trzy podstawowe reguły dotyczące publikacji Linked Data:

Wszystkie rodzaje pojęć, mają nazwy z przypisanym HTTP.
Jeśli wezmę jedną z tych nazw HTTP i sprawdzę to … Uzyskam dane w standardowym formacie. Będą to użyteczne dane, które ktoś mógłby chcieć znać o określonej rzeczy lub wydarzeniu.
Kiedy wracam do tej informacji, to ma ona nie tylko wzrost czy wagę konkretnej osoby, czy informację o dacie urodzenia, ale przede wszystkim ma zdefiniowane relacje z innymi danymi. A kiedy ma ona relacje, to inna rzecz, z którą pojęcie jest powiązane, jest jedną z tych nazw, które zaczynają się od HTTP.

Dla przykładu chcąc sprawdzić informacje o konkretniej osobie uruchamiany jest złożony proces dostępu do kolejnych danych z nią związanych: miejsce urodzenia (miasto), region, populacja regionu, organizacje społeczne itp. Kolejne powiązania zależą od wyobraźni i … oczywiście dostępnych danych. Masa danych ma tu istotne znaczenie, gdyż dzięki temu powstają kolejne relacje. Pozawala to zagłębiać się w nowe poziomy informacji i zdobywać następne wiadomości, które pozornie mogłyby wydawać się kompletnie niezależnymi bytami.

Łączmy się

Dlaczego łączenie danych jest tak ważne? Łącząc informacje z różnych, na pozór niepowiązanych ze sobą źródeł, można otrzymać nowe, istotne wskazówki, które mogą być kluczowe w procesach decyzyjnych. Dobrym przykładem są statystyki medyczne opisujące występowanie chorób nowotworowych. Przyglądając się zgromadzonym w arkuszu kalkulacyjnym informacjom trudno jest znaleźć korelacje między pacjentami cierpiącymi na tą samą chorobę. Dopiero połączenie tych danych z historią pracy tych ludzi może wskazać, że elementem łączącym było to samo miejsce pracy. Źródłem choroby były szkodliwe warunki pracy, co niekiedy wychodzi dopiero po latach. W innych przypadkach powiązania mogą być znacznie bardziej skomplikowane, gdyż mogą dotyczyć osób mieszkających na jednym osiedlu. Jeżeli nie mamy do czynienia z chorobą zakaźną trudniej jest znaleźć element łączący. Czasami rozwiązanie wynika z cech środowiska w jakim żyje konkretna społeczność. Np. mogą to być materiały z jakich zbudowane są budynki na osiedlu. Mogą też być to inne czynniki, znacznie bardziej problematyczne do wykrycia. Czasami o rozwoju choroby decyduje występowanie w podłożu specyficznych skał o właściwościach rakotwórczych, albo wybudowanie osiedla na zanieczyszczonym terenie poprzemysłowym. Bardzo trudno odkryć takie korelacje bez odpowiednich badań. Odkrycie niektórych powiązań pozornie nie połączonych ze sobą zjawisk wielokrotnie decyduje przypadek.
To oczywiście tylko jeden z tysięcy przykładów relacji pomiędzy niezaleznymi danymi. Naukowcy i pasjonaci specjalizują się w wyszukiwaniu różnorodnych relacji i rozwiązywaniu zagadek. Niestety do niektórych danych bardzo trudno dotrzeć. Dlaczego więc nie ułatwić sobie życia i za radą „ojca www” nie publikować danych w internecie tworząc między nimi wielokierunkowych relacji.

Niby proste, ale trudno znaleźć

Chciałbym pokazać prosty, a jednocześnie konkretny przykład zastosowania Linked Data. Przez wiele lat dostęp do podstawowych map geologicznych był utrudniony. W 2016 r. udało się opublikować w internecie kilka tysięcy map geologicznych. Niestety użytkownicy mogli przeglądać tylko ich skany. Jednakże, aby dotrzeć do map użytkownicy musieli wcześniej wiedzieć, gdzie ich szukać. Czyli była to informacja użyteczna, ale dostępna tylko dla ograniczonego kręgu. Mimo publikacji map w sieci informacja ta była ciągle ograniczona do możliwości jakie daje obraz rastrowy. Zwykły użytkownik internetu nie mógł po prostu wpisać w swojej ulubionej przeglądarce np. „mapa geologiczna Sławków” i w efekcie wyszukać interesującą go mapę Sławkowa (miejscowość na pd Polski koło Jaworzna). Jednym z zasadniczych kwestii w procesie wyszukiwania jest samo przetwarzanie przez maszyny zapytania zadanego w języku naturalnym. Mechanizm Linked Data pozwala na pokonanie tego problemu.

Niestety wyszukiwarka nie potrafi skojarzyć obrazka (rastrowa mapa) ze słowem Sławków (albo innej dowolnej miejscowości). Jest to bardzo podobny problem jaki stanowi identyfikacja osób na zdjęciu. Nie wie też, że dany obrazek jest mapą geologiczną. Wynika to z faktu, że wyszukiwarki działają na przetwarzaniu informacji tekstowej. Teoretycznie można byłoby szybko opisać kila tysięcy map słowem „geologiczna”. Ale jak sobie poradzić z miejscowościami? Na konkretnej mapie może być nawet kilkaset miast i wsi. Raczej trudno byłoby do każdego obrazka przypisywać kilkaset tag’ów z nazwami. Rozwiązaniem tego problemu jest właśnie Linked Data zaproponowane przez Tima Berners-Lee.

Dane do automatycznego przetwarzania

Nie wchodząc w szczegóły działania Linked Data (ciekawych odsyłam do zakładki na mojej stronie poświęconej temu zagadnieniu, gdzie wkrótce będzie więcej informacji na ten temat), przypisując każdemu obrazowi (mapie geologicznej) unikalny adres http URI i rejestrując zbiór danych w DBpedi można opisać poszczególne elementy za pomocą metadanych charakteryzujących taką mapę. Ważne jest aby dane zostały zarejestrowane zgodnie standardami języka wyszukiwania RDF (semantic querry language for database) np. SPARQL. Metadane miedzy innymi, poza samą nazwą mapy, zawierają informację o współrzędnych obszaru przedstawionego na mapie. Jest to fundamentalna informacja dla dalszego procesu przetwarzania informacji.
Rejestrując dane w DBpedii umożliwiamy de facto połączenie ich z innymi danymi, co jest newralgicznym elementem całego procesu, a co najważniejsze dzięki URI zarejestrowane dane są czytelne nie tylko dla człowieka, ale przede wszystkim dla maszyn (machine-readable). Cały proces udostępniania danych działa oczywiście na zasadach crowdsourcing’u. Każdy, spełniając podstawowe reguły, może dołączyć swój fragmencik danych. Im więcej będzie połączonych informacji tym większa będzie siła i możliwości wyszukiwania, a w efekcie także tworzenia relacji.

Połączenie danych zmienia rzeczywistość

Dlaczego połączenie danych z innymi jest tak istotne? Niech posłuży do tego wspomniany już przykład geologiczny. Oczywiście oprócz map geologicznych w DBpedii zarejestrowano też tysiące innych zbiorów danych, między innymi bazę wszystkich miejscowości. W bazie tej można odszukać Sławków. Każda miejscowość została opisana unikalnymi współrzędnymi lokalizacyjnymi. W zadanym zapytaniu mamy dwa elementy „mapa geologiczna” i „Sławków” . Dzięki bazie Linked Data następuje relacja miedzy lokalizacją konkretnej mapy geologicznej i lokalizacją miejscowości. Mechanizm ten pozwala po prostu na wpisanie w wyszukiwarce internetowej frazy czytelnej dla człowieka „mapa geologiczna Sławków” i zostanie ona też zrozumiana przez maszynę (komputer). Wcześniej było to sformułowanie kompletnie nieczytelna dla wyszukiwarki i nie dawało oczekiwanych rezultatów. W wyniku wyszukiwania otrzymamy link do konkretnej mapy geologicznej: http://bazadata.pgi.gov.pl/data/smgp/arkusze_skany/smgp0944.jpg lub do jej metadanych: http://metadane.pgi.gov.pl/semantic-metadata/SzczegolowaMapaGeologicznaPolski/dataset/dae99eb6-6680-11e4-b116-123b93f75cba.html
Oczywiście mechanizm działa nie tylko dla Sławkowa, ale też dla prawie 44 tyś. innych miejscowości i wsi znajdujących się na terenie Polski. W efekcie wykonanych prac wybierając nazwę dowolnego mista można sprawdzić warunki geologiczne jakie wystpują w jego okolicy. Za całym procesem stoi technologia Linked Data. W ten sposób wyszukiwanie, które wcześniej nie dawało oczekiwanego rezultatu dziś pozwala dotrzeć do poszukiwanej mapy.

Pytaj, a znajdziesz

Podany przykład dotyczący map geologicznych to tylko jedno z tysiecy zastosowań połączonych w sieci danych. Dzięki mechanizmom Linked Data można zadawać kolejne zapytania, które są czytelne dla maszyn i uzyskiwać odpowiedzi poprzez relacje jakie zapewniają połączenia zapisane między danymi połączonymi w sieci. Im więcej zasobów zostanie zgłoszonych i opublikowanych wg reguł Linked Data, będą rosły możliwości wyszukiwania informacji przez maszyny w oparciu o naturalne dla człowieka zapytania. Możliwości Linked Data są limitowane tylko wyobraźnią człowieka i pomysłami budowanych wokół tego rozwiązania aplikacji. Wystarczy zastanowić się nad potencjałem uzyskiwania informacji jaki otwiera się dzięki temu rozwiązaniu. Gdyby np. każda działka ewidencyjna znajdująca się w zasobie geodezyjnym miała swój unikalny URI. Dlatego też tak ważne jest dołączanie kolejnych zasobów.

Zasada działania jest bardzo podobna do inicjatywy OpenStreetMap.com. Zasoby tego społecznego ruchu mogą dziś być konkurencyjne (zarówno jakością, jak i zakresem przestrzennym) z mapami komercyjnymi oraz tymi wytwarzanymi przez instytucje państwowe. Niestety jednym z największych ograniczeń w rozwoju technologii Linked Data jest opór instytucji państwowych przed publikacją danych, paradoksalnie należących do użytkowników. Wytworzenie większość tych danych zostało wcześniej sfinansowane pośrednio z naszych podatków. Ale to już jest temat na zupełnie inny artykuł. Na koniec przypomnę, że połączenie dwóch fragmentów pozornie nie zależnych danych może wygenerować rezultaty, czasami przekraczające wcześniejsze wyobrażenia. Zgodnie ze starym przysłowiem „ziarko do ziarka …” i potęga myśli jest przekładana na tryby maszynerii.