1. Zarządzanie wiedzą w dobie
Internetu Trzeciej Generacji
(Web 3.0)
Sebastian Ryszard Kruk
sebastian.kruk@knowledgehives.com
Copyright @ KnowledgeHives.com
2. Program prezentacji
• Wprowadzenie do Web 3.0
– Czym jest Semantic Web
– Dlaczego Web 2.0 nie wystarcza
– “Jabłka i pomarańcze”
• Semantyczne Biblioteki Cyfrowe
– Czym są Semantyczne Biblioteki Cyfrowe
– Do czego potrzebna jest nam “semantyka”
– Jak opublikować informację
– Przykłady Semantycznych Bibliotek Cyfrowych: FEDORA i JeromeDL
– OK, ale czy to aby daje jakieś wymierne rezultaty?
• Semantyczne serwisy społecznościowe
– Dlaczego Google i tagowanie to nie wszystko czego potrzebujemy?
– Społeczeństwo a semantyka - to już nie problem “jajka i kury”
– Ciągle jeszcze w fazie beta, ale już całkiem użyteczne: Twine i
węzełki.pl
Copyright @ KnowledgeHives.com
2
3. W czym mamy problem ?
• W jaki sposób integrować i wyszukiwać informację z różnych źródeł?
• W jaki sposób łączyć i współdzielić wiedzę różnych ludzi ?
3 Copyright @ KnowledgeHives.com
5. Wprowadzanie do Web 3.0
• Czym jest Semantic Web
• Czym jest Web 2.0
• Dlaczego Web 2.0 nie wystarcza
• “Jabłka i pomarańcze”
5 Copyright @ KnowledgeHives.com
6. Sieć Semantyczna - Wprowadzenie
• Obecna Sieć a Sieć Semantyczna ?
– Rozszerzenie obecnej Sieci, w którym informacja ma dobrze
zdefiniowane znaczenie i umożliwia komputerom i ludziom
lepszą współpracę. [Tim Berners-Lee]
– Obecna Sieć została zaprojektowana dla ludzi; bardzo mało
informacji jest użyteczne dla maszyn
• Czy Sieć miała być czymś więcej?
– Obiekty z dobrze zdefiniowanymi atrybutami, w przeciwieństwie
do nieokreślonych powiązań pomiędzy zasobami Internetowymi
– sieć powiązań pomiędzy nazwanymi obiektami umożliwiającymi
ujednolicenie zadań zarządzania informacją
• Co rozumiemy przez “Semantyka” ?
– semantyka czegoś jest równoznaczna ze znaczeniem
– Sieć Semantyczna umożliwia taki opis rzeczy aby komputery
rozumiały ich znaczenie
6 Copyright @ KnowledgeHives.com
8. A jak miała wyglądać?
IBM
GroupTalk
Computer
conferencing
Hyper for example
uucp
Card
News
ENQUIRE
VAX/ Hierarchical
NOTES systems
for example for example
unifies
A
Proposal CERNDOC
quot;Meshquot;
Linked
describes
information
includes
describes
includes
C.E.R.N.
describes This
division
quot;Hypertextquot; document
group group
refers
includes
to
describes wrote
section
Hypermedia etc Tim
Berners-Lee
Comms
ACM
by Sir Tim Berners-Lee
8 Copyright @ KnowledgeHives.com
9. Sieć Semantyczna - Wprowadzenie
• Wyzwania które stoją przed Siecią Semantyczną
– Sieć Semantyczna nie będzie działać sama z siebie
– Na przykład: mało prawdopodobne, że będziesz mógł
sprzedać swój samochód publikując semantyczny
dokument w Internecie
– Potrzeba całego ekosystemu aplikacji: agentów i/lub usług
semantycznych, konsumentów i rozwiązań
przetwarzających semantyczne dane, bardziej
zaawansowanych aplikacji wspierających współpracę
9 Copyright @ KnowledgeHives.com
10. Sieć Semantyczna - Wprowadzenie
Jesteś
tutaj
• Gdzie teraz
jesteśmy w stosie
(“layer cake”)
Sieci Semantycznej?
10 Copyright @ KnowledgeHives.com
11. Opisywanie rzeczy w Sieci Semantycznej
• RDF (Resource Description Framework)
• format danych do opisywania informacji i zasobów,
• podstawowy model danych dla Sieci Semantycznej
• Używając RDF możemy opisać podstawowe związki pomiędzy
zasobami:
• A jest częścią B
• Y is członkiem Z
– oraz ich właściwości (rozmiar, waga, wiek, cena) w formacie
zrozumiałym przez maszyny, gdzie każdy zasób jest
jednoznacznie identyfikowany
• Model oparty na grafie umożliwia bezpośrednie przetwarzanie
informacji
– Umieszczenie informacji w plikach RDF umożliwia agentom
wyszukiwanie, odnajdywanie, pobieranie, zbieranie, analizę i
przetwarzanie informacji opublikowanej w Internecie
11 Copyright @ KnowledgeHives.com
12. Przykładowy RDF
• Zdanie:
– “Sebastian Kruk jest twórcą (creator) zasobu (strony
internetowej) http://www.knowledgehives.com”
• Struktura:
– Zasób (subject) http://www.knowledgehives.com
– Właściwość (predicate) http://purl.org/dc/elements/1.1/creator
– Wartość (object) “Sebastian Kruk”
• Graf skierowany (digraf):
dc:creator Sebastian R. Kruk
http://www.knowledgehives.com
12 Copyright @ KnowledgeHives.com
13. Rozszerzony przykład
• Dodatkowe właściwości “twórcy”, wskazane przez pośredni
zasób:
– elipsy to zasoby
– prostokąty to literały
http://www.knowledgehives.com/
dc:Creator
Person://fi/654645635
Email
Name
mailto:sebastian.kruk@
Sebastian Kruk
knolwedgehives.com
13 Copyright @ KnowledgeHives.com
14. W jaki sposób RDF może pomóc?
• identyfikacja obiektów
• ustalenie powiązań
• wyrażanie nowych powiązań: wystarczy dodać nowe zdanie
RDF
• integracja informacji z różnych źródeł: połącz wszystkie grafy
RDF
• RDF pozwala wyrażać wiele punktów widzenia
14 Copyright @ KnowledgeHives.com
15. Ontologie i Schematy
• Czym jest Ontologia?
– „An ontology is a specification of a conceptualization.“ Tom
Gruber, 1993
• Ontologie są społeczną umową
– Uzgodniona, określona semantyka
– Zrozumiała dla ludzi i systemów spoza danej społeczności
– (Często) wynik współpracy danej społeczności
• Języki reprezentacji ontologii:
– RDF and RDF Schema
– OWL
– Inne: DAML+OIL, EER, UML, Topic Maps, MOF, XML
Schemas
15 Copyright @ KnowledgeHives.com
16. RDF Schema
• Definiuje mały słownik pojęć dla RDF:
– Class, subClassOf, type
– Property, subPropertyOf
– domain, range
• Ten (meta-)słownik może być użyty w celu definiowania innych
słowników dla danej dziedziny wiedzy
Person
subClassOf subClassOf
range
domain
Student Researcher
hasSuperVisor
type type
hasSuperVisor
Frank Jeen
16 Copyright @ KnowledgeHives.com
17. OWL - The Web Ontology Language
• Język ontologii dla Sieci
• dostarcza słownik do definiowania klas, ich właściwości, oraz
związków pomiędzy klasami
» Owl took Christopher Robin’s notice from Rabbit and looked at it nervously. He
could spell his own name WOL, and he could spell Tuesday so that you knew it
wasn’t Wednesday, and he could read quite comfortably when you weren’t
looking over his shoulder and saying quot;Well?quot; all the time...
•
Zwierzę
s s
Mięsożerca
Roślinożerca
owl:disjointWith
s
s
Wszystkożerca
17 Copyright @ KnowledgeHives.com
18. Inicjatywa MarcOnt
• Motywacja
– dostarczyć zestaw narzędzi do
tworzenia ontologii przez
społeczności ekspertów dziedzinowych
• Cele inicjatywy MarcOnt:
– stworzyć system w którym ontologia może być tworzona i
doskonalona dzięki wykorzystaniu mechanizmów
społecznych
– dostarczyć narzędzi dzięki którym eksperci dziedzinowi
będą mogli dzielić się wiedzą
– dostarczyć narzędzi umożliwiających mediacje pomiędzy
tworzonymi ontologiami a innymi formatami danych
18 Copyright @ KnowledgeHives.com
19. Portal i Ontologia MarcOnt
• Ontologia MarcOnt:
– Centralny produkt
edycja
Inicjatywy MarcOnt
– Tłumaczenie i mediacja
– Powstaje w efekcie ciągłego
poprawiania w portalu
komentarze
– Kwintesencja wiedzy
ocena i
ekspertów dziedzinowych
• MarcOnt Portal:
– Sugestie
– Komentarze i ocena
– Wersjonowanie
publikowanie
– Wbudowany edytor
ontologii
• http://portal.marcont.org/
19 Copyright @ KnowledgeHives.com
20. Publikowanie semantyki
• Wbudowanie semantyki z wykorzystaniem standardu HTML:
Microformats, eRDF, RDF/A
• Połączenie z zewnętrznym plikiem RDF (tag <LINK>)
<link rel=quot;mediaquot;
type=quot;application/rdf+xmlquot; title=quot;Ontologyquot;
href=quot;http://source.url/data/resourcequot;/>
• Negocjacja treści (content negotiation)
source: http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/
20 Copyright @ KnowledgeHives.com
21. Linking Open Data
• Dlaczego warto publikować RDF?
– faza startowa Sieci Semantycznej
– wykorzystanie innych opublikowanych semantyk:
• mash-upy: DBPedia Mobile, Revyu
• indeksy semantyczne: Sindice
• Czym są otwarte dane (open data)?
– Publikacje organizacji rządowych
– Dane bibliograficzne
– Wikipedia
– Wyniki badań naukowych
– Bazy danych użytkowników Sieci
• Jak włączyć się w ten nurt?
– RDFize
– Publikuj w Internecie
– Łącz informacje z różnych źródeł source: http://richard.cyganiak.de/2008/04/linking-open-data-swnyc.pdf
21 Copyright @ KnowledgeHives.com
22. Linking Open Data
source: http://richard.cyganiak.de/2007/10/lod/
22 Copyright @ KnowledgeHives.com
23. Zastosowania Sieci Semantycznej
• Sieć Semantyczna nie jest i nie może być jedynie
zestawem rekomendacji (np. W3C)
• Sieć Semantyczna staje się rzeczywistością dzięki
aplikacjom, które ją wykorzystują i wspierają
• Technologie wspierające:
– RDF Storages: Sesame, Jena, YARS
– Reasoners: KAON, Racer
– Editors: Protege, SWOOP, MarcOnt Portal
• Aplikacje dla użytkowników końcowych:
– Semantyczne wiki: Makna, SemperWiki
– Semantyczne blogi: SIOC
– Semantyczne Biblioteki Cyfrowe
– Semantyczne Sieci Społeczne
23 Copyright @ KnowledgeHives.com
24. Wprowadzanie do Web 3.0
• Czym jest Semantic Web
• Czym jest Web 2.0
• Dlaczego Web 2.0 nie wystarcza
• “Jabłka i pomarańcze”
24 Copyright @ KnowledgeHives.com
25. Czym jest Web 2.0
• Sieć gdzie “zwykli” użytkownicy spotykają się, współpracują i
wymieniają się informacją używając nowych rozwiązań
(tagowanie treści, społeczne zakładki, AJAX, itp.)
• Nazwa Web 2.0 została spopularyzowana przez Tima O’Reilly:
http://www.oreillynet.com/pub/a/oreilly/tim/news/
2005/09/30/what-is-web-20.html
• Do popularnych przykładów należą: LinkedIn, Grono, nasza-
klasa, del.icio.us, digg, Flickr, Google Maps, Skype,
Technorati, Wikipedia…
25 Copyright @ KnowledgeHives.com
26. Web 2.0
• Niektóre z zastosowań Web 2.0:
– Sieć jako platforma do współpracy i interakcji społecznej
– Powtórne używalne treści społeczne
– Kanały subskrypcji do informacji, wiadomości, przepływu
informacji, usług
– Publikowanie z wykorzystanie systemów społecznych
• Systemy społeczne do komunikacji i współpracy:
– IM, IRC, Fora, Blogi, Wiki, Serwisy Społeczne, Społeczne
Zakładki, MMOGs…
26 Copyright @ KnowledgeHives.com
27. Fenomen Blogów
No tak, możemy przeczytać twój blog ... lub, możesz
nam po prostu opowiedzieć o twoim dniu w szkole
Cincinnati Enquirer, Październik 2004
27 Copyright @ KnowledgeHives.com
28. Kanały Powiadomień
• Kanały powiadomień (syndication) są używane do
regularnego powiadamiania o nowo
opublikowanych treściach
• Treści są dostarczane z wielu blogów i stron z
wiadomościami w postaci uzgodnionego formatu,
który może być użyty przez inne strony i aplikacje:
– Na przykład, treści z PAP są publikowane tak, że ich
nagłówki mogą być prezentowane na innych stronach WWW
• W odróżnieniu od masowego spamowania przez e-
mail, zainteresowani mogą zapisać się do kanałów,
które ich interesują
• Format kanału powiadomień może mieć wiele
zastosowań, m.in., łączenie różnych usług ze sobą,
składanie (mashup) danych, itp.
28 Copyright @ KnowledgeHives.com
29. Czym jest RSS?
• Najbardziej popularny format kanałów powiadomień
• Może oznaczać:
– “Really Simple Syndication”
– “Rich Site Summary”
– “RDF Site Summary
• Ma 8 rożnych wersji
source: http://web2.wsj2.com
29 Copyright @ KnowledgeHives.com
30. RSS 1.0
• RSS 1.0 jest ontologią RDF, więc może być łączony z innymi
ontologiami
• Klasa “channel”:
– Właściwość “title”
– Właściwość “link”
– Właściwość “description”
– Właściwość “items” (rdf:Seq)
–…
• Klasa “item”:
– Właściwość “title”
– Właściwość “link”
– Właściwość “description”
–…
30 Copyright @ KnowledgeHives.com
31. Co to Atom?
• Inny system kanałów powiadomień
• Bazuje na XML (nie w RDF), ale trwają prace nad AtomOWL
• Nacisk położony na API nie format danych
• Specyfikacja:
– Konstrukcje: treść, ludzie, daty and połączenia
– Elementy: kanały i elementy
– http://www.atomenabled.org/developers/syndication/atom-
format-spec.php
– http://www.atomowl.org/
31 Copyright @ KnowledgeHives.com
32. Wiki
• Dokumentacja rozwijana przez społeczność
– narzędzie umożliwiające użytkownikom proste tworzenie i
edytowanie treści stron WWW korzystając z przeglądarki
internetowej. Wiki wspiera prosty syntaks formatowania
treści i tworzenia połączeń pomiędzy dokumentami
• Słowo wiki pochodzi od Hawajskiego szybko
• W skrócie:
– Połączone strony
– Społeczne edytowanie
– Prosty syntaks
– np. Wikipedia.org
32 Copyright @ KnowledgeHives.com
33. Wprowadzanie informacji
• Każdy może edytować istniejący artykuł
• Jeżeli artykuł nie istnieje można go łatwo stworzyć
• Jeżeli ktoś popsuje treść artykułu - możemy zawsze wrócić do
poprzedniej wersji w historii edycji
33 Copyright @ KnowledgeHives.com
34. Społeczności Internetowe
• Ludzie tworzą internetowe społeczności aby komunikować się
ze sobą
– 1-do-1: email, komunikatory
– 1-do-wiele: strony internetowe, blogi
– wiele-do-wiele: fora, wiki
Web 1.0 i wcześniej: Web 2.0:
BBS Strony z wieloma forami
Listy dyskusyjne Internetowe społeczności
USENET Blogi
Internetowe tablice ogłoszeń Wiki
34 Copyright @ KnowledgeHives.com
35. Wprowadzanie do Web 3.0
• Czym jest Semantic Web
• Czym jest Web 2.0
• Dlaczego Web 2.0 nie wystarcza
• “Jabłka i pomarańcze”
35 Copyright @ KnowledgeHives.com
36. Web 2.0 - czego brakuje?
• czy wystarczą tylko tagi?
– ilość tagów rośnie prawie liniowo z czasem
– za małe powtórne wykorzystanie tagów
– brak ogólnej zgody co do znaczenia tagów (por. ontologie)
– brak systemów organizacji wiedzy - słowników, tezaurusów
• do ilu sieci społecznych należysz?
– wiele kont, profili, (typów) znajomości
– (podświadomy) dylemat: sieć społeczna - monopolista vs
nasze prywatne życie w rekach jednej osoby
• w ilu miejscach publikujesz?
– wiele blogów, forum, wiki
– wiele serwisów zakładkowych
36 Copyright @ KnowledgeHives.com
37. Blogowanie strukturalne
• Pakiety strukturalnych danych stają się częścią postów
• Idea blogów polegała na ich prostocie
• Teraz każdy blog wymaga jedynie pola na treść, i może tytuł i
URL
• Nie każdy jest zadowolony z tego najniższego wspólnego
mianownika
• http://www.structuredblogging.org/
37 Copyright @ KnowledgeHives.com
39. Problemy tradycyjnych Wiki
• Dostęp do struktury
– Inne książki JohnGrisham’a (nawigacja)
– Wszyscy autorzy którzy żyją w Europie? (zapytanie)
• Powtórne wykorzystanie informacji
– Autorzy publikowani przez RandomHouse (widok)
– A co jeśli nie mówię po Polsku? (tłumaczenie)
JohnGrisham
Jest autorem RaportPelikana.
Żyje w Misisipi.
Pisze książkę każdego roku.
Jego wydawcą jest RandomHouse.
39 Copyright @ KnowledgeHives.com
40. Rozwój serwisów społecznościowych
• Internetowe serwisy społecznościowe:
– Są wartościowym źródłem informacji
– Mogą zawierać wartościowe meta-informacje
– Pozostają w izolacji, np.: wiele stron rozważających
podobne tematy
• Następne kroki:
– Połączyć serwisy społecznościowe ze sobą (OpenSocial?)
– Zaoferować więcej wartości:
• Pozwolić innym stronom wiedzieć więcej o strukturze danych
• Bardziej wykorzystać tagowanie i semantykę
40 Copyright @ KnowledgeHives.com
41. Obecne rozwiązania kanałów powiadomień
• Pierwszy krok w celu połączenia serwisów społecznych
– Lepsza widoczność dzięki agregacji i wyszukiwaniu
• Zyski:
– Doskonałe wsparcie przez narzędzia
– Wielu użytkowników
• Ograniczenia:
– Mało informacji o strukturze opublikowanej na stronie
– Kanały powiadomień mają jedynie 5 do 20 stron
• Jak możemy dostarczyć informacji na temat całej strony ?
41 Copyright @ KnowledgeHives.com
42. Wprowadzanie do Web 3.0
• Czym jest Semantic Web
• Czym jest Web 2.0
• Dlaczego Web 2.0 nie wystarcza
• “Jabłka i pomarańcze”
42 Copyright @ KnowledgeHives.com
43. Social Semantic Information Spaces
Połączania społeczne
Współpraca i Social Semantic
Information Spaces
Komunikacja
Semantic Desktop, Wikis, Blogs, OSN,
Collaborative Working Environments
Siec Semantyczna
World Wide Web
RDFS, OWL, SPARQL
URIs, HTML, HTTP
Syntaks Semantyka
43 Copyright @ KnowledgeHives.com
45. Tradycyjne vs Semantyczne Blogowanie
• Tradycyjne blogowanie:
– Publikowanie dla ludzi (“eyeball Web”)
– Treścią jest tekst, obrazki, filmy; czyli treść dla ludzi
• Semantyczne blogowanie:
– Rozszerzenie tradycyjnych blogów o semantykę
– Struktura: co jest powiązane z czym?
– Powiązane treści: o czym jest dany post (osoba, zdarzenie,
itp)
– Blogowanie skierowane do maszyn i do ludzi
45 Copyright @ KnowledgeHives.com
46. Dlaczego Semantyczne Blogowanie?
• Tradycyjne blogowanie:
– Małe lub brak możliwości przetwarzania zapytań (poza
tagami i słowami kluczowymi)
– Małe lub brak powtórnego wykorzystania danych (poza
kopiuj-wklej)
– Małe lub brak powiązania pomiędzy postami (poza prostymi
linkami i tracebacks)
• Semantyczne blogowanie:
– Lepiej wspiera przetwarzanie zapytań:
• Bardziej dokładne
• Pozwala na powiązanie różnych źródeł
– Większe możliwości na powtórne wykorzystanie danych
– Bogatsze powiązania pomiędzy postami
46 Copyright @ KnowledgeHives.com
47. Dlaczego Semantyczne Blogowanie?
• Użytkownicy często tworzą i
zbierają dużo informacji w
swoich komputerach
• Dane te są ściśle powiązane z
daną aplikacja lub zadaniem,
i zamknięte w systemie
• Semantyczne blogowanie
umożliwia powiązanie tych
informacji z informacjami w
Sieci
47 Copyright @ KnowledgeHives.com
48. Jak to się ma do strukturalnego blogowania?
• Strukturalne blogowanie głównie bazuje na
“Mikroformatach” (http://www.microformats.org/)
– Jest więc zależne od specyficznego formatu, nie jest
otwarte
– Powiązane ściśle (inline) z treścia strony i kanału
powiadomienia (feed)
– Może być bezpośrednio pokazane dzięki CSS
• Metadane mogą być dodane do blogu zarówno jako RDF oraz
jako Mikroformaty
48 Copyright @ KnowledgeHives.com
49. Tworzenie metadanych
• Strukturalne metadane:
– Relacje wewnątrz blogosfery: co jest powiązane z czym i w
jaki sposób (odpowiedzi, rozwinięcia wątków, zakładki,
tematy, itp)?
– Sugerowana ontologia: SIOC (http://rdfs.org/sioc/)
– Wtyczki do platform blogujących, e.g. WordPress, Drupal
– Dostarczanie semantyki bezpośrednio z bazy danych blogu
49 Copyright @ KnowledgeHives.com
50. Tworzenie metadanych
• Treść związana z metadanymi:
– O czym mówią posty (książki, spotkania)?
– Otwarte standardy - wykorzystanie dowolnych ontologii
(BibTeX, FOAF, iCal, ...)
– Podejście internetowe - użytkownik wypełnia odpowiednie
pola formularza HTML
– Podejście “pulpitowe”- użytkownik wybiera istniejące dane
na jego komputerze i przetwarza je do RDF podłączonego
do postu
50 Copyright @ KnowledgeHives.com
51. Semantyczne Wiki
• Wiki które ma określony model wiedzy opisanej na stronach
– umożliwia zidentyfikowanie dalszych informacji związanych
z daną stroną i jej powiązaniami
– Model wiedzy jest dostępny w postaci formalnego języka,
umożliwiając przetwarzanie przez maszyny
– Niektóre są używane do przechowywania osobistej wiedzy,
inne jako rozwiązania zarządzania wiedzą dla całych
społeczności
• Co najmniej 22 prototypy
– http://wiki.ontoworld.org/index.php/
Semantic_Wiki_State_Of_The_Art or www.cfcl.com/rdm/
MBD/mbd_sem_wiki.php
– http://wiki.ontoworld.org/wiki/Swikig
– http://www.semwiki.org/
51 Copyright @ KnowledgeHives.com
52. Droga do Semantycznych Wiki
Formalne
Wiki
Języki
Semantyczne Wiki
“czuły punkt”
Ontologii
Edytory
Ontologii
Koszt
XML
Tagi
Tekst UML
Zysk
52 Copyright @ KnowledgeHives.com
53. SIOC
• Semantically-Interlinked Online Communities (SIOC)
• Połączenie postów z różnych typów internetowych
społeczności (blogi, fora, grupy dyskusyjne)
• Interesujące możliwości:
– Rozproszone powiązane konwersacje
– Zdecentralizowane kanały komunikacji
– Rozproszone mikro-blogowanie
• http://www.sioc-project.org/
53 Copyright @ KnowledgeHives.com
55. Jak generować SIOCa
• Tworzenie modułów eksportujących SIOC dla popularnych
systemów open source:
– Systemy zarządzania treścią (Drupal)
– Fora internetowe (phpBB)
– Platformy do blogowania (WordPress, DotClear)
• Zarażanie całej sieci:
– W czasie następnego cyklu aktualizacji oprogramowania
gigabajty danych semantycznych zostaną opublikowane
55 Copyright @ KnowledgeHives.com
56. Folksonomie
• wspólne, społeczne klasyfikowanie informacji za pomocą
tagowania
– folk+taxonomy
– Termin wprowadzony przez Thomasa Vandera Wala
• Peter Mika rozważa wnioskowanie na podstawie dużej ilości
wielokrotnie używanych tagów
– http://dx.doi.org/10.1016/j.websem.2006.11.002
• Tom Gruber analizuje różnice pomiędzy folksonomią a
ontologią (jabłka i pomarańcze)
– http://tomgruber.org/writing/ontology-of-folksonomy.htm
56 Copyright @ KnowledgeHives.com
57. TagCommons
• Różne systemy tagowania - różne rozumienie procesu i
samych tagów
• Potrzeba formalnego modelu do reprezentacji wspólnych
konceptów
• Tagging ( document, term, tagger, source, + or -)
Tagger
dc:creator
Tagging
hasTerm
hasTagging
Document Term
57 Copyright @ KnowledgeHives.com
58. SCOT - Social Semantic Clouds of Tags
• Ontologia do połączenia ludzi (FOAF), tagów (SKOS) i
zasobów (SIOC)
• http://www.scot-project.org/
58 Copyright @ KnowledgeHives.com
59. FOAF
• FOAF = Friend-of-a-Friend
• Definiuje właściwości opisujące osobę lub abstrakcyjnego
“agenta”
• Jeden plik może zawierać informacje o wielu osobach
• Umożliwia opis sieci społecznej za pomocą powiązań
foaf:knows
• Może być łatwo rozszerzony żeby spełniać specyficzne
wymagania, np. projekt FOAFRealm wykorzystuje FOAF do
zarządzania profilami i kontroli dostępu …
59 Copyright @ KnowledgeHives.com
60. Zarządzanie profilami
• Profile zdefiniowane przy pomocy ontologii FOAF
• Reguły kontroli dostępu bazujące na strukturze sieci
społecznej
– odległość pomiędzy właścicielem a użytkownikiem
– poziom znajomości liczony jako produkt pośrednich
poziomów znajomości w grafie pomiędzy dwoma
użytkownikami
• Wsparcie dla “single-sign-on” oraz OpenID
• Rozproszone zarządzanie oparte o protokół P2P HyperCuP
(tzw “D-FOAF”)
• Obecnie zaimplementowany jako plugin do Tomcat’a,
– dostępny prototyp dla PHP and .NET
60 Copyright @ KnowledgeHives.com
62. Semantyczne Biblioteki Cyfrowe
• Czym są Semantyczne Biblioteki Cyfrowe
• Do czego potrzebna jest nam “semantyka”
• Jak opublikować informację
• Przykłady Semantycznych Bibliotek Cyfrowych: FEDORA i
JeromeDL
• OK, ale czy to aby daje jakieś wymierne rezultaty?
62 Copyright @ KnowledgeHives.com
63. Semantyczne Biblioteki Cyfrowe
• integracja różnych typów informacji:
– zasobów, profili użytkowników, zakładek, taksonomii;
– wysokiej jakości semantyka = silnie powiązana informacja
• interoperacyjność z innymi systemami, nie tylko bibliotekami:
– na poziomie metadanych jak i protokołów
– RDF jako wspólny mianownik pomiędzy bibliotekami i
innymi systemami
• bardziej wydajne, przyjazne dla użytkowników, i bardziej
adaptowane wyszukiwanie i przeglądanie:
– interfejsy użytkownika bazujące na semantyce
– wykorzystanie formalnych i nieformalnych (społecznych)
opisów bibliograficznych
63 Copyright @ KnowledgeHives.com
64. Za czasów papierowych książek
• Biblioteka:
– Archiwum (przechowywanie)
– Karty biblioteczne (metadane)
– Bibliotekarz (interfejs)
• Plusy:
– Mamy bibliotekarza z którym można porozmawiać,
wytłumaczyć czego szukamy
• Minusy:
– Trzeba się tam udać osobiście
– Nie są za bardzo połączone - trzeba odwiedzić każdą z nich
z osobna
64 Copyright @ KnowledgeHives.com
65. Czasy bibliotek cyfrowych
• Biblioteka cyfrowa
– Baza danych i archiwum (przechowywanie)
– Cyfrowy opis bibliograficzny (metadane)
– Index pełnotekstowy (interfejs)
• Plusy:
– Treść dostępna online
– Federacje bibliotek - mniej miejsc do odwiedzenia
• Minusy:
– Samotny użytkownik - znikąd nie otrzymuje pomocy
– Federacje nie łączą wszystkich bibliotek
65 Copyright @ KnowledgeHives.com
66. Semantyczne książki
• Semantyczne Biblioteki Cyfrowe (I)
– Baza RDF (przechowywanie)
– Semantyczne opisy bibliograficzne (powiązane metadane)
– Wyszukiwanie i nawigacja na ontologii (interfejs)
• Plusy:
– Semantyczne wyszukiwanie może częściowo zastąpić
bibliotekarza
– Połączenie bibliotek i innych systemów staje się łatwiejsze
• Minusy:
– Semantyka jest tworzona z istniejących informacji
dostarczanych przez bibliotekarzy - nadal niezrozumiała dla
zwykłych użytkowników
66 Copyright @ KnowledgeHives.com
67. Społeczne książki
• Semantyczne Biblioteki Cyfrowe (II)
– Baza RDF (przechowywanie)
– Opisy bibliograficzne rozszerzone o opisy społeczne
(powiązane metadane)
– Wspólne przeglądanie i wyszukiwanie (interfejs)
• Plusy:
– Użytkownicy pomagają klasyfikować zasoby
– Użytkownicy lepiej rozumieją opisy dostarczone przez
społeczność
– Zawartość biblioteki jest rozszerzona o informacje
publikowane na blogach i wiki
• Minusy:
– Należy przekonać bibliotekarzy do jakości społecznych
opisów
67 Copyright @ KnowledgeHives.com
68. Systemy Organizacji Wiedzy
• narzędzia które prezentują zorganizowaną interpretację
struktur
• semantyczne narzędzia - znaczenie słów i innych symboli, jak
również powiązań pomiędzy pojęciami
• Organizują informację i promują zarządzanie wiedzą
• Przykłady:
– schematy klasyfikacji (Polska Klasyfikacja Tematyczna)
– ściśle powiązane słowniki, np.: tezaurusy
– ontologie
• Format dla Sieci Semantycznej: SKOS [Simple Knowledge
Organization Systems]
68 Copyright @ KnowledgeHives.com
69. Systemy Organizacji Wiedzy
• słowniki - lista wyrażeń
• taksonomia - kolekcja wyrażeń ze słowników
zorganizowanych w hierarchie
• formalna ontologia – słownik wyrażony przy pomocy języka
reprezentacji ontologii. Język ten ma gramatykę do wyrażania
znaczenia czegoś w danej dziedzinie wiedzy
• meta-model - ogólny model konstrukcji i reguł potrzebnych
do budowania specyficznych modeli dla konkretnych dziedzin
wiedzy. Poprawny meta-model jest ontologią, ale nie każda
ontologia jest meta-modelem.
69 Copyright @ KnowledgeHives.com
70. JOnto - API dla KOS
• Ujednolicony API (Java, REST) dostępu do KOS
• Pełna reprezentacja KOS w RDF
– podstawowe relacje określone przez SKOS
– słownik OWL/RDF
– ontologia tagowania (TagOntology)
• Wsparcie dla
– taksonomii (UDC, DDC, LoC, ACM, DMoz, Polska Klasyfikacja
Tematyczna)
– tezaurus (WordNet, OpenThesaurus)
– tagowanie
• Łatwa rozszerzalność:
– o nowe taksonomie zdefiniowane w RDF lub plikach tekstowych
– tezaurusy w RDF
• Indeksowanie pełnotekstowe dla szybszego filtrowania
70 Copyright @ KnowledgeHives.com
72. Semantyczne Biblioteki Cyfrowe
• Czym są Semantyczne Biblioteki Cyfrowe
• Do czego potrzebna jest nam “semantyka”
• Jak opublikować informację
• Przykłady Semantycznych Bibliotek Cyfrowych: FEDORA i
JeromeDL
• OK, ale czy to aby daje jakieś wymierne rezultaty?
72 Copyright @ KnowledgeHives.com
73. Ontologie
• DublinCore
– jeden z pierwszych standardów
– http://dublincore.org/
• CIDOC-CRM
– referencyjny model stworzony dla muzeów i innych organizacji
– http://cidoc.ics.forth.gr/
• Ontologia FRBR
– Książka: Pozycja, Przejaw/Manifestacja, Wyrażenie/Ekspresja, and Praca
– http://www.frbr.org/
• The Bibliographic Ontology
– zamodelowana na podobieństwo SKOS
– kompatybilna ze standardami bibliograficznymi
• Ontologie Corrib
– zestaw kilku ontologii pokrywających różne obszary semantycznych
bibliotek cyfrowych
73 Copyright @ KnowledgeHives.com
74. Co zyskujemy ?
• elastyczne zarządzanie zasobami
– agregacja zasobów bibliotecznych z wielokrotnie używanych
komponentów i metadanych
– integracja statycznych i dynamicznych zasobów
– dynamiczne widoki na bazie danych
• nowe paradygmaty wyszukiwania informacji
– wyszukiwanie oparte o ontologie, fasetowa nawigacja
– społeczne przeglądanie - wspólna nawigacja
• ułatwiona wymiana danych
– integracja metadanych pochodzących z różnych źródeł
– wsparcie dla społecznych opisów
– połączenie bibliotek z innymi systemami
74 Copyright @ KnowledgeHives.com
75. Semantyczne Biblioteki Cyfrowe
• Czym są Semantyczne Biblioteki Cyfrowe
• Do czego potrzebna jest nam “semantyka”
• Jak opublikować informację
• Przykłady Semantycznych Bibliotek Cyfrowych: FEDORA i
JeromeDL
• OK, ale czy to aby daje jakieś wymierne rezultaty?
75 Copyright @ KnowledgeHives.com
77. OAI-ORE
• Cel: opisać i umożliwić wymianę agregacji zasobów Internetowych
• Jak ?
– bazuje na wynikach badań w Sieci Semantycznej i Architekturze
Internetu
– używanie otwartych standardów: RDF, Nazwane Grafy, ATOM,
HTTP
– każda agregacja i każdy zasób jest identyfikowany przez URI
• Serializacja:
– Atom
– Graf RDF (RDF/XML, N-Triples, Turtle)
– RDFa
• Wyszukiwanie:
– OAI-PMH
– semantyczne indeksy, np.: Sindice
77 Copyright @ KnowledgeHives.com
79. Semantyczne Biblioteki Cyfrowe
• Czym są Semantyczne Biblioteki Cyfrowe
• Do czego potrzebna jest nam “semantyka”
• Jak opublikować informację
• Przykłady Semantycznych Bibliotek Cyfrowych: FEDORA i
JeromeDL
• OK, ale czy to aby daje jakieś wymierne rezultaty?
79 Copyright @ KnowledgeHives.com
80. Przykłady SemDL
• SIMILE
– rozszerza możliwości DSpace dzięki poprawie wymienialności z innymi
zasobami cyfrowymi, metadanymi i usługami
• Greenstone
– pakiet open source oprogramowania do budowania i dystrybucji kolekcji
bibliotek cyfrowych
• DELOS
– EU Network of Excellence w zakresie bibliotek cyfrowych; pomaga
przeprowadzać badania (dzielić się ich wynikami) w zakresie technologii
następnej generacji dla bibliotek cyfrowych
• BRICKS
– celem projektu było dostarczenie organizacyjnych i technologicznych podstaw
do budowy sieci bibliotek cyfrowych usprawniającej dzielenie się wiedzą i
zasobami dziedzictwa kulturowego
• JeromeDL
– semantyczna biblioteka cyfrowa dostarczająca wielu rozwiązań semantycznych
i społecznych
• FEDORA
– dostarcza elastyczny SOA do zarządzania i dostarczania cyfrowych obiektów
80 Copyright @ KnowledgeHives.com
82. Fedora
Platformy naukowe Kuracja, Łączenie i Publikowanie Danych
Zintegrowana Wiedzy
Repozytoria Społeczne “Web 2.0”
blog and wiki
82 Copyright @ KnowledgeHives.com
83. Krótka historia
2005 2012+
2001 2007
Mellon Mellon
Major Partnerzy
Moore
Foundation Foundation
Założyciele Darczyńcy
Foundation
83 Copyright @ KnowledgeHives.com
84. Fedora - Technologie
Sieci Informacji Cyfrowe Obiekty
Pojęcia Zarządzanie
Powiązania Dostęp
Repozytorium
Interfejsy Zapytań Wersjonowanie
Przechowywanie
Semantyka
Prezerwacja
Przedsiębiorstwa
Sprawdzanie Integralności
Przepływ danych
Monitorowanie
Przepływ wiadomości
Powiadomienia
Transakcje
Migracja
Replikacje
84 Copyright @ KnowledgeHives.com
85. RDF w Fedorze
(powiązania i inne właściwości)
Persistent ID
DC
RELS‐EXT Ustalone Strumienie danych
Audit Trail
Policy
Datastream 1
Datastream 2 Dowolne Strumienie danych
Datastream n
Strumień danych może być lokalny lub zewnętrzny
85 Copyright @ KnowledgeHives.com
86. Dlaczego technologie semantyczne ?
• RDF jest doskonałym modelem do wyrażania repozytorium jako powiązań
pomiędzy obiektami
– powiązania wewnętrzne
– powiązania z zewnętrznymi zasobami
– zapytania do grafu RDF
• Indeksowanie oparte na ogólnym modelu danych
– korzystanie z modelu grafu
– unikanie ustalonych schematów danych
• Rozszerzalne opisy obiektów
– możliwość opisu z wykorzystaniem różnych ontologii
– stopniowa ewolucja opisów
• Zapytania i inferencing repozytorium obiektów
– przechodnie powiązania pomiędzy obiektami
– analiza zależności
– detekcja i wydobywanie pod-grafów
– śledzenie rozpowszechniania
86 Copyright @ KnowledgeHives.com
88. Zarządzanie Grafem RDF
• Skalowalność
– MPTStore – NSDL testował 334M trójek
– Mulgara – cel 10 miliardów trójek do 2009
• Wydajność
– Jena - problemy z zarządzaniem pamięcią
– Sesame Native - wolny dla zaawansowanych zapytań
– MPTStore
• Bardzo szybkie dla zapytań SPO (ograniczone dla
skomplikowanych)
• Dodawanie i modyfikacja szybsze niż w Kowari
– Mulgara
• open source’owa wersja Kowari; zaawansowane zapytania,
modele, inferencing
88 Copyright @ KnowledgeHives.com
89. Podsumowanie
• Ogólny model cyfrowych obiektów
• Automatyczne wersjonowanie i ścieżki audyt
• Usługi sieciowe (REST and SOAP)
• Uwierzytelnianie
• Autoryzacja
– Elastyczny, precyzyjny system kontroli praw
– Wsparcie dla Extensible Access Control Markup Language
(XACML)
• RDF
– Każdy obiekt zawiera swoje własne opisy RDF
– Repozytorium z kompletnym indeksem wszystkich opisów
RDF
• Samoczynna naprawa na podstawie informacji RDF
przechowywanych w strumieniach danych zasobów
89 Copyright @ KnowledgeHives.com
91. JeromeDL
• Wynik współpracy
– Politechniki Gdańskiej
– DERI (Digital Enterprise Research Institute), National
University of Ireland, Galway
• Rozpowszechniany na licencji Open Source typu BSD
– komercyjne wsparcie: KnowledgeHives.com
• Międzynarodowe wdrożenia
– Irlandia, Polska
– Brazylia, Meksyk, USA
– Włochy, Grecja
– Korea
91 Copyright @ KnowledgeHives.com
92. JeromeDL
• połączenie znaczenia opisów bibliograficznych i mediów
społecznych
• zaawansowane, spersonalizowane wyszukiwanie
• platforma społecznościowa zintegrowana z komponentem
profilowania użytkowników
• rozszerzalny system kontroli dostępu bazujący na sieciach
społecznych
• społeczne nawigacja i filtrowanie (collaborative filtering and
browsing)
• dynamiczne kolekcje
• integracja z usługami Web 2.0
92 Copyright @ KnowledgeHives.com
94. Tworzenie Semantyki
• Każdy zasób może być opisany przez:
– opis struktury - rozdziały, części multimedialne, załączniki
– podstawowe opisy bibliograficzne
– systemy organizacji wiedzy - słowa kluczowe, kategorie
– inne związki semantyczne
– opisy społeczne
94 Copyright @ KnowledgeHives.com
95. Przeglądanie
• TagsTreeMaps
– filtrowanie z wykorzystaniem hierarchicznych tagów
– używanie treemap do wizualizacji
– nawigacja zbliżeniowa (zoom)
• MultiBeeBrowse
– wspólne przeglądanie
– umożliwia wykonywanie skomplikowanych zapytań
– użytkownicy mogą przeglądać wyniki, kontekst i historię
nawigacji
• Exhibit (SIMILE, MIT)
– fasetowa nawigacja
Copyright @ KnowledgeHives.com
96. Wyszukiwanie
• Dynamiczne kolekcje
– zdefiniowane za pomocą filtrów zdań (trójek) oraz zapytań SPARQL
– mogą być zorganizowane w strukturę drzewiastą
– łatwo rozszerzalne o nowe pluginy
• Rekomendacje bazujące na opisie zasobu
– wielowymiarowa funkcja podobieństwa
– użytkownik kontroluje funkcję podobieństwa
– rozszerzalne o nowe specyfikacje modułów podobieństwa
• Szablony Zapytań w Języku Naturalnym
– umożliwiają wykonanie zaawansowanych zapytań w języku
naturalnym
– mogą być łatwo dostosowane do wymagań danej grupy
użytkowników
– łatwo rozszerzalne o nowe typy zapytań i wspierane języki
96 Copyright @ KnowledgeHives.com
97. Rozszerzalny System Kontroli Dostępu
• Zarządzanie profilami oparte na sieciach społecznych
– opis profilu w ontologii FOAF
– użytkownicy i autorzy są częścią tej samej sieci społecznej
• Moduł kontroli dostępu
– licencje określające warunki dostępu do zasobów i usług
(REST)
– licencja złożona z atomowych specyfikacji opartych o
adresy IP i pozycję w sieci społecznej
– łatwa rozszerzalność o nowe typy specyfikacji dostępu
97 Copyright @ KnowledgeHives.com
99. Dostęp do Semantyki
• Eksponowanie opisów semantycznych
– różne typy RDF: N-Triples, XML/RDF, Turtle
– JSON i SION
– systemy powiadomień (RSS)
• Odpytywanie bazy semantycznej
– SPARQL
– OAI-PMH
– Open Search
• Dostarczanie metadanych do innych usług
– MarcOnt Mediation Services
99 Copyright @ KnowledgeHives.com
100. Usługi Społeczne
• Użytkownicy uczestniczą w procesie wymiany
wiedzy
– Blogi – komentarze do i dyskusje o dokumentach i
zasobach
– Tagowanie – społeczna klasyfikacja
– Wiki – społecznie edytowanie opisów zasobów
• Przechowywanie wiedzy
– użytkownicy mogą się łatwo uczyć z doświadczenia innych
– rekomendacje nowych, interesujących informacji na
podstawie profilu użytkownika
• Rozwiązania:
– SSCF
– SIOC
100 Copyright @ KnowledgeHives.com
101. Biblioteka 2.0
• Użytkownicy biblioteki stają się producentami treści
• JeromeDL przekształca każdy zasób w post na blogu
– użytkownicy mogą go opisywać
– użytkownicy mogą oceniać
– społeczne metadane dostępne w formacie SIOC
• Społeczne opisywanie mediów (wersja alfa)
– tagowanie regionów zainteresowania (ROI) na zdjęciach
– tagowanie odcinków czasowych w filmach i muzyce
101 Copyright @ KnowledgeHives.com
102. Wsparcie dla
opisów
społecznych
102 Copyright @ KnowledgeHives.com
103. Wsparcie dla
opisów
społecznych
102 Copyright @ KnowledgeHives.com
105. Semantyczne Biblioteki Cyfrowe
• Czym są Semantyczne Biblioteki Cyfrowe
• Do czego potrzebna jest nam “semantyka”
• Jak opublikować informację
• Przykłady Semantycznych Bibliotek Cyfrowych: FEDORA i
JeromeDL
• OK, ale czy to aby daje jakieś wymierne rezultaty?
104 Copyright @ KnowledgeHives.com
107. Pytania do Ewaluacji
• Pytanie 1: Czy semantyczne i społeczne usługi zwiększają
jakość odpowiedzi udzielonych przez użytkowników?
• Pytanie 2: Czy semantyczne i społeczne usługi poprawiają
trafność referencji podawanych przez użytkowników?
• Pytanie 3: Czy semantyczne i społeczne usługi zwiększają
satysfakcje z korzystania z biblioteki?
• Pytanie 4: Które usługi (semantyczne, społeczne,
rekomendacje) zostały uznane za najbardziej pomocne?
• Pytanie 5: Czy semantyczne i społeczne usługi poprawiają
zapamiętywanie informacji?
106 Copyright @ KnowledgeHives.com
108. Ewaluacja
• Dwie biblioteki cyfrowe w podstawowych
konfiguracjach
– DSpace - klasyczna biblioteka cyfrowa
– JeromeDL - semantyczna biblioteka cyfrowa
• Baza danych:
– szum: 529 artykułów z http://library.deri.ie/ i http://
books.deri.ie/
– baza referencyjna: 35 artykułów o psychologii internetu
• System ewaluacji:
– 18 Grudzień 2007 do 7 Luty 2008
– ogłoszenia na polskich i międzynarodowych sieciach społecznych
• Uczestnicy:
– 59 rozpoczęło, 26 zakończyło
107 Copyright @ KnowledgeHives.com
109. Scenariusz Ewaluacji
• Kwestionariusz przed ewaluacją
• Zadania “na rozgrzewkę”: poznaj swoją bibliotekę
• Podstawowe zadania - pytania i odpowiedzi:
– 3 rundy, max 45 minut na każdą
– zestaw 7 pytań z psychologii internetu
– max 300 słów odpowiedzi
– nie limitowana liczba możliwych referencji
– wymuszanie 6 godzinnych przerw pomiędzy zadaniami
• Zadanie pamięciowe: po miesiącu od głównej ewaluacji
• Kwestionariusz po każdym etapie - mierzenie satysfakcji
108 Copyright @ KnowledgeHives.com
124. Semantyczne serwisy społecznościowe
• Dlaczego Google i tagowanie to nie wszystko czego
potrzebujemy?
• Społeczeństwo a semantyka - “jajo i kura” ?
• Ciągle jeszcze w fazie beta, ale już całkiem użyteczne:
Freebase, Twine, węzełki.pl
120 Copyright @ KnowledgeHives.com
125. Wyszukiwanie, tak ale ...
• Szukanie: “Kruk”
• Google:
– 3,030,000 stron
– brak informacji o ptaku na pierwszej stronie
– moja strona w DERI - 5 pozycja (3 po włączeniu profilu)
• Yahoo!
– 5,370,000 stron
– link do wieloznaczeniowej strony w Wikipedii - 6 pozycja
– brak informacji o ptaku na pierwszej stronie
– brak linku do mnie na pierwszej stronie
• I co dalej? ... podaj dodatkowe słowo, np.: “ptak”
121 Copyright @ KnowledgeHives.com
126. Czego brakuje ?
• podpowiedzi możliwych znaczeń
– jest tylko podpowiedź prawdopodobnych rozszerzeń
zapytania, ale
• możliwości szybkiego odfiltrowania stron do max 50 (?)
rezultatów
• pewności, że ...
– ważny wynik nie jest gdzieś daleko na liście wyników, albo
że nie ma go w ogóle
– ktoś nie miesza mi reklamy z wynikami, tzn. mogę jasno
powiedzieć co jest reklamą a co nie
122 Copyright @ KnowledgeHives.com
127. Tagowanie - tak ...
• Wykorzystanie społeczeństwa do opisywania rzeczywistości
• Kilkanaście tagów to lepiej niż indeks pełnotekstowy
• Możemy mieszać tagi z opisami semantycznymi
123 Copyright @ KnowledgeHives.com
128. Tagowanie - tak, ale ...
• Znaczenie tagów jest znane tylko nam lub naszym
“znajomym”, ale nie jest globalne
• Ilość tagów rośnie w czasie - a popularne narzędzia
wizualizacji i zarządzania nie są na to gotowe
• Tagi mają znaczenie tylko w danym serwisie
– jak szukać własnych tagów na przekroju różnych serwisów?
Tag-o-matic, int.ere.st
– czy jest Google dla tagów? Technorati
124 Copyright @ KnowledgeHives.com
129. Semantyczne serwisy społecznościowe
• Dlaczego Google i tagowanie to nie wszystko czego
potrzebujemy?
• Społeczeństwo a semantyka - “jajo i kura” ?
• Ciągle jeszcze w fazie beta, ale już całkiem użyteczne:
Freebase, Twine, węzełki.pl
125 Copyright @ KnowledgeHives.com
130. Semantyka jest trudna ?
• “Tagi są użyteczne, ... bo są proste” i co dalej ?
• Jak ułatwić semantyczny opis?
– semantyczne tagowanie: Flickr machine tags
– wykorzystanie słowników: taksonomie, tezaurusy
– zachęcanie do bardziej złożonych opisów: Aparicio
• Nie twórz semantyki - znajdź ją
– Google tylko wykorzystuje linki pomiędzy stronami
– Czas na wykorzystanie istniejącej informacji: dokumenty,
bazy danych, interakcja
126 Copyright @ KnowledgeHives.com
131. Mamy semantykę, i ?
• Obecne metody wyszukiwania raczej się nie nadają:
– po słowach kluczowych - stały by się za skomplikowane
– chmury tagów (Tag Clouds) - jak wyrazić powiązania?
– fasetowa nawigacja - wymaga operacji na nieustalonym
schemacie
• Rozwiązanie: wykorzystaj znajomych do pomocy:
– społeczne filtrowanie (Collaborative Filtering)
– społeczne przeglądanie (Collaborative Browsing)
127 Copyright @ KnowledgeHives.com
132. Social Semantic Collaborative Filtering
• Dlaczego?
– Ostateczne rozwiązanie pozyskiwania wiedzy: nieformalna
komunikacja (“word of mouth”)
• Jak?
– Każdy klasyfikuje (filtruje) informacje w katalogach z zakładkami:
prywatne taksonomie
– Katalogi opisywane są pojęciami ze zdefiniowanych słowników
– Znajomi dzielą się katalogami tworząc społeczne taksonomie
– System rekomenduje katalogi od dalszych znajomych (poza
horyzontem sieci społecznej)
• Wynik?
– Wiedza przepływa od eksperta dziedzinowego przez sieć społeczna
do danego użytkownika
– System gromadzi informację kontekstową o danym użytkowniku,
np.: w celu poprawy wyników wyszukiwania
128 Copyright @ KnowledgeHives.com
133. Social Semantic Collaborative Filtering
Tag 3
• Katalogi opisane Słowo A
semantycznie Słowo B
Zasób R1
– Taksonomie
– Słowa kluczowe Tag 2
Katalog Temat A
Zasób R2
• Tagowane zasoby Zasób R3
Tag 1
• Rekomendacje na podstawie Tag 2
profilu użytkownika Prolog Engine
(skrypt w Prologu)
Zasób R3
Zasób R2
129 Copyright @ KnowledgeHives.com
134. Social Semantic Collaborative Filtering
foaf:knows
sscf:include
sscf:bookmark
Data Mining Wnioskowanie Wprowadzenie
dla Opornych w OWL-DL do RDF
130 Copyright @ KnowledgeHives.com
135. MultiBeeBrowse - Przeglądanie Grafu
• Wyszukiwanie nie powinno kończyć się jedynie długą listą
wyników
• Wyniki nie są listą zasób ale grafem
• A co jeśli zgubimy się w hiperprzestrzeni ? („Lost in
hyperspace”)
• Potrzeba niezależnego API serwisów do przeglądania,
wyszukiwania, i filtrowania
• Dzielenie się doświadczeniem w przeglądaniu - wspólna
nawigacja
131 Copyright @ KnowledgeHives.com
136. Społeczna nawigacja
• Dziś ludzie dzielą się zdjęciami, muzyką, linkami, itp. -
dlaczego nie zapytaniami?
• Wspólna nawigacja umożliwia dzielenie się doświadczeniem w
konstruowaniu skomplikowanych zapytań i interakcji
– bazuje na komponencie do Social Semantic Collaborative
Filtering
– użytkownicy mogą tagować swoje zapytania
– nasi znajomi mogą nam pomóc w poprawieniu
zapytań którymi się z nimi dzielimy
132 Copyright @ KnowledgeHives.com
137. Kontekst Przeglądania
• Problemy z typową nawigacją
– Odnajdywanie informacji
– Wielokrotne poprawianie zapytania (interakcja przód-tył)
– Przegląd obecnego kontekstu interakcji z systemem
– Odnajdywanie poprzednich zapytań
• 4 widoki:
– Prosty widok
– Widok historii ostatnich operacji
– Graf ostatniej sesji przeglądania
– Pełna historia interakcji z systemem
133 Copyright @ KnowledgeHives.com
138. Semantyczne serwisy społecznościowe
• Dlaczego Google i tagowanie to nie wszystko czego
potrzebujemy?
• Społeczeństwo a semantyka - “jajo i kura” ?
• Ciągle jeszcze w fazie beta, ale już całkiem użyteczne:
Freebase, Twine, węzełki.pl
134 Copyright @ KnowledgeHives.com
139. Semantyczny serwis społecznościowy
• Słowniki i semantyczny opis oprócz tagowania
• Znajomi dzielą się wiedzą a nie tylko tagują wspólne
repozytorium
• Rekomendacje oparte o znaczenie a nie przypuszczenie
• Koniec silosów - wymiana informacji poza systemami
135 Copyright @ KnowledgeHives.com
140. Freebase
• Semantyczna Wikipedia
– ale nie proste rozszerzenie
– już nie wiki - jako prosty tekst
• Zaawansowany opis semantyczny - wymaga
zaawansowanego interfejsu użytkownika
• Przyszłość pokaże czy jesteśmy w stanie przezwyciężyć naszą
drugą naturę: lenistwo
136 Copyright @ KnowledgeHives.com
141. Twine
• Połączenie blogu z zakładkami
• Twines = Kanały Tematyczne = Fora
• Micro-społeczności związane z danym kanałem
• Próba typowania tagów i wyciągania RDF o zasobie
• Powiadomienia na pocztę e-mail
• W przyszłości - rekomendacje
137 Copyright @ KnowledgeHives.com
142. węzełki.pl
• Rozszerzenie digi.me-light: współdzielenie zakładek ze
znajomymi (SSCF)
• Dodatkowe komponenty:
– zbieranie semantyki o dodanej stronie
– automatyczna klasyfikacja zakładek
– rekomendacje
– synchronizacja z innymi serwisami społecznymi
138 Copyright @ KnowledgeHives.com
144. Już są ....
• Lepsze metody zarządzania wiedzą
• Semantyczne Biblioteki Cyfrowe
– użytkownicy mają głos
– “społeczny bibliotekarz”
• Semantyczne serwisy społecznościowe
– większa ekspresywność
– więcej możliwości
140 Copyright @ KnowledgeHives.com
145. Dlaczego tak późno ?
• Budowanie technologii semantycznych zajęło nam sporo
czasu
– za dużo było “logiki” za mało budowania
– sztuczna inteligencja nie była pomocna
• W między czasie - pojawiła się Web 2.0
– nowe perspektywy rozwiązań
– nie semantyka - ale “społeczna semantyka” (social
semantics)
141 Copyright @ KnowledgeHives.com
146. I co dalej ?
• Czas zacząć z nich korzystać !
• Semantyczne Biblioteki Cyfrowe
– JeromeDL - http://www.jeromedl.org/
– FEDORA - http://www.fedora.info/
• Semantyczne Serwisy Społecznościowe:
– Freebase - http://www.freebase.com/
– Twine - http://www.twine.com/
– digi.me - http://digi.me/ i http://www.węzełki.pl/
Sebastian Kruk
sebastian.kruk@knowledgehives.com
http://www.knowledgehives.com/
142 Copyright @ KnowledgeHives.com