Semantisches Web

aus Wikipedia, der freien Enzyklopädie

Du hast neue Nachrichten auf deiner Diskussionsseite.

Das semantische Web (engl. Semantic Web) ist eine Erweiterung des World Wide Web (WWW) um maschinenlesbare Daten, die die Semantik der Inhalte formal festlegen. Das Konzept beruht auf einem Vorschlag von WWW-Begründer Tim Berners-Lee.

Informationen sollen zusätzlich zu der für Menschen lesbaren Form auch formal, in einer für Maschinen verarbeitbaren Form repräsentiert werden, damit Programme darauf operieren können, so dass Anfragen aufgrund ihres Bedeutungsinhalts anstelle ihrer Schreibweise bearbeitet werden können.

Zwar verweist die wortwörtliche Übersetzung „Semantisches Netz“ auf eine Verwandtschaft mit der Theorie der semantischen Netze (semantic networks), es handelt sich jedoch um eine konkrete Spezifikation eines lose verteilten semantischen Netzes.

Inhaltsverzeichnis

1 Einleitung und Grundlagen
2 Taxonomien
3 Ontologien
4 Konzepte des Semantischen Webs
5 Verwandte Standards
6 Semantisches Web vs. Web 2.0
7 Projekte mit Bezug zum Semantischen Web
8 Siehe auch
9 Literatur
10 Weblinks

[Bearbeiten] Einleitung und Grundlagen

In der Informatik steht man in vielen Bereichen vor der Aufgabe, Erkanntes oder Erdachtes zu repräsentieren und Wissen zu kommunizieren, z. B. über Fakten, Sachverhalte oder Regeln in einem technischen Anwendungsbereich, in einem Geschäftsprozess oder in einem juristischen Verfahren oder über die Inhalte von Dokumenten oder Webseiten. Menschen können sich gespeichertes Wissen zunutze machen, indem sie auf ihr Grund- und Kontextwissen des jeweiligen Wissensbereichs zurückgreifen, Lehrbücher, Regelwerke, Lexika und Schlagwortregister verwenden und mit den gespeicherten Inhalten verbinden. Sollen dagegen Automaten Such-, Kommunikations- und Entscheidungsaufgaben in Bezug auf das gespeicherte Wissen übernehmen oder Daten austauschen, die selbst Information darüber enthalten, wie sie zu strukturieren und zu interpretieren sind, so benötigen sie dazu eine Repräsentation der zugrunde liegenden Begriffe und derer Zusammenhänge.

Eine Möglichkeit zur Lösung dieses Problems zeigt das Konzept der Wissensrepräsentation – auch als Knowledge Representation bezeichnet. Dieses Konzept versucht das Semantische Web teilweise zu übernehmen. Zur Realisierung beschreibt eine Wissensrepräsentation einen Wissensbereich – auch als Knowledge Domain bezeichnet – mit Hilfe einer standardisierten Technologie sowie Beziehungen und ggf. Ableitungsregeln. Das Semantische Web geht ähnlich wie eine Wissensbasis ohne Grenzen vor, da es dessen Ziel ist, alles mit einander auf semantischer Ebene zu verknüpfen.

Die Wissensrepräsentation setzt sich aus drei Bereichen anderer wissenschaftlicher Felder zusammen:

Logik stellt die formale Struktur bereit, um Regeln zu formulieren mit deren Hilfe das Computersystem Rückschlüsse bilden kann.
Ontologien definieren die Objekte, die in einem bestimmten Umfeld existieren.
Berechenbarkeit ist eine Eigenschaft einer Wissensbasis, die diese vom Umfeld der puren Philosophie abgrenzt.

Ohne Logik ist eine Wissensrepräsentation unklar, da keine Kriterien existieren, um zu prüfen, ob bestimmte Aussagen überflüssig, redundant oder sogar inkonsistent sind. Ohne eine Ontologie, können die Aussagen nur schwer bestimmt werden und sind verwirrend, da diese nicht ausformuliert wurden. Zuletzt ist es nicht möglich, die beiden wissenschaftlichen Felder Logik und Ontologie auf einem Computersystem zu implementieren, wenn diese nicht berechenbar sind. Im Folgenden werden die einzelnen Komponenten einer Wissensbasis näher untersucht.

[Bearbeiten] Taxonomien

Als Taxonomie werden Klassifikationen bezeichnet, die eine monohierarchische Struktur aufweisen. Dabei wird jeder Klasse nur eine Oberklasse zugeordnet, so dass die gesamte Klassifikation eine Baumstruktur abbildet. In dieser Struktur enthalten die der Wurzel nahe stehenden Elemente allgemeine Informationen. Mit einer zunehmenden Verzweigung der Taxonomie wird das darin hinterlegte Wissen immer spezifischer. Durch diese Art der Klassifizierung von Wissensbereichen innerhalb einer Hierarchie entsteht so eine einfache Semantik.

[Bearbeiten] Ontologien

Zur Darstellung komplexer Wissensbeziehungen wird im Fachbereich Informatik der Begriff Ontologie verwendet. Im Gegensatz zur Taxonomie - welche einfache Hierarchien verwendet - verkörpert die Ontologie ein Netz von Hierarchien, in welchem Informationen über logische Beziehungen miteinander verknüpft sind oder sein könnten. Diese Beziehungen beruhen auf Eigenschaften, welche den Informationen spezifisch zugewiesen werden müssen. Elemente, welche auf diese Weise zusammenhängen, sind dann semantisch erzeugt. Ontologien bestehen aus einer Vielzahl von Komponenten wie Konzept, Instanzen und Relationen.

Die Annotation der HTML/XML-Seiten im Web geschieht z. B. durch Wissens-/Ontologie-Repräsentationssprachen (RDF) oder der darauf aufbauenden Web Ontology Language (OWL). Was möchte man damit erreichen?

Zum einen geht es darum, bessere Kategorisierungsmöglichkeiten zur Verfügung zu stellen. Dies soll durch die Bedeutung von WWW-Links mittels Annotation näher gebracht werden: - Führt dieser Link tatsächlich zur Homepage des Autors? - Führt der Link auch zu einem übergeordneten Thema? - Hat der Link vielleicht einen ganz anderen Charakter wie z. B. der „Anmelden“-Link bei Wikis?

Zum anderen soll es ermöglicht werden, mittels Annotation Schlussfolgerungen zu treffen. Beispielsweise besagt die Annotation einer Webseite, dass sich derjenige mit „Fußball“ beschäftigt. Aus der verwendeten Ontologie würde dann hervorgehen, dass es sich bei „Fußball“ um eine bestimmte „Sportart“ handelt. Man käme also zu dem Schluss, dass es sich bei der Website um das allgemeinere Thema „Sport“ dreht, obwohl dies nicht ausdrücklich in den Metadaten hinterlegt wurde.

Bei einer entsprechenden Begriffswahl in der Annotation ließe sich somit ein hoher Automatisierungsgrad bei der Verarbeitung von Websites erzielen. So wäre es sehr wünschenswert, wenn in naher Zukunft Suchmaschinen durch die Implementierung Semantischer Netze auch komplexere Anfragen direkt beantworten könnten. Die Suchanfrage, „Wie viele Tore hat Diego Maradona bei der Fußball-WM im Jahre 1982 geschossen?“, würde dann lediglich diese eine benötigte Information enthalten.

[Bearbeiten] Konzepte des Semantischen Webs

Im folgenden werden verschiedene Sprachen, die zum Aufbau des Semantischen Webs einsetzbar sind, erläutert.

[Bearbeiten] RDF und XML

Oft wird der Begriff des Semantic Webs nur mit RDF (Resource Description Framework) in Verbindung gebracht, obwohl die Vision des Semantic Webs natürlich andere Repräsentationen nicht ausschließt. Nach dem Artikel von Berners-Lee et. al. im Scientific American (2001-05) ist das Semantic Web eine Erweiterung des herkömmlichen Webs, in der Informationen mit eindeutigen Bedeutungen versehen werden, um die Arbeit zwischen Mensch und Maschine zu erleichtern: „The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation“ (ebenda).

RDF als Auszeichnungssprache für Metadaten basiert auf sog. triples oder statements aus subject, predicate (oder property) und object, die als Erweiterung zu key-value-Paaren (deutsch: Schlüssel-Wert-Paare) zu sehen sind. Während key-value-Paare nur einer beliebigen Eigenschaft einen beliebigen Wert zuweisen können (z. B. Kontaktadresse = Musterstraße) kann mit einem Tripel auf semantische Art ein Objekt, Konzept oder Wert mit einem anderen in Beziehung gesetzt werden. Ein Beispiel für ein solches Tripel ist Musterstraße ist Kontaktadresse von Max Mustermann, hier ist Musterstraße das Subjekt, ist Kontaktadresse von das Prädikat und Max Mustermann das Objekt. Beliebigen Ressourcen (typischerweise Webseiten) werden bestimmte Werte, wie z. B. Autor, Erstelldatum zugewiesen, wobei eben die URL der Webseite das Subjekt, die Eigenschaft „Autor“ das Prädikat und schließlich der Name des Autors das Objekt darstellt. Da idealerweise für die Eigenschaften bekanntes und weitverbreitetes Vokabular benutzt wird, wie z. B. das Dublin Core Element Set (DC), das eindeutige URIs für die wichtigsten Metadatentypen bereitstellt, sind die Informationen der so ausgezeichneten Ressourcen auch für Computerprogramme als Metadaten identifizierbar und entsprechend interpretierbar, also z. B. ein Autor als eben solcher.

Das Konzept dieser RDF triples ist stark an Conceptual Graphs (CG) (John F. Sowa) angelehnt, das 1976 publiziert wurde (siehe [1]). Das Konzept der Conceptual Graphs erwies sich aber als zu wenig formal und zu ungenau. Die optimale Serialisierung von RDF-basierten Beschreibungen ist kein triviales Problem, so dass zum einen ständig einfachere Notationen erfunden werden, wie z. B. N3 und N4, und zum anderen eine weite Verbreitung nicht von heute auf morgen stattfindet. Dieses Erschwernis ist auch Hand in Hand mit einer fehlenden sofortigen „Belohnung“ der Mühen einer Metadatenauszeichnung zu sehen. Das World Wide Web ist v. a. deshalb so schnell gewachsen, weil HTML einfach ist und die Publikation desselben durch eine sofortige, weltweite Verfügbarkeit im Web belohnt wird.

[Bearbeiten] RDF Schema (RDF Vocabulary Description Language)

Mit dem Resource Description Framework-Modell erhält man die Möglichkeit, einzelne XML-konforme Dokumente zu erzeugen, welche Objekte anhand von Statements beschreiben. Durch die geschickte Wahl der Ressource-Namen erhält man Informationen über das jeweilige Objekt. Um eine Gruppe von ähnlichen Objekten, z.B. Bücher, alle mit den gleichen Eigenschaften auszuzeichnen, bietet RDF keine Möglichkeit um einen „Rahmen“ für alle diese Objekte zu definieren. Für diese Zwecke wurde die RDF Beschreibungssprache – RDF Schema (RDFS, offiziell: „RDF Vocabulary Description Language“) definiert. Diese stellt die Möglichkeit bereit, Begriffe und die damit verbundenen Elemente semantisch zueinander in Beziehung zu setzten, z.B. kann mit RDFS festgelegt werden, dass die Eigenschaft title dazu verwendet wird, um den Titel eines Buchs zu beschreiben. In RDF Schema wird für jede Eigenschaft festgelegt, welche Werte erlaubt sind, was diese für eine Bedeutung hat, welche Beziehungen zu anderen Eigenschaften bestehen und welche Arten von Ressourcen diese Eigenschaft verwenden darf. Dabei wurde vom W3C nicht ein allgemein gültiges Schema definiert, in dem verschiedene Klassen und Eigenschaften festgelegt werden, sondern es wird in einer “Schema Definition Language“ beschrieben, mit deren Hilfe die eigentlichen Schemas definiert werden können. Diese Schemas werden auch als Vokabulare bezeichnet. In den letzten Jahren haben sich RDF-Schema-Gemeinschaften gebildet, die die Aufgabe haben, RDF-Schema-Metadatenmodelle zu entwerfen, z.B. der Dublin Core. Durch diese dezentralisierte Vorgehensweise wird eingestanden, dass es unmöglich ist, ein einzelnes Schema zu entwickeln, das für alle Gebrauchsmöglichkeiten passend wäre.

[Bearbeiten] Web-Ontologiesprache (OWL)

Das Semantic Web sowie RDF/OWL (Web Ontology Language) wurden vom World Wide Web Consortium (W3C) erarbeitet und standardisiert, dadurch erfahren auch genau diese Technologien die meiste Verbreitung.

Die Web Ontology Language (OWL) ist die zurzeit populärste Sprache für die Modellierung von Ontologien und damit zur Entwicklung des Semantischen Webs. OWL ist von der Ontologiesprache DAML+OIL abgeleitet und baut auf RDF/RDFS auf. Das bedeutet, dass die offizielle Austausch-Syntax RDF ist. OWL wird auf dem Semantischen Web Konzept oberhalb von XML angesiedelt. Mit OWL werden, genau wie mit RDFS, Terme einer Domäne und deren Beziehungen formal beschrieben. Allerdings bietet OWL im Vergleich zu RDFS weitaus komplexere Funktionen zum Beschreiben der Beziehungen. Allgemein liegt der Unterschied zwischen OWL und RDFS darin, dass sich in OWL Konzepte deutlicher spezifizieren lassen, wodurch ein höherer Abstraktionsgrad entsteht. Des Weiteren können mit Hilfe von Reasonern, welche OWL anstelle von RDFS verarbeiten, bessere logische Schlussfolgerungen geschlossen werden, da sich in OWL logische Konstrukte erstellen lassen, die mit RDFS nicht möglich sind. Die Web Ontology Language existiert in drei verschiedenen Versionen. Dazu wurden die Sprachebenen OWL-Lite, OWL-DL und OWL-Full definiert. Für den Einsatz von OWL-Lite/DL wurden Einschränkungen definiert, welche die Entwicklung von Werkzeugen erleichtern. Das Ziehen von logischen Schlussfolgerungen basiert in OWL-Full auf dem Konzept des so genannten Open World Assumption – kurz OWA. Das Open World Assumption bedeutet, dass ein Reasoner nicht annimmt, dass etwas nicht existiert, solange nicht explizit definiert wurde, dass es nicht existiert. Allgemein ausgedrückt gilt, dass solange etwas nicht als Wahr ausgesagt wurde, ein Reasoner nicht annimmt, dass es Falsch ist – es wird lediglich angenommen, dass das Wissen noch nicht zur Wissensbasis hinzugefügt wurde. Dadurch kann es in OWL FULL vorkommen, dass keine Rückgabemenge gefunden wird. Dabei besteht die Gefahr, eine unendlich oder zumindest sehr lange dauernde Rechenoperation anzustoßen.

[Bearbeiten] Verwandte Standards

Ähnliche Konzepte für die Wissensrepräsentation sind z. B. die XML Topic Maps (XTM). Deren Semantik ist aufgrund ihrer einfachen XML-Struktur auch für den Menschen klar nachvollziehbar. XML Topic Maps wurden geschaffen, um sie in einem bibliografischen Umfeld einsetzen zu können, was eine sehr mächtige Ausdrucksstärke der XML-Syntax zur Folge hat.

[Bearbeiten] Semantisches Web vs. Web 2.0

Das Semantische Web wird oftmals mit dem Web 2.0 in Zusammenhang gebracht. Beide verfolgen ein ähnliches Ziel, die Qualität vorhandener Informationen auf semantischer Ebene zu verbessern. Jedoch bedienen sich beide sehr unterschiedlicher Ansätze. Eine künftige Zusammenführung von Semantic-Web-Instrumenten mit Web-2.0-Technologien wird gelegentlich auch als „Web 3.0“ bezeichnet.

[Bearbeiten] Projekte mit Bezug zum Semantischen Web

Techniken des Semantic Web beginnen sich nur langsam und teilweise durchzusetzen. Anwendungsbeispiele sind:

FOAF: Friend-of-a-Friend-Ontologie zur Beschreibung von Personen
Description of a Career: semantisch annotierte Lebensläufe
EPISTLE (European Process Industry STEP Technical Liaison Executive): Nutzen des semantischen Webs für die Prozessindustrie mit ISO 15926
SemanticGov: EU-gefördertes Projekt zur Realisierung einer EU-weiten behördlichen Infrastruktur auf Basis von Semantic Web Services

[Bearbeiten] Siehe auch

Semantisches Wiki

[Bearbeiten] Literatur

Grigoris Antoniou, Frank van Harmelen: A Semantic Web Primer. The MIT Press, 2004, ISBN 0-262-01210-3
Tim Berners-Lee, James Hendler, Ora Lassila: The Semantic Web : a new form of Web content that is meaningful to computers will unleash a revolution of new possibilities. In: Scientific American, 284 (5), S. 34–43, May 2001 (dt.: Mein Computer versteht mich. In: Spektrum der Wissenschaft, August 2001, S. 42-49)
Michael C. Daconta, Leo J. Obrst, Kevin T. Smith: The Semantic Web: A Guide to the Future of XML, Web Services, and Knowledge Management. John Wiley & Sons, 2003, ISBN 0-471-43257-1
John Davies, Dieter Fensel, Frank van Harmelen: Towards the Semantic Web: Ontology-Driven Knowledge Management. John Wiley & Sons, 2003, ISBN 0-470-84867-7
Dieter Fensel, Wolfgang Wahlster, Henry Lieberman, James Hendler: Spinning the Semantic Web: Bringing the World Wide Web to Its Full Potential. MIT Press, 2003, ISBN 0-262-06232-1
Vladimir Geroimenko, Chaomei Chen: Visualizing the Semantic Web. Springer Verlag, 2003, ISBN 1-85233-576-9
Bo Leuf: The Semantic Web. Crafting Infrastructure for Agents. John Wiley & Sons, 2006, ISBN 0-470-01522-5
Tassilo Pellegrini, Andreas Blumauer (Hrsg.): Semantic Web. Wege zur vernetzten Wissensgesellschaft Springer Verlag, Berlin 2006, ISBN 3-540-29324-8 - Rezension
Steffen Staab, Rudi Studer: Handbook on Ontologies. Springer Verlag, Heidelberg 2004, ISBN 3-540-40834-7
HESSE, Wolfgang: Ontologie(n). In: Informatik Spektrum 25 (2002), S. 477–480