Informationsintegration
aus Wikipedia, der freien Enzyklopädie
Informationsintegration bezeichnet die Aufgabe der Zusammenführung von Daten und Inhalten aus verschiedenen Quellen zu einer einheitlichen Menge von Informationen.
Dabei sollen vor allem heterogene Quellen möglichst vollständig und effizient zu einer strukturierten Einheit zusammengeführt werden, die sich effektiver nutzen lässt, als dies bei direktem Zugriff auf die einzelnen Quellen möglich wäre. Informationsintegration ist vor allem dort notwendig, wo mehrere gewachsene Systeme miteinander verbunden werden sollen, also beispielsweise bei der Zusammenführung von Firmen, Arbeitsabläufen und Anwendungen oder bei der Informationssuche im Internet. Konkret müssen dabei eine Reihe von Datenbanken und Informationssystemen integriert werden. Ein relativ einfaches Beispiel für ein integrierendes Informationssystem ist eine Metasuchmaschine. Die Integration komplexerer Systeme ist erst in den 1990er Jahren in den Blickpunkt der informatischen Forschung gerückt und somit in der Entwicklung begriffen.
Inhaltsverzeichnis |
[Bearbeiten] Methoden der Informationsintegration
Die Integration heterogener Informationen aus unterschiedlichen Quellen betrifft sowohl die Integration konkreten Daten als auch der Strukturen (Schemata), in denen sie vorliegen. Zunächst müssen in der Regel die lokalen Schemata integriert werden (Schemaintegration), wozu auch (teil)automatische Verfahren herangezogen werden können (Schema Matching). Zur anschließenden Datenintegration sind Verfahren der Datenfusion und Duplikaterkennung notwendig.
[Bearbeiten] Möglichkeiten und Ziele
Integration ist nur möglich, wenn eine gewisse Redundanz der lokalen Schemata (intensionale Redundanz) besteht. So lassen sich beispielsweise mehrere Telefonlisten oder eine Telefonliste und ein Mitarbeiterverzeichnis integrieren, da sie (teilweise) gemeinsame Strukturen besitzen. Bei einer Telefonliste und einem Einkaufzettel ist dies nicht der Fall. Die Übereinstimmung von Strukturbestandteilen verschiedener Quellen wird als Schema Mapping bezeichnet.
Bei Redundanz zwischen den Daten verschiedener Quellen (extensionale Redundanz) lassen sich Zusammengehörigkeiten teilweise automatisch bestimmen und für die Komplementierung von Datensätzen (Datenfusion) nutzen. So können beispielsweise die Einträge einer Telefonliste und eines Mitarbeiterverzeichnisses bei Übereinstimmung von Personennamen kombiniert werden. Da somit mehr Informationen über einzelne Objekte zur Verfügung stehen, spricht man auch von Verdichtung.
Insgesamt ist das Ziel der Integration eine vollständigere Quelle. Zusätzlich lassen sich redundante Datenquellen zur Verifikation nutzen. Die Zusammenführung von intensional redundanten Quellen führt zu einer höheren Abdeckung (Coverage) und die Komplementierung von Datensätzen bei extensionaler Redundanz von Quellen zu einer höheren Dichte (Density).
[Bearbeiten] Materialisierte vs. Virtuelle Integration
Grundsätzlich lassen sich zwei Arten der Integration unterscheiden:
- Materialisierte Integration: Die Daten werden zuerst in eine zentrale Datenbasis integriert und stehen danach für Anfragen zur Verfügung (Dieses Prinzip findet sich beispielsweise in Datenlager (data warehouse) oder auch im Projekt zum Datenaustausch der Open Archives Initiative).
- Virtuelle Integration: Die Daten verbleiben in den unterschiedlichen Quellen und die Integration findet erst bei einer Anfrage statt (Föderiertes Informationssystem).
Im Vergleich ergeben sich folgende Vor- und Nachteile
- Aktualität: Während bei materialisierter Integration die Daten nur in regelmäßigen Abständen von den Quellen aktualisiert werden, ist ein virtuell integriertes System abgesehen von gecachten Daten stets so aktuell wie seine Quellen
- Antwortzeit: Da in einem materialisierten System alle Daten zentral gehalten werden, können sie auf schnelle Antwortzeiten optimiert abgelegt werden (allerdings können typische Anfragen sehr komplex sein). Bei virtueller Integration hängt die Antwortzeit stark von der Geschwindigkeit der Quellen, der Übertragungswege sowie den zusätzlich stattfindenden Aufgaben wie der Datenbereinigung ab.
- Flexibilität: Als große Datenspeicher sind materialisierte Systeme zumeist schwieriger zu warten als virtuell integrierte Systeme, bei denen die Wartung der Daten Aufgabe der Quellen ist. Außerdem kann das Hinzufügen einer Quelle die gesamte Integration beeinflussen (Global-as-View), während bei virtueller Integration das Hinzufügen, Entfernen oder Ändern einer Quelle nur auf ihr Mapping auf ein globales Schema Auswirkungen hat (Local-as-View). Allerdings kann, bei beiden Verfahren, das Ändern der Struktur einer Quelle, Auswirkungen auf die Reporte oder die Transfers haben die von dieser Quelle gezogen werden.
[Bearbeiten] Verwandte Themengebiete
Die Informationsintegration weist unter anderem Überschneidungen und Verwandtschaften mit folgenden Themengebieten auf:
[Bearbeiten] Siehe auch
- Datenbankschema, SchemaSQL
- Data-Warehouse, Föderiertes Datenbanksystem, Verteilte Datenbank
- ETL-Prozess
- Data-Lineage
[Bearbeiten] Literatur
- Ulf Leser, Felix Naumann, Informationsintegration. dpunkt, 2007, ISBN 3-89864-400-6
- Stefan Conrad: Föderierte Datenbanksysteme. Konzepte der Datenintegration. Springer, 1997 ISBN 3540631763
- M. Tamer Özsu, Patrick Valduriez: Principles of Distributed Database Systems. Prentice Hall, 1999 ISBN 0-13-659707-6