Information Retrieval
Da Wikipedia, l'enciclopedia libera.
![]() |
Questa voce riguardante un argomento di informatica non è ancora stata tradotta completamente dalla lingua inglese. Terminala o riscrivila tu.
Nota: il testo da tradurre potrebbe essere nascosto: vai in modifica per visualizzarlo. |
L'Information retrieval (IR) (lett: recupero d'informazioni) è quella disciplina che studia la ricerca di informazioni, documenti, metadati, file, all'interno di banche dati o documenti stessi, di qualsiasi tipologia od estensione (anche in Internet, per esempio).
Il termine è stato coniato da Calvin Mooers alla fine degli anni '40 del novecento.
L'IR è un campo interdisciplinare che raduna molte altre discipline. Proprio a causa di ciò è spesso affrontato solo da una prospettiva o dall'altra. L'IR coinvolge la psicologia cognitiva, l'architettura informativa, la filosofia (vedi la voce ontologia), il design, il comportamento umano sull'informazione, la linguistica, la semiotica, la scienza dell'informazione e l'informatica.
Molte università e biblioteche pubbliche utilizzano sistemi IR per fornire accesso a pubblicazioni, libri ed altri documenti.
I sistemi IR utilizzano l'oggetto e la query effettuata dall'utente. Le query sono formali enunciazioni di necessità di informazione che vengono immesse dall'utente in un sistema IR. Un oggetto è un'entità che mantiene o immagazzina informazioni in una banca dati. Le query dell'utente vengono messe in relazione coi documenti presenti in una banca dati. Un documento è, perciò, un oggetto di dati. Spesso i documenti stessi non sono mantenuti o immagazzinati direttamente nel sistema IR, ma vengono rappresentati nel sistema da surrogati di documenti.
I motori di ricerca del Web come Google e Yahoo sono le applicazioni più note ed ovvie che si basano sulle teorie di Information Retrieval.
Indice |
[modifica] Misure di prestazione
Ci sono molti modi per misurare quanto bene l'informazione intesa si associa all'informazione recuperata.
[modifica] Precisione (ingl. Precision)
La proporzione di documenti pertinenti fra quelli recuperati:
- P = (numero di documenti pertinenti recuperati) / (numero di documenti recuperati)
Nella classificazione binaria la precisione è analoga al valore positivo di previsione. La precisione può anche essere valutata a rispetto a un certo valore soglia, indicato con P@n, piuttosto che relativamente a tutti i documenti recuperati: in questo modo, si può valutare quanti fra i primi n documenti recuperati sono rilevanti per la query.
Si noti che il significato e l'uso del termine "precisione" nel campo dell'IR differiscono dalla definizione di accuratezza e precisione tipiche di altre discipline scientifiche e tecnologiche.
[modifica] Recupero (o Richiamo, ingl. Recall)
È la proporzione fra il numero di documenti rilevanti recuperati e il numero di tutti i documenti rilevanti disponibili nella collezione considerata:
- R = (numero di documenti rilevanti recuperati) / (numero di documenti rilevanti)
Nella classificazione binaria, questo valore è chiamato sensitività.
[modifica] misura F (ingl. F-measure)
È la media armonica pesata fra precisione e recupero. La versione tradizionale, detta anche bilanciata, è data da:
Questa misura è anche detta F1, perché sia la precisione che il recupero nella formula precedente hanno appunto il peso 1.
In generale, la formula è:
Altre due formule comuni sono F0.5, che assegna alla precisione un peso doppio rispetto al recupero, e la F2, che al contrario pesa il recupero al doppio della precisione.
[modifica] Tassonomia dei modelli
Per concludere con successo una ricerca di informazioni, è necessario rappresentare i documenti in qualche modo. C'è un certo numero di modelli aventi tale scopo. Essi possono essere classificati secondo due criteri, come mostrato nella figura a destra: in base ad un criterio matematico e in base alle proprietà del modello (tradotto da de.wiki.org, fonte originale logos-verlag.de).
[modifica] Classificazione matematica dei modelli
- Modelli Set-theoretic rappresentano i documenti mediante insiemi. Le somiglianze derivano in genere da operazioni teoriche su questi insiemi. I modelli più comuni sono:
- Modello Booleano Standard
- Modello Booleano Esteso
- Recupero fuzzy
- Modelli Algebrici rappresentano i documenti e le query con vettori, matrici o tuple, che, utilizzando un numero finito di operazioni algebriche, vengono trasformati in una misura numerica, la quale esprime il grado di somiglianza dei documenti con la query.
- Modelli Probabilistici trattano il processo di recupero dei documenti come un esperimento aleatorio multi-livello. Le somiglianze sono quindi rappresentate come probabilità. I teoremi probabilistici come il teorema di Bayes sono spesso usati in questi modelli.
- Binary independence retrieval
- Uncertain inference
- Language models
- Divergence from randomness models
[modifica] Classificazione in base alle proprietà dei modelli
- Modelli senza interdipendenza dei termini trattano diversi termini/parole come non interdipendenti. Ciò viene rappresentato spesso nei modelli a spazi vettoriali affermando che i vettori dei termini siano ortogonali, o nei modelli probabilistici affermando che le variabili dei termini siano indipendenti.
- Modelli con interdipendenza dei termini intrinseca consentono una rappresentazione diretta delle interdipendenze tra termini. Comunque il grado di interdipendenza tra due termini è definito dal modello stesso. In genere, esso è direttamente o indirettamente derivato (vedi per es. dimensional reduction) dalla co-occorrenza di questi termini nell'intero insieme di documenti.
- Modelli con interdipendenza dei termini trascendente consentono una rappresentazione diretta delle interdipendenze tra termini, ma essi non riportano come l'interdipendenza tra due termini sia definita. Si riferiscono ad una fonte esterna per stabilire il grado di interdipendenza tra due termini (ad esempio un umano o degli algoritmi sofisticati).
[modifica] Bibliografia
- Ricardo Baeza-Yates e Berthier Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999
- Robert Korfhage, Information Storage and Retrieval, Wiley, 1997
- Daniel Brown, Mastering Information Retrieval and Probabilistic Decision Intelligence Technology, Chandos Publishing (Oxford), 2004
- S. Chakrabarti, Mining the Web: discovering knowledge from hypertext data, Morgan Kaufmann, 2003
- Fabio Crestani, Information retrieval uncertainty and logistics, Kluwer, 1998
- Luca Spinelli, Panoramica sul web semantico, in «Login», Gruppo Editoriale Infomedia, nov. 2005
- Luca Spinelli, Il mondo dei desktop search, in «Login», Gruppo Editoriale Infomedia, nov. 2005
- Renato Battistin, Gli algoritmi per il web: il PageRank e l'HITS, in «Login», Gruppo Editoriale Informedia, nov. 2005
- C. J. van Rijsbergen, Information Retrieval, on line book, 1980
[modifica] Voci correlate
[modifica] Collegamenti esterni
Sistemi di Information Retrieval Open Source
- GalaTex XQuery Full-Text Search (XML query text search)
- ht://dig Open source web crawling software
- iHOP Information retrieval system for the biomedical domain
- EBIMed Information retrieval (and extraction) system over Medline
- Information Storage and Retrieval Using Mumps(Online GPL Text)
- Lemur Language Modelling IR Toolkit
- Lucene, Apache Jakarta project
- MG full-text retrieval system Now maintained by the Greenstone Digital Library Software Project
- SMART Early IR engine from Cornell University
- Sphinx Free open-source SQL full-text search engine
- Terrier Information Retrieval Platform
- Wumpus multi-user information retrieval system
- Xapian Open source IR platform based on Muscat
- Zebra GPL structured text/XML/MARC boolean search IR engine supporting Z39.50 and Web Services
- Zettair
Maggiori gruppi di ricerca sull'Information Retrieval
- (EN) Glasgow Information Retrieval Group
- (EN) Center for Intelligent Information Retrieval
- (EN) IIT Information Retrieval Lab
- (EN) Information Retrieval at the Language Technologies Institute
- (EN) Information Retrieval at Microsoft Research Cambridge
- (EN) CIR Centre for Information Retrieval
- (EN) PSU Intelligent Systems Research Laboratory
- (EN) Information Retrieval Group at Université de Neuchâtel
Approfondimenti
- Definizione e analisi sull'Information Retrieval
- (EN) ACM SIGIR: Information Retrieval Special Interest Group
- (EN) BCS IRSG: British Computer Society - Information Retrieval Specialist Group
- (EN) The Anatomy of a Large-Scale Hypertextual Web Search Engine
- (EN) Text Retrieval Conference (TREC)
- (EN) Information Retrieval (online book) by C. J. van Rijsbergen
- (EN) International Conference on Image and Video retrieval, July 21-23, 2004
- (EN) Glasgow Information Retrieval Group Wiki
- (EN) An introduction to IR
- (EN) Innovations in Search Conference, September 27-29, 2005
- (EN) Measuring Search Effectiveness
- (EN) Resources for Text, Speech and Language Processing
- (EN) Stanford CS276 course - Information Retrieval and Web Mining
- (ES) Usability and Accesibility in the Information Recuperation Process
- (ES) Standards and documents for information retrieval