Linguistica computazionale

Da Wikipedia, l'enciclopedia libera.

Con linguistica computazionale si intende, in generale, la disciplina riguardante l'utilizzo di strumenti informatici per l'elaborazione del linguaggio umano. Il processo di elaborazione vero e proprio viene chiamato elaborazione del linguaggio naturale (in inglese Natural Language Processing, in sigla NLP) e non è raro incontrare quest'ultimo termine come sinonimo di linguistica computazionale.

La linguistica computazionale è un campo interdisciplinare che unisce la statistica allo studio del linguaggi naturali da una prospettiva informatica. Questa gestione non è limitata a nessun particolare campo della linguistica. La Linguistica Computazionale in principio era un campo di studio affidato ad informatici specializzati nel programmare applicazioni atte a gestire un linguaggio naturale; tuttavia le recenti ricerche hanno mostrato che un linguaggio è molto più complesso di quanto si pensasse in precedenza, per questo motivo adesso i linguisti computazionali lavorano in gruppo insieme a linguisti. I Linguisti coputazionali sono in genere un gruppo misto di: linguisti, informatici, esperti in intelligenza artificiale, psicologi cognitivi e logici.

La linguistica computazionale è collegata strettamente all'intelligenza artificiale: per intelligenza artificiale, spesso abbreviata in AI, si intende generalmente la possibilità di far svolgere ad un calcolatore alcune funzioni e alcuni ragionamenti tipici della mente umana. Ed infatti cosa c'è di più tipico dell'uomo se non il suo linguaggio, la sua capacità di comunicare?

La correlazione tra linguaggio ed intelligenza risulta quanto mai evidente dal fatto che il test di Turing - il criterio per stabilire se una macchina sia intelligente - si basa in gran parte sulla capacità linguistica.

Indice

1 Origini
2 In Italia
- 2.1 L' Index Thomisticus
- 2.2 La Divina Commedia Lemmatizzata (1965)
3 Suddivisione
4 Voci correlate
5 Collegamenti esterni

[modifica] Origini

La linguistica computazionale come campo di ricerca è addirittura precedente all' intelligenza artificiale, disciplina a cui è spesso accostata. La linguistica computazionale è originata dalla necessità negli Stati Uniti degli anni '50 di avere computer che traducessero automaticamente testi da altre lingue straniere verso l'Inglese, in particolare dai giornali scientifici Russi. Dato che i computer avevano dato prova di poter fare calcoli aritmetici molto più velocemente ed accuratamente degli umani, fu pensato che fosse possibile ideare programmi che potessero avere altrettanta capacità e accuratezza nel tradurre i testi.

Nonostante ogni sforzo però i metodi di traduzione automatica allora sviluppati, riuscivano a fornire soltanto traduzioni molto grossolane; si capì allora, che il problema fosse molto piu' complesso di quanto ritenuto in precedenza. La linguistica computazionale nacque cone nome del nuovo campo di studio mirato allo sviluppo di algoritmi e software per la gestione automatica dei dati linguistici.

Quando l' intelligenza artificiale nacque, intorno agli anni sessanta, il campo della Linguistica Computazionale divenne una sottosezione dell' intelligenza artificiale che si occupava della comprensione a livello umano e della produzione di linguaggi naturali.

Per poter tradurre un linguaggio in un altro, fu osservato, era necessario capire la sintassi di entrambi i linguaggi, e almeno al livello di morfologia (linguistica) (la sintassi delle parola) l'intera frase.

Per poter capire la sintassi era necessario capire la semantica del vocabolario, e anche sapere qualcosa della pragmatica di come il linguaggio veniva usato.

Fu allora che, da semplice disciplina di traduzione automatica dei testi, la Linguistica Computazionale si evolse in una disciplina a parte che cercava di capire come rappresentare e gestire i linguaggi naturali individuali con l'ausilio dei computer.

[modifica] In Italia

[modifica] L' Index Thomisticus

Oggi ultraottantenne, padre Roberto Busa dell' Università Gregoriana di Roma è stato tra i precursori dell'informatica per l'analisi del testo, la lessicografia e la ricerca bibliografica.

Nel 1946, mentre stava redigendo una tesi su San Tommaso d'Aquino (la sua tesi avrà per titolo la Terminologia Tomistica dell' interiorità), matura l'idea di una verifica puntuale e integrale del lessico di San Tommaso proponendosi di servirsi di macchine adeguate. Nel 1949, trovandosi a New York, contatta Thomas Watson Sr., amministratore delegato della IBM e lo convince a fornire sostegno alle sue attività.

Inizia a lavorare allora al progetto dell' Index Thomisticus, che si propone di lemmatizzare (redigere l'indice lessicale e delle concordanze) l'intero corpus del filosofo, codificando ogni parola e registrandone tutte le flessioni; prima servendosi di schede perforate, poi di nastri magnetici sempre più capaci; finalmente, nel 1980, dopo trent'anni, il lavoro viene pubblicato in 56 volumi, col nome Index Tomisticus: sancti Thomae Aquinatis operum omnium indices e concordantiae.

Immagine:Index Thomisticus Roberto Busa.jpg

L'Opera Omnia di San Tommaso lemmatizzata su CD

Successivamente, con l'aiuto di Piero Slocovich, nel 1989 riesce ad ottenere una versione dell'Index sotto forma di ipertesto consultabile interattivamente e pubblicata su CD-ROM, e dal 2005 disponibile anche wia web; lavoro che è ancora oggi uno dei mezzi più utili per chi vuol fare ricerche su San Tommaso d'Aquino. La sua opera ci permette oggi di rintracciare in pochi istanti tutti i passi che contengono una qualsiasi parola contenuta nei 118 libri di S. Tommaso e in altri 61 di autori contemporanei. Questo sistema consente inoltre un'analisi linguistica del latino dell'epoca, dello stile dell'autore e permette la consultazione rapidissima delle occorrenze di ogni termine; operazioni che, fatte a mano, richiederebbero mesi o anni di lavoro. Il sistema distingue inoltre i termini omografi, quei termini cioè che si scrivono allo stesso modo ma derivano da lemmi differenti e possiedono perciò significati diversi Ad esempio cercando la parola facies (che puo' significare sia il sostantivo viso che il verbo fare) il sistema avverte che esistono due significati possibili e chiede all'utente su quale desidera compiere l'analisi. (Quello che in sostanza sarà il lavoro del futuro Linguista Computazionale.)

Grazie all'opera da lui iniziata, la lessicografia e l'ermeneutica testuale ricevettero un grande contributo, e dettero inizio a quella che qualche anno più tardi avrebbe preso il nome di Linguistica Computazionale.

Padre Busa nel 1992 ha fondato la Scuola di Lessicografia ed Ermeneutica all'interno della Facoltà di Filosofia della Pontificia Università Gregoriana. Tale scuola promuove in campo ermeneutico e lessicologico mediante l'approfondimento del metodo lessicografico; mediante la riflessione sistematica sull' ontologia generativa del linguaggio e mediante lo studio del vocabolario intellettuale cristiano, specialmente quello del latino medievale (i Lemmata Christianorum) e ancor piu' in particolare di quello tommasiano, contribuendo alla creazione del Lexicon Thomisticum, e si caratterizza per il suo prioritario campo di indagine, l' analisi della patristica e della scolastica, e per il mezzo adottato per fare tutto ciò: l'informatica.

[modifica] La Divina Commedia Lemmatizzata (1965)

Un altro lavoro pionieristico di utilizzo del calcolatore per la comprensione di un testo letterario risale al 1965, ed è uno studio della Divina Commedia realizzato da IBM. I risultati di questo esperimento vennero pubblicati in un volume di circa 1.000 pagine in cui, oltre al testo dantesco, veninvano riportate le concordanze, il lessico, il rimario e altri indici ottenuti tramite l' analisi computerizzata. Il libro fu preparato per celebrare il settimo centenario dalla nascita del poeta e si avvaleva della consulenza di Carlo Tagliavini ordinario di glottologia all' Università di Padova. Leggiamo dalla prefazione:

«Per le concordanze dantesche, - recita la prefazione - si può ragionevolmente pensare che un'opera eseguita unicamente con mezzi mauali come quella del Fay abbia occupato il suo autore per non meno di 5 o 6 anni. Per lo stesso lavoro (e per di più completo e non con l' omissione delle parole di frequenza maggiore) una volta eseguita la perforazione delle schede (che ha impegnato 2 perforatrici per 1 settimana), il sistema IBM 7090-1401 non ha impiegato più di 9 ore! A ciò si deve aggiungere la programmazione preventiva e tutto il lavoro di controllo, di divisioni e inserzioni manuali..»

( Dante Alighieri, La Divina Commedia. Testo, concordanze, lessici, rimario, indici, IBM Italia, 1965, pag. XXI.)

Con l'ausilio dei moderni PC, ovviamente, oggi il lavoro impiegherebbe molto meno tempo. I dati pubblicati in questo catalogo, contenevano gli elenchi delle concordanze, erano disponibili sia in ordine alfabetico che di frequenza. Così si puo' vedere facilmente che la parola che ricorre maggiormente è la congiunzione "e" che compare 1341 volte nell' Inferno, 1281 nel Purgatorio, 1262 nel Paradiso, per un totale di 3884 occorrenze. La scelta della pubblicazione cartacea a quei tempi era obbligata, per farli circolare. Oggi una stessa quantità di dati potrebbe essere benissimo consultata tramite Web.

Questi lavori, con l'eccezione dell' Index, che ha avuto successo tra gli studiosi di San Tommaso, non hanno avuto una grande diffusione. Perché potessero essere apprezzati era necessario attendere la nascita di un'editoria elettronica di massa, un mercato e la diffusione in massa dei [[[Personal Computer]].

Oggi, la stessa quantità di informazioni non ha più bisogno di un supporto fisico, e potrebbe viaggiare in pochi istanti da un capo all'altro del mondo grazie al Web.

[modifica] Suddivisione

La linguistica Computazionale può essere divisa in grandi aree dipendenti dal genere linguaggio che si vuole gestire, se parlato o testuale; e il tipo di operazione che si vuol fare, se analizzare il linguaggio (parsing) o generare il linguaggio (generation).

il Riconoscimento vocale e la sintesi vocale si studiano come il linguaggio parlato puo' essere compreso o creato con l'ausilio dei computers. Parsing e generation sono suddivisioni della linguistica computazionale che si occupano rispettivamente di distinguere il linguaggio e di metterlo insieme. La traduzione automatica rimane la suddivisione della Linguistica Computazionale che si occupa della traduzione automatica dalle varie lingue

Alcune aree di ricerca studiate dalla linguistica computazionale sono:

Corpora linguistici
Progettazione di Parser per i linguaggi naturali
Progettazione di tagger di vario genere, tipo i POS (Part-Of-Speech taggers)
La definizione di strutture per l' elaborazione del linguaggio naturale (Natural Language Processing)
Ricerca in generale delle relazioni tra linguaggio naturale e linguaggio formale
traduzione automatica
information retrieval concettuale
discourse parsing (analisi automatica dei testi)
Le grammatiche "Context-sensitive", le macchine di turing, gli automi a stati finiti

La Association for Computational Linguistics definisce la linguistica computazionale come: la scienza dello studio dei linguaggi da una prospettiva informatica. i linguisti computazionali si occupano di fornire modelli computazionali dei vari fenomeni linguistici.

[modifica] Voci correlate

Padre Roberto Busa
intelligenza artificiale
sistemi di dialogo
natural language processing
traduzione automatica
memoria di traduzione
Computational Linguistics (periodico)
Semantica Computationale
Relatività Semantica

[modifica] Collegamenti esterni

Estratto da "http://it.wikipedia.org../../../l/i/n/Linguistica_computazionale.html"

Categorie: Linguistica computazionale | Applicazioni dell'informatica

Linguistica computazionale

Da Wikipedia, l'enciclopedia libera.

Indice

[modifica] Origini

[modifica] In Italia

[modifica] L' Index Thomisticus

[modifica] La Divina Commedia Lemmatizzata (1965)

[modifica] Suddivisione

[modifica] Voci correlate

[modifica] Collegamenti esterni

Views

Navigazione

comunità

Ricerca

Altre lingue