Primo teorema di Shannon
Da Wikipedia, l'enciclopedia libera.
Nella Teoria dell'Informazione, il Primo teorema di Shannon (o Teorema della codifica di sorgente), stabilisce dei limiti alla massima compressione possibile di un insieme di dati e definisce il significato operativo dell' entropia.
Il teorema stabilisce che, per una serie di variabili aleatorie indipendenti ed identicamente distribuite (i.i.d.) di lunghezza che tende ad infinito, non è possibile comprimere i dati in un messaggio più corto dell'entropia totale, senza rischiare di perdere informazione. Al contrario, compressioni arbitrariamente vicine al valore di entropia sono possibili, con probabilità di perdita di informazione piccola a piacere.
Il Teorema della codifica di sorgente per simboli di codice, stabilisce un limite inferiore e superiore alla minima lunghezza attesa di una serie di parole di codice, in funzione dell'entropia della parola in ingresso (vista come una variabile aleatoria) e della dimensione dell'alfabeto in esame.
Indice |
[modifica] Codifica di Sorgente
La codifica di sorgente è un mappaggio da una sequenza di simboli generati da una sorgente ad una sequenza ad una sequenza di simboli di un alfabeto (solitamente binario), tale che i simboli sorgenti possono essere esattamente recuperati dai bit (codifica senza perdite) o recuperati con qualche distorsione (codifica con perdite). Questo è il concetto che sta alla base della compressione dei dati.
In altre parole si può dire che è la modalità con la quale ciascun evento associato ad una sorgente discreta viene codificato mediante una sequenza di simboli.
[modifica] Qualità dell'Informazione
La codifica di sorgente introduce i concetti alla base della Qualità dell'Informazione:
-la Quantità di Informazione I(x) è data da I(x)=-log2P(x), dove P(x) è la probabilità dell'informazione. Si può quindi dire che tra l'informazione stessa e la sua probabilità vi è una relazione inversamente proporzionale (un'alta probabilità porta ad una bassa quantità di informazione e viceversa).
Volendo, ora, stabilire un'unità di misura è opportuno far riferimento al caso in cui si ha bisogno dell'informazione minima per prendere una decisione. Trascurando il caso limite (quando l'evento è certo) nel quale esiste un solo risultato, il caso con il minimo bisogno di informazione è quello in cui esistono due possibili risultati equiprobabili (es.: il lanco di una moneta).
Si definisce con bit la quantità di informazione necessaria, e sufficiente, per discriminare e decidere tra due soli eventi equiprobabili: 1bit=Klog2(1 / 2), dove K è l'indice di proporzionalità.
-L'Informazione Mediata, o Entropia, è pesata dai contributi dell'informazione per la sua probabilità: [bit/simbolo].
-La Velocità di Modulazione, o Baudrate è la velocità di emissione dei simboli da parte della sorgente: V=, dove Ts è la durata del simbolo.
-La Velocità di Trasmissione Media dell'Informazione del sistema, o Bitrate, si calcola con: R=V*H(x).
Altri parametri importanti si riassumono in: Lunghezza media del simbolo (ni=lunghezza del codice), Rendimento del codice η=
(η assume valori da 0 a 1) e la Ridondanza γ=1-η .
[modifica] Teorema della codifica di sorgente
In teoria dell'informazione il teorema della codifica di sorgente (Claude Shannon, 1948) stabilisce che:
- "N variabili casuali i.i.d., ognuna con entropia H(X) possono essere compresse in più di NH(X) bit con una probabilità di perdita di informazione piccola a piacere, al tendere di N all'infinito; al contrario, se sono compresse in meno di NH(X) bit è virtualmente certo che una parte dell'informazione andrà persa.
[modifica] Teorema dell codifica di sorgente per simboli di codice
Sia X una variabile casuale a valori in un alfabeto finito Σ1 e sia f un codice decifrabile (ossia una funzione univoca) da Σ1 a Σ2, dove . Sia S la risultante lunghezza della parola di codice f(X).
Se f è ottima nel senso che ha la minima lunghezza attesa per la parola di codice X, allora
(Shannon 1948)
[modifica] Dimostrazione: Teorema della codifica di sorgente
Siano X una sorgente di variabili i.i.d. e X1, ..., Xn una serie di uscite con entropia H(X) nel caso discreto ed uguale entropia differenziale nel caso continuo. Il teorema della codifica di sorgente stabilsce che per ogni ε > 0, esiste un n abbastanza grande ed un codificatore che prende n uscite i.i.d. della sorgente e le mappa su n.(H(X) + ε) bit, in modo che i simboli sorgente X1:n siano recuperabili con probabilità di almeno 1 − ε.
Dimostrazione di raggiungibilità
Sia fissata una qualche ε > 0. L'insieme tipico, , è definito come
La proprietà di equipartizione asintotica (AEP), mostra che per un n largo abbastanza, la probabilità che una sequenza generata dalla sorgente cada nell'insieme tipico, , tende ad uno. In particolare per un n grande abbastanza,
.
La definizione di insieme tipico, implica che le sequenze che cadono nell'insieme tipico soddisfano la condizione
Si noti che:
- La probabilità che una sequenza di X cada in
è maggiore di 1 − ε
, dato che la probabilità dell'insieme
è al massimo uno.
. Per la prova è sufficiente utilizzare il limite superiore della probabilità di ogni termine nell'insieme tipico ed il limite inferiore sulla probabilità dell'insieme set
.
Dato che bit sono sufficienti per rappresentare ogni stringa nell'insieme.
L'algoritmo di codifica: il codificatore controlla che la sequenza di ingresso cada nell'insieme tipico; se sì produce in uscita l'indice della sequenza d'ingresso nell'insieme tipico; se no, il codificatore produce un arbitrario unumero binario n.(H(X) + ε) . Se la sequenza ricade nell'insieme tipico, il che avviene con probabilità di almeno 1 − ε, il codificatore non commette errori. Quindi la probabilità di errore del codificatore è inferiore a ε.
Prova dell'inverso
L'inverso si dimostra mostrando che qualunque insieme di dimensione inferiore a , avrebbe probabilità al limite sicuramente inferiore a 1 .
[modifica] Dimostrazione: teorema della codifica di sorgente per simboli di codice
Sia si la lunghezza di ogni possibile parola di codice xi (). Definito
, dove C è tale che
.
Then
dove la seconda linea deriva dalla disuguaglianza di Gibbs e la quarta dalla disuguaglianza di Kraft: e dunque
.
per la seconda disuguaglianza possiamo imporre
in modo che
e quindi
e
e dalla disuguaglianza di Kraft, esiste una codice univoco con parole di codice aventi tale lunghezza. Quindi il minimo S soddisfa
[modifica] Estensione a sorgenti indipendenti non-stazionarie
[modifica] Codifica di sorgente senza perdita a tasso fisso per sorgenti indipendenti discrete e non stazionarie
Sia definito l'insieme tipico come
Allora per un dato δ > 0, per un n grande abbastanza, .Ora ci limitiamo a codificare le sequenze nell'insieme tipico ed il solito metodo di codifica mostra che la cardinalità di questo insieme è inferiore a
. Quindi, in media,
bitn sono sufficienti per codificare la sequenza con probabilità di corretta decodifica superiore a 1 − δ, dove
possono essere rese piccole a piacere aumentando n.
[modifica] Voci Correlate
[modifica] Bibliografia
Cover, Thomas, "Elements of Information Theory", 2^ edizione, Wiley and Sons, 2006
Progetto Ingegneria - Bar degli ingegneri - L'ingegnere - I materiali - Le unità di misura | ||
Settore Ingegneria Civile e Ambientale Ambiente e territorio - Civile - Geotecnica - Idraulica - Naturalistica - Sicurezza - Sismica - Strutturale - Trasporti |
Settore Ingegneria Informazione Acustica - Biomedica - Elettronica - Informatica - Telecomunicazioni |
Settore Ingegneria Industriale Aerospaziale - Automazione - Biochimica - Chimica - Elettrica - Energetica - Gestionale - Industriale - Materiali - Meccanica - Navale - Nucleare - Processi di produzione |
Categorie ingegneristiche Aerospaziale - Automazione - Biomedica - Chimica - Civile - Comunicazioni - Elettrica - Geotecnica - Gestionale - Idraulica - Industriale - Informatica - Materiali - Meccanica - Navale - Nucleare - Sismica - Strumentale - Strutturale - Termotecnica - Territorio - Trasporti |