MP3
aus Wikipedia, der freien Enzyklopädie
MP3 (Abkürzung für MPEG-1 Audio Layer 3) ist ein Dateiformat zur verlustbehafteten Audiodatenkompression. MP3 bedient sich dabei der Psychoakustik mit dem Ziel, nur für den Menschen bewusst hörbare Audiosignale zu speichern. Das Format ist der indirekte Vorgänger der qualitativ und funktionell überlegenen Formate AAC (proprietär) und Vorbis (frei) [1].
Inhaltsverzeichnis |
Geschichte
Entwickelt wurde das Format MP3 ab 1982 von einer Gruppe um Karlheinz Brandenburg am Fraunhofer-Institut für Integrierte Schaltungen in Erlangen sowie an der Friedrich-Alexander-Universität Erlangen-Nürnberg in Zusammenarbeit mit AT&T Bell Labs und Thomson. 1992 wurde es als Teil des MPEG-1-Standards festgeschrieben. Die Dateiendung .mp3 (als Abkürzung für ISO MPEG Audio Layer 3) wurde am 14. Juli 1995 nach einer institutsinternen Umfrage festgelegt. Wie bei vielen der aktuellen Kodierverfahren, sind Kernbereiche von MP3 durch Patente geschützt. Prof. Dr. Brandenburg wurde für die Entwicklung dieses Datenformates mehrfach ausgezeichnet.
Patente und Lizenzstreitigkeiten
Die Fraunhofer-Gesellschaft und andere Firmen besitzen Softwarepatente auf Teilverfahren, die für MPEG-Codierung eingesetzt werden. Ein alles umfassendes MP3-Patent gibt es nicht. Die Fraunhofer-Gesellschaft hat den größten Teil an der Entwicklung des MP3-Standards beigetragen und sich einige Verfahren zur MP3-Codierung patentieren lassen. In einem Zusammenschluss mit Thomson besitzen beide Unternehmen 18 MP3-bezogene Patente. Seit September 1998, nachdem sich der MP3-Standard sechs Jahre lang unbelastet etablieren konnte, verlangt FhG/Thomson Lizenzgebühren für MP3-Encoder.
Bei der Entwicklung des MP3-Formats soll auf Patente der Bell Laboratories zurückgegriffen worden sein. Diese Rechte liegen derzeit bei Alcatel-Lucent, die Bell Labs übernommen haben. Die Firma hat vor einigen Jahren Patentklagen gegen Microsoft, Dell und Gateway eingereicht. Im Verfahren gegen Microsoft wurden Lucent im Februar 2007 erstinstanzlich 1,5 Milliarden US-Dollar zugesprochen. Microsoft prüft derzeit eine Berufung und glaubt, dass noch "hunderte weitere Firmen" betroffen sein könnten.[1]
Die Firma Sisvel erhebt im Auftrag von Philips ebenfalls Patentansprüche.
Verfahren
Wie die meisten verlustbehafteten Kompressionsformate für Musik nutzt MP3 sogenannte psychoakustische Effekte der Wahrnehmung aus, z. B. dass der Mensch zwei Töne erst ab einem gewissen Mindestunterschied der Tonhöhe (Frequenz) voneinander unterscheiden kann oder dass man vor und nach sehr lauten Geräuschen für kurze Zeit leisere Geräusche schlechter oder gar nicht wahrnimmt. Man braucht also nicht das Ursprungssignal exakt abzuspeichern, sondern es reichen die Signalanteile, die das menschliche Gehör auch wahrnehmen kann. Die Aufgabe des Kodierers ist es, das Signal so aufzuarbeiten, dass es weniger Speicherplatz benötigt, aber für das menschliche Gehör noch genauso klingt wie das Original.
Der Decoder erzeugt aus diesem MP3 dann ein für die überwiegende Anzahl von Hörern original klingendes Signal, das aber nicht mit dem Ursprungssignal identisch ist, da bei der Umwandlung in MP3 Informationen entfernt wurden.
Während die Dekodierung stets einem festgelegten Algorithmus folgt, kann die Kodierung nach verschiedenen Algorithmen erfolgen (z. B. Fraunhofer-Encoder, LAME-Encoder) und liefert dementsprechend unterschiedliche akustische Ergebnisse. Die hörbaren Verluste hängen von der Qualität des Kodierers, von der Komplexität des Signals, von der Datenrate, von der verwendeten Audiotechnik (Verstärker, Verbindungskabel, Lautsprecher) und schließlich auch vom Gehör des Hörers ab. Das MP3-Format erlaubt neben festen Datenraten von 8 kBit/s bis zu 320 kBit/s auch beliebige freie Datenraten (sog. Freeform-MP3). Diese Eindrücke sind recht subjektiv und von Mensch zu Mensch sowie von Gehör zu Gehör unterschiedlich. Die meisten Menschen können jedoch ab einer Bitrate von etwa 160 kBit/s und bei Nutzung eines ausgereiften Enkodierers auch bei konzentriertem Zuhören das kodierte Material nicht mehr von dem Ausgangsmaterial unterscheiden.
Neben der Kodierung mit konstanter Datenrate (und damit schwankender Qualität) ist auch eine Kodierung mit schwankender Datenrate (und damit konstanter Qualität) möglich. Man vermeidet damit (weitgehend) Qualitätseinbrüche an schwierig zu kodierenden Musikstellen, spart jedoch andererseits bei ruhigen, oder gar komplett stillen Passagen des Audiostromes an der Datenrate und somit an der endgültigen Dateigröße. Man gibt die Qualitätsstufe vor und erhält auf diese Art die dafür minimal notwendige Datei.
Datenkompression
Siehe auch: Audiodatenkompression mit Hilfe des psychoakustischen Modells
- Ein erster Schritt der Datenkompression beruht zum Beispiel auf der Kanalkopplung des Stereosignals durch Differenzbildung. Das ist ein verlustloses Verfahren, die Ausgangssignale können vollständig reproduziert werden.
- Nicht hörbare Frequenzen – das für einen Erwachsenen erfassbare Spektrum deckt etwa den Bereich 20 Hz bis 18 kHz ab – werden im fouriertransfomierten Datenmaterial abgeschnitten. Aus dem Abtasttheorem ergibt sich hierbei die Forderung, die Abtastfrequenz mindestens doppelt so hoch zu halten wie die Grenzfrequenz, um das ursprüngliche Signal rekonstruieren zu können. Wird eine geringere Abtastfrequenz verwendet, kann das Signal auch nur bis zur Hälfte dieser Frequenz rekonstruiert werden.
- So genannte Maskierungseffekte werden genutzt, um weitere Redundanz zu beseitigen. Dabei werden vom Menschen nicht bewusst wahrgenommene Töne aus dem Signal weggelassen. Dies können einerseits schwache Frequenzanteile in der Nähe von starken Obertönen sein. Die größte Ersparnis liegt aber darin, dass die Töne nur gerade so genau, mit so vielen Bits, abgespeichert werden, dass das dadurch entstehende Quantisierungsrauschen noch maskiert wird und nicht hörbar ist.
- Die Daten, die in sogenannten Frames vorliegen, werden schließlich Huffman-entropiekodiert.
Bei starker Kompression werden auch hörbare Frequenzen von der Kompression erfasst, sie sind dann als Kompressionsartefakte hörbar.
Ein Designfehler hierbei ist, dass das Verfahren blockweise angewandt wird, und so am Ende einer Datei Lücken entstehen können. Das stört bspw. bei Hörbüchern, in denen ein zusammenhängender Vortrag zum besseren Auffinden der Passagen in einzelne Tracks zerlegt wurde. Hier fallen die letzten Blöcke als störende Pausen auf. Abhilfe schafft die Verwendung des LAME-Encoders, der exakte Längeninformationen hinzufügt, in Kombination mit einem Abspielprogramm, welches mit diesen umgehen kann, etwa foobar2000 oder Winamp. Weit verbreitete Abspielprogramme wie Microsoft Windows Media Player oder Apple iTunes unterstützen dieses Verfahren (Gapless Playback) nicht.
Weiterentwicklung
MP3 ist ein besonders im Internet viel verwendetes Format. In der Industrie wird es hauptsächlich für PC-Spiele-Software verwendet. Es handelt sich um ein proprietäres Format, das als Nachfolger von MP2 entwickelt und in letzter Minute in den ISO-Standard aufgenommen wurde.
In der Industrie wurde zu dieser Zeit schon an dem MDCT-basierten AAC gearbeitet, das sauberer entworfen ist und bei vergleichbarem Aufwand bessere Ergebnisse liefert. Manche sehen daher AAC als Weiterentwicklung von MP2.
Neben dieser Weiterentwicklung (in Richtung einer hochqualitativen Kodierung) gibt es auch Weiterentwicklungen, um bei sehr niedrigen Datenraten (weniger als 96 kbps) noch akzeptable Klangqualität zu erreichen. Vertreter dieser Kategorie sind MP3Pro sowie MPEG-4 AAC HE bzw. AAC+. Transparenz ist mit diesen Verfahren allerdings nicht erreichbar.
Die Erweiterung um Multikanalfähigkeiten bietet das MP3 Surround-Format des Fraunhofer-Instituts für Integrierte Schaltungen IIS. MP3 Surround erlaubt die Wiedergabe von 5.1-Ton bei Bitraten, die mit denen von Stereoton vergleichbar sind und ist zudem vollständig rückwärtskompatibel: So können herkömmliche MP3-Decoder das Signal in Stereo decodieren, MP3-Surround-Decoder aber vollen 5.1-Surround-Klang erzeugen.
Dafür wird das Multikanal-Material zu einem Stereosignal gemischt und von einem regulären MP3-Encoder codiert. Gleichzeitig werden die Raumklanginformationen aus dem Original als Surround-Erweiterungsdaten in das „Ancillary Data“-Datenfeld des MP3-Bitstroms eingefügt. Die MP3-Daten können dann von jedem MP3-Decoder als Stereosignal wiedergegeben werden. Der MP3 Surround-Decoder nutzt die eingefügten Erweiterungsdaten und gibt das volle Multikanal-Audiosignal wieder. Vergleichbar ist das Verfahren mit Dolby Surround pro Logic.
Weitere Entwicklungen betreffen Verfahren zum Urheberschutz (engl. Digital Rights Management, kurz DRM), das nach verschiedenen Quellen in zukünftigen Versionen implementiert werden soll.
Anwendung
Audio-Rohmaterial benötigt viel Speicherplatz (80 Minuten Stereo in CD-Qualität benötigen etwa 800 MB) und zum Transfer (beispielsweise über das Internet) hohe Datenübertragungsraten und/oder viel Zeit. Die verlustlose Komprimierung leistet hier nur wenig im Vergleich zur verlustbehafteten Komprimierung. So erlangte das MP3-Format für Audio-Daten schnell den Status, den das JPEG-Format für Bilddaten hat.
MP3 wurde vor allem durch Musiktauschbörsen in der breiten Öffentlichkeit bekannt, wird aber auch bei vielen DVD-Rips als Audioformat benutzt.
Die MP3-Technologie wird für so genannte MP3-Player eingesetzt, mit denen man auch unterwegs Musik hören kann. MP3-Player unterscheiden sich im Wesentlichen in der Speichertechnik, so gibt es Abspielgeräte mit Festplatten (beispielsweise iriver und die meisten iPod-Modelle), mit Festspeicher (Flash-Speicherung), mit verschiedenen Speicherkarten und mit CD oder Mini-CD als Speichermedium.
Im WWW finden sich zahlreiche Anwendungen zur MP3-Technologie, von selbstkomponierter Musik über (selbst)gesprochene Hörbücher, Hörspiele, Vogelstimmen und andere Klänge bis hin zum Podcasting. Musiker können nun auch ohne einen Vertrieb ihre Musik weltweit verbreiten und Klangaufnahmen ohne großen Aufwand (abgesehen von den GEMA-Gebühren, auch auf eigene Kompositionen, die bei der GEMA angemeldet sind) auf einer Website zur Verfügung stellen. Nutzer können über Suchmaschinen alle erdenklichen (nicht kommerziellen) Klänge und Musikrichtungen finden.
Auch bei multimedialer Software, vor allem bei PC-Spielen, werden die oft zahlreichen Audiodateien im MP3-Format hinterlegt. Zudem findet MP3 bei zahlreichen, meist kleineren Onlinemusikläden Anwendung.
Tagging
Im Gegensatz zu moderneren Codecs bieten MP3-Dateien ursprünglich keine Möglichkeit, unabhängig vom Dateinamen, Metadaten (z. B. Titel, Interpret, Album, Jahr, Genre) zu dem enthaltenen Musikstück zu speichern.
Hierfür wurde unabhängig vom Entwickler des Formats eine Lösung gefunden, die von fast allen Soft- und Hardwareplayern unterstützt wird: Die ID3-Tags werden einfach an den Anfang oder das Ende der MP3-Datei gehängt. Die erste Version (ID3v1) ist auf 30 Zeichen pro Eintrag und wenige Standard-Einträge beschränkt. Die wesentlich flexiblere Version 2 (ID3v2) wird allerdings nicht von allen MP3-Playern (insbesondere Hardware-Playern) unterstützt. Zudem gibt es auch innerhalb von ID3v2 noch beträchtliche Unterschiede, am weitesten verbreitet sind ID3v2.3 und ID3v2.4, wobei erst ID3v2.4 offiziell die Verwendung von UTF-8 zulässt (vorher waren nur ISO-8859-1 und UTF-16 zulässig). Viele Hardwareplayer zeigen aber UTF-8-Tags nur als wirre Zeichen an. Da ID3v2-Tags am Anfang der Datei stehen, lassen sich diese Daten beispielsweise auch bei der Übertragung über HTTP lesen, ohne erst die ganze Datei zu lesen oder mehrere Teile der Datei anzufordern. Um zu vermeiden, dass bei Änderungen die ganze Datei neu geschrieben werden muss, verwendet man üblicherweise Padding, d. h. man reserviert im Vorfeld Platz für diese Änderungen.
Die Metadaten aus dem ID3-Tag können z. B. genutzt werden, um Informationen zum gerade abgespielten Stück anzuzeigen, die Titel in Wiedergabelisten (Playlists) zu sortieren oder Archive zu organisieren.
Spezifikation
Frame-Header:
Element | Größe | Beschreibung |
---|---|---|
Sync | 11 Bits | alle Bits sind auf 1 gesetzt |
ID | 2 Bits | 0 = MPEG Version 2.5 1 = reserviert 2 = MPEG Version 2 3 = MPEG Version 1 |
Layer | 2 Bits | 0 = reserviert 1 = Layer III 2 = Layer II 3 = Layer I |
Protection | 1 Bit | 0 = 16-Bit CRC nach dem Header 1 = keine CRC |
Bitrate | 4 Bit | gemäß Bitraten-Tabelle1 |
Samplingfrequenz | 2 Bit | gemäß Samplingtabelle2 |
Padding | 1 Bit | 0 = Frame wird nicht aufgefüllt 1 = Frame mit Extraslot gefüllt Slotgröße: Layer I = 32 Bits; Layer II+III 8 Bits |
Private | 1 Bit | nur informativ |
Kanalmodus | 2 Bits | 0 = Stereo 1 = Joint Stereo 2 = 2 Mono Kanäle 3 = ein Kanal (Mono) |
Mode-Extension | 2 Bits | (nur für Joint Stereo) gemäß Tabelle3 |
Copyright | 1 Bit | 0 = ohne Copyright 1 = mit Copyright |
Original | 1 Bit | 0 = Kopie 1 = Original |
Emphasis | 2 Bit | 0 = keine 1 = 50/15 ms 2 = reserviert 3 = CCIT J.17 |
1Tabelle Bitraten (Angaben in kbps):
Wert | MPEG 1, Layer I | MPEG 1, Layer II | MPEG 1, Layer III | MPEG 2/2.5, Layer I | MPEG 2/2.5, Layer II/III |
---|---|---|---|---|---|
0 | freies Format | ||||
1 | 32 | 32 | 32 | 32 | 8 |
2 | 64 | 48 | 40 | 48 | 16 |
3 | 96 | 56 | 48 | 56 | 24 |
4 | 128 | 64 | 56 | 64 | 32 |
5 | 160 | 80 | 64 | 80 | 40 |
6 | 192 | 96 | 80 | 96 | 48 |
7 | 224 | 112 | 96 | 112 | 56 |
8 | 256 | 128 | 112 | 128 | 64 |
9 | 288 | 160 | 128 | 144 | 80 |
10 | 320 | 192 | 160 | 160 | 96 |
11 | 352 | 224 | 192 | 176 | 112 |
12 | 384 | 256 | 224 | 192 | 128 |
13 | 416 | 320 | 256 | 224 | 144 |
14 | 448 | 384 | 320 | 256 | 160 |
15 | nicht erlaubt |
2Tabelle Samplingfrequenz:
Wert | MPEG 1 | MPEG 2 | MPEG 2.5 |
---|---|---|---|
0 | 44100 Hz | 48000 Hz | 32000 Hz |
1 | 22050 Hz | 24000 Hz | 16000 Hz |
2 | 11025 Hz | 12000 Hz | 8000 Hz |
3 | reserviert |
3Tabelle Mode-Extension:
Wert | Layer I/II | Layer III |
---|---|---|
0 | Subbänder 4 bis 31 | Intensity-Stereo: aus; M/S-Stereo: aus |
1 | Subbänder 8 bis 31 | Intensity-Stereo: ein; M/S-Stereo: aus |
2 | Subbänder 12 bis 31 | Intensity-Stereo: aus; M/S-Stereo: ein |
3 | Subbänder 16 bis 31 | Intensity-Stereo: ein; M/S-Stereo: ein |
Auf den Frame-Header folgen die Frame-Daten (ggf. zunächst CRC) in denen die kodierten Audio-Daten enthalten sind.
Verbreitete Implementierungen
Zum Kodieren von MP3-Dateien stehen der lizenzpflichtige Encoder der Fraunhofer-Gesellschaft und der Encoder des Open-Source-Projektes LAME zur Verfügung. Daneben existieren der Referenzencoder der ISO dist10 und weitere Projekte wie beispielsweise Xing, blade und Gogo.
Als Decoder stehen mpg123, MAD, libavcodec und weitere zur Verfügung.
Alternative Formate
Neben MP3 existieren zahlreiche weitere Audioformate.
Das Format Ogg-Vorbis (Dateiendung .ogg) ist quelloffen und wird von den Entwicklern als im Gegensatz zu MP3 patentfrei bezeichnet. Ogg-Vorbis hat sich bei Hörtests gegenüber MP3 in praktisch allen Bitratenbereichen als überlegen erwiesen und bietet wesentlich mehr Leistungsmerkmale wie Mehrkanal-Unterstützung.
Das freie, auf MP2-Algorithmen basierende Musepack (früher MPEGPlus) bietet bei Bitraten über 160 kbit/s wesentlich bessere Qualitat als das MP3-Format. Dateien im Musepack-Format erkennt man an der Erweiterung mpc oder mp+.
Advanced Audio Coding (AAC) ist ein im Rahmen von MPEG-2 und MPEG-4 standardisiertes Verfahren, welches von mehreren großen Firmen entwickelt wurde. So setzen Apple und Real Media dieses Format für ihre Online-Musikläden ein und die Nero AG stellt einen Encoder für dieses Format bereit. Mit faac befindet sich auch ein freier Encoder auf dem Markt. AAC wurde auch aufgrund der Designfehler des MP3-Formates entworfen.
Trivia
Das Team um Brandenburg machte die ersten Praxistests mit dem Lied Toms Diner von Suzanne Vega. Brandenburg hörte das Lied durch Zufall und empfand die Stimme Vegas sogleich als geeignete Herausforderung für eine Audiodatenkompression.
Siehe auch
- Audiograbber, CDex, Exact Audio Copy (Programme zum Umwandeln von Audio-CDs in komprimierte Audiodaten wie MP3)
Quellen
Weblinks
Wiktionary: MP3 – Bedeutungserklärungen, Wortherkunft, Synonyme und Übersetzungen |