MP3
Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Το MPEG-1 Audio Layer 3 (Ήχος τύπου MPEG-1 3ου επιπέδου), γνωστό και ως ΜΡ3 (προφέρεται έμ-πι-θρί), είναι μία δημοφιλής ψηφιακή κωδικοποίηση ήχου. Επίσης είναι μορφή αρχείου απωλεστικής συμπίεσης και αλγόριθμος, ο οποίος είναι σχεδιασμένος να μειώνει δραστικά το μέγεθος των δεδομένων που απαιτούνται για την αναπαραγωγή του ήχου, ο οποίος όμως ακούγεται σαν πιστή αναπαραγωγή του αρχικού ασυμπίεστου ήχου από τους περισσότερους ακροατές. Εφευρέθηκε από μία ομάδα Γερμανών μηχανικών του Ιδρύματος Fraunhofer, οι οποίοι εργάστηκαν στα πλαίσια του προγράμματος EUREKA 147 DAB το οποίο έκανε έρευνα πάνω στο ψηφιακό πρόγραμμα ραδιοφώνου, και τυποποιήθηκε με βάση το πρότυπο ISO/IEC το 1991.
Πίνακας περιεχομένων |
[Επεξεργασία] Γενικά.
Το ΜΡ3 είναι μια μορφή ψηφιακού συμπιεσμένου αρχείου ειδικά για την αποθήκευση ήχου. Παρέχει τη δυνατότητα της αναπαράστασης ήχου κωδικοποιημένου με μορφή Pulse Code Modulation (PCM) (διαμόρφωση με βάση κωδικούς παλμών) δεσμεύοντας πολύ λιγοτερο χώρο (για δεδομένα) από τις άμεσες μεθόδους. Αυτό γίνεται χρησιμοποιώντας ψυχοακουστικά μοντέλα για να απορρίψει κομμάτια του ήχου που δεν ακούει το ανθρώπινο αυτί, και καταγράφοντας την υπόλοιπη πληροφορία με έναν αποτελεσματικό τρόπο. Παρόμοιες μέθοδοι χρησιμοποιούνται από το JPEG, μία μορφή απωλεστικής συμπίεσης εικόνων.
[Επεξεργασία] Ιστορικό
[Επεξεργασία] Ανάπτυξη
Η κωδικοποίηση ήχου τύπου MPEG-1 2ου επιπέδου άρχισε ως σχέδιο DAB (Digital Audio Broadcast) το οποίο διεύθυνε ο Egon Meier-Engelen του Γερμανικού κέντρου αεροδιαστημικής στην Γερμανία.Το σχέδιο χρηματοδοτούσε η Ευρωπαϊκή ένωση ως μέρος του ερευνητικού προγράμματους EUREKA γνωστό και ως EU-147. Το προγραμμα αυτό διήρκεσε από το 1987 έως και το 1994.
Το 1991 υπήρχαν δύο διαθέσιμες προτάσεις: Τo Musicam (γνωστό και ως 2ο επίπεδο) και το ASPEC (Adaptive Spectral Perceptual Entropy Coding).Η μέθοδος Musicam, όπως είχε προταθεί από την Philips (Ολλανδική εταιρία), την CCETT (Γαλλική εταιρεία τηλεπικοινωνίων), και το Institut für Rundfunktechnik (Γερμανικό ινστιτούτο τηλεπικοινωνιών). Επιλέχθηκε εξαιτίας της απλότητας και της καλής αντιμετώπισης των λαθών, καθώς και για το ότι απαιτείται σχετικά χαμηλή υπολογιστική ισχύς για την κωδικοποίηση συμπιεσμένου ήχου υψηλής ποιότητας. Η μορφοποίηση Musicam, η οποία βασιζόταν στην κωδικοποίηση υπο-συχνοτήτων του ήχου, ήταν το κλειδί στην δημιουργία της βάσης της μορφής συμπίεσης MPEG Audio (ρυθμοί δειγματοληψίας, δομή των frames ("πλαισίων"), κεφαλίδες, και αριθμός δειγμάτων ανα frame). Η τεχνολογία και οι ιδέες ενσωματώθηκαν πλήρως στον ορισμό του προτύπου μορφής ISO MPEG Audio Layer I (πρώτου επιπέδου), Layer II και πιο πολύ στο Layer III (δηλαδή το ΜΡ3). Υπό την εποπτεία του καθηγητή Mussman (Πανεπιστήμιο του Ανόβερου) η επεξεργασία του προτύπου έγινε με ευθύνη του Leon van de Kerkhof (Layer I) και του Gerhard Stoll (Layer II).
Μία ομάδα εργασίας αποτελούμενη από τους Leon Van de Kerkhof (Ολλανδία), Gerhard Stoll (Γερμανία), Leonardo Chiariglione (Ιταλία), Yves-François Dehery (Γαλλία) και Karlheinz Brandenburg (Γερμανία), χρησιμοποιώντας ιδέες από το Musicam και το ASPEC, και προσθέτοντας μερικές δικές τους δημιούργησε το ΜΡ3, το οποίο σχεδιάστηκε να πετυχαίνει ποιότητα ήχου στα 128Kbit/δευτ όμοια με του ΜΡ2 στα 192Kbit/δευτ (Μειώνοντας δηλαδή τον όγκο τον δεδομένων που απαιτούνταν και κρατώντας σταθερή την ποιότητα του ήχου).
Όλοι οι αλγόριθμοι εγκρίθηκαν το 1991, και οριστικοποιήθηκαν το 1992 ως μέρος του προτύπου MPEG-1, του πρώτου της σειράς προτύπων από την ομάδα MPEG από το οποίο προέκυψε το διεθνές πρότυπο ISO/IEC 11172-3, που δημοσιεύθηκε το 1993. Περαιτέρω εργασία πάνω στο MPEG Audio ολοκληρώθηκε το 1994 σαν μέρος της δεύτερης σειράς προτύπων MPEG, με το MPEG-2, πιο επίσημα γνωστό και ως διεθνές πρότυπο ISO/IEC 13818-3, που δημοσιεύθηκε για πρώτη φορά το 1995. Η απόδοτικότητα της συμπίεσης των κωδικοποιητών συχνά ορίζεται με βάση το bit rate (ρυθμό αποθήκευσης/ανάγνωσης bit ανα δευτερόλεπτο) γιατί η συμπίεση εξαρτάται από το έυρος των bit και τη συχνότητα δειγματοληψίας του σήματος προς συμπίεση. Παρόλα αυτά, συχνά δημοσιεύονται ρυθμοί συμπίεσης που χρησιμοποιούν της παραμέτρους της δειγματοληψίας του CD ως αναφορά (44.1Khz, 2 κανάλια και 16bit ανα κανάλι, ή 2Χ16bit).Μερικές φορές χρησιμοποιούνται οι παράμετροι των ρυθμών δειγματοληψίας της ψηφιακής κασέτας (DAT, Digital Audio Tape) δηλαδη 48Khz & 2X16bit.Οι ρυθμοί συμπίεσης με αυτές τις παραμέτρους είναι υψηλότεροι, το οποίο αποδεικνύει τον προβληματικό όρο "ρυθμός συμπίεσης" για τους απωλεστικούς κωδικοποιητές. Δηλαδη ενώ χρησιμοποιούμε έναν αλγόριθμο για να μειώσουμε το μέγεθος ενός αρχείου ήχου "συμπιέζοντας" τα δεδομένα τελικά δημιουργόυμε ένα μεγαλύτερο αρχείο χρησιμοποιώντας αυτές τις παραμέτρους.
Ο Karlheinz Brandenburg χρησιμοποίησε το κομμάτι "Tom's Diner" από το CD της Suzanne Vega για να αξιολογήσει τον αλγόριθμο συμπίεσης του MP3.Το τραγούδια αυτό επιλέχθηκε εξαιτίας της απλότητας και της απαλής μουσικής που έχει, κάνοντας πιο απλό να ακουστούν ατέλειες της συμπιεσμένης μορφής κατά την αναπαραγωγή. Κάποιοι αστειευόμενοι αναφέρουν την Suzanne Vega ως "μητέρα του MP3". Επίσης κάποια σημαντικά αποσπάσματα από μουσικά όργανα (τρίγωνο, ακορντεόν, μεταλόφωνο...) από το CD αναφοράς EBU V3/SQAM και χρησιμοποιήθηκαν από επαγγελματίες μηχανικούς ήχου για να αξιολογηθεί η υποκειμενική ποιότητα των μορφών ήχου του MPEG.
[Επεξεργασία] Διάθεση στο κοινό
Μία υλοποίηση ένος λογισμικού εξομείωσης (για αναφορά) γραμμένου στη γλώσσα προγραμματισμού C γνωστό και ως ISO 11172-5, αναπτύχθηκε από τα μέλη της επιτροπής του ISO MPEG Audio ωστε να δημιουργηθούν αρχεία συμβατά με το MPEG Audio (επιπέδου 1, 2, και 3).Αυτο το πρόγραμμα κατάφερε να παρουσιάσει σε μερικά λειτουργικά συστήματα την πρώτη ζωντανή αποκωδικοποίηση συμπιεσμένου ήχου. (Δηλαδή το λογισμικό έκανε ανάγνωση του συμπιεσμένου αρχείου, και ταυτόχρονα αποσυμπίεση και αναπαραγωγή του. Ενω νωρίτερα είχαν γίνει δοκιμές ώστε πρώτα να αποσυμπιέζεται ολόκληρο το αρχείο και στη συνέχεια να αναπαράγεται). Στην πραγματικότητα όμως το λογισμικό αυτό εξομείωνε τον τρόπο λειτουργίας του υλικού (δηλαδη των μικροτσιπ) το οποίο θα εκτελούσε αυτή την εργασία. Άλλες υλοποιήσεις άμεσης κωδικοποίησης από τους κωδικοποιητές του MPEG Audio ήταν διαθέσιμοι για χρήση στην ψηφιακή εκπομπή σήματος για καταναλωτικούς δέκτες.
Αργότερα, τον Ιούλιο του 1994, η ομάδα Fraunhofer κυκλοφόρησε το πρώτο λογισμικό που κωδικοποιούσε MP3 το οποίο ονομάστηκε l3enc. Η επέκταση αρχείου .mp3 επιλέχθηκε από την ομάδα Fraunhofer στις 14 Ιουλίου του 1995 (νωρίτερα τα αρχεία είχαν επέκταση .bit). Με το πρώτο λογισμικο που μπορούσε να αναπαραγει ΜΡ3 το Winplay 3 (το οποίο κυκλοφόρησε στις 9 Σεπτεμβρίου του 1995) πολλοί χρήστες είχαν την δυνατότητα να κωδικοποιούν και να αναπαράγουν MP3 στους υπολογιστές τους. Εξ αιτίας των σχετικά μικρών σκληρών δίσκων (περίπου 500MB) που υπήρχαν εκείνη την εποχή στους προσωπικούς υπολογιστές η τεχνολογία αυτή ήταν απαραίτητη για να αποθηκευθούν κομμάτια μουσικής με φυσικό ήχο και φωνή σε έναν υπολογιστή. (Σε αντίθεση με αρχεία τύπου tracker και midi τα οποία εκτελούσαν μουσικά κομμάτια χρησιμοποιώντας μονο δείγματα ήχου από μουσικά όργανα)
[Επεξεργασία] MP2
Τον Οκτώβριο του 1993, αρχεία τύπου MP2 εμφανίστηκαν στο Ιντερνετ και συχνά "έπαιζαν" χρησιμοποιώντας τον Xing MPEG Audio Player, και αργότερα με ένα πρόγραμμα για Unix που είχε δημιουργήσει το Tobias Banding και λεγόταν MAPlay, το οποίο κυκλοφόρησε για πρώτη φορά στις 22 Φεβρουαρίου του 1994. (Το MAPlay μεταφέρθηκε και στο λειτουργικό σύστημα των Windows) Αρχικά το μόνο πρόγραμμα κωδικοποίησης MP2 ήταν το Xing Encoder, μαζί με το προγραμμα CDDA2WAV, που επεξεργάζεται μουσικά CD και μετατρέπει τα κομμάτια τους σε αρχείο κυματομορφής (waveform). Η ιστοσελίδα IUMA (Internet Underground Music Archive, Αρχείο μουσικής του "υπόγειου" ίντερνετ) γενικά αναγνωρίζεται ως η αρχή της μουσικής επανάστασης στο Ιντερνετ. Η IUMA ήταν η πρώτη μουσική ιστοσελίδα υψηλής πιστότητας, και φιλοξενούσε χιλιάδες εγκεκριμένα μουσικά κομμάτια πριν το MP3 ή ο παγκόσμιος ιστός γίνουν δημοφιλή.
[Επεξεργασία] Internet
Από το πρώτο μισό του 1995 έως και τα τέλη της δεκαετίας του 1990, αρχεία MP3 άρχισαν κυκλοφορούν ευρέως στο Ιντερνετ. Η επιτυχία του MP3 οφειλόταν κυρίως στην επιτυχία εταιριών λογισμικού και των προγραμμάτων τους όπως το Winamp της Nullsoft (που κυκλοφόρησε το 1997), το mpg123 και το Napster (που κυκλοφόρησε το 1999). Αυτά τα προγράμματα έκαναν για τον απλό χρήστη πολύ εύκολη την διαδικασία της αναπαραγωγής, δημιουργίας, μοιράσματος και της συλλογής MP3 αρχείων.
Αντιπαραθέσεις που είχαν να κάνουν με την ανταλλαγή αρχείων ΜΡ3 μέσω δικτύων peer-to-peer είναι συνηθισμένες τα τελευταία χρόνια, κυρίως επειδή η υψηλή συμπίεση που επιτυγχάνει επιτρέπει το μοίρασμα και ανταλλαγή αρχείων που σε άλλη περίπτωση θα ήταν πολύ μεγάλα και ογκώδη (σε χώρο που απαιτούν ως δεδομένα) για να μοιραστούν εύκολα. Κάποιες μεγάλες δισκογραφικές εταιρείες αντέδρασαν υποβάλοντας μυνήσεις εναντίον της εταιρείας Napster, λόγω της μεγάλης διάδοσης των MP3 μέσω του Ιντερνετ, για να προστατεύσουν τα πνευματικά τους δικαιώματα. (Δείτε επίσης και τον όρο πνευματική ιδιοκτησία)
Οι εμπορικές online υπηρεσίες πώλησης μουσικής (όπως το Online μαγαζί της Apple iTunes) συνήθως προτιμούν άλλους τύπους αρχείων οι οποίοι υποστηρίζουν το DRM (Digital Rights Management, διαχείρηση ψηφιακών δικαιωμάτων), για να ελέγξουν και να περιορίσουν την χρήση της ψηφιακής μουσικής. Η χρήση αυτών των τύπων αρχείων που υποστηρίζουν το DRM είναι μία προσπάθεια να αποτραπεί η παραβίαση υλικού το οποίου τα δικαιώματά του είναι προστατευμένα, αλλά υπάρχουν διάφοροι μέθοδοι για την παραβίαση των περισσότερων μεθόδων προστασίας. Τέτοιες μέθοδοι είναι παράνομες σε πολλές χώρες. Μερικές όμως online υπηρεσίες πώλησης μουσικής (όπως το eMusic και το DJTunes.com) χρησιμοποιούν τον τύπο MP3, κυρίως λόγω της συμβατότητας με τα φορητά συστήματα αναπαραγωγής μουσικής (τα λεγόμενα MP3 players).
[Επεξεργασία] Κωδικοποίηση Ήχου
Το πρώτυπο MPEG-1 δεν συμπεριλαμβάνει ακριβείς προδιαγραφές για έναν κωδικοποιητή MP3. Από την άλλη μεριά ο αλγόριθμος και η μορφή του αρχείου, ορίζονται ικανοποιητικά. Όσοι υλοποιούν το πρότυπο θεωρείται οτι θα επινοήσουν δικούς τους αλγόριθμους ικανούς να αφαιρέσουν μέρη της πληροφορίας στον αρχικό κομμάτι ήχου. Ως αποτέλεσμα, υπάρχουν πολλοί διαφορετικοί κωδικοποιητές MP3, ο καθένας από τους οποίους δημιουργεί αρχεία διαφορετικής ποιότητας. Συγκριτικές δοκιμές είναι διαθέσιμες ευρέως, ωστε είναι εύκολο για έναν πιθανό χρήστη ενός κωδικοποιητή να αναζητήσει την καλύτερη επιλογή. Πρέπει εδώ να σημειωθεί ότι ένας κωδικοποιητής που έχει δυνατότητα να δημιουργεί αρχεία σε υψηλότερα bit rates (βλ. παρακάτω) (όπως ο LAME, που είναι ευρεώς διαδεδομένος για την κωδικοποίηση σε υψηλά bit rates) δεν είναι απαραίτητα τόσο καλός στην κωδικοποίηση με χαμηλότερους ρυθμούς bit rate.
[Επεξεργασία] Αποκωδικοποίηση Ήχου
Η αποκωδικοποίηση από την άλλη μεριά, είναι ένα προσεκτικά σχεδιασμένο πρότυπο. Οι περισσότεροι αποκωδικοποιητές είναι "σύμμορφοι με τη ροή των bits" (bitstream compliant), που σημαίνει ότι το αποσυμπιεσμένο αποτέλεσμα που παράγουν από κάποιο αρχείο MP3 θα είναι το ίδιο (μέσα σε ένα ανεκτό βαθμό στρογγυλοποίησης) όπως το αποτέλεσμα που ορίζεται μαθηματικά από το έγγραφο του προτύπου ISO/IEC [1]. Το αρχείο MP3 έχει μία σταθερή μορφή που αποτελείται από 384, 576 ή 1152 δείγματα (ανάλογα με την έκδοση και το επίπεδο του MPEG) και όλα τα "πλαίσια", έχουν σχετική πληροφορία στην κεφαλίδα (32 bit) και την υπόλοιπη πληροφορία (9, 17, ή 32 bytes, ανάλογα με την έκδοση του MPEG και αν είναι στερεοφωνικός ή μονοφωνικός ο ήχος). Η πληροφορία της κεφαλίδας και του υπόλοιπου μέρους βοηθά τον αποκωδικοποιητή να αποκωδικοποιήσει σωστά τα δεδομένα. Για αυτό τον λόγο οι αποκωδικοποιητές συγκρίνονται συνήθως με βάση την υπολογιστική τους απόδοση (δηλαδή πόση μνήμη και χρόνο από τον επεξεργαστή ενός υπολογιστή απαιτούν για την διαδικασία της αποκωδικοποίησης).
[Επεξεργασία] Ρυθμός Bit
Ο ρυθμός bit (bit rate) είναι κυμαινόμενος για τα αρχεία MP3. Ο γενικός κανόνας είναι ότι όσο μεγαλύτερο ρυθμό Bit έχει ένα αρχείο τόσο περισσότερη πληροφορία περιλαμβάνεται από τον αρχικό ήχο, και έτσι είναι ποιοτικότερο το αποτέλεσμα κατά την αναπαραγωγή. Στις πρώτες μέρες της κωδικοποίησης των MP3 χρησιμοποιούνταν σταθερός ρυθμός bit για όλο το αρχείο. Οι διαθέσιμοι ρυθμοί Bit για το MPEG-1 επιπέδου 3 είναι 32, 40 , 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 και 320 kbit/s, και οι διαθέσιμες συχνότητες δειγματοληψίας είναι 32, 44.1 και 48 Khz. Η πιο συνηθισμένη είναι αυτή των 44.1Khz (και κατα σύμπτωση είναι ίδια με αυτή του CD), ενώ τα 128Kbit έχει γίνει ο συνηθισμένος ρυθμός bit για ένα "αρκετά καλό" αποτέλεσμα. Αν και τα 192Kbit άρχισαν να γίνονται όλο και πιο δημοφιλή στα δίκτυα ανταλλαγής αρχείων (peer-to-peer), κυρίως λόγω της μεγαλύτερης διαθεσιμότητας σε ευρυζωνικές ταχύτητες Ιντερνετ. Το MPEG-2 και το ανεπίσημο MPEG-2.5 συμπεριλαμβάνουν πρόσθετους ρυθμούς bit 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160 kbit/δευτ και προσφέρουν και χαμηλότερες συχνότητες δειγματοληψίας (8, 11.025, 12, 16, 22.05 και 24 kHz)
Επίσης είναι δυνατό να χρησιμοποιηθούν κυμαινόμενοι ρυθμοί bit (Variable bit rates ή VBR). Τα αρχεία MP3 χωρίζονται σε "πλαίσια", κάθε ένα από τα οποία έχει το δικό του ρυθμό bit, και έτσι είναι δυνατό να αλλαχθεί δυναμικά ο ρυθμός καθώς το αρχείο κωδικοποιείται. Αυτή η τεχνική κάνει δυνατή τη χρήση περισσότερων bit για κομμάτια του ήχου με υψηλότερη δυναμική (περισσότερη κίνηση στον ήχο), και λιγότερα bit σε σημεία με μικρότερη δυναμική, βελτιώνοντας περισότερο την ποιότητα και μειώνοντας τον χώρο που απαιτείται για την αποθήκευσή τους. Για παράδειγμα, ένα μέρος που αποτελείται από καθαρούς τόνους μπορει να κωδικοποιηθεί στα 48Kbit/δευτ, καταλαμβάνοντας λιγότερο χώρο χωρίς κάποια εμφανή διαφορά, ενώ ένα μέρος που παίζεται από μια πλήρη συμφωνική ορχήστρα κωδικοποιείται στα 224Kbit/δευτ για να το αναπαραστήσει με μεγαλύτερη πιστότητα. Αν και αρχικά δεν γινόταν αυτό, πολλοί κωδικοποιητές χρησιμοποιούν αυτή την τεχνική σε μεγαλύτερο ή μικρότερο βαθμό.
Ρυθμοί bit εκτός του τύπου μέχρι και 640Kbit/δευτ μπορούν να επιτευχθούν με τον κωδικοποιητή LAME (χρησιμοποιώντας την επιλογή freeformat, δηλαδή, ελέυθερη μορφοποίηση) αλλά λιγότερα προγράμματα αναπαραγωγής μπορούν να παίξουν αυτά τα αρχεία. Ο Gabriel Bouvigne, ένας βασικός προγραμματιστής στην ανάπτυξη του LAME, παρείχε την παρακάτω πληροφορία σχετικά με το freeformat.
Το freeformat ΕΙΝΑΙ ΣΥΜΒΑΤΟ με το πρότυπο MP3. Οι αποκωδικοποιητές απαιτείται να μπορούν αν αποκωδικοποιήσουν μέχρι και τα 320Kb/δευτ, αλλά η αποκωδικοποίηση υψηλότερων ρυθμών bit δεν είναι απαραίτητη. Πρακτικά, αυτό σημαίνει ότι λίγοι αποκωδικοποιητές υποστηρίζουν παραπάνω από 320Kbit/δευτ.[2]
[Επεξεργασία] Ποιότητα ήχου
Επειδή το MP3 είναι μορφή αρχείου απωλεστικής συμπίεσης, είναι δυνατόν να παρέχει έναν αριθμό από διαφορετικές επιλογές για τους ρυθμούς bit που χρησιμοποιεί, δηλαδη τον αριθμό των bit κωδικοποιημένης πληροφορίας τα οποία αναπαρηστούν κάθε δευτερόλεπτο ήχου. Τυπικά, οι ρυθμοί αυτοί είναι μεταξύ των 128 και 320 kbit/δευτ. Αντίθετα ο ασυμπίεστος ήχος όπως αποθηκεύεται σε έναν ψηφιακό δίσκο (CD) έχει ρυθμό bit 1411.2 kb/ δευτ (16bit ανα δείγμα Χ 44100 δείγματα το δευτερόλεπτο Χ 2 κανάλια)
Αρχεία MP3 τα οποία κωδικοποιήθηκαν με μικρότερο ρυθμό bit σε γενικές γραμμές θα αναπαράγουν τον ήχο σε χαμηλότερη ποιότητα. Με πολύ χαμηλό ρυθμό bit, "Προϊόντα συμπίεσης" (δηλ. ήχοι που δεν υπήρχαν στον αρχικό ήχο) μπορεί να ακούγονται στην αναπαραγωγή. Ένα καλό παράδειγμα των προϊόντων συμπίεσης είναι τα χειροκροτήματα: είναι δύσκολο να συμπιεσθούν γιατί είναι εντελώς τυχαία και έχουν οξείς ήχους. Για αυτό τα προϊόντα συμπίεσης μπορεί να ακουστούν σαν κουδουνίσματα ή ηχώ που προηγείται του κανονικού ήχου.
Η ποιότητα επίσης έχει εξαρτάται και από την ποιότητα του προγράμματος κωδικοποίησης και την δυσκολία της μετατροπής του σήματος μου κωδικοποιείται (συμπιέζεται). Επειδή το πρώτυπο του MP3 δίνει αρκετή ελευθερία στου αλγόριθμους κωδικοποίησης, διαφορετικοί κωδικοποιητές μπορεί να αποφέρουν διαφορετικές ποιότητες, ακόμα και έχοντας παρόμοιους ρυθμους bit. Για παράδειγμα, σε μία δημόσια δοκιμή ακρόασης [3] τον Ιούλιο του 2003 που έγινε σε δύο κωδικοποιητές στα 128Kbps ο ένας πέτυχε 3,66 βαθμους σε κλίμακα 1 έως 5 ενώ ο άλλος μόλις 2,22.
Η ποιότητα είναι άμεσα συσχετιζόμενη με την επιλογή κωδικοποιητή και των παραμέτρων του. Ενώ με τους παλαιότερους κωδικοποιητές στα 128kbps η ποιότητα ήταν ανάμεσα στο ενοχλητικό και το ανεκτό, οι πιο καινούργιοι καταφέρουν να παρέχουν καλύτερη ποιότητα σε αυτούς τους ρυθμούς Bit [4], στατιστικά όχι με μεγάλες διαφορές από την ποιότητα που προσφέρει το AAC (τον διάδοχο του MP3 από τεχνικής απόψεως). Το 1998 όμως το MP3 στα 128Kbps παρείχε ποιότητα ανάλογη του AAC στα 96Kbps και του MP2 στα 192Kbps [5].
Το όριο στο οποίο το MP3 ακούγεται χωρίς να ξεχωρίζει από τον αρχικό ήχο, μπορεί να εκτιμηθεί περίπου στα 128Kbps χρησιμοποιώντας καλούς κωδικοποιητές σε ένα τυπικό κομμάτι μουσικής. Αυτό αποδεικνύεται από την καλή του απόδοση στην παραπάνω δοκιμή, αλλά πιθανώς κάποια συγκεκριμένα πιο "δύσκολα" κομμάτια να απαιτούν 192Kbps ή και περισσότερα. Όπως και με όλες τις μορφές απωλεστικής συμπίεσης, κάποια δείγματα δεν είναι δυνατόν να κωδικοποιηθούν ωστε να μην γίνονται αντιληπτά από όλους τους χρήστες. Μια εναλλακτική απεικόνιση της κωδικοποίησης είναι η χρήση του VBR (κυμαινόμενου ρυθμού bit). Αυτό στοχεύει σε μια σταθερή ποιότητα ήχου και μεταβάλει ανάλογα τον ρυθμό Bit. Οι χρήστες που γνωρίζουν ότι κάποια συγκεκριμένη "ρύθμιση ποιοτητας" είναι "διαφανής" για τα αυτιά τους (δηλαδη δεν μπορούν να ξεχωρίσουν τη διαφορά μεταξύ αρχικού ήχου και MP3) μπορούν να χρησιμοποιούν αυτή τητ ρυθμιση σε όλα τα κομμάτια της μουσικής τους και δεν υπάρχει λόγος να ανησυχούν ότι χρειάζεται να κάνουν δοκιμές σε κάθε κομμάτι για να επιλέξουν τις κατάλληλες ρυθμίσεις. Σε χαμηλότερους ρυθμούς Bit η ποιότητα του MP3 πέφτει απότομα και είναι μακράν πίσω από την απόδοση της ποιότητας του AAC στα 32Kbps όπως φάνηκε σε μία ακουστική δοκιμή (06/2004) [6] Είναι επίσης σημαντικό να σημειωθεί ότι η αντίληψη της ποιότητας ενός κωδικοποιημένου ήχου μπορεί να επηρεαστεί από το περιβάλλον της ακρόασης (θόρυβος στο περιβάλλον), την προσοχή του ακροατή, και την εκπαίδευσή του (να έχει δηλαδη "ευαίσθητο αυτί" ωστε να κατανοεί τις διαφορές).
[Επεξεργασία] Δομή του αρχείου
Ένα αρχείο MP3 αποτελείται από πολλάπλά πλαίσια (frames) τα οποία αποτελούν την κεφαλίδα του αρχείου και τα δεδομένα. Αυτή η αλληλουχία από πλαίσια ονομάζεται στοιχειώδης ροή (elementary stream). Τα πλαίσια είναι αυτόνομα στοιχεία. Κάποιος θα μπορούσε να αφαιρέσει κάποια πλαίσια από το αρχείο και ένα προγραμμα αναπαραγωγής MP3 θα μπορούσε να το "παίξει". Τα δεδομένα του MP3 είναι το πραγματικό ωφέλιμο μέρος. Στο διάγραμμα φαίνεται οτι η κεφαλίδα του MP3 αποτελείται από μία "λέξη" συγχρονισμού η οποία χρησιμοποιείται για να προσδιορίσει την έναρξη ενός έγκυρου πλαισίου. Ακολουθεί ένα bit που επισημαίνει οτι αυτό είναι το πρότυπο MPEG και άλλα δύο Bit που επισημαίνουν οτι χρησιμοποιείται το επίπεδο 3, δηλαδή το MPEG-1 επιπέδου 3 ή πιο απλά MP3. Μετά από αυτό οι τιμές θα διαφοροποιούνται ανάλογα με το αρχείο MP3. Το πρότυπο ISO/IEC 11172-3 ορίζει το εύρος των τιμών για κάθε ενότητα της κεφαλίδας μαζί με την προδιαγραφή της κεφαλίδας. Τα περισσότερα αρχεία MP3 σήμερα περιέχουν μεταδεδομένα (metadata) τύπου ID3 που προηγούνται ή ακολουθούν τα πλαίσια του MP3. Αυτό φαίνεται και στο διάγραμμα.
[Επεξεργασία] Σχεδιαστικοί περιορισμοί
Υπάρχουν διάφοροι περιορισμοί οι οποίοι στους οποίους υπόκειται το αρχείο MP3 και δεν μπορούν να ξεπεραστούν από κανέναν κωδικοποιητή. Νεότερα πρότυπτα κωδικοποίησης όπως το Vorbis και το AAC δεν έχουν πια αυτούς τους περιορισμούς. Με τεχνικούς όρους, το MP3 περιορίζεται με τους παρακάτω τρόπους:
- Ο ρυθμός Bit περιορίζεται στο μέγιστο στα 320Kb/δευτ (παρόλο που κάποιοι κωδικοποιητές μπορούν να δημιουργήσουν αρχεία με υψηλότερους ρυθμούς υπάρχει πολύ μικρή ή καθόλου υποστήριξη για αυτά τα αρχεία.
- Η ανάλυση του χρόνου μπορεί να είναι πολύ χαμηλή για κάποια σήματα με υψηλές συχνότητες για μικρό διάστημα, προκαλώντας προβλήματα σε κάποιους κρουστικούς ήχους.
- Η ανάλυση των συχνοτήτων υπόκειται σε περιορισμους και αυτό περιορίζει την αποτελεσματικότητα της κωδικοποιήσης
- Για συχνοτητες πέραν των 15.5/15.8 Khz δεν υπάρχει συντελεστής κλίμακας.
- Το joint stereo επεξεργάζεται πλαισιο προς πλαίσιο
- Η καθυστέρηση της κωδικοποίησης/αποκωδικοποίησης δεν ορίζεται, το οποίο σημαίνει οτι υπάρχει έλλειψη επίσημης πρόβλεψης για αναπαραγωγή κομματιών χωρίς κενά ανάμεσά τους. Παρόλα αυτά κάποιοι κωδικοποιητές όπως ο LAME μπορούν να προσθέσουν επιπλέον "μεταδεδομένα" που επιτρέπου στα προγράμματα αναπραγωγής να γνωρίζουν για αυτό και να προσφέρουν αναπαραγωγή χωρίς κενά.
Παρόλα αυτά, ένας καλά ρυθμισμένος κωδικοποιητής μπορεί να αποδώσει ανταγωνιστικά ακόμα και με αυτούς τους περιορισμούς
[Επεξεργασία] ID3 και άλλες ετικέτες
Δείτε επίσης και τα άρθρα ID3 και APEv2
Μία ετικέτα μέσα σε ένα συμπιεσμένο αρχείο ήχου, είναι μια ενότητα του αρχείου που περιέχει μεταδεδομένα (metadata) όπως ο τίτλος, ο καλλιτέχνης, το άλμπουμ, ο αριθμός του τραγουδιού και άλλες πληροφορίες που σχετίζονται με το τραγούδι. Μέχρι το 2006, οι πιο διαδεδομένοι τύποι μορφών ετικετών είναι οι ID3v1 και ID3v2, και πρόσφατα παρουσιάστηκε το APEv2. Το APEv2 αρχικά είχε αναπτυχθεί για το αρχείο τύπου MPC (δείτε και τα χαρακτηριστικά του APEv2). Η ετικέτα APEv2 μπορεί να συνυπάρχει μαζί με τις ετικέτες ID3 στο ίδιο αρχείο, αλλά μπορεί επίσης να χρησιμοποιηθεί και αυτόνομα. Η δυνατότητα επεξεργασίας των ετικετών στα αρχεία MP3 είναι συχνά ενσωματομένη στα προγράμματα αναπαραγωγής και επεξεργασίας MP3, αλλά υπάρχουν και προγράμματα ειδικά για την επεξεργασία των ετικετών, με περισσότερες δυνατότητες, όπως η μαζική αλλαγή ετικετών σε πολλά αρχεία, ή η αντιγραφή μέρος του ονόματος ενός αρχείου σε κάποια ετικέτα και αντίστροφα.
[Επεξεργασία] Εξομάλυνση Έντασης ήχου
Επειδή η ψηφιακοί δίσκοι (CD) και άλλες πηγές ηχογραφούνται και παράγονται σε διαφορετικές εντάσεις ήχου, είναι χρήσιμο να αποθηκεύεται η πληοροφορία της έντασης του ήχου ενός αρχείου στην ετικέτα ωστε κατά την διάρκεια της αναπαραγωγής, η ένταση του ήχου να μπορεί να ρυθμίζεται δυναμικά.
Εχουν προταθεί μερικά πρότυπα για την κωδικοποίηση της αύξησης του ήχου ενός MP3. Η ιδέα είναι να εξομαλυνθεί η μέση ένταση ενός αρχείου ήχου (όχι οι απότομες αλλαγές της), έτσι ώστε η ένταση να μην αλλάζει μεταξύ των συνεχόμενων κομματιών. Αυτό δεν πρέπει να συγχέεται με την δυναμική συμπίεση ορίων (DRC, dynamic range compression) η οποία είναι μία μορφή εξομάλυνσης ήχου που χρησιμοποιείται κατά την διάρκεια παραγωγής μουσικής.
Η πιο δημοφιλής και διαδεδομένη λύση για την αποθήκευση της αύξησης του ήχου κατά την αναπαραγωγή είναι απλά γνωστή ως "Replay Gain" (αύξηση ήχου στην αναπαραγωγή). Συνήθως, η μέση ένταση και η πληροφορία αύξησης ή μείωσης της για το κομμάτι του ήχου αποθηκεύεται στην ετικέτα που περιέχει τα μεταδεδομένα (metadata tag)
Κάποιος χρήστης μπορεί κατεβάσει λογισμικό από το ίντερνετ για να κάνει αλλαγές του είδους.
[Επεξεργασία] Θέματα ευρεσιτεχνιών και αδειοδότησης
Ένας μεγάλος αριθμός οργανισμών διεκδίκησε την ιδιοκτησία των ευρεσιτεχνιών που απαιτούνται για την υλοποίηση του προtύπου MP3 (κωδικοποίηση ή/και αποκωδικοποίηση). Αυτές οι διεκδικήσεις οδήγισαν σε έναν αριθμό νομικών μέτρων, και νομικών απειλών, από διάφορες πηγές, έχοντας ως αποτέλεσμα στην αβεβαιότητα σχετικά με το τί είναι απαραίτητο για να παραχθούν προϊόντα που υποστηρίζουν το MP3 και να είναι νόμιμα, σε χώρς που επιτρέπουν τις ευρεσιτεχνίες λογισμικού.
Οι διάφορες ευρεσιτεχνίες που διεκδικούνται από πολλούς κατόχους τους, έχουν και διαφορετικές ημερομηνίες λήξης, οι οποίες βρίσκονται ανάμεσα στο 2007 και το 2017 στις ΗΠΑ. Όμως, οι ευρεσιτεχνίες στις ΗΠΑ μπορούν να διαρκέσουν μέχρι 20 χρόνια, και οι προδιαγραφές του MP3 παρουσιάστηκαν το 1991, οπότε αν τα δικαστήρια των ΗΠΑ εφήρμοζαν το νόμο, καμία ευρεσιτεχνία δεν θα μπορούσε να υφίσταται για το MP3 πέρα από το 2011. Στις ΗΠΑ οποιαδήποτε ευρεσιτεχνία διεκδικεί την κάλυψη των βασικών χαρακτηριστικών του MP3 μετά το 2012 θα πρέπει (σύμφωνα με το νόμο) να απορριφθεί ως μη ισχύουσα ευρεσιτεχνία, εξ' αιτίας του ότι ήδη έχουν εκδοθεί οι προδιαγραφές περισσότερο από ένα χρόνο από την κατάθεσγ της ευρεσιτεχνίας. Αν έχει εκδοθεί ακόμα νωρίτερα (όπως για παράδειγμα σε δημόσια προσχέδια), η τελευταία ημερομηνία θα είναι ακόμα νωρίτερα. Παρόλα αυτά, είναι ασαφές αν τα δικαστήρια των ΗΠΑ θα το επιβάλουν αυτό. Η κατάσταση σε άλλες χώρες που επιτρέπουν ευρεσιτεχνίες λογισμικού είναι παρόμοια.
Η εταιρεία Thomson Consumer Electronics διεκδικεί τηνα δειοδότηση των ευρεσιτεχνιών του MPEG-1/2 Layer 3 σε πολλές χώρες συμπεριλαμβανομένων και των ΗΠΑ, Ιαπωνίας, Καναδά και των χωρών της Ευρωπαϊκής ένωσης. Η Thompson επιβάλει ενεργά αυτές τις ευρεσιτεχνίες. Λόγω των διαφορετικών πρακτικών στις χώρες της Ευρώπης όταν κατοχυρώνουν ευρεσιτεχνίες για εφευρέσεις που υλοποιούνται με υπολογιστές με βάση την Ευρωπαϊκή σύμβαση ευρεσιτεχνιών, είναι ασαφές αν τα Εθνικά δικαστήρια μπορούν να υπεραμυνθούν αυτών των ευρεσιτεχνιών.
Για πρόσφατες πληροφορίες σχετικά με το ίδρυμα Fraunhofer και τις ευρεσιτεχνίες της Thomson όπως και για τους όρους αδειοδότησης και τα τέλη χρήσης, δείτε την ιστοσελίδα τους mp3licensing.com. Η άδειες για το MP3 απέφεραν έσοδα €100 εκ. για τo Ινστιτούτο Fraunhofer το 2005.
Το Σεπτέμβριο του 1998 το Ινστιτούτο Fraunhofer έστειλε μία επιστολή σε αρκετούς παραγωγούς λογισμικού για MP3 δηλώνοντας ότι απαιτείτο άδεια για την "διανομή ή/και πώληση κωδικοποιητών ή αποκωδικοποιητών". Η επιστολή ανέφερε ότι "μη αδειοδοτημένα προϊόντα παραβιάζουν τα δικαιώματα των ευρεσιτεχνιών του Ιδρύματος και της Thomson. Για την παραγωγή, πώληση ή/και διανομή προϊόντων που χρησιμοποιούν το πρότυπο MPEG Layer-3, απαιτείται να αποκτήσετε άδεια για τη χρήση αυτών των ευρεσιτεχνιών από εμάς". [7]
Τα θέματα αυτά σχετικά με τις ευρεσιτεχνίες καθυστέρησαν αρκετά την ανάπτυξη ελευθερου λογισμικού (χωρίς άδεια για χρήση δηλαδή) και εστίασαν περισσότερο το ενδιαφέρον για τη δημιουργία και την προώθηση ως πιο δημοφιλή εναλλακτικών μορφών αρχείων και κωδικοποίησης όπως το WMA και το Ogg Vorbis. Η Microsoft δημιουργός των λειτουργικών συστημάτων Windows, επέλεξε να αποχωριστεί από το MP3 και να δημιουργήσει τη δικό της "ιδιωτική" μορφή Windows Media για να αποφύγει θέματα αδειοδότησης που είχαν σχέση με τις ευρεσιτεχνίες. Μέχρι να λήξουν οι προθεσμίες των ευρεσιτενχιών, προγράμματα κωδικοποίησης και αναπαραγωγής δημιουργούν θέματα παραβίασης δικαιωμάτων σε όσες χώρες αναγνωρίζονται αυτές οι ευρεσιτεχνίες.
Παρόλους τους περιορισμούς λόγω ευρεσιτεχνιών, η διαιώνιση της μορφής MP3 συνεχίζεται. Οι λόγοι για τους οποίους το MP3 είναι τόσο δημοφιλές φαίνεται να είναι οι εξής:
- Η οικειότητα με την μορφή του αρχείου.
- Η μεγάλη ποσότητα μουσικών αρχείων που είναι διαθέσιμες στην μορφή αυτή.
- Η μεγάλη ποικοιλία ήδη διαθέσιμου λογισμικού και υλικού που εκμεταλλεύεται τη συγκεκριμένη μορφή αρχείου
- Η έλλειψη περιορισμών που έχουν να κάνουν με ψηφιακά δικαιώματα (μουσικής), που κάνει τα αρχεία MP3 εύκολα να επεξεργαστούν, να αντιγραφούν και να διανεμηθούν μέσω δικτύου
- Η πλειοψηφία των οικιακών χρηστών οι οποίοι δεν γνωρίζουν ή δεν ενδιαφέρονται για τη διαμάχη των ευρεσιτεχνιών, και που συχνά δεν εξετάζουν τέτοια ζητήματα όταν επιλέγουν τη μορφή μουσικού αρχείου που θα χρησιμοποιήσουν για προσωπική χρήση.
Εν συντομία, η Thomson το ινστιτούτο Fraunhofer, η Sisvel (καθώς και η θυγατρική της στις ΗΠΑ Audio MPEG), η Texas MP3 Technologies, και η Alcatel-Lucent διεκδικούν τον νομικό έλεγχο όλων των σχετικών με το MP3 ευρεσιτεχνιών the legal status of MP3 remains unclear in countries that permit software patents.