ويكيبيديا:مشاريع ويكي/اتصالات
من ويكيبيديا، الموسوعة الحرة
[تحرير] MPEG
الفصل الأول :
1-1- مقدمة عن النظام التلفزيوني : يعرف النظام التلفزيوني من الناحية العملية على أنه طريقة إرسال و استقبال الصور المرئية والمتحركة بأمانة من مكان إلى آخر بعيد بواسطة الأمواج الراديوية . يقوم مبدأ إرسال الصور على تحويل الأشعة الضوئية المنعكسة عن مختلف أجزاء الصور بوساطة الكاميرا إلى إشارات كهربائية . 1-1-1- زاوية الرؤية(α ) : زاوية الرؤية الحدية الأصغرية (1 = α) دقيقة , الشكل ( 1-1 ).
الشكل ( 1-1 ). الزاوية المثلى لرؤية صورة كاملة من مسافة 4m هي 40́́ ,8 ˚=Φ
-انطباع النظر (خاصة المداومة):
خاصية تجعل انطباع ومضة الضوء على العين تستمر لفترة وجيزة ( حوالي 16/1 من الثانية ) بعد زوال الومضة نفسها. -1-1-2 ظاهرة الارتعاش : وتنتج عن تتالي الصور (إضاءة – تعتيم ) حيث ينشأ التعتيم في المسافة الفاصلة بين صورتين متتاليتين ويبلغ زمن التعتيم حوالي (1000/1) من الثانية . 1-3-1- الطريقة المتبعة في إرسال الصور التلفزيونية : تم تقسيم الصورة إلى خطوط (شرائح) أفقية يتم مسحها من أعلى الصورة من اليسار حتى أسفل الصورة إلى اليمين . -F العدد الأدنى لخطوط المسح:
الشكل ( 2-1 ) طريقة المسح بشكل عام. 2-1- أنواع المسح :
-1-2-1 المسح المتتالي:
تتم عملية مسح الصورة خط وراء خط وصولا إلى الخط الأخير الذي
ينتهي بالأسفل وعلى الطرف الأيمن من الشاشة , ولكن لهذا المسح سيئة وهي ظاهرة الارتعاش.
الشكل ( 3-1 ) المسح المتتالي .
1-2-2- المسح المتشابك : للتغلب على ظاهرة ارتعاش الصورة تم اعتماد تجميع الصورة عن طريق الحقول المتشابكة , أي يتم أولاً مسح الخطوط الفردية بالصورة ومن ثم الخطوط الزوجية , بحيث كل صورة مشكلة من الخطوط الفردية أو الزوجية تسمى حقلاً . وهكذا يبدأ مسح الحقل الفردي ببداية خط وينتهي بوسط خط , بينما في حالة مسح الحقل الزوجي فيبدأ بوسط الخط وينتهي مع نهاية الخط . أي كل حقل له (312.5) خط , وكل صورة مشكلة من حقلين .
الشكل ( 4-1 ) – الحقلان الفردي و الزوجي في المسح المتشابك.
الشكل ( 5-1 ) .تيارات سن المنشار التحكمية في انبوب الأشعة المهبطية في الشاشة . هنا تم مضاعفة تردد عرض الصور وذلك بمسح كل صورة على حقلين , بحيث يبقى فيها عدد خطوط المسح 625 خطاً .
لذلك فإن: التردد العمودي : fv = 25×2 = 50Hz التردد الأفقي : fH = 625×25 = 15625 Hz
تم الاتفاق على أن تكون الصورة التلفزيونية مستطيلة :
نسبة الشكل (عرض : ارتفاع ) = 3:4
الشكل ( 6-1 ) نسبة العرض إلى الإرتفاع في شاشة التلفزيون . بافتراض أن الخطوط تقسم لتفاصيل حسب عرض الخط وبالتالي : التفاصيل الرأسية :625 تفصيل . التفاصيل الأفقية : 833= 625 × 3/ 4 . عدد التفاصيل في كل صورة هي:
520625=625 × 833 وفي الثانية بمعدل 25 مرة أي حوالي 13 مليون تفصيل لكل صورة.
3-1-عناصر الإشارة المرئية المركبة : 1- إشارة الكاميرا . 2- نبضات الإطفاء . 3- نبضات التزامن .
الشكل ( 6-1 ) عرض حزمة إشارة الفيديو
حالة صورة مؤلفة من سلسلة من التفاصيل المتناوبة بين الأبيض و الأسود فقط ( قفزات حادة) . فالإشارة تأخذ شكل موجة مربعة ويكون لها التردد التالي :
الشكل ( 7-1 ) . يرسل الصوت على موجة حاملة غير الموجة الحاملة للصورة . الفرق بين الموجة الحاملة للصورة و الموجة الحاملة للصوت هي : 5.5MHz العرض الكلي للقناة التلفزيونية هو: 7MHz .
الشكل ( 8-1 ) . - تعدل الموجة الحاملة للصوت تعديل FM , و الموجة الحاملة للصورة تعديل AM . 4-1- أنواع التعديل : التعديل السلبي : تسلط الإشارة التلفزيونية على المهبط . التعديل الإيجابي : تسلط الإشارة التلفزيونية على الشبكة الحاكمة .
الشكل ( 9-1 ) التعديل الإيجابي و التعديل السلبي.
5-1-التلفزيون الملون : COLOR TV
مبدأ التلفزة الملونة . الإشارة التلفزيونية الملونة . مبدأ مزج الألوان . استنتاج إشارة النصوع Y ( الإضاءة ) استنتاج إشارتي الفرق اللوني (B-Y) , (R-Y) . طريقة إرسال إشارتي النصوع والألوان . الرشقة اللونية . 1-5-1- مبدأ التلفزة الملونة: يعتمد مبدأ التلفزة الملونة على و ضع مرشحات بصرية أمام المنظر المتلفز , و ذلك ضمن الكاميرا , و بعد ذلك مرشحات لونية تقوم بتمرير الاشارات اللونية الخاصة بالألوان الأساسية بالنسبة للصورة , و ذلك من أجل اللون الأحمر و الأخضر و الأزرق . و بذلك نحصل على ثلاث اشارات لونية موافقة .
الشكل ( 10-1 ) : ( Chrominance) الإشارة التلوينية ( C )
Luminance ) ) : إشارة النصوع ( Y )
2-5-1- الإشارة التلفزيونية الملونة :
إن الصورة التلفزيونية الملونة المرسلة عبر هوائيات الإرسال تحتوي على المعلومات التالية : 1- إشارتي الفرق اللوني (B-Y) , (R-Y). 2- إشارة النصوع Y ( الإضاءة ) :
3-5-1- مبدأ مزج الألوان :
الشكل ( 11-1 ) مبدأ مزج الألوان . استنتاج إشارة النصوع Y ( الإضاءة ) و إشارتي الفرق اللوني (B-Y) , (R-Y) .
الشكل ( 12-1 ) منحني حساسية العين. من الشكل السابق نجد أن : S=0.92 + 0.47 + 0.17 S= 1.56
- Sإضاءة اللون الأبيض
Lr : إضاءة اللون الأحمر Lr = 0.47/1.56 = 0.30 Lg : إضاءة اللون الأخضر Lg = 0.92/1.56 = 0.59 Lb: إضاءة اللون الأزرق Lb = 0.17/1.56 = 0.11 وبجمع إضاءة الألوان الثلاث الأساسية نحصل على إشارة النصوع ( الإضاءة ) Y : Y = Lr + Lg + Lb Y = 0.3R + 0.95G + 0.11B
الشكل ( 13-1 ) تشكيل اشارات النصوع و الفرق اللوني. R = (R-Y) + Y , B = (B-Y) + Y , G = (G-Y) + Y أما سبب اختيار الإشارتين (B-Y) , (R-Y) كإشارات فرق لوني , وعدم اختيار(G-Y) فيمكن توضحيه من خلال المعادلات التالية : Y = 0.3R + 0.95G + 0.11B R-Y = 0.7R – 0.59G – 0.11B G-Y = -0.3R + 0.41G – 0.11B B-Y = -0.3R – 0.59G + 0.89B 4-5-1- طريقة إرسال إشارتي النصوع والألوان: الشكل ( 14-1 ) توزع الاشارات على عرض الحزمة المسموحة.
الشكل ( 15-1 )
الشكل ( 16-1 ) اشارة الفيديو المركبة . 5-5-1- الرشقة اللونية : هي عبارة عن 8- 11 نبضة تتوضع في الرواق الخلفي لنبضة الإطفاء الأفقية و تأخذ حوالي 2.3 ميكرو ثانية , و تستخدم من أجل مزامنة المذبذب اللوني في جهاز الاستقبال .
الشكل ( 17-1 ) الرشقة اللونية . 6-1- أنظمة التلفزيون الملون الأساسية: 1-6-1- النظام الأمريكي NTSC: National Television System Committee تم وضع النظام الأمريكي NTSC من قبل هيئة الاتصالات الفيدرالية الأمريكية في عام 1953 , و يعتبر هذا النظام هاماً لأنه أساس لباقي الأنظمة الأخرى , بالإضافة لظهور الشاشة ثلاثية الألوان مع هذا النظام . يبين الشكل التالي مخططاً مبسطاً لمراحل الترميز . حيث يتم فصل الإشارة القادمة من الكاميرا , إلى كل من إشارة النصوع Y و إشارتي U و V (التين تمثلين إشارتي الفرق اللوني للونين الأزرق و الأحمر ) , يتم تمرير إشارة النصوع مباشرة إلى جامع . أما إشارتا الـ U و V فنمرر كل منهما على مرشح تمرير منخفض , لتمرير الترددات المسموحة . ثم تؤثر على حامل مولد من هزاز 3.58 MHz , فتعدله مطالياَ AM , و يكون فرق الصفحة بالنسبة للإشارة V مزاحاً بمقدار 90ْ عن إشارة الـ U , ثم تمرر جميعها عبر جامع يقوم بتشكيل الإشارة الصبغية C , التي بجمعها مع إشارة النصوع نحصل على الإشارة المركبة Vcc ( ركزنا هنا على طريقة إرسال الإشارات اللونية مع عدم إغفال إرسال إشارات التزامن و الرشقة الضرورية في طرف الاستقبال ) .
الشكل ( 18-1 ) مرسل الـ NTSC أما بالنسبة للاستقبال , يتم التقاط الإشارة المركبة Vcc , و توليفها عن طريق الناخب و تمرر على عدة مضخمات و يفصل عنها الصوت , ثم تمرر إشارات اللون على مرشحات مناسبة لاستخلاص إشارات النصوع و الفرق اللونية , ثم تجمع إشارة النصوع مع إشارات الفرق اللونية فنحصل على الإشارات اللونية الأساسية .
الشكل ( 19-1 ) مستقبل الـ NTSC
2-6-1- النظام الأوربي PAL Phase Alternated Line استخدم هذا النظام في ألمانيا الغربية و غيرها من أجل التخلص من الحساسية العالية لتشوه الطور التفاضلي في NTSC . يبين الشكل التالي مخططا مبسطا لمرسل PAL , حيث تدخل الإشارات اللونية الناتجة عن كاميرة تصوير ملونة على مصفوفة نستنتج منها إشارة النصوع و إشارات الفرق اللوني للونين الأزرق و الأحمر . ترسل إشارة اللون الأزرق مباشرة بينما إشارة اللون الأحمر فترسل بفرق طور 270 أو 90 درجة على التناوب . ثم تدخل جميع هذه الإشارات مع إشارة الصوت و إشارة الرشقة اللونية و إشارات التزامن إلى دارة جامع لإرسالها .
الشكل ( 20-1 ) مرسل PAL مستقبل PAL : هنا تتم العمليات المعاكسة للعمليات في طرف الاستقبال لاستخلاص الإشارات اللونية الأساسية .
الشكل ( 21-1 ) مستقبل PAL
3-6-1- النظام الفرنسي SECAM Sequence de Coaleurs Avec Memoire يتم في هذا النظام تعديل إشارات الفرق اللونية تعديلا تردديا بحاملين مختلفين حيث يكون تردد الحامل للون الأزرق fbo=4.25MHz , بينما يكون التردد الحامل للون الأحمر fro =4.40MHz . مع ملاحظة أنه هنا يتم إرسال إشارة النصوع بشكل مستمر بينما إشارات الفرق اللونية ترسل على التناوب .
الشكل ( 22-1 ) مرسل SECAM
الشكل ( 23-1 ) مستقبل SECAM
7-1- التلفزيون الرقمي : من أجل معالجة الصور رقميا كان لابد من تبديل الشكل التشابهي للصورة إلى الشكل الرقمي , و يتم ذلك عن طريق إجراء عملية أخذ العينات ثم تطبيق عملية التكميم فالتشفير . تحدد الصورة الرقمية عادة عن طريق الرمز الثلاثي P.L.N . حيث , P عدد نقاط الصورة في كل خط , L عدد الخطوط في الصورة , N عدد الألوان الرمادية الناتجة . 1-7-1- فوائد التحويل الرقمي : 1- التوفير من ناحية المعلومات غير الضرورية و إمكانية إضافة أقنية إضافية . 2- إمكانية تحسين مميزات الصورة المعالجة . 3- إمكانية الاستفادة من التقنيات الرقمية الحديثة . 8-1- لماذا الضغط ؟ إن عملية تحويل صور الفيديو إلى الشكل الرقمي يُفرزُ مشكلةَ رئيسيةَ و هي أن صور الفيديو الرقميةُ غير المضغوطة تأخذ كميات هائلة مِنْ المعلومات (البتات) , و بالتالي ستستهلك حجماَ كبيرا من الذاكرة لتخزينها . لذلك تعتبر قضية الضغط قضية جوهرية بالنسبة لملفات الفيديو، فيكفي أن نعلم أن القرص المدمج CD المتوافر بين أيدينا اليوم لا يكفي لتخزين خمسة دقائق من الفيديو غير المضغوط ، و هذا بدون صوت!! لذلك فإن قضية ضغط الصور و الفيديو حازت على اهتمام كبير من المجتمع التقني ، و وضعت العديد من الخوارزميات لهذا الهدف ، و أحد أهم هذه المعايير في وقتنا الحاضر مجموعة MPEG التي نجحت بتقليل كمية المعلومات الممثلة لمشاهد الفيديو دون تأثير ملحوظ في دقة المشاهد. 9-1- الـ MPEG :
MPEG مجموعة خبراء الصور المتحركة , وهي تدل على الأحرف الأولى من الجملة "Moving Pictures Experts Groups" , و هي مؤسسة بحد ذاتها كما يبدو من اسمها, والمعنى الحقيقي للمعيار MPEG هو تمثيل إشارات الصوت و الصورة الرقمية بشكل مضغوط ( أي بحجم أقل ) . تأسست في عام 1988 و وضعت العديد من المعايير كان أولها معيار MPEG-1 و هو أساس للمعايير اللاحقة حيث شكل نقلة نوعية في عالم الفيديو الرقمي و جعل التفكير بالتلفزيون الرقمي -أنذالك- فكرة مشروعة.
الفكرة الأساسية تكمن في تخفيض الحجم ( يتم تمثيل الفيديو بسلسلة من البتات ) بحيث تأخذ حيزاً أقل , مع الحفاظ على جودة الإشارة المستقبلة . إن التقدم الحالي في التكنولوجيا الرقمية أدت إلى استخدامات واسعة لإشارات الفيديو الرقمية المضغوطة بشكل عملي . إن توحيد المعايير كان هاما جدا في عملية تطوير طرق الضغط المعروفة , لتكون مستخدمة في الخدمات الحديثة و المنتجات المتاحة . و هذا يسمح للخدمات الحديثة لتتعامل مع بعضها بسهولة أكثر , و تشجيع الاستثمارات التي تتطلبها الدارات المتكاملة و تصنيع الشرائح المطلوبة . ونتيجة للأبحاث التي أجريت , تمت صياغة عامة لنظرية التقنية على ثلاثة أجزاء : الجزء الأول : الأنظمة . الجزء الثاني : الفيديو ( الصورة ). الجزء الثالث : الصوت . الـ MPEG هو معيار ضغط للفيديو من أجل التطبيقات الوسائط المتعددة. و السؤال الذي نطرحه هنا:
كيف تنتج الـ MPEG البيانات بذلك الكم دون التأثير على جودة الصورة ؟
الحركة في صور التلفزيون و السينما تنتج بالحقيقة عن طريق إظهار سلسلة من الصور الساكنة بتعاقب سريع , كل صورة تتغير بشكل صغير جداً عن الصورة السابقة لها . هناك الكثير من التكرار , الأجزاء التي تكرر لا تحتاج لأن تحفظ أو ترسل , لأنها تكون موجودة في الصورة السابقة . تقنيات ضغط الفيديو ظهرت بالتوازي مع تقنيات ضغط الصور " من منطلق أن الفيديو مجموعة من الصور المتتابعة " و عملية ضغط الصور عادة تعتمد على تخفيض التكرار للعناصر اللونية، و يتم ذلك عن طريق إرسال الفرق اللوني بين كل عنصرين Pixels" " بدلاً من إرسال المعلومات اللونية كاملة . و هذه الخطة تبدو جيدة حيث أنه في أغلب مساحة الصورة سيكون هنالك تدرج لوني و ستكون هذه "الفروق اللونية" كميات صغيرة في أغلب الأحيان.
1-9-1- ما قبل التقنية MPEG: قبل ظهور التقنية MPEG , كانت هناك مخاوف تتمثل في سيطرة بعض الشركات أو المؤسسات على التقنيات و احتكارها, و بوجود هذا التهديد مصممو الـ MPEG فكروا في تشكيل لجنة لتوحيد الطرق الشائعة لتمثيل الفيديو و الصوت على القرص المضغوط و ربما تكون مفيدة للتطبيقات الرقمية الأخرى أيضا . استعانت MPEG بشكل كبير بالـ JPEG و بشكل أكثر تحديدا بـ H.261 . إن الـ MPEG أصبحت شيئا مهما جدا, فهي تتويج لجهود شراكة تجمع أكثر من 200 شخص عام 1992 . بنهاية العام (1990) طبقت هذه التقنية لتمثيل الفيديو SIF و الصوت بمعدل 1.5 Mbit/sec , و كان هذا انجازاً. بعد التجربة, أثبت المعيار أنه كافي بشكل عام لتمثيل البيانات (الفيديو) بمعدل أعلى من الهدف الأساسي. الخطوة الثانية MPEG-2 كانت قد أطلقت من قبل اللجنة لتعريف المعيار الفعال لتمثيل الفيديو المبثوث أو الـSDTV (Standard Definition Television) , وكان لها تأثير على الحياة الاجتماعية و العملية , الأصدقاء , أمن العمل , المحادثات و النقاشات التي تدور في المؤتمرات . مع ذلك فإن تمثيل إشارات بث الفيديو المتشابك , كان أكثر تحديا من تمثيل الإشارات التتابعية غير المتشابكة فيMPEG-1 . (MPEG-4) كان قد أطلق في أواخر عام 1992 لتلبية متطلبات مجموعة متنوعة من التطبيقات . و بالرغم من أن أهدافها بدت مشابهة جدا لمجموعة ITU-T SG15 , التي قدمت معيار الهاتف المرئي ذو معدل البت المنخفض (videophone ) H.263. اليوم المعيار MPEG هو المعيار الحصري لمواصفات الاتحاد العملاقHDTV في الولايات المتحدة , و مجموعة البث التلفزيوني الرقمي الأوروبي , و الـ DVD . 2-9-1- فيديو MPEG: إن فيديو الـ MPEG يتيح طريقة فعالة لتمثيل سلاسل الصور على شكل بيانات مشفرة مضغوطة أكثر.
فعلى سبيل المثال , عدد صغير من الرموز , لنقل 100 بت , يمكن أن تمثل البلوك الكامل المكون من 64 عينة (التي عادة تستهلك 64×8 أو 512 بتاً ) , حتى أنك لن تلاحظ الاختلاف بينهما .
MPEG تصف أيضاً طريقة فك تشفير ( إعادة بناء ) البتات المضغوطة , حيث يعاد ترتيب ( صف ) البتات المشفرة إلى الشكل الأصلي لها , أي شكل الرتل لسلسلة الصورة , و كمثال على ذلك ( راية flag ) ضمن إشارات تدفق البتات المشفرة تدل فيما إذا البتات التالية يجب أن تفك شفرتها وفق خوارزمية الـ DCT أو وفق خوارزمية التنبؤ , إن الخوارزميات تحتوي عملية التشفير المنظمة وفق آلية محددة في الـ MPEG , هذه الطريقة يمكن أن تطبق لاستغلال خواص الفيديو المشتركة مثل الحيز الفائض و الزيادة الزمنية ( بالنسبة للحركة في الفيديو) , و الحركة المنظمة . و القناع المكاني " spatial masking ".....الخ.
3-9-1- أسطورة الـ MPEG:MPEG Myths لأن هذه التقنية جديدة وفي بعض الأحيان صعبة الفهم , فإن العديد من الخرافات تحول دون الفهم الحقيقي للـ MPEG : 1- معدلات الضغط أعلى من 100:1 مقالات عديدة في الصحف التجارية , تدّعي غالباً أن الـ MPEG يمكن أن يحقق نسبة ضغط للفيديو و بجودة عالية تصل إلى 100:1 .بينما في الحقيقة فإن العينات المحددة في سلسلة صور الـ MPEG عادة لاتصل إلى نسبة أعلى من 30:1 . 2- الـ MPEG هي من قياس 352×240 : كل من مبدأي الـ MPEG 1 و MPEG-2 يمكن أن يطبقا على مجال عريض من معدل البتات أو معدل العينات . الـ MPEG-1 المشهورة لدى معظم الناس لها بارامترات لـ 30 من صور الـ SIF أو " Source Input Format " ( 352 Pixels×240Lines ) في الثانية , و معدل بتات مشفرة أقل من 1.86 Mbits/sec. في الحقيقة , نظرياً من الممكن تشفير أبعاد الصورة إلى ارتفاعات تصل إلى 4095×4095 و بمعدل بتات يصل إلى 100 Mbit/sec . مع ظهور المعيار (MPEG-2) قسمت التركيبات إلى مستويات سيتم شرحها لاحقاً. المستويين الأكثر شيوعاً يعرفان على التوالي كما يلي : - صيغة مصدر الدخل "Source Input Format " (SIF) ذات الـ 352 pixels × 240 lines × 30 frames/sec و التي تدعى بالمستوي المنخفض. - "CCIR 601" (e.g. 720 pixels/line × 480 lines × 30 frames/sec) و التي تدعى بالمستوى الأساسي .
4-9-1- أجزاء وثائق الـ MPEG: MPEG document
MPEG-1 تعرف رسميا بـ ISO/IEC 11172 تقنية المعلومات – تشفير الصور المتحركة و الصوت المرافق لوسائط التخزين الرقمية بمعدل حوالي 1.5 Mbit/s , عام 1993 , تحتوي على تسعة أجزاء .كل وثيقة هي جزء من ISO/IEC 11172 :
الجزء الأول: الأنظمة
الجزء الأول من المعيار MPEG-1 له هدفين أوليين أساسيين : - تحديد معيار لنقل طرود تدفقات البتات للصوت و الصورة على الأقنية الرقمية و وسائط التخزين الرقمية . - تحديد معيار لتزامن مجرى الصوت و الصورة. الجزء الثاني: الفيديو يصف المعيار ( الموجه " header " و عناصر تدفق البتات" bitstream elements ") و الخوارزميات .
الفيديو يقسم سلسلة الصور إلى سلسلة من الطبقات المتشابكة" nested layers " , كل واحدة منها تحتوي على مجموعات من العينات ( سلسلة , صورة , قطعة " slice " , بلوك , ماكروبلوك , معامل /عينة " "sample/coefficient) . في كل طبقة توجد خوارزميات متاحة , يمكن أن تستخدم في التركيب لتحقيق ضغط فعال . المعيار MPEG أيضا يتيح عدد من الوسائل المختلفة لمساعدة فاكات الشيفرة في التزامن , الولوج العشوائي random access" ", تنظيم الذواكر" buffer regulation ", و تصحيح الأخطاء . الجزء الثالث : الصوت
يصف الخوارزمية لثلاث طرق للضغط .
الطبقات المعرفة بـ I,II,III رفعت فعالية المعيار MPEG و تعقيد التشفير لتحسين فعالية تشفير المعدلات المنخفضة لتدفق البتات . الطبقة II هي المفضلة في الصناعة , و تطبق تقريباً حصراً في أقراص الفيديو المضغوطة . الطبقة I مماثل في التعقيد و الفعالية , و هو المعيار لأقراص سوني المصغرة , و الكاسيت الرقمي المضغوط Digitial Compact Cassette "(DCC). ". الطبقة III وجدت لها تطبيقا في الـ ISDN , الساتل" " satellite , و تطبيقات الصوت عبر الانترنت . الجزء الرابع : الانسجام
تعرف معنى التوافق conformance"" مع MPEG للأجزاء الثلاثة ( الأنظمة , الفيديو , الصوت ) , و تؤمن مجموعتين لفحص دليل تحديد التوافق في معدل البتات و فاكات الشيفرة .
الجزء الخامس : محاكاة البرامج
تتضمن مثالاً مشفر عن طريق اللغة ANSI C و فاك الشيفرة المرافق للصوت و الصورة . كما يعطي مثال على مشفرات الأنظمة و الذي يمكن أن يضاعف و يقسم مجاري الصوت و الصورة المنفصلة الأولية المحتواة في ملفات بيانات الحاسب .
في عام 1995 كان الـ MPEG-2 يتضمن 9 أجزاء في ISO/IEC 13818 . الجزء الثاني كان قد تطور بالتعاون مع ITU-T . و التي تعرف بالتوصية H.262 . الموجّه الكامل هو (معلومات التقنية – الشيفرة العامة للصور المتحركة و الصوت المرافق . ISO/IEC 13818 الأجزاء الخمسة الأولى منظمة بنفـس الطريقـة كـما في MPEG-1 (الأنظمة, الفيديو, الصوت, الانسجام, و البرنامج) . و الأجزاء الأربعة الإضافية هي : الجزء السادس : أوامر تحكم وسائط التخزين الرقمية Digital Storage Medium Command and Control (DSM-CC) و هي تؤمن معيار التحكم بـ VCRنمط الوصول العشوائي لتدفقات البتات المشفرة على وسائط التخزين الرقمية كالأقراص المضغوطة . وتتضمن أوامر الرجوع إلى الخلف بالنسبة لإطار ثابت , التقديم السريع إلى الأمام , وخاصة Goto .
الجزء السابع : الصوت غير الملائم خلفيا
Non-Backwards Compatible Audio (NBC)
تشير إلى الحاجة إلى معيار جديد فعال لفك ارتباط الأقنية المتعددة المنفصلة المحيطة بالصوت . على العكس فإن MPEG-2 audio (13818-3) يحاول أن يشفر الأقنية المجاورة كبيانات إضافية للأقنية للأمام و الخلف و اليمين و اليسار للـ MPEG-1 . هذا يمكن فاكات الشيفرة لـ MPEG-1 الموجودة للتعرف و فك شفرة القناتين الأوليتين فقط , بينما تتجاهل الأقنية الجانبية . و هذا مشابه لفكرة الـ MPEG-2 للفيديو القابل للتوسع Scalable video . الجزء الثامن : توسع الـ 10-bit للفيديو كان في عام 1994 , هذا التوسع لجزء الفيديو (13818-2) يصف المعيار وخوارزمية التمثيل المشفر للفيديو مع دقة عينة 10-bit . التطبيق الأولي هو فيديو studio video ( التوزيع و التحرير , الأرشفة ) . تم التحقيق من ذلك من قبل كوداك و تيكترونيكس التي تشغل التوسيع المكاني " Spatial scalablity" , حيث أن التمثيل 10-bit يصبح الطبقة الأساسية , و التمثيل 2-bit الإضافي يشفر كطبقة إضافية تستخدم عند الحاجة للتوسع ( أو عند الحاجة إلى تكبير مقاسات جزء العرض الخاص بالفيديو ) . الجزء التاسع : ملائمة الزمن الحقيقي Real-time Interface (RTI) يعرف معيار فيديو بعمليات طلب إشارات التحكم بين المراحل الأساسية, و المخدمات النهائية .
الفصل الثاني : 1-2- بنية الصورة في الـ : MPEG 1-1-2- العناصر الأساسية لبناء الصورة: ( البكسل , البلوك , الماكروبلوك ,القطعة " Slice ") أ- البيكسل :
و هي عبارة عن الوحدة الأساسية لبناء الصورة . و تكون في شاشة التلفزيون الملون ذي أنبوب الأشعة المهبطية CRT مكوناً من ثلاث حبيبات . تشكل كل ثلاث حبيبات البيكسل الملون , أحدها يعطي اللون الأحمر عند سقوط الشعاع الإلكتروني عليه , و الثاني اللون الأخضر , أما الأخير , و يكون في الأسفل , فيعطي اللون الأزرق , كما هو مبين في الشكل المجاور عن طريق التأثير المختلف الشدة لشعاع
الأنبوب تعطي ما يقارب الـ 16.8 مليون لون متدرج. الشكل ( 1-2 ) بنية البكسل في الشاشة الملونة ب- البلوك : و هو عبارة عن كتل بأبعاد 8×8 بيكسل . و هي ممثلة كما في الشكل التالي :
الشكل ( 2-2 ) بينة البلوك. جـ- الماكروبلوك : و هو عبارة عن تركيبة بلوكات ( بالعادة أربع بلوكات ) , و تظهر ككتل بأبعاد 16×16 بيكسل "عند اعتماد أنها مؤلفة من أربع بلوكات " , و هي البنية الأساسية المعتمدة في التنبؤ في الـ MPEG . لماذا تم اختيار حجم التنبؤ 16×16 ؟ المساحة 16×16 تتجاوب مع المضاعف المشترك الأصغر للبلوكات 8×8 , معطية الصيغة 4:2:0 المعيارية , فمع الصور ذات الحجوم المتوسطة , المساحة 16×16 تؤمن توازنا جيدا بين المعلومات الجانبية العلوية و التعقيد و دقة التنبؤ للحركة المعوضة . د- القطعة " Slice ": و هي عبارة عن تجميع لعدد من البلوكات على خط أفقي واحد , و قد تشكل خطاً كاملاً , و الغاية الأساسية من اعتماد الـ " SLICE " هي أنه باعتبار أن كل بلوك يعتمد في تنبؤه على البلوك السابق أو اللاحق , فإن خطأ في بلوك واحد يسبب خطأ في كل البلوكات اللاحقة. لذلك اعتمدت هذه البنية لجعل كل مجموعة من البلوكات تعتمد على بعضها و فصلها عن الأخرى , بحيث يؤدي خطأ البلوك الواحد إلى خطأ في قطعة " SLICE " واحدة فقط . 2-2- مراحل الضغط في الصورة : 1-2-2- التقطيع Sampling : تتألف كل صورة من مجموعة من العناصر اللونية ، و كل عنصر " Pixel " يتالف من ثلاثة نسب لونية (أحمر، أخضر، أزرق) أو ما يعرف RGB ، و في تقنية MPEG تحول هذه النسب إلى ثلاثة نسب جديدة هي النصوع Y و فرق اللون الأزرق Cb و فرق اللون الأحمر Cr ، حيث ترتبط R,G,B مع Y,Cb,Cr بمعادلات محددة متعارف عليها من قبل كل من المشفر و فاك-الشيفرة.هذه المعادلات واضحة في الشكل التالي:
الشكل ( 3-2 ) معادلات النصوع و الفروق اللونية . إن حساسية العين البشرية تكون أعلى بالنسبة لإشارة النصوع Y منها بالنسبة للألوان ، لذلك تقوم MPEG بتشفير إشارة النصوع بدقة أعلى 4 مرات منها بالنسبة لإشارتي Cr و Cb . و بفعل ذلك يمكن أن نقلل البيانات دون التأثير على جودة الرؤية من وجهة نظر الشخص المشاهد .
الشكل ( 4-2 ) يمثل كيفية ظهور الصورة في فضاء Y U V .
2-2-2- انتقال العينات الصبغية ( إشارة التلوين ) المقطعة : من المهم أن تقطع إشارة التلوين بشكل مناسب , وإلا فإن نوعاً ما من تأثيرات الانزياح التلويني ( تظهر كهالة ما )
يمكن أن تنتج عندما يتم عرض إشارة الفيديو المعاد بناؤها . في فيديو الـ MPEG-1 , عينات التلوين هي بالضبط
ممركزة بين 4 عينات للإستضاءة كما في الشكل المجاور . للإبقاء على الملاءمة مع مواقع التلوين الأفقية للـ
CCIR 601 و تبسيط التقنية ( إزالة الحاجة
للإزاحة الطورية ) .
الشكل ( 5-2 ) . توزع عينات التلوين ضمن عينات الاستضاءة
- دقة العينات و تمثيل الألوان في الـ MPEG : إن عينات الـ MPEG تملك دقة عينات موحدة بـ 8 بتات ( 256 مستوى تكميمي ) , من أجل بيانات الاستضاءة ( التي تكون غير مؤشرة ) , البيانات المطابقة للون الأسود تكون للمستوى 0 , البيانات المطابقة للون الأبيض يكون 255. على كل حال , في توصيات الـ CCIR هناك 601 لوناً ,المستويات من 0 حتى 14 و 236 حتى 255 محجوزة من أجل إشارات تفريغ الإشارة و التزامن و التحكم و ... . و بالرغم من أن فاك الشيفرة يمكن أن يهتم بالعينات النشطة التي يجب أن لا تتجاوز هذه الحدود . بثلاث عناصر لونية في البكسل الواحد ( أحمر , أخضر , أزرق) , التركيبة الكلية تقريباً هي 16.8 مليون لون ( أي 24 بت ).
2-2-3- تحويل التجيب المنفصل: DCT (Discrete Cosine Transform)
في الـ MPEG-1 , نستخدم 8×8 DCT . عن طريق استخدام هذا التحويل نستطيع تحويل بلوك 8×8 ببلوك آخر 8×8 . و ميزة هذا التحويل أنه يجمع الطاقة (متمثلة برقم كبير) في الزاوية العلوية اليسرى من البلوك، بينما يجعل باقي عناصر المصفوفة أرقاماً صغيرة . في الـ DCT , المعامل في الموقع (0,0) يدعى معامل DC وهو المعامل الأكثر أهمية , بينما القيم الأخرى ندعوها بمعاملات AC . و هنا مثال على عملية الـ DCT:
الشكل ( 6-2) تمثيل الـ DCT
الشكل ( 7-2) و هنا المعادلات التي تعطي قيم مصفوفة الـ DCT :
بشكل عام , نستخدم خطوة تكميم كبيرة في تكميم عناصر الـ AC , و نستخدم خطوة تكميم صغيرة لتكميم معامل الـ DC ( نظراً لأهميته ) , أي يتم استخدام ما يدعى بالتكميم غير المتناظر حيث نستخدم خطوات تكميم صغيرة من أجل المعاملات الهامة ( لزيادة الدقة ) و خطوات تكميم كبيرة من أجل المعاملات ذات الأهمية الأقل .
التكميم بخطوة متغيرة التكميم بخطوة ثابتة الشكل ( 8-2 ) . - التحويل IDCT السريع :
إن تنفيذ كل المراحل يتم عن طريق معالجة تشفير الـ MPEG المعياري , بالاستثناء الوحيد لتحويل التجيب المنفصل المعكوس (IDCT) . هذه المرحلة يمكن أن تنفذ عن طريق أدوات الـ (IDCT) . عند اجراء عملية الـ (IDCT) ضمن تقنية الـMPEG , أي إذا نفذت بشكل مباشر , ستستهلك على الأقل 1024 عملية ضرب و 1024 عملية جمع لكل بلوك و هذا ما يستهلك زمناً كبيراً . لحل هذا التأخير , توجد خوارزمية سريعة , حيث يمكن تقليل الكمية إلى أقل من 200 عملية ضرب و 500 عملية جمع لكل بلوك عن طريق استغلال التماثل للتوابع الأساسية للتجيب .
خوارزمية سريعة نموذجية للـ IDCT ستكون صغيرة جدا في التكلفة أمام مراحل فاك الشيفرة الأخرى مجتمعة . كل خوارزمية IDCT لها خطأ تكميم مختلف, و بالرغم من ذلك فهو مناسب عندما تكون الدقة على سبيل المثال , على الأقل 16-bits لمعامل التحويل و 24-bits لقيم المنتج المتوسطة. لذلك , بما أن الـ DCT دقيقة جدا لتنفيذ التصميم , فإن MPEG لا تستطيع توحيد خوارزمية IDCT سريعة واحدة .
2-2-4- التكميم : Quantization بعد إنجاز عملية تحويل DCT ننتقل إلى عملية التكميم، التكميم يستخدم لتخفيض مجال الأعداد إلى قيمة إشارة أصغر . لذا نستطيع أن نستخدم بتات أقل لتمثيل عدد كبير . حيث يتم هنا تحديد مستويات كمية متقطعة للتعبير عن المصفوفة، و بكلام أخر سيتم (رياضياً) تقسيم المصفوقة على رقم هو خطوة التكميم، و يتبع هذه العملية عملية تقريب للأعداد الناتجة لأقرب عدد صحيح، مما يعني أنه ستتولد مجموعة من الأخطاء أثناء عملية التكميم نتيجة التقريب ، لذلك فإن مسافة التكميم تلعب دوراً هاماً في تحديد دقة ملف الفيديو المشفر. و بما أننا قد ذكرنا بأن منطقة AC من البلوك (وهي غالبية المساحة) عبارة عن أرقام صغيرة ، فإن جزءاً كبيراً من هذه الأرقام ستتحول إلى أصفار بعد عملية التكميم و التقريب، و هنا تظهر فائدة تحويل DCT في تخفيض كمية المعلومات المرسلة أو المخزنة. 2-2-5 معادلة التكميم : Quantization Equation Xq[i,j] = Round( X[i,j]/Q[i,j] ) أي عنصر من المصفوفة المكممة ناتجة عن تقسيم العنصر المقابل له في مصفوفة الـ DCT على معامل التكميم Q[i,j] و تقريب الناتج إلى أقرب مستوى تكميم قياسي . مثال على التكميم : يمكن وصف مثال على عملية التكميم كما يلي : حيث أن Q[i,j]=4
الشكل ( 8-2 ) عملية التكميم 2-2-6- مسح الزيك زاك: Zig-Zag scanning العملية التالية تسمى مسح الزيك- زاك , و هي عملية مسح شبيهة بتلك التي تتم في المسح التلفزيوني ، و يتم فيها تحويل الشكل المصفوفي للقيم إلى شكل تسلسلي , عن طريق قراءة القيم المتتابعة بشكل موازي للقطر ( زاوية – زاوية ) و كتابتها بشكل تسلسلي . و يتم هذا المسح في نطاق البلوك الواحد، و الهدف منه تجميع الأصفار (الكثيرة) بشكل متتالي تمهيداً للعملية التالية و هي التشفير بطريقة RLE (Length Encoding Run) و التي تتضمن تجميع المعلومات في ثنائيات، حيث يدل الرقم الأول في الثنائية على عدد الأصفار الذي يسبق قيمة ثابتة في البلوك بينما يدل الرقم الثاني في الثنائية على قيمة ذلك البلوك غير الصفري ، بمعنى أن الثنائية (7,4) تدل أن هنالك 7 أصفار تليها القيمة 4 ، و في الشكل التالي توضيح للعملية.
الشكل ( 9-2) مسح الزيك- زاك
التشفير بطريقة الـ RLE
إن التشفير RLE يساهم كثيراً في تخفيض عدد البيانات التي يجب التعامل معها (إرسالاً أو تخزيناً) و السبب هو أننا سنرسل هنا عدد الأصفار بدلاً من إرسالها جميعاً و علينا أن نذكر أن هذه العملية (RLE) تتم فقط في القسم AC من البلوك الذي يحتوي على قيم صغيرة بل و صفرية في كثير من الأحيان، و يبقى لدينا قسم الـ DC الذي يجب أيضاً أن نقوم بتخفيض كمية المعلومات التي يحملها دون التأثير على مسألة النوعية العالية للصورة لذلك تعمل تقنية MPEG-1 على تعديل أقسام الـ DC بطريقة التعديل النبضي المرمز التفاضلي DPCM أو (Difference Pulse Coded Modulation) و هذه التقنية تتضمن إرسال الفرق بين عنصرين تابعين لبلوكين متجاورين بلاً من إرسال كل عنصر منفرداً ، و هذه سيكون حتماً عملية ناجحة لأن الفرق بين بلوكين متجاورين غالباً ما يكون صغيراً ، و هكذا نرسل أرقاماً صغيرة (و بالتالي بيتات قليلة) بدلاً من إرسال البيانات بالكامل. و هنا في الشكل لدينا مثال عن التعديل النبضي المرمز التفاضلي , نلاحظ أن القيمة الأولى 138 يتم ارسالها كما هي , القيمة التالية هي 140 و يتم ارسال الفرق بينهما و هو 140-138 = 2 , القيمة التالية هي 136 و يتم ارسال الفرق بين آخر قيمة و بينها أي 140 – 136 = -4 , و يتم إرسال الرقم 4- , و هكذا ....
التعديل DPCM 2-2-7 - التشفير ذو الطول المتغير: Variable Length Coding التشفير ذو الطول المتغير اختصاراً VLC هو آخر مراحل ضغط الصورة في تقنية MPEG ، و خلاصة هذه التقنية هي أن نستخدم كلمة تشفير قصيرة لتشفير القيمة الأكثر تكراراً، و تصبح كلمة الشيفرة أطول كلما انخفض احتمال ورود القيمة ، و النتيجة هي كمية تدفق بتات أقل منها فيما لو أردنا تشفير جميع الرموز بشيفرة ذات طول ثابت. و بما أن VLC هي المرحلة الأخيرة في المشفر" Encoder " فإنها بالتأكيد ستكون المرحلة الأولى في فاك التشفير " Decoder " . من أهم الشيفرات التي تتكيف مع احتمال ورود الرمز هي شيفرة هوفمان " Huffman " و هي الشيفرة المعتمدة في MPEG-1 . - إحصائية التجميع : في تدفق البتات المشفرة وفق التعديل النبضي المرمز PCM , كل العينات تكون بطول متساوي "عدد متساوي من البتات " . بينما في خوارزميات تشفير الـMPEG1 ( الطبقة 1,2) تعتمد على طرق التشفير ذات الطول المتغير , بحيث يتم تشفير المناطق الساكنة من الصورة بعدد قليل من البتات , بينما المناطق المعقدة , أو ذات الحركة السريعة يتم تمثيلها بعدد أكبر من البتات. وهكذا فخلفية الشاشة (السماء) مثلا قد تتضمن فقط 50 بت لكل بلوك , بينما المناطق المعقدة (كالأزهار و النصوص) قد تتضمن 200 بت لكل بلوك . الآن البتات المخصصة للصور المعقدة يتم تطبيعها , ( أي أن كل منطقة من الصورة تأخذ بلوكات بأطوال بتات تتناسب مع درجة التعقيد ). حتى في معظم التطبيقات , خاصة فئة معدل البت الثابت , يتم إحداث تقييد في المشفر الذي يضمن أنه بعد فترة معينة مثلاً , 0.25 ثانية , فإن تدفق البتات المشفرة سيكون بمعدل ثابت .
تأخذ إحصائية التجميع 4 أبعاد : أفقي , عمودي , زمني , و محور البرنامج program axis"" . في النموذج رباعي الأبعاد , البتات يمكن أن يتم توزيعها اعتمادا على التعقيد النسبي لكل برنامج بالمقارنة مع تعقيد البرامج الأخرى و حوامل البيانات الشائعة , مثلاً , برنامج يمر بتغيرات مشهد سريع سيحدد أولوية تخصيص البت الأعلى , بينما البرنامج ذو التخصيص الأقرب للسكون سيستقبل الأولوية الأدنى , أو البتات الأقل .
- شيفرات البدء : start codes هذه الشيفرات 32 بت , تؤمن ميكانيكية سهلة لإيجاد تدفق البتات و تحديد طبقات الفيديو بدون الحاجة لإنجاز أي حسابات لفاك الشيفرة . شيفرات البدء أيضاً تؤمن ميكانيكية لإعادة التزامن في حالة وجود أخطاء في البت . شيفرة البدء يمكن أن يسبق بأي رقم تحكمي للبايتات الصفرية . البايتات الصفرية يمكن أن تستخدم لضمان أن شيفرة البدء موجودة في مواقع محددة , أو عن طريق تحكم المعدل لزيادة معدل البت لتدفق البتات المشفرة . - نبذة عن شيفرة هوفمان : يتم عن طريق شيفرة هوفمان بناء ما يدعى بالشيفرة الآنية المكثفة , حيث نقوم بترتيب احتمالات إطلاق الرموز ترتيباً تنازلياً , بعد ذلك نجمع احتمالات إطلاق أخر رمزين و نضع بدلاً منهما رمزاً واحداً باحتمال يساوي مجموع احتمالي الرمزين , و نضع هذا الرمز في المكان المناسب وفق الترتيب التنازلي , و نتابع هذه العملية حتى نحصل على رمزين فقط . نعطي لأحدهما الرمز صفر (0) و للآخر الرمز واحد (1) , الآن نقوم بالعملية العكسية حتى نحصل على الرموز الأساسية . و يحسب الطول المتوسط لهذه الشيفرة بالعلاقة : L = ∑ P(Si) Li حيث : P(Si) هو احتمال اطلاق الرمز Si .
Li وزن الشيفرة الممثلة لهذا الرمز .
و المثال التالي يوضح ذلك : الاحتمال الرمز 0.1 S1 0.5 S2 0.2 S3 0.1 S4 0.04 S5 0.01 S6 0.02 S7 0.03 S8
الآن نقوم بترتيب الاحتمالات تنازلياً , و نتبع الخطوات المشروحة سابقاً : حيث يمثل العدد المكتوب باللون الأسود احتمال إطلاق الرمز , و يمثل العدد المكتوب باللون الأحمر شيفرة الرمز. الاحتمال الرمز 0.5 (0) 0.5 (0) 0.5
(0) 0.5
(0) 0.5
(0) 0.5
(0) 0.5
(0) S2
0.5 (1) 0.3 (10) 0.2 (11) 0.2 (11) 0.2 (11) 0.2 (11) 0.2 (11) S3 0.2 (11) 0.2 (100) 0.1 (101) 0.1 (101) 0.1 (101) 0.1 (101) S1 0.1 (101) 0.1 (1000) 0.1 (1000) 0.1 (1000) 0.1 (1000) S4 0.1 (1001) 0.06 (10010) 0.04 (10011) 0.04 (10011) S5 0.04 (10011) 0.03 (100100) 0.03 (100100) S8 0.03 (100101) 0.02 (1001010) S7 0.01 (1001011) S6
L = 0.5 × 1+ 0.2×2 + 0.1×3 + 0.1×4 + 0.04×5 + 0.03×6 + 0.02×7 + 0.01×7 = 2.19 bits الآن بمقارنة هذه الشيفرة مع شيفرة منتظمة نلاحظ ما يلي : بما أنه لدينا ثمانية رموز فإننا نحتاج إلى ثلاث خانات لتمثيلها ( 2 ^3 = 8 ) و بالتالي يكون الطول المتوسط لهذه الشيفرة يساوي ( L = 1× 3 = 3 bits ) و بالتالي فإننا نلاحظ أن الطول المتوسط لشيفرة هوفمان أقصر بمقدار 0.81 bits و هذا يؤدي بدوره إلى توفير بعرض الحزمة المطلوبة . و بالتالي تكون المراحل التي مرت بها صورة الفيديو ليتم ضغطها و تشفيرها هي : 1- عملية فصل لوني RGB . 2- عملية تحويل لوني Y Cr Cb . 3- تقسيم الصورة إلى بلوكات 8×8 pixels . 4- تحويل التجيب المتقطع DCT مما يعطي منطقتي DC و AC . 5- التكميم و التقريب . 6- عملية مسح زيك- زاك . 7- تشفير منطقة AC بطريقة RLE , و تعديل منطقة DC بتعديل DPCM . 8- تشفير كلا القسمين بشيفرة VLC . هذه العملية ككل تسمى ضغط الصورة الذاتي Intraframe" Compression " (سيتم توضيحها لاحقاً) ، علماً أننا لغاية الآن لم ندرس عملية تشفير الحركة، بل قمنا بتشفير الصورة بشكل مستقل عن المشاهد اللاحقة و السابقة. الشكل التالي يبين مراحل هذه العملية
الشكل ( 10-2 ) ضغط الصورة في MPEG-1 Intraframe Compression and Encoding
- تدفقات البتات الثابتة و المتغيرة :
الشكل ( 11-2 ) . تدفقات البتات منظمة للسماح بتأمين النقل المستمر للمعطيات المشفرة عبر قناة ذات معدل ثابت , بدون التسبب بالطفحان أو نقص تخزين البتات المستقبلة في الذواكر في نهاية عملية الاستقبال . إنها مسؤولية مرحلة التحكم بالمشفر أن تولد تدفق بتات تمنع طفحان أو نقص التخزين في الذواكر . تشفير معدل البت الثابت يمكن أن ينمذج كمخزن : الصور المتغيرة الحجم المشفرة تتدفق إلى مخزن البتات , لكن المخزن يتم تفريغه بمعدل زمني ثابت إلى قناة الاتصال . الجانب الأكثر صعوبة في المشفر الثابت هو الحفاظ على معدل قناة ثابت ( و بدون طفحان أو نقص للتخزين من أجل عمق ثابت ) مع الحفاظ على جودة عالية و ثابتة للصورة . في الشكل الأبسط , المعدل المتغير لتدفق البتات لا يتبع قواعد التخزين "buffer rules " , لكنه يبقى محافظاً على جودة ثابتة للصورة , و هذه الجودة الثابتة للصورة إنجازها أسهل بالحفاظ على خطوة ثابتة لمكمم البلوك , إن معدلات تدفق البيانات المتغيرة , يمكن أن تولد بطريقة أصعب من معدل تدفق البت الثابت . في معدلات البتات المتغيرة , معدل البت اللحظي ( معدل البت كقطعة واحدة ) يمكن أن يتم التحكم به من خلال التوفر اللحظي لعرض الحزمة في قناة الاتصال ( كما في حالة أقمار البث المباشر ). ملخص حول نماذج تدفق البت : نمط معدل البت التطبيقات معدل ثابت
constant-rate أقنية الاتصالات ذات المعدل الثابت , مثل القرص المضغوط "Compact Disc" , أشرطة الفيديو الرقمية , إشارة البث ذات القناة الوحيدة للحامل , و القرص الصلب hard disk storage" ".
المعدل المتغير بشكل بسيط . simple variable-rate فاكات الشيفرة البرمجية , حيث أن ذاكرة تخزين تدفق البتات (VBV) هي المخزن الناقل نفسه و حجمه كبير جداً. تكميم الماكروبلوك بشكل نظامي يبقى ثابتاً من أجل عدد كبير من الماكروبلوكات . المعدل المتغير بشكل معقد . complex variable-rate إن التجميع multiplexing" "( أي تجميع إشارات بث لعدة أقنية عبر حامل واحد ) في الأقراص المضغوطة و الأقراص الصلبة حيث ميكانيكية الملاحقة يمكن أن يتم التحكم بها لزيادة أو نقصان معدل توزيع الأقنية , تشبيك الفيديو حيث معظم معدلات الأقنية ثابتة لكن المتطلبات هي المشاركة بعدة مستخدمين . تدفق البتات التي تنجز عبر معدلات زمنية طويلة .
الفصل الثالث :
-3-1مقدمة عن الحركة في الفيديو :
كما ذكرنا سابقا فإن الحركة في صور التلفزيون و السينما تنتج بالحقيقة عن طريق إظهار سلسلة من الصور الساكنة بتعاقب سريع , كل صورة تتغير بشكل صغير جداً عن الصورة السابقة لها . هناك الكثير من التكرار , الأجزاء التي تكرر لا تحتاج لأن تحفظ أو ترسل , لأنها تكون موجودة في الصورة السابقة . عندما نتكلم عن الفيديو فإننا ننتقل بذلك من الحديث في المستوي المكاني " spatial " إلى الحديث في المستوي الزماني " temporal " , و هنا تعتمد عملية تقدير الحركة Motion" Estimation "على المقارنة ما بين البلوكات التي تنتمي لأكثر من إطار صورة واحد. و تعرف عملية تقدير الحركة على أنها عملية توقع قيمة العنصر اللوني " pixel " اللاحق اعتمادا. عملية تقدير الحركة تتم على مستوى البلوك ، و الفرق بين موقعي بلوكين متتاليين يعرف بشعاع الحركة Motion Vector" " ، بينما تدعى الفروق اللونية (عددياً) بين هذين البلوكين خطأ التوقع "Prediction Error" ، و يتوجب على المشفر في تقنية MPEG-1 أن يقوم بحساب شعاع الحركة و خطأ التوقع . و تعتبر هاتان القيمتان أساساً لعملية بناء الصورة اللاحقة حيث سيتم تشفيرهما و إرسالهما لتتم معالجتهما، هذه العملية ندعوها بعملية التعويض compensation" " و هي عملية تتم في فاك الشيفرة و هي معاكسة تماماً لعملية التقدير أو التوقع. لكي نخوض بشكل مفصل في عملية ضغط الفيديو لا بد لنا من أن نعرف 3 أنواع من الإطارات (الصور) التي يتم التعامل معها في تقنية MPEG-1 ، و بكلام آخر فإن هذه التقنية لا تتعامل مع جميع الإطارات بطريقة متماثلة , و إنما تصنف الصور إلى ثلاثة أصناف يشار إليها بالرموز I و B و P . إن هذه التقسيمات تدل على أنه ليس من الضروري إرسال الصور الأصلية لملف الفيديو دائماً ، و إنما سنقوم بشكل متكرر بتوقع الصورة التالية اعتمادا على صورة أصلية سابقة، و بالتالي لن يكون هنالك داعياً لإرسال صورة كاملة (من أصل الفيديو) إلا في الحالات التي تكون فيها التغيرات كبيرة بين المشاهد. كما و يجب الإشارة إلى أنه بهذه الطريقة علينا أن نحفظ في الذاكرة بعض الصور المرجعية للاعتماد عليها في عملية التقدير أو التوقع. في البداية سنصنف عملية الضغط في MPEG-1 إلى صنفين رئيسيين: الضغط الذاتي للإطار Intraframe" Compression" و الضغط البيني للإطار " Interframe Compression" . - الضغط الذاتي للإطار "Intraframe" : في هذا النوع من الضغط يتم التعامل مع الصورة بشكل منفصل و معزول تماماً عن الصور اللاحقة و السابقة، أي أن عملية الضغط هنا تتم بدون عملية توقع مسبقة . بهذا الشكل نقول أن الإطار المضغوط بشكل ذاتي هو إطار من أصل ملف الفيديو و يدعى Intra-Frame و اختصارا I . و بما أننا نعمل في هذا النوع على مستوي الصورة الواحدة، فإن هذا الضغط يعمل على تخفيض التكرار المكاني "Spatial Redundancies " فقط. 2- الضغط البيني للإطار Interframe" " : الميزة الأساسية لهذا الضغط أنه يتعامل مع الصورة اللاحقة على ضوء الصورة السابقة، أي أنه يعتمد منهج التوقع في بناء الإطارات، و هذا الضغط ينتج نوعين من الإطارات هي "Predicted Frames" و اختصاراً P ، و" Bi-Directional Frames " و اختصاراً B ، و سيتم شرح هذه الإطارات لاحقاً. الجدير بالإشارة هنا أن الضغط البيني يعمل على تخفيض التكرار المكاني على مستوي الصورة، و أيضاً تخفيض التكرار الزماني على مستوى سلسلة من الإطارات المتعاقبة. إذاً، يتوجب علينا أن نعلم أن معيار MPEG-1 يقسم صور ملف الفيديو إلى ثلاثة أصناف:
-3-2أنواع الصور :
1- إطار أصلي "I /" Intra-Frame / يتم ضغطه و تشفيره بشكل مستقل عن تغيرات الفيديو كأي صورة ثابتة. 2- إطار متوقَع "P/" Predicted Frames/ يتم الاعتماد على صورة أصلية لتوقعها، و بالتالي لا يتم إرسال البيانات الممثلة لهيكل الصورة بل تعتمد هذه الصورة على شعاع الحركة و خطأ التوقع . 3- الإطار المتوقع ثنائي الاتجاه " Bi-Directional Frames"/ B /و هو يعتمد على التوقع من صورتين يقع بينهما و ذلك بأخذ متوسط بينهما . -3-2-1الضغط و التشفير الذاتي للإطار Intra-frame Coding : يتم هذا النوع من الضغط للإطارات من النوعية I , والتي قمنا بتعريفها على أنها صور مستقلة تماماً عن أي توقعات سابقة ، و بالتالي عملية الضغط الذاتي شبيهة جداً بعملية ضغط أي صورة ثابتة ( معيار JPEG مثلاً) , و هذا النوع من الضغط هو الأقل تعقيداً والأسهل تنفيذاً. علينا دائماً أن نذكر بأن الوحدة التي يتم التعامل معها في الضغط هي البلوك (و بالتالي مصفوفة 8×8 ) و هنالك ما يسمى الماكروبلوك "Macro block " المؤلف من 6 بلوكات ، هي 4 للنصوع Y واثنين للفروق اللونية Cb و Cr .
الشكل ( 1-3 ) بنية الماكروبلوك . مراحل الضغط و التشفير الذاتي هي المشروحة أعلاه، راجع المخطط الصندوقي السابق. و من الجدير بالذكر أن الإطارات I تلعب دوراً في التزامن بين المصدر و الهدف، كما أن زيادة عددها يزيد من دقة الفيديو و لكن بشكل واضح على حساب حجم الملف، و لكن من الضروري أن يكون هنالك عدد أصغري من الإطارات I للحصول على فيديو واضح و هذا يتحقق ما لم تزيد المسافة الزمنية بين إطارين من النوع I عن 300 -400 ms . -3-2-2الضغط البيني للإطار Interframe : الصور التي تخضع للضغط البيني هي من النوعيتين P و B و سنتحدث عن كل منها على حدا . 1- تشفير الإطارات P : يعتمد تشفير هذا الإطار على التوقع المباشر من إطار سابق I أو P . و عملية التوقع تتم بناءً على شعاع حركة هذا الإطار و احتمال الخطأ ، حيث لا يجوز لاحتمال الخطأ أن يتجاوز حداً معيناً، و يتم إرسال بيانات تتعلق بالأجزاء المتحركة من الصورة فحسب. و تخضع المعلومات في الإطار P لنفس عمليات DCT و التكميم و التشفير RLE ، و كما في الإطارات I فإن المشفر عليه أن يحفظ إطارات P في الذاكرة.
الشكل ( 2-3 ) تمثيل عملية التشفير و فك التشفير . للمشفر حرية القرار (تبعاً لاحتمال الخطأ) فيما أن الإطار يجب أن يكون من النوع I أو P ، بمعنى أن الإطارات بشكل طبيعي تجري وفق تسلسل معين و لكن يحق للمشفر أن يكسر هذا التسلسل و يمنع ظهور إطار P و يطلب صورة جديدة من أصل الفيديو ، مثل هذه الحالات ممكن أن تكون عند انتقال المشاهد (تغير المشهد كلياً)، و عندها سيكون إرسال الفروق (التي تصبح كبيرة هنا) أمراً غير مجدياً. 2- تشفير الإطارات B: الإطارات B لا تستخدم أبداً كمرجع للتوقع من أجل بناء إطارات أخرى، و بالتالي الأخطاء هنا أقل أهمية مقارنة مع P و I ، و يتم استخدام التوقع ثنائي الاتجاه لبناء هذا الإطار، و نعني بثنائي الاتجاه أي استنتاج إطار B من إطارين P أو I حدهما سابق له و الأخر لاحق . الشكل ( 3-3 ) أنواع التنبؤ. تمثل الإطارات B متوسطاً حسابياً للإطارين المستخدمين من أجل التوقع، و هذه الإطارات لا تكلف إلا كميات ضئيلة جداً من المعلومات، و بالأحرى هي لا تحتاج لمعلومات أصلية بل تعتمد على عملية المعالجة لإطارات محفوظة في الذاكرة، و هذه الإطارات تعطي نعومة (تدرج) لمشاهد الفيديو مع توفير في حجم الملف. و كذلك الحال بالنسبة للإطارات B فإن المشفر له الحق بتغير القرار وإلغاء إطار B (حتى و لو حان دوره بالسلسلة) و استبداله بإطار P أو I حفاظاً على دقة الفيديو في حالات التغيرات المفاجئة للصورة.
الشكل ( 4-3 ) المخطط التدفقي لتشفير الإطارات البينية - فائدة الصور B : بما أن ماكروبلوكات التنبؤ ثنائية الاتجاه ( أي النمط B ) هي متوسط مجال ماكروبلوكين , فإن الضجيج ينخفض من أجل معدلات البتات المنخفضة . عند معدلات فيديو الـMPEG-1 الاسمية (352 × 240 × 30, 1.15 Mbit/sec) , يقال أن B تحسن معدل الإشارة إلى الضجيج SNR إلى نسب كبيرة تصل إلى 2 dB . ولكن في معدلات البتات الأعلى , فإن الإطارات B تصبح أقل فائدة بما أنها لا تستخدم كتنبؤ لإطارات المشفرة اللاحقة . على كل حال , فإن الإطارات B مازالت مثير للجدل . الصور B تقسم وفق طريقتين : 1- التنبؤ في الماكروبلوكات ثنائية الاتجاه B هي متوسط من كل من الصورتين السابقة و اللاحقة . 2- الصور B ( تملأ) كما في السباكل الرقمي " digital spackle " إشارة الفيديو ثلاثية الأبعاد الآنية , دون المساهمة في زيادة جودة الإشارة بشكل عام بنفس اللحظة . - ما هو مصدر الإزعاج في الصور B ؟ التعقيد النسبي , عرض الحزمة , التأخير " end-to-end delay " , و حجم ذاكرة التخزين للصورة هي النقاط الأربعة المزعجة في الصورة B . التعقيد النسبي في فاك الشيفرة قد ازداد لأن هذا النمط من البلوكات تتطلب التوسيط بين تنبؤات بلوكين ( أحدهما سابق و الآخر لاحق ) . بما أن البلوك B يعتمد على بلوك سابق و آخر لاحق في التنبؤ , فإن على المستقبل أن يستقبل البلوك السابق ثم البلوك B و يخزنهما إلى أن يستقبل البلوك اللاحق المطلوب لعملية التنبؤ ( بمعنى إعادة ترتيب البلوكات المستقبلة ) , مما يسبب تأخير زمني إضافي .
-3-3سلسلة الإطارات و إعادة بناء الصور:
يتم اعتماد سلسلة متكررة من الإطارات بنوعياتها الثلاث لضغط وتشفير الفيديو، ويتم هذا الترتيب بحيث يضمن وصول صورة واضحة و فيديو عالي الجودة للطرف الأخر، وكما ذكرنا فإن هذه السلسلة تبقى ثابتة مادامت تغيرات الفيديو صغيرة (و بالتالي احتمال الخطأ صغير)، ولكن في حالة التغيرات السريعة بفيديو يمكن للمشفر أن يغير قرار الإطار من P إلى I ، أو من B إلى P أو I.
الشكل ( 4-3 ) وقد ذكرنا سابقاً أن المشفر يقوم بالاحتفاظ بالصور من النوعية I و P ، هذا لأن هذه الصور تعتبر أساساً في عملية التنبؤ بصور أخرى . فمثلاً نحن دائماً بحاجة لصورة I في الذاكرة لاستنتاج صورة P وفق ما يسمى التوقع الأمامي Forward Prediction" " ، بينما صورة من النوع B يحتاج لصورتين P أو I ليتم تركيبها وفق ما يسمى التوقع ثنائي الاتجاه Bi-directional Prediction . إن هذا الأمر يدفع المشفر إلى أن يغير في ترتيب الإطارات، حيث يعتمد التنبؤ لبعض الإطارات على إطارات لاحقة، و بكلام أخر إذا كان لدينا الترتيب التالي IBP فإنه سيتم إرسال الإطار من النوع B بعد الإطار P الذي يعتبر أساساً له في التنبؤ، و هذا منطقي لأننا لن نحصل على B إلا بعد حصولنا على P ، رغم أن الإطار B يمثل مشهداً سابقاً للإطار P. لذلك فإن السلسلة التي تخرج من المشفر (وهي نفسها السلسلة التي تدخل إلى فاك الشيفرة ) لا تعبر عن الترتيب الحقيقي للمشاهد.
-3-4تعويض الحركة عن طريق الإبقاء على كتل من الصور السابقة :
تنبؤات الكتل تكون بحجم 16×16 pixel أو 16×8 من الصور المعاد بناؤها سابقاً ( أي الصورة التي تم تشكيلها مسبقاً ) .
الشكل ( 5-3 ) التنبؤ الأمامي و التنبؤ الخلفي .
الشكل ( 6-3 )
- جميع أنواع الصورة المشفرة (I, P, B) تتضمن نفس أنواع البلوكات ( الحزم من البيانات ). جميع البلوكات التي هي غير قادرة على التوسع بنفس الدقة " non-scalable " في الصورة I يجب أن تشفر داخلياًIntra " "( كما في النمط الأساسي لصورة الـ JPEG ) . أما البلوكات في الصورةP يمكن أن تشفر إما داخلياً أو خارجياً Intra or Non-intra " " و يتم توقعها بشكل مؤقت " temporally predicted " من الصورة السابقة المعاد بناؤها . أخيراً البلوكات في الصورة B يمكن اختيارها إما داخلية , ذات التنبؤ السابق , أو ذات التنبؤ اللاحق , أو ذات تنبؤ سابق ولاحق ( تنبؤ مختلط ) . موجه الماكروبلوك" The macroblock header " يحتوي على عناصر تدعى نمط الماكروبلوك , و التي يمكن بتغييرات بسيطة فيها تغيير الأنماط ( بين I , P و B ).
الشكل ( 7-3 ) نوع الماكروبلوك" macroblock type "هو العنصر الأكثر أهمية في سلسلة الفيديو , و هي تصاحب نمط الحركة" motion type" المقدم في MPEG-2 الذي هو العنصر الثاني الأكثر أهمية . بارامترات البلوك هي : 1- نمط التشفير داخلي أم خارجي . 2- التنبؤ الأمامي ( حركية – سابقة ) (motion_forward) . 3- التنبؤ الخلفي ( حركية لاحقة ) (motion_backward). 4- التنبؤ المؤقت بدون تعويض الحركة .
- التنبؤ بدون تعويض الحركة :
الشكل ( 8-3 ) - التنبؤ مع تعويض الحركة :
الشكل ( 9-3 ) بطبيعة الحال فإن بعض البارامترات غير قابلة للتطبيق بوجود الأخرى , على سبيل المثال , في البلوك الداخلي جميع البلوكات المعرفة تحتوي على بيانات DCT (Discrete Cosine Transform ) تحويل التجيب المنفصل , لذلك ليس هناك حاجة للإشارة إلى نموذج البلوك أو بارامترات التنبؤ الزمني " "temporal prediction switches . - البلوكات المتجاوزة في الصور P :
الشكل ( 10-3 ) و هي عبارة عن بلوكات لا تختلف عن البلوكات السابقة لها , و بالتالي لا يوجد حاجة لإرسالها , حيث يقوم فاك الشيفرة بإعادة بناء هذه البلوكات اعتماداً على الطابع الزمني للبلوك . إن عدم إرسال هذه البلوكات يوفر الكثير في عرض الحزمة المطلوبة للإرسال . أي أنه كلما كانت هذه البلوكات الطافرة أكثر , كلما كان الضغط ( تقليل الحجم ) أكبر , و هو كذلك يوفر في زمن معالجة تدفق البتات , و كذلك ذواكر التخزين اللازمة .
الشكل (11-3 )
- 3-5بنية السلسلة ( تسلسل الأنماط I,P,B ) ثابتة بشكل محدد لنموذج الإطار I,P,B : السلسلة يمكن أن تحتوي تقريباً على أي نموذج للصورة I , P, B : (هناك بعض المؤثرات الأساسية التي تغير هذا التسلسل الثابت ) .
و من الشائع في التطبيق الصناعي أن يكون هناك نموذج ثابت , مثلاً : I B B P B B P B B P B B P B B ) ). و لكن , و كما ذكرنا سابقاً , فإن المشفر يمكنه أن يغير من هذا النموذج الثابت , و ذلك وفقاً لقيمة خطأ التنبؤ , أو في حالة الفيديو , عند الانتقال من مشهد إلى مشهد مختلف بشكل كبير , بحيث يصبح إرسال خطأ التنبؤ غير مجدي .على سبيل المثال , إذا كانت سلسلة الصورة تتغير بشكل طفيف من إطار إلى آخر فإنه من المنطقي أن تشفر الصور وفق النمط B أكثر من P . - ما هي معدلات الضغط الأفضل للـ MPEG ؟ إن معدل الـ MPEG الأفضل هو حوالي 1.2 bits/pel Intra and 0.35 bits/pixel . التجربة أظهرت أن تشفير الإطار داخليا مع خوارزمية الـ DCT- هوفمان الهجينة الشائعة تحقق الأداء الأفضل عند حوالي معدل 1.2 bits/sample أو معدل ضغط حوالي 6:1 . - ما هو الـ Digital Video Disc (DVD) ؟ في عام 1994, Toshiba بالتعاون مع Thomson Consumer Electronics و Pioneer و مساعدة من استوديوهات الـ Hollywood , عرفت قرصاً مضغوطاً جديداً بقطر 12 سم من أجل البث للفيديو الرقمي . الصيغة الجديدة لهذا القرص ذات كثافة تخزين حوالي ( 5 G Bytes) . وهذا تحقق خلال تركيب من أمواج ليزرية بأطوال موجية أقصر , و انحدار مسار أقل. ثخن القرص من 1.2 mm إلى 0.6 mm . و في الغالب تكون 0.6 mm , يمكن تشكيل قرص بحجم مضاعف 1.2 mm بحجم تخزين كلي 10 Gbytes, لاستيعاب فيلم بطول ساعتين , سوف تكون بتدفق بتات فيديو بمعدل حوالي 5 Mbit/sec. أو10 Mbit/sec إذا كانت موزعة على كلا الطرفين للقرص . بواسطة الضغط , فإن الأقراص الليزرية للفيديو التشابهي ثنائية الوجه لها قطر حوالي 30 cm . المساحة القابلة للاستخدام (571 ) سنتمتر مربع , وثخن حوالي2.4 mm . حجم التخزين الأعظمي لكل طرف هو 65 دقيقة . حالياً , تمكن الـ HDTVأن توظف الليزر ذو طول الموجة الأزرق ( 0.4 microns) لتقدم زيادة بنسبة 2:1 في كثافة المجال , أو 20 Gbytes ككل .
الفصل الرابع: 1 MPEG -: الـ 1 MPEG - عرفت تدفق بتات للفيديو المضغوط و الصوت و تحسينها لتلائم عرض حزمة 1.5 Mbits/s . هذا المعدل مميز , لأنه نفس معدل المعطيات من أجل الصوت غير المضغوط في الأقراص المضغوطة . المسودة الموضوعة من قبل هيئة الـ MPEG كانت في ثلاث أجزاء : الصوت , الفيديو , و النظام , حيث أن الجزء الثالث يعطي التكامل لكل من تدفق الفيديو و الصوت . بواسطة طابع الوقت المناسب للسماح بالتزامن للصوت و الفيديو . و قد تم التوصل إلى الـ MPEG phase2, الذي يقوم بتعريف تدفق معطيات للفيديو و الصوت المشفر عند 3-10 ميغا بيت \ الثانية .
-4-1كيف يعمل الـ MPEG -1 :
يبدأ الـ MPEG -1 بالسلسلة المنخفضة للفيديو حوالي 352 X 240 إطار بـ 30 إطار \ الثانية . ألوان الصور تحول إلى فضاء الـ YUV , و قناتا التلوين (U and V) يتم تخفيضهما إلى 176 by 120 pixels , و يظهر أنه يمكنك أن تستخدم هذه الأقنية بالقليل من الطاقة و بدون ملاحظة ذلك , على الأقل في الصور الطبيعية ( و ليست الصور المولدة في الكمبيوتر ) .
الشكل ( 1-4 )
الشكل ( 1-4 ) الطريقة الرئيسية هي التنبؤ بالحركة من إطار إلى إطار في الاتجاه الزمني , و ثم استخدام الـ DCT أو التحويل التجيبي المنفصل . لتنظيم الفيض في الفراغ . الـ DCT تم تشكيله ضمن بلوك بحجم 8x8, و تنبؤ الحركة يكون في قناة الاستضاءة Y بـ 16x16 بلوك .بمعنى آخر البلوك 16x16 في الإطار الحالي الذي تحاول تشفيره , والذي تبحث عن تنبؤ للبلوك في الإطار السابق أو اللاحق ( حيث هناك أنماط تنبؤ خلفي حيث الأطر المتأخرة ترسل أولاًً لتسمح بإقحامها بين الأطر ) . معاملات الـ DCT ( لكل من المعطيات الحقيقية , أو معطيات التنبؤ بين هذا البلوك و البلوك السابق أو اللاحق ) تكمم , وذلك يعني أنك قسمتهم إلى بعض القيم لتقليل البتات . إن عدة معاملات عندها سوف تنتهي لتصبح قيمتها صفراً . التكميم يمكن أن يتغير من أجل أي بلوك ( البلوك 16x16 و ذلك من أجل الـ Y و 8x8 في كل من إشارتي الـ U, V ) . كل هذه النتائج , التي تتضمن معاملات الـ DCT , أشعة الحركة , و بارامترات التكميم ( و معاملات أخرى ) مشفرة بطريقة هوفمان باستخدام الجداول الثابتة . معاملات الـ DCT لها جدول هوفمان خاص ثنائي الأبعاد. - هل الـ 4:2:0 مثل الـ 4:1:1؟ لا طبعاًً , الجدول التالي سيوضح الفارق الدقيق بين تهيئة الصبغية المختلفة , من أجل الإطار النموذجي "CCIR 601" بمقاس 720 pixels/line × 480 lines/frame : صيغة الصبغية Y عينة في الخط Yخط في الإطار C عينة في الخط C خط في الإطار معامل التقطيع الأفقي معامل التقطيع الشاقولي 4:4:4 720 480 720 480 None none 4:2:2 720 480 360 480 2:1 none 4:2:0 720 480 360 240 2:1 2:1 4:1:1 720 480 180 480 4:1 none 4:1:0 720 480 180 120 4:1 4:1
3:2:2, 3:1:1 و 3:1:0 هي أقل شيوعاً , لكن تم توثيقها , النسبة 4:1:0 كانت مستخدمة من قبل شركة إنتل DVI لعدة سنوات . الفاصل 130 ميكرو ثانية بين الخطوط 4:2:0 المتتابعة في الإطارات الحالية , و الفاصل 260 ميكرو ثانية للإطارات المتشابكة , يمكن أن تقدم بعض الترددات العمودية الصعبة , لكن معظمها يمكن أن تخفف خلال مراحل ما قبل المعالجة. 4-2- التنبؤ :
هناك ثلاث أنواع للإطار المشفر: صورة من النوع I أو" intra frames ", وهي تشفر كصور ثابتة . الصور من النوع P " predicted frames ". و يتم التنبؤ بها من أخر إطار تم إعادة بناءه I أوP ( هذا ما يبدو من وجهة نظر فاك الضغط ) , كل بلوك في إطار P يمكن أن يأتي بشكل شعاع و فرق معاملات الـ DCT لمطابقته بشكل تقريبي مع آخر إطار I أو P مشفر, أو يمكن أن تشفر داخليا (كما في الإطارات I ) إذا لم يكن هناك مطابقة جيدة .
أخيرا هناك الإطارات B أو الإطارات الثنائية الاتجاه bidirectional . ويتم التنبؤ بها من الصورتين I أو p الأقرب , واحدة في الماضي و الأخرى في المستقبل . تبحث عن البلوكات المتطابقة في هذه الإطارات , وتحاول ثلاث أشياء مختلفة لترى أيها تعمل بالطريقة الأفضل . تحاول أن تستخدم , الشعاع الأمامي , أو أن تأخذ معدل البلوك للإطارات الماضية و المستقبلية , وتطرح تلك من البلوك المشفر. إذا لم تعمل أي من هذه بطريقة جيدة , يمكن أن تشفر البلوك داخليا . سلسلة الصورة التي فكت شفرتها تكون عادة على شكل IBBPBBPBBPBBIBBPBBPB... حيث هناك 12 إطار من I إلى I . هذا يعتمد على متطلبات الدخول العشوائي التي تحتاج إلى نقطة بداية على الأقل مرة واحدة كل 0.4 sec . نسبة الإطارات P أو B تعتمد على الخبرة . بالطبع , ليعمل فاك الشيفرة , يجب أن ترسل أن الإطار P الأول " قبل " الإطارين B الأولين , حتى ينتهي تدفق البتات المضغوط بظهور أرقام مثل 0xx312645... حيث هذه هي أرقام الإطارات .XX يمكن أن تكون عدد البلوكات B في الإطار في مكان ما في منتصف التدفق , أو قد تكون لا شيء (إذا كانت هذه هي نقطة البداية الحقيقية) . يجب أن تفك شيفرة الصورة I ثم P , تحفظ كلتا الصورتين في الذاكرة ثم تفك شفرة الصورة B . على الأغلب ستعرض الصورة I بينما تفك شفرة الصورة P , و تعرض الصور B بينما تفك شيفرة الصورة B المجاورة , ثم تعرض الصورة P بينما تعرض الصورة B التالية و هكذا . 4-3- معالجة الـ MPEG للحذف :
مشفرات الفيديو للـ MPEG-1 تنجز الحذف في حال وجود 30 إطار بالثانية و كان المستقبل يتعامل بشكل رئيسي مع سلسلة فيلم بـ 24 إطار , أو تقوم بعملية تكرار لبعض الحقول حسب خوارزميات معينة في الحالة المعاكسة , أي إذا كان المستقبل يتعامل بشكل رئيسي مع سلسلة فلم بـ 30 إطار , و كانت السلسلة المستَقبلة ذات 24 إطار. MPEG-2 يؤمن رايتين (تكرار الحقل الأول و الحقل الأعلى أولاً) التي تصف بوضوح فيما إذا كان الإطار أو الحقل سيتكرر أم لا. في السلاسل الحالية, الأطر يمكن أن تتكرر مرتين أو ثلاث مرات . في معظم السيناريوهات الشائعة , سلسلة الفيلم ستحتوي على 24 إطار في الثانية , عنصر معدل البت في موجه السلسلة سيدل على 30 إطار بالثانية . وسطياً كل الأطر المشفرة الأخرى ستشير إلى حقل متكرر ( لكن تكرار الحقل الأول =1 ) لزيادة معدل الإطار من 24 هرتز إلى 30 هرتز .
(24 إطار مشفر\الثانية ) ×( 5 حقول إظهار \ 4 حقول مشفرة ) = 30 إطار إظهار \ الثانية .
الفصل الخامس :
MPEG-2 لضغط الفيديو:
MPEG-2 VIDEO COMPRESSION MPEG-2 هي امتداد للمقياس العالمي لضغط الفيديو الرقمي MPEG-1 . MPEG-1 كان قد تم تصميمه لتشفير الفيديو بالمسح المتتابع بمعدل بت حوالي 1.5 Mbit/s من أجل تطبيقات كالقرص المضغوط CD (compact disc) . MPEG-2 مصممة من أجل البث بمعدلات بت أعلى ( سرعة أكبر ), و تؤمن خوارزمية إضافية من أجل التشفير الفعال للحقول المتشابكة, و تدعم مجالاً واسعاً من معدلات البت. هنا سنحاول تقديم المبادئ المستخدمة لضغط الفيديو وفقا للمعيار MPEG-2 , بحيث نعطي الخطوط الأولية للبنية العامة لمشفر وفاك شيفرة الفيديو , و نصف المجموعات الفرعية الخاصة بالخوارزمية و المجموعات المتقيدة بقيم البارامترات ( وهي ما تدعى بالمستويات أو الطبقات ) المعرفة حتى وقتنا الحاضر .
-5-1المركبات الأساسية للفيديو: VIDEO FUNDAMENTALS خدمات التلفزيون في أوربا حاليا تبث فيديو بمعدل إطار 25 Hz . كل إطار يحتوي على حقلين متشابكين , مما يعطي معدل حقل ( تردد مسح شاقولي ) 50 Hz . الإطار الأول لكل حقل يحتوي على الخطوط الفردية فقط للإطار ( الخط الأول في الإطار هو الخط 1) . الحقل الثاني يحتوي على الخطوط الزوجية فقط وهي مقطعة ( تم تقطيعها إلى عينات) في كاميرا الفيديو بعد الحقل الأول بـ 20 ms . من المهم أن تلاحظ أن الإطار المتشابك الواحد يحتوي على حقول من لحظتين من الزمن . التلفزيون الأمريكي متشابك بشكل مشابه و لكن بمعدل إطار أقل من 30 Hz . في أنظمة الفيديو فيما عدا التلفزيون , الفيديو التتابعي هو الغالب بشكل عام ( مثلا , معظم الحواسب تعطينا فيديو تتابعي ) . في الفيديو التتابعي , كل خطوط الإطار تقطع في نفس اللحظة من الزمن . الفيديو التتابعي يعرف أيضا ، بالمسح المتقدم ، أو " فيديو المسح التسلسلي ". إشارات الأحمر , الأخضر , و الأزرق (RGB) المأخوذة من كاميرا ملونة يعبر عنه بشكل مكافئ بالاستضاءة "luminance "(Y) و عناصر تلوينية chrominance" (UV) ". عرض حزمة التلوين يمكن أن يقلل مقارنة مع الاستضاءة بدون التأثير بشكل ظاهر على جودة الصورة . من أجل تعريف الفيديو المعياري , توصية CCIR , 601 تعرف كيف يمكن أن تقطع و ترمز مركبات الإشارات الفيديو (YUV) لتشكل نقاط (pixels ) مستقلة . المصطلحات 4:2:2 و 4:2:0 غالبا تستخدم لتصف بنية أخذ العينات للصورة الرقمية , 4:2:2 الإشارة اللونية مقطعة أفقيا بنسبة 0.5 مقارنة مع الاستضاءة , 4:2:0 تعني أن الإشارة اللونية مقطعة أفقيا بنسبة 0.5 و شاقوليا بنسبة 0.5 مقارنة مع الاستضاءة ( و بالتالي 0.5 شاقولياًَ × 0.5 أفقياَ = 0.25 ). المنطقة الفعالة من إطار التلفزيون الرقمي , المقطعة وفقا لـ CCIR التوصية 601 , هي 720 نقطة بـ 576 خط من أجل معدل إطار 25 Hz . استخدام 8 bits لكل من نقاط Y , U و V , معدل البتات غير المضغوطة لإشارات 4:2:2 و 4:2:0بالنتيجة هي : 4:2:2: 720 x 576 x 25 x 8 + 360 x 576 x 25 x ( 8 + 8 ) = 166 Mbit/s 720 x 576 x 25 x 8 + 360 x 288 x 25 x ( 8 + 8 ) = 124 Mbit/s 4:2:0: MPEG-2 قادرة على ضغط معدل البتات للفيديو 4:2:0 القياسي إلى حوالي 3-15 Mbit/s . عند معدلات البتات الأخفض ضمن المجال , عملية التشفير MPEG-2 و فك التشفير تصبح مرفوضة بشكل متزايد مع انخفاض معدل البتات . من أجل بث التلفزيون الرقمي الأرضي للفيديو القياسي , معدل بتات حوالي 6 Mbit/s يعتبر تسوية جيدة بين جودة الصورة و فعالية عرض حزمة الإرسال . -5-2 مبادئ تقليل معدل البتات Bit Rate Reduction Principles نظام تقليل معدل البتات يعمل عن طريق إزالة المعلومات المسهبة من الإشارة في المشفر قبل عملية الإرسال , واستعادتها في فاك الشيفرة . بالعادة يشار إلى زوج المشفر و فاك الشيفرة باسم كودك ( Codec ) . و من أجل إشارات الفيديو , يمكن أن نعرف نوعين مميزين من التقليل: 1ً-التقليل الفضائي و الزمني : Spatial and temporal redundancy
في هذا النوع من التقليل , تكون قيم النقاط أو البكسلات غير مستقلة , بل مرتبطة مع جيرانها في كل من الإطار نفسه و عبر الإطارات المجاورة . لذلك إلى حد ما , قيمة النقطة قابلة للتنبؤ إذا أعطيت قيم النقاط المجاورة لها , أي يمكننا الاستغناء عن تشفير و ارسال بعض البكسلات , و استقبالها و إعادة فك تشفيرها , و هذا ما يزيد الضغط و تقليل الحجم.
2ً- التقليل الظاهري : Psychovisual redundancy العين البشرية لها استجابة محدودة للتفاصيل الدقيقة , وهي أقل حساسية للتفاصيل الموجودة على حواف المادة أو حول التغيرات البسيطة بالنسبة للتدرج اللوني و تدرج الظل . وبالتالي , حذف متحكم به يحدث لبكسلات الصورة التي تم فك تشفيرها بواسطة عملية تقليل معدل البتات, و الذي يجب أن لا يؤثر على جودة الصورة بالنسبة للمشاهد , أي أن يكون هذا التقليل غير مرئي بالنسبة للمشاهد . و كما ذكرنا سابقاَ , فإن تقنيتين أساسيتين وظفتا في MPEG codec , هما تشفير تحويل التجيب المنفصل للإطار –الداخلي , (DCT) والتنبؤ بالإطار الداخلي ذو الحركة المعوضة . هذه التقنيات طبقت بنجاح لتقليل معدل بت الفيديو قبل الـ MPEG , بشكل ملحوظ من أجل معايير توزيع الفيديو ذات الـ 625 خط بمعدل 34 Mbit/s و أنظمة " المؤتمرات عن طريق الفيديو" بمعدل بت أقل من 2 Mbit/s .
Intra-frame DCT coding : DCT- تشفير الإطار الداخلي 5-3
الـ DCT ثنائي الأبعاد , ينجز في بلوكات صغيرة (8 pixels by 8 lines) لكل عنصر من عناصر الصورة, لإنتاج بلوكات من معاملات الـ DCT. المعامل الموجود في الموقع الصفري الأفقي و الشاقولي يدعى معامل DC . و هو العامل الأكثر أهمية كما ذكرنا , بقية المعاملات , تدعى بـ AC . التحويل يميل إلى تركيز الطاقة ضمن المعاملات ذات الترددات المنخفضة , و العديد من المعاملات الأخرى القريبة من الصفر .
الشكل ( 1-5 ) يبين تحويل التجيب المنفصل DCT , قيم البكسلات و مطال معاملات الـ DCT ممثلة عن طريق حجم النقاط . الـ DCT لا يقلل مباشرة عدد البتات المطلوبة لتمثيل البلوك , و لكنه يقوم بتجميع عدد من الأصفار بجانب بعضها , عن طريق مسح الزك زاك , ثم التشفير بطريقة الـ RLE التي تسمح بارسال عدد الأصفار و القيمة التالية كما تم شرحه مسبقاًَ .
-5-4تنبؤ الإطار الداخلي ذو التعويض الحركي:
Motion-compensated inter-frame prediction هذه التقنية تستغل الوفرة اللحظية ( والتي هي عبارة عن بتات إضافية تستخدم لأهداف معينة ) , عن طريق محاولة التنبؤ بالإطار , ليتم تشفيره من الإطار السابق المرجعي . التنبؤ يجب أن يكون قابلاً للتكرار, و بالتالي المشفر يحتوي على " مشفر محلي " يعيد بناء الصور تماماً كما ستكون في فاك الشفرة , التي منها يمكن تشكيل التنبؤات . تنبؤ الإطار الداخلي ضمن البلوك المشفر هو الذي يأخذ البلوك من الصورة المرجعية . و بشكل طبيعي هذا ما يحقق تنبؤ جيد للمناطق الثابتة للصورة , لكنه تنبؤ غير جيد في المناطق المتحركة . طريقة لتحديد الحركة التي حدثت بين البلوك المشفر و الإطار المرجعي هي البحث عن " البلوك المماثل" block-matching " , حيث يتم اختبار عدد كبير من التعويضات التجريبية بواسطة المشفر باستخدام عناصر الاستضاءة للصورة , أفضل تعويض ( انزياح ) يتم اختياره على أساس الخطأ الأقل بين البلوك المشفر و التنبؤ . -5-5بعض التفاصيل عن الـ MPEG-2 : MPEG-2 DETAILS بنية الكودك ( المشفر – فاك الشيفرة ) – Codec : في أنظمة الـ MPEG-2 , الـ DCT و تنبؤ الإطار الداخلي لتعويض الحركة يتم تجميعها , كما هو مبين في الشكل التالي:
الشكل ( 2-5 ) , ( a ) مشفر الـ DCT لتعويض الحركة , ( b ) فاك شيفرة الـ DCT لتعويض الحركة.
المشفر يطرح تنبؤ تعويض الحركة من صورة المصدر لتشكيل صورة " خطأ التنبؤ " . خطأ التنبؤ يتم تحويلها بواسطة الـ DCT , المعاملات يتم تكميمها و هذه القيم المكممة المشفرة تستخدم الـ VLC (VARIABLE LENGTH CODING ), الاستضاءة المشفرة و خطأ تنبؤ الإشارة التلوينية يتم تجميعها مع المعلومات الجانبية المطلوبة عن طريق فاك الشيفرة . مثل أشعة الحركة و معلومات التزامن , و تشكل ضمن تدفق بتات للتحويل , الشكل التالي يبين خلاصة بنية تدفق المعطيات لفيديو الـ MPEG-2 :
الشكل ( 3-5 ) : بنية أولية لتدفق المعطيات لفيديو الـ MPEG-2 . في فاك الشيفرة , معاملات الـ DCT المعاد بناؤها و المحولة بشكل عكسي لإنتاج خطأ التنبؤ . هذا مضاف إلى تنبؤ تعويض الحركة المولد من الصور السابقة التي فك شفرتها لإنتاج الخرج مفكوك الشفرة .
في كودك الـ MPEG-2 , المتنبئ بتعويض الحركة مبين في الشكل 2 يدعم عدة طرق لتوليد التنبؤ . مثلاً , البلوك يمكن أن يكون " تنبؤي أمامي forward predicted " من الصورة السابقة , أو " تنبؤي خلفي backward predicted " من الصورة المستقبلية ( اللاحقة ) , أو " تنبؤي ثنائي الاتجاه bidirectionally predicted " عن طريق المتوسط الحسابي للتنبؤ الأمامي و الخلفي . الطريقة التي استخدمت للتنبؤ بالبلوك يمكن أن تتغير من بلوك إلى الآخر , أي أنه في أحد البلوكات يمكن أن يكون التنبؤ أمامياً , و في البلوك التالي خلفياً , و في البلوك الثالث .....الخ.
بالإضافة , الحقلان في البلوك ( أي الحقل الفردي و الزوجي في بلوك ذي حقل متشابك ) يمكن أن يتم التنبؤ بهما بشكل منفصل عن طريق أشعة الحركة الخاصة بهما , أو معاً باستخدام شعاع حركة مشترك . لكي يتم تشفير كل بلوك. المشفر يختار بين طرق التنبؤ هذه , محاولاً تكبير جودة الصورة المشفرة ضمن قيود معدل البتات . اختيار نمط التنبؤ يرسل إلى فاك الشفرة, مع خطأ التنبؤ , لذا قد تولد تنبؤ صحيح .
-5-6أنماط الصورة : Picture types في الـ MPEG-2 , تم تعريف ثلاثة أنماط للصور, نمط الصورة يعرف نموذج التنبؤ الممكن استخدامه لتشفير البلوكات. الصور الداخلية 'Intra' pictures ( الصور I ) تشفر بدون الرجوع للصور الأخرى . الضغط المعتدل يتم انجازه عن طريق تخفيض الوفر الفراغي spatial redundancy ( الوفر redundancy هو عبارة عن بتات يتم إضافتها من أجل عمليات كشف و تصحيح الأخطاء و التزامن و .....) . و ليس الوفر الزمني . الصور التكهنية 'Predictive' pictures ( الصور التنبؤية P ) يمكن أن تستخدم الصور السابقة I أو الصور p لتعويض الحركة. و يمكن أن تستخدم أيضاَ كمرجع للتنبؤ, كل بلوك في الصور p يمكن أن يتم التنبؤ بها. عن طريق تخفيض الوفر الزماني و المكاني , الصور p تقدم ضغط أكبر من الصور I . أما التنبؤ ثنائي الاتجاه , فإن الصور B يمكن أن تستخدم الأنماط السابقة ( الصور I أو P ) من أجل تعويض الحركة و تقديم الدرجة الأعلى من الضغط . كل بلوك في الصور B يمكن أن يكون متنبأً بشكل أمامي , خلفي , أو بشكل ثنائي الاتجاه أو مشفر ضمنيا intra-coded ً . لتمكين التنبؤ الخلفي من الإطار المستقبلي , المشفر يعيد ترتيب الصور من ترتيب "الإظهار" الأصلي إلى ترتيب " تدفق البتات " لذلك سترسل الصورة B بعد الصور السابقة و اللاحقة التي تدل عليها , و هذا ما يعرف لنا عامل التأخير الترتيبي reordering delay الذي يعتمد على عدد الصور من النمط B المتعاقبة و الناتج عن اختلاف ترتيب بلوكات الصور ذات الأنماط التنبؤية المختلفة عن ترتيبها في الصورة الأصلية . أنماط الصورة المختلفة نموذجيا تحدث بسلاسل متكررة , يطلق عليها مجموعة من الصور'Group of Pictures' GOP . و سيتضح ذلك من المثال التالي:
GOP النموذجية بترتيب الإظهار هي :
B1 B2 I3 B4 B5 P6 B7 B8 P9 B10 B11 P12 تدفق البتات المتجاوب هو : I3 B1 B2 P6 B4 B5 P9 B7 B8 P12 B10 B11 بنية GOP النظامية يمكن أن توصف بواسطة بارامترين : N :التي هي عدد الصور في الـ GOP.
M: و التي هي المباعدة ( الفراغ ) بين الصور P . GOP المعطية هنا موصوفة بـ N=12 و M=3 .
MPEG-2 ليست محصورة باستخدام بنية الـ GOP النظامية. على سبيل المثال , صورة P يمكن أن يتنبأ بها بشكل سيء باعتبار الصورة المرجعية للتنبؤ مغايرة تماما عن الصورة قيد التنبؤ . لذلك قد يكون من المفيد أن نشفرها كصورة I بدلا من ذلك . من أجل جودة صورة مشفرة معطية , التشفير باستخدام كل نمط للصورة ينتج عدد مختلف من البتات . في سلسلة مثال نموذجية , صورة I مشفرة كانت أكبر بثلاث مرات من الصورة P المشفرة , و التي كانت بدورها أكبر 50% من الصورة B . 5-7- تحكم الذاكرة: Buffer control
بواسطة إزالة الكثير من الفائض redundancy في صور المصدر, ينتج على خرج المشفر معدل بت متغير variable bit rate.
معدل البت يعتمد على التعقيد و قابلية التنبؤ للصورة المصدر وفعالية هذا التنبؤ . من أجل العديد من التطبيقات , تدفق البتات يجب أن يحمل في قناة ذات معدل بت ثابت . في هذه الحالات , توضع ذاكرة تخزين بين المشفر و القناة . يتم املاء الذاكرة بمعدل متغير بواسطة المشفر, و يفرغ بمعدل ثابت بواسطة القناة , من أجل منع الذاكرة من الطفحان أو الامتلاء دون المستوى , تستخدم تقنية تغذية عكسية لتلاءم معدل البت المشفر المتوسط مع سعة الذاكرة . فاك الشيفرة يجب أن يملك أيضا ذاكرة تخزين بين القناة و دخل عملية فك التشفير ذو المعدل المتغير . حجم الذواكر في المشفر و فاك الشيفرة يجب أن تكون نفسها . MPEG-2 تعرف حجم الذاكرة ألأعظمي لفاك الشيفرة ( و بالتالي المشفر) , التأخير خلال التخزين في كل من المشفر و فاك الشيفرة مساوي إلى حجم الذاكرة مقسوما على معدل البت للقناة . على سبيل المثال , مشفر MPEG-2 يعمل عند 6 Mbit/s بذاكرة حوالي Mbit 1.8 سوف يكون له تأخير كلي في المشفر و فاك الشيفرة حوالي 300 ms . تقليل حجم الذاكرة سوف يقلل التأخير , و لكن قد تأثر على جودة الصورة إذا أصبحت الذاكرة صغيرة جدا حيث تصبح غير قادرة لتلائم التغيير في معدل البت من مشفر الـ VLC , و بالتالي تضيع بعض البتات .
-5-8الأنماط و المستويات : Profiles and levels
فيديو الـ MPEG-2 هو امتداد لفيديو الـ MPEG-1 . MPEG-1 كان يهدف عند مسح الفيديو التتابعي إلى معدل بت حوالي 1.5 Mbit/s . MPEG-2 تؤمن خوارزمية إضافية للتشفير الفعال للفيديو المتشابك و يدعم مجال واسع من معدل البت . MPEG-2 أيضا تؤمن أدوات للتشفير القابل للتكبير (scalable coding ) . تدفق البت الكلي يمكن أن يبنى على طبقات , أولاُ الطبقة الأساسية التي تعطي صورة أولية ذات جودة جيدة و حجم عرض افتراضي قياسي يتم تحديده في الإرسال , و بإضافة مستويات مصفاة تساعد على تقليل التشويش أو تحسين الإظهار عند تكبير حجم العرض , أي أن أثر بتات التكبير لا يظهر إلا عند تكبير حجم العرض , و هذا هو عملها.
عدد صغير من المجموعات الفرعية من أدوات الـ MPEG-2 الكلي تم إظهاره و تعريفه للناس , كالأنماط و المستويات . النمط هو مجموعة فرعية من الخوارزمية , أما المستوى فيعرف مجموعة من القيود على قيم البارامترات ( كحجم الصورة أو معدل البتات ) . هناك مشفرات تدعم نمط أو مستوى محدد , و هذه المشفرات ذات النمط المحدد تدعم المجموعة الفرعية المتجاوبة معها من أدوات الخوارزمية و مجموعة من قيود البارامتر المتوافقة معها . -5-9تفاصيل الأنماط غير القابلة للتكبير : Details of non-scalable profiles نمطان غير قابلان للتكبير ( إلا بتخفيض جودة العرض )عرّفا بتعريف الـ MPEG-2 :
النمط البسيط simple profile لا يستخدم أي إطارات B , وبالتالي لا يوجد تنبؤ خلفي أو متداخل . بالنتيجة لا يطلب إعادة ترتيب الصورة ( إعادة ترتيب الصورة سوف تضيف حوالي 120 ms إلى تأخير التشفير ) . مع ذاكرة تخزين صغيرة للمشفر, هذا النمط مناسب للتطبيقات ذات التأخير المنخفض كمؤتمرات الفيديو حيث التأخير بشكل عام حوالي 100 ms .و يتم انجاز التشفير على إشارة فيديو 4:2:0 .
النمط الأساسي main profile يضيف الدعم للصور B وهو النمط الأكثر استخداما . إضافة إلى أن الصور B تزيد جودة الصورة ولكن تضيف حوالي 120 ms إلى تأخير التشفير لتسمح بعملية إعادة ترتيب الصورة . فاكات شيفرة النمط الأساسي سوف تفك أيضاَ شفرة فيديو الـ MPEG-1 . حالياً , معظم شرائح فاكات شيفرة فيديو MPEG-2 تدعم النمط الأساسي عند المستوى الأساسي .
5-10- تفاصيل الأنماط القابلة للتكبير : Details of scalable profiles في هذه الأنماط , يعمل الـ codec بطريقة مشابهة للـ codec غير القابل للتكبير "non-scalable codec" في الشكل (2) . مع إضافة مرحلة التكميم الإضافية . المشفر يكمم معاملات الـ DCT إلى دقة محددة , تشفرها بطول متغير و ترسله كتدفق بتات المستوى الأخفض أو المستوى الأساسي " the lower-level or 'base-layer' bitstream " . خطأ التكميم يتم تشفيره بطول متغير و يرسل كتدفق بتات المستوى الأعلى . المعلومات الجانبية المطلوبة لفاك الشيفرة , كأشعة الحركة , ترسل فقط في المستوى الأساسي , و لا مبرر لإرسالها في المستويات الإضافية . تدفق بتات الطبقة الأساسية يمكن أن تفك شيفرتها وفق الطريقة ذاتها كالحالة غير القابلة للتكبير التي في الشكل (2b- ). لفك تشفير المستويات الأساسية, كلا المستويين يجب أن يتم استقبالهما. كما في الشكل (4 b- ) . تكرارات معامل المستوى الأساسي تضاف إلى قيم معاملات الطبقة الأساسية . المعاملات الناتجة يتم فك شفرتها بنفس الطريقة كما في حالة "non-scalable ". النموذج SNR اقترح من أجل التلفزيون الأرضي الرقمي كطريقة لتخفيض الوفر . النموذج الفراغي "The spatial profile " يدعمً طبقات التحسين , التي تحسن جودة الصورة المشفرة بطرق مختلفة, استخدام أدوات للتكبير الفراغي"spatial scalability", الشكل (5 ) يظهر مثالاً عن مشفر و فاك شفرة القدرة على القياس الفراغية .
الشكل ( 4-5 ): أ – مشفر الفيديو ذو قدرة التكبير الفراغية Spatial-scalable video coder.
ب- فاك شفرة الفيديو ذو قدرة التكبير الفراغية spatial-scalable video decoder.
قدرة التكبير الفراغية توصف عن طريق استخدام تنبؤ الطبقة الأعلى ( في الصور التي تم فك شفرتها ) من الطبقة الأدنى ( الأساسية ). إذا كانت الطبقة الأعلى تحمل صورة محفوظة من أجل قدرة تكبير ذات جودة أفضل , عندها الصور التي تم فك شفرتها من الطبقة الأخفض يجب أن تحول نسبة التقطيع إلى نسبة التقطيع للطبقة الأعلى عن طريق محول يدعى المحول العلوي .
في المشفر في الشكل( 5 - أ ) حلقتا مشفر two coder loops تعملان عند معدلات مختلفة لإنتاج الطبقة الأساسية و الطبقات الإضافية . مشفر الطبقة الأساسية ينتج تدفق معطيات يمكن أن يتم فك تشفيره بنفس الطريقة كما في حالة التشفير غير القابل للتكبير(non-scalable). مشفر الطبقة الأساسية يعرض الصور التي تم فك شفرتها محلياً للمحول الأعلى (up-converted ). النموذج الفراغي تم اقتراحه كطريقة لبث خدمة التلفزيون العالي " high-definition TV service ".
النموذج الأعلى يضيف دعماً للتشفير 4:2:2 لإشارة الفيديو و تتضمن أدوات القابلية للتكبير scalability tools للـ SNR و النموذج الفراغي .
-5-11تفاصيل الطبقات ( المستويات ): Details of levels
MPEG-2 تعرف أربع مستويات لتحديد مجال بارامترات التشفير. الجدول (2) يظهر البارامترات القياسية لحجم الصورة , معدل الإطار , معدل البت و حجم ذاكرة التخزين لكل من المستويات المعرفة . و كما نلاحظ فإن المجالات المذكورة هنا هي الحدود العليا و هي التي يمكن للكودك ( ( codecs أن يعمل تحت هذه المجالات , مثلاً فاك الشفرة العالي 1440 سيفك شفرة صورة ( 720 pixels by 576 lines ) . المستوى الإطار الأعظمي , العرض بالبكسل الإطار الأعظمي , الارتفاع , الخطوط معدل الاطار الأعظمي
Hz معدل البت الأعظمي
Mbit/s حجم الذاكرة بالبتات Low 352 288 30 4 475136 Main 720 576 30 15 1835008 High-1440 1440 1152 60 60 7340032 High 1920 1152 60 80 9781248
مستويات الـ MPEG-2 : حجم الصورة , معدل الإطار .
عند نهاية البث , معيار تعريف التلفزيون يطلب المستوى الأساسي و تلفزيون التعريف العالي يتطلب مستوى 1440 العالي .
- خلاصة:
MPEG-2 ناجح جداً لخدمة الكثير من التطبيقات, و كذلك من ناحية معدلات البت, الجودة و الخدمات. حالياً , الاهتمام الأساسي هو بالمستوى الأساسي من أجل التطبيقات مثل بث التلفزيون الرقمي ( الأرضي , الأقمار الصناعية , و الكابلات ) و خدمات التسجيل بالفيديو عند الطلب و أنظمة الفيديو المكتبية "desktop video systems" . عدة مصنعين أعلنوا عن فاكات شفرة وحيدة الشريحة و متعددة الشرائح , النماذج المصغرة التي تعتمد على الـ SNR و النماذج الفراغية مبنية من أجل استخدام تجارب بث الحقول "broadcasting field trials ".
بشكل عام, هذا يعني أنه أي فاك شفرة يوافق المواصفات يجب أن ينتج صور مطابقة في الخرج للصور المشفرة في الدخل. على أية حال , فاكات الشفرة يمكن أن تختلف في كيفية الاستجابة للأخطاء المعرفة في قناة الإرسال . مثلاً مشفر متطور يمكن أن يحاول إخفاء العيوب في الصورة التي تم فك شفرتها إذا اكتشفت الأخطاء في تدفق البتات . حتى يكون المشفر مطابقاً للمواصفات , فقط يجب أن ينتج تدفق بتات قانونية . هذا الشرط الوحيد الذي ليس له تأثيرات على جودة الصورة عن طريق الكودك ( codec) . و هناك احتمال لوجود اختلاف في أداء التشفير بين تصاميم المشفرات المختلفة . مثلاً , أداء التشفير يمكن أن يختلف اعتماداً على قياس شعاع الحركة , تقنيات التحكم بمعدل البتات , الطرق المستخدمة للاختيار بين أنماط التنبؤ المختلفة , درجة تقدم الصورة و الطريقة التي يتكيف بها المكمم وفقاً لمحتويات الصورة .
جودة الصورة عبر الكودك MPEG-2 تعتمد على التعقيد و قابلية التنبؤ لصور المصدر . المشفرات الفورية و فاكات الشيفرة تقدم بشكل عام جودة جيدة للمعيار المعرف في الصورة عند معدل بت حوالي الـ 6 Mbit/s . كما في التجربة في تشفير الـ MPEG-2 , نفس جودة الصورة يمكن انجازه عند معدل بتات أدنى .
- طبقة السلسلة :
MPEG-2 يمكن أن يمثل الفيديو المتشابك أو المتعاقب, بينما الـ MPEG-1 معني بالفيديو المتتابع ,باعتبار أن التطبيق الأساسي هو أقراص الفيديو المضغوطة المشفرة بسرعة حتى 1.2 Mbit/sec . في الـMPEG-2 نسبة الطول للعرض متغير . حيث معلومات الواجهة تشير بشكل عام الى المظهر لنسبة الطول للعرض .( مثلاً 4:3 , 9:16 ) .. شفرة معدل الإطار في الـ MPEG-2 تشير إلى معدل العرض المعتمد , بينما في الـ MPEG-1 تشير إلى معدل الإطار المشفر . في مصادر الفيديو المشفر يكون هناك عادة 24 إطار في الثانية. قبل تشفير تدفق البت , المشفر سيقوم بإزالة 6 من المعدل 30 frame/sec للإبقاء على المعدل الأساسي 24 frame/sec لإشارة الفيديو المصدر .ثم سيقوم فاك الشيفرة بإعادة الإطارات أو الحقول لإعادة تشكيل معدل العرض الأساسي 30 frame/sec . في الـ MPEG-1 فاك الشيفرة يستطيع استنتاج معدل الإطار المرغوب فقط عن طريق الطابع الزمني لطبقات النظام . MPEG-2 تؤمن متغيرات موجه محدد للصورة تدعى (إعادة الحقل الأول ) و ( الحقل الأعلى أولا ) التي توضح الإشارة التي يجب أن تتكرر إطاراتها أو حقولها , و ذلك من أجل معالجة الحذف عند التحويل من المعدل 30 frame/sec إلى المعدل 24 frame/sec . لملائمة أنظمة فاكات الشيفرة التي يمكن أن تعمل بمعدلات أخفض أو معدلات مختلفة عن معدلات التلفزيون الشائعة , بارامترين جديدين في الـ MPEG-2 تسمى ( توسيع معدل الإطار d ) و( توسيع معدل الإطار n ) يمكن أن يتراكب مع ( شيفرة معدل الإطار ) لتحديد مجال أوسع لمعدلات الإظهار للإطار . ولكن في الإعداد الحالي لوثائق التعريف و المستويات , هذين المتغيرين لا يسمح لهما أن يغيرا القيمة المحددة بـ ( شيفرة معدل الإطار) . التوسعات المستقبلية للـMPEG يمكن أن تمكن هذه الخاصية .
الشكل ( 5-5 ) .
- تمييز تدفق بتات الـ MPEG-1 من تدفق بتات MPEG-2 : كل تدفقات الـ MPEG-2 يجب أن تحتوي على موجهات ذات امتداد خاص بحيث تتبع موجهات الـ MPEG-1 أيضاً . في المستوى الأعلى , مثلاً , موجه التتابع النموذجي للـ MPEG-1 يتم إتباعه بامتداد التتابع . بعض موجهات الامتدادات يتم تخصيصها للـ MPEG-2 . مثلاً امتداد التتابع القابل للتكبير ليس مسموحاً في تدفقات البتات الرئيسي , انما فقط في تدفقات البتات الإضافية. برنامج بسيط يحتاج فقط لمسح تدفق البتات من أجل البايت المصطف حيث تبدأ الشيفرات بتحديد فيما إذا كان التدفق لـ MPEG-2 أو MPEG-1. - التشابهات و الاختلافات بين الـ MPEG و الـ H.263 : صور الـ H.263 ترسل بأبعاد ثابتة , أما الـ MPEG ( و كذلك الـ JPEG) تسمح تقريبا بالتعامل مع كل أحجام الصور التي تكون موصوفة في الموجهات . إن صور الـ H.263 موجهة إلى تطبيقات محددة . على العكس من الـ MPEG التي هي عامة , لكنها قادرة على التأقلم مع البارامترات المتغيرة للصورة و معالجتها ( تشفيرها , ارسالها , و فك تشفيرها ). - مقارنة فيديو الـ MPEG مع التلفزيون , VHS, و القرص الليزري : دقة صور الـ VHS يمكن أن تتحقق لفيديو تقريبا " 1 million bits per second "( باستخدام طرق تشفير محددة ) . في الـ MPEG , جودة البث للـ NTSC يمكن أن تقرب إلى 3 Mbit/sec, و جودة الـ PAL إلى 4 Mbit/sec . من أجل فلم فيديو. بالطبع , سلاسل رياضية بنشاطات لحظية فراغية معقدة , يجب أن تعامل بمعدل بتات أعلى من 5 أو 6 ميغا بت\ الثانية . - انتاج فيديو ذو جودة عالية في الـ MPEG : يتم انتاج فيديو بجودة عالية في الـ MPEG و بضغط كبير , و ذلك لأن: 1- معدل الإطار هو 24 Hz بدلا من 30 Hz و الذي هو عبارة عن توفير حوالي 20% لعرض القناة الترددية. 2- إن حقول فيديو الفيلم تتابعية أصلاً , و هذا متوافق مع الـ MPEG . 3- عمليات النقل و التعديل المكاني و الزمني (MTF) للفيلم من السهل قيادتها عن طريق النقل و التكميم بالنسبة للـ MPEG . - استخدام الـ MPEG لتشفير الأطر الساكنة : الصور الداخلية للـ MPEG مشابهة لسلسلة الصور JPEG . هناك بالطبع مساوئ و محاسن لاستخدام الـ MPEG على استخدام الـ JPEG لتمثيل الصور الساكنة . المساوئ : 1- ( MPEG ) لها فقط فراغ لوني واحد (Y Cb Cr) . 2- كل من النصوع و الإشارة التلوينية لكل من الـ MPEG-1 و MPEG-2 يتشاركان في التكميم و جداول الـ VLC ( تهيئة التلوين 4:2:0 ) . 3- MPEG-1 محدد بالصور 4k × 4k و محدد بـ 16k × 16k بالنسبة للـ MPEG-2 . المحاسن : 1- MPEG يعالج التكميم المحسن adaptive quantization"" و الذي يسمح بتحكم معدل أفضل و الإخفاء المكاني ""spatial masking . 2- مع الصور الثابتة المحددة , فإن MPEG تتفادى أي محاولة لاستخدام طرق التشفير الأكاديمية , الغالية و غير الضرورية , لأن لها تأثير محدود على جودة الصورة بشكل عام . 3- لدى Philips' CD-I spec تخصيص من أجل الصور الثابتة للـ MPEG , مع تصميم SIF المزدوج للصورة . وهذا تقنيا مناسب أكثر بفضل حقيقة أن ذاكرة التخزين لصورة واحدة مطلوبة لفك شيفرة صورة ثابتة بدلا من 2.5 أو 3 المطلوبة لسلسة I P B .
كلمة أخيرة : عزيزي القارئ لقد تم الاعتماد في كتابة هذا المشروع على العديد من المراجع الإنكليزية , بسبب عدم وجود مراجع عربية عن المادة قيد الدراسة. و لكن للأسف جميع المراجع الانكليزية التي تم الاعتماد عليه لا تعطي معلومات كافية عن الموضوع و لا تدخل في شرح المخططات الوظيفية للـ MPEG . لذلك كانت هناك بعض الجوانب التي لم تغطى في هذا المشروع . فعلى الراغب بالتوسع في فهم هذه التقنية الرجوع إلى مصادر أخرى و البحث عن الجوانب التالية : 1- خوارزميات الضغط و فك الضغط للـ MPEG ( المخططات الوظيفية ) . 2- الصوت ( طريقة التشفير و الإرسال ) . 3- خوارزميات MPEG المتطورة ( MPEG-4 & MPEG-7……… ) .
المراجع :
1- Jerry C. Whitaker. Interactive Television Demystified . McGraw-hill. 2000
www.mpeg.org- www.wikipedia.com- www.howstaffwork.com- www.tvhandbook.com- -www.nawat.net - محاضرات مقرر هندسة التلفزيون للدكتور علي زيد - جامعة حلب 2006- 2007 .
University of Aleppo Faculty of Electrical and Electronic Engineering Department of Communication
Dr . ِِAli Zeid
Prepared By : Sarbast Khalaf & Abdulla Hesko
Academic Year : 2006-2007