فشردهسازی ویدیو پیچیدهتر از فشردهسازی تصویر است چرا که ویدیوی خام حاصل پشت هم قرار دادن تعدادی عکس یا فریم است و برای کاهش حجم، میبایست فریمها را بررسی کرد و با روشهای پیچیده، شباهت فریمها را بررسی کرد و بخشهای مشابه را از فریمهای مختلف حذف کرد.
در این مقاله اشارهای مختصر به الگوریتمهای امروزی فشردهسازی ویدیو خواهیم داشت. با ما باشید.
لزوم فشردهسازی مولتیمدیا
عکسها و ویدیوها و صداهایی که فشرده نشده باشند، حجم بسیار زیادی اشغال میکنند. به عنوان مثال یک فایل عکس خام یا RAW تقریباً ۲ الی ۴ برابر عکسی با فرمت JPG فضا اشغال میکند. حتی عکسهای JPG که دوربینها ارایه میکنند را میتوان با افت نسبتاً کم کیفیت، کمحجمتر کرد. در این صورت شاید کیفیت عکس کمی کاهش پیدا کند اما در مقابل حجم فایل عکس ممکن است ۱۰ برابر کمتر شود!
در مورد ویدیوها نیز ویدیوی خام بسیار حجیم است. شاید یک دقیقه ویدیوی خام با رزولوشن نسبتاً پایین، بیش از ۱ گیگابایت فضا اشغال کند! در حالی که فشردهسازی موجب شده که حجم فیلمهایی که در فضای وب برای دانلود ارایه میشود، کمتر از ۲ گیگابایت باشد.
همانطور که اشاره کردیم فشردهسازی ویدیو مثل فشردهسازی عکس نیست. برای فشرده کردن یک عکس خام یا RAW، میتوانید صرفاً نویز بخشهای یکدست و تکرنگ را حذف کنید. با همین روش ساده، حجم عکس به شدت کاهش پیدا میکند اما در مورد ویدیو باید زمان و فریمهایی که پس از فریم فعلی نمایش داده میشود را در نظر گرفت. الگوریتمهای فشردهسازی ویدیو موثرتر و پیچیدهتر است.
فرمت متداول برای فشردهسازی ویدیو در سالهای اخیر، H.264 بوده و تدریجاً استفاده از H.265 متداول میشود. اما اصول و اساس فشردهسازی نسبتاً یکسان است. لذا در ادامه اصول فشردهسازی ویدیو با فرمت H.264 را بررسی میکنیم.
فشردهسازی چیست؟
فشردهسازی ویدیو به معنی حذف کردن اطلاعات تکراری کلی یا لحظهای و اطلاعات غیرمهم است. با حذف کردن اطلاعات تکراری و در واقع یک بار استفاده از این اطلاعات به جای چند بار، حجم ویدیو به مراتب کمتر خواهد شد.
به عنوان مثال فرض کنید در ویدیویی، چهرهی شخصی در حال صحبت کردن روی پسزمینه که ثابت است، دیده میشود. ممکن است صورت شخص در موقعیت نسبتاً ثابتی قرار گرفته باشد و تنها بخشهایی مثل چشم و لبها حرکت کند. در این صورت در تمام فریمها، نیازی به اطلاعات تمام بخشهای تصویر نیست. میتوان یک فریم کامل شامل پسزمینه و اطراف چهره را قرار داد و در فریمهای بعدی بخشی که تغییر کرده یعنی لبها و چشم را ذخیره کرد. با این روش ممکن است حجم اطلاعات لازم برای بازسازی فریمهای مجزای ویدیو، دهها برابر کمتر شود.
به فریمی که به عنوان مرجع برای ساختن فریمهای بعدی استفاده میشود، intraframe گفته میشود. سایر فریمها نیز به انواعی به اسم B و P تقسیم میشوند که در ادامه با مفهوم این انواع بیشتر آشنا میشویم.
مفهوم I-frames و P-frames و B-frames
با توضیحاتی که پیشتر دادیم، روشن است که I-frame یا فریم i، یک فریم با دیتای کامل است و در واقع تصویری است که از ویدیوی اصلی استخراج شده و با توجه به متفاوت بودن آن با فریمهای قبلی، به عنوان یک فریم کامل در ویدیو استفاده میشود. این فریم حجم بالاتری نسبت به سایر فریمها دارد.
اما فریمهای بین فریمهای i: این فریمها با استفاده از اطلاعات موجود در فریمهای i ساخته میشوند. در واقع زمانی که ویدیو را در ویدیو پلیر Play میکنید، عمل بازسازی فریمها آغاز میشود.
فریمهای میانی به دو نوع تقسیم میشوند:
- برخی فریمها صرفاً با استفاده از اطلاعات فریم i قبلی ساخته میشوند. به این فریمها P-frame گفته میشود.
- برخی از فریمها حاصل ترکیب کردن اطلاعاتی از فریم P قبلی و فریم i بعدی هستند که به آنها B-frame گفته میشود. حرف B مخفف bi-directionally predicted یا پیشبینی دوجهته است.
اما یک مثال ساده برای روشن شدن مفهوم سه نوع فریم I و P و B:
فرض کنید یک دایرهی نقطهخوار داریم! نقطهها در صفی حرکت میکنند و دایره آنها را میبلعد. در شروع چنین ویدیویی، یک فریم i داریم که شامل همهچیز است.
پس از لحظاتی صف نقطهها کمی نزدیکتر میشوند. لذا یک فریم P ایجاد میکنیم و در آن فقط موقعیت جدید صف نقطهها را ذکر میکنیم. همانطور که در تصویر زیر مشاهده میکنید، فعلاً تعداد نقاط سه عدد است، درست مثل فریم i قبلی.
پس از لحظاتی یک نقطهی جدید در انتهای صف ظاهر میشود. موقعیت این نقطه را از فریم i بعدی محاسبه میکنیم و لذا این فریم، یک فریم B است چرا که به موقعیت نقاط در فریم P قبلی و همینطور نقطهی چهارم در فریم i بعدی نیاز دارد.
اینکدر و اینکد کردن فریمهای I و P و B
برای فشرده کردن فریمهای I میتوان مشابه روشهای فشردهسازی عکسها اقدام کرد. این فریمها یک تصویر کامل هستند لذا میتوان مثل عکسهایی با فرمت JPG، فشردهسازی ویدیو را انجام داد. معمولاً فشردهسازی عکسها در فضای رنگ YCbCr انجام میشود که در این فضای رنگ، روشنایی یک پارامتر است و دو پارامتر دیگر رنگ را مشخص میکند.
در روشهای قدیمی فشردهسازی ویدیو که شناسایی حرکت سوژهها و در حالت کلی، الگوریتمهای پیشبینی وجود نداشت، بازدهی به مراتب پایینتر بود. لذا ویدیوهایی با فرمت DV یا Motion JPG، حجم بالایی دارند.
در الگوریتمهای امروزی فشردهسازی ویدیو مثل H.264، فریمهای مرجع که I-frame نامیده شده، به صورت هوشمندانه در موقعیتهای زمانی مختلف چیده میشوند. هر چه فاصلهی این فریمها بیشتر باشد، طبعاً فشردهسازی بیشتر خواهد شد اما اگر فاصله بیش از حد زیاد باشد، افت کیفیت قابل توجه میشود. اینکه فاصله چقدر باشد و هر یک از فریمهای i از نظر جزئیات تصویر، چقدر شبیه به ویدیوی اصلی باشد، توسط اینکدر ویدیو به صورت هوشمندانه محاسبه میشود.
برای فشردهسازی ویدیو با فرمت H.264 که یک استاندارد کلی است، چندین اینکدر مختلف و معروف موجود است. در حال حاضر معروفترین و بهترین Encoder که به خصوص برای فشرده کردن فیلمها در فضای وب استفاده میشود، x264 است.
تعداد فریمهای P و B و اینکه در چه زمانی از چه فریمی استفاده شود هم توسط اینکدر به صورت هوشمندانه مشخص میشود. هر چه پیشبینی و تخمین اینکدر به ویدیوی اصلی نزدیکتر باشد، طبعاً کیفیت ویدیوی فشرده شده به ویدیوی اصلی نزدیکتر خواهد بود. به همین جهت است که با تغییر دادن تنظیمات در نرمافزارهای Convert ویدیو یا نرمافزارهای ویرایش ویدیو، محل و تعداد فریمهای B و P نیز تغییر میکند.
در استاندارد H.264 سطح ویدیو به بخشهایی به اسم ماکروبلاک یا بلوکهای بزرگ تقسیم میشود. معمولاً ابعاد این ماکروبلاکها، ۱۶ در ۱۶ نمونه است. الگوریتمهایی ویدیو را پردازش میکنند و تلاش میشود که تشابه بین بلوکهای فریم فعلی با فریمهای قبلی که در واقع فریم مرجع یا Reference Frame هستند، شناسایی شود. اگر تشابهی پیدا شود، رابطهی ریاضی بین ماکروبلاک فعلی با آنچه در فریم مرجع موجود است، محاسبه میشود. در واقع رابطهی ریاضی یک بردار حرکتی یا Motion Vector است که مشخص میکند بلوکها در ویدیو، در چه جهتی حرکت کردهاند.
حین پخش کردن ویدیو، فریم مرجع با در نظر گرفتن بردارهای حرکتی تغییر شکل میدهد و فریمهای بعدی ساخته میشود. این کار به پردازشی نسبتاً سنگین نیاز دارد که بهتر است توسط شتابدهی سختافزاری به کمک پردازندهی گرافیکی یا GPU انجام شود و نه پردازندهی اصلی یا CPU.
در برخی CPUها و GPUها، واحدی به اسم موتور مولتیمدیا وجود دارد که برای پردازش بهینه و سریع این امور طراحی شده است و با کمترین مصرف برق، دیکد ویدیو انجام میشود.
maketecheasierسیارهی آیتی