برای تبدیل فایل صوتی انگلیسی به متن، نرمافزارهای مختلفی وجود دارد و معمولاً دقت تبدیل صدا به متن خوب است اما در مورد زبانهای خاصتر نظیر زبان شیرین فارسی، گزینهها محدود است. به جای نصب کردن برنامه میتوانید از سایتها و اپلیکیشنهای تحت وب برای تبدیل صدا به متن استفاده کنید به خصوص که معمولاً دقت کار در تبدیل صدا به متن به صورت آنلاین، بیشتر است.
در این مقاله با چند وبسایت مختلف که برای تبدیل صوت به متن طراحی شده، میپردازیم. با سیارهی آیتی همراه باشید.
قبل از هر چیز توجه کنید که سایتها و برنامههای تبدیل صدا به متن، معمولاً از زبانهای پرکاربرد دنیا نظیر انگلیسی به خوبی پشتیبانی میکنند در حالی که زبان فارسی در بیشتر راهکارهای آنلاین و نرمافزارهای آفلاین، پشتیبانی نمیشود و از طرفی دقت تبدیل صدا به متن فارسی، پایینتر است. بهتر است خودتان دست به کار شوید و سایتها یا برنامهها را تست و بررسی کنید. شاید دقت عمل در حد مطلوب شما باشد.
تبدیل ویدیو و صدا به زیرنویس با Revoldiv
سایت Revoldiv یکی از سایتهای ساده برای تبدیل کردن فایل صوتی به متن و همینطور تبدیل ویدیو به متن است و البته به صورت رایگان قابل استفاده است! حتی نیازی به ایجاد حساب کاربری نیست ولیکن اگر حساب کاربری بسازید، فایلهای شما روی فضای ابری ذخیره میشود و میتوانید تغییرات را ذخیره کنید.
سایت Revoldiv نیز مثل بسیاری از سایتها و برنامههای مشابه، از مدل Whisper شرکت OpenAI برای تبدیل سریع و دقیق صدا به متن استفاده میکند. حتی اگر چند نفر همزمان صحبت کنند و صداهایی مثل دست زدن و تشویق به خوبی به متن تبدیل میشود. از دیگر امکانات سایت Revoldiv میتوان به ویرایش متن و حذف خطاها و استفاده از کلمات جایگزین و نیز ویرایش ویدیو یا ویرایش صدا به صورت همزمان با متن اشاره کرد. میتوانید در نهایت متن را به صورت فایل متنی ساده یا به صورت زیرنویس دانلود کنید! بنابراین اگر به دنبال سایتی برای تبدیل صدا به زیرنویس باشید، Revoldiv یکی از گزینههای جالب خواهد بود.
برای سادهتر شدن استفاده از Revoldiv میتوانید افزونه آن را روی مرورگر گوگل کروم یا روی مرورگرهایی که مبتنی بر هسته کرومیوم طراحی شدهاند، نصب کنید.
در پایان فراموش نکنید که در سایت Revoldiv امکان بارگذاری دستهای از فایلها وجود ندارد و در ضمن مدت زمان فایل حداکثر ۲ ساعت میتواند باشد.
Otter
سایت بعدی Otter است که به عنوان یک دستیار هوش مصنوعی برای چت و گفتگوهای آنلاین معرفی شده است. به عبارت دیگر به صورت زنده و آنی، صدا را به متن تبدیل میکند و برای شما یادداشت تهیه میکند. در عین حال میتوانید از سایت Otter برای تبدیل کردن صوت به متن و ایجاد زیرنویس و توضیح متنی برای ویدیوهای ضبط شده استفاده کنید.
سایت Otter به صورت رایگان قابل استفاده است اما در این حالت تبدیل صوت به متن برای ۳ فایل صوتی یا ویدیویی قابل استفاده است. برای تعداد بیشتر لازم است که حساب پولی تهیه کنید. با حساب پرو که ماهانه ۸ دلار قیمتگذاری شده، میتوانید حداکثر ۱۰ فایل صوتی را به متن تبدیل کنید. برای تعداد نامحدود میبایستی پلن Business را تهیه کنید که گرانتر تمام میشود. لذا به نظر میرسد که این سایت هوش مصنوعی تبدیل فایل صوتی به متن، چندان ارزان و جذاب نیست!
ایجاد زیرنویس با آپلود فایل در یوتیوب
یک راهکار قدیمی برای تبدیل صوت به متن، تبدیل صدا به متن انگلیسی آنلاین گوگل یا یوتیوب است! در واقع آپلود کردن ویدیو در وبسایت معروف YouTube که جزو سایتهای گوگل و ایجاد زیرنویس به صورت خودکار بسیار ساده است.
فراموش نکنید که برای تبدیل فایل صوتی به متن فارسی رایگان نیز میتوانید از خدمات رایگان گوگل استفاده کنید که منظورمان همان اپلیکیشن تحت وب Google Docs است و خوشبختانه تایپ به زبان فارسی پشتیبانی میشود. لذا میتوانید فایل صوتی را پلی کنید و منتظر شوید که متن مربوطه تایپ شود. ولیکن این راهکار برای هر نوع فایل صوتی مناسب نیست و شاید کیفیت کار به خوبی استفاده از مدل هوش مصنوعی Whisper نباشد.
برای تبدیل فایل صوتی به متن لازم است که ابتدا آن را به ویدیو تبدیل کنید که کار سادهای است. میتوانید با استفاده از برنامههای مختلف، فایل صوتی را روی یک عکس یا کلیپ ویدیویی ساده قرار دهید و از آن به شکل ویدیو، خروجی بگیرید. برای ساخت زیرنویس به کمک یوتیوب میتوانید پس از آپلود کردن فایل، از دکمهی Show transcript استفاده کنید. دقت کنید که نیازی به انتشار ویدیو به صورت عمومی وجود ندارد!
آپلود کردن چند فایل روی یوتیوب امکانپذیر است ولیکن محدودیت روزانه وجود دارد. علاوه بر این اگر بخواهید زیرنویس فایل را دانلود کنید، گزینهای برای این مهم پیدا نمیکنید و تنها راهکار این است که متن را به صورت دستی انتخاب کرده و کپی کنید و در یک فایل متنی ساده، پیست کنید.
سایت Rev و تبدیل صدا به متن با نیروی انسانی
اگر به دنبال تبدیل فایل صوتی به متن رایگان هستید، سایت Rev نیز گزینهی محبوبی است. این سایت علاوه بر هوش مصنوعی تبدیل صدا به متن، از نیروی انسانی نیز برای این کار استفاده میکند و در واقع میتوانید انتخاب کنید که تبدیل صدا با متن چگونه انجام شود. سایت Rev از زیرنویس و توضیحنویسی و ترجمه نیز پشتیبانی میکند..
سایت Rev برای پلن رایگان، محدودیت آپلود فایل حداکثر ۳۰ دقیقهای در نظر گرفته و هر ماه میتوان حداکثر ۳۰۰ دقیقه صدا یا ویدیو آپلود کرد. با پرداخت ۱۰ دلار، میتوانید از پلن Basic استفاده کنید که محدودیت به ۹۰ دقیقه و ماهانه ۱۲۰۰ دقیقه تغییر میکند. اگر بخواهید تبدیل صدا به متن به کمک نیروی انسانی انجام شود، هزینه بسیار بالاتر خواهد بود و هر دقیقه، ۱.۵ دلار خرج روی دستتان میگذارد! اما به هر حال اگر تایپ کردن متن حین شنیدن صدا به کمک انسان انجام شود، دقت و کیفیت کار به مراتب بالاتر است.
سایت هوش مصنوعی TurboScribe
سایت TurboScribe نیز پلتفرمی برای تبدیل صدا به متن است که ارزانتر از دو سایت قبلی تمام میشود. این سایت از مدل هوش مصنوعی Whisper بهره میگیرد که از ۹۸ زبان دنیا پشتیبانی میکند! در پلن رایگان، میتوانید روزانه ۳ فایل صوتی یا ویدیویی حداکثر ۳۰ دقیقهای را به متن تبدیل کنید. پلن بعدی Turbo Unlimited است که ماهانه ۱۰ دلار هزینه دارد و میتوانید حداکثر ۱۰ ساعت ویدیو یا صدا آپلود کرده و متن مربوطه را تحویل بگیرید.
تبدیل صوت به متن با هوش مصنوعی Whisper
در مورد مدل Whisper در معرفی خدمات ۲ سایت تبدیل صدا به متن صحبت کردیم، میتوانید مستقیماً از این مدل که توسط شرکت OpenAI ارایه شده، استفاده کنید چرا که در گیتهاب به اشتراک گذاشته شده است. در واقع استفاده از Whisper رایگان است و با توجه به توانمندی و دقتی که دارد، تاکنون در طراحی بسیاری از سایتها و برنامههای تبدیل گفتار به متن از آن استفاده شده است. مسأله اصلی رابط کاربری و خدماتی است که استفاده از Whisper را برای کاربر ساده کند.
نکتهی جالب توجه این است که OpenAI که سازندهی معروف ChatGPT است، در حقیقت Whisper را برای تحلیل و بررسی ویدیوهای یوتیوب و تعلیم مدلهای هوش مصنوعی طراحی کرده است و بعدها آن را به صورت رایگان در اختیار عموم قرار داده است. منبع یا سورس Whisper در حال حاضر روی گیتهاب به صورت رایگان اشتراکگذاری شده است. لذا اگر اهل برنامهنویسی هستید، میتوانید به صفحه Whisper در گیتهاب مراجعه کنید و از آن در طراحی سایت و برنامه خودتان استفاده کنید.
دقت کنید که برای پردازش ویدیو یا صدا و تبدیل به متن به کمک Whisper، سیستم نسبتاً خوبی نیاز دارید و به خصوص کارت گرافیک قوی برای محاسبات هوش مصنوعی موردنیاز است. لازم است که پایتون 3.7 را نصب کنید و مجموعه کدک FFMPEG را نیز برای برای پردازش فایل ویدیویی یا صوتی نصب کنید. توضیحات کامل در گیتها موجود است. میتوانید برای سادهتر شدن کدنویسی، از سرویس Google Colab استفاده کنید و به صورت آنلاین کدها را بنویسید!
با این توضیحات میتوان گفت که راهکار آخر، در واقع مناسب عموم افراد که سایتی برای تبدیل صوت به متن فارسی یا انگلیسی نیاز دارند، نیست بلکه برای برنامهنویسان و توسعهدهندگان مناسب است.
makeuseofسیارهی آیتی