ویرایش کردن یک فایل PDF و مخصوصاً تبدیل کردن پی‌دی‌اف فارسی به متن، معمولاً مشکل است، درست برعکس فایل‌های Word و Excel و ... که در نهایت می‌توان آنها را به PDF تبدیل کرد. به همین جهت است که توصیه می‌شود همیشه فایل‌های خام را در کنار فایل پی‌دی‌اف که آماده‌ی پرینت کردن است، نگهداری کنیم. اما چگونه می‌توان فایل PDF را به فایلی با قابلیت ویرایش تبدیل کرد و چگونه می‌توان متن را از یک فایل پی‌دی‌اف استخراج کرد؟

معمولاً تبدیل PDFهایی که زبان اصلی‌شان، انگلیسی است، ساده است اما در مورد زبان فارسی چه می‌توان کرد؟ در ادامه به معرفی راه حلی ساده برای تبدیل پی‌دی‌اف فارسی به متن قابل ویرایش می‌پردازیم.

پی‌دی‌اف فرمتی است که برای انتقال محتوا طراحی شده و در حقیقت محتوای یک فایل آفیس مثل ورد را بدون تغییر در ساختار آن، جابجا می‌کند. معمولاً برای پرینت کردن نیز ابتدا فایل معمولی به فایل PDF تبدیل می‌شود تا در کامپیوتر مقصد، به دلایل مختلفی مثل نبود فونت یا ...، مشکلی در چینش صفحات به وجود نیاید.

اما برعکس این کار یعنی تبدیل کردن پی‌دی‌اف به فایلی مثل ورد که قابلیت ویرایش دارد، کمی مشکل است، به خصوص اگر پی‌دی‌اف، فارسی باشد.

چگونه PDF متنی را به PDF با ساختار عکس تبدیل کنیم تا مشکلات فونت و ... حل شود؟

در برخی نرم‌افزارهای ایجاد PDF، فایل به صورت عکسی تبدیل می‌شود و ساختار متن ثابت می‌ماند. اگر در پرینت گرفتن با نرم‌افزارهایی مثل Adobe Reader و ... در سیستم‌های دیگر، به مشکل بر می‌خورد و فونت‌ها و متن حالت به هم ریخته یا تغییر کرده دارد، بهتر است از این نوع نرم‌افزارها استفاده کنید. نمونه‌ی آن نیترو است که حجم PDF ایجاد شده به کمک آن، چندین برابر بیشتر از PDFهایی است که نرم‌افزاری مثل Adobe Acrobat ایجاد می‌کند.

توجه کنید که گوگل داکس حروف فارسی را از آخر به اول می‌چیند! و نمی‌توان هر PDFی را به متن فارسی قابل‌قبول تبدیل کرد. برای تبدیل متن فارسی، ابتدا پی‌دی‌اف‌هایی که حالت عکسی ندارند را به پی‌دی‌افی که حالت عکس دارد، تبدیل کنید. به عنوان مثال فایل پی‌دی‌اف خود را با مرورگر گوگل کروم باز کنید و پس از فشار دادن کلید ترکیبی Ctrl + P، روی دکمه‌ی Change... در بخش انتخاب پرینتر یا نرم‌افزارهای ایجاد PDF کلیک کنید. در نهایت پرینتر را روی Microsoft Print to PDF یا نرم‌افزارهایی مثل Nitro PDF تنظیم کنید.

قدم آخر کلیک روی دکمه‌ی Print در بالای صفحه و سیو کردن فایل PDF معمولی به صورت PDFی با حالت عکس است.

چگونه PDF‌ فارسی را به فایل Word تبدیل کنیم؟ روش اول: Google Drive

اولین و ساده‌ترین راهکار که نیاز به دسترسی به اینترنت دارد، استفاده از سرویس ابری Google Drive است. در گوگل درایو می‌توان انواع فایل را آپلود کرد و به اشتراک گذاشت اما به جز آپلود و دانلود، می‌توان از مجموعه وب‌اپلیکیشن‌های گوگل مثل Google Docs که مشابه ورد است، Google Sheets که شبیه اکسل است و همین‌طور Google Slides که مشابه پاورپونت است هم استفاده کرد.

قبلاً به روش جالب و ساده‌ی تبدیل کردن عکسی با محتوای متنی فارسی به متن فارسی در گوگل داکس آشنا شدیم و عملکرد آن در کار با متن فارسی را با دو نرم‌افزار و سرویس دیگر، مقایسه کردیم.

ابتدا فایل PDF خود را در سرویس گوگل درایو آپلود کنید. به این منظور می‌بایست به وب‌سایت Google Drive مراجعه کرد و با حساب کاربری گوگل که همان جیمیل معروف است، وارد شد. در ادامه روی دکمه‌ی New در بالای صفحه کلیک کنید و از منویی که نمایش داده شده، گزینه‌ی File Upload را انتخاب نمایید. آدرس فایل پی‌دی‌اف خود را بدهید و کمی صبر کنید تتا فرآیند آپلود به پایان برسد.

در پایین صفحه پنجره‌ی پاپ‌آپ کوچکی برای نمایش پیشرفت آپلود یا سینک شدن فایل‌ها، نمایش داده می‌شود. پس از پایان آپلود، برای باز کردن فایلی که اکنون آپلود شده، بهتر است از این پنجره استفاده کنید و در ادامه برای باز کردن آن به کمک اپ تحت کروم گوگل داکس، از دکمه‌ی Open With‌ بالای صفحه استفاده کنید.

می‌توان در لیست فایل‌های موجود روی گوگل درایو نیز به دنبال فایل جدید جست‌وجو کرد، به خصوص اگر تعداد فایل‌ها کم باشد. به علاوه ابزار Search نیز بالای صفحه قرار دارد و دسترسی به فایل‌هایی که نامشان را می‌دانیم، ساده می‌کند.

از روش سرچ یا به کمک پنجره‌ی پاپ‌آپ و یا با استفاده از راست‌کلیک روی نام فایل PDF، به گزینه‌ی Open With دسترسی خواهید داشت و در ادامه گزینه‌ی Google Docs‌ را انتخاب کنید.

کمی صبر کنید تا گوگل داکس فایل پی‌دی‌اف را پردازش کند و محتوای متنی آن را استخراج و قابل‌ویرایش کند. برای بررسی عملکرد، یکی از مقالات سیاره‌ی آی‌تی را به صورت PDF ذخیره کرده‌ایم و پس از آپلود در گوگل درایو، با گوگل داکس آن را باز می‌کنیم. نتیجه را بررسی کنید:

توجه کنید که با جهت نوشتار را با کلیک کردن روی دکمه‌ی q شکل در نوار ابزار، به حالت راست به چپ تغییر داده‌ایم و ویرایش فونت یا متن صورت نگرفته است. نیم‌فاصله‌ها مثل کلمه‌ی نیمه حرفه‌ای یا شنیده‌اند، حذف شده ولیکن اغلب حروف و کلمات به درستی به متن معمولی و قابل ویرایش تبدیل شده‌اند.

در نهایت برای دانلود کردن فایل PDF به صورت فایل Word با پسوند docx (ورد ۲۰۰۷ به بعد)، روی منوی File کلیک کرده و گزینه‌ی Download as و سپس Microsoft Word (.docx) را انتخاب نمایید.

در صورت نیاز می‌توان از دیگر خروجی‌ها مثل فایل odt و rtf و حتی متن ساده با پسوند txt نیز استفاده کرد.

تبدیل پی‌دی‌اف فارسی به متن قابل ویرایش به کمک Microsoft Word 2016 و نسخه‌های بعدی

اگر آفیس ۲۰۱۶ شامل Word 2016‌ را روی سیستم خود نصب کرده‌اید، می‌توانید به کمک آن، پی‌دی‌اف‌های فارسی را به متن فارسی تبدیل کنید و روش کار بسیار ساده است. ابتدا Word را اجرا کنید و سپس روی منوی File کلیک کرده و گزینه‌ی Open‌ را انتخاب کنید. می‌توانید با شرت‌کات Ctrl + O نیز همین کار را انجام دهید. در ادامه فایل PDF را انتخاب کنید.

 

Word پیامی نمایش می‌دهد که مضمون آن تبدیل کردن PDF‌ به فایل قابل‌ویرایش است. روی دکمه‌ی Yes کلیک کنید تا این کار انجام شود. طبعاً پردازش فایل PDF بسته به حجم آن، کمی طول می‌کشد.

پس از تکمیل پردازش PDF، فایل وردی با بلوک‌های مختلف متن خواهید دید و در حقیقت برای حفظ تشابه ساختار فایل Word به PDF اولیه، از Text box یا جعبه‌ی متن در نقاط مختلف صفحه استفاده شده است. برای ویرایش کردن متن می‌توانید روی باکس‌ها دبل‌کلیک کنید و محتویات را ویرایش کنید. جابجا کردن یک Text box‌ و بزرگ‌تر کردن آن نیز امکان‌پذیر است.

اما مقایسه‌ای بین فایل اصلی و فایل docx که ورد ۲۰۱۶ ایجاد کرده داشته باشیم و دقت آن را بررسی کنیم. مقایسه کنید:

در نهایت می‌توان فایل PDFی که باز شده را مجدداً به صورت PDF‌ یا با فرمت متفاوتی مثل docx ذخیره کرد.

 

با مقایسه‌ای کوتاه به نظر می‌رسد که مایکروسافت ورد و گوگل درایو عملکرد نزدیکی دارند و هر دو به خوبی متن فارسی فایل‌های PDF را تشخیص می‌دهند اما روش کار کاملاً متفاوت است. گوگل از OCR استفاده می‌کند تا متن را در عکس‌ها شناسایی کند و مایکروسافت ورد به شناسایی کردن کاراکترهای متنی می‌پردازد. بنابراین بسته به فایل PDF موجود و همین‌طور با توجه به دسترسی به Word 2016 یا اینترنت، یکی از روش‌ها را انتخاب کنید.

مقایسه کنید:

با استفاده از Word 2016

با استفاده از Google Docs