کسانی که کسب و کار اینترنتی دارند و وب‌سایتی را مدیریت می‌کنند، کم و بیش نام robots.txt را شنیده‌اند. فایلی که به ربات‌های موتورهای جست‌وجو می‌گویند که کدام بخش‌های وب‌سایت را نباید ایندکس کنند. robots.txt یک فایل متنی ساده است و چند نوع دستور ساده در آن استفاده می‌شود. بنابراین یادگیری نحوه‌ی کارکرد آن و دستوراتی که می‌توان در آن استفاده کرد بسیار ساده است.

در این مقاله شیوه‌ی استفاده کردن از robots.txt و نحوه‌ی تنظیم کردن آن را بررسی می‌کنیم. علاقه‌مندان به وب و طراحی سایت با ما همراه شوید.

فایل robots.txt چیست؟

قبل از آشنایی با ساختار robots.txt می‌بایست روش کار موتورهای جست‌وجو را بدانیم. موتورهای جست‌وجو خزنده‌ها یا crawlers خود را سراغ وب‌سایت‌ها می‌فرستند و روزانه بسته به ترافیک و حجم صفحات وب‌سایت و همین‌طور سرعت بارگذاری وب‌سایت، تعدادی از صفحات را دقیقاً بررسی می‌کنند. خرنده در حقیقت یک نرم‌افزار است که محتویات وب‌سایت را بررسی می‌کند و حتی فایل‌ها و صفحاتی که کمتر کسی به آن نیاز دارد را مرور می‌کند. در ادامه نتیجه‌ی بررسی و محتوایی که خزنده پیدا کرده، ذخیره می‌شود و موتور جست‌وجو می‌تواند کاربران را به آن ارجاع دهد. به عبارت دیگر صفحاتی که خزنده پیدا کرده، اصطلاحاً ایندکس یا اندیس‌گذاری می‌شود.

نام دیگر خزنده، Bot یا Spider است. بات یا همان ربات، تمام محتویات وب‌سایت را بررسی می‌کند مگر آنکه به آن بگوییم که کدام بخش‌ها می‌بایست توسط موتور جست‌وجو ایندکس شوند. معمولاً برعکس این فرآیند انجام می‌شود و به ربات می‌گوییم که چه صفحاتی را ایندکس نکند.

از جمله صفحاتی که نباید ایندکس شود می‌توان به صفحات مدیریتی وب‌سایت، صفحات بک‌اند و همین‌طور صفحاتی که محتوای چندان ثابت و مفیدی ندارد مثل صفحات برچسب و ... اشاره کرد. کاربری که به وب‌سایت مراجعه کرده با کلیک روی لینک‌های موجود، به صفحات مختلف دسترسی پیدا می‌کند مگر آنکه برخی صفحات سطح دسترسی عمومی نداشته باشند اما ربات از بررسی صفحاتی که منع شده، خودداری می‌کند.

اکنون نقش فایل ساده‌ای به اسم robots.txt روشن است: این فایل به ربات موتورهای جست‌وجو می‌گوید که چه صفحاتی را ایندکس نکنند و در نتایج سرچ نشان ندهند.

توجه کنید که ربات در مسیر ریشه‌ی وب‌سایت قرار می‌گیرد:

www.yoursite.com/robots.txt

نمونه‌ای از یک فایل ربات کامل:

فایل robots.txt چیست؟ چگونه با robots.txt ایندکس شدن توسط موتورهای جستجو را مدیریت کنیم؟

آیا ربات‌ها (خزندگان موتورهای جست‌وجو) همیشه از فرامین robots.txt پیروی می‌کنند؟

این سوال همیشگی برای وب‌مسترها مطرح است که آیا رباتی مثل ربات گوگل، دقیقاً طبق دستوراتی که در فایل robots.txt داده شده، عمل می‌کند یا ممکن است برخی صفحات منع شده را در نتایج گوگل رویت کنیم و متوجه شویم که ربات گوگل آنها را ایندکس کرده است؟

پاسخ مثبت است. برخی ربات‌ها از فرامین robots.txt تخطی می‌کنند ولیکن توجه کنید که این ربات‌ها مثل ربات‌های گوگل و بینگ معروف و شناخته‌شده نیستند بلکه به سرویس‌های ارسال خودکار پیام‌های تبلیغاتی و ایمیل مربوط می‌شوند و حتی ممکن است برای شناخته نشدن، شبیه ربات گوگل طراحی شوند! این ربات‌ها ممکن است با توجه به محتویات robots.txt، کار خود را از صفحاتی که منع‌شده آغاز کنند! دقیقاً برعکس آن چیزی که هدف فایل robots.txt است.

ساختار فایل robots.txt چگونه است و چگونه می‌توان یک فایل robots.txt نوشت؟

در فایل robots.txt چند بخش اصلی و مهم وجود دارد که در ادامه به هر یک اشاره می‌کنیم و در نهایت می‌توان با شناخت تمام بخش‌ها، یک فایل robots.txt را تکمیل کرد و هر دستوری که موردنیاز است، به آن اضافه کرد.

User Agent یا تعریف ربات

اولین بخش فایل robots.txt، بخشی است که ربات هدف را مشخص می‌کند. به عنوان مثال می‌توان به ربات گوگل یا Googlebot یک نوع دستور داد و به ربات Bingbot صفحات دیگری را معرفی کرد که نباید ایندکس شوند.

دستور زیر به این معنی است که تمام ربات‌ها می‌بایست از دستوراتی که در ادامه نوشته می‌شود، تبعیت کنند:

User-agent: *

اما به جای * می‌توان نام ربات‌ها را نوشت، مثل نمونه‌ی زیر:

User-agent: Googlebot

[صفحاتی که نباید ایندکس شوند]

User-agent: Googlebot-Image/1.0

[صفحاتی که نباید ایندکس شوند]

User-agent: Bingbot

[صفحاتی که نباید ایندکس شوند]

به این ترتیب می‌توان به هر ربات، لیستی از صفحات ممنوعه داد. لیست کامل User-agentها را در این آدرس مشاهده کنید.

وارد کردن مسیرها و صفحاتی که نباید ایندکس شوند

برای محدود کردن دسترسی ربات به مسیری مثل ادمین و تمام مسیرهای زیرمجموعه‌ی آن، از دستور زیر استفاده کنید:

Disallow: /admin/

با دستور فوق، ربات‌ها مسیرهایی مثل yoursite.com/admin و ursite.com/admin/login و همین‌طور فایل‌های موجود مثل yoursite.com/admin/files/secret.html را بررسی نمی‌کنند. اگر مقصود شما مسدود کردن یک صفحه‌ی خاص است، آدرس آن را مثل نمونه‌ی زیر وارد کنید:

Disallow: /public/exception.html

برای اضافه کردن مسیرهای بیشتر، هر یک را در خطی جدید اضافه کنید:

Disallow: /private/

Disallow: /admin/

Disallow: /cgi-bin/

Disallow: /temp/

و دستور زیر نیز تمام مسیرها و صفحات وب‌سایت را مسدود می‌کند!

Disallow: /

می‌توانید مسیرها را کمی پیچیده‌تر نیز تعریف کنید. با استفاده کردن از * و عبارت‌های بعد یا قبل از آن، می‌توان مسیرهای خاص را مسدود کرد. به عنوان مثال اگر بخواید تمام فایل‌های html موجود روی سرور شما که در مسیر /admin/ قرار دارند و ابتدای نامشان حرف a است را از دید ربات‌ها پنهان کنید، دستور زیر مفید فایده واقع می‌شود:

Disallow: /admin/a*

به این ترتیب صفحاتی که نامشان با حروف دیگر آغاز می‌شود، ایندکس می‌شوند و تنها مواردی که ابتدا حرف a و سپس عبارتی دیگر دارند، مسدود می‌شوند.

و اگر بخواهیم استثناء پیچیده‌تری تعریف کنیم، به عنوان مثال مسیرهایی که نامشان با a شروع شده و در ادامه عبارت یا مسیر خاصی دارند، ایندکس شوند، می‌بایست از دستور زیر استفاده کنیم:

Disallow: /admin/a*

Allow: /admin/a*/*

معنی عبارت فوق این است که فایلی مثل /admin/abc/a.html ایندکس می‌شود! حتی با وجود اینکه کمی بالاتر، مسیرهایی که با حرف a شروع شده را مسدود کرده‌ایم.

نحوه‌ی تعریف آدرس‌هایی که ربات مجاز است بررسی کند

همان‌طور که در بخش قبلی اشاره کردیم، دستور Allow برای مجاز قلمداد کردن مسیرها کاربرد دارد. مثل دستور زیر که تمام مسیرها را مجاز اعلام می‌کند:

Allow: /*

نقشه‌ی فایل یا Sitemap‌ را در ربات سایت اضافه کنید

نقشه‌ی سایت لیستی از تمام مسیرها و دقیق‌تر بگوییم، مطالب و پست‌های وب‌سایت را شامل می‌شود و پس از هر بروزرسانی، معمولاً بروز می‌شود و در نتیجه موتورهای جست‌وجو به سرعت متوجه اضافه شدن یک مطلب جدید می‌شوند و نیازی به انتظار طولانی‌مدت برای بررسی وب‌سایت توسط ربات‌ها نیست.

مسیر نقشه‌ی سایت را با دستور زیر در فایل ربات اضافه کنید:

Sitemap: [URL of sitemap]

به جای URL of sitemap مسیر نقشه‌ی سایت خود را به صورت کامل وارد کنید، مثل نمونه‌ی زیر:

Sitemap: //www.site.com/sitemap.xml

از ربات‌ها بخواهیم که پس از هر مراجعه، کمی صبر کنند!

اگر بروزرسانی‌های وب‌سایت شما کم است یا سرور بسیار ضعیفی دارید، بهتر است از ربات‌ها بخواهید که پس از خزیدن در هر صفحه، کمی صبر کنند و سپس سراغ صفحه‌ی بعدی بروند. به این منظور می‌بایست تأخیر را بر حسب ثانیه با دستور زیر مشخص کرد:

Crawl-delay: 8

و این یعنی ربات پس از بررسی هر صفحه، ۸ ثانیه صبر می‌کند.