فایل robots.txt

فایل robots.txt

چطور با ربات گوگل حرف بزنیم؟

اصولا پایه و اساس ربات ها هم ربات های فیزیکی و هم ربات های نرم افزاری وابسته به دستور است ، دستور همیشه مشخص می کند چه کاری انجام شود و چه کاری لازم نیست انجام شود.

حال بنا به دلایلی اگر نمی خواهید ربات گوگل مسیر و یا دایرکتوری خاصی را بازبینی کند بهتر است با دستورات فایل robots.txt آشنا شوید.

تاریخچه فایل robots.txt

فایل robots.txt توسط آقای Martijn Koster در فوریه سال ۱۹۹۴ برای کنترل ربات هایی مثل ربات خزنده گوگل ساخته شده ، هر چند همه روبات ها از آن پیروی نمی گیرند.

عملکرد فایل robots.txt به این صورت است که اگر چیزی در آن دستور داده شده باشد ربات تلگرام از آن پیروی می کند در غیر اینصورت به فرض اینکه صاحب وب سایت هیچ دستورالعمل خاصی را ندارد همه سایت را میخزد.

خوشبختانه موتورهای جستجو زیادی مانند Ask , AOL , Baidu , Bing , Google , Yahoo! و Yandex از دستورات فایل فایل robots.txt پیروی می کنند.

چند نمونه دستور فایل robots.txt

دستور فایل robots.txt

دستور فوق به همهٔ ربات‌ها اجازه می دهد از همهٔ فایل‌ها را ببینند ، علامت * یه معنی همهٔ ربات‌ها می‌باشد در اینجا دستور disallow هیچ مقداری ندارد به این معنی است که هیچ صفحه‌ای disallowed نشده.

User-agent: * Disallow:

البته یک فایل خالی robot.txt نیز نتیجه مشابه دستور بالا دارد.

اگر نمیخواهید ربات ها وارد سایت شوند از دستور زیر استفاده کنید:

User-agent: * Disallow: /

حال اگر میخواهید تنها چند کسیر از داخل سایت را محدود کنید دستور زیر را بنویسید:

User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/

شما حتی می توانید یک فایل خاص را با دستور زیر محدود کنید:

User-agent: * Disallow: /directory/file.html

البته فایل های دیگر موجود در این مسیر مشاهده می شوند.

می خواهید ربات خاصی را از تصمیم خود مطلع کنید؟ مثلا میخواهید به او بگو ید وارد سایت نشود:

User-agent: BadBot # replace 'BadBot' with the actual user-agent of the bot Disallow: /

حال اگر میخواهید ۲ روبات را از وارد شدن به سایت منع کنید دستور زیر را بنویسید

این مثال به دو ربات خاص می‌گوید که وارد یک دایرکتوری خاص نشوند:

User-agent: BadBot # replace 'BadBot' with the actual user-agent of the bot User-agent: Googlebot Disallow: /private/

این هم برای نوشتن یادداشت یا همان کامنت :

# Comments appear after the "#" symbol at the start of a line, or after a directive User-agent: * # match all bots Disallow: / # keep them out

دستورات اجازه Allow به ربات ها

گاهی می خواهید یک صفحه را نادیده بگیرند ولی محتویات آن را ایندکس کنند ، مثلا تصاویر و نوشته ها ایندکس شود اما فایل نه ، برای این کار این کد را بنویسید و دستور دهید:

Allow: /directory1/myfile.html Disallow: /directory1/

دستور نقشه سایت

همچنین شما می توانید نقشه سایت را در فایل robots.txt مدیریت کنید :

Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml Sitemap: http://www.google.com/hostednews/sitemap_index.xml

بستن فایل image در robots.txt

اگر می خواهید گوگل فایل تصاویر شما را در نتایج جستجو تصاویر نشان ندهد می توانید این را در فایل robots.txt تنظیم کنید.

 Disallow: /images

با کد بالا ما اجازه دسترسی تصاویر را از ربات های گوگل می گیریم.

تنظیمات فایل robots.txt برای سئو سایت

با توجه با قابلیتی که فایل robots.txt دارد ما باید چه فایل ها و دایرکتوری هایی را از دسترس ربات های گوگل حذف نماییم. فولدر و دایرکتوری مدیریت که در آن موارد امنیتی وجود دارد آیتم مناسبی می باشد که باید در فایل robots.txt بسته شود. البته فایل مدیریت در سیستم مدیریت محتوای جوملا و وردپرس متفاوت است. برای مثال برای فایل robots.txt برای جوملا کد زیر را درج کنید.

Disallow: /administrator/

همچنین برای سیستم مدیریت محتوا وردپرس کد زیر را در فایل robots.txt قرار دهید.

Disallow: /wp-admin/

فایل های js و css در robots.txt را محدود نکنید

فایل های js و css در robots.txt

گوگل در اپدیت خود موبایل فرندلی خود را ملاکی در سئو سایت قرار داده است و از این رو نباید فایل های css و js را در فایل robots.txt ببندید زیرا که در این صورت موبایل فرندلی بودن سایت رعایت نمی گردد. بنابراین دقت داشته باشید که فایل js و css را در فایل robots.txt به صورت disallow نباشد.

عدم بستن images در robots.txt

images در robots.txt

جستجو تصاویر و سرچ تصاویر نیز از دیگر مواردی است که توسط کاربران جستجو می گردد و در واقع می تواند جزو ترافیک ورودی به سمت سایت شما باشد. بنابراین نباید اجازه دسترسی و ذخیره فایل تصاویر را برای ربات های گوگل ببندید. بنابراین اگر کد زیر در فایل robots.txt شما وجود دارد پاک نمایید.

Disallow: /images/

عدم دسترسی گوگل به صفحه در robots.txt

اگر می خواهید ربات های گوگل صفحات و یا دایرکتوری خاصی را در سایت شما را نداشته باشند و در پایگاه داده خود ایندکس نکنند می توانید در فایل robots.txt این آیتم را درج نمایید.

Disallow: /template/ Disallow: http://example.com/blog/

دستورات متا تگ‌ها اما خارج از فایل robots.txt

دسترات بالا همگی در فایل robots.txt اجرا می شوند ، اما دستوراتی وجود دارد که در صفحات نیز اجرا می شوند و با ربات ها ارتباط بر قرار می کنند ، این دستورات متا تگ‌های ربات‌ها و تگ‌های X-Robots هستند.

متا تگ noindex چیست؟

<meta name="robots" content="noindex" />

بهتر است هنگام استفاده از فایل robots.txt احتیاط کنید و یا از یک متخصص کمک بگیرید، در صورت اشتباه ممکن است کل سایت از ایندکس خارج شود و یا با مشکل جدی روبرو شود.

نظری دهید

آدرس ایمیل شما منتشر نخواهد شد.