راههای دیگر جایگزین برای حذف صفحه از نتایج جستجئی گوگل را در ادامه معرفی میکنیم. اجازه دهید برای درک آسانتر فایل Robots.txt از یک مثال ساده شروع کنیم. همانطور که می بینید، ما عنکبوت ها را از خزیدن صفحه مدیریت WP منع می کنیم. و همینطور هر چیزی که بعد از “Disallow” شما آن را برای خزیدن ربات ها مسدود می کنید.
- در صورتی که قصد این را دارید که بصورت قابل اطمینان یک صفحه را از نتایج جستجو حذف کنید بایستی از تگ noindex در صفحه مورد نظر استفاده کنید.
- هدر دادن منابع سرور برای این صفحات، باعث از بین رفتن Crawl Budget شما میشود.
- پروتکل نقشه سایت کمک میکند تا مطمئن شوید که ربات های عنکبوتی وب در هنگام خزیدن یک وب سایت چیزی را از دست نمیدهند، اما رباتها همچنان روند خزیدن معمول خود را دنبال میکنند.
- دایرکت ادمین را باز کرده و روی مدیریت فایل File Manager کلیک کنید.
- بعد توی این فایل باید کد خاصی بنویسیم آقای حسینی؟ چون نمی دونم باید چی باشه تو این فایل.
گوگل این فرمان را نمیشناسد، اگرچه موتورهای جستجوی دیگر آن را تشخیص میدهند. برای Google، مدیران میتوانند فرکانس خزیدن را برای وبسایت خود در کنسول جستجوی Google تغییر دهند. یک ربات خزنده وب از خاصترین مجموعه دستورالعمل ها در فایل robots.txt پیروی میکند. اگر دستورات متناقضی در فایل وجود داشته باشد، ربات از دستور granular بالاتر پیروی میکند. به تصویر فوق دقت کنید، واقعاً حتی برای خود بنده هم جالب است.
روش 1: ویرایش فایل Robots.txt با استفاده از Yoast SEO
با استفاده درست از فایل robots.txt می توانید به رباتهای جستجو بگویید که Crawl Budget سایتتان را به درستی مصرف کنند. همین قابلیت است که اهمیت فایل robots.txt را در سئو دوچندان میکند. چرا؟ ربات خزنده موتور جستجوی گوگل (همان Googlebot خودمان!) دارای ویژگی به نام Crawl Budget است. گوگل تعدادی ربات خزنده دارد که به صورت خودکار وبسایتها را اسکن میکنند و صفحهها را با دنبال کردن لینکها از صفحهای به صفحه دیگر پیدا میکنند. وقتی رباتها میخواهند صفحههایی از سایت را بررسی کنند، اول فایل Robots.txt را میخوانند. در این فایل با چند دستور ساده مشخص میکنیم که ربات اجازه بررسی کدام صفحهها را دارد و کدام صفحهها را نباید بررسی کند.
چک کردن وجود فایل robots.txt
این بهینهسازی Crawl Rate Limit نام دارد که برای ارائه تجربه کاربری بهتر، تعداد صفحات قابل Crawl در یک روز را محدود میکند. Google دارای خزندههایی جدا از «Googlebot» اصلی است، از جمله Googlebot Images، Googlebot Videos، AdsBot و موارد دیگر. با robots.txt میتوانید خزندهها را از فایلهایی که نمیخواهید در جستجوها ظاهر شوند، دور کنید. به عنوان مثال، اگر میخواهید فایلها را از نمایش در جستجوهای Google Images مسدود کنید، میتوانید دستورالعملهای غیر مجاز را روی فایلهای تصویری خود قرار دهید. اما نباید فراموش کنید که اگرچه میتوان سایت مپ در داخل فایل ربات سایت به رباتهای موتور جستجو گوگل معرفی کرد اما این روش بهترین روش معرفی سایت مپ به رباتهای گوگل نیست. برخی موتورهای جستجو از چند نوع ربات برای بررسی سایتها استفاده میکنند؛ مثلاً گوگل دارای ربات Googlebot برای جستجوی ارگانیک در بین سایتها است.
همواره از عدم وجود خطا در فایل robots.txt خود اطمینان حاصل کنید. بدین ترتیب تمامی صفحات موجود در وبلاگ از دسترس ربات بایدو خارج خواهد شد. علاوه بر این شما می توانید با کلیک روی گزینه ” FILE+” طبق تصویر زیر، در فیلدNew File Name، فایلی را با نامrobots.txtوارد کرده و در نهایت Create New File کلیک کنید تا فایل شما ساخته شود.
Crawl Rate Limit
در URL Cloacking از روشی استفاده می شود که شرایط و قوانین گوگل را کاملا نقض می کند و به همین دلیل است که به آن روش سئوی کلاه سیاه می گویند. در صورتی که سایت شما دارای ساب دامین است لازم است هریک از این ساب دامینها دارای فایل robots.txt مختص خود باشند. بعنوان مثال nardebangroup.com فایل خودش را دارد و my.nardebangroup.com هم فایل robots.txt جدا دارد.