اگر فایل حاوی قاعدهای باشد که برای بیش از یک کاربر عامل اعمال میشود، خزنده فقط به خاصترین گروه دستورالعملها توجه میکند. هنگامی که یک برنامه، اتصال به یک وب سرور را آغاز میکند (خواه یک ربات باشد یا یک مرورگر وب استاندارد)، اطلاعات اولیه هویت خود را از طریق یک هدر HTTP به نام “user-agent” ارائه میدهد که منظور همان عامل کاربر است. پروتکل حذف ربات که بیشتر با نام robots.txt شناخته میشود، درواقع قراردادی برای جلوگیری از دسترسی خزندههای وب به تمام یا بخشی از یک وبسایت است. دستور Allow به شما امکان میدهد تا به ربات گوگل بگویید که اجازه مشاهده یک فایل، در فولدری که Disallowed شده را دارد.
۲.در ابتدای ورود خزنده ها به سایت آن ها در دایرکتوری ریشه سایت به دنبال فایل robots.txt می گردند. طبق این دستور، ربات ها اجازه دسترسی به صفحه admin-ajax.php را دارند؛ اگر می خواهید دسترسی به این صفحه را غیر فعال کنید، باید به تنظیمات وردپرس رفته و گزینه Search Engine Visibility را فعال کنید. این بسیار مهم است که فایل robots.txt شما به درستی تنظیم شده باشد. این راهنمای مفید از Google اطلاعات بیشتری در مورد قوانینی که می توانید برای مسدود کردن یا اجازه ربات ها به خزیدن صفحات مختلف سایت شما استفاده کنید.
- از طریق پروتکل Sitemaps، پیوندهای این نقشههای سایت را میتوان در فایل robots.txt قرار داد.
- اما زمانی که کارتان پیشرفت می کند و محتوای سایت زیادتری می شود؛ زمانی می رسد که ترجیح می دهید کنترل بیشتری روی نحوه crawl و ایندکس سایتتان داشته باشید.
- در مثال بالا همه رباتهای خزنده از دسترسی به تمامی آدرسهایی که دارای کاراکتر ؟ هستند منع شدهاند.
- همین زمان طولانی، روی رتبه سایتتان در نتایج جستجو، تاثیر منفی خواهد گذاشت.
- در اوایل مقاله با انواع رباتها و خزندههای سطح وب آشنا شدیم، حتی به صورت دقیقتر اسامی و وظیفه مهمترین رباتهای گوگل را هم بررسی کردیم.
در ادامه به توضیح برخی از دستورات متداول در این فایل می پردازیم. برای ایجاد فایل Robots.txt ابتدا شما باید به هاست دسترسی داشته باشید و این فایل را در ریشه اصلی آن کپی کنید. اگر به هر دلیلی شما به هاست دسترسی نداشته باشید میتوانید با قرار دادن تگ های متا در هدر صفحه دسترسی ربات های گوگل را به آن محدود نمایید. Robots.txtx محل فایل در مسیر زیر قرار دارد که در تصویر نشان داده شده است.
مستندات گوگل
البته لازم به ذکر است این یک روش مطمئن برای جلوگیری از نمایش سایت شما در موتورهای جستجو نیست و باید صفحات سایت را no-index کنید. من پیشنهاد میکنم اگر نیاز به نوایندکس کردن و حذف صفحه ای از دید ربات های موتور جستجو را دارید، با توجه به سخت بودن کار با robot به سراغ روش های دیگر بروید. در مقاله نوایندکس حدود 7 روش از این راهکارها را توضیح دادم که میتوانید از آنها استفاده کنید. برای ساخت robots.txt در وردپرس باید در مرحله اول در هاست سایت روی File Manager کلیک کرد تا به فایل های هاست دسترسی داشت. در مرحله بعد وارد مسیر /public_html/ شده تا وارد مسیر نصب وردپرس شد. در گام سوم باید با استفاده از برنامه notepad یا سایر نرم افزارهای ویرایشگر متن فایلی به نام robots.txt ایجاد کرد سپس بر روی دکمه آپلود در فایل منجر کلیک نموده و فایل را در این مسیر قرار دهید.
ربات گوگل برای هر سایت یک بخش بودجه ای را که متناسب با مطلوبیت و ماهیت آنها باشد، کنار می گذارد. برخی از سایتها بزرگتر هستند، برخی دیگر از اختیارات زیادی برخوردارند، بنابراین از Googlebot کمک هزینه بیشتری دریافت میکنند. اگر ربات های گوگل دسترسی برای خواندن چنین صفحاتی داشته باشند، قطعا بودجه خزش و کراول سایت به زودی مصرف شده و برای ایندکس و بررسی صفحات و رده های اصلی و مهم سایت به چالش می خوریم. خصوصا که گوگل صفحات سایت ما را فقط یکبار بررسی نمیکنند، که بطور مستمر و حتی روزانه درحال بررسی صفحات سایت هستند.
بهترین زمان پست گذاشتن در اینستاگرام
هر چه در طول روز تعداد بیشتری محتوا در وبسایتتان قرار بگیرد و تغییرات سایت اهمیت زیادی داشته باشد، رباتهای جستجوگر دفعات بیشتری به سایت شما مراجعه میکنند. برای مثال، در وبسایتهای خبری که همیشه در حال انتشار خبر و بهروزرسانی اخبارشان هستند رباتها با سرعت بیشتری صفحات را بررسی و ایندکس میکنند. ربات های خزنده موتورهای جستجو برای هر سایت سهمی در نظر می گیرند. به این معنی که تعداد مشخصی صفحه را در یک نشست معین بررسی می کنند.
مسدود کردن دسترسی به یک فایل خاص
ربات Email Harvesters و Spambots Malware و یا ربات هایی که وظیفه تامین امنیت را بر عهده دارند، جزء این موارد می باشند. هر چیزی که بعد از “Disallow” می آید صفحات یا بخش هایی هستند که می خواهید مسدود کنید. در ادامه به معرفی چند دلیل برای استفاده از فایل Robot.txt می پردازیم.
فرض کنید که در وبسایتتان فولدری به نام mypic دارید که در آن یکسری تصاویر را نگهداری میکنید که علاقهای ندارید ربات جستجو تصاویر گوگل آن را بررسی کند و در نتایج خود نشان دهد. در مرحله دوم، بعد از اینکه مشخص کردیم دقیقا با چه رباتی طرف هستیم، حالا باید مشخص کنیم که محدودیتهای این ربات چیست و چه صفحات و منابعی از وبسایت شما را نباید بررسی کند. با اینکار در حقیقت اعلام میکنیم که تمام رباتها مد نظر ما هستند و تمام رباتها باید به دستورات ما توجه کنند و دیگر نیازی نیست اسامی تک تک رباتها را بنویسیم. به این ترتیب ربات Googlebot که اصلیترین ربات گوگل است متوجه میشود که باید به دستورات خاصی توجه کند.
به این نکته توجه داشته باشید که اگر آدرسی در این فایل برای رباتها مسدود شود هیچ وقت سئو و ایندکس نمیشود. برخی از سیستمهای مدیریت محتوا همانند وردپرس، به صورت خودکار اقدام به ایجاد فایل robots.txt میکنند. به این معنی که اگر شما به ریشه هاست سایت خودتان مراجعه کنید فایلی تحت عنوان robots.txt را پیدا نخواهید کرد. بلکه این فایل به صورت مجازی و خودکار توسط وردپرس ایجاد میشود. گوگل هم به انواع مهمترین موتور جستجو دنیا، چندین ربات مخصوص و مهم برای بررسی صفحات و اطلاعات موجود در اینترنت طراحی کرده است که با توجه به اهمیت آنها به صورت ویژه آن را بررسی میکنیم.