در حالی که در برخی مواقع مشاهده خواهید کرد که متقاضیان بخواهند محتوای خود را در زمانی مشخص در صفحات شخص ثالث جایگذاری کنند تا گوگل به ایندکس صفحات بپردازد. از اینرو لزوما نیاز نخواهد بود که صفحات رسانه ای خود را به تنهایی مورد ایندکس گوگل قرار دهید. از اینرو اگر میخواهید صفحات مربوط به رسانه سایت شما ایندکس شوند، در چنین حالتی از یک تگ noindex در صفحات استفاده می شود.
- توجه کنید که اگر سایت شما فایل Robots.txt نداشته باشد هم رباتهای گوگل کار خودشان را میکنند.
- ضرورتی ندارد که ربات های خزنده این صفحات را ایندکس کنند؛ چرا که پس از مدتی غیر فعال شده و از طرفی بار محتوایی زیادی نیز ندارند.
- این دستور مشخص کننده صفحه یا صفحات غیر قابل دسترس برای رباتهای خزنده وب است.
- آن قطعه از محتوا اغلب، اگر مربوط به رسانه ای باشد، دستورالعملی برای عدم فهرست بندی خواهد داشت.
در ادامه میخواهیم با جزئیات کامل درباره همین فایل مهم صحبت کنیم. قدم به قدم جلو میرویم تا ببینیم چطور میتوان از فایل Robots.txt استفاده کرد؛ چطور میتوانیم رباتها را محدود کنیم، چطور از ایندکس شدن صفحهها جلوگیری کنیم و در نهایت یک فایل Robots.txt عالی بسازیم. البته که ابزارهای زیادی برای این کار وجود دارد که مطمئن ترین راه استفاده از ابزار موجود در Google Search Console است. وارد اکانت سایتتان در وب مستر شوید و به نسخه قدیمی سوئیچ کنید. اما Robots.txt چیست؟ چطور این فایل را به صورت بهینه برای سئو ایجاد کنیم؟ و از کجا بدانیم که این فایل هیچ نقصی ندارد؟ در این مقاله می خواهیم همه این موارد را بررسی کنیم. با توجه به اینکه ضمانتی برای عملکرد صحیح این فایل در مواجهه با رباتهای مختلف وجود ندارد، روشهای زیر میتوانند به عنوان راه حل جایگزین در مسدود کردن دسترسی رباتها به سیستم مورد استفاده قرار گیرد.
لازم به ذکر است که این مورد برای سایت های کم بازدید، تاثیر کمتری دارد. اما به هر جهت سایت هایی که باید روزانه ترافیک زیادی را هندل کنند، با اضافه شدن حجم زیادی از ربات ها نیز، دچار مشکل خواهند شد. به همین جهت است که سئوکاران برای بهبود سرعت سایت، دسترسی ربات ها را محدود می کنند. در واقع با این کار اجازه بررسی برخی از بخش های سایت که از نظر سئو اهمیت کمتری دارند را به ربات ها نمی دهند. نکته بسیار مهمی که باید به آن دقت کنید، این است که فایل robots.txt به حروف بزرگ و کوچک حساس است.
در مثال زیر تمامی رباتها از دسترسی به دایرکتوری media منع شدهاند اما در عین حال اجازه دسترسی به یک فایل پی دی اف با عنوان terms-and-conditions.pdf موجود در دایرکتوری media داده شده است. در صورتی که سایت شما دارای ساب دامین است لازم است هریک از این ساب دامینها دارای فایل robots.txt مختص خود باشند. بعنوان مثال nardebangroup.com فایل خودش را دارد و my.nardebangroup.com هم فایل robots.txt جدا دارد.
چگونه از این فایل استفاده کنیم؟
حتی اگر صفحه robots.txt مثلاً در webjavan.com/index/robots.txt یا /homepage/robots.txt وجود داشته باشد، توسط عوامل کاربر کشف نمیشود و در نتیجه سایت تحت درمان قرار میگیرد. هنگامی که صفحه بهروزرسانی شد، میتوانید روی منوی کشویی بالای ویرایشگر متن نیز کلیک کنید تا مُهر زمانی نمایش داده شود که نشاندهنده زمانی است که گوگل برای اولینبار آخرین نسخه فایل robots.txt شما را دیده است. 6- با بازخوانی صفحه در مرورگر خود برای بهروزرسانی ویرایشگر ابزار و مشاهده آنلاین کد فایل robots.txt، بررسی کنید که آخرین نسخه شما با موفقیت خزیده شده است.
گوگل به کمک انکرتکست هر لینک و سایر فاکتورها رتبهای به این صفحه در جستجوهای مرتبط میدهد. معمولاً این نوع صفحات در نتایج جستجو بدون توضیحات متا ظاهر میشود چون گوگل محتوای صفحه و توضیحات متا را ذخیره نکرده است. هنگامی که فایل robots.txt خود را در رایانه خود ذخیره کردید، آماده است تا آن را در اختیار خزنده های موتورهای جستجو قرار دهید. هیچ ابزاری وجود ندارد که بتواند در این مورد به شما کمک کند، زیرا نحوه آپلود فایل در سایت شما به معماری سایت و سرور شما بستگی دارد. فایل robots.txt مجموعه ای از دستورالعمل ها برای ربات ها است.
استفاده از این نحو در فایل robots.txt به همه خزندههای وب میگوید که هیچ صفحهای را در از جمله صفحه اصلی، نخزند. Robot یک برنامه کامپیوتری خودکار است که با وبسایتها و برنامهها تعامل دارد. رباتهای خوب و رباتهای بد وجود دارند و یک نوع ربات خوب، ربات خزنده وب نامیده میشود. این دستور به ربات گوگل میگوید علی رغم اینکه فولدر Photos از دسترس رباتها خارج شده است، اجازه مشاهده و ایندکس فایل novin.jpg را دارد. دستور Disallow به رباتها میگوید که چه فولدرهایی از وبسایت شما را نباید بررسی کنند. درواقع این دستور، بیانگر آدرسهایی است که میخواهید از رباتهای جستجو پنهان بماند.
دلایل استفاده از Robots.txt
یکی از نکات قابل توجه در ایجاد این فایل، ایجاد نام فایل با حروف کوچک است. به ویژه در سیستم عامل لینوکس اگر برخی از حروف فایل بزرگ باشند، موتور جستجو امکان دریافت فایل را نخواهد داشت. User-agent در اینجا به معنی دسترسی کامل به خزنده ها می باشد. در ادامه disallow به معنای این است که مسیر ذکر شده را دنبال نکند و اجازه ای برای خزیدن نداشته باشد. در نهایت قسمت allow هم قسمتی است که اجازه می دهد خزنده ها آن ها را دنبال کنند. در حال حاضر لایسنس برنامه، تک کاربره بوده و تنها میتوان بر روی 1 کامپیوتر (یا سرور) از آن استفاده کرد.
چگونه خزش ربات خاصی را متوقف کنم؟
یک روش مشاهده ساده که برای هر سایتی کار می کند این است که URL دامنه را در نوار جستجوی مرورگر خود تایپ کنید و /robots.txt را در پایان اضافه کنید. همانطور که عنوان شد تمام صفحات یک سایت از درجه اولویت یکسانی برخوردار نیستند و عموم وبمستران نیز تمایل دارند که بیشتر تمرکز بر صفحات اصلی سایت باشد. همچنین به کمک فایل ربات تی ایکس تی امکان مدیریت منابعی مانند پنهای باند، قدرت پردازش در سرور نیز در اختیار شما قرار می گیرد. به همین دلیل استفاده از فایل ربات تی ایکس تی اهمیت پیدا می کند. زمانی که به مدیریت بودجه خزش و دسترسی ربات های گوگل می پردازیم، اولویت بررسی صفحات را مشخص کرده ایم.