Robots.txt نحوه خزیدن در صفحات مختلف وبسایت را به رباتها اعلام میکند در حالی که متا ربات و ربات X رفتارهای یک صفحه یا محتویات یک صفحه را به رباتهای خزنده اعلام میکنند. اگر صفحاتی را میخواهید مشخص کنید که موتورهای جستجو به آنها وارد نشده و از دیدن آنها پنهان بمانند، میتوانید در Robots.txt دسترسی به آنها را محدود کنید. به این نکته توجه داشته باشید که این صفحات توسط گوگل و دیگر موتورهای جستجو بررسی نمیشوند. یکی دیگر از کارهای سئو فنی مربوط به فایل روبوتس است.فایل Robots.txt یکی از فایلهای مهم در سایتها است. با استفاده از آن میتوان به موتورهای جستوجو اعلام کرد که چه محتوا و صفحاتی را برای ایندکس شدن بررسی نکنند.
- اما اگر مسیرها و دایرکتوریها را دیسآلو کنید این رباتها صرفا میتوانند صفحهی دایرکتوری را ببینند و امکان دیدن سایر صفحات و وبپیجها وجود ندارد.
- موتورهای جستجو در مورد محتوای تکراری حساس هستند ، با این حال، برای خزیدن صفحات محتوای تکراری و نمایش آنها در SERP ها، نیازی به ربات ندارید.
- برای خزیدن در بین وبسایتها موتورهای جستجو از لینکهای قرار داده شده در سایتها استفاده میکنند.
- این موضع بیشتر در مورد پایشگرهای غیر موجه مانند ربات های یابنده ایمیل ها برقرار است.
یک روش مشاهده ساده که برای هر سایتی کار می کند این است که URL دامنه را در نوار جستجوی مرورگر خود تایپ کنید و /robots.txt را در پایان اضافه کنید. تمام دستورات و محدودیتهایی که در فایل robots سایتمان ایجاد میکنیم تنها زمانی اعتبار دارند که رباتهایی وجود داشته باشند که به این دستورات احترام بگذارند و از آنها پیروی کنند. گوگل هم به انواع مهمترین موتور جستجو دنیا، چندین ربات مخصوص و مهم برای بررسی صفحات و اطلاعات موجود در اینترنت طراحی کرده است که با توجه به اهمیت آنها به صورت ویژه آن را بررسی میکنیم. شرکتهای مختلف با اهداف متفاوتی اقدام به ساخت و استفاده از این رباتها میکنند.
رباتهای مختلف، دستورات را به روشهای متفاوتی تفسیر میکنند
به این ترتیب صفحات ارزشمند و مهمی که واقعاً نیاز به ایندکس شدن دارند خیلی دیرتر به نتایج جستجو راه پیدا میکنند. در نهایت، ما با بررسی Crawl Rate و Crawl Demand، مقدار Crawl Budget یک وبسایت را تعریف میکنیم. در واقع Crawl Budget، تعداد URLهایی است که ربات گوگل میخواهد و میتواند ایندکس کند. گوگل اعلام کرد که برای حذف صفحهها از نتایج جستجو، بهتر است از راههای دیگری به جز فایل Robots.txt استفاده کنید. البته در حال حاضر میتوان از این فایل برای خارج کردن فایلهایی مثل تصاویر، ویدیو یا صدا از نتایج جستجو استفاده کنید اما برای صفحات وب مناسب نیست.
از رایج ترین دلایل استفاده از فایل robots.txt، محدود کردن دسترسی ربات های خزنده به بخش های مختلف یک سایت است. قطعا این سوال برایتان پیش خواهد آمد که چرا برخی از صفحات نباید ایندکس شوند؟ ایندکس شدن برخی از صفحات سایت می تواند نتایج نامطلوبی را برای شما داشته باشد. مثلاً میتوانید بررسی کنید آیا ربات مخصوص تصاویر گوگل به یک صفحه خاص دسترسی دارد یا نه. امکان به همان صفحه اجازه دسترسی ربات وب را داده باشید اما ربات تصاویر مجاز به دریافت تصاویر و نمایش آن در نتایج جستجو نباشد. Crawl Budget در حقیقت تعداد صفحاتی از وب سایتتان است که ربات گوگل در یک روز آنها را خزیده و بررسی میکند.
ربات افزایش ورودی گوگل برای چه کلمات کلیدی مناسب است و چگونه باید از آن استفاده کرد؟
آنها پس از رسیدن به یک وب سایت، قبل از پایش آن نگاهی به فایل robots.txt می اندازند. در صورت یافتن این فایل، آن را خوانده و سپس به پایش وب سایت ادامه می دهند. فایل های robots.txt به منزله دستورالعمل پایشگرها برای پایش وب سایت است. در صورتی که فایل robots.txt دارای دستوری برای محدود کردن پایشگرها نباشد (یا اصلا هیچ فایل robots.txt وجود نداشته باشد)، پایشگرها بدون هیچ محدودیتی به تمام قسمت های یافته شده سر زده و آنها را ایندکس می کنند.
سئوی robots.txt، مثالی بزرگ برای جستجوگرها
جلوگیری از ظاهرشدن محتوای تکراری در SERP (توجه داشته باشید که متا رباتها اغلب انتخاب بهتری برای این کار هستند). 6- با بازخوانی صفحه در مرورگر خود برای بهروزرسانی ویرایشگر ابزار و مشاهده آنلاین کد فایل robots.txt، بررسی کنید که آخرین نسخه شما با موفقیت خزیده شده است. استفاده از این نحو در فایل robots.txt به همه خزندههای وب میگوید که هیچ صفحهای را در از جمله صفحه اصلی، نخزند. Robot یک برنامه کامپیوتری خودکار است که با وبسایتها و برنامهها تعامل دارد. رباتهای خوب و رباتهای بد وجود دارند و یک نوع ربات خوب، ربات خزنده وب نامیده میشود. پروتکل حذف ربات که بیشتر با نام robots.txt شناخته میشود، درواقع قراردادی برای جلوگیری از دسترسی خزندههای وب به تمام یا بخشی از یک وبسایت است.
اگر مایل هستید که تنها تعداد محدودی از صفحات سایت شما در موتورهای جستجو ایندکس نشوند، پیشنهاد میکنیم به جای تغییر در فایل robots.txt از تگ noindex در هدر صفحه موردنظر استفاده کنید. لینک های حاضر در صفحات بلاک شده توسط فایل robots.txt دنبال نخواهند شد. این مسئله بدین معناست که در صورت عدم وجود آن لینک در هیچ کجای وی یا یک صفحه بلاک نشده دیگر از وب سایت شما، توسط موتورهای جستجو دیده نشده و در نتیجه ایندکس نخواهد شد. ثانیا اعتباری از صفحه بلاک شده به لینک های آن منتقل نمی گردد. در صورتی که دارای صفحاتی هستید که در کنار ایندکس نشدن نیاز است که اعتبار آنها به لینک ها انتقال یابد، بایستی دنبال مکانیسم دیگری باشید.
فایل robots.txt از بخش های مختلفی تشکیل شده است که در زمان پیاده سازی باید به تمامی این بخش ها توجه داشته باشید و سعی کنید که جزئی ترین نکات را نیز در زمان پیاده سازی رعایت کنید. دقت کنید که حذف کردن این لینک ها از گوگل امکان پذیر است و شما با استفاده از کنسول جستجوی گوگل می توانید به راحتی اقدام به حذف آنها کنید. در این بخش قصد دارم برخی از مهم ترین مثال های فایل robots.txt را در اختیار شما قرار بدم. بهترین راه برای ارسال یک سیگنال به موتورهای جستجو به منظور این که یک صفحه نباید ایندکس شود این است که از تگ meta robots یا X-Robots-Tag استفاده کنید. این مسئله به خصوص زمانی که قصد راه اندازی ویژگی های جدید در وب سایت خود را دارید بیشتر از قبل خود را نمایش می دهد و تاثیر بیشتری روی سئو سایت شما می گذارد.
در این مثال هیچ یک از موتورهای جستجو اجازه دسترسی به لینک هایی که شامل علامت سوال می باشند را ندارند. این دستورالعمل در حال حاضر تنها توسط موتورهای جستجو گوگل و بینگ پشتیبانی می شود. این کارها تنها می تواند از نمایش داده شدن این صفحات توسط موتورهای جستجو در لیست جستجوی آنها جلوگیری کند. استفاده از یک لینک canonical یا تگ meta robots نمی تواند از خزیدن موتورهای جستجو در این صفحات جلوگیری کند. این کار با وجود این که برای کاربران یک قابلیت فوق العاده است ولی در اکثر مواقع می تواند برای موتورهای جستجو گیج کننده باشد چرا که باعث به وجود آمدن محتوای تکراری می شود.
وقتی از وایلد کارد یا متغیر استفاده کنید، عملا هر رباتی را نشانه رفته اید. مثل اینست که بگویید “هیچ موجود زنده ای” حق ندارد به تلفن شما دست بزند. این عبارت شامل تمام خویشاوندان، حیوون خونگی و حتی پرنده ی تو باغچه ها هم می شود. کلیه حقوق این سایت برای شرکت “بهسازان مجازی فناوری اطلاعات آمارد” محفوظ میباشد. واقعادمتون گرم.ربات روامروزباخط خودم تنظیماتشوانجام دادم وبرای چند تاخط آزمایشی ارسال انجام دادم.خیلی خیلی عالیه.