دسته‌ها
اخبار

فایل robots txt چیست؟ نحوه تنظیم اصولی آن بر اساس سئو سئو استاد-دنی سالیوان | سئو

این امر به‌ویژه در مورد خزنده‌های بد مانند ربات‌های بدافزار یا خراش دهنده آدرس ایمیل رایج است. علاوه بر دستورات “User-agent” و “Disallow”، ربات گوگل دستور دیگری به نام “Allow” را نیز درک می‌کند. بعد از اینکه public_html را باز کردید، فایل را به داخل آن بکشید؛ توجه داشته باشید که به عنوان مالک سایت، باید بتوانید به تمام قسمت های فایل دسترسی داشته باشید و آن را بخوانید، ویرایش کنید و بنویسید. لازم به ذکر است که این دسترسی ها را هیچ شخصی به غیر از مالک سایت نباید داشته باشد. در ادامه ی مقاله نحوه ساخت فایل ربات را با دستورات آن آورده ایم.

  • 1- روی Submit در گوشه سمت راست پایین ویرایشگر فایل robots.txt کلیک کنید.
  • در حال حاضر لایسنس برنامه، تک کاربره بوده و تنها میتوان بر روی 1 کامپیوتر (یا سرور) از آن استفاده کرد.
  • مثلاً می‌توانید بررسی کنید آیا ربات مخصوص تصاویر گوگل به یک صفحه خاص دسترسی دارد یا نه.
  • نقشه سایت یک فایل XML است که شامل لیستی از تمام صفحات وب سایت شما و همچنین متادیتاها می باشد (متادیتا شامل اطلاعاتی است که به هر URL منسوب می شود).
  • اولین بخش، Crawl Rate Limit (حد نرخ خزیدن) است و دومی Crawl Demand.

اما ربات موتور جستجو با مشاهده یک صفحه جدید در یک سایت یا یک سایت کاملا جدید که پیش از این مشاهده نکرده است، فایل Robots.txt را بررسی می‌کند تا از وضعیت مجوز برای بررسی و فهرست کردن صفحه یا سایت جدید را اطلاع یابد. فایل Robots.txt یک فایل متنی ساده (با پسوند txt) است که توسط موتورهای جستجو و برخی سیستم‌های دیگر خوانده می‌شود و نام دیگر آن «Robots Exclusion Protocol» به معنی پروتکل حذف ربات‌ها است. این فایل حاصل یک اجماع بین توسعه دهندگان موتورهای جستجو در روزهای ابتدایی بوجود آمدن اینترنت است ولی همچنان اغلب موتورهای جستجو بدان پایبند هستند. فایل robots سایت، یک فایل متنی بسیار ساده با فرمت txt است که شما میتوانید نمونه آن را همین حالا روی صفحه رایانه خودتان بسازید. دقت کنید که وردپرس در نسخه های جدید به صورت خودکار فایل robots را ایجاد کرده اما شما نمیتوانید آن را پیدا کنید.

ربات های مهم

علاوه بر این، چون ربات‌های گوگل اجازه کش کردن محتوای داخل این صفحات را هم ندارند، این URLها به صورت زیر در صفحه نتایج گوگل ظاهر می‌شوند. به این ترتیب علارقم اینکه شما صراحتا در فایل ربات خود از گوگل خواسته‌اید که این صفحات را بررسی و ایندکس نکند، اما باز هم مشاهده می‌کنید که این صفحات در نتایج گوگل ظاهر می‌شوند. اگرچه برخی از ربات‌ها به دستورات موجود در این فایل توجهی نمی‌کنند.

ما برای شرکت ها و مراجعی که امنیت اطلاعات، برایشان بسیار حائز اهمیت است تضمین می کنیم که برنامه نویسی رباتیک هیچ نوع اطلاعاتی را از طریق اینترنت رد و بدل نمی کند زیرا اصلا دسترسی به اینترنت ندارد. یک User-agent می‌تواند تنها با یک مجموعه قوانین مطابقت داشته باشد، که اولین و خاص ترین گروهی است که با یک User-agent مشخص مطابقت دارد. بله وجود این فایل برای سئو بسیار مهم است و اگر آن را ندارید باید ایجاد کنید. درود بر شما، این فایل توسط افزونه های سئو مثل یوآست ساخته می شود. سوالی که شاید برای شما هم پیش بیاید این است که این فایل در کجا قرار دارد. یا بهتر است بگوییم در کجا باید بدنبال این فایل بگردیم؟ پاسخ این سوال بسیار ساده است.

Robots.txt چیست؟

بودجه شما، یا همان تعداد صفحاتی که توسط Googlebot مشاهده می شوند، بر اساس حجم وب‌سایت شما (تعداد صفحات)، سلامت آن (عدم بروز خطا) و تعداد بک‌لینک‌های سایت‌تان تعیین می‌شود. مثلاً مهم‌ترین ربات گوگل یا همان Googlebot کارش پیدا کردن صفحه‌های جدید در اینترنت و دریافت آن برای بررسی‌های بیشتر توسط الگوریتم‌های رتبه‌بندی کننده است. پس ربات‌ها نه تنها ضرری برای سایت شما ندارند، بلکه باید خیلی هم از آنها استقبال کرد. فایل robots.txt یکی از بخش‌های مهم هر سایت برای عملکرد صحیح در مواجهه با ربات‌های اینترنتی است. برای مشاهده‌ی اطلاعات تکمیلی در مورد دستورالعمل‌های قابل درج در این فایل، اینجا کلیک کنید.

Robots.txt هر سایت مختص همان سایت است و ممکن است برای سایت شما عملکرد مناسبی نداشته باشد و فرایند ایندکس شدن صفحات سایت را دچار اختلال کند. نمودار های زیر روند رشد رتبه کلمات کلیدی یا صفحات سایت را در زمان استفاده از ربات افزایش ورودی گوگل نشان میدهند. نمودار نارنجی رنگ نشان دهنده رتبه گوگل است که با افزایش تعداد کلیک ( نمودار آبی – Clicks) و نمایش در نتایج جستجو کاربران (نمودار بنفش – Impressions)، رشد معنا داری را نشان میدهد. Robots.txt فایلی است که به ربات‌های موتورهای جستجو می‌گوید که چه صفحات یا بخش‌های خاصی از یک وب سایت را بررسی نکنند و مجاز به بررسی چه صفحاتی هستند.

تکنولوژی پیشرفته برنامه‌نویسی ما در ربات‌سازی، سبب شده طی سال‌ها هیچ یک از محصولاتمان به عنوان یک ربات، توسط پلتفرم‌های بزرگی نظیر اینستاگرام یا گوگل، شناسایی نشوند و همیشه فعال و کارآمد باقی بمانند. 10 سال به روز رسانی مستمر و ارائه صدها ویژگی جدید پیشگام در شناسایی آخرین الگوریتم‌های گوگل توضیح بیشتر… در مرحله اول به هیچ عنوان نباید نشون بدین که یه شخص ثابت همش یه کلمه کلیدی ثابت رو سرچ میزنه. یعنیباید ازطریق عوض کردن IP هویت خودتون رو مخفی کنید و به کلمات کلیدی هم تنوع بدین. پس شما و تقریبا همه ی ادم هایی که به عنوان یه انسان معمولی از گوگل استفاده میکنندهیچ وقت یه کلمه کلیدی ثابت رو به مدت یه هفته تا یه ماه پشت سر هم سرچ نمی زنند و روی یک سایت کلیک نمیکنند.

می‌توانیم به کمک فایل robots.txt مشخص کنیم که آدرس این فایل دقیقا کجاست و موتورهای جستجو از کجا باید آدرس نقشه سایت ما را پیدا کنند. گوگل دیگر کودکی نیست که فقط به محتوای html سایت شما دقت کند و آن را در حالی که شما از دیگر تکنولوژی هایی مثل جاوا اسکریپت و … استفاده می کنید نادیده بگیرد و تمامی محتواهای تمام صفحات شما را بیرون بکشد. گوگل فقط به دستور شما صفحاتی مشخص را مورد دسترسی قرار می دهد.