نیازی به صرف زمان زیادی برای پیکر بندی فایل robots.xt نیست. دقت داشته باشید که صفحات اصلی را از دید ربات ها پنهان نمی کنید. این اقدام تنها بایست در ابتدای ساخت وب سایت انجام شده و در آینده در هنگام بررسی سئو سایت مورد توجه قرار گیرد.
- برای ایجاد یک فایل TXT می توانید از ویرایشگر notepad ویندوز خود استفاده کنید.
- وقتی صحبت از URLهای واقعی برای مسدودکردن یا مجاز شدن میشود، فایلهای robots.txt میتوانند نسبتاً پیچیده شوند زیرا امکان استفاده از تطبیق الگو را برای پوشش طیف وسیعی از گزینههای URL ممکن میدهند.
- شاید به روز رسانی های مداوم فایل ربوتس دات تی ایکس تی برای سایت به ظاهر تاثیری نداشته باشد اما در نهایت منجر به پیچیده و سخت شدن دسترسی ربات موتورهای جستجو به سایت می شود.
- اگر برنامه های FTP را نمی شناسید یا راجع به کار اف تی پی اطلاعات دقیقی ندارید، پیشنهاد می کنم مطالعه این مقاله را از دست ندهید.
- اغلب موتورهای جستجوی شناختهشده نظیر گوگل، بینگ و یاهو از فایل ربات پشتیبانی میکنند و محتویات موجود در آن را بررسی میکنند.
توجه داشته باشید که دستورالعمل Crawl-delay دقیقا باید بعد از دستورالعمل های Disallow یا Allow قرار گیرد. در زمان استفاده همزمان از این دو دستورالعمل حتما دقت کنید که از wildcard ها استفاده نکنید چرا که استفاده از آنها باعث ایجاد مغایرت در دستورالعمل ها خواهد شد که در بخش بعدی به بررسی آن می پردازم. تمامی دستورالعمل هایی که بین user-agent اول و user-agent بعدی قرار می گیرند به عنوان دستورالعمل هایی برای user-agent اول شناخته می شوند. هر موتور جستجو باید خود را با استفاده از یک user-agent شناسایی کند. یک User-agent میتواند تنها با یک مجموعه قوانین مطابقت داشته باشد، که اولین و خاص ترین گروهی است که با یک User-agent مشخص مطابقت دارد. دستور Disallow را می توان به روشهای مختلفی مورد استفاده قرار داد که چندین مورد از آنها در مثال بالا نمایش داده شده است.
اگر از ورود آیپیهای مختلف به منابع Dissallow اطلاع داشته باشید میتوانید از یک لیست سیاه برای این کار استفاده کنید و قسمتهای مختلف سایت را با استفاده از این تکنیک ایمن کنید. اما Robots.txt چیست؟ چطور این فایل را به صورت بهینه برای سئو ایجاد کنیم؟ و از کجا بدانیم که این فایل هیچ نقصی ندارد؟ در این مقاله می خواهیم همه این موارد را بررسی کنیم. چرا که در صورت ایندکس شدن، ممکن است به عنوان صفحات زامبی یا بی ارزش شناخته شوند. لازم به ذکر است که ایندکس نشدن یک صفحه از سایت، به معنای دیده نشدن آن صفحه توسط کاربر نیست. یکی از تکنیکهای سئوی کلاه سیاه است و در صورتی که به درستی آن را پیادهسازی نکنید، متهم به نقض قوانین موتورهای جستجو شده و شامل جریمههای گوگل خواهید شد. حالا فرض کنید به صورت روزانه صدها یا هزاران ربات شروع به بررسی و جمعآوری اطلاعات از سایت شما میکنند و در این صورت، عملکرد بهینه سایت شما و سرعت بارگذاری اطلاعات آن برای مرورگرها تحتالشعاع قرار خواهد گرفت.
شما با استفاده از بهینهسازی سایتتان میتوانید سبب پیشرفت و بهبود عملکرد آن شوید. همچنین شما میتوانید زیر نظر خود دسترسیهای متفاوتی را به این رباتها دهید. توجه داشته باشید عدم توجه به آن میتواند پیامدهای غیرقابل جبرانی برای سایت شما داشته باشد و رتبه سایت شما را پایینتر آورد. در انتها هم با زدن دکمه submit از گوگل بخواهید تا فایل جدید را دریافت و بررسی کند. اگر این کارها را با موفقیت انجام دهید، ساعت و تاریخ آخرین بررسی فایل ربات به زمانی بعد از درخواست تغییر میکند.
دستورالعمل Disallow در این فایل
با وجود این که امروزه تمامی موتورهای جستجو به این دستورالعمل ها احترام می گذارند ولی باید توجه داشت که پیروی از آنها برای هیچ یک از موتورهای جستجو اجباری نیست. توجه داشته باشید که فایل Robots.txt تنها یک دستورالعمل اختیاری است که ممکن است برخی از موتورهای جستجو اقدام به اجرای آن نکنند. شما نمی خواهید که موتورهای جستجو در بخش های admin وب سایت شما بخزند. BOM در واقع مخفف عبارت byte order mark است که در واقع یک کاراکتر غیر قابل مشاهده در ابتدای فایل robots.txt می باشد و برای رمزگذاری منحصر به فرد یک فایل متنی مورد استفاده قرار می گیرد.
باید مراقب باشید چون این فایل به همه چیز حتی بزرگ و کوچک بودن حروف حساس است. بنابرین باید دقت کنید تا مشکلی برای ایندکس سایت به وجود نیاید. در واقع یا ربات را از یک آدرس دور نگه می دارید و از آدرس محافظت می کنید، یا اینکه به ربات موتور جستجو اعلام می کنید به کدام بخش ها سر بزند و کدام بخش ها را بیشتر مورد بررسی قرار دهد. همونطور که در ابتدای صفحه گفتیمنرم افزار ما با استفاده از ماوس و کیبورد واقعی بجای استفاده از دستورات برنامه نویسی جست وجو و کلیک روی سایت شمارو توی گوگل انجام میدهد.
فایل robots.txt چگونه است؟ یک نمونه فایل ربات
در ادامه ی مقاله نحوه ساخت فایل ربات را با دستورات آن آورده ایم. در صورتی که قصد این را دارید که بصورت قابل اطمینان یک صفحه را از نتایج جستجو حذف کنید بایستی از تگ noindex در صفحه مورد نظر استفاده کنید. برای مشاهده این تگ بایستی اجازه بررسی صفحه و مشاهده این تگ را به موتور جستجو بدهید پس بهتر است صفحه را در robots.txt بلاک نکنید. بنابراین اگر سایت شما است فایل robots.txt باید در آدرس example.com/robots.txt قابل دسترسی باشد.
این الگوها با کاراکترهای * و دلار $ مشخص میشوند:
برای اینکه بدانید چه کارهایی باید انجام دهید تا خزنده های گوگل به، به روز رسانی شدن سایت اهمیت دهند ادامه مطلب را مطالعه کنید. اما اگر ایرادی در فایل دیده شود، لاین (دستور) مشکل دار هایلایت شده و مشخص میشود. میتوان این مدل لینکها را مدیریت کرده و آدرس آنها را پنهان کرد. در این فایل آموزشی تصویری می خواهیم نمونه ای بسیار جالب از نحوه رسیدن به موفقیت با حداقل محصولی که داریم را مثال بزنیم و کاملا تحلیل کنیم. با گذشت حدود 15 روز دیروز به صورت ناگهانی توی وبمستر حدود 1000 عدد ایندکسمون حذف شدن.
Robots.txt یک فایل متنی است و برای رباتهای خزندهای که برای بررسی یا کارهای دیگر به وبسایت شما سر میزنند، نقش راهنما را بازی میکند. فایل robots.txt را وبمسترها میسازند و با این فایل به رباتها دستور میدهند که چه صفحاتی را کرال یا ایندکس کنند و در چه صفحاتی نباید وارد شوند. در عمل، فایل robots.txt نشان میدهد که آیا برخی از نرمافزارهای کرال کردن وب میتوانند قسمتهایی از یک وبسایت را کرال کنند یا خیر. این دستورالعملها با «disallowing» یا «allowing» مشخص میشوند. اصلا دستور دادن به رباتها چه فایدهای دارد؟ مگر اشکالی دارد که رباتها همینطور برای خودشان در وبسایت ما بچرند؟ بله.. اگر رباتها را کنترل نکنید، سرور هاست سایت شما درگیر رباتهایی میشود که فایدهای برای سایتتان ندارند.
فایل ربات یک فایل متنی با ساختار txt ساده است، که دقیقا در ریشه root هاست سایت قرار گرفته و برای تمام موتورهای جستجو و کاربران بازدید کننده دارای دسترسی مجاز است. این فایل توسط مدیر سایت ساخته می شود و در این قسمت از هاست قرار میگیرد تا برخی فعالیت های سایت را بتوان با آن کنترل کرد. گوگل برای وبمسترها و صاحبان وبسایتها چند راه برای دسترسی به نقشه سایت گذاشته است. هیچ الزامی وجود ندارد که آدرس نقشه سایت را از این راه به رباتهای گوگل نمایش دهید. بهترین راه ارائه نقشه سایت به گوگل استفاده از ابزار سرچ کنسول است.