در زمان استفاده از فایل robots.txt باید توجه داشته باشید که این امکان وجود دارد تا شما دسترسی موتورهای جستجو به بخش عظیمی از سایت خود را مسدود کنید. فایل robots.txt به مدیریت فعالیتهای این خزندههای وب کمک میکند تا بر سرور وب میزبان وبسایت، یا فهرستبندی صفحاتی که برای نمایش عمومی نیستند، هزینه بار اضافه نکنند. در این مقاله در رابطه با اصول طراحی وبسایت مدرن صحبت میکنیم و عوامل مهم در این طراحی را بررسی میکنیم.
آدرس صفحات سایت خود را آنالیز کرده تا متوجه شوید کدام یک از آنها برای رباتها مسدود شده هستند. به این معنی است که تمام بخشهای این سایت قابل دسترس برای تمام رباتها و خزندگان موتورهای جستجو است. اما اگر قصد این را دارید که اطلاعات خود را فقط برای یک ربات خاص تعیین کنید باید نام دقیق آن ربات را به جای ستاره جایگذاری کنید. دسترسی موتورهای جستجو به این صفحات یا فایلها را محدود کرد.
برخی از عوامل کاربر (رباتها) ممکن است فایل robots.txt شما را نادیده بگیرند. این امر بهویژه در مورد خزندههای بد مانند رباتهای بدافزار یا خراش دهنده آدرس ایمیل رایج است. اگر فایل robots.txt حاوی هیچ دستورالعملی نباشد، به صورت پیشفرض برای خزندهها اجازه برخی کنجکاوی در وبسایت را ارائه میدهد.
- این فایل حجم سنگینی ندارد و در اکثر مواقع نهایتاً چند صد بایت خواهد بود.
- تعیین تأخیر خزیدن بهمنظور جلوگیری از بارگیری بیش از حد سرورهای شما هنگام بارگیری همزمان چند قطعه محتوا توسط خزندهها.
- برای کاربران انسانی، این شامل اطلاعاتی مانند نوع مرورگر و نسخه سیستم عامل است، اما اطلاعات شخصی ندارد.
- حالا که تا حدودی متوجه شدیم که کلیت این فایل چیست، بد نیست که نگاهی به نقشهای فایل robots.txt و دلایل اهمیت آن بپردازیم و دقیقا مشخص کنیم که چرا سایتمان باید حاوی فایل robots.txt باشد.
- گوگل ممکن است کدهایی را که بخشی از محدوده UTF-8 نیستند نادیده بگیرد و قوانین robots.txt را نامعتبر کند.
- این خودش میتونه گوگل رو گمراه بکنه و باعث میشه گوگل فکر کنه آدم های مختلفی از سیستم های مختلفی در مورد کلمه کلیدی های مختلفی سرچ می کنند.
دستور Disallow برای ایندکس نکردن کاربرد دارد؛ با این دستور شما به ربات های موتور جستجو می گویید که نمی خواهید صفحه یا بخش مورد نظر در سایتتان، ایندکس شود. بعد از اینکه public_html را باز کردید، فایل را به داخل آن بکشید؛ توجه داشته باشید که به عنوان مالک سایت، باید بتوانید به تمام قسمت های فایل دسترسی داشته باشید و آن را بخوانید، ویرایش کنید و بنویسید. لازم به ذکر است که این دسترسی ها را هیچ شخصی به غیر از مالک سایت نباید داشته باشد.
موتور جستجو چیست؟ معرفی مهمترین موتورهای جستجوگر اینترنت
سئو Onpage به مجموعه کارهایی گفته میشه که داخل سایت انجام میشه و به اصطلاح فاکتور های داخلی سایت هست،مثل H1 و Title tag و Meta description البته این موارد خلاصه چک لیست Onpage هست. اولین و مهمترین نکته حساس بودن رباتها و خزندهها به کوچک یا بزرگ بودن حروف است. این دو خط اما اجازه بررسی سایت ما را به صورت استثنا به ربات Googlebot میدهد.
ما در مه ویژن با داشتن تیمی مجرب و حرفه ای در حوزه سئوی سایت در خدمت شما عزیزان هستیم
بهواسطهی رباتهای موتورهای جستجوگر شما میتوانید سایتتان را به این موتورها بهراحتی معرفی کنید و میزان بازدید کاربران از سایتتان را افزایش دهید. توسط این فایل شما میتوانید مشخص کنید که گوگل چه قسمتهایی از سایت شما را ایندکس کند و درواقع میتوانید گوگل را کنترل کنید. توسط این فایل قسمتهای محدود و مشخص از سایت شما توسط موتورهای جستجو ایندکس میشود. درواقع توسط این قسمت مشخص میشود که گوگل به چه قسمتهایی دسترسی داشته باشد و سراغ محتوای غیر مرتبط نرود. برای جلوگیری از دسترسی رباتها چند راه مختلف وجود داره که در انتهای مقاله توضیح دادیم. میتونید از سرچ کنسول دوباره درخواست ایندکس بدید، نقشه سایت رو دوباره بررسی و آپلود کنید.
برای ربات ها، عامل کاربر (از لحاظ نظری) به مدیران وب سایت کمک میکند تا بدانند چه نوع ربات هایی در سایت خزیدهاند. پروتکل دیگری که برای فایلهای robots.txt استفاده میشود، پروتکل Sitemaps است. نقشههای سایت به خزنده وب نشان میدهند که در کدام صفحات میتوانند بخزند.
تعریف وکیل مدافع مشتری در سازمان تریبون چیست؟
اگرچه گوگل صفحاتی که در فایل Robots.txt محدود شدهاند را خزش و ایندکس نمیکند، اما ممکن است از سایر صفحات، لینکهایی به این صفحات محدود شده وجود داشته باشند که موجب ایندکس شدن این صفحات شوند. برای گذاشتن کامنت و یادداشت در داخل فایل ربات میتوانیم از علامت # استفاده کنیم، به این ترتیب جلوی هشتگ هرچیزی که بنویسیم توسط رباتها و خزندهها نادیده گرفته میشود. همانطور که گفتیم، هاست و منابع سرور سایت ما برای پاسخ دادن به درخواستهای رباتها دقیقا همانند پاسخگویی به درخواستهای کاربران واقعی مشغول میشود. وقتی این درخواستها از حد توان سرور سایت ما خارج شوند اتفاق از دسترس خارج شدن سایت رخ میدهد. حالا که تا حدودی متوجه شدیم که کلیت این فایل چیست، بد نیست که نگاهی به نقشهای فایل robots.txt و دلایل اهمیت آن بپردازیم و دقیقا مشخص کنیم که چرا سایتمان باید حاوی فایل robots.txt باشد.
در ادامه مثال هایی را از فایل robots.txt برایتان آماده کرده ایم. دقت داشته باشید که این فایل در مسیر روت سایت یعنی آدرس /robots.txt قرار دارد. پس از ساخته شدن فایل ربات با افزونه Yoast میتوانید دستورات خود را در افزونه قرار دهید و آن را ذخیره کنید. برای ساختن فایل ربات در وردپرس ما یک راه ساده را به شما پیشنهاد میکنیم. اینکه از افزونه سازنده فایل ربات استفاده کنید تا آن را برای شما نصب و راه اندازی کند. اگر میخواهید فهرست کاملی از ربات موتورهای جستجو را ببینید، به این آدرس بروید.