ربات تی اکس تی در کجای هاست هست و چرا مهم است؟

مقدمه

امروزه سئو یکی از بهترین روش های بازاریابی در دنیاست و برخی از کسب و کار ها (همچون دیجی کالا) ماهیانه میلیارد ها تومان فقط از سئو درآمد زایی دارند! به همین خاطر است که در مقاله پیش رو یکی از بخش های سئو یعنی robots.txt (به فارسی: ربات تی اکس تی) و اهمیت آن را توضیح می دهیم و به سوالاتی مثل ربات تی اکس تی در کجای هاست هست، نیز پاسخ روشنی دهیم!

نکته: به معنای محبوبیت سایت یا پلتفرم شما نزد موتور های جستجو است! به عبارتی ساده تر زمانی که گوگل وبسایت یا شبکه های اجتماعی شما را در نتایج جستجوی خودش نشان می دهد، بدین معنی است که قوانین سئو را به خوبی رعایت کرده اید.

توصیه می کنیم مقاله را مطالعه نمایید

معرفی robots.txt

یک فایل robots.txt به کراول های موتورهای جستجو می گوید که به کدام URL ها در سایت شما می توانند دسترسی داشته باشند. این ربات عمدتا برای جلوگیری از بارگیری بیش از حد درخواست ها استفاده می شود. و مکانیسمی برای دور نگه داشتن یک صفحه وب از گوگل نیست. برای دور نگه داشتن یک صفحه وب از Google، دسترسی به سایت یا صفحه را با noindex مسدود کنید یا صفحه را با رمز عبور غیر قابل دسترس کنید.

نکته: کراول (crawl) یا کراول به ربات هایی از موتور های جستجو گفته می شود که مسئول بررسی وبسایت شما هستند.

فایل robots.txt برای چه مواردی استفاده می شود؟

قبل از اینکه به این سوال بپردازیم که ربات تی اکس تی در کجای هاست هست، بیایید از کاربرد آن صحبت کنیم. فایل robots.txt عمدتاً برای مدیریت ترافیک کراول های سایت ها و معمولاً برای بررسی نشدن برخی فایل ها توسط گوگل، به وجود آمده است.

درک محدودیت های فایل robots.txt

قبل از ایجاد یا ویرایش فایل robots.txt، باید محدودیت‌های این روش مسدود کردن URL را بشناسید. بسته به اهداف و موقعیت خود، ممکن است بخواهید مکانیسم های دیگری را در نظر بگیرید تا مطمئن شوید URL های شما در وب قابل جستجو یا پیدا شدن نیستند.

• دستورات ربات تی اکس تی احتمال دارد توسط همه موتورهای جستجو پشتیبانی نشود!

دستورالعمل‌های موجود در فایل‌های robots.txt نمی‌توانند کراول ها را وادار به انجام کاری در سایت کنند. این به خود کراول بستگی دارد که از دستورات پیروی کند یا خیر. در حالی که Googlebot و سایر کراول‌های وب معتبر از دستورالعمل‌های فایل robots.txt پیروی می‌کنند، کراول‌های دیگر ممکن است این کار را نکنند. بنابراین، اگر می‌خواهید اطلاعات را از کراول‌های وب مخفی نگه دارید، بهتر است از روش‌های مسدودسازی دیگر مانند محافظت از فایل‌های خصوصی با رمز عبور روی هاست خود استفاده کنید.

• کراول های مختلف شکل ظاهری کدها را متفاوت تفسیر می کنند.

اگرچه کراول‌های وب معتبر دستورالعمل‌های موجود در فایل robots.txt را دنبال می‌کنند، اما هر کراول ممکن است دستورالعمل‌ها را متفاوت تفسیر کند. شما باید ظاهر کدی مناسب برای آدرس دادن به کراول های وب مختلف را یاد بگیرید زیرا برخی کراول ها ممکن است دستورالعمل های خاصی را درک نکنند.

• صفحه‌ای که در robots.txt غیرمجاز تلقی شده اند، در صورت لینک به سایت‌های دیگر همچنان می‌تواند ایندکس شوند!

اگرچه Google محتوای مسدود شده توسط یک فایل robots.txt را بررسی و ایندکس نمی‌کند، اما گوگل ممکن است URL که قرار بوده بررسی نشود را در صورتی که از مکان‌های دیگر وب به آن لینک داده شده باشد، پیدا کرده و ایندکس کند. در نتیجه، آدرس URL و احتمالاً سایر اطلاعات عمومی در دسترس مانند anchor text در لینک های صفحه همچنان می توانند در نتایج جستجوی Google باشند. برای جلوگیری از نمایش URL خود در نتایج جستجوی Google به درستی، از فایل های سرور خود با رمز عبور محافظت کنید، از متا تگ noindex کمک بگیرید و یا صفحه را به طور کامل حذف کنید.

حال بیایید نحوه ایجاد فایل ربات تی اکس تی و اینکه ربات تی اکس تی در کجای هاست هست را بیاموزیم.

نحوه ایجاد ربات تی اکس تی در هاست

نکته: از آنجایی که بیشتر وبسایت ها با وردپرس و php ساخته شده اند در این آموزش، پنل هاست، سی پنل در نظر گرفته شده است.

برای ایجاد فایل robots.txt خود (اگر قبلاً چنین فایلی ندارید)، مراحل زیر را دنبال کنید:

1. وارد حساب سی پنل خود شوید.

4. اکنون می توانید با دوبار کلیک کردن روی فایل ساخته شده، محتوای این فایل را ویرایش کنید.

توجه: شما می توانید تنها یک فایل robots.txt برای هر دامنه ایجاد کنید. دو ربات تی اکس تی در مسیر ریشه هاست مجاز نیستند. هر دامنه یا زیر دامنه باید حاوی فایل robots.txt خودش باشد.

نمونه هایی از نحوه کدنویسی در ربات تی اکس تی

معمولاً یک فایل robots.txt حاوی یک یا چند دستور است که هر کدام در خطی جداگانه هستند. هر قانون دسترسی به یک کراول مشخص را به یک مسیر فایل معین یا کل وب سایت مسدود می کند و یا بالعکس به این مسیر ها اجازه دسترسی موتور های جستجو را می دهد.

• همه کراول ها را از دسترسی به logs و فهرست های SSL مسدود کنید:

User-agent:*

Disallow: /logs/

Disallow: /ssl/

• همه کراول ها را از بررسی یا ایندکس کل سایت منع کنید:

• User-agent: *

• Disallow: /

به تمامی کاربران اجازه دهید، به سایت تان دسترسی داشته باشند:

User-agent: Bot1

Disallow: /

به یک کراول مشخص اجازه ایندکس و بقیه را از ایندکس کردن سایت منع می کند:

User-agent: Googlebot

Disallow:

User-agent: *

Disallow: /

در قسمت User-agent: می توانید نام کراول خاص را تایپ کنید. شما همچنین می توانید تمام کراول ها را به سادگی با تایپ علامت ستاره (*) بجای نام یکی از آنها انتخاب کنید. دقیقا با این دستور می توانید تمام کراول ها را به جز کراول های AdBot که باید به صراحت از آنها نام ببرید فیلتر کنید. می توانید لیستی از تمام کراول ها را در اینترنت پیدا کنید.

علاوه بر این، برای اینکه دستورات Allow و Disallow فقط برای یک فایل یا پوشه خاص کار کنند، باید همیشه نام آنها را بین ‘/’ قرار دهید.

توجه کنید که چگونه هر دو دستور به حروف بزرگ و کوچک حساس هستند؟ به خصوص مهم است که بدانید، تنظیمات پیش‌فرض عوامل کراول به گونه‌ای است که اگر توسط دستور Disallow: مسدود نشده باشد، می‌توانند به هر صفحه یا فهرستی دسترسی داشته باشند.