سئو

فایل robots.txt چیست؟ | اهمیت و چگونگی ایجاد فایل robots.txt

فایل robots.txt یک فایل متنی است که در ریشه وب سایت قرار می گیرد. در فایل robots.txt شما به عنوان مالک وب سایت بستگی به شرایط سایت خود، دستوراتی را برای بررسی شدن یا بررسی نشدن فایل ها، فولدرها، یو آر ال ها و… سایت خود می نویسید و موتورهای جستجو با دیدن این دستورات، به انجام مواردی که خواستید می پردازند.

2- چرا از فایل robots.txt استفاده کنیم؟

در واقع در مورد اهمیت فایل robots.txt می توان گفت که ایجاد یک فایل robots.txt مناسب یکی از مواردی است که در سئو تکنیکال بهتر است به آن بپردازید. اما اینکه چرا داشتن این فایل از موارد سئو تکنیکال است به این موضوع بر می گردد که با تنظیم درست این فایل به تسهیل فرایند کرال و ایندکس کمک بسیاری می کنید.

در واقع زمانی که در این فایل دستوری را می نویسید که مثلا به هر دلیلی بخش هایی را موتورهای جستجو نادیده بگیرند، هم در بودجه خزش صرفه جویی کرده اید، هم منابع سرور سایت خود را بیهوده درگیر نکرده اید، هم مطالبی که از اولویت بالاتری برخوردارند زودتر ایندکس می شوند، هم … و در واقع همه ی اینها در سئو سایت شما تاثیر دارد. بنابراین مهم است در صورت لزوم، یک فایل robots.txt مناسب داشته باشید و به صورت مناسب آن را تنظیم کنید.

شما می توانید با استفاده از دستورات مختلفی زمانی که ربات های موتورهای جستجو وارد سایت شما می شوند، به آن ها بگویید چه چیزهایی را بررسی کنند و چه چیزهایی را بررسی نکنند.

از جمله دستورات مهمی که در فایل robots.txt می توانید بنویسید تا موتورهای جستجو آنها را انجام دهند عبارت اند از User-agent، Disallow، Allow، Sitemap که در ادامه به هر کدام از این ها می پردازیم.

با استفاده از این دستور می توانید مشخص کنید که ادامه دستورات برای کدام ربات است و در واقع کدام یک از انواع ربات ها (مانند ربات بررسی صفحات، ربات بررسی تصاویر و…) را در نظر دارید که این دستورات را انجام دهند.

به عنوان مثال اگر می خواهید ادامه دستورات را فقط ربات Googlebot که بررسی کننده صفحات است بررسی کند، کافی است بنویسید:

User-agent: Googlebot

یا به عنوان مثال اگر می خواهید ادامه دستورات را همه ربات ها انجام دهند کافی است بنویسید:

User-agent:*

با استفاده از این دستور می توانید به موتورهای جستجو بگویید که به یک فایل، فولدر، یو آر ال خاص و… دسترسی نداشته باشند و آنها را بررسی نکنند. برای این منظور بستگی به مواردی که می خواهید می توانید از فرمت های زیر استفاده کنید.

محدودیت دسترسی به تمام صفحات

Disallow:/

با استفاده از این دستور به ربات های موتور جستجو می گویید هیچ صفحه ای از سایت به عنوان مثال سایت www.example.com را بررسی نکنند.

محدودیت دسترسی به فایل های خاص

محدودیت دسترسی به فولدر خاص

Disallow:/admin

با استفاده از این دستور فولدر ادمین بررسی نمی شود.

محدودیت دسترسی به یک فایل در یک فولدر

Disallow:/document/example.pdf

با استفاده از این دستور فایل پی دی اف موجود در پوشه document بررسی نمی شود.

محدودیت دسترسی به یک یو آر ال خاص

Disallow:/ Article1.html

با استفاده از این دستور هر صفحه ای که شامل یو آر ال www.example.com/Article1 باشد بررسی نمی شود.

علاوه بر این ها دستورات دیگری هم وجود دارد که می توانید به صورت دقیق تری این کار را انجام دهید. با استفاده از کاراکترهای *، ؟، $ می توانید به صورت پیشرفته تری قوانین پیچیده تری را برای موارد مختلف سایت خود تعریف کنید.

یک نکته ای که در این بخش خوب است به آن توجه داشته باشید این است که شما با Disallow کردن، نمی توانید به صورت صد در صد مطمعن باشید که صفحه مورد نظر ایندکس نمی شود و دلیل این امر هم این است که ربات های گوگل ممکن است از طریق لینک سازی داخلی ای که انجام داده اید یا … وارد سایت شما شوند و صفحه مورد نظر که در فایل robots اجازه دسترسی به آن را نداده اید را ایندکس کنند یا حتی دلایل دیگری هم ممکن است منجر به بروز همچنین موردی شود. بنابراین برای ایندکس نشدن صفحه در نتایج موتورهای جستجو راه های بهتر دیگری وجود دارد. برای این کار می توانید با استفاده از دستور noindex در head صفحه مورد نظر مطمعن شوید که در نتایج نشان داده نمی شوند و همچنین از ابزارهای دیگر هم برای این کار استفاده کنید.

بنابراین در مورد صفحات وب، صفحاتی که هیچ لینک سازی داخلی یا هیچ مورد دیگری راه دسترسی به این صفحه ندارد را، شما می توانید با خیال راحت از ایندکس نشدن، در فایل robots.txt با استفاده از دستور disallow اجازه دسترسی به آن را محدود کنید و همچنین در مورد فایل ها و فولدرهای مد نظر، می توانید آن ها را با خیال راحت در این فایل معرفی کنید تا اجازه دسترسی به آنها را محدود کنید.

با استفاده از این دستور مشخص می کنید که ربات به کدام قسمت ها اجازه دسترسی دارد. به طور پیش فرض هر بخشی را که شما Disallow نکرده باشید را ربات های موتورهای جستجو Allow در نظر می گیرند و آن را بررسی می کنند و شما لازم نیست کل صفحات و فایل ها و… را با استفاده از این دستور به ربات های موتورهای جستجو اعلام کنید که بررسی کنند. کاربرد این دستور زمانی است که شما یکی از یک گروه را مد نظر دارید که آن گروه Disallow شده است. به عنوان مثال شما فولدر wp-admin را با استفاده از دستور Disallow محدود کرده اید اما بنا به دلایلی تصمیم گرفته اید یک فایل از این فولدر را اجازه دسترسی بدهید. برای این کار می توانید با استفاده از دستور Allow مانند زیر این کار را انجام دهید.

Allow:/wp-admin/example.pdf

با استفاده از این دستور می توانید آدرس سایت مپ خود را در فایل robots.txt وارد کنید.

قرار دادن آدرس نقشه سایت در انتهای فایل robots به ربات‌های موتور جستجو کمک می‌کند سریع‌تر به نقشه سایت دسترسی داشته باشند

برای انجام این کار کافی است در انتهای فایل Robots دستور زیر را وارد کنید. برای انجام آن مراحل زیر را دنبال کنید.

آدرس سایت مپ خود را پیدا کنید. آدرس سایت مپ معمولا این گونه است:

http://www.example.com/sitemap.xml

یا

www.example.com/sitemap_index.xml

مکان نقشه سایت را به robots.txt اضافه کنید. برای اینکار در ریشه سایت خود فایل robots.txt را باز کنید و بدین صورت این دستور را اضافه کنید.

Sitemap: آدرس سایت مپ

که در مثال بالا به این صورت می شود:

Sitemap: http://www.example.com/sitemap.xml

4- مثالی از فایل robots.txt

از آنجایی که فایل robots.txt هر سایتی به صورت عمومی در دسترس است، می توانید با الگو گرفتن از این فایل، یک فایل robots مناسب برای سایت خود در نظر بگیرید. برای دیدن فایل robots هر سایتی کافی است در مرورگر خود در انتهای آدرس سایت مانند زیر اسم این فایل را بنویسید.

http(s)://www.example.com/robots.txt

به عنوان مثال تصویر زیر یک فایل robots.txt است.

5- تست فایل robots.txt

جهت تست کردن اینکه کدام فایل ها در robots.txt محدود شده اند، می توانید از این ابزار در سرچ کنسول (همانطور که در شکل بالا مشاهده می کنید) استفاده کنید. البته ابزارهای دیگری هم وجود دارد که در اینترنت به راحتی می توانید پیدا کنید. این ابزار به شما نشان می دهد که آیا فایل robots شما به درستی ربات های گوگل را در موارد خاصی که خواسته اید، بلاک می کند یا خیر. به عنوان مثال اگر شما در فایل robots.txt یک عکس را disallow کرده اید، آیا Googlebot-Image می تواند این فایل را بررسی کند یا خیر که اگر نکند یعنی فایل robots.txt شما درست تنظیم شده است.

نتیجه گیری :

با تنظیم درست فایل robots.txt علاوه بر اینکه مواردی را که می خواهید ربات ها نادیده بگیرند را معرفی می کنید، به علاوه به تسهیل فرایند کرال و ایندکس هم کمک می کند که این کار بر سئو سایت شما هم تاثیر زیادی دارد. در این مقاله ضمن معرفی اینکه فایل robots.txt چیست، از اهمیت داشتن این فایل صحبت کردیم و شما را با دستورات مختلف آن که با استفاده از آنها می توانید یک فایل robots ایجاد کنیم، آشنا کردیم. امیدواریم با بکارگیری درست آن بتوانید بهتر عمل کنید.

سوالات پرتکرار:

فایل robots باید در کدام مسیر سایت قرار بگیرد؟

فایل robots.txt باید در ریشه سایت قرار بگیرد تا توسط موتورهای جستجو قابل کشف باشد و بتوانند از آن استفاده کنند.

اگر سایت شما فایل robots.txt را نداشته باشد چه اتفاقی می‌افتد؟

در این صورت، ربات‌های موتورهای جستجو امکان دسترسی به تمام صفحات عمومی را دارند و اجازه دارند تا تمام محتوای سایت شما را ایندکس کنند.

آیا برای هر زیر دامنه از سایت، یک فایل robots.txt مجزا لازم است؟

بله، برای مثال اگر هم example.com و هم blog.example یا … دارید، برای هر کدام به طور مجزا باید این فایل را ایجاد کنید.

با عضویت در خبرنامه ایمیلی ما میتوانید در رشد کسب و کار خود قدم موثری بردارید!

ادامه خواندن در سایت منبع

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *