فایل robot.txt چیست وچه کاربردی دارد؟

folder_openسئو

فایل robot.txt

فایل robots.txt مجموعه ای از دستورالعمل ها فایل robot.txt برای ربات ها است. این فایل در فایلهای منبع اکثر وب سایت ها گنجانده شده است. فایل های Robots.txt بیشتر برای مدیریت فعالیت های ربات های خوب مانند خزنده های وب در نظر گرفته شده اند ، زیرا ربات های بد به احتمال زیاد از دستورالعمل ها پیروی نمی کنند. طراحی سایت اصفهان یک فایل robots.txt را مانند یک علامت “کد رفتار” در دیوار نصب شده در سالن بدنسازی ، بار ، یا مرکز اجتماعی در نظر بگیرید: این علامت به خودی خود قدرت اجرای قوانین ذکر شده را ندارد ، اما مشتریان “خوب” قوانین را رعایت می کند ، در حالی که قوانین بد به احتمال زیاد آنها را زیر پا گذاشته و خود را ممنوع اعلام می کنند.ربات یک برنامه کامپیوتری خودکار است که با وب سایت ها و برنامه های کاربردی تعامل دارد. ربات های خوب و ربات های بد وجود دارد و یک نوع ربات خوب ، ربات خزنده وب نامیده می شود. این رباتها صفحات وب را “می خزند” و محتوا را فهرست بندی می کنند تا بتواند در نتایج موتورهای جستجو نشان داده شود. یک فایل robots.txt به مدیریت فعالیتهای این خزنده های وب کمک می کند تا از سرور وب میزبان وب سایت بیش از حد مالیات نگیرند یا صفحاتی را که برای نمایش عمومی مناسب نیستند فهرست بندی کنند.

 

فایل robots.txt چگونه کار می کند؟

یک فایل robots.txt فقط یک فایل متنی است بدون کد نشانه گذاری HTML (از این رو پسوند .txt). فایل robots.txt درست مانند هر فایل دیگری در وب بر روی سرور وب میزبانی می شود. در حقیقت ، فایل robots.txt برای هر وب سایت معین را می توان با تایپ کامل URL اصلی صفحه اصلی و سپس افزودن /robots.txt ، مانند https://www./robots.txt ، مشاهده کرد. فایل به هیچ جای دیگری در سایت پیوند ندارد ، بنابراین احتمالاً کاربران با آن برخورد نمی کنند ، اما اکثر ربات های خزنده وب قبل از خزیدن بقیه سایت ابتدا به دنبال این فایل می گردند.

 

در حالی که یک فایل robots.txt دستورالعمل هایی را برای ربات ها ارائه می دهد ، در واقع نمی تواند دستورالعمل ها را اجرا کند. یک ربات خوب ، مانند یک خزنده وب یا یک ربات خبری ، سعی می کند قبل از مشاهده سایر صفحات در یک دامنه ، ابتدا از فایل robots.txt دیدن کرده و دستورالعمل ها را دنبال کند. یک ربات بد یا فایل robots.txt را نادیده می گیرد یا آن را برای یافتن صفحات وب ممنوعه پردازش می کند.یک ربات خزنده وب خاص ترین مجموعه دستورالعمل ها را در فایل robots.txt دنبال می کند. اگر دستورات متناقضی در پرونده وجود داشته باشد ، ربات دستور دقیق تر را دنبال می کند.یک نکته مهم این است که همه زیر دامنه ها به فایل robots.txt مخصوص خود نیاز دارند. به عنوان مثال ، در حالی که www.cloudflare.com فایل خاص خود را دارد ، همه زیر دامنه های Cloudflare (blog.cloudflare.com ، community.cloudflare.com و غیره) نیز به فایل های خاص خود نیاز دارند.

 

چه پروتکل هایی در فایل robots.txt استفاده می شود؟

در شبکه ، یک پروتکل فرمت ارائه دستورات یا دستورات است. فایل های Robots.txt از چند پروتکل مختلف استفاده می کنند. پروتکل اصلی پروتکل حذف روبات ها نامیده می شود. این راهی است که به ربات ها می گویند از کدام صفحات وب و منابع اجتناب کنند. دستورالعمل های قالب بندی شده برای این پروتکل در فایل robots.txt گنجانده شده است.

پروتکل دیگری که برای فایل های robots.txt استفاده می شود پروتکل Sitemaps است. این را می توان یک پروتکل ورود روبات ها در نظر گرفت. نقشه های سایت به یک خزنده وب نشان می دهد که کدام صفحات را می توانند خزنده کنند. این به شما اطمینان می دهد که یک ربات خزنده هیچ صفحه مهمی را از دست نمی دهد.

 

نمونه ای از فایل robots.txt

در اینجا فایل robots.txt برای www.cloudflare.com آمده است:

 

مدل OSI

در زیر ما معنی این همه را بیان می کنیم.

 

نماینده کاربر چیست؟ منظور از “User-agent: *” چیست؟

هر شخص یا برنامه ای که در اینترنت فعال است دارای “نماینده کاربر” یا نام اختصاصی خواهد بود. برای کاربران انسانی ، این شامل اطلاعاتی مانند نوع مرورگر و نسخه سیستم عامل است اما اطلاعات شخصی ندارد. این به وب سایت ها کمک می کند تا محتوای سازگار با سیستم کاربر را نشان دهند. برای ربات ها ، نماینده کاربر (از لحاظ نظری) به مدیران وب سایت کمک می کند تا بدانند چه نوع ربات هایی در حال خزیدن در سایت هستند.

 

در یک فایل robots.txt ، مدیران وب سایت می توانند با نوشتن دستورالعمل های مختلف برای عوامل کاربر ربات ، دستورالعمل های خاصی را برای ربات های خاص ارائه دهند. به عنوان مثال ، اگر سرپرست بخواهد صفحه خاصی در نتایج جستجوی Google نشان داده شود ، اما در جستجوهای Bing نشان داده نشود ، می تواند دو مجموعه دستور در فایل robots.txt شامل شود: یک مجموعه قبل از “User-agent: Bingbot” و یک مجموعه قبل از آن “User-agent: Googlebot”.

 

در مثال بالا ، Cloudflare “User-agent: *” را در فایل robots.txt قرار داده است. این ستاره نمایانگر عامل کاربر “کارت وحشی” است و به این معنی است که دستورالعمل ها برای هر ربات اعمال می شود ، نه هر ربات خاص.

 

نامهای رایج کاربر عامل ربات موتور جستجو عبارتند از:

 

گوگل:

 

Googlebot

Googlebot-Image (برای تصاویر)

Googlebot-News (برای اخبار)

Googlebot-Video (برای فیلم)

دستورات “Disallow” در فایل robot.txt چگونه کار می کنند؟

دستور Disallow رایج ترین پروتکل حذف روبات ها است. این به ربات ها می گوید به صفحه وب یا مجموعه صفحات وب پس از فرمان دسترسی پیدا نکنند. صفحات مجاز لزوما “پنهان” نیستند – آنها فقط برای کاربران معمولی Google یا Bing مفید نیستند ، بنابراین به آنها نشان داده نمی شود. در بیشتر مواقع ، کاربر در وب سایت می تواند همچنان به این صفحات مراجعه کند اگر بداند کجا آنها را پیدا کند.دستور Disallow را می توان به روش های مختلفی مورد استفاده قرار داد که چندین مورد از آنها در مثال بالا نمایش داده شده است.

مسدود کردن یک فایل (به عبارت دیگر ، یک صفحه وب خاص)

به عنوان مثال ، اگر Cloudflare مایل باشد مانع از خزیدن ربات های ما “ربات چیست؟” مقاله ، چنین دستوری به شرح زیر نوشته می شود:

 

ممنوع:/learning/bots/what-is-a-bot/

پس از فرمان “ممنوعیت” ، بخشی از URL صفحه وب که بعد از صفحه اصلی آمده است – در این مورد ،www..” – گنجانده شده است. با استفاده از این دستور ، ربات های خوب به https://www./learning/bots/what-is-a-bot/ دسترسی نخواهند داشت و صفحه در نتایج موتورهای جستجو نشان داده نمی شود. در اینجا نشان دهنده “ریشه” در سلسله مراتب یک وب سایت است ، یا صفحه ای که همه صفحات دیگر از آن منشعب شده اند ، بنابراین شامل صفحه اصلی و تمام صفحات مرتبط با آن است. با استفاده از این دستور ، ربات های موتور جستجو اصلاً نمی توانند وب سایت را خزنده کنند.به عبارت دیگر ، یک اسلش می تواند یک وب سایت کامل را از اینترنت قابل جستجو حذف کند!

 

چه دستورات دیگری بخشی از پروتکل حذف روبات ها هستند؟

مجاز: درست همانطور که انتظار می رود ، دستور “اجازه” به ربات ها می گوید فایل robot.txt  که اجازه دسترسی به یک صفحه وب یا فهرست خاص را دارند. این دستور باعث می شود که ربات ها بتوانند به یک صفحه وب خاص برسند ، در حالی که بقیه صفحات وب موجود در فایل را مجاز نمی دانند. همه موتورهای جستجو این دستور را تشخیص نمی دهند.

 

Crawl-delay: دستور تاخیر خزیدن به معنای جلوگیری از اضافه کاری روبات های عنکبوت موتورهای جستجو بر سرور است. این به مدیران اجازه می دهد تا مشخص کنند که ربات چقدر باید بین هر درخواست ، در میلی ثانیه منتظر بماند. در اینجا نمونه ای از دستور Crawl-delay برای انتظار 8 میلی ثانیه آمده است:

 

خزیدن-تاخیر

گوگل این دستور را به رسمیت نمی شناسد ، اگرچه موتورهای جستجو دیگر آن را تشخیص می دهند. در Google ، سرپرستان می توانند فرکانس خزیدن وب سایت خود را در Google Search Console تغییر دهند.

 نقشه سایت

این یک لیست قابل خواندن از تمام صفحات یک وب سایت است. از طریق پروتکل Sitemaps ، پیوندهای این نقشه های سایت می توانند در فایل robot.txt گنجانده شوند. قالب این است: “Sitemaps:” به دنبال آدرس وب فایل XML. چندین مثال را می توانید در فایل Cloudflare robots.txt در بالا مشاهده کنید.در حالی که پروتکل Sitemaps به شما اطمینان می دهد که ربات های عنکبوتی وب هنگام خزیدن یک وب سایت چیزی را از دست نمی دهند ، ربات ها همچنان روند خزیدن معمولی خود را دنبال خواهند کرد. نقشه های سایت ربات های خزنده را مجبور نمی کند صفحات وب را به طور متفاوتی اولویت بندی کنند.

ارتباط robots.txt با مدیریت ربات چگونه است؟

مدیریت ربات ها برای راه اندازی وب سایت یا برنامه ضروری است ، زیرا حتی فعالیت بات خوب می تواند یک سرور مبدا را بیش از حد مجاز کند ، یک ویژگی وب را کند یا از بین ببرد. یک فایل robot.txt که به خوبی ساخته شده است ، یک وب سایت را برای SEO بهینه کرده و فعالیت ربات های خوب را تحت کنترل نگه می دارد.

 

با این حال ، یک فایل robots.txt کار چندانی برای مدیریت ترافیک مخرب ربات ها نخواهد کرد. یک راه حل مدیریت ربات مانند Cloudflare Bot Management یا Super Bot Fight Mode می تواند فعالیت ربات های مخرب را بدون تأثیر بر ربات های اصلی مانند خزنده های وب ، مهار کند.

0

Related Posts

فهرست