what is robots txt

what is robots txt


فایل robots.txt چیست

فایل robots.txt چیست ، دنیای سئو و طراحی وب پر از اصطلاحات و کلمات اختصاری است که متخصصان این حوزه آن را درک می کنند، کاربرد فایل robots.txt چیست اما بسیاری از این اصطلاحات ممکن است برای کاربران روزمره گیج کننده باشند. یکی از اصطلاحات رایج robots.txt است. 

بنابراین، فایل robots.txt چیست؟ کاربرد فایل robots.txt چیست؟ برای یادگیری اصول اولیه این اصطلاح رایج سئو، ادامه مطلب را بخوانید.

حتما بخوانید : طراحی سایت آرایشی و بهداشتی

فایل Robots.txt چیست؟ 

Robots.txt به یک فایل متنی اشاره دارد که توسعه دهندگان وب از آن برای هدایت روبات های وب استفاده می کنند. این قطعه کد به روبات های موتورهای جستجو می گوید که چگونه صفحات یک وب سایت را بخزند.

 یک نمونه فایل robots.txt می‌تواند به روبات‌های موتورهای جستجو اجازه خزیدن و فهرست‌بندی URL‌های خاص را بدهد یا آن را ممنوع کند. 

حتما بخوانید : طراحی سایت نیازمندی ها

یک فایل robots.txt تنها یک قطعه کد کوتاه است، اگرچه می‌توانید خطوط مختلفی از دستورالعمل‌ها را در یک فایل متنی روبات ذخیره کنید. 

به خاطر داشته باشید که فایل robots.txt لزوماً یک صفحه وب را از گوگل و سایر موتورهای جستجو پنهان نمی کند. 

این فقط خزنده ها را از خزیدن و فهرست کردن مستقیم آنها جلوگیری می کند. اگر صفحه دیگری به صفحه‌ای پیوند می‌خورد که توسط فایل robots.txt شما غیرمجاز است، ممکن است همچنان ایندکس شود. برای پنهان نگه داشتن صفحات از گوگل، باید از دستورالعمل های noindex استفاده کنید و همچنین دسترسی از طریق robots.txt را ممنوع کنید.

پروتکل حذف ربات ها

Robots.txt بخشی از یک پروتکل حذف روبات یا REP است. 

این پروتکل استاندارد نحوه خزیدن صفحات وب و فهرست بندی محتوا را به روبات ها، به ویژه ربات های موتورهای جستجو، دیکته می کند. فایل robots.txt چیست استاندارد حذف ربات ها همچنین قوانینی را در مورد نحوه پیروی از پیوندها تعیین می کند (لینک های nofollow در مقابل dofollow). 

Robots.txt برای چه مواردی استفاده می شود؟ 

موتورهای جستجو در وب می خزند تا محتوا را کشف و فهرست کنند. اگر به وب‌سایتی با فایل robots.txt برخورد کنند، ابتدا آن متن را می‌خوانند تا نحوه خزیدن در وب‌سایت را بیاموزند، و از صفحاتی که توسط robots.txt غیرمجاز هستند اجتناب می‌کنند. 

فایل robots.txt وجود دارد تا به خزنده‌ها و روبات‌ها بگوید که کدام URL را نباید در وب‌سایت شما بازدید کنند. این امر برای جلوگیری از خزیدن صفحات با کیفیت پایین یا گیر افتادن در تله‌های خزیدن که در آن تعداد بی‌نهایت URL می‌تواند ایجاد شود، مهم است، به عنوان مثال، یک بخش تقویم که یک URL جدید برای هر روز ایجاد می‌کند.

همانطور که گوگل در راهنمای مشخصات robots.txt خود توضیح می دهد ، فرمت فایل باید متنی ساده با کد UTF-8 باشد. رکوردهای فایل (یا خطوط) باید با CR، CR/LF یا LF از هم جدا شوند.

شما باید به اندازه یک فایل robots.txt توجه داشته باشید، زیرا موتورهای جستجو حداکثر محدودیت اندازه فایل خود را دارند. کاربرد فایل robots.txt چیست حداکثر اندازه برای گوگل 500 کیلوبایت است.

این برای مدیریت محتوایی که در وب سایت شما خزیده می شود مفید است. به عنوان مثال، می‌تواند از دوبار خزیدن محتوای تکراری جلوگیری کند، سایت‌ها را مخفی نگه دارد، یا از ایندکس شدن برخی فایل‌ها مانند تصاویر جلوگیری کند. 

محدودیت های Robots.txt چیست ؟

همانطور که قبلا ذکر کردیم، یک فایل robots.txt نمی تواند به طور کامل از ایندکس شدن یک صفحه در وب سایت شما جلوگیری کند. در حالی که خزنده های موتورهای جستجوی “خوب” از قوانین فایل robots.txt شما پیروی می کنند، ربات های “بد” ممکن است آنها را نادیده بگیرند.

خزنده‌های جستجوی مختلف نیز ممکن است نحو یک فایل متنی را متفاوت تفسیر کنند، بنابراین ممکن است درخواست‌های robots.txt شما را نادیده بگیرند. با این حال، موتورهای جستجوی اصلی مانند گوگل، بینگ یا یاهو همان نحو را درک می کنند.

علاوه بر این، فایل robots.txt چیست ، اگر صفحه وب دیگری به صفحه‌ای که شما در robots.txt شما غیرمجاز کرده‌اید پیوند دهد، ممکن است آن صفحه همچنان توسط موتورهای جستجو فهرست‌بندی شود. به همین دلیل، شما نباید تنها با یک فایل robots.txt از هیچ اطلاعات حساسی محافظت کنید.

اطلاعات مشتری، گذرواژه‌های کاربر و موارد دیگر باید از طریق سایر اقدامات امنیت سایبری محافظت شوند، نمونه فایل robots.txt در غیر این صورت ممکن است در معرض خطر قرار گیرند. مطمئن شوید که از اطلاعات مهم حریم خصوصی با رمز عبور محافظت می کنید.

چرا Robots.txt برای سئو مهم است؟ 

اکنون که درک اولیه ای از فایل های robots.txt دارید، ممکن است تعجب کنید که همه اینها برای اهداف سئو چیست.

برخی از صفحات در وب سایت شما وجود دارند که به سادگی نیازی به ایندکس شدن توسط موتورهای جستجو ندارند. فایل‌های تصویری معمولاً آدرس وب خود را دارند، اما ممکن است نخواهید این‌ها خزیده و فهرست‌بندی شوند. 

نتایج جستجوی داخلی، اگر نوار جستجو در سایت خود دارید، نیازی به خزیدن و ایندکس شدن ندارید. محتوای تکراری نیازی به فهرست بندی ندارد – و اگر گوگل آن را تکراری یا سرقت ادبی ببیند، می تواند به رتبه بندی محتوای شما آسیب برساند. 

هر صفحه‌ای که نمی‌خواهید توسط موتورهای جستجو خزیده و فهرست‌بندی شود را می‌توانید در فایل robots.txt غیرمجاز کنید.

 جدای از دور نگه داشتن صفحات غیر ضروری از صفحات نتایج موتورهای جستجو، دلیل دیگری برای غیر مجاز کردن صفحات خاصی در فایل robots.txt شما وجود دارد. 

مدت زمانی که برای خزیدن کل سایت شما طول می کشد می تواند بر سئو تاثیر بگذارد . ربات گوگل، Googlebot، دارای بودجه خزیدن است، به این معنی که فقط می تواند تعداد معینی از صفحات را با سرعت مشخصی بخزد. 

برای اولویت بندی صفحاتی که می خواهید ربات گوگل آن ها را بخزد، ایندکس کند و در SERP ها رتبه بندی کند، می توانید صفحات غیر ضروری را در فایل robots.txt خود ممنوع کنید. نمونه فایل robots.txt به این ترتیب، بودجه خزیدن به سمت مهم ترین و مرتبط ترین صفحات وب می رود.

چگونه یک فایل Robots.txt ایجاد کنیم ؟

ایجاد یک فایل robots.txt نسبتا ساده است، اما ممکن است برای کسانی که تجربه توسعه وب، کدنویسی یا مدیریت وب سایت ندارند، کمی خسته کننده باشد. خوشبختانه، گوگل دستورالعمل های ساده ای در مورد نحوه ایجاد فایل robots.txt و همچنین ابزاری برای بررسی درستی کارکرد آن ارائه می دهد. 

سایت خود را برای Robots.txt بررسی کنید

ممکن است تعجب کنید، “آیا وب سایت من دارای robots.txt است؟” بسته به اینکه چه کسی وب سایت شما را طراحی کرده است، یا اگر با یک شرکت سئو کار می کنید، ممکن است قبلاً یک فایل robots.txt ایجاد کرده باشید. 

robots.txt همیشه باید در ریشه دامنه وجود داشته باشد، به عنوان مثال:

این فایل مختص پروتکل و دامنه کامل است، بنابراین robots.txt در https://www.example.com بر خزیدن https://www.example.com یا https://subdomain.example تأثیری ندارد. com ; اینها باید فایل‌های robots.txt خود را داشته باشند.

بررسی وب سایت خود یا هر وب سایتی برای فایل robots.txt آسان است. به سادگی URL پایه خود را تایپ کنید و در پایان عبارت /robots.txt را تایپ کنید. در اینجا یک مثال است: 

اگر فایل ربات دارید، در اینجا ظاهر می شود. اگر این کار را نکنید، یک صفحه خالی یا یک خطای 404 خواهید دید.

فایل Robots.txt خود را تست کنید 

اگر فایل robots.txt را کشف کرده‌اید، فایل robots.txt چیست یا اخیراً آن را ایجاد کرده‌اید و می‌خواهید بررسی کنید که درست کار می‌کند، Google یک ابزار رایگان ارائه می‌دهد. 

از این ابزار برای بررسی و مشاهده اینکه چه URL هایی به درستی توسط یک فایل robots.txt در وب سایت شما مسدود شده اند، استفاده کنید. 

چه زمانی باید از قوانین robots.txt استفاده کنید؟

به طور کلی، وب سایت ها باید سعی کنند تا حد امکان از robots.txt کمتر برای کنترل خزیدن استفاده کنند. بهبود معماری وب سایت شما و تمیز و در دسترس ساختن آن برای خزنده ها راه حل بسیار بهتری است. با این حال، استفاده از robots.txt در صورت لزوم برای جلوگیری از دسترسی خزنده‌ها به بخش‌های با کیفیت پایین سایت توصیه می‌شود اگر این مشکلات در کوتاه‌مدت برطرف نشدند.

Google استفاده از robots.txt را فقط در مواقعی که مشکلات سرور ایجاد می‌شود یا مشکلات مربوط به کارآیی خزیدن، مانند Googlebot صرف زمان زیادی برای خزیدن در بخش غیرقابل فهرست‌سازی یک سایت، توصیه می‌کند.

چند نمونه از صفحاتی که ممکن است نخواهید خزیده شوند عبارتند از:

  • صفحات دسته‌بندی با مرتب‌سازی غیر استاندارد، زیرا این کار معمولاً با صفحه دسته‌بندی اولیه تکراری ایجاد می‌کند
  • محتوای تولید شده توسط کاربر که قابل تعدیل نیست
  • صفحات دارای اطلاعات حساس
  • صفحات جستجوی داخلی ، زیرا ممکن است تعداد بی نهایتی از این صفحات نتیجه وجود داشته باشد که تجربه کاربری ضعیفی را ارائه می دهد و بودجه خزیدن را هدر می دهد.

چه زمانی نباید از robots.txt استفاده کنید؟

فایل robots.txt هنگامی که به درستی استفاده می شود ابزار مفیدی است، با این حال، مواردی وجود دارد که بهترین راه حل نیست. در اینجا چند نمونه از زمان استفاده نکردن از robots.txt برای کنترل خزیدن آورده شده است:

1. مسدود کردن جاوا اسکریپت/CSS

موتورهای جستجو باید بتوانند به تمام منابع موجود در سایت شما دسترسی داشته باشند تا صفحات را به درستی رندر کنند، فایل robots.txt چیست که بخشی ضروری برای حفظ رتبه بندی خوب است. فایل‌های جاوا اسکریپتی که تجربه کاربر را به‌طور چشمگیری تغییر می‌دهند، اما خزیدن آنها توسط موتورهای جستجو ممنوع است، ممکن است منجر به جریمه‌های دستی یا الگوریتمی شود.

به عنوان مثال، اگر به یک تبلیغ بینابینی ارائه می دهید یا کاربران را با جاوا اسکریپت هدایت می کنید که موتور جستجو نمی تواند به آن دسترسی داشته باشد، ممکن است به عنوان پنهان کاری دیده شود و رتبه بندی محتوای شما بر این اساس تنظیم شود.

2. مسدود کردن پارامترهای URL

شما می توانید از robots.txt برای مسدود کردن URL های حاوی پارامترهای خاص استفاده کنید، اما این همیشه بهترین روش نیست. بهتر است این موارد را در کنسول جستجوی Google مدیریت کنید زیرا گزینه‌های خاص پارامتر بیشتری در آنجا وجود دارد تا روش‌های خزیدن ترجیحی را به Google منتقل کنید.

همچنین می توانید اطلاعات را در یک قطعه URL ( /page#sort=price ) قرار دهید، زیرا موتورهای جستجو این را نمی خزند. علاوه بر این، اگر باید از یک پارامتر URL استفاده شود، پیوندهای مربوط به آن می‌تواند حاوی ویژگی rel=nofollow باشد تا از تلاش خزنده‌ها برای دسترسی به آن جلوگیری کند.

3. مسدود کردن URL ها با بک لینک

غیرمجاز کردن آدرس‌های اینترنتی در robots.txt از انتقال ارزش پیوند به وب‌سایت جلوگیری می‌کند. این بدان معناست که اگر موتورهای جستجو نتوانند لینک‌های سایر وب‌سایت‌ها را دنبال کنند زیرا URL هدف غیرمجاز است، وب‌سایت شما اعتباری را که این پیوندها منتقل می‌کنند به دست نمی‌آورد و در نتیجه، ممکن است در کل رتبه خوبی نداشته باشید.

4. گرفتن صفحات نمایه شده از فهرست خارج می شود

استفاده از Disallow صفحات را از فهرست خارج نمی کند، و حتی اگر URL مسدود شده باشد و موتورهای جستجو هرگز صفحه را خزیده باشند، صفحات غیرمجاز ممکن است همچنان ایندکس شوند. این به این دلیل است که فرآیندهای خزیدن و نمایه سازی تا حد زیادی از هم جدا هستند.

5. تنظیم قوانینی که خزنده های شبکه های اجتماعی را نادیده می گیرند

حتی اگر نمی‌خواهید موتورهای جستجو صفحات را بخزند و فهرست‌بندی کنند، ممکن است بخواهید شبکه‌های اجتماعی بتوانند به آن صفحات دسترسی داشته باشند تا یک قطعه صفحه ساخته شود. 

به عنوان مثال، کاربرد فایل robots.txt چیست فیس بوک سعی می کند از هر صفحه ای که در شبکه پست می شود بازدید کند تا بتواند یک قطعه مرتبط را ارائه دهد. این را هنگام تنظیم قوانین robots.txt در نظر داشته باشید.

6. مسدود کردن دسترسی از سایت های استیجینگ یا توسعه دهنده

استفاده از robots.txt برای مسدود کردن کل یک سایت مرحله‌بندی بهترین روش نیست. گوگل توصیه می‌کند که صفحات را فهرست‌بندی نکنید، اما اجازه دهید آن‌ها خزیده شوند، اما به طور کلی بهتر است که سایت را از دنیای خارج غیرقابل دسترس کنید.

7. وقتی چیزی برای مسدود کردن ندارید

برخی از وب سایت ها با معماری بسیار تمیز نیازی به مسدود کردن خزنده ها از هیچ صفحه ای ندارند. در این شرایط کاملاً قابل قبول است که فایل robots.txt نداشته باشید و در صورت درخواست وضعیت 404 را برگردانید.

نحوه قالب بندی Robots.txt

اکنون که یاد گرفتیم robots.txt چیست و چه زمانی باید استفاده شود و چه زمانی نباید استفاده شود، بیایید نگاهی به نحو استاندارد و قوانین قالب بندی که باید هنگام نوشتن یک فایل robots.txt رعایت شود، بیاندازیم.

نظرات

نظرات خطوطی هستند که به طور کامل توسط موتورهای جستجو نادیده گرفته می شوند و با یک # شروع می شوند . آنها وجود دارند تا به شما این امکان را بدهند که در مورد کارهایی که هر خط از robots.txt شما انجام می دهد، کاربرد فایل robots.txt چیست ، چرایی وجود و زمان اضافه شدن آن یادداشت بنویسید. 

به طور کلی، توصیه می‌شود که هدف هر خط از فایل robots.txt خود را مستند کنید تا زمانی که دیگر ضروری نیست و در حالی که هنوز ضروری است تغییر داده نمی‌شود، حذف شود.

تعیین User-agent

یک بلوک از قوانین را می توان با استفاده از دستورالعمل ” کارگزار-عامل ” برای عوامل کاربر خاص اعمال کرد. به عنوان مثال، اگر می‌خواهید قوانین خاصی برای Google، Bing و Yandex اعمال شود. اما نه فیس بوک و شبکه های تبلیغاتی، این را می توان با تعیین یک توکن عامل کاربر که مجموعه ای از قوانین برای آن اعمال می شود، به دست آورد.

هر خزنده توکن عامل کاربر خود را دارد که برای انتخاب بلوک های منطبق استفاده می شود.

خزنده‌ها از خاص‌ترین قوانین عامل کاربر که با نام جدا شده با خط تیره برای آنها تنظیم شده است، فایل robots.txt چیست پیروی می‌کنند و اگر مطابقت دقیقی پیدا نشد، دوباره به قوانین عمومی‌تر بازمی‌گردند. برای مثال، Googlebot News به دنبال تطبیق « googlebot-news »، سپس « googlebot » و سپس « * » خواهد بود.

در اینجا برخی از رایج‌ترین توکن‌های عامل کاربر که با آن‌ها مواجه می‌شوید آورده شده است:

  • * – قوانین برای هر ربات اعمال می شود، مگر اینکه مجموعه قوانین خاصی وجود داشته باشد
  • Googlebot – همه خزنده های گوگل
  • Googlebot-News – خزنده برای Google News
  • Googlebot-Image – خزنده برای تصاویر گوگل
  • Mediapartners-Google – خزنده Google Adsense
  • Bingbot – خزنده بینگ
  • Yandex – خزنده Yandex
  • Baiduspider – خزنده بایدو
  • Facebot – خزنده فیس بوک
  • Twitterbot – خزنده توییتر

این فهرست از نشانه‌های عامل کاربر به هیچ وجه جامع نیست، بنابراین برای کسب اطلاعات بیشتر در مورد برخی از خزنده‌های موجود، به اسناد منتشر شده توسط Google ، Bing ، Yandex ، Baidu ، Facebook و Twitter نگاهی بیندازید .

تطبیق توکن عامل کاربر با بلوک robots.txt به حروف بزرگ و کوچک حساس نیست. به عنوان مثال «googlebot» با توکن نماینده کاربر Google «Googlebot» مطابقت دارد.

نشانی‌های اینترنتی تطبیق الگو

ممکن است رشته URL خاصی داشته باشید که بخواهید از خزیدن آن جلوگیری کنید، زیرا این کار بسیار کارآمدتر از گنجاندن یک لیست کامل از URLهای کامل برای حذف در فایل robots.txt شما است.

برای کمک به اصلاح مسیرهای URL خود، می توانید از نمادهای * و $ استفاده کنید. در اینجا نحوه کار آنها آمده است:

  • * – این یک علامت عام است و هر مقدار از هر شخصیت را نشان می دهد. می تواند در ابتدا یا وسط یک مسیر URL باشد، اما در پایان لازم نیست. شما می توانید از چند علامت عام در یک رشته URL استفاده کنید، به عنوان مثال، ” عدم اجازه: */products؟*sort= “. قوانین با مسیرهای کامل نباید با علامت عام شروع شوند.
  • $ – این کاراکتر نشان‌دهنده پایان یک رشته URL است، بنابراین «عدم اجازه : */dress$ » فقط با URL‌هایی که به « /dress » ختم می‌شوند و نه « /dress?parameter » مطابقت دارد.

شایان ذکر است که قوانین robots.txt به حروف بزرگ و کوچک حساس هستند، به این معنی که اگر آدرس‌های اینترنتی با پارامتر « جستجو » را غیرفعال کنید (مثلاً « عدم اجازه : *?search= »)، ممکن است ربات‌ها همچنان URLهایی را با حروف بزرگ متفاوت بخزند، مانند « ?Search » = هر چیزی .

قوانین دستورالعمل فقط با مسیرهای URL مطابقت دارند و نمی توانند شامل پروتکل یا نام میزبان باشند. یک اسلش در شروع یک دستورالعمل با شروع مسیر URL مطابقت دارد. به عنوان مثال، ” Disllow: /starts ” با www.example.com/starts مطابقت دارد .

مگر اینکه شروع یک تطابق دستورالعمل را با یک / یا * اضافه کنید، با چیزی مطابقت نخواهد داشت. به عنوان مثال، ” عدم اجازه: شروع می شود ” هرگز با چیزی مطابقت ندارد.

برای کمک به تجسم نحوه عملکرد قوانین URL های مختلف، چند مثال برای شما گردآوری کرده ایم:

لینک نقشه سایت Robots.txt

دستورالعمل نقشه سایت در یک فایل robots.txt به موتورهای جستجو می گوید که نقشه سایت XML را کجا پیدا کنند، که به آنها کمک می کند تا تمام URL های وب سایت را پیدا کنند. برای کسب اطلاعات بیشتر در مورد نقشه سایت، نگاهی به راهنمای ما در مورد ممیزی نقشه سایت و پیکربندی پیشرفته بیندازید .

هنگام قرار دادن نقشه سایت در فایل robots.txt، باید از URL های مطلق (یعنی https://www.example.com/sitemap.xml ) به جای URL های نسبی (یعنی /sitemap.xml .) استفاده کنید. همچنین شایان ذکر است که نقشه های سایت استفاده نمی کنند.

مجبور نیستید روی یک دامنه ریشه بنشینید، آنها همچنین می توانند روی یک دامنه خارجی میزبانی شوند.

موتورهای جستجو نقشه‌های سایت فهرست‌شده در فایل robots.txt شما را پیدا می‌کنند و ممکن است آن‌ها را بخزند، با این حال، این نقشه‌های سایت بدون ارسال دستی در کنسول جستجوی Google یا ابزار وب‌مستر بینگ ظاهر نمی‌شوند.
 

Robots.txt Blocks چیست ؟

قانون «عدم اجازه» در فایل robots.txt می‌تواند به روش‌های مختلفی برای عوامل کاربر مختلف استفاده شود. در این بخش، برخی از روش‌های مختلف را که می‌توانید ترکیب بلوک‌ها را قالب‌بندی کنید، پوشش می‌دهیم.

مهم است که به یاد داشته باشید که دستورالعمل های موجود در فایل robots.txt فقط دستورالعمل هستند. خزنده های مخرب فایل robots.txt شما را نادیده می گیرند و هر قسمت از سایت شما را که عمومی است می خزند، بنابراین Disallow نباید به جای اقدامات امنیتی قوی استفاده شود.

چندین بلوک عامل کاربر

می‌توانید با فهرست کردن آن‌ها قبل از مجموعه‌ای از قوانین، یک بلوک از قوانین را با چندین نماینده کاربر مطابقت دهید، برای مثال، قوانین غیرمجاز زیر برای Googlebot و Bing در بلوک قوانین زیر اعمال می‌شود:

User-agent: googlebot
User-agent: bing
Disallow: /a

فاصله بین بلوک های دستورالعمل

گوگل فاصله های بین دستورالعمل ها و بلوک ها را نادیده می گیرد. در این مثال اول، قانون دوم انتخاب می‌شود، حتی اگر فضایی وجود داشته باشد که دو بخش قانون را از هم جدا می‌کند:

[کد]
عامل کاربر: *
غیر مجاز: /disallowed/ 

غیر مجاز: /test1/robots_excluded_blank_line
[/code]

در این مثال دوم، Googlebot-mobile همان قوانین Bingbot را به ارث می برد:

[کد]
عامل کاربر: googlebot-mobile 

عامل کاربر: bing غیر مجاز
: /test1/deepcrawl_excluded
[/code]

بلوک های جداگانه ترکیب شده است

چندین بلوک با یک عامل کاربر ترکیب می شوند. بنابراین در مثال زیر، بلوک‌های بالا و پایین با هم ترکیب می‌شوند و Googlebot از خزیدن « b » و « / a» منع می‌شود .

Robots.txt Allow

قانون robots.txt “اجازه دادن” به صراحت اجازه خزیدن به URL های خاص را می دهد. در حالی که این پیش‌فرض برای همه URL‌ها است، این قانون می‌تواند برای بازنویسی یک قانون غیر مجاز استفاده شود. 

به عنوان مثال، اگر ” /locations ” غیرمجاز است، می توانید با داشتن قانون خاص ” Allow: /locations/london ” خزیدن ” /locations/london ” را مجاز کنید.

اولویت بندی Robots.txt

وقتی چندین قانون مجاز و غیرمجاز برای یک URL اعمال می شود، طولانی ترین قانون تطبیق همانی است که اعمال می شود. بیایید ببینیم چه اتفاقی برای URL ” /home/search/shirts ” با قوانین زیر می افتد:

غیر مجاز: /home
اجازه: *جستجو/* غیر مجاز:
*پیراهن

دستورالعمل های Robots.txt

دستورالعمل‌های سطح صفحه (که بعداً در این راهنما به آن‌ها خواهیم پرداخت) ابزارهای خوبی هستند، اما مشکل آن‌ها این است که موتورهای جستجو باید قبل از خواندن این دستورالعمل‌ها، یک صفحه را بخزند، که می‌تواند بودجه خزیدن را مصرف کند.

کاربرد فایل robots.txt چیست ، دستورالعمل‌های Robots.txt می‌توانند به کاهش فشار بر بودجه خزیدن کمک کنند زیرا می‌توانید دستورالعمل‌ها را مستقیماً به فایل robots.txt خود اضافه کنید، نه اینکه منتظر بمانید تا موتورهای جستجو صفحات را قبل از اقدامی بخزند. مدیریت این راه حل بسیار سریعتر و آسانتر است.

دستورالعمل‌های robots.txt زیر مانند دستورالعمل‌های مجاز و غیر مجاز عمل می‌کنند، به این صورت که می‌توانید حروف عام ( * ) را مشخص کنید و از نماد $ برای نشان دادن انتهای رشته URL استفاده کنید.

Robots.txt NoIndex

Robots.txt noindex یک ابزار مفید برای مدیریت نمایه سازی موتورهای جستجو بدون استفاده از بودجه خزیدن است. غیر مجاز کردن یک صفحه در robots.txt به معنای حذف آن از فهرست نیست، بنابراین دستورالعمل noindex برای استفاده برای این منظور بسیار مؤثرتر است.

گوگل به طور رسمی از robots.txt noindex پشتیبانی نمی کند و شما نباید به آن تکیه کنید زیرا اگرچه امروز کار می کند، اما ممکن است فردا این کار را انجام ندهد.

 اگرچه این ابزار می تواند مفید باشد و باید به عنوان یک اصلاح کوتاه مدت در ترکیب با سایر کنترل های شاخص بلندمدت استفاده شود، نمونه فایل robots.txt اما نه به عنوان یک دستورالعمل حیاتی. به آزمایش‌هایی که توسط ohgm و Stone Temple انجام می‌شود، نگاهی بیندازید که هر دو ثابت می‌کنند که این ویژگی به طور موثر کار می‌کند.

در اینجا مثالی از نحوه استفاده از robots.txt noindex آورده شده است:

[کد]
عامل کاربر: *
NoIndex: /directory
NoIndex: /*?*sort=
[/code]

علاوه بر noindex، گوگل در حال حاضر به طور غیر رسمی از چندین دستورالعمل نمایه سازی دیگر زمانی که در robots.txt قرار می گیرند، اطاعت می کند.

 فایل robots.txt چیست ، توجه به این نکته مهم است که همه موتورهای جستجو و خزنده‌ها از این دستورالعمل‌ها پشتیبانی نمی‌کنند، نمونه فایل robots.txt و آنهایی که انجام می‌دهند ممکن است در هر زمانی از آنها پشتیبانی نکنند – کاربرد فایل robots.txt چیست ، شما نباید به طور مداوم به کارکرد آن‌ها تکیه کنید.

Mediarestمشاهده نوشته ها

Avatar for mediarest

ما در مدیارست متخصصان برنامه نویسی زیادی را از سراسر ایران جمع کردیم و از بین آنها بهترین هاشو جدا کردیم تا توانسته ایم تبدیل بشیم به بهترین و بزرگترین شرکت طراحی سایت در ایران . ما تمام تلاشمون و هدفمون این هست که تمام کسب و کارها بتوانند سریع به درامد برسند .

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *