فایل robots.txt چیست ، دنیای سئو و طراحی وب پر از اصطلاحات و کلمات اختصاری است که متخصصان این حوزه آن را درک می کنند، کاربرد فایل robots.txt چیست اما بسیاری از این اصطلاحات ممکن است برای کاربران روزمره گیج کننده باشند. یکی از اصطلاحات رایج robots.txt است.
بنابراین، فایل robots.txt چیست؟ کاربرد فایل robots.txt چیست؟ برای یادگیری اصول اولیه این اصطلاح رایج سئو، ادامه مطلب را بخوانید.
حتما بخوانید : طراحی سایت آرایشی و بهداشتی
فایل Robots.txt چیست؟
Robots.txt به یک فایل متنی اشاره دارد که توسعه دهندگان وب از آن برای هدایت روبات های وب استفاده می کنند. این قطعه کد به روبات های موتورهای جستجو می گوید که چگونه صفحات یک وب سایت را بخزند.
یک نمونه فایل robots.txt میتواند به روباتهای موتورهای جستجو اجازه خزیدن و فهرستبندی URLهای خاص را بدهد یا آن را ممنوع کند.
حتما بخوانید : طراحی سایت نیازمندی ها
یک فایل robots.txt تنها یک قطعه کد کوتاه است، اگرچه میتوانید خطوط مختلفی از دستورالعملها را در یک فایل متنی روبات ذخیره کنید.
به خاطر داشته باشید که فایل robots.txt لزوماً یک صفحه وب را از گوگل و سایر موتورهای جستجو پنهان نمی کند.
این فقط خزنده ها را از خزیدن و فهرست کردن مستقیم آنها جلوگیری می کند. اگر صفحه دیگری به صفحهای پیوند میخورد که توسط فایل robots.txt شما غیرمجاز است، ممکن است همچنان ایندکس شود. برای پنهان نگه داشتن صفحات از گوگل، باید از دستورالعمل های noindex استفاده کنید و همچنین دسترسی از طریق robots.txt را ممنوع کنید.
پروتکل حذف ربات ها
Robots.txt بخشی از یک پروتکل حذف روبات یا REP است.
این پروتکل استاندارد نحوه خزیدن صفحات وب و فهرست بندی محتوا را به روبات ها، به ویژه ربات های موتورهای جستجو، دیکته می کند. فایل robots.txt چیست استاندارد حذف ربات ها همچنین قوانینی را در مورد نحوه پیروی از پیوندها تعیین می کند (لینک های nofollow در مقابل dofollow).
Robots.txt برای چه مواردی استفاده می شود؟
موتورهای جستجو در وب می خزند تا محتوا را کشف و فهرست کنند. اگر به وبسایتی با فایل robots.txt برخورد کنند، ابتدا آن متن را میخوانند تا نحوه خزیدن در وبسایت را بیاموزند، و از صفحاتی که توسط robots.txt غیرمجاز هستند اجتناب میکنند.
فایل robots.txt وجود دارد تا به خزندهها و روباتها بگوید که کدام URL را نباید در وبسایت شما بازدید کنند. این امر برای جلوگیری از خزیدن صفحات با کیفیت پایین یا گیر افتادن در تلههای خزیدن که در آن تعداد بینهایت URL میتواند ایجاد شود، مهم است، به عنوان مثال، یک بخش تقویم که یک URL جدید برای هر روز ایجاد میکند.
همانطور که گوگل در راهنمای مشخصات robots.txt خود توضیح می دهد ، فرمت فایل باید متنی ساده با کد UTF-8 باشد. رکوردهای فایل (یا خطوط) باید با CR، CR/LF یا LF از هم جدا شوند.
شما باید به اندازه یک فایل robots.txt توجه داشته باشید، زیرا موتورهای جستجو حداکثر محدودیت اندازه فایل خود را دارند. کاربرد فایل robots.txt چیست حداکثر اندازه برای گوگل 500 کیلوبایت است.
این برای مدیریت محتوایی که در وب سایت شما خزیده می شود مفید است. به عنوان مثال، میتواند از دوبار خزیدن محتوای تکراری جلوگیری کند، سایتها را مخفی نگه دارد، یا از ایندکس شدن برخی فایلها مانند تصاویر جلوگیری کند.
محدودیت های Robots.txt چیست ؟
همانطور که قبلا ذکر کردیم، یک فایل robots.txt نمی تواند به طور کامل از ایندکس شدن یک صفحه در وب سایت شما جلوگیری کند. در حالی که خزنده های موتورهای جستجوی “خوب” از قوانین فایل robots.txt شما پیروی می کنند، ربات های “بد” ممکن است آنها را نادیده بگیرند.
خزندههای جستجوی مختلف نیز ممکن است نحو یک فایل متنی را متفاوت تفسیر کنند، بنابراین ممکن است درخواستهای robots.txt شما را نادیده بگیرند. با این حال، موتورهای جستجوی اصلی مانند گوگل، بینگ یا یاهو همان نحو را درک می کنند.
علاوه بر این، فایل robots.txt چیست ، اگر صفحه وب دیگری به صفحهای که شما در robots.txt شما غیرمجاز کردهاید پیوند دهد، ممکن است آن صفحه همچنان توسط موتورهای جستجو فهرستبندی شود. به همین دلیل، شما نباید تنها با یک فایل robots.txt از هیچ اطلاعات حساسی محافظت کنید.
اطلاعات مشتری، گذرواژههای کاربر و موارد دیگر باید از طریق سایر اقدامات امنیت سایبری محافظت شوند، نمونه فایل robots.txt در غیر این صورت ممکن است در معرض خطر قرار گیرند. مطمئن شوید که از اطلاعات مهم حریم خصوصی با رمز عبور محافظت می کنید.
چرا Robots.txt برای سئو مهم است؟
اکنون که درک اولیه ای از فایل های robots.txt دارید، ممکن است تعجب کنید که همه اینها برای اهداف سئو چیست.
برخی از صفحات در وب سایت شما وجود دارند که به سادگی نیازی به ایندکس شدن توسط موتورهای جستجو ندارند. فایلهای تصویری معمولاً آدرس وب خود را دارند، اما ممکن است نخواهید اینها خزیده و فهرستبندی شوند.
نتایج جستجوی داخلی، اگر نوار جستجو در سایت خود دارید، نیازی به خزیدن و ایندکس شدن ندارید. محتوای تکراری نیازی به فهرست بندی ندارد – و اگر گوگل آن را تکراری یا سرقت ادبی ببیند، می تواند به رتبه بندی محتوای شما آسیب برساند.
هر صفحهای که نمیخواهید توسط موتورهای جستجو خزیده و فهرستبندی شود را میتوانید در فایل robots.txt غیرمجاز کنید.
جدای از دور نگه داشتن صفحات غیر ضروری از صفحات نتایج موتورهای جستجو، دلیل دیگری برای غیر مجاز کردن صفحات خاصی در فایل robots.txt شما وجود دارد.
مدت زمانی که برای خزیدن کل سایت شما طول می کشد می تواند بر سئو تاثیر بگذارد . ربات گوگل، Googlebot، دارای بودجه خزیدن است، به این معنی که فقط می تواند تعداد معینی از صفحات را با سرعت مشخصی بخزد.
برای اولویت بندی صفحاتی که می خواهید ربات گوگل آن ها را بخزد، ایندکس کند و در SERP ها رتبه بندی کند، می توانید صفحات غیر ضروری را در فایل robots.txt خود ممنوع کنید. نمونه فایل robots.txt به این ترتیب، بودجه خزیدن به سمت مهم ترین و مرتبط ترین صفحات وب می رود.
چگونه یک فایل Robots.txt ایجاد کنیم ؟
ایجاد یک فایل robots.txt نسبتا ساده است، اما ممکن است برای کسانی که تجربه توسعه وب، کدنویسی یا مدیریت وب سایت ندارند، کمی خسته کننده باشد. خوشبختانه، گوگل دستورالعمل های ساده ای در مورد نحوه ایجاد فایل robots.txt و همچنین ابزاری برای بررسی درستی کارکرد آن ارائه می دهد.
سایت خود را برای Robots.txt بررسی کنید
ممکن است تعجب کنید، “آیا وب سایت من دارای robots.txt است؟” بسته به اینکه چه کسی وب سایت شما را طراحی کرده است، یا اگر با یک شرکت سئو کار می کنید، ممکن است قبلاً یک فایل robots.txt ایجاد کرده باشید.
robots.txt همیشه باید در ریشه دامنه وجود داشته باشد، به عنوان مثال:
این فایل مختص پروتکل و دامنه کامل است، بنابراین robots.txt در https://www.example.com بر خزیدن https://www.example.com یا https://subdomain.example تأثیری ندارد. com ; اینها باید فایلهای robots.txt خود را داشته باشند.
بررسی وب سایت خود یا هر وب سایتی برای فایل robots.txt آسان است. به سادگی URL پایه خود را تایپ کنید و در پایان عبارت /robots.txt را تایپ کنید. در اینجا یک مثال است:
اگر فایل ربات دارید، در اینجا ظاهر می شود. اگر این کار را نکنید، یک صفحه خالی یا یک خطای 404 خواهید دید.
فایل Robots.txt خود را تست کنید
اگر فایل robots.txt را کشف کردهاید، فایل robots.txt چیست یا اخیراً آن را ایجاد کردهاید و میخواهید بررسی کنید که درست کار میکند، Google یک ابزار رایگان ارائه میدهد.
از این ابزار برای بررسی و مشاهده اینکه چه URL هایی به درستی توسط یک فایل robots.txt در وب سایت شما مسدود شده اند، استفاده کنید.
چه زمانی باید از قوانین robots.txt استفاده کنید؟
به طور کلی، وب سایت ها باید سعی کنند تا حد امکان از robots.txt کمتر برای کنترل خزیدن استفاده کنند. بهبود معماری وب سایت شما و تمیز و در دسترس ساختن آن برای خزنده ها راه حل بسیار بهتری است. با این حال، استفاده از robots.txt در صورت لزوم برای جلوگیری از دسترسی خزندهها به بخشهای با کیفیت پایین سایت توصیه میشود اگر این مشکلات در کوتاهمدت برطرف نشدند.
Google استفاده از robots.txt را فقط در مواقعی که مشکلات سرور ایجاد میشود یا مشکلات مربوط به کارآیی خزیدن، مانند Googlebot صرف زمان زیادی برای خزیدن در بخش غیرقابل فهرستسازی یک سایت، توصیه میکند.
چند نمونه از صفحاتی که ممکن است نخواهید خزیده شوند عبارتند از:
- صفحات دستهبندی با مرتبسازی غیر استاندارد، زیرا این کار معمولاً با صفحه دستهبندی اولیه تکراری ایجاد میکند
- محتوای تولید شده توسط کاربر که قابل تعدیل نیست
- صفحات دارای اطلاعات حساس
- صفحات جستجوی داخلی ، زیرا ممکن است تعداد بی نهایتی از این صفحات نتیجه وجود داشته باشد که تجربه کاربری ضعیفی را ارائه می دهد و بودجه خزیدن را هدر می دهد.
چه زمانی نباید از robots.txt استفاده کنید؟
فایل robots.txt هنگامی که به درستی استفاده می شود ابزار مفیدی است، با این حال، مواردی وجود دارد که بهترین راه حل نیست. در اینجا چند نمونه از زمان استفاده نکردن از robots.txt برای کنترل خزیدن آورده شده است:
1. مسدود کردن جاوا اسکریپت/CSS
موتورهای جستجو باید بتوانند به تمام منابع موجود در سایت شما دسترسی داشته باشند تا صفحات را به درستی رندر کنند، فایل robots.txt چیست که بخشی ضروری برای حفظ رتبه بندی خوب است. فایلهای جاوا اسکریپتی که تجربه کاربر را بهطور چشمگیری تغییر میدهند، اما خزیدن آنها توسط موتورهای جستجو ممنوع است، ممکن است منجر به جریمههای دستی یا الگوریتمی شود.
به عنوان مثال، اگر به یک تبلیغ بینابینی ارائه می دهید یا کاربران را با جاوا اسکریپت هدایت می کنید که موتور جستجو نمی تواند به آن دسترسی داشته باشد، ممکن است به عنوان پنهان کاری دیده شود و رتبه بندی محتوای شما بر این اساس تنظیم شود.
2. مسدود کردن پارامترهای URL
شما می توانید از robots.txt برای مسدود کردن URL های حاوی پارامترهای خاص استفاده کنید، اما این همیشه بهترین روش نیست. بهتر است این موارد را در کنسول جستجوی Google مدیریت کنید زیرا گزینههای خاص پارامتر بیشتری در آنجا وجود دارد تا روشهای خزیدن ترجیحی را به Google منتقل کنید.
همچنین می توانید اطلاعات را در یک قطعه URL ( /page#sort=price ) قرار دهید، زیرا موتورهای جستجو این را نمی خزند. علاوه بر این، اگر باید از یک پارامتر URL استفاده شود، پیوندهای مربوط به آن میتواند حاوی ویژگی rel=nofollow باشد تا از تلاش خزندهها برای دسترسی به آن جلوگیری کند.
3. مسدود کردن URL ها با بک لینک
غیرمجاز کردن آدرسهای اینترنتی در robots.txt از انتقال ارزش پیوند به وبسایت جلوگیری میکند. این بدان معناست که اگر موتورهای جستجو نتوانند لینکهای سایر وبسایتها را دنبال کنند زیرا URL هدف غیرمجاز است، وبسایت شما اعتباری را که این پیوندها منتقل میکنند به دست نمیآورد و در نتیجه، ممکن است در کل رتبه خوبی نداشته باشید.
4. گرفتن صفحات نمایه شده از فهرست خارج می شود
استفاده از Disallow صفحات را از فهرست خارج نمی کند، و حتی اگر URL مسدود شده باشد و موتورهای جستجو هرگز صفحه را خزیده باشند، صفحات غیرمجاز ممکن است همچنان ایندکس شوند. این به این دلیل است که فرآیندهای خزیدن و نمایه سازی تا حد زیادی از هم جدا هستند.
5. تنظیم قوانینی که خزنده های شبکه های اجتماعی را نادیده می گیرند
حتی اگر نمیخواهید موتورهای جستجو صفحات را بخزند و فهرستبندی کنند، ممکن است بخواهید شبکههای اجتماعی بتوانند به آن صفحات دسترسی داشته باشند تا یک قطعه صفحه ساخته شود.
به عنوان مثال، کاربرد فایل robots.txt چیست فیس بوک سعی می کند از هر صفحه ای که در شبکه پست می شود بازدید کند تا بتواند یک قطعه مرتبط را ارائه دهد. این را هنگام تنظیم قوانین robots.txt در نظر داشته باشید.
6. مسدود کردن دسترسی از سایت های استیجینگ یا توسعه دهنده
استفاده از robots.txt برای مسدود کردن کل یک سایت مرحلهبندی بهترین روش نیست. گوگل توصیه میکند که صفحات را فهرستبندی نکنید، اما اجازه دهید آنها خزیده شوند، اما به طور کلی بهتر است که سایت را از دنیای خارج غیرقابل دسترس کنید.
7. وقتی چیزی برای مسدود کردن ندارید
برخی از وب سایت ها با معماری بسیار تمیز نیازی به مسدود کردن خزنده ها از هیچ صفحه ای ندارند. در این شرایط کاملاً قابل قبول است که فایل robots.txt نداشته باشید و در صورت درخواست وضعیت 404 را برگردانید.
نحوه قالب بندی Robots.txt
اکنون که یاد گرفتیم robots.txt چیست و چه زمانی باید استفاده شود و چه زمانی نباید استفاده شود، بیایید نگاهی به نحو استاندارد و قوانین قالب بندی که باید هنگام نوشتن یک فایل robots.txt رعایت شود، بیاندازیم.
نظرات
نظرات خطوطی هستند که به طور کامل توسط موتورهای جستجو نادیده گرفته می شوند و با یک # شروع می شوند . آنها وجود دارند تا به شما این امکان را بدهند که در مورد کارهایی که هر خط از robots.txt شما انجام می دهد، کاربرد فایل robots.txt چیست ، چرایی وجود و زمان اضافه شدن آن یادداشت بنویسید.
به طور کلی، توصیه میشود که هدف هر خط از فایل robots.txt خود را مستند کنید تا زمانی که دیگر ضروری نیست و در حالی که هنوز ضروری است تغییر داده نمیشود، حذف شود.
تعیین User-agent
یک بلوک از قوانین را می توان با استفاده از دستورالعمل ” کارگزار-عامل ” برای عوامل کاربر خاص اعمال کرد. به عنوان مثال، اگر میخواهید قوانین خاصی برای Google، Bing و Yandex اعمال شود. اما نه فیس بوک و شبکه های تبلیغاتی، این را می توان با تعیین یک توکن عامل کاربر که مجموعه ای از قوانین برای آن اعمال می شود، به دست آورد.
هر خزنده توکن عامل کاربر خود را دارد که برای انتخاب بلوک های منطبق استفاده می شود.
خزندهها از خاصترین قوانین عامل کاربر که با نام جدا شده با خط تیره برای آنها تنظیم شده است، فایل robots.txt چیست پیروی میکنند و اگر مطابقت دقیقی پیدا نشد، دوباره به قوانین عمومیتر بازمیگردند. برای مثال، Googlebot News به دنبال تطبیق « googlebot-news »، سپس « googlebot » و سپس « * » خواهد بود.
در اینجا برخی از رایجترین توکنهای عامل کاربر که با آنها مواجه میشوید آورده شده است:
- * – قوانین برای هر ربات اعمال می شود، مگر اینکه مجموعه قوانین خاصی وجود داشته باشد
- Googlebot – همه خزنده های گوگل
- Googlebot-News – خزنده برای Google News
- Googlebot-Image – خزنده برای تصاویر گوگل
- Mediapartners-Google – خزنده Google Adsense
- Bingbot – خزنده بینگ
- Yandex – خزنده Yandex
- Baiduspider – خزنده بایدو
- Facebot – خزنده فیس بوک
- Twitterbot – خزنده توییتر
این فهرست از نشانههای عامل کاربر به هیچ وجه جامع نیست، بنابراین برای کسب اطلاعات بیشتر در مورد برخی از خزندههای موجود، به اسناد منتشر شده توسط Google ، Bing ، Yandex ، Baidu ، Facebook و Twitter نگاهی بیندازید .
تطبیق توکن عامل کاربر با بلوک robots.txt به حروف بزرگ و کوچک حساس نیست. به عنوان مثال «googlebot» با توکن نماینده کاربر Google «Googlebot» مطابقت دارد.
نشانیهای اینترنتی تطبیق الگو
ممکن است رشته URL خاصی داشته باشید که بخواهید از خزیدن آن جلوگیری کنید، زیرا این کار بسیار کارآمدتر از گنجاندن یک لیست کامل از URLهای کامل برای حذف در فایل robots.txt شما است.
برای کمک به اصلاح مسیرهای URL خود، می توانید از نمادهای * و $ استفاده کنید. در اینجا نحوه کار آنها آمده است:
- * – این یک علامت عام است و هر مقدار از هر شخصیت را نشان می دهد. می تواند در ابتدا یا وسط یک مسیر URL باشد، اما در پایان لازم نیست. شما می توانید از چند علامت عام در یک رشته URL استفاده کنید، به عنوان مثال، ” عدم اجازه: */products؟*sort= “. قوانین با مسیرهای کامل نباید با علامت عام شروع شوند.
- $ – این کاراکتر نشاندهنده پایان یک رشته URL است، بنابراین «عدم اجازه : */dress$ » فقط با URLهایی که به « /dress » ختم میشوند و نه « /dress?parameter » مطابقت دارد.
شایان ذکر است که قوانین robots.txt به حروف بزرگ و کوچک حساس هستند، به این معنی که اگر آدرسهای اینترنتی با پارامتر « جستجو » را غیرفعال کنید (مثلاً « عدم اجازه : *?search= »)، ممکن است رباتها همچنان URLهایی را با حروف بزرگ متفاوت بخزند، مانند « ?Search » = هر چیزی .
قوانین دستورالعمل فقط با مسیرهای URL مطابقت دارند و نمی توانند شامل پروتکل یا نام میزبان باشند. یک اسلش در شروع یک دستورالعمل با شروع مسیر URL مطابقت دارد. به عنوان مثال، ” Disllow: /starts ” با www.example.com/starts مطابقت دارد .
مگر اینکه شروع یک تطابق دستورالعمل را با یک / یا * اضافه کنید، با چیزی مطابقت نخواهد داشت. به عنوان مثال، ” عدم اجازه: شروع می شود ” هرگز با چیزی مطابقت ندارد.
برای کمک به تجسم نحوه عملکرد قوانین URL های مختلف، چند مثال برای شما گردآوری کرده ایم:
لینک نقشه سایت Robots.txt
دستورالعمل نقشه سایت در یک فایل robots.txt به موتورهای جستجو می گوید که نقشه سایت XML را کجا پیدا کنند، که به آنها کمک می کند تا تمام URL های وب سایت را پیدا کنند. برای کسب اطلاعات بیشتر در مورد نقشه سایت، نگاهی به راهنمای ما در مورد ممیزی نقشه سایت و پیکربندی پیشرفته بیندازید .
هنگام قرار دادن نقشه سایت در فایل robots.txt، باید از URL های مطلق (یعنی https://www.example.com/sitemap.xml ) به جای URL های نسبی (یعنی /sitemap.xml .) استفاده کنید. همچنین شایان ذکر است که نقشه های سایت استفاده نمی کنند.
مجبور نیستید روی یک دامنه ریشه بنشینید، آنها همچنین می توانند روی یک دامنه خارجی میزبانی شوند.
موتورهای جستجو نقشههای سایت فهرستشده در فایل robots.txt شما را پیدا میکنند و ممکن است آنها را بخزند، با این حال، این نقشههای سایت بدون ارسال دستی در کنسول جستجوی Google یا ابزار وبمستر بینگ ظاهر نمیشوند.
Robots.txt Blocks چیست ؟
قانون «عدم اجازه» در فایل robots.txt میتواند به روشهای مختلفی برای عوامل کاربر مختلف استفاده شود. در این بخش، برخی از روشهای مختلف را که میتوانید ترکیب بلوکها را قالببندی کنید، پوشش میدهیم.
مهم است که به یاد داشته باشید که دستورالعمل های موجود در فایل robots.txt فقط دستورالعمل هستند. خزنده های مخرب فایل robots.txt شما را نادیده می گیرند و هر قسمت از سایت شما را که عمومی است می خزند، بنابراین Disallow نباید به جای اقدامات امنیتی قوی استفاده شود.
چندین بلوک عامل کاربر
میتوانید با فهرست کردن آنها قبل از مجموعهای از قوانین، یک بلوک از قوانین را با چندین نماینده کاربر مطابقت دهید، برای مثال، قوانین غیرمجاز زیر برای Googlebot و Bing در بلوک قوانین زیر اعمال میشود:
User-agent: googlebot
User-agent: bing
Disallow: /a
فاصله بین بلوک های دستورالعمل
گوگل فاصله های بین دستورالعمل ها و بلوک ها را نادیده می گیرد. در این مثال اول، قانون دوم انتخاب میشود، حتی اگر فضایی وجود داشته باشد که دو بخش قانون را از هم جدا میکند:
[کد]
عامل کاربر: *
غیر مجاز: /disallowed/غیر مجاز: /test1/robots_excluded_blank_line
[/code]
در این مثال دوم، Googlebot-mobile همان قوانین Bingbot را به ارث می برد:
[کد]
عامل کاربر: googlebot-mobileعامل کاربر: bing غیر مجاز
: /test1/deepcrawl_excluded
[/code]
بلوک های جداگانه ترکیب شده است
چندین بلوک با یک عامل کاربر ترکیب می شوند. بنابراین در مثال زیر، بلوکهای بالا و پایین با هم ترکیب میشوند و Googlebot از خزیدن « b » و « / a» منع میشود .
Robots.txt Allow
قانون robots.txt “اجازه دادن” به صراحت اجازه خزیدن به URL های خاص را می دهد. در حالی که این پیشفرض برای همه URLها است، این قانون میتواند برای بازنویسی یک قانون غیر مجاز استفاده شود.
به عنوان مثال، اگر ” /locations ” غیرمجاز است، می توانید با داشتن قانون خاص ” Allow: /locations/london ” خزیدن ” /locations/london ” را مجاز کنید.
اولویت بندی Robots.txt
وقتی چندین قانون مجاز و غیرمجاز برای یک URL اعمال می شود، طولانی ترین قانون تطبیق همانی است که اعمال می شود. بیایید ببینیم چه اتفاقی برای URL ” /home/search/shirts ” با قوانین زیر می افتد:
غیر مجاز: /home
اجازه: *جستجو/* غیر مجاز:
*پیراهن
دستورالعمل های Robots.txt
دستورالعملهای سطح صفحه (که بعداً در این راهنما به آنها خواهیم پرداخت) ابزارهای خوبی هستند، اما مشکل آنها این است که موتورهای جستجو باید قبل از خواندن این دستورالعملها، یک صفحه را بخزند، که میتواند بودجه خزیدن را مصرف کند.
کاربرد فایل robots.txt چیست ، دستورالعملهای Robots.txt میتوانند به کاهش فشار بر بودجه خزیدن کمک کنند زیرا میتوانید دستورالعملها را مستقیماً به فایل robots.txt خود اضافه کنید، نه اینکه منتظر بمانید تا موتورهای جستجو صفحات را قبل از اقدامی بخزند. مدیریت این راه حل بسیار سریعتر و آسانتر است.
دستورالعملهای robots.txt زیر مانند دستورالعملهای مجاز و غیر مجاز عمل میکنند، به این صورت که میتوانید حروف عام ( * ) را مشخص کنید و از نماد $ برای نشان دادن انتهای رشته URL استفاده کنید.
Robots.txt NoIndex
Robots.txt noindex یک ابزار مفید برای مدیریت نمایه سازی موتورهای جستجو بدون استفاده از بودجه خزیدن است. غیر مجاز کردن یک صفحه در robots.txt به معنای حذف آن از فهرست نیست، بنابراین دستورالعمل noindex برای استفاده برای این منظور بسیار مؤثرتر است.
گوگل به طور رسمی از robots.txt noindex پشتیبانی نمی کند و شما نباید به آن تکیه کنید زیرا اگرچه امروز کار می کند، اما ممکن است فردا این کار را انجام ندهد.
اگرچه این ابزار می تواند مفید باشد و باید به عنوان یک اصلاح کوتاه مدت در ترکیب با سایر کنترل های شاخص بلندمدت استفاده شود، نمونه فایل robots.txt اما نه به عنوان یک دستورالعمل حیاتی. به آزمایشهایی که توسط ohgm و Stone Temple انجام میشود، نگاهی بیندازید که هر دو ثابت میکنند که این ویژگی به طور موثر کار میکند.
در اینجا مثالی از نحوه استفاده از robots.txt noindex آورده شده است:
[کد]
عامل کاربر: *
NoIndex: /directory
NoIndex: /*?*sort=
[/code]
علاوه بر noindex، گوگل در حال حاضر به طور غیر رسمی از چندین دستورالعمل نمایه سازی دیگر زمانی که در robots.txt قرار می گیرند، اطاعت می کند.
فایل robots.txt چیست ، توجه به این نکته مهم است که همه موتورهای جستجو و خزندهها از این دستورالعملها پشتیبانی نمیکنند، نمونه فایل robots.txt و آنهایی که انجام میدهند ممکن است در هر زمانی از آنها پشتیبانی نکنند – کاربرد فایل robots.txt چیست ، شما نباید به طور مداوم به کارکرد آنها تکیه کنید.
بدون دیدگاه