
وقتی ربات های موتور جستجو به جستجوی هر وب سایتی می پردازند ، ابتدا به دنبال فایل robots.txt می گردند. به همین دلیل ، دارندگان وب سایت باید پاسخ این سوال را که “robots txt چیست” و الگوهای دستوری که باید در پرونده نوشته شود ، به روشنی بدانند. در غیر این صورت ، از آنجا که ربات های موتور جستجو قادر به جستجوی کامل وب سایت نیستند ، نمی توانند به درستی فهرست شوند.
پرونده robots.txt یک فایل متنی ساده است که به وب سرورها متصل شده و در فهرست ریشه سایت قرار دارد. هدف اصلی آن نشان دادن مکان هایی است که می خواهید و نمی خواهید خزنده های موتور جستجو در سایت شما دسترسی داشته باشند. به طور خلاصه ، پرونده ربات ها می تواند به عنوان نوعی ابزار ارتباطی با ربات های متعلق به موتورهای جستجو تعریف شود. نکته مهم این است که دستوراتی را که باید در این متن نوشته شوند متناسب با هدف انتخاب کنید.
هنگام ایجاد فایل robots.txt هیچ دانش نرم افزاری یا برنامه نویسی مورد نیاز نیست. با این حال ، از آنجا که برای سئو سایت بسیار مهم است ، باید آگاهانه ایجاد و اجرا شود. پرونده robots.txt که هنگام تایپ دستورات صحیح معجزه آسا است ، در موارد اشتباه می تواند به یک کابوس تبدیل شود. پرونده robots.txt که بخشی از پروتکل مسدود کردن ربات محسوب می شود ، باید به عنوان وسیله ای برای کنترل مرزهای وب سایت در نظر گرفته شود.
برای به دست آوردن حداکثر سود از مطالعات بهینه سازی موتور جستجو (SEO) ، باید از مزایای فایل robot.txt استفاده کرد. فایل Robots.txt از نظر سئو از محتوای تکراری جلوگیری می کند ، مکانها را بر روی نقشه سایت مشخص می کند ، از ترتیب بسیاری از فایلهای پیوست جلوگیری می کند و از نظر پنهان شدن در مناطقی مانند برخی از دامنه های فرعی یا بخش های زیر پوشه مزایای قابل توجهی را فراهم می کند.
دستورات فایل Robot.txt چیست؟دستورات فایل Robot.txt چیست؟
هنگام ایجاد پرونده های robot.txt ، که بخشی جدایی ناپذیر از وب سایت ها هستند ، باید استانداردهای خاصی رعایت شود. اینها:
- پرونده robot.txt باید به فهرست ریشه سایت اضافه شود ،
- پرونده robot.txt باید همان قالب URL وب سایت باشد ،
- فایل robot.txt باید مطابق با رمزگذاری نوع UTF-8 آماده شود.
برای مثال ، با توجه به این اطلاعات ، اگر “https://codebaz.com/main.robots.txt” را برای URL فایل robots.txt انتخاب کنید ، مناسب نخواهد بود. مطلوب نیست که پرونده در هر زیر پوشه ای قرار داشته باشد یا به صفحه دیگری هدایت شود. استفاده از آدرس مانند “https://codebaz.com/robots.txt” به جای چنین گزینه ای صحیح است.
از طرف دیگر ، گزینه های افزودنی دامنه مورد استفاده برای پرونده robots.txt باید همان نام پسوند مورد استفاده برای دسترسی به وب سایت و صفحات وب باشد. اگر از “https” به عنوان پروتکل استفاده شود ، آدرس نام دامنه پرونده robots.txt نیز باید مطابق این پروتکل تنظیم شود. اگر مثالی به شرح زیر بیان شود ، می توان آن را به وضوح توضیح داد:
- URL وب سایت: “https://codebaz.com”
- URL فایل “https://codebaz.com/robots.txt”
مطلب پیشنهادی:20 ابزار برتر تست سرعت سایت
مؤلفه های کدهای مورد استفاده هنگام تولید Robots.txtمؤلفه های کدهای مورد استفاده هنگام تولید Robots.txt
اجزای مورد نیاز برای ایجاد یک پرونده txt ربات را می توان در 3 گروه اصلی جمع آوری کرد:
1. انواع دستورات درون گروهی1. انواع دستورات درون گروهی
- فهرستها دستورات را مسدود / مجاز می کند
- دستوراتی برای تعیین تأخیر اسکن
- دستورات را مسدود / ربات موتور جستجو کنید
- مسدود کردن صفحه / اجازه دادن به دستورات
2. انواع دستورات غیر گروهی
- ایجاد نقشه سایت
3. یادداشت ها و نظرات
- ایجاد یادداشت و نظر برای دستورات موجود در پرونده
دستورات درون گروهی شامل عبارات دقیق و روشن است. هنگام نوشتن این دستورات ، هیچ وقت نباید اشتباه تایپی انجام شود و صفحات یا دایرکتوری هایی که وجود ندارند ، نباید در دستور وارد شوند. در حین ایجاد دستورات ، حروف کوچک بزرگ از یکدیگر تفکیک نمی شوند ، اما نام دایرکتوری یا URL نشان داده شده در دستور با حروف بزرگ است و نویسه های خاص در نظر گرفته می شوند.
عناصر مورد استفاده در دستورات درون گروهی را می توان به طور خلاصه به شرح زیر توضیح داد:
- دستورالعمل ها را مسدود کنید / اجازه دهید: اگر اسکن یک فهرست هدف در وب سایت مورد نظر نباشد ، خط فرمان بر اساس آن ایجاد می شود.
- دستورات مشخصات تأخیر اسکن: نوعی دستور است که اطمینان می دهد وب سایت با حداکثر سرعت در مدت زمان مشخص اسکن می شود و صفحات باقی مانده به هیچ وجه اسکن نمی شوند.
- دستورات مسدود کننده / مجاز ربات موتور جستجو: این دستوراتی هستند که نشان می دهند وب سایت توسط کدام موتور جستجو خزیده می شود. اگر ربات های موتور جستجو وجود داشته باشد که مجاز نیستند ، نمی توانند سایت را جستجو کنند.
- مسدود کردن صفحه / دستورات مجاز: اگر از صفحه خاص یا صفحات متعلق به وب سایت خواسته نشود ، خط فرمان برای مسدود کردن صفحه ایجاد می شود.
انواع دستورات غیر گروهی استفاده ساده ای را نشان می دهند که مکان فایل sitemap.xml را نشان می دهد ، فقط نوشتن URL فایل کافی است. فایل sitemap.xml باید در دسترس باشد تا بتوان وب سایت را خزید و اطلاعات را به ربات های موتور جستجو منتقل کرد. زیرا قبل از اینکه موتورهای جستجو سایت را اسکن کنند ، ابتدا به دنبال فایل robot.txt می گردند. عدم وجود فایل sitemap.xml در پرونده برای سایت مربوطه یک ضرر جدی است.
در بخش یادداشت ها و نظرات ، اطلاعاتی که موتورهای جستجو در نظر نمی گیرند ، مانند اطلاعات مربوط به طراح ، مدیر وب سایت و اطلاعاتی که باید به کاربر منتقل شود ، می تواند به پرونده robot.txt پیوست شود. . با این حال ، در حالی که این یادداشت ها در حال نوشتن هستند ، باید علامت “#” در ابتدا نوشته شود. رباتها با دیدن این علامت ، اطلاعات مربوطه را نادیده می گیرند.
چگونه یک فایل Robots.txt ایجاد کنیم؟چگونه یک فایل Robots.txt ایجاد کنیم؟
از برنامه های آماده تولید کننده پرونده Robots.txt که در صنعت مورد استفاده قرار می گیرند نیز استفاده خواهد شد و صاحب وب سایت می تواند به صورت دستی یک پرونده robots.txt ایجاد کرده و به فهرست اصلی اضافه کند. با این حال ، اگر در مورد پرونده robot.txt هم دانش و هم تمرین ندارید ، منوهای آماده در اینترنت با نام robots.txt مولد نیز مفید هستند.
با توجه به اطلاعات دقیق ، اگر می خواهید یک نمونه پرونده robot.txt ایجاد کنید ، ابتدا باید یک سند متنی جدید باز کنید و نام سند باید پرونده robot.txt باشد. برای پرونده robot.txt ، در اصل باید دو متغیر متفاوت در سند تازه باز شده استفاده شود و مواردی که باید مطابق دستورات مورد نظر وارد شوند ، ایجاد شوند. متغیرهای موجود در این پرونده عبارتند از:
- User-agent: نام ربات جستجو نوشته شده است.
- Disallow: وضعیت دسترسی ربات های جستجو را شامل می شود.
مثال یک
- User-agent: *
- Allow: /
همانطور که در مثال بالا نشان داده شده است ، استفاده از علامت “*” به جای نام ربات های جستجو به معنای ایندکس شدن سایت توسط همه ربات های موتور جستجو است.
مثال 2
- User-agent: *
- Disallow: /
در حالی که همه ربات های موتور جستجو برای نمایه سازی در خط اول مجاز هستند ، دادن دستور “Disallow: /” در خط دوم به معنای عدم اجازه پوشه robot txt است و بنابراین تمام پرونده های موجود در وب سایت نمایه نمی شوند. از طرف دیگر ، اگر دستوراتی به صورت زیر داده شوند ، ربات های موتور جستجو هر دو فایل مشخص شده را فهرست نمی کنند.
- User-agent: *
- Disallow: /cgi-bin/
- Disallow: /images/
مثال 3
- User-agent: DeepCrawl
- Disallow: /private/
DeepCrawl نام ربات Google است که به طور دوره ای از وب سایت بازدید می کند و اطلاعات را جمع آوری می کند. مشخص کردن پرونده “private” در خط پایین به این ربات دستور می دهد تا فایل مربوطه را فهرست نکند.
مثال 4
- User-agent: *
- Disallow: /directory/file.html
در دستور فرمان مشخص شده ، در حالی که رباتهای موتور جستجو سایت را فهرست می کنند. قادر به اسکن پرونده file.html واقع در فهرست راهنما نخواهد بود.
مثال 5
- User-agent: *
- Allow: /directory/site.html
- Disallow: /directory/
با استفاده از این اسکریپت ، رباتهای موتور جستجو نمی توانند فایلهای دیگر را به جز فایل site.html در فهرست پرونده اسکن کنند. رباتهای جستجوگر به هیچ وجه صفحه ای را که به دستورات robot txt nofollow و noindex داده می شود فهرست نمی کنند. بنابراین ، اگر صفحات منفردی وجود نداشته باشد که بخواهید ایندکس نشوند ، می توان این دستور را در قسمت متاتگ به صورت زیر نوشت.
<meta name=”ROBOTS” content=”NOINDEX, NOFOLLOW”>
پس از ایجاد فایل robot.txt حاوی دستورات مورد نظر خود ، باید فایل robot.txt را در پوشه اصلی وب سایت خود بارگذاری کنید. اگر یک وب سایت مبتنی بر وردپرس دارید و با ایجاد دستورات وردپرس robot txt آشنایی ندارید ، پلاگین “robot.txt rewrite” که منوهای آماده را ارائه می دهد نیز بسیار کمک خواهد کرد.
دیدگاه ها (0)