info@papgroup.ir
(021)49 296

آموزش ساخت فایل Robots.txt و نحوه استفاده از آن

Robots.txt چیست؟

robots.txt با هدف محدود نمودن دسترسی روبات های موتورهای جستجو به محتویات سایت ها، طراحی شده است که به شکل خودکار عمل می‏کند.موتورهای جستجو همانند گوگل ، یاهو و بینگ مایکروسافت برای یافتن و ایندکس کردن صفحات مختلف وب و سایت های موجود از روبات های جستجو که به spider , robot و یا crawler معروف هستند استفاده می کنند .همه روبات های استاندارد در اینترنت به این قوانین و محدودیت های  robots.txt احترام می‏ گذارند و صفحات را بازدید و ایندکس نمی کنند. این در حالی است که روبات های اسپم نسبت به این فایل بی توجه هستند. به منظور حفظ امنیت محتوایی خاص و پنهان کردن آن از دید روبات های اینترنتی، باید از رمزگذاری صفحات استفاده کرد.

کاربرد فایل robots.txt چیست؟

کاربرد فایل robots.txt به معنای طراحی صفحات سایت تنها برای کاربران اینترنتی می‏ باشد که بیانگر بی توجهی طراحی سایت به محتوای تکراری، وجود لینک های بسیار در آن صفحه و تاثیر منفی بر سئو سایت است. علاوه بر این بوسیله فایل robots.txt می‏توان صفحات بی ارزش و کم محتوا را از دید موتورهای جستجو پنهان کرد که با این کار می‏توان در زمان حضور روبات ها در سایت برای ایندکس کردن این صفحات صرفه جویی نمود. مدیران وب سایت ها عموما زمانی که بخواهند روبات های گوگل را محدود کنند، فایل robots.txt را بکار می‏برند. زمانی که همه صفحات سایت قابلیت و ارزش ایندکس شدن توسط گوگل را داشته باشند، استفاده از این فایل ضرورتی ندارد.

چگونه یک فایل robots.txt ایجاد کنیم؟

روبات‌های موتورهای جستجو وقتی وارد وب سایت شما می‌شوند در مرحله اول به دنبال این فایل هستند تا بدانند اجازه Crawl و دسترسی به چه بخش‌هایی را دارند. طبق قرارداد، این فایل باید در روت وب سایت (فولدر public_html ، wwwroot و یا httpdocs) قرار داشته باشد. یعنی اگر آدرس زیر را باز کردید (به جای domain.com آدرس وب سایت خود را قرار دهید) قادر به مشاهده فایل robots.txt باشید:

نحوه استفاده از فایل robots.txt

به منظور قرار دادن فایل robots.txt دسترسی به هاست الزامی است که باید آن را در ریشه اصلی کپی کرد. اگر دسترسی به سرور با مشکل مواجه شود، می‏توان با قرار دادن تگ های متا در هدر صفحه، دسترسی روبات به آن را محدود نمود. فایل های robots.txt مطابق با دو اصل عمل می‏کنند:

www.domain.com/robots.txt

بنابراین وارد کنترل پنل هاست خود شده و ابتدا چک کنید فایلی به نام robots.txt وجود دارد یا خیر. اگر این فایل را مشاهده نکردید، فایلی به همین نام ایجاد کنید. البته می‌توانید از طریق اتصال به FTP نیز این کار را انجام دهید (تفاوتی ندارد)

ساختار فایل robots.txt


ساختار فایل robots.txt بسیار ساده و در عین حال منعطف پذیر است. فایل robots.txt از یکسری user agents و فایلها و دایرکتورهای disallowed تشکیل شده است. در واقع این فایل بصورت زیر است:
Disallow محدوده ممنوع رو تعریف می کنه
Allow  محدوده ی آزاد برای جستجو
User-agent محدوده کسانی که اجازه جستجو براشون مسدود یا باز شده

چگونه یک فایل robots.txt ایجاد کنیم؟

نحوه‌ی نوشتن فایل robots.txt

در ابتدای آدرس دایرکتوری ها، استفاده از اسلش (/) ضرورت دارد. یک نکته مهم، دقت در استفاده از حروف بزرگ یا کوچک می‏باشد. برای مثال از نظر روبات ها، دایرکتوری Image در مقایسه با image، دو آدرس متفاوت محسوب می‏شوند. بنابراین اگر Image وارد شود، روبات ها دیگر محتوای فولدر image را بررسی نکرده و در نتایج جستجو آن را نمایش نمی دهند. زمانی که علامت (*) برای واسط کاربری استفاده می شود، در واقع هدف تمامی روبات ها خواهد بود. تنها خزنده های برخی سایت ها و شرکت های معتبر به این قوانین احترام می‏گذارند. این در حالی که ممکن است برخی از سایت ها حتی برای ارسال اسپم یا نفوذ به صفحات حساس، از این فایل ها سوء استفاده کنند.

بنابراین به منظور حفاظت از دایرکتوری های حساس، مانند دایرکتوری مدیریت سایت، نباید به این فایل ها بسنده کرد و باید یک سیستم ورود و خروج مطمئن برای آن در نظر گرفت. یک توصیه مهم اینکه آدرس دایرکتوری مدیریت را نیز در آن قرار ندهید. بهترین روش برای جلوگیری از ایندکس شدن دایرکتوری های حساس، خودداری از قرار دادن لینک خروجی و در دسترس ربات در صفحات می‏باشد. بهتر است با ایجاد سیستم دریافت نام کاربری و کلمه عبور، دسترسی به محتوای این نوع صفحات را مسدود نمایید. 

نمونه های استفاده از فایل robots.txt

نمونه زیر استفاده از فایل robots.txt و مسدود کردن یک فولدر برای یک ربات خاص را نشان می‏دهد:

User-agent: Googlebot

Disallow: /personal /

نمونه زیر نحوه استفاده از فایل robots.txt و مسدود کردن یک فایل برای تمام ربات ها را نشان می‏دهد:

* :User-agent

Disallow: /old-posts/mypic.jpg

نمونه زیر نحوه استفاده از فایل robots.txt و مسدود کردن یک فولدر برای تمام ربات ها را نشان می‏دهد:

* :User-agent

 /Disallow: /old-posts

نمونه زیر نحوه استفاده از فایل robots.txt و مسدود کردن یک فایل در ریشه سایت برای تمام ربات ها را نشان می‏دهد:

* :User-agent

Disallow: /private.html

نمونه زیر لیست کامل واسط های کاربری (User-agent) را نشان می‏دهد:

http://www.robotstxt.org/db

نمونه زیر مسدود بودن تمام صفحات برای تمام ربات ها را نشان می‏دهد:

* :User-agent

Disallow: /

نمونه زیر، مجاز بودن تمام صفحات برای تمام ربات ها را نشان می‏دهد:

* :User-agent

Allow: /