Tập tin robots.txt, một sản phẩm của Robots Exclusion Protocol, là một tập tin được lưu trữ trong thư mục gốc của một trang web (ví dụ www.google.com/robots.txt). Tập tin robots.txt đưa ra chỉ dẫn trình thu thập web tự động truy cập vào trang web của bạn, bao gồm cả các spider tìm kiếm.
Bằng cách sử dụng robots.txt, các webmaster có thể thông báo cho SE các khu vực giới hạn, từ chối thu thập của các Bộ tìm kiếm cũng như cho biết các vị trí của các tập tin sitemap và các thông số crawl-delay. Bạn có thể tham khảo thêm tại robots.txt.
Các lệnh sau đây có sẵn:
Disallow
Ngăn chặn các robot tuân thủ mệnh lệnh truy cập vào các thư mục hay các trang web cụ thể.
Sitemap
Cho biết vị trí của một sitemap của một trang web hay các sitemap
Crawl-delay:
Cho biết tốc độ (tính bằng mili giây) mà các robot có thể thu thập một server
Một ví dụ về robot.txt
#Robots.txt Example Domain
User-agent: *
Disallow:
# Don’t allow spambot to crawl any pages
User-agent: spambot
disallow: /
sitemap:Example Domain
Cảnh báo: Không phải tất cả các robot web đều đi theo robot.txt. Những người có ý định xấu (vd email address scraper- chương trình thu thập các địa chỉ mail) xây dựng các chương trình không làm theo phương thức này và sử dụng nó trong những trường hợp đặc biệt để xác định vị trí của thông tin cá nhân. Ví lý do này, vị trí của các bộ phận quản trị và các bộ phận riêng của các trang web truy cập công khai không được chứa trong robots.com. Thay vào đó, những trang web này có thể tận dụng các thẻ meta robots để giữ cho các công cụ tìm kiếm chính có thể lập chỉ mục nội dung có nguy cơ cao.