Trong bảng điều khiển Công cụ quản trị trang web Google của blog của tôi, tôi đã tìm thấy đoạn mã sau trong tệp robots.txt của tôi về phần URL bị chặn.
Tôi biết điều đó Disallowsẽ ngăn Googlebot lập chỉ mục một trang web, nhưng tôi không hiểu cách sử dụng
Câu trả lời:
- Trong Disallow bạn chỉ định bắt đầu đường dẫn URL của URL cần bị chặn.
Vì vậy, nếu bạn có
Nếu bạn có
Theo nghĩa tương tự, nếu bạn có
User-agent: Mediapartners-Google
Disallow: /search
Allow: /
Disallow: /search
. Ý nghĩa chính xác của là Disallow: /search
gì?Câu trả lời:
- Trong Disallow bạn chỉ định bắt đầu đường dẫn URL của URL cần bị chặn.
Vì vậy, nếu bạn có
Disallow: /
, nó sẽ chặn mọi thứ , vì mọi đường dẫn URL bắt đầu bằng/
Nếu bạn có
Disallow: /a
, nó sẽ chặn tất cả các URL có đường dẫn bắt đầu /a
. Đó có thể là /a.html
, /a/b/c/hello
hoặc /about
.Theo nghĩa tương tự, nếu bạn có
Disallow: /search
, nó sẽ chặn tất cả các URL có đường dẫn bắt đầu bằng chuỗi /search
. Vì vậy, nó sẽ chặn các URL sau, ví dụ (nếu robot.txt nằm tronghttp://example.com/
):http://example.com/search
http://example.com/search.html
http://example.com/searchengine
http://example.com/search/
http://example.com/search/index.html
http://example.com/foo/search
http://example.com/sea
Điều đó có nghĩa là bot (chỉ bot bot ở đây) không được phép truy cập tài nguyên trong /searchthư mục. Ví dụ: bot AdSense không có quyền truy cập vào loại URL này:
www.example.com/search/
hoặc www.example.com/search/file.html
Lưu ý: Rằng robot.txt không biết / làm phiền nếu chuỗi khớp với thư mục, tệp hoặc không có gì cả. Nó chỉ nhìn vào các ký tự trong URL.