Robots.txt những điều cần biết

Chủ nhật - 14/09/2008 22:46

Robots.txt những điều cần biết

Một trong những điều quan trọng để web site của bạn có thể đạt High ranking (thứ hạng cao) trong các cỗ máy tìm kiếm là bạn phải xây dựng cho mình một file Robots.txt
Vậy file Robots.txt là gì? khi một search engine tìm đến (nguyên văn Crawler) web site nào đó, nó sẽ tìm một file đặc biệt trước tiên, đó là file robots.txt. File robot.txt cho search engine đó biết rằng, web site này có thể index hoặc không (tùy theo lệnh được viết trong file robots.txt).

Thực chất, file robots.txt là một tập tin văn bản đơn giản (không chứa mã HTML) được đặt trong thư mục gốc của web site, ví dụ *http://www.example.com/robots.txt.

Vậy, làm thế nào để tạo ra một file robots.txt? Rất đơn giản, bạn có thể mở chương trình Notepad hay bất cứ chương trình soạn thảo văn bản nào, lưu file với tên robots.txt là xong. Các dòng lệnh trong file này có cấu trúc như sau:

User-agent: googlebot
Disallow: /cgi-bin/

Trong đó User-agent: là đại diện của một search engine, Googlebot là spider của Google. Trong ví dụ này, chỉ các spider của Google là được phép index web site. Disallow: là không cho phép thực hiện điều gì đó. ở ví dụ trên là không cho phép các spider index thư mục "cgi-bin" trong web site.

Ví dụ thứ hai:

User-agent: googlebot
Disallow: /support

Tất cả các trang nằm trong thư mục support, hay support-desk sẽ không được index.

Nếu bạn muốn tất cả các search engine có thể index web site của bạn, nhưng không được index các trang trong thư mục "cgi-bin" thì sử dụng lệnh sau:

User-agent: *
Disallow: /cgi-bin/

Những điều nên tránh:
+ Không sử dụng các chú thích trong file robots.txt, nó có thể làm cho các spider của search engine bị lầm lẫn. Ví dụ:

"Disallow: support # Don't index the support directory" might be misinterepreted as "Disallow: support#Don't index the support directory".

+ Không được để khoảng trắng ở đầu dòng lệnh, ví dụ:
User-agent: *
Disallow: /cgi-bin/

+Không thay đổi trật tự của các dòng lệnh. Ví dụ:
Disallow: /support
User-agent: *

+ Không sử dụng quá một thư mục trong dòng lệnh Disallow. Ví dụ:

User-agent: *
Disallow: /support /cgi-bin/ /images/

các search engine không hiểu định dạng trên. bạn nên viết thế này:

User-agent: *
Disallow: /support
Disallow: /cgi-bin/
Disallow: /images/

+Phải chắc chắn các mệnh đề, từ sử dụng trong lệnh là đúng. Ví dụ, thư mục của bạn là "cgi-bin" (viết thường, không viết hoa), nhưng khí vào lệnh, bạn lại viết là "Cgi-Bin" thì các spider sẽ "bó tay".

+ Không nên dùng lệnh Allow trong file robots.txt, bởi vì trong web site của bạn chắc chắn sẽ có một số trang hoặc một số thành phần bạn không muốn bị người khác "nhòm ngó". nếu bạn sử dụng lệnh Allow, tất cả mọi ngóc ngách trong web site của bạn sẽ bị index!

Nguồn tin: DTC

Tổng số điểm của bài viết là: 0 trong 0 đánh giá

Click để đánh giá bài viết

  Ý kiến bạn đọc

Những tin mới hơn

Những tin cũ hơn

Giấy phép sử dụng NukeViet

Bản dịch tiếng Việt của Giấy phép Công cộng GNU Người dịch Đặng Minh Tuấn Đây là bản dịch tiếng Việt không chính thức của Giấy phép Công cộng GNU. Bản dịch này không phải do Tổ chức Phần mềm Tự do ấn hành, và nó không quy định về mặt pháp lý các điều khoản cho các...

Thăm dò ý kiến

Lợi ích của phần mềm nguồn mở là gì?

Thống kê truy cập
  • Đang truy cập92
  • Máy chủ tìm kiếm6
  • Khách viếng thăm86
  • Hôm nay35,836
  • Tháng hiện tại626,140
  • Tổng lượt truy cập48,818,220
  • Breadcrumbs

    Breadcrumbs được biết đến như một thành phần rất quan trọng trong hệ thống navigation cuả website gần như vào bất cứ website nào bạn cũng thấy sự hiện diện của nó. Mục tiêu nhằm cung cấp cho khách hàng những liên kết để quay lại trang trước cấp cao hơn. Và tiện theo dõi vị trí hiện tại của mình trên trang
  • Thông báo phát hành NukeViet 4.3.06

    NukeViet 4.3.06 tiếp tục là bản tiếp theo của thế hệ NukeViet 4.3. Thêm chức năng gửi lại email kích hoạt tài khoản chờ duyệt, chức năng cấu hình CORS, tùy chọn chèn logo cho mỗi lần upload và hỗ trợ các nhà phát triển debug các câu lệnh SQL là những điểm mới đáng chú ý ở phiên bản này.
  • Một số tính năng mới của NukeViet 4.3.06

    Thêm chức năng gửi lại email kích hoạt tài khoản chờ duyệt, chức năng cấu hình CORS, tùy chọn chèn logo cho mỗi lần upload và hỗ trợ các nhà phát triển debug các câu lệnh SQL là những điểm mới đáng chú ý ở NukeViet 4.3.06
  • Đọc, hiểu đúng báo cáo của Google PageSpeed Insights

    PageSpeed Insights là công cụ của Google dành cho các nhà phát triển web giúp phân tích nội dung của trang web, sau đó tạo đề xuất nhằm giúp trang đó hoạt động nhanh hơn. Tuy nhiên đọc và hiểu các báo cáo này như thế nào? Ứng dụng đến đâu... lại là chuyện mà chúng ta phải bàn!
  • Thông báo phát hành NukeViet 4.3.05

    NukeViet 4.3.05 tiếp tục là bản tiếp theo của thế hệ NukeViet 4.3. Gỡ bỏ các nội dung liên quan đến Google Plus và tính năng kiểm duyệt thông tin chỉnh sửa của thành viên là điểm nổi bật tại phiên bản này.
  • Một số cập nhật của phiên bản NukeViet 4.3.05

    Cùng điểm qua một số thay đổi tại phiên bản 4.3.05 của dòng NukeViet 4.x
  • Firefox Send triển khai cho tất cả mọi người

    Bản cập nhật mới nhất của trình duyệt Firefox cung cấp cho người dùng công cụ Firefox Send, giúp họ có thể di chuyển tập tin được mã hóa đầu cuối.
 
Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây