Hỗ trợ hoặc chặn các công cụ tìm kiếm nhờ Robots.txt - đã có sự thống nhất.

Thứ bảy - 13/09/2008 22:44
In ra
Đóng cửa sổ này

Ngày 3/6/08 cả Google, Yahoo! và Microsoft cùng ra tuyên bố chung hỗ trợ “Giao thức loại trừ Robots” (Robots Exclusion Protocol, viết tắt REP): file Robots.txt và thẻ Meta Robots. Sự thống nhất này sẽ giúp cho những người lập trình Web có điều kiện thuận lợi hơn trong việc kiểm soát và điều hướng cỗ máy tìm kiếm giúp cho Website hoạt động hiệu quả hơn trong thời đại thông tin bùng nổ hiện nay.

Thông tin bùng nổ khiến cho việc kiểm soát trở nên khó khăn hơn. Quá nhiều thông tin khiến cho việc xác định, phân tách trở lên hỗn loạn hơn, hệ quả tất yếu là khi ta muốn cái gì cũng có nhưng lại phải tìm kiếm. Công cụ tim kiếm ngày nay không đơn giản là những cố mãy tìm kiếm như vài năm trở về trước nữa. Nó chính xác đã trở thành những cỗ máy sàng lọc thông tin. Chúng ngày càng được lập trình thông minh hơn, chính xác hơn. Ví dụ thế này: cùng gõ vào Google.com từ khóa tìm kiếm là computer nhưng người ở Việt Nam sẽ nhận được kết quả khác người ở Mỹ, thậm chí 2 người khác nhau sẽ ... nhận được 2 kết quả khác nhau. Đó là kết quả của việc lập trình thông minh mà Google, Yahoo và nay có cả Microsoft đang theo đuổi.

Những Webmaster của Việt Nam không còn gặp trở ngại về ngôn ngữ trong việc lập trình Web như trước đây nữa. Ngoài việc chuẩn Unicode được sử dụng thống nhất thì chúng ta còn nhận được sự hỗ trợ từ các nhà lập trình bên ngoài trong việc xử lý ngôn ngữ tại các công cụ tìm kiếm. Nếu quen sử dụng Yahoo và Google tìm kiếm bạn sẽ thấy thời gian gần đây 2 trang tìm kiếm này hỗ trợ tiếng Việt rất tốt, ngoài việc sử dụng giao diện tiếng Việt thì họ còn có khả năng xử lý vấn đề dấu của tiếng Việt. Bạn chưa tin ư? Hãy thử tìm kiếm với một cụm từ có dấu, google sẽ xử lý cho bạn cả những kết quả không dấu và ngược lại. Thử viết sai chính tả (tiếng Việt) Google sẽ gợi ý cho bạ đúng chính tả. Bí mật của họ chính là ở chỗ họ đã thành công trong việc lập trình ngôn ngữ và xây dựng bộ từ điển tiếng Việt. tuy nhiên, đây lại là chuyện khác mà chắc chắn chúng tôi sẽ có dịp bàn tới sau.

Trên đây chỉ là 2 trong số các ví dụ cho thấy những nỗ lực mà các công cụ tìm kiếm đang thực hiện, trở lại việc thống nhất trong cách hoạt động của “Giao thức loại trừ Robots” mà Google, Yahoo! và Microsoft vừa tuyên bố, mangvn.org xin giới thiệu với các bạn bài viết của Du Nguyễn (lamseo.com).

“Tam gia” tìm kiếm tuyên bố hỗ trợ Giao thức loại trừ Robots

Du Nguyễn

REPgiúp webmaster điều hướng hoạt động của robot (hay còn gọi là crawler, spider- phần mềm dò tìm dữ liệu của các cỗ máy tìm kiếm) đối với website của mình. Webmaster có thể dùng file Robots.txt để ngăn chặn robot xâm nhập các thư mục và file trên server của mình và thẻ Meta Robots giúp ngăn chặn robots ở cấp độ từng trang riêng lẻ.

Về Robots.txt, cả 3 đại gia tìm kiếm đều hỗ trợ các chỉ dẫn (directive) sau:

Disallow: không cho phép crawler dò tìm site.
Allow: cho phép crawler dò tìm site.
Ký tự đặc biệt *, $: thông báo crawler (dò hay không dò) một số thuộc tính chung. Microsoft sẽ hỗ trợ từ cuối tháng 6 này.
Sitemap Location: khai báo crawler vị trí Sitemaps của site.

Về thẻ Meta Robots, cả Google, Yahoo! và Microsoft đều thỏa thuận:

noindex: không cho phép crawler dò tìm trang này.
nofollow: không cho phép crawler đi theo các link trên trang này.
noarchive: không cho hiển thị cache của trang này.
nosnippet: không cho phép hiển thị snippet của trang này.
noodpt: không cho phép crawler dùng Title và snippet từ ODP.

Thực ra Giao thức ngăn chặn Robots - REPđã được hiểu ngầm là 1 tiêu chuẩn chưa chính thức (de-facto standard) của các cỗ máy tìm kiếm từ những năm 1990. Tuy nhiên đây là lần đầu tiên Google, Yahoo! và Microsoft “cộng tác” (collaborating) hay “làm việc với nhau” (working together) về REP, mặc dù họ chưa xây dựng nên 1 tiêu chuẩn mới (như đã từng dựng trang Sitemaps.org năm 2006 hướng dẫn Sitemap cho website) mà chỉ mới tuyên bố trên blog của họ.

(Theo Blog Google, Yahoo! và Microsoft)

* Các bạn vui lòng tham khảo chi tiết tại:

MangVN

Hỗ trợ hoặc chặn các công cụ tìm kiếm nhờ Robots.txt - đã có sự thống nhất.