Các hỗ trợ nâng cao và các phép toán thông dụng trong máy truy tìm

Thứ bảy - 26/01/2008 09:42
Bài giảng phần này nói nhiều về các đặc điểm chuyên biệt cuả các search engine dựa trên các đặc điểm cuả chúng mà các bạn có thể có nhiều phương pháp để tìm, tra cứu tài liệu một cách hữu hiệu hơn. Chúng tôi sẽ mổ xẻ chi tiết cá khả năng chuyên biệt cuả các thiết bị truy tìm.

Các Phép Toán đơn giản

Các phép này dùng để nâng cao hiệu quả cuả việc tìm kiếm. Trong hầu hết các trang truy tìm, việc dùng các dấu hổ trợ +, - và ngoặc kép đều thuận tiện.

Dùng dấu '+'

Khi bạn muốn tìm các trang có mặt tất cả các chữ mà bạn muốn không theo thứ tự thì hãy viết nối các chữ này với nhau bởi dấu + (và nhớ chưà khỏang trống giưã các chữ)

Thí dụ muốn tìm trang nói về cách thức viết Linux scrips bạn có thể điền vào ô tìm bộ từ khoá:

+Linux +script +tutor


Hình: tự học Linux script bằng … search engine

Làm vậy thì chỉ có những trang nào có đủ các chữ đã nêu mới được tìm ra. Bằng cách này bạn có thể lọc bớt được một số lớn các trang không cần tìm

Dùng dấu '-'

Nhiều lúc bạn muốn loại bỏ bớt các trang có một (hay nhiều) chữ mà bạn không muốn có thì dùng dấu - trong trường hợp này

Chẳng hạn tìm tin tức về các loại xe dùng kỹ thuật lai mới chưa có bán trên thị trường nhưng không muốn các trang bán xe lọt vào thì có thể thử từ khoá: car +hibrid -sale -Prius -Insight (Prius and Insight là hai kiểu xe hibrid đã có bán trên thị trường cuả Toyota va Honda)

Dùng ngoặc kép " "

Để tìm cụm từ trong nguyên văn

Nhiều khi bạn muốn tìm bài viết nguyên văn cuả một câu nói, tên cuả một người hay một bộ cụm từ thì có thể để tất cả vào trong ngoặc kép. Phương pháp này rất tiện lợi cho việc tìm kiếm những trang đặc biệt (thí dụ hãy thử đánh nguyên văn một câu thơ "Quả cau nho nhỏ miếng trầu ôi" vào trong google tìm xem ai đã viết câu này? Hè hè! như zầy mà đi thi thả thơ là tui thắng chắc hết 99% còn một phần là … xui hông ai đang bài trên In-tờ-nét)


Hình: 0.14 giây đã tìm ra tác giả cuả câu "quả cau nho nhỏ"!

Để tìm ra các tài liệu viết về nhà khoa học Von Neumann thì gõ nguyên tên "von neumann"

Chú ý:Phương pháp này rất hiệu quả nhưng nếu bạn đánh sai chính tả thì … kể như "bán luá giống" (hãy thử đánh tìm chữ "Quã cau" xem tui nói có đúng hông!)

Các phép toán Boolean

Các mệnh lệnh truy tìm dùng đại số boolean đã được phát triển từ nhiều năm. Mặc dù vậy, chúng đã khó xử dụng so với những trình độ người trung bình. Hầu hết các search engine đều có chấp nhận các mệnh lệnh kiểu này.Tuy nhiên, hầu hết các trường hợp thì bạn có thể tiòm ra những gì cần mà không phải xài tới chúng

Các phép toán thông dụng thường được các search engine hổ trợ là OR, AND, NOT và NEAR

Lưu ý: khi dùng mệnh lệnh Boolean thì các toán tử phải viết bằng chữ hoa.

Phép OR

Lệnh này cho phép tìm những trang WEB nào có mặt 1 trong các thành tố (hay còn gọi là toán tử cuả phép toán OR) cuả bộ từ khoá.

Thí dụ để tìm các bài viết về Nguyễn Trãi trong cả tiếng việt và tiếng nước ngoài thì có thể dùng bộ từ khoá

  "Nguyễn Trãi" OR "Nguyen Trai" 

Xa hơn nưã, một số các search engines sẽ dùng phép toán OR như là phép toán mặc định (nghiã là nếu tui gõ "Nguyễn Trãi" "Nguyen Trai" thì kết quả. Chẳng hạn trường hợp cuả Altavista thì sẽ tìm ra ngay cả những bài viết … không dấu)

Lưu ý:AOL search engine không làm tốt khả năng truy tìm khi dùng toán tử OR. Trong khi google sẽ không hoạt động để tìm những cụm từ khác nhau bởi phép toán OR

Các trang có thể dùng OR là: AltaVista, AOL Search, Excite, Google, Inktomi (HotBot, MSN), Ask Jeeves, Lycos, Northe Light, HotBot, và Gigablast

Phép AND

Phép toán AND nhằm yêu cầu search engine truy tìm các trang có sự hiện diện cuả tất cả thành tố. Thí dụ

  "space craft" AND "health"  

sẽ truy tìm các trang có chữ health và chữ "space craft"

Một số trang truy tìm sẽ dùng AND như là mặc định (trong đó có google). Bạn cũng có thể thay thế bằng cách dùng dấu + trong một số trường hợp nào search engine không có chức năng boolean

Các trang có thể dùng AND là: AltaVista, AOL Search, Excite,Inktomi (HotBot, MSN) Northe Light, Yahoo, và Gigablast

Phép NOT

Phép này hoàn toàn tương tự như cách dùng dấu -. Nghiã là, sự truy tìm sẽ loại bỏ những trang có thành tố đi cùng với phép toán NOT.

Các trang có thể dùng NOT là AOL Search, Excite, Inktomi (HotBot, MSN), Northe Light và Gigablast

Phép NEAR

Dùng để truy tìm những trang WEB có các thành tố cuả từ khoá nằm gần nhau. Phép toán này rất có lợi để tìm ra những trang có một cụm từ, một khái niệm, một định nghiã hay một lời phát biểu mà bạn không nhớ hết được nguyên văn. Ví dụ: Tìm lại nguyên văn câu thơ và tác giả bằng bộ từ khoá:

  "Nước đi" NEAR "thề non" 


Hình: Không nhớ hết câu, vẩn tìm ra cụ Tản qua Altavista

Các trang cho dùng NEAR là AltaVista (10 words), AOL Search (specify number).

Chẻ nhánh bằng phép ( )

Dùng ngoặc đơn cho phép ta tìm nhiều kết hợp phức tạp. Thí dụ:

  bootable AND (CD OR CDROM OR CD-ROM) AND (howto or instruction) 

(không chơi mấy cái ví dụ… thơ với thẩn nữa vì sợ bạn đọc là phái nữ chê tui 'yêu sắc' chỉ biết có ba bài thơ cổ thì chết)


Hình: Tìm phương pháp làm CD tự khởi động bằng bộ từ khoá có ( )

Hổ trợ cho kiểu phân nhánh bằng ngoặc đơn là AltaVista, AOL Search, Excite, Inktomi (MSN), Northe Light

Các lưu ý:

  • Trong mọi trường hợp thì từ khoá sai chính tả sẽ không thể có hiệu quả
  • Cách tốt nhất là dùng chữ in hoa cho các phép toán
  • Các trang tìm kiếm cuả Hotbot hay MSN thì bạn phải chuyển sang chọn chức năng "Boolean phrase" khi dùng các phép toán Boolean
  • Trang Lycos (www.lycos.com) có thông báo là họ trợ giúp các phép toán boolean nhưng trong thực tế, chức năng này không hoạt động đúng và hiệu quả

Các hổ trợ nâng cao khác

Ngoài ra, nhiều search engine còn hổ trợ thêm các từ khoá qui ước. Khi dùng các từ khoá này thì search engfine sẽ chuyên biệt hoá các trang WEB, truy tìm theo ý nghiã quy ước mà từ khoá biểu tượng. Với các hổ trợ này bạn có thể kiểm soát được các loại trang nào mà bạn muốn truy tìm

Lưu ý:Đằng sau các từ khoá qui ước đều có dấu hai chấm ':'. Khi viết bộ từ khoá có các từ khóa qui ước này thì tốt nhất là viết từ tìm kiếm ngay liền sau dấu ':' và không chưà khoảng trống (space) nào (thí dụ ta viết từ khoá

  link:http://cnn.com/  

thay vì viết là

  link: http://cnn.com/) 

Các từ khoá host:, site:, url.host:, và domain

Dùng để thu hẹp các trang WEB tìm ra

Từ khoá host

cuả Alavista(www.altavista.com): Từ khoá này sẽ chỉ cho phép search engine tìm các trang nằm trong một WEB server (host) mà bạn muốn tìm. Thí dụ

  host:mars.jpl.nasa.gov mars satu 

Bộ từ khoá trên chỉ tìm trong mars.jpl.nasa.gov tất cả các trang có chưá chữ mars và chữ satu

Kết hợp với các lệnh khác bạn có thể tìm theo cách chuyên biệt:

  "carbon nanotech" -host:www.technologyreview.com 

Lệnh trên cho phép tìm tất cả các trang nào có chứa cụm từ "carbon nanotech" ngoại trừ các trang xuất sứ từ www.technologyreview.com (Bởi vì muốn đọc bài từ trang này thì phải trả tiền đăng kí nên tui …bảo thủ)

Hay là:

  "heart transplan" +host:edu 

mệnh lệnh trên sẽ tuy tìm các trang có đuôi gốc là .edu (vì tui biết rằng các trang có tận cùng edu thường là các trang cuả trường dại học )

Như là 1 bài tập, bạn hãy tìm tất cả các trang xuất phát từ vương quốc Anh viết về clonning (Hà hà! Anh là một trong những nước dẫn đầu về kĩ thuật clonning)

Từ khoá tương tự site:, url.host:, và domain

Làm chức năng hoàn toàn tương tự với từ khoá host: cuả Altavista thì:

Từ khoá site: được dùng bởi Excite, Google (Netscape, Yahoo)

Từ khoá url.host: dùng bởi AllTheWeb

Từ khoá domain: dùng bởi Inktomi (HotBot, iWon, LookSmart)

Các từ khoá title:, intitle:, và allintitle:

Dùng để tìm các trang có tựa đề chứa từ khoá. Tuỳ theo loại search engine mà chúng ta dùng từ khoá khác nhau. Điều này tiện lợi cho việc tìm kiếm tựa đề (hay các bài viết có chủ đề tập trung) các bài viết. Thông thường các bài nghiên cứu được đăng tải sẽ có tựa đề rất rõ ràng. Do đó, nếu dùng cách này cũng có thể tìm ra nhiều tài liệu. Ngoài ra, dùng cách này bạn có thể tìm lại được các trang mà bạn chỉ nhớ một hay một phần tựa đề của nó.

Từ khoá title: 

Có thể dùng trong các trang WEB: AltaVista, AllTheWeb, Inktomi (MSN và HotBot). Để tuy tìm các trang có có tựa đề chưá 1 từ hay 1 cụm từ đặc biệt(trường hợp cụm từ thì bạn hãy để trong ngoặc kép) Thí du:

  title: "Mars Landing" 

sẽ giúp tuy tìm các trang nói về Hoả tinh

Trong trường hợp bạn muốt tìm nhiều hơn một chữ nằm trong cùng 1 tựa đề baì thì có thể dùng hai lần từ khoá title. Thí du:

  title Mars title: water 

Từ khoá intitle: và allintitle:

Cho phép dùng trong các trang: google và teoma.

  • Từ khoá intitle: tương tự như tư khoá title cuả altavista để tìm một từ hay 1 cụm từ dể trong ngoặc kép. Ví dụ để so sánh với 'title':
  intitle:"mars landing"  
  • Từ khoá allintitle: được dùng để tìm tựa các bài mà có chưá nhiều hơn 1 từ mà bạn muốn tìm. Ví dụ để so sánh với việc dùng nhiêu lần chữ 'title':
  allintitle:Mars watwer  


Hình: Dùng allintitle: tìm trang có tựa bao gồm chữ Mars và water trong google

Các từ khoá inurl:, allinurl:, orginurl:, và u:

Các từ khoá này dùng để tìm những địa chỉ trang WEB mà có chưá c'ac chữ cần tìm. (Rõ ràng là việc này có lợi cho những ai thích mò tới các địa chỉ khác nhau…nhưng có cùng 1 tên)

inurl: và allinurl: trong google

Cũng như trên muốn tìm địa chỉ các trang WEB có một chữ đặc biệt thì dùng inurl. Thí dụ:

  inurl:nasa  

Nếu bạn tuy tìm một điạ chỉ có nhiều hơn 1 chữ thì dùng allinurl. Thí dụ:

  allinurl:vietnam thetholucbat  

Lưu ý:trang google chỉ có thể tìm ra nếu như bạn gõ nguyên 1 bộ phận cuả từ (nghiã là nếu trong ví dụ trên bạn gõ thành allinurl vietnam lucbat thì bạn sẽ thất bại trong việc tìm kiếm

Ngoài ra, trong google bạn có thể lạm dụng từ khoá naỳ để tìm các trang có đuôi file riêng biệt. chẳng hạn như:

  mars rover inurl:pdf 

sẽ giúp tìm các trang có dạng đuôi tệp là pdf mà các trang này chứa từ khoá mars và chữ rover

originurl:, u: và url:

Việc tìm địa chỉ trong Inktomi (AOL, GoTo, HotBot) sẽ thông qua từ khoá originurl:

Trong Yahoo thì dùng từ khoá u:

Trong exite ( www.excite.com ) dùng url:

Từ khoá Link: và linkdomain:

Dùng để tìm các trang có dòng liên kết tới trang mà được ghi trong từ khoá.

Từ khoá link dùng được trong google và trong yahoo. Tuy nhiên, khi dùng yahoo bạn phải cho đủ tên trang WEB với tiền tố http://. Thí dụ: từ khoá link:vietsciences.free.fr sẽ tìm được một số trang bởi google. Trong khi đó, nếu đánh

  link:http://vietsciences.free.fr/  

thì sẽ tìm ra nhiều kết quả hơn trong yahoo

Từ khoá linkdomain: được dùng để tìm các liên kết nếu dùng MSN.

Từ khoá filetype:

Khi cần tìm các tư liệu nằm dưới các dạng tệp khác nhau thì từ khoá filetype: sẽ giúp đỡ ít nhiều. Tuy nhiên, tuỳ theo trang mà chúng ta truy kiếm sẽ có các giới hạn khác nhau.

Trang google: sẽ hổ trợ truy tìm các kiểu tệp: PDF, Word (.doc), Excel (.xls), PowerPoint (.ppt), và Rich Text Format (.rtf) cũng như là PostScript (.ps), Text (.txt), HTML (.htm hay .html), WordPerfect (.wpd), và các file extensions khác …ví dụ:

 laser filetype:pdf  

sẽ giúp tìm các trang kiểu đuôi .pdf

Trang yahoo cho phép tìm HTML (htm hay html), PDF, Excel (.xls), PowerPoint (.ppt), Word (.doc), RSS/XML (.xml), and Text Format (.txt)

Trang MSN chỉ chuyên biệt tìm các loại tệp: HTML, PDF, PowerPoint, Word, or Excel

Lưu ý:Dưới "con mắt" cuả các máy truy tìm thì các tệp có đuôi .htm khác với các tệp có đuôi .html. Dó đó, nếu muốn tìm một cách chắc chắc tất cả các tệp dạng HTML thì nên tìm làm hai lần một riêng cho htm và một cho html

Dùng các loại kí tự phỏng định (wildcard character)

Các dấu này được hiểu tương tự như khi ta dùng lệnh có dấu phỏng định trong DOS, Windows, hay Linux

  • Dấu *: dùng thay cho dãy không kể độ dài các kí tự (từ zero trở lên). hổ trợ dấu này trong các tư khoá có AltaVista, Inktomi (iWon), Northe Light, Gigablast, google, Yahoo, MSN … Thí dụ:
  *chnology +laser*  
  • Dấu ?: Dùng thay cho một kí tự bất kì. Hổ trợ kiểu tìm này có AOL Search, Inktomi (iWon)

Dùng kí tự ~:

Đặc biệt trong google có một cách để tìm không những các trang có chưá từ khoá mà còn tìm các trang có chưá chữ đồng nghiã với từ khoá (trong tiếng Anh). Ví dụ:

  ~food facts 

sẽ giúp truy tìm các dữ liệu có chữ 'food facts' và các chữ tương đương như 'nutrition facts' ,…

ngocthua.tuybut.com

Tổng số điểm của bài viết là: 0 trong 0 đánh giá

Click để đánh giá bài viết

  Ý kiến bạn đọc

Những tin mới hơn

Những tin cũ hơn

Giới thiệu về Công ty cổ phần phát triển nguồn mở Việt Nam

Công ty cổ phần phát triển nguồn mở Việt Nam (VINADES.,JSC) là công ty mã nguồn mở đầu tiên của Việt Nam sở hữu riêng một mã nguồn mở nổi tiếng và đang được sử dụng ở hàng ngàn website lớn nhỏ trong mọi lĩnh vực. Wbsite đang hoạt động chính thức: http://vinades.vn/ Ra đời từ hoạt động của tổ chức...

Thăm dò ý kiến

Bạn biết gì về NukeViet 4?

Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây