4 Cách để trích xuất văn bản từ hình ảnh và tài liệu

Thứ năm - 20/10/2011 14:00
Bạn muốn trích xuất văn bản từ một tập tin ảnh hay tài liệu? Thông thường, phần mềm OCR (Optical C-haracter Recognition – Nhận dạng ký tự quang học) được sử dụng để sao chép văn bản từ hình ảnh scan và rất hữu ích, đặc biệt là để chuyển...
4 Cách để trích xuất văn bản từ hình ảnh và tài liệu
Bạn muốn trích xuất văn bản từ một tập tin ảnh hay tài liệu? Thông thường, phần mềm OCR (Optical C-haracter Recognition – Nhận dạng ký tự quang học) được sử dụng để sao chép văn bản từ hình ảnh scan và rất hữu ích, đặc biệt là để chuyển đổi sách và tài liệu sang định dạng kỹ thuật số. Tuy nhiên, đa số chúng chúng là những phần mềm thương mại, bạn phải trả phí để sử dụng mà lại nặng nề và ôm đồm nhiều chức năng không cần thiết nữa. Dưới đây là bốn cách đơn giản để trích xuất văn bản từ các tập tin hình ảnh, đặc biệt hoàn toàn miễn phí.

1. Sử dụng phần mềm mã nguồn mở:

Chúng ta có thể sử dụng 2 phần mềm sau đây để trích xuất văn bản từ hình ảnh:

-Phần mềm Gttext:Đây là một công cụ mã nguồn mở miễn phí cho Windows (32bit và 64bit) có thể sao chép văn bản từ các tập tin hình ảnh phổ biến (JPEG, PNG, BMP, GIF, TIFF) gần như chính xác và văn bản được sao chép vào clipboard để bạn dán chúng trên bất kỳ trình soạn thảo văn bản.
Để sử dụng Gttext, trước tiên tải phần mềm về tại địa chỉhttp://code.google.com/p/gttext/downloads/listvà cài đặt nó. Sau đó chạy Gttext và mở một tập tin ảnh có văn bản muốn trích xuất bằng cách nhấp vào tùy chọnCopy image text từ trình đơnTools. Một cửa sổ pop-up mở ra, bên trong hiển thị văn bản được trích xuất từ hình ảnh. Nếu bạn hài lòng, nhấp vào nútContinue để sao chép văn bản vào clipboard. Nếu bạn không hài lòng, nhấn nútTry Again.

-Phần mềm VietOCR: Đây là một tiện ích “thuần Việt” có thể nhận dạng và trích xuất chính xác đến 80%. Chương trình hỗ trợ 2 ngôn ngữ trích xuất chính là tiếng Anh và tiếng Việt nhưng để sử dụng bạn phải cài đặt thêmJava Runtime Environment 6.0hoặc mới hơn vàMicrosoft Visual C++ 2008 SP1.
Trên giao diện chương trình, bạn mở menuFile > Open > chọn All Image Filestrong phầnFile of typesđể lấy file ảnh >Open. Phần nội dung của file ảnh sẽ xuất hiện bên khung trái, bây giờ bạn nhấn vào mụcOCR Language(góc trên bên phải cửa sổ) để chọn ngôn ngữ trong file ảnh nuốn trích xuất > nhấn nútOCR. Thời gian trích xuất nhanh hay chậm phụ thuộc vào số lượng ký tự trong file và tốc độ xử lý của máy tính. Nếu hoàn thành, nội dung trích xuất sẽ hiện ra tron khung bên phải và bạn có thể sao chép ra và sử dụng.

Tải VietOCR 3.1.5 tại trang chủhttp://vietocr.sourceforge.net/usage_vi.htmlhay tạiđây. Bạn có thể xem video hướng dẫn sử dụng tại địa chỉhttp://www.youtube.com/watch?v=g9zezEWlds0.

2. Sử dụng Microsoft OneNote:

Một trong những giải pháp dễ nhất và đơn giản để trích xuất văn bản từ tập tin hình ảnh là sử dụng chương trình Microsoft OneNote. Đây là một ứng dụng ghi chú và lập kế hoạch tuyệt vời và thường đi kèm với Microsoft Office.
Để trích xuất văn bản từ hình ảnh bằng cách sử dụng OneNote, đầu tiên bạn chạy chương trình rồi kéo và thả một tập tin hình ảnh vào chương trình, nhấp chuột phải vào hình ảnh và chọnCopy Text f-rom Image. Văn bản khi trích xuất xong sẽ lưu vào clipboard và bạn có thể dán nó vào bất kỳ trình soạn thảo tài liệu hay chính trong OneNote. Kết quả của quá trình trích xuất văn bản từ OneNote là gần như chính xác.

3. Sử dụng Google Docs:

Bạn cũng có thể sử dụng dịch vụ Google Docs của Google để trích xuất văn bản từ tài liệu hoặc tập tin hình ảnh. Để sử dụng, truy cập vàohttp://docs.google.comvà đăng nhập với tài khoản Google của bạn. Bây giờ, bấm vào nútUploadvà chọn một hình ảnh hoặc tập tin PDF để tải lên, đánh dấu kiểm trước tùy chọnConvert text f-rom PDF or image files to Google Docs documentsvà sau đó nhấp vào nútStart Upload.
Sau khi hoàn thành quá trình tải lên, nhấp vào tập tin tải lên. Nó sẽ mở tập tin văn bản có nội dung được chiết xuất sẽ hiển thị trong trình soạn thảo Google Doc. Bạn có thể lưu hoặc chỉnh sửa các văn bản.

4. Sử dụng dịch vụ trích xuất chuyên dụng:

Có một số dịch vụ trực tuyến miễn phí có khả năng trích xuất văn bản từ các tập tin hình ảnh, chẳng hạn như:
-OCRconvert.com: Đây là một dịch vụ nhận dạng ký tự quang học (OCR) miễn phí cho phép bạn trích xuất văn bản từ PDF, và các tập tin hình ảnh.  Để sử dụng dịch vụ, bạn chỉ cần tải lên tập tin của bạn, và chọn ngôn ngữ của văn bản trong ảnh hay tài liệu muốn trích xuất. Tiếp theo, bạn chọn định dạng tài liệu mà chương trình sẽ sử dụng để lưu văn bản trích xuất > cuối cùng nhấn nútProcess. Sau khi hoàn tất, bạn có thể tải về các văn bản trích xuất hoặc chỉnh sửa chúng trực tiếp.
-Free-OCR.com: Dịch vụ này hỗ trợ trích xuất đến 29 ngôn ngữ trên thế giới, trong đó có tiếng Việt nữa. Cách sử dụng cũng đơn giản, bạn nhấn nútChooseđể chọn file ảnh sau đó chọn ngôn ngữ trong hộpLanguage, nhập mã Captcha rồi nhấnSend file.Nội dung của file trích xuất sẽ xuất hiện trong hộp văn bản đầu trang dịch vụ.
-FreeOnlineOCR: Đây là dịch vụ hỗ trợ trích xuất nhiều định dạng tài liệu và hình ảnh. Bạn nhấnChooseđể chọn tập tin rồi chọn định dạng tài liệu chứa nội dung trích xuất. Cuối cùng nhấnConvert và chờ đợi khi dịch vụ trích xuất xong. Hoàn tất, bạn nhấnDownloadđể tải về.

Nhìn chung các cách trên đều nhận dạng văn bản tiếng Anh khá tốt nhưng nếu bạn cần trích xuất văn bản tiếng Việt thì tốt nhất là nên dùng VietOCR, Free-OCR. Sai sót trong kết quả khi trích xuất là điều không thể tránh khỏi, nhưng bạn có thể chỉnh sửa chúng dễ dàng.

 
 
 
Say IT

Nguồn tin: http://xahoithongtin.com.vn

Tổng số điểm của bài viết là: 0 trong 0 đánh giá

Click để đánh giá bài viết

  Ý kiến bạn đọc

Những tính năng của NukeViet CMS 4.0

Giới thiệu chung Mã nguồn mở NukeViet là sản phẩm của sự làm việc chuyên nghiệp: Để xây dựng lên NukeViet 4, đội ngũ phát triển đã thành lập công ty VINADES.,JSC. Trong quá trình phát triển NukeViet 4, VINADES.,JSC đã hợp tác với nhiều đơn vị cung cấp hosting trong và ngoài nước để thử nghiệm host,...

Thăm dò ý kiến

Lợi ích của phần mềm nguồn mở là gì?

Tin xem nhiều
Thống kê truy cập
  • Đang truy cập156
  • Máy chủ tìm kiếm2
  • Khách viếng thăm154
  • Hôm nay8,059
  • Tháng hiện tại840,838
  • Tổng lượt truy cập70,626,687
  • Cộng đồng NukeViet vinh dự có 1 đơn vị tập thể và 1 cá nhân nhận bằng khen của Hội tin học Việt Nam

    Ngày 10/01/2021, tại sự kiện mừng sinh nhật lần thứ 9 CLB Phần mềm tự do nguồn mở Việt Nam (VFOSSA), Cộng đồng NukeViet đã có 1 cá nhân và 1 đơn vị tập thể được Hội tin học Việt Nam (VAIP) trao tặng bằng khen. Đây là niềm vinh dự lớn khi những đóng góp xuất sắc của cá nhân và tập thể trong Cộng đồng NukeViet được ghi nhận và vinh danh.
  • Chương trình đào tạo chuyên sâu lập trình viên NukeViet

    Với mục đích mở rộng cộng đồng lập trình yêu thích mã nguồn mở NukeViet. Công ty VINADES chủ quản phần mềm mã nguồn mở đã mở ra chương trình đào tạo lập trình viên online cho những ai yêu thích NukeViet
  • Powtoon phần mềm tạo video sinh động, hấp dẫn

    Powtoon được biết đến là một trong số những công cụ tạo video sinh động, hấp dẫn được nhiều người dùng ưa chuộng. Với thư viện template đa dạng, sinh động giúp bạn tạo nên những video, slide chất lượng cho mình.
  • Olympic Tin học Sinh viên năm 2020 - hạng mục Phần mềm nguồn mở diễn ra thành công tốt đẹp

    Ngày 10/12/2020, Cuộc thi Olympic Tin học Sinh viên toàn quốc năm 2020 (OLP), hạng mục Phần mềm nguồn mở chính thức được diễn ra tại Đại học Cần Thơ. Mã nguồn mở NukeViet vinh dự được lựa chọn làm nội dung thi của hạng mục này. NukeViet Core Team cũng được lựa chọn làm Ban Giám khảo chấm thi.
  • Google font - Làm cho web đẹp hơn, nhanh hơn và mở hơn

    Google font, dự án cung cấp một bộ sưu tập các phông chữ cho các nhà thiết kế web với giấy phép nguồn mở, cách sử dụng trực quan và mạnh mẽ. Cho phép sử dụng online mà không cần tải về và lưu trữ trên hosting của website
  • Bạn có cần nhân viên SEO không?

    Google không sử dụng từ SEOer để chỉ một người làm SEO mà gọi tên công việc và người làm công việc đó đều là SEO. Google mới đây đã có 1 bài phân tích việc một người làm kinh doanh liệu có cần nhân viên SEO không và hướng dẫn cách tuyển chọn nhân viên SEO. Mời các bạn cùng xem!
  • Cẩm nang SEO - Tài liệu chính thức của Google

    Nhiều bạn bỏ tiền học SEO, theo học các khóa SEO tại các trung tâm đào tạo với nhiều tips, tricks, mẹo, bí kíp... rất thiếu căn cứ nhưng lại chưa từng đọc "giáo trình chính thống" mà Google phát hành. Bqgt NukeViet thấy cần phải cho các thành viên cộng đồng NukeViet cái nhìn chính thống về SEO, chúng tôi quyết định cảnh báo các bạn đang bắt đầu bước chân vào lĩnh vực làm SEO nên đọc các tài liệu chính thống của Google trước tiên, vì mọi tips, tricks, mẹo, bí kíp... mà các bạn học bên ngoài chỉ là những thứ không chính thống, có thể bị Google thay thế, thậm chí là "phạt" bất cứ lúc nào.
 
Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây