4 Cách để trích xuất văn bản từ hình ảnh và tài liệu

Thứ năm - 20/10/2011 03:00

Bạn muốn trích xuất văn bản từ một tập tin ảnh hay tài liệu? Thông thường, phần mềm OCR (Optical C-haracter Recognition – Nhận dạng ký tự quang học) được sử dụng để sao chép văn bản từ hình ảnh scan và rất hữu ích, đặc biệt là để chuyển đổi sách và tài liệu sang định dạng kỹ thuật số. Tuy nhiên, đa số chúng chúng là những phần mềm thương mại, bạn phải trả phí để sử dụng mà lại nặng nề và ôm đồm nhiều chức năng không cần thiết nữa. Dưới đây là bốn cách đơn giản để trích xuất văn bản từ các tập tin hình ảnh, đặc biệt hoàn toàn miễn phí.

1. Sử dụng phần mềm mã nguồn mở:

Chúng ta có thể sử dụng 2 phần mềm sau đây để trích xuất văn bản từ hình ảnh:

-Phần mềm Gttext:Đây là một công cụ mã nguồn mở miễn phí cho Windows (32bit và 64bit) có thể sao chép văn bản từ các tập tin hình ảnh phổ biến (JPEG, PNG, BMP, GIF, TIFF) gần như chính xác và văn bản được sao chép vào clipboard để bạn dán chúng trên bất kỳ trình soạn thảo văn bản.

Để sử dụng Gttext, trước tiên tải phần mềm về tại địa chỉhttp://code.google.com/p/gttext/downloads/listvà cài đặt nó. Sau đó chạy Gttext và mở một tập tin ảnh có văn bản muốn trích xuất bằng cách nhấp vào tùy chọnCopy image text từ trình đơnTools. Một cửa sổ pop-up mở ra, bên trong hiển thị văn bản được trích xuất từ hình ảnh. Nếu bạn hài lòng, nhấp vào nútContinue để sao chép văn bản vào clipboard. Nếu bạn không hài lòng, nhấn nútTry Again.

-Phần mềm VietOCR: Đây là một tiện ích “thuần Việt” có thể nhận dạng và trích xuất chính xác đến 80%. Chương trình hỗ trợ 2 ngôn ngữ trích xuất chính là tiếng Anh và tiếng Việt nhưng để sử dụng bạn phải cài đặt thêmJava Runtime Environment 6.0hoặc mới hơn vàMicrosoft Visual C++ 2008 SP1.

Trên giao diện chương trình, bạn mở menuFile > Open > chọn All Image Filestrong phầnFile of typesđể lấy file ảnh >Open. Phần nội dung của file ảnh sẽ xuất hiện bên khung trái, bây giờ bạn nhấn vào mụcOCR Language(góc trên bên phải cửa sổ) để chọn ngôn ngữ trong file ảnh nuốn trích xuất > nhấn nútOCR. Thời gian trích xuất nhanh hay chậm phụ thuộc vào số lượng ký tự trong file và tốc độ xử lý của máy tính. Nếu hoàn thành, nội dung trích xuất sẽ hiện ra tron khung bên phải và bạn có thể sao chép ra và sử dụng.

Tải VietOCR 3.1.5 tại trang chủhttp://vietocr.sourceforge.net/usage_vi.htmlhay tạiđây. Bạn có thể xem video hướng dẫn sử dụng tại địa chỉhttp://www.youtube.com/watch?v=g9zezEWlds0.

2. Sử dụng Microsoft OneNote:

Một trong những giải pháp dễ nhất và đơn giản để trích xuất văn bản từ tập tin hình ảnh là sử dụng chương trình Microsoft OneNote. Đây là một ứng dụng ghi chú và lập kế hoạch tuyệt vời và thường đi kèm với Microsoft Office.

Để trích xuất văn bản từ hình ảnh bằng cách sử dụng OneNote, đầu tiên bạn chạy chương trình rồi kéo và thả một tập tin hình ảnh vào chương trình, nhấp chuột phải vào hình ảnh và chọnCopy Text f-rom Image. Văn bản khi trích xuất xong sẽ lưu vào clipboard và bạn có thể dán nó vào bất kỳ trình soạn thảo tài liệu hay chính trong OneNote. Kết quả của quá trình trích xuất văn bản từ OneNote là gần như chính xác.

3. Sử dụng Google Docs:

Bạn cũng có thể sử dụng dịch vụ Google Docs của Google để trích xuất văn bản từ tài liệu hoặc tập tin hình ảnh. Để sử dụng, truy cập vàohttp://docs.google.comvà đăng nhập với tài khoản Google của bạn. Bây giờ, bấm vào nútUploadvà chọn một hình ảnh hoặc tập tin PDF để tải lên, đánh dấu kiểm trước tùy chọnConvert text f-rom PDF or image files to Google Docs documentsvà sau đó nhấp vào nútStart Upload.

Sau khi hoàn thành quá trình tải lên, nhấp vào tập tin tải lên. Nó sẽ mở tập tin văn bản có nội dung được chiết xuất sẽ hiển thị trong trình soạn thảo Google Doc. Bạn có thể lưu hoặc chỉnh sửa các văn bản.

4. Sử dụng dịch vụ trích xuất chuyên dụng:

Có một số dịch vụ trực tuyến miễn phí có khả năng trích xuất văn bản từ các tập tin hình ảnh, chẳng hạn như:

-OCRconvert.com: Đây là một dịch vụ nhận dạng ký tự quang học (OCR) miễn phí cho phép bạn trích xuất văn bản từ PDF, và các tập tin hình ảnh. Để sử dụng dịch vụ, bạn chỉ cần tải lên tập tin của bạn, và chọn ngôn ngữ của văn bản trong ảnh hay tài liệu muốn trích xuất. Tiếp theo, bạn chọn định dạng tài liệu mà chương trình sẽ sử dụng để lưu văn bản trích xuất > cuối cùng nhấn nútProcess. Sau khi hoàn tất, bạn có thể tải về các văn bản trích xuất hoặc chỉnh sửa chúng trực tiếp.

-Free-OCR.com: Dịch vụ này hỗ trợ trích xuất đến 29 ngôn ngữ trên thế giới, trong đó có tiếng Việt nữa. Cách sử dụng cũng đơn giản, bạn nhấn nútChooseđể chọn file ảnh sau đó chọn ngôn ngữ trong hộpLanguage, nhập mã Captcha rồi nhấnSend file.Nội dung của file trích xuất sẽ xuất hiện trong hộp văn bản đầu trang dịch vụ.

-FreeOnlineOCR: Đây là dịch vụ hỗ trợ trích xuất nhiều định dạng tài liệu và hình ảnh. Bạn nhấnChooseđể chọn tập tin rồi chọn định dạng tài liệu chứa nội dung trích xuất. Cuối cùng nhấnConvert và chờ đợi khi dịch vụ trích xuất xong. Hoàn tất, bạn nhấnDownloadđể tải về.

Nhìn chung các cách trên đều nhận dạng văn bản tiếng Anh khá tốt nhưng nếu bạn cần trích xuất văn bản tiếng Việt thì tốt nhất là nên dùng VietOCR, Free-OCR. Sai sót trong kết quả khi trích xuất là điều không thể tránh khỏi, nhưng bạn có thể chỉnh sửa chúng dễ dàng.

Say IT

Nguồn tin: http://xahoithongtin.com.vn

Những tin mới hơn

Những tin cũ hơn

Giới thiệu về NukeViet CMS

CMS là gì? CMS là từ viết tắt từ Content Management System. Theo wikipedia Định nghĩa. Hệ quản trị nội dung, cũng được gọi là hệ thống quản lý nội dung hay CMS (từ Content Management System của tiếng Anh) là phần mềm để tổ chức và tạo môi trường cộng tác thuận lợi nhằm mục đích xây dựng một hệ...

Thăm dò ý kiến

Thống kê truy cập

Đang truy cập76
Máy chủ tìm kiếm15
Khách viếng thăm61
Hôm nay22,411
Tháng hiện tại310,202
Tổng lượt truy cập105,463,904

Thông tin mời thầu

Gói thầu số 11: Hóa chất, xét nghiệm cấy máu hiếu khí trên máy Bactec 9050 (01 mặt hàng)

Thứ tư - 13/08/2025 18:31
Số TBMT: IB2500347025-00. Bên mời thầu: BỆNH VIỆN 30/4. Đóng thầu: 08:00 20/08/25
Mua sắm thiết bị phục vụ giảng dạy, học tập

Thứ tư - 13/08/2025 18:05
Số TBMT: IB2500341400-01. Bên mời thầu: Ban Quản lý dự án đầu tư xây dựng Bắc Giang. Đóng thầu: 15:00 19/08/25
Cung cấp vật tư phục vụ sản xuất năm 2025

Thứ tư - 13/08/2025 17:42
Số TBMT: IB2500345357-00. Bên mời thầu: Trung tâm Tiêu chuẩn Đo lường Chất lượng CS2. Đóng thầu: 11:00 22/08/25
Cung cấp vật tư phục vụ sản xuất ngành TC-ĐL-CL năm 2025

Thứ tư - 13/08/2025 17:41
Số TBMT: IB2500345365-00. Bên mời thầu: Trung tâm Tiêu chuẩn Đo lường Chất lượng CS2. Đóng thầu: 11:00 22/08/25
Gói thầu số 03: Gia công mạch in, hàn linh kiện

Thứ tư - 13/08/2025 17:38
Số TBMT: IB2500344624-00. Bên mời thầu: Trung tâm 80/Cục tác chiến điện tử/Bộ Tổng tham mưu. Đóng thầu: 09:00 22/08/25
Gói thầu số 05: Thi công xây dựng công trình

Thứ tư - 13/08/2025 17:11
Số TBMT: IB2500339003-01. Bên mời thầu: Sở Xây dựng An Giang. Đóng thầu: 14:00 22/08/25
Gói thầu số 05: Thi công xây dựng công trình

Thứ tư - 13/08/2025 17:07
Số TBMT: IB2500339681-01. Bên mời thầu: Sở Xây dựng An Giang. Đóng thầu: 14:00 22/08/25
Gói thầu số 05: Thi công xây dựng công trình

Thứ tư - 13/08/2025 17:02
Số TBMT: IB2500339806-01. Bên mời thầu: Sở Xây dựng An Giang. Đóng thầu: 14:00 22/08/25
MS-01: Mua sắm nhà bạt phục vụ cho huấn luyện, dã ngoại

Thứ tư - 13/08/2025 16:57
Số TBMT: IB2500347070-00. Bên mời thầu: Cục Hậu cần - Kỹ thuật, Quân khu 7. Đóng thầu: 09:00 23/08/25
MS-02: Mua sắm dụng cụ sinh hoạt bằng nhựa

Thứ tư - 13/08/2025 16:56
Số TBMT: IB2500347056-00. Bên mời thầu: Cục Hậu cần - Kỹ thuật, Quân khu 7. Đóng thầu: 09:00 23/08/25

Tin từ NukeViet.vn

[Mời thầu] Gói thầu số 08: Mua sắm trang thiết bị, phần mềm đào tạo, thiết bị phục vụ học tập
Ban Quản lý dự án đầu tư xây dựng các công trình dân dụng và công nghiệp tỉnh Quảng Ngãi đang thực hiện mời thầu cho gói thầu “Gói thầu số 08: Mua sắm trang thiết bị, phần mềm đào tạo, thiết bị phục vụ học tập”. Thời hạn đóng thầu 08:00 08/08/2025.
[Mời thầu] Thuê phần mềm quản lý bệnh viện (HIS), quản lý xét nghiệm (LIS) tại Bệnh viện Ung bướu...
Bệnh viện Ung bướu tỉnh Khánh Hòa đang thực hiện mời thầu cho gói thầu “Thuê phần mềm quản lý bệnh viện (HIS), quản lý xét nghiệm (LIS), phần mềm quản lý chẩn đoán hình ảnh (RIS-PACS), phần mềm bệnh án điện tử (EMR) tại Bệnh viện Ung bướu Khánh Hòa”. Thời hạn đóng thầu 10:00 05/08/2025.
[Mời thầu] Xây dựng phần mềm thu thập dữ liệu an toàn thông tin cho mạng máy tính
Trung tâm 586/Bộ Tư lệnh 86 đang thực hiện mời thầu cho gói thầu “Xây dựng phần mềm thu thập dữ liệu an toàn thông tin cho mạng máy tính”. Thời hạn đóng thầu 10:00 28/07/2025.
[Mời thầu] Thuê phần mềm quản lý thông tin bệnh viện tại Trung tâm Y tế huyện Vân Đồn
Trung tâm Y tế huyện Vân Đồn đang thực hiện mời thầu cho gói thầu “Thuê phần mềm quản lý thông tin bệnh viện tại Trung tâm Y tế huyện Vân Đồn”. Thời hạn đóng thầu 10:00 14/07/2025.
[Mời thầu] Mua phần mềm quản lý chẩn đoán hình ảnh (PACS) và hệ thống quản lý thông tin xét nghiệm...
Trung Tâm Y Tế Các Khu Công Nghiệp Tỉnh Bắc Giang đang thực hiện mời thầu cho gói thầu “Mua phần mềm quản lý chẩn đoán hình ảnh (PACS) và hệ thống quản lý thông tin xét nghiệm (LIS) của Trung Tâm Y tế các khu công nghiệp tỉnh Bắc Giang”. Thời hạn đóng thầu 08:00 30/06/2025.
Xây dựng phần mềm Quản trị kinh doanh
Công Ty TNHH Một Thành Viên Tổng Công Ty Tân Cảng Sài Gòn đang thực hiện mời thầu cho gói thầu “Xây dựng phần mềm Quản trị kinh doanh”. Thời hạn đóng thầu 09:00 08/07/2025.
NukeViet.vn tham gia chương trình Bug Bounty trên WhiteHub
Từ năm 2019, NukeViet.vn đã tham gia chương trình Bug Bounty trên nền tảng WhiteHub - nền tảng Bug Bounty đầu tiên tại Việt Nam. Đây là bước đi thể hiện cam kết mạnh mẽ của đội ngũ phát triển NukeViet trong việc xây dựng một hệ thống an toàn, minh bạch và có chất lượng bảo mật cao, phục vụ cộng đồng người dùng và lập trình viên tại Việt Nam.

Kế hoạch lựa chọn nhà thầu

Mua cặp đựng tài liệu, huy hiệu phục vụ Đại hội đại biểu Đảng bộ xã Song Lộc lần thứ XV, nhiệm kỳ 2025-2030

Thứ tư - 13/08/2025 18:35
Số KHLCNT: PL2500188641-00. Chủ đầu tư: Đảng uỷ xã Song Lộc. Ngày đăng tải: 23:35 13/08/25
Mua sắm bổ sung Vật tư y tế Cận lâm sàng năm 2025 của Bệnh viện Chỉnh hình và Phục hồi chức năng Thành phố Hồ Chí Minh

Thứ tư - 13/08/2025 18:18
Số KHLCNT: PL2500188639-00. Chủ đầu tư: Bệnh viện Chỉnh hình và Phục hồi chức năng Thành phố Hồ Chí Minh. Ngày đăng tải: 23:18 13/08/25
Khám sức khỏe định kỳ cho người lao động năm 2025 đợt 2

Thứ tư - 13/08/2025 18:13
Số KHLCNT: PL2500188640-00. Chủ đầu tư: CÔNG TY CỔ PHẦN CAO SU PHƯỚC HÒA. Ngày đăng tải: 23:13 13/08/25
Kế hoạch lựa chọn nhà thầu: Dự toán Mua sắm 04 thiết bị y tế từ nguồn ngân sách tỉnh Lào Cai tại Bệnh viện Nội tiết tỉnh Lào Cai

Thứ tư - 13/08/2025 17:40
Số KHLCNT: PL2500175947-02. Chủ đầu tư: Bệnh viện Nội tiết tỉnh Lào Cai. Ngày đăng tải: 22:40 13/08/25
Kế hoạch lựa chọn nhà thầu: Dự toán Mua sắm 04 thiết bị y tế từ nguồn ngân sách tỉnh Lào Cai tại Bệnh viện Nội tiết tỉnh Lào Cai (tổ chức lựa chọn nhà thầu theo quy định tại điểm a, khoản 10, Điều 131, Nghị định 24/2024/NĐ-CP ngày 27/02/2024 của Chính phủ)

Thứ tư - 13/08/2025 17:33
Số KHLCNT: PL2500175947-01. Chủ đầu tư: Bệnh viện Nội tiết tỉnh Lào Cai. Ngày đăng tải: 22:33 13/08/25

4 Cách để trích xuất văn bản từ hình ảnh và tài liệu

Giới thiệu về NukeViet CMS

Bạn biết gì về NukeViet 4?

Gói thầu số 11: Hóa chất, xét nghiệm cấy máu hiếu khí trên máy Bactec 9050 (01 mặt hàng)

Mua sắm thiết bị phục vụ giảng dạy, học tập

Cung cấp vật tư phục vụ sản xuất năm 2025

Cung cấp vật tư phục vụ sản xuất ngành TC-ĐL-CL năm 2025

Gói thầu số 03: Gia công mạch in, hàn linh kiện

Gói thầu số 05: Thi công xây dựng công trình

Gói thầu số 05: Thi công xây dựng công trình

Gói thầu số 05: Thi công xây dựng công trình

MS-01: Mua sắm nhà bạt phục vụ cho huấn luyện, dã ngoại

MS-02: Mua sắm dụng cụ sinh hoạt bằng nhựa

[Mời thầu] Gói thầu số 08: Mua sắm trang thiết bị, phần mềm đào tạo, thiết bị phục vụ học tập

[Mời thầu] Thuê phần mềm quản lý bệnh viện (HIS), quản lý xét nghiệm (LIS) tại Bệnh viện Ung bướu...

[Mời thầu] Xây dựng phần mềm thu thập dữ liệu an toàn thông tin cho mạng máy tính

[Mời thầu] Thuê phần mềm quản lý thông tin bệnh viện tại Trung tâm Y tế huyện Vân Đồn

[Mời thầu] Mua phần mềm quản lý chẩn đoán hình ảnh (PACS) và hệ thống quản lý thông tin xét nghiệm...

Xây dựng phần mềm Quản trị kinh doanh

NukeViet.vn tham gia chương trình Bug Bounty trên WhiteHub

Mua cặp đựng tài liệu, huy hiệu phục vụ Đại hội đại biểu Đảng bộ xã Song Lộc lần thứ XV, nhiệm kỳ 2025-2030

Mua sắm bổ sung Vật tư y tế Cận lâm sàng năm 2025 của Bệnh viện Chỉnh hình và Phục hồi chức năng Thành phố Hồ Chí Minh

Khám sức khỏe định kỳ cho người lao động năm 2025 đợt 2

Kế hoạch lựa chọn nhà thầu: Dự toán Mua sắm 04 thiết bị y tế từ nguồn ngân sách tỉnh Lào Cai tại Bệnh viện Nội tiết tỉnh Lào Cai

Cổng thông tin Phòng giáo dục, Sở giáo dục

Cổng thông tin doanh nghiệp