Nhận dạng chữ Việt với Tesseract OCR

Chủ nhật - 27/12/2009 15:38

Trước đây, chúng ta hầu như chỉ biết đến phần mềm VnDOCR như một phần mềm nhận dạng chữ Việt duy nhất. Tuy nhiên VnDOCR có tiền bản quyền khá cao. Nay mangvn.org xin giới thiệu tới các bạn giải pháp nhận dạng chữ Việt bằng phần mềm Tesseract OCR và VietORC. Đây là phần mềm mã nguồn mở hoàn toàn miễn phí có thể nhận dạng nhiều loại ngôn ngữ bao gồm cả chữ Việt. Đặc biệt bạn có thể tự huấn luyện để phần mềm nhận dạng chính xác các font chữ lạ.

Sau khi cài đặtTesseract, tải và giải nén Vietnamese language data pack cho Tesseract vào tesseract installation folder; các files vie. sẽ được đặt vào tessdatasubdirectory. Tesseract hiện tại chỉ có thể nhận dạng hình uncompressed TIFF. Để thực thi nhận dạng chữ OCR trên ảnh với Tesseract:

tesseract vietsample.tif output –l vie

Bộ Vietnamese language data được tạo cụ thể cho các font Times New Roman, Arial, Verdana, và Courier New. Do đó, việc nhận dạng sẽ có kết quả cao hơn cho các ảnh có font glyphs tương tự. OCR ảnh có font glyphs trông khác các font hỗ trợ thường thường sẽ đòi hỏitập huấn Tesseract để tạo một bộ language data khác cụ thể cho những mặt chữ đó.

Cập nhật: Thêm language data đã được tạo cho các kiểu font cũ Việt Nam, VNI and TCVN3 (ABC).

Có vài chương trình GUI frontend miễn phí cho Tesseract OCR engine: VietOCR, một ứng dụng open-source Java/.NET, cung cấp hỗ trợ quét văn bản và nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP; và FreeOCR là một chương trình .NET, thăng tiến Tesseract thêm ở phần quét vào văn bản và hỗ trợ nhận dạng compressed TIFF images.

Qua Microsoft Office Document Image Writer hay virtual printer driver khác, các ứng dụng Windows có thể in ra TIFF hay các dạng ảnh khác, mà ta có thể thực hành OCR với VietOCR hay FreeOCR. Trong những trường hợp ảnh tạo ra bởi virtual printer không đủ phẩm chất cho OCR, ta có thể dùng các công cụ chỉnh ảnh tiêu chuẩn, như GIMP hay ImageMagick, để tạo ra ảnh đạt yêu cầu của OCR engine. Một số công cụ ảnh này thậm chí còn có thể nhận vào PDF files và xuất ra các dạng ảnh thích hợp cho OCR.

Hình TIFF muốn được OCR cần quét ở độ phân giải từ 200 DPI (dot per inch) trở lên tới 400. Quét ảnh với độ phân giải cao hơn nữa chưa hẳn sẽ tăng sự chính xác của kết quả nhận dạng. Hiện tại, mức chính xác có thể lên trên 97% cho Tiếng Việt (ảnh thí nghiệm), và phiên bản tới của Tesseract có thể nâng cao độ nhận dạng hơn nữa. Dầu vậy, độ chính xác thực thụ vẫn còn tùy thuộc rất lớn vào phẩm chất của ảnh quét. Thông số cho quét ảnh tiêu biểu là 300 DPI và 1 bpp (bit per pixel) black&white hoặc 8 bpp grayscale dạng uncompressed TIFF.

Các lỗi nhận dạng có thể phân làm ba loại. Nhiều lỗi thường bị bởi do lẫn lộn chữ hoa và chữ thường (upper and lower) — ví dụ: hOa, nhắC — có thể dễ dàng sửa chữa sử dụng các chương trình Unicode text editor. Lỗi do sự xử lý không chính xác, gây ra các lỗi như thiếu sót dấu, lầm với ký tự có hình dáng tương tự, v.v… — huu – hưu, mang – marg, h0a – hoa, la – 1a, uhìu - nhìn. Đa số các lỗi này cũng có thể dễ dàng sửa chữa dùng các phần mềm duyệt chính tả.

Loại lỗi cuối cùng là khó phát hiện nhất bởi chúng liên quan đến ngữ nghĩa, semantics, có nghĩa là những chữ đánh vần đúng (tức là mục từ có trong tự điển), nhưng sai nghĩa trong ngữ cảnh (context) — ví dụ: tinh – tình, vân – vấn. Những lỗi này cần phải có người đọc duyệt lại và sửa theo bản gốc trong hình.

Sau đây là hướng dẫn cách sửa chữa 1 cách nhanh chóng và hiệu quả 2 loại lỗi đầu tiên, sử dụng chương trình VietPad (cả phiên bản Java và .NET). Quy trình có thể tóm tắt như sau:

Gom dòng. Các hàng chữ (line) cần được gom lại theo từng đoạn (paragraph), bởi khi được OCR, các hàng chữ đứng riêng trong các đoạn 1 hàng (1-line paragraph). Dùng tính năng Nối dòng trong menu Định dạng. Lưu ý rằng tác vụ này có thể không cần cho thi thơ.
Cũng trong menu Định dạng , bấm Đổi ngữ cách và chọn Chữ hoa đầu câu để sửa gần như tất cả các lỗi chữ hoa-thường. Hãy dò tìm và sửa các lỗi hoa-thường còn sót.
Sửa lỗi chính tả bằng tính năng Dò chính tả dưới menu Công cụ.

Qua các bước trên, hầu hết các lỗi thông thường sẽ được loại trừ. Những lỗi ngữ nghĩa semantic còn sót lại ít, nhưng đòi hỏi người duyệt đọc dò lại toàn bộ văn bản để được giống y như văn bản gốc quét, và toàn thiện nếu muốn.

Mọi thắc mắc và trao đổi mời các bạn tham gia Diễn Đàn VietUnicode.

Download phần mềm tại đây: Tesseract OCR

Hướng dẫn tập huấn Tesseract OCR nhận dạng chữ Việt:

Ứng dụng thực tế cho thấy Tesseract OCR engine rất nhạy cảm tới sự khác biệt trong hình dáng phông chữ. Cho chữ Quốc ngữ, nếu dáng phông khác với bốn phông được hỗ trợ, sự chính xác suy giảm hẳn. Bạn sẽ phải tập huấn cho font của bạn, mà quy trình hơi phức tạp chút nhưng được giải thích chi tiết trong trang Tesseract Wiki.

Tóm lược như sau:

bbTesseract

Để cộng đồng có thể hưởng lợi từ công lao của bạn, xin vui lòng gửi data files. Chúng sẽ được đăng trong VietOCR's Downloadpage. Hãy nhớ ghi tên của font mà bạn đã tập huấn cho, để người sử dụng biết phải load bộ data nào vào tessdata directory khi OCR văn bản của họ.

Theo dòng sự kiện

Xem tiếp...

Những tin mới hơn

Những tin cũ hơn

Giới thiệu về NukeViet

Giới thiệu khái quát NukeViet là một ứng dụng trên nền web có thể sử dụng vào nhiều mục đích khác nhau. Phiên bản đang được phát hành theo giấy phép phần mềm tự do nguồn mở có tên gọi đầy đủ là NukeViet CMS gồm 2 phần chính là phần nhân (core) của hệ thống NukeViet và nhóm chức năng quản trị nội...

Thăm dò ý kiến

Thống kê truy cập

Đang truy cập143
Máy chủ tìm kiếm6
Khách viếng thăm137
Hôm nay19,582
Tháng hiện tại295,352
Tổng lượt truy cập94,642,005

Thông tin mời thầu

Cải tạo phòng làm việc phòng QLKH & Hợp tác Quốc tế

Thứ năm - 18/04/2024 21:42
Số TBMT: IB2400081123-00. Bên mời thầu: Học viện Công nghệ Bưu chính Viễn thông. Đóng thầu: 06:00 26/04/24
Gói thầu số 7: Cung cấp dịch vụ vệ sinh phun cát phục vụ công tác đại tu tổ máy S1 NMNĐ Mông Dương 1

Thứ năm - 18/04/2024 21:40
Số TBMT: IB2400087574-00. Bên mời thầu: CÔNG TY DỊCH VỤ SỬA CHỮA CÁC NHÀ MÁY ĐIỆN - CHI NHÁNH TỔNG CÔNG TY PHÁT ĐIỆN 3 - CÔNG TY CỔ PHẦN. Đóng thầu: 10:00 03/05/24
Tư vấn thẩm tra BCNCKT cho dự án: Ngầm hóa lưới điện đường Nguyễn Ảnh Thủ, đoạn từ Phan Văn Hớn đến Quốc lộ 22, huyện Hóc Môn

Thứ năm - 18/04/2024 21:39
Số TBMT: IB2400087358-00. Bên mời thầu: CHI NHÁNH TỔNG CÔNG TY ĐIỆN LỰC THÀNH PHỐ HỒ CHÍ MINH TNHH - BAN QUẢN LÝ DỰ ÁN LƯỚI ĐIỆN PHÂN PHỐI THÀNH PHỐ HỒ CHÍ MINH. Đóng thầu: 10:00 09/05/24
Tư vấn cấp giấy phép môi trường tại K130

Thứ năm - 18/04/2024 21:38
Số TBMT: IB2400074042-00. Bên mời thầu: XÍ NGHIỆP KHO VẬN XĂNG DẦU K130. Đóng thầu: 09:00 07/05/24
G5 Mua sắm hóa chất phục vụ nuôi cấy lần 1 năm 2024-2025

Thứ năm - 18/04/2024 21:38
Số TBMT: IB2400090718-00. Bên mời thầu: Bệnh viện Phổi Hải Dương. Đóng thầu: 16:30 03/05/24
Thi công sửa chữa trụ sở CQTT TTXVN tại Gia Lai

Thứ năm - 18/04/2024 21:35
Số TBMT: IB2400089815-02. Bên mời thầu: CÔNG TY CỔ PHẦN ĐẦU TƯ VÀ XÂY DỰNG AN PHÁT ĐẮK NÔNG. Đóng thầu: 10:00 25/04/24
Dịch vụ công cộng khác (Thuê dịch vụ giữ xe máy 2024) -DV-1310/24-KB-TTH (XNK&SG-0095/24)

Thứ năm - 18/04/2024 21:33
Số TBMT: IB2400086684-00. Bên mời thầu: Liên doanh Việt-Nga Vietsovpetro. Đóng thầu: 09:00 26/04/24
Bổ sung sách luân chuyển cho các trại giam và cho các tủ sách xã, phường, thị trấn trên địa bàn tỉnh Thanh Hóa năm 2024

Thứ năm - 18/04/2024 21:33
Số TBMT: IB2400083434-01. Bên mời thầu: Thư viện tỉnh Thanh Hóa. Đóng thầu: 15:00 25/04/24
Gói thầu số 01: "Mua sắm, sửa chữa tài sản cố định: Bàn ghế hội trường, điều hòa nhiệt độ, hệ thống màn hình led đa năng"

Thứ năm - 18/04/2024 21:32
Số TBMT: IB2400091024-00. Bên mời thầu: Trung tâm Giáo dục nghề nghiệp và Hỗ trợ phát triển phụ nữ Hà Nội. Đóng thầu: 09:00 29/04/24
Thi công sửa chữa trụ sở CQTT TTXVN tại Lâm Đồng

Thứ năm - 18/04/2024 21:31
Số TBMT: IB2400089690-01. Bên mời thầu: CÔNG TY CỔ PHẦN ĐẦU TƯ VÀ XÂY DỰNG AN PHÁT ĐẮK NÔNG. Đóng thầu: 10:00 25/04/24

Tin từ NukeViet.vn

[Mời thầu] Gói thầu số 3: Kiểm thử phần mềm
Trung tâm Công nghệ thông tin và Truyền thông đang thực hiện mời thầu cho Gói thầu số 3: Kiểm thử phần mềm. Thời hạn đóng thầu 15:00 22/04/2024.
[Mời thầu] Bảo trì phần mềm quản trị trường học
Trường Đại học Tài chính Quản trị kinh doanh đang thực hiện mời thầu cho Gói thầu “Bảo trì phần mềm quản trị trường học”. Thời hạn đóng thầu 14:00 16/04/2024.
[Mời thầu] Thuê ngoài Dịch vụ phát triển phần mềm Hệ thống quản lý văn bản điện tử phục vụ nâng cấp...
Ban Quản lý dự án - Chi nhánh Công ty Công nghệ thông tin VNPT đang thực hiện mời thầu cho Gói thầu “Thuê ngoài Dịch vụ phát triển phần mềm Hệ thống quản lý văn bản điện tử phục vụ nâng cấp SPDV”. Thời hạn đóng thầu 09:00 10/04/2024.
[Mời thầu] Gói thầu số 01: Thuê dịch vụ phần mềm quản lý y tế cơ sở của Trung tâm y tế huyện Thạch...
Trung tâm y tế huyện Thạch Thất đang thực hiện mời thầu cho Gói thầu số 01: Thuê dịch vụ phần mềm quản lý y tế cơ sở của Trung tâm y tế huyện Thạch Thất. Thời hạn đóng thầu 09:00 01/04/2024.
Thông báo phát hành NukeViet 4.5.05
NukeViet 4.5.05 là Phiên bản tiếp theo của dòng NukeViet 4.5, trọng tâm là bổ sung các tiêu đề bảo mật và sửa lỗi ở trình soạn thảo.
[Mời thầu] Gói thầu số 02: Nâng cấp phần mềm quản lý bệnh viện His của Bệnh viện đa khoa khu vực...
Bệnh viện Đa khoa Khu vực Ngọc Lặc đang thực hiện mời thầu cho Gói thầu số 02: Nâng cấp phần mềm quản lý bệnh viện His của Bệnh viện đa khoa khu vực Ngọc Lặc. Thời hạn đóng thầu 10:00 25/03/2024.
[Mời thầu] Cải tạo hạ tầng và CCDV Colocation cho Khách hàng VNPAY tại IDC Tân Thuận và IDC Nam...
Trung tâm Hạ tầng IDC - Chi nhánh Công ty Công nghệ Thông tin VNPT đang thực hiện mời thầu cho Gói thầu: Cải tạo hạ tầng và CCDV Colocation cho Khách hàng VNPAY tại IDC Tân Thuận và IDC Nam Thăng Long. Thời hạn đóng thầu 11:00 16/03/2024.

Kế hoạch lựa chọn nhà thầu

Nhà lớp học 2 tầng 8 phòng Trường mầm non Võ Miếu 1

Thứ năm - 18/04/2024 21:56
Số KHLCNT: PL2400059609-00. Chủ đầu tư: Ủy ban nhân dân xã Võ Miếu huyện Thanh Sơn. Công bố: 08:56 19/04/24
Gói thầu sửa chữa khối màn hình cho máy siêu âm Doppler màu Prosound α 7

Thứ năm - 18/04/2024 21:55
Số KHLCNT: PL2400059586-00. Chủ đầu tư: Bệnh viện Quân Dân y tỉnh Trà Vinh. Công bố: 08:55 19/04/24
Duy tu, sửa chữa đường dẫn dạ cầu bờ Tây kênh 307

Thứ năm - 18/04/2024 21:55
Số KHLCNT: PL2400057250-00. Chủ đầu tư: UBND XÃ MỸ ĐÔNG. Công bố: 08:55 19/04/24
Sửa chữa trụ sở làm việc UBND xã Thèn Sin, huyện Tam Đường

Thứ năm - 18/04/2024 21:55
Số KHLCNT: PL2400059616-00. Chủ đầu tư: Phòng Kinh tế và Hạ tầng huyện Tam Đường. Công bố: 08:55 19/04/24
May trang phục cho Đại biểu HĐND xã nhiệm kỳ 2021- 2026

Thứ năm - 18/04/2024 21:55
Số KHLCNT: PL2400059623-00. Chủ đầu tư: Ủy ban nhân dân xã Việt Hùng. Công bố: 08:55 19/04/24

Nhận dạng chữ Việt với Tesseract OCR

Hướng dẫn tập huấn Tesseract OCR nhận dạng chữ Việt:

Giới thiệu về NukeViet

Bạn biết gì về NukeViet 4?

Cải tạo phòng làm việc phòng QLKH & Hợp tác Quốc tế

Gói thầu số 7: Cung cấp dịch vụ vệ sinh phun cát phục vụ công tác đại tu tổ máy S1 NMNĐ Mông Dương 1

Tư vấn thẩm tra BCNCKT cho dự án: Ngầm hóa lưới điện đường Nguyễn Ảnh Thủ, đoạn từ Phan Văn Hớn đến Quốc lộ 22, huyện Hóc Môn

Tư vấn cấp giấy phép môi trường tại K130

G5 Mua sắm hóa chất phục vụ nuôi cấy lần 1 năm 2024-2025

Thi công sửa chữa trụ sở CQTT TTXVN tại Gia Lai

Dịch vụ công cộng khác (Thuê dịch vụ giữ xe máy 2024) -DV-1310/24-KB-TTH (XNK&SG-0095/24)

Bổ sung sách luân chuyển cho các trại giam và cho các tủ sách xã, phường, thị trấn trên địa bàn tỉnh Thanh Hóa năm 2024

Gói thầu số 01: "Mua sắm, sửa chữa tài sản cố định: Bàn ghế hội trường, điều hòa nhiệt độ, hệ thống màn hình led đa năng"

Thi công sửa chữa trụ sở CQTT TTXVN tại Lâm Đồng

[Mời thầu] Gói thầu số 3: Kiểm thử phần mềm

[Mời thầu] Bảo trì phần mềm quản trị trường học

[Mời thầu] Thuê ngoài Dịch vụ phát triển phần mềm Hệ thống quản lý văn bản điện tử phục vụ nâng cấp...

[Mời thầu] Gói thầu số 01: Thuê dịch vụ phần mềm quản lý y tế cơ sở của Trung tâm y tế huyện Thạch...

Thông báo phát hành NukeViet 4.5.05

[Mời thầu] Gói thầu số 02: Nâng cấp phần mềm quản lý bệnh viện His của Bệnh viện đa khoa khu vực...

[Mời thầu] Cải tạo hạ tầng và CCDV Colocation cho Khách hàng VNPAY tại IDC Tân Thuận và IDC Nam...

Nhà lớp học 2 tầng 8 phòng Trường mầm non Võ Miếu 1

Gói thầu sửa chữa khối màn hình cho máy siêu âm Doppler màu Prosound α 7

Duy tu, sửa chữa đường dẫn dạ cầu bờ Tây kênh 307

Sửa chữa trụ sở làm việc UBND xã Thèn Sin, huyện Tam Đường

May trang phục cho Đại biểu HĐND xã nhiệm kỳ 2021- 2026

Cổng thông tin Phòng giáo dục, Sở giáo dục

Hệ quản trị nội dung NukeViet