Nhận dạng chữ Việt với Tesseract OCR

Chủ nhật - 27/12/2009 15:38

Trước đây, chúng ta hầu như chỉ biết đến phần mềm VnDOCR như một phần mềm nhận dạng chữ Việt duy nhất. Tuy nhiên VnDOCR có tiền bản quyền khá cao. Nay mangvn.org xin giới thiệu tới các bạn giải pháp nhận dạng chữ Việt bằng phần mềm Tesseract OCR và VietORC. Đây là phần mềm mã nguồn mở hoàn toàn miễn phí có thể nhận dạng nhiều loại ngôn ngữ bao gồm cả chữ Việt. Đặc biệt bạn có thể tự huấn luyện để phần mềm nhận dạng chính xác các font chữ lạ.

Sau khi cài đặtTesseract, tải và giải nén Vietnamese language data pack cho Tesseract vào tesseract installation folder; các files vie. sẽ được đặt vào tessdatasubdirectory. Tesseract hiện tại chỉ có thể nhận dạng hình uncompressed TIFF. Để thực thi nhận dạng chữ OCR trên ảnh với Tesseract:

tesseract vietsample.tif output –l vie

Bộ Vietnamese language data được tạo cụ thể cho các font Times New Roman, Arial, Verdana, và Courier New. Do đó, việc nhận dạng sẽ có kết quả cao hơn cho các ảnh có font glyphs tương tự. OCR ảnh có font glyphs trông khác các font hỗ trợ thường thường sẽ đòi hỏitập huấn Tesseract để tạo một bộ language data khác cụ thể cho những mặt chữ đó.

Cập nhật: Thêm language data đã được tạo cho các kiểu font cũ Việt Nam, VNI and TCVN3 (ABC).

Có vài chương trình GUI frontend miễn phí cho Tesseract OCR engine: VietOCR, một ứng dụng open-source Java/.NET, cung cấp hỗ trợ quét văn bản và nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP; và FreeOCR là một chương trình .NET, thăng tiến Tesseract thêm ở phần quét vào văn bản và hỗ trợ nhận dạng compressed TIFF images.

Qua Microsoft Office Document Image Writer hay virtual printer driver khác, các ứng dụng Windows có thể in ra TIFF hay các dạng ảnh khác, mà ta có thể thực hành OCR với VietOCR hay FreeOCR. Trong những trường hợp ảnh tạo ra bởi virtual printer không đủ phẩm chất cho OCR, ta có thể dùng các công cụ chỉnh ảnh tiêu chuẩn, như GIMP hay ImageMagick, để tạo ra ảnh đạt yêu cầu của OCR engine. Một số công cụ ảnh này thậm chí còn có thể nhận vào PDF files và xuất ra các dạng ảnh thích hợp cho OCR.

Hình TIFF muốn được OCR cần quét ở độ phân giải từ 200 DPI (dot per inch) trở lên tới 400. Quét ảnh với độ phân giải cao hơn nữa chưa hẳn sẽ tăng sự chính xác của kết quả nhận dạng. Hiện tại, mức chính xác có thể lên trên 97% cho Tiếng Việt (ảnh thí nghiệm), và phiên bản tới của Tesseract có thể nâng cao độ nhận dạng hơn nữa. Dầu vậy, độ chính xác thực thụ vẫn còn tùy thuộc rất lớn vào phẩm chất của ảnh quét. Thông số cho quét ảnh tiêu biểu là 300 DPI và 1 bpp (bit per pixel) black&white hoặc 8 bpp grayscale dạng uncompressed TIFF.

Các lỗi nhận dạng có thể phân làm ba loại. Nhiều lỗi thường bị bởi do lẫn lộn chữ hoa và chữ thường (upper and lower) — ví dụ: hOa, nhắC — có thể dễ dàng sửa chữa sử dụng các chương trình Unicode text editor. Lỗi do sự xử lý không chính xác, gây ra các lỗi như thiếu sót dấu, lầm với ký tự có hình dáng tương tự, v.v… — huu – hưu, mang – marg, h0a – hoa, la – 1a, uhìu - nhìn. Đa số các lỗi này cũng có thể dễ dàng sửa chữa dùng các phần mềm duyệt chính tả.

Loại lỗi cuối cùng là khó phát hiện nhất bởi chúng liên quan đến ngữ nghĩa, semantics, có nghĩa là những chữ đánh vần đúng (tức là mục từ có trong tự điển), nhưng sai nghĩa trong ngữ cảnh (context) — ví dụ: tinh – tình, vân – vấn. Những lỗi này cần phải có người đọc duyệt lại và sửa theo bản gốc trong hình.

Sau đây là hướng dẫn cách sửa chữa 1 cách nhanh chóng và hiệu quả 2 loại lỗi đầu tiên, sử dụng chương trình VietPad (cả phiên bản Java và .NET). Quy trình có thể tóm tắt như sau:

Gom dòng. Các hàng chữ (line) cần được gom lại theo từng đoạn (paragraph), bởi khi được OCR, các hàng chữ đứng riêng trong các đoạn 1 hàng (1-line paragraph). Dùng tính năng Nối dòng trong menu Định dạng. Lưu ý rằng tác vụ này có thể không cần cho thi thơ.
Cũng trong menu Định dạng , bấm Đổi ngữ cách và chọn Chữ hoa đầu câu để sửa gần như tất cả các lỗi chữ hoa-thường. Hãy dò tìm và sửa các lỗi hoa-thường còn sót.
Sửa lỗi chính tả bằng tính năng Dò chính tả dưới menu Công cụ.

Qua các bước trên, hầu hết các lỗi thông thường sẽ được loại trừ. Những lỗi ngữ nghĩa semantic còn sót lại ít, nhưng đòi hỏi người duyệt đọc dò lại toàn bộ văn bản để được giống y như văn bản gốc quét, và toàn thiện nếu muốn.

Mọi thắc mắc và trao đổi mời các bạn tham gia Diễn Đàn VietUnicode.

Download phần mềm tại đây: Tesseract OCR

Hướng dẫn tập huấn Tesseract OCR nhận dạng chữ Việt:

Ứng dụng thực tế cho thấy Tesseract OCR engine rất nhạy cảm tới sự khác biệt trong hình dáng phông chữ. Cho chữ Quốc ngữ, nếu dáng phông khác với bốn phông được hỗ trợ, sự chính xác suy giảm hẳn. Bạn sẽ phải tập huấn cho font của bạn, mà quy trình hơi phức tạp chút nhưng được giải thích chi tiết trong trang Tesseract Wiki.

Tóm lược như sau:

bbTesseract

Để cộng đồng có thể hưởng lợi từ công lao của bạn, xin vui lòng gửi data files. Chúng sẽ được đăng trong VietOCR's Downloadpage. Hãy nhớ ghi tên của font mà bạn đã tập huấn cho, để người sử dụng biết phải load bộ data nào vào tessdata directory khi OCR văn bản của họ.

Theo dòng sự kiện

Xem tiếp...

Những tin mới hơn

Những tin cũ hơn

Giấy phép sử dụng NukeViet

Bản dịch tiếng Việt của Giấy phép Công cộng GNU Người dịch Đặng Minh Tuấn <dangtuan@vietkey.net> Đây là bản dịch tiếng Việt không chính thức của Giấy phép Công cộng GNU. Bản dịch này không phải do Tổ chức Phần mềm Tự do ấn hành, và nó không quy định về mặt pháp lý các điều khoản cho các phần...

Thăm dò ý kiến

Thống kê truy cập

Đang truy cập119
Máy chủ tìm kiếm16
Khách viếng thăm103
Hôm nay26,840
Tháng hiện tại335,306
Tổng lượt truy cập114,835,131

Thông tin mời thầu

Gói thầu số 02: Lập báo cáo nghiên cứu khả thi

Thứ ba - 14/07/2026 12:50
Số TBMT: IB2600369570-01. Bên mời thầu: . Đóng thầu: 08:45 01/08/26
Gói thầu số 02: Lập báo cáo nghiên cứu khả thi

Thứ ba - 14/07/2026 12:35
Số TBMT: IB2600369570-00. Bên mời thầu: . Đóng thầu: 08:45 01/08/26
Gói thầu số 03: Lập báo cáo nghiên cứu khả thi

Thứ ba - 14/07/2026 12:18
Số TBMT: IB2600369322-00. Bên mời thầu: . Đóng thầu: 08:15 01/08/26
(DVN-VT-2542/26-XL-TTH) Nhóm I - Vật tư làm sạch bề mặt - KMDD Project Dự án: EpCI dự án phát triển mỏ Khánh Mỹ Đầm Dơi

Thứ ba - 14/07/2026 12:13
Số TBMT: IB2600369687-00. Bên mời thầu: Liên doanh Việt-Nga Vietsovpetro. Đóng thầu: 09:00 24/07/26
Gói thầu số 01: Chỉnh lý tài liệu các cơ quan cấp tỉnh giai đoạn 2010-2025 và tài liệu của Ủy ban kiểm tra các cơ quan cấp huyện, thành ủy cũ đang lưu trữ tại Kho Lưu trữ lịch sử Tỉnh ủy

Thứ ba - 14/07/2026 12:09
Số TBMT: IB2600349027-00. Bên mời thầu: . Đóng thầu: 08:00 23/07/26
Gói thầu số 01: Thi công xây dựng công trình, Nâng cấp, cải tạo đường kết nối từ ĐT292 đi Trường mầm non Tiên Lục số 06

Thứ ba - 14/07/2026 11:52
Số TBMT: IB2600358536-01. Bên mời thầu: . Đóng thầu: 17:00 18/07/26
Mua vật tư thực hiện hoạt động chuyên ngành - Quân nhu

Thứ ba - 14/07/2026 11:44
Số TBMT: IB2600369672-00. Bên mời thầu: . Đóng thầu: 10:00 22/07/26
Gói thầu số 02: Tư vấn lập báo cáo nghiên cứu khả thi

Thứ ba - 14/07/2026 11:41
Số TBMT: IB2600366311-00. Bên mời thầu: . Đóng thầu: 08:30 01/08/26
Cung cấp vật tư sửa chữa tài sản năm 2026

Thứ ba - 14/07/2026 11:15
Số TBMT: IB2600369651-00. Bên mời thầu: . Đóng thầu: 08:12 23/07/26
Thi công xây dựng

Thứ ba - 14/07/2026 11:06
Số TBMT: IB2600367535-00. Bên mời thầu: . Đóng thầu: 09:00 23/07/26

Tin từ NukeViet.vn

Thông báo phát hành NukeViet 4.6.00
NukeViet 4.6.00 là phiên bản tiếp theo của NukeViet CMS dựa trên kế thừa các chức năng của dòng 4.5 và yêu cầu máy chủ hỗ trợ php 7.4 trở lên. Đây cũng là bản cập nhật bảo mật rất quan trọng được khuyến nghị cho toàn bộ người dùng.
Thông báo bảo mật dòng NukeViet 4.5.x
Dòng NukeViet 4.5.x đã bước vào giai đoạn duy trì cuối vòng đời. Trang này ghi nhận liên tục các vấn đề bảo mật và cách chúng tôi xử lý để giữ an toàn cho những website còn ở lại trên dòng 4.5.x đến tháng 7 năm 2027. Chúng tôi vẫn nỗ lực bảo vệ bạn ở mức tốt nhất có thể trên nền tảng này — nhưng nếu có điều kiện, hãy lên kế hoạch chuyển sang phiên bản mới hơn để được bảo vệ tận gốc.
Sinh viên ĐH Bách khoa Hà Nội giúp tìm ra lỗ hổng bảo mật của NukeViet
Nguyễn Quang Bằng, sinh viên năm 4 ngành Khoa học Máy tính tại Đại học Bách Khoa Hà Nội, vừa được nền tảng CMS mã nguồn mở NukeViet vinh danh sau khi phát hiện và báo cáo một lỗ hổng bảo mật nghiêm trọng.
Thông báo phát hành NukeViet 4.5.08
NukeViet 4.5.08 là Phiên bản tiếp theo của dòng NukeViet 4.5, đây là bản cập nhật bảo mật quan trong được đề xuất cho toàn bộ người dùng.
Thông tin chính thức về CVE-2025-8772, CVE-2024-36531 và CVE-2024-36528
Phản hồi chính thức của đội code về các lỗ hổng bảo mật mới của NukeViet CMS được công bố trong năm 2024-2025 và hướng dẫn bảo vệ an toàn cho website của bạn trước các nguy cơ khai thác hoặc tấn công khác.
Thông báo phát hành NukeViet 4.5.07
NukeViet 4.5.07 là Phiên bản tiếp theo của dòng NukeViet 4.5, trọng tâm là xử lý các vấn đề xoay quanh trình soạn thảo CKEditor 5 và tính năng block tùy chỉnh trong giao diện
Hướng dẫn tiếp tục sử dụng trình soạn thảo CKEditor 4 trên NukeViet 4.5 các phiên bản từ 4.5.07 về...
Từ NukeViet 4.5.07 các website cài mới hoặc nâng cấp lên đều được tự động gỡ bỏ CKEditor 4 để đảm bảo tối đa tính bảo mật lâu dài. Nếu bạn có nhiều module hoặc ứng dụng vẫn cần phải dùng nó mà không muốn nâng cấp có thể làm theo hướng dẫn này để tiếp tục sử dụng.

Kế hoạch lựa chọn nhà thầu

Mua sắm Ti vi phục vụ công tác dạy học của Trường Mầm non Tuổi Thơ

Thứ ba - 14/07/2026 12:53
Số KHLCNT: PL2600212699-00. Ngày đăng tải: 23:53 14/07/26
Kế hoạch lựa chọn nhà thầu nhiệm vụ Ứng dụng chuyển đổi số trong việc giới thiệu các mô hình, công nghệ, sản phẩm nông nghiệp ứng dụng công nghệ cao trong Khu Nông nghiệp Công nghệ cao

Thứ ba - 14/07/2026 12:50
Số KHLCNT: PL2600212693-00. Ngày đăng tải: 23:50 14/07/26
Kế hoạch lựa chọn nhà thầu mua sắm thiết bị, phương tiện làm việc cho Phòng Kinh tế xã Sơn Thuỷ

Thứ ba - 14/07/2026 12:47
Số KHLCNT: PL2600212698-00. Ngày đăng tải: 23:47 14/07/26
Kế hoạch lựa chọn nhà thầu dự án: Cải tạo, nâng cấp đường trục chính xã Minh Châu

Thứ ba - 14/07/2026 12:38
Số KHLCNT: PL2600212697-00. Ngày đăng tải: 23:38 14/07/26
Mua sắm bàn ghế học sinh bán trú

Thứ ba - 14/07/2026 12:36
Số KHLCNT: PL2600212696-00. Ngày đăng tải: 23:36 14/07/26

Nhận dạng chữ Việt với Tesseract OCR

Hướng dẫn tập huấn Tesseract OCR nhận dạng chữ Việt:

Giấy phép sử dụng NukeViet

Bạn biết gì về NukeViet 4?

Gói thầu số 02: Lập báo cáo nghiên cứu khả thi

Gói thầu số 02: Lập báo cáo nghiên cứu khả thi

Gói thầu số 03: Lập báo cáo nghiên cứu khả thi

(DVN-VT-2542/26-XL-TTH) Nhóm I - Vật tư làm sạch bề mặt - KMDD Project Dự án: EpCI dự án phát triển mỏ Khánh Mỹ Đầm Dơi

Gói thầu số 01: Chỉnh lý tài liệu các cơ quan cấp tỉnh giai đoạn 2010-2025 và tài liệu của Ủy ban kiểm tra các cơ quan cấp huyện, thành ủy cũ đang lưu trữ tại Kho Lưu trữ lịch sử Tỉnh ủy

Gói thầu số 01: Thi công xây dựng công trình, Nâng cấp, cải tạo đường kết nối từ ĐT292 đi Trường mầm non Tiên Lục số 06

Mua vật tư thực hiện hoạt động chuyên ngành - Quân nhu

Gói thầu số 02: Tư vấn lập báo cáo nghiên cứu khả thi

Cung cấp vật tư sửa chữa tài sản năm 2026

Thi công xây dựng

Thông báo phát hành NukeViet 4.6.00

Thông báo bảo mật dòng NukeViet 4.5.x

Sinh viên ĐH Bách khoa Hà Nội giúp tìm ra lỗ hổng bảo mật của NukeViet

Thông báo phát hành NukeViet 4.5.08

Thông tin chính thức về CVE-2025-8772, CVE-2024-36531 và CVE-2024-36528

Thông báo phát hành NukeViet 4.5.07

Hướng dẫn tiếp tục sử dụng trình soạn thảo CKEditor 4 trên NukeViet 4.5 các phiên bản từ 4.5.07 về...

Mua sắm Ti vi phục vụ công tác dạy học của Trường Mầm non Tuổi Thơ

Kế hoạch lựa chọn nhà thầu nhiệm vụ Ứng dụng chuyển đổi số trong việc giới thiệu các mô hình, công nghệ, sản phẩm nông nghiệp ứng dụng công nghệ cao trong Khu Nông nghiệp Công nghệ cao

Kế hoạch lựa chọn nhà thầu mua sắm thiết bị, phương tiện làm việc cho Phòng Kinh tế xã Sơn Thuỷ

Kế hoạch lựa chọn nhà thầu dự án: Cải tạo, nâng cấp đường trục chính xã Minh Châu

Mua sắm bàn ghế học sinh bán trú

Cổng thông tin Phòng giáo dục, Sở giáo dục

Tòa soạn báo điện tử chuyên nghiệp