Nhận dạng chữ Việt với Tesseract OCR

Chủ nhật - 27/12/2009 15:38

Trước đây, chúng ta hầu như chỉ biết đến phần mềm VnDOCR như một phần mềm nhận dạng chữ Việt duy nhất. Tuy nhiên VnDOCR có tiền bản quyền khá cao. Nay mangvn.org xin giới thiệu tới các bạn giải pháp nhận dạng chữ Việt bằng phần mềm Tesseract OCR và VietORC. Đây là phần mềm mã nguồn mở hoàn toàn miễn phí có thể nhận dạng nhiều loại ngôn ngữ bao gồm cả chữ Việt. Đặc biệt bạn có thể tự huấn luyện để phần mềm nhận dạng chính xác các font chữ lạ.

Sau khi cài đặtTesseract, tải và giải nén Vietnamese language data pack cho Tesseract vào tesseract installation folder; các files vie. sẽ được đặt vào tessdatasubdirectory. Tesseract hiện tại chỉ có thể nhận dạng hình uncompressed TIFF. Để thực thi nhận dạng chữ OCR trên ảnh với Tesseract:

tesseract vietsample.tif output –l vie

Bộ Vietnamese language data được tạo cụ thể cho các font Times New Roman, Arial, Verdana, và Courier New. Do đó, việc nhận dạng sẽ có kết quả cao hơn cho các ảnh có font glyphs tương tự. OCR ảnh có font glyphs trông khác các font hỗ trợ thường thường sẽ đòi hỏitập huấn Tesseract để tạo một bộ language data khác cụ thể cho những mặt chữ đó.

Cập nhật: Thêm language data đã được tạo cho các kiểu font cũ Việt Nam, VNI and TCVN3 (ABC).

Có vài chương trình GUI frontend miễn phí cho Tesseract OCR engine: VietOCR, một ứng dụng open-source Java/.NET, cung cấp hỗ trợ quét văn bản và nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP; và FreeOCR là một chương trình .NET, thăng tiến Tesseract thêm ở phần quét vào văn bản và hỗ trợ nhận dạng compressed TIFF images.

Qua Microsoft Office Document Image Writer hay virtual printer driver khác, các ứng dụng Windows có thể in ra TIFF hay các dạng ảnh khác, mà ta có thể thực hành OCR với VietOCR hay FreeOCR. Trong những trường hợp ảnh tạo ra bởi virtual printer không đủ phẩm chất cho OCR, ta có thể dùng các công cụ chỉnh ảnh tiêu chuẩn, như GIMP hay ImageMagick, để tạo ra ảnh đạt yêu cầu của OCR engine. Một số công cụ ảnh này thậm chí còn có thể nhận vào PDF files và xuất ra các dạng ảnh thích hợp cho OCR.

Hình TIFF muốn được OCR cần quét ở độ phân giải từ 200 DPI (dot per inch) trở lên tới 400. Quét ảnh với độ phân giải cao hơn nữa chưa hẳn sẽ tăng sự chính xác của kết quả nhận dạng. Hiện tại, mức chính xác có thể lên trên 97% cho Tiếng Việt (ảnh thí nghiệm), và phiên bản tới của Tesseract có thể nâng cao độ nhận dạng hơn nữa. Dầu vậy, độ chính xác thực thụ vẫn còn tùy thuộc rất lớn vào phẩm chất của ảnh quét. Thông số cho quét ảnh tiêu biểu là 300 DPI và 1 bpp (bit per pixel) black&white hoặc 8 bpp grayscale dạng uncompressed TIFF.

Các lỗi nhận dạng có thể phân làm ba loại. Nhiều lỗi thường bị bởi do lẫn lộn chữ hoa và chữ thường (upper and lower) — ví dụ: hOa, nhắC — có thể dễ dàng sửa chữa sử dụng các chương trình Unicode text editor. Lỗi do sự xử lý không chính xác, gây ra các lỗi như thiếu sót dấu, lầm với ký tự có hình dáng tương tự, v.v… — huu – hưu, mang – marg, h0a – hoa, la – 1a, uhìu - nhìn. Đa số các lỗi này cũng có thể dễ dàng sửa chữa dùng các phần mềm duyệt chính tả.

Loại lỗi cuối cùng là khó phát hiện nhất bởi chúng liên quan đến ngữ nghĩa, semantics, có nghĩa là những chữ đánh vần đúng (tức là mục từ có trong tự điển), nhưng sai nghĩa trong ngữ cảnh (context) — ví dụ: tinh – tình, vân – vấn. Những lỗi này cần phải có người đọc duyệt lại và sửa theo bản gốc trong hình.

Sau đây là hướng dẫn cách sửa chữa 1 cách nhanh chóng và hiệu quả 2 loại lỗi đầu tiên, sử dụng chương trình VietPad (cả phiên bản Java và .NET). Quy trình có thể tóm tắt như sau:

Gom dòng. Các hàng chữ (line) cần được gom lại theo từng đoạn (paragraph), bởi khi được OCR, các hàng chữ đứng riêng trong các đoạn 1 hàng (1-line paragraph). Dùng tính năng Nối dòng trong menu Định dạng. Lưu ý rằng tác vụ này có thể không cần cho thi thơ.
Cũng trong menu Định dạng , bấm Đổi ngữ cách và chọn Chữ hoa đầu câu để sửa gần như tất cả các lỗi chữ hoa-thường. Hãy dò tìm và sửa các lỗi hoa-thường còn sót.
Sửa lỗi chính tả bằng tính năng Dò chính tả dưới menu Công cụ.

Qua các bước trên, hầu hết các lỗi thông thường sẽ được loại trừ. Những lỗi ngữ nghĩa semantic còn sót lại ít, nhưng đòi hỏi người duyệt đọc dò lại toàn bộ văn bản để được giống y như văn bản gốc quét, và toàn thiện nếu muốn.

Mọi thắc mắc và trao đổi mời các bạn tham gia Diễn Đàn VietUnicode.

Download phần mềm tại đây: Tesseract OCR

Hướng dẫn tập huấn Tesseract OCR nhận dạng chữ Việt:

Ứng dụng thực tế cho thấy Tesseract OCR engine rất nhạy cảm tới sự khác biệt trong hình dáng phông chữ. Cho chữ Quốc ngữ, nếu dáng phông khác với bốn phông được hỗ trợ, sự chính xác suy giảm hẳn. Bạn sẽ phải tập huấn cho font của bạn, mà quy trình hơi phức tạp chút nhưng được giải thích chi tiết trong trang Tesseract Wiki.

Tóm lược như sau:

bbTesseract

Để cộng đồng có thể hưởng lợi từ công lao của bạn, xin vui lòng gửi data files. Chúng sẽ được đăng trong VietOCR's Downloadpage. Hãy nhớ ghi tên của font mà bạn đã tập huấn cho, để người sử dụng biết phải load bộ data nào vào tessdata directory khi OCR văn bản của họ.

Theo dòng sự kiện

Xem tiếp...

Những tin mới hơn

Những tin cũ hơn

Giấy phép sử dụng NukeViet

Bản dịch tiếng Việt của Giấy phép Công cộng GNU Người dịch Đặng Minh Tuấn <dangtuan@vietkey.net> Đây là bản dịch tiếng Việt không chính thức của Giấy phép Công cộng GNU. Bản dịch này không phải do Tổ chức Phần mềm Tự do ấn hành, và nó không quy định về mặt pháp lý các điều khoản cho các phần...

Thăm dò ý kiến

Thống kê truy cập

Đang truy cập127
Máy chủ tìm kiếm9
Khách viếng thăm118
Hôm nay13,701
Tháng hiện tại13,701
Tổng lượt truy cập115,283,114

Thông tin mời thầu

Thi công xây dựng

Thứ bảy - 01/08/2026 01:00
Số TBMT: IB2600408629-00. Bên mời thầu: . Đóng thầu: 09:00 10/08/26
Xây lắp (bao gồm chi phí: nhà tạm để ở và điều hành thi công, đảm bảo an toàn giao thông, dự phòng)

Thứ bảy - 01/08/2026 00:50
Số TBMT: IB2600411019-00. Bên mời thầu: . Đóng thầu: 09:00 19/08/26
Xây lắp

Thứ bảy - 01/08/2026 00:44
Số TBMT: IB2600416746-00. Bên mời thầu: . Đóng thầu: 14:00 19/08/26
Xây lắp: Thi công xây dựng

Thứ bảy - 01/08/2026 00:42
Số TBMT: IB2600417123-00. Bên mời thầu: . Đóng thầu: 14:00 19/08/26
Xây lắp: Thi công xây dựng

Thứ bảy - 01/08/2026 00:40
Số TBMT: IB2600417159-00. Bên mời thầu: . Đóng thầu: 14:00 19/08/26
Gói thầu số 01: Thi công xây dựng công trình

Thứ bảy - 01/08/2026 00:39
Số TBMT: IB2600417345-00. Bên mời thầu: . Đóng thầu: 10:10 10/08/26
Gói thầu số 03: Thi công xây dựng và đảm bảo ATGT

Thứ bảy - 01/08/2026 00:36
Số TBMT: IB2600416951-00. Bên mời thầu: . Đóng thầu: 09:00 10/08/26
Gói thầu số 03: Thi công xây dựng và đảm bảo ATGT

Thứ bảy - 01/08/2026 00:34
Số TBMT: IB2600416972-00. Bên mời thầu: . Đóng thầu: 09:00 10/08/26
Gói thầu số 03: Thi công xây dựng và đảm bảo ATGT

Thứ bảy - 01/08/2026 00:31
Số TBMT: IB2600416986-00. Bên mời thầu: . Đóng thầu: 09:00 10/08/26
Gói thầu số 05: Thi công xây dựng công trình Xây dựng kè chống sạt lở suối V20, xã Cát Tiên 3 (đoạn qua trung tâm xã Tiên Hoàng cũ)

Thứ bảy - 01/08/2026 00:28
Số TBMT: IB2600415832-00. Bên mời thầu: . Đóng thầu: 10:30 10/08/26

Tin từ NukeViet.vn

Cộng đồng nghiên cứu bảo mật đồng hành cùng NukeViet bảo vệ hạ tầng số Việt Nam
Ngày càng nhiều sinh viên, nhà nghiên cứu và chuyên gia an toàn thông tin lựa chọn đồng hành cùng NukeViet trong việc phát hiện, báo cáo và khắc phục các lỗ hổng bảo mật. Những đóng góp đó không chỉ giúp hoàn thiện một dự án mã nguồn mở Việt Nam mà còn góp phần bảo vệ hàng nghìn website của cơ quan, tổ chức và doanh nghiệp đang vận hành trên nền tảng này.
Thông báo phát hành NukeViet 4.6.00
NukeViet 4.6.00 là phiên bản tiếp theo của NukeViet CMS dựa trên kế thừa các chức năng của dòng 4.5 và yêu cầu máy chủ hỗ trợ php 7.4 trở lên. Đây cũng là bản cập nhật bảo mật rất quan trọng được khuyến nghị cho toàn bộ người dùng.
Thông báo bảo mật dòng NukeViet 4.5.x
Dòng NukeViet 4.5.x đã bước vào giai đoạn duy trì cuối vòng đời. Trang này ghi nhận liên tục các vấn đề bảo mật và cách chúng tôi xử lý để giữ an toàn cho những website còn ở lại trên dòng 4.5.x đến tháng 7 năm 2027. Chúng tôi vẫn nỗ lực bảo vệ bạn ở mức tốt nhất có thể trên nền tảng này — nhưng nếu có điều kiện, hãy lên kế hoạch chuyển sang phiên bản mới hơn để được bảo vệ tận gốc.
Sinh viên ĐH Bách khoa Hà Nội giúp tìm ra lỗ hổng bảo mật của NukeViet
Nguyễn Quang Bằng, sinh viên năm 4 ngành Khoa học Máy tính tại Đại học Bách Khoa Hà Nội, vừa được nền tảng CMS mã nguồn mở NukeViet vinh danh sau khi phát hiện và báo cáo một lỗ hổng bảo mật nghiêm trọng.
Thông báo phát hành NukeViet 4.5.08
NukeViet 4.5.08 là Phiên bản tiếp theo của dòng NukeViet 4.5, đây là bản cập nhật bảo mật quan trong được đề xuất cho toàn bộ người dùng.
Thông tin chính thức về CVE-2025-8772, CVE-2024-36531 và CVE-2024-36528
Phản hồi chính thức của đội code về các lỗ hổng bảo mật mới của NukeViet CMS được công bố trong năm 2024-2025 và hướng dẫn bảo vệ an toàn cho website của bạn trước các nguy cơ khai thác hoặc tấn công khác.
Thông báo phát hành NukeViet 4.5.07
NukeViet 4.5.07 là Phiên bản tiếp theo của dòng NukeViet 4.5, trọng tâm là xử lý các vấn đề xoay quanh trình soạn thảo CKEditor 5 và tính năng block tùy chỉnh trong giao diện

Kế hoạch lựa chọn nhà thầu

Kế hoạch lựa chọn nhà thầu giai đoạn chuẩn bị đầu tư dự án: Khắc phục Tuyến đường đi nhà ông 7 Chi

Thứ bảy - 01/08/2026 00:58
Số KHLCNT: PL2600239744-00. Ngày đăng tải: 11:58 01/08/26
Mái che sân Trường Tiểu học Vĩnh Hùng, xã Biện Thượng

Thứ bảy - 01/08/2026 00:56
Số KHLCNT: PL2600239745-00. Ngày đăng tải: 11:56 01/08/26
Mua thuốc chữa bệnh cho phạm nhân Trại giam Vĩnh Quang năm 2026

Thứ bảy - 01/08/2026 00:53
Số KHLCNT: PL2600239738-00. Ngày đăng tải: 11:53 01/08/26
Kế hoạch lựa chọn nhà thầu giai đoạn chuẩn bị đầu tư dự án: Khắc phục đường Đội 6 Phước Hòa đi Lò Gạch

Thứ bảy - 01/08/2026 00:52
Số KHLCNT: PL2600239740-00. Ngày đăng tải: 11:52 01/08/26
Kế hoạch lựa chọn nhà thầu dự án: Xây dựng mới dãy nhà lớp học 3 tầng Trường tiểu học Đằng Lâm, phường Hải An

Thứ bảy - 01/08/2026 00:52
Số KHLCNT: PL2600239559-00. Ngày đăng tải: 11:52 01/08/26

Nhận dạng chữ Việt với Tesseract OCR

Hướng dẫn tập huấn Tesseract OCR nhận dạng chữ Việt:

Giấy phép sử dụng NukeViet

Bạn biết gì về NukeViet 4?

Thi công xây dựng

Xây lắp (bao gồm chi phí: nhà tạm để ở và điều hành thi công, đảm bảo an toàn giao thông, dự phòng)

Xây lắp

Xây lắp: Thi công xây dựng

Xây lắp: Thi công xây dựng

Gói thầu số 01: Thi công xây dựng công trình

Gói thầu số 03: Thi công xây dựng và đảm bảo ATGT

Gói thầu số 03: Thi công xây dựng và đảm bảo ATGT

Gói thầu số 03: Thi công xây dựng và đảm bảo ATGT

Gói thầu số 05: Thi công xây dựng công trình Xây dựng kè chống sạt lở suối V20, xã Cát Tiên 3 (đoạn qua trung tâm xã Tiên Hoàng cũ)

Cộng đồng nghiên cứu bảo mật đồng hành cùng NukeViet bảo vệ hạ tầng số Việt Nam

Thông báo phát hành NukeViet 4.6.00

Thông báo bảo mật dòng NukeViet 4.5.x

Sinh viên ĐH Bách khoa Hà Nội giúp tìm ra lỗ hổng bảo mật của NukeViet

Thông báo phát hành NukeViet 4.5.08

Thông tin chính thức về CVE-2025-8772, CVE-2024-36531 và CVE-2024-36528

Thông báo phát hành NukeViet 4.5.07

Kế hoạch lựa chọn nhà thầu giai đoạn chuẩn bị đầu tư dự án: Khắc phục Tuyến đường đi nhà ông 7 Chi

Mái che sân Trường Tiểu học Vĩnh Hùng, xã Biện Thượng

Mua thuốc chữa bệnh cho phạm nhân Trại giam Vĩnh Quang năm 2026

Kế hoạch lựa chọn nhà thầu giai đoạn chuẩn bị đầu tư dự án: Khắc phục đường Đội 6 Phước Hòa đi Lò Gạch

Kế hoạch lựa chọn nhà thầu dự án: Xây dựng mới dãy nhà lớp học 3 tầng Trường tiểu học Đằng Lâm, phường Hải An

Cổng thông tin doanh nghiệp

Tòa soạn báo điện tử chuyên nghiệp