Sau khi cài đặtTesseract, tải và giải nén Vietnamese language data pack cho Tesseract vào tesseract installation folder; các files vie. sẽ được đặt vào tessdatasubdirectory. Tesseract hiện tại chỉ có thể nhận dạng hình uncompressed TIFF. Để thực thi nhận dạng chữ OCR trên ảnh với Tesseract:
tesseract vietsample.tif output –l vie
Bộ Vietnamese language data được tạo cụ thể cho các font Times New Roman, Arial, Verdana, và Courier New. Do đó, việc nhận dạng sẽ có kết quả cao hơn cho các ảnh có font glyphs tương tự. OCR ảnh có font glyphs trông khác các font hỗ trợ thường thường sẽ đòi hỏitập huấn Tesseract để tạo một bộ language data khác cụ thể cho những mặt chữ đó.
Cập nhật: Thêm language data đã được tạo cho các kiểu font cũ Việt Nam, VNI and TCVN3 (ABC).
Có vài chương trình GUI frontend miễn phí cho Tesseract OCR engine: VietOCR, một ứng dụng open-source Java/.NET, cung cấp hỗ trợ quét văn bản và nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP; và FreeOCR là một chương trình .NET, thăng tiến Tesseract thêm ở phần quét vào văn bản và hỗ trợ nhận dạng compressed TIFF images.
Qua Microsoft Office Document Image Writer hay virtual printer driver khác, các ứng dụng Windows có thể in ra TIFF hay các dạng ảnh khác, mà ta có thể thực hành OCR với VietOCR hay FreeOCR. Trong những trường hợp ảnh tạo ra bởi virtual printer không đủ phẩm chất cho OCR, ta có thể dùng các công cụ chỉnh ảnh tiêu chuẩn, như GIMP hay ImageMagick, để tạo ra ảnh đạt yêu cầu của OCR engine. Một số công cụ ảnh này thậm chí còn có thể nhận vào PDF files và xuất ra các dạng ảnh thích hợp cho OCR.
Hình TIFF muốn được OCR cần quét ở độ phân giải từ 200 DPI (dot per inch) trở lên tới 400. Quét ảnh với độ phân giải cao hơn nữa chưa hẳn sẽ tăng sự chính xác của kết quả nhận dạng. Hiện tại, mức chính xác có thể lên trên 97% cho Tiếng Việt (ảnh thí nghiệm), và phiên bản tới của Tesseract có thể nâng cao độ nhận dạng hơn nữa. Dầu vậy, độ chính xác thực thụ vẫn còn tùy thuộc rất lớn vào phẩm chất của ảnh quét. Thông số cho quét ảnh tiêu biểu là 300 DPI và 1 bpp (bit per pixel) black&white hoặc 8 bpp grayscale dạng uncompressed TIFF.
Các lỗi nhận dạng có thể phân làm ba loại. Nhiều lỗi thường bị bởi do lẫn lộn chữ hoa và chữ thường (upper and lower) — ví dụ: hOa, nhắC — có thể dễ dàng sửa chữa sử dụng các chương trình Unicode text editor. Lỗi do sự xử lý không chính xác, gây ra các lỗi như thiếu sót dấu, lầm với ký tự có hình dáng tương tự, v.v… — huu – hưu, mang – marg, h0a – hoa, la – 1a, uhìu - nhìn. Đa số các lỗi này cũng có thể dễ dàng sửa chữa dùng các phần mềm duyệt chính tả.
Loại lỗi cuối cùng là khó phát hiện nhất bởi chúng liên quan đến ngữ nghĩa, semantics, có nghĩa là những chữ đánh vần đúng (tức là mục từ có trong tự điển), nhưng sai nghĩa trong ngữ cảnh (context) — ví dụ: tinh – tình, vân – vấn. Những lỗi này cần phải có người đọc duyệt lại và sửa theo bản gốc trong hình.
Sau đây là hướng dẫn cách sửa chữa 1 cách nhanh chóng và hiệu quả 2 loại lỗi đầu tiên, sử dụng chương trình VietPad (cả phiên bản Java và .NET). Quy trình có thể tóm tắt như sau:
Qua các bước trên, hầu hết các lỗi thông thường sẽ được loại trừ. Những lỗi ngữ nghĩa semantic còn sót lại ít, nhưng đòi hỏi người duyệt đọc dò lại toàn bộ văn bản để được giống y như văn bản gốc quét, và toàn thiện nếu muốn.
Mọi thắc mắc và trao đổi mời các bạn tham gia Diễn Đàn VietUnicode.
Download phần mềm tại đây: Tesseract OCR
Ứng dụng thực tế cho thấy Tesseract OCR engine
rất nhạy cảm tới sự khác biệt trong hình dáng phông chữ. Cho chữ Quốc
ngữ, nếu dáng phông khác với bốn phông được hỗ trợ, sự chính xác suy
giảm hẳn. Bạn sẽ phải tập huấn cho font của bạn, mà quy trình hơi phức
tạp chút nhưng được giải thích chi tiết trong trang Tesseract Wiki.
Tóm lược như sau:
Tên gọi: NukeViet phát âm là [Nu-Ke-Việt], đây là cách đọc riêng, không phải là cách phát âm chuẩn của tiếng Anh. Ý nghĩa: NukeViet là từ ghép từ chữ Nuke và Việt Nam. Sở dĩ có tên gọi này là vì phiên bản 1.0 và 2.0 của NukeViet được phát triển từ mã nguồn mở PHP-Nuke. Mặc dù từ phiên bản 3.0,...
Thứ hai - 06/01/2025 05:45
Số TBMT: IB2500005678-00. Bên mời thầu: Ban Quản lý dự án đầu tư xây dựng và Phát triển quỹ đất thành phố Tuy Hòa. Đóng thầu: 09:00 24/01/25Thứ hai - 06/01/2025 05:44
Số TBMT: IB2500006793-00. Bên mời thầu: Lữ đoàn 5/Binh chủng Đặc công. Đóng thầu: 10:30 15/01/25Thứ hai - 06/01/2025 05:44
Số TBMT: IB2500006977-00. Bên mời thầu: Bộ Tham Mưu - Binh Chủng Hoá Học. Đóng thầu: 07:00 11/01/25Thứ hai - 06/01/2025 05:44
Số TBMT: IB2500006544-00. Bên mời thầu: Lữ đoàn 5/Binh chủng Đặc công. Đóng thầu: 07:00 24/01/25Thứ hai - 06/01/2025 05:43
Số TBMT: IB2500003397-00. Bên mời thầu: CÔNG TY TNHH QUẢN LÝ ĐẦU TƯ VÀ TƯ VẤN KỸ THUẬT VIỆT NAM. Đóng thầu: 17:45 11/01/25Thứ hai - 06/01/2025 05:42
Số TBMT: IB2500003477-01. Bên mời thầu: CÔNG TY TRÁCH NHIỆM HỮU HẠN MỘT THÀNH VIÊN XÂY DỰNG NGUYỄN PHI DŨNG. Đóng thầu: 15:00 22/01/25Thứ hai - 06/01/2025 05:42
Số TBMT: IB2500001337-00. Bên mời thầu: Công ty TNHH tư vấn và xây dựng Đức Tài Tâm Đạt. Đóng thầu: 08:00 14/01/25Thứ hai - 06/01/2025 05:39
Số TBMT: IB2500004975-00. Bên mời thầu: CÔNG TY TNHH TƯ VẤN XÂY DỰNG THƯƠNG MẠI TTNT. Đóng thầu: 08:00 11/01/25Thứ hai - 06/01/2025 05:34
Số TBMT: IB2500006832-00. Bên mời thầu: Văn phòng HĐND – UBND Thành phố Đồng Hới. Đóng thầu: 08:00 11/01/25Thứ hai - 06/01/2025 05:33
Số TBMT: IB2500005194-00. Bên mời thầu: HUYỆN ỦY ĐẮK GLONG. Đóng thầu: 10:00 11/01/25Thứ hai - 06/01/2025 09:16
Số KHLCNT: PL2500003002-00. Chủ đầu tư: Ban Quản lý dự án huyện Tam Đường tỉnh Lai Châu. Ngày đăng tải: 21:16 06/01/25Thứ hai - 06/01/2025 09:13
Số KHLCNT: PL2400322585-01. Chủ đầu tư: Công ty Điện lực Hà Tĩnh - Chi nhánh Tổng công ty Điện lực miền Bắc. Ngày đăng tải: 21:13 06/01/25Thứ hai - 06/01/2025 09:12
Số KHLCNT: PL2500002412-01. Chủ đầu tư: Tiểu đoàn căn cứ sân bay Vinh. Ngày đăng tải: 21:12 06/01/25Thứ hai - 06/01/2025 09:12
Số KHLCNT: PL2500002999-00. Chủ đầu tư: Phòng Nông nghiệp và Phát triển nông thôn huyện Phù Cừ. Ngày đăng tải: 21:12 06/01/25Thứ hai - 06/01/2025 09:11
Số KHLCNT: PL2500003001-00. Chủ đầu tư: TRƯỜNG QUÂN SỰ BỘ TƯ LỆNH THỦ ĐÔ HÀ NỘI. Ngày đăng tải: 21:11 06/01/25