VietOCR 1.5: Nhận dạng ký tự tiếng Việt một cách hoàn hảo.

Chủ nhật - 27/12/2009 16:20

Sau nhiều lần nâng cấp, phiên bản mới của VietOCR (xây dựng trên nền Tesseract OCR) đã có thêm nhiều tính năng đáng giá như: hỗ trợ chế độ quét tích hợp, nhận dạng ký tự tiếng Việt trên nhiều dạng ảnh (bmp, jpg, tiff, png), hỗ trợ các tài liệu ảnh nhiều trang và cơ chế xử lý hậu kỳ, giúp khắc phục một số lỗi về ngữ nghĩa, chính tả sau khi xử lý.

chương trình hoàn toàn miễn phí. Dung lượng: 4,2MB. Tải tại đây: http://mangvn.org/nukeviet/modules.php?name=Files&go=view_file&lid=1450

So với một số phần mềm nhận dạng văn bản tiếng Việt như: VnDOCR, VietOCR thuộc vào hàng “ngon, bổ” và miễn phí. Tốc độ biên dịch nội dung nhanh, giao diện đơn giản, dễ sử dụng và mức độ chính xác có thể đạt hơn 80%.

VietOCR bao gồm hai phiên bản: phiên bản GUI Form chạy trên Windows (hỗ trợ cả 32/64bit) và phiên bản Swing GUI (sử dụng Java) có thể hoạt động trên nhiều hệ điều hành khác nhau như: Windows, Linux,…

VietOCR có thể sử dụng như một trình nhận dạng ký tự quang học độc lập (xử lý các file ảnh, dữ liệu sẵn có) hoặc kết hợp với chức năng quét để xử lý các tài liệu được nạp từ bên ngoài.

Thao tác xử lý văn bản được chia thành các loại:

1. Nhận dạng tài liệu ảnh:

Thông thường khi quét xong một tài liệu văn bản, file thu được sẽ được lưu dưới dạng một tài liệu ảnh và không thể xử lý (xoá text, nhập liệu, chỉnh sửa nội dung,…) như ban đầu. VietOCR sẽ có nhiệm vụ chuyển đổi các tài liệu này sang văn bản để bạn có thể xử lý dễ dàng. VietOCR hỗ trợ khá nhiều định dạng ảnh như: jpg, bmp, png, tiff, tuy nhiên không hỗ trợ định dạng gif.

Để sử dụng chương trình, bạn cần cài đặt thêm gói Visual C++ 2008 SP1 (nếu chưa cài đặt vào hệ thống), sau đó truy cập menu File > Open, trong phần File of types bạn chọn là All Image Files và nạp vào file văn bản cần xử lý. Xong, nhấn nút Open.

Tiếp đến, trên giao diện chính, bạn sẽ nhìn thấy hai khu vực: khu vực nằm bên trái chứa nội dung của file tài liệu vừa mới thêm vào, khung bên phải sẽ là tài liệu sau khi trích xuất từ file ảnh. Khi phần nội dung đã được nạp xong, bạn nhấn đề mục OCR Language (góc trên bên phải màn hình) và chọn Vietnamese. Sau đó, nhấn nút OCRđể bắt đầu quá trình biên dịch nội dung, tốc độ nhanh hay chậm còn tùy thuộc vào độ dài, ngắn của văn bản và tốc độ xử lý của máy tính.

Sau khi biên dịch xong, bạn sẽ có ngay phần dữ liệu dạng text, có thể xoá hay thay đổi một cách dễ dàng. Một điểm hay của VietOCR, đó là khả năng tích hợp bộ gõ tiếng Việt (hoạt động dựa trên bộ gõ Unikey), cho phép bạn dễ dàng thay đổi nội dung văn bản có dấu mà không cần bộ gõ Unikey thường trực nơi khay hệ thống. Để định bộ gõ trong VietOCR, bạn truy cập menu Settings > Viet Input Method và chọn một trong các kiểu gõ: VNI, Telex, VIQR với Font mặc định là Unicode được tích hợp sẵn.

Trường hợp chỉ muốn nhận dạng riêng một khu vực nào đó, bạn giữ trái chuột và rê vào vùng văn bản mà bạn muốn trích xuất. Khi đó, chỉ nội dung của vùng này sẽ được hiển thị bên khung phải màn hình. Nếu muốn biên dịch tài liệu nhiều trang, bạn truy cập menu Command > OCR All Pages.

Để “thử” kiểm tra khả năng nhận diện văn bản của chương trình trên các định dạng khác nhau, người viết đã sử dụng thư viện mẫu văn bản có sẵn (C:\Program Files\VietUnicode\VietOCR.NET\samples) và dùng chương trình MS Paint của Windows để lưu lại thành các định dạng khác nhau như: PNG, JPG và BMP (256 bit) từ file gốc có định dạng .TIFF

Kết quả, cả ba trường hợp đều nhận dạng được văn bản khá chuẩn xác. Tuy nhiên một số dấu câu chưa đúng và một vài từ vẫn còn sai chính tả, không rõ nghĩa nhưng mức độ biên dịch so với bản gốc là khá chuẩn.

2. Cài đặt máy quét:

Nếu nhu cầu của bạn là xử lý các tài liệu bên ngoài thông qua hệ thống quét của chương trình, nhất thiết bạn phải cài đặt thêm máy quét. Để làm việc này, bạn truy cập vào thư mục cài đặt của VietOCR, tìm và sao chép file WIAAut.dll(C:\Program Files\VietUnicode\VietOCR.NET) vào thư mục C:\Windows\System32.

Sau đó, bạn vào Start > Run, gõ lệnh regsvr32 C:\Windows\System32\WIAAut.dllđể đăng ký thư viện này với Windows. Khi đăng ký xong, bạn cài driver cho máy quét và bắt đầu tiến trình xử lý văn bản như trên.

Lưu ý:

- Trong quá trình biên dịch, đôi lúc bạn sẽ gặp phải thông báo lỗi Attemp to read or write protected memory, một trong những nguyên nhân gây ra lỗi này là do văn bản đã định sai hướng (lệch hướng đi, thay vì nằm ngang, văn bản đã chuyển sang hướng đứng), bạn chỉ việc nhấn nút Rotate vài lần cho đúng hướng là xong.

- Nếu không có máy quét và bạn vẫn muốn “trải nghiệm” tính năng của phần mềm, bạn có thể tải tiện ích ImagePrinter, giúp bạn chuyển đổi bất kỳ tài liệu nào sang bốn định dạng hỗ trợ sẵn của chương trình (bmp, png, tiff, jpg). Trường hợp nếu muốn chuyển giao diện chương trình sang tiếng Việt, bạn truy cập menu Settings > User Interface Language, chọn Vietnamese.

Cũng tương tự quá trình nhận dạng tài liệu ảnh ở trên, trong trường hợp này tài liệu quét sẽ được chia thành hai dạng để kiểm tra: dạng văn bản thuần (text) và văn bản kèm hình ảnh. Quá trình xử lý và biên dịch được thực hiện như bước 1. Kết quả chương trình nhận dạng tốt với các văn bản thuần và gặp phải tình trạng lỗi OCR Operation với các tài liệu có kèm hình ảnh. Việc thực hiện này cũng xảy ra với các định dạng khác.

Một điều lưu ý với các bạn, để quá trình nhận dạng ảnh được chính xác, độ phân giải của bản quét phải đạt chuẩn 300dpi, không mờ, càng sạch và rõ càng tốt.

3. Xử lý tài liệu PDF:

Ngoài khả năng nhận dạng các tài liệu ảnh, VietOCR còn có khả năng xử lý các tài liệu PDF. Để có thể sử dụng được tính năng này trong VietOCR, bạn cần cài đặt thêm gói GPL GhostScript 8.7. Sau khi cài xong, bạn thực hiện việc xử lý tương tự các bước trên (với các tài liệu PDF có chứa hình ảnh, kết quả vẫn bị lỗi như trường hợp hai).

Nhìn chung, VietOCR có khả năng xử lý văn bản tiếng Việt tốt, độ chính xác khá cao và tương thích với nhiều định dạng ảnh khác nhau trong điều kiện văn bản thuần (không chứa hình ảnh), bạn có thể dùng văn bản sau khi xử lý để phục vụ cho công việc mà không phải tốn thời gian chỉnh sửa nhiều.

Nguồn tin: Báo Tuổi Trẻ Online/ HUY TRẦN - ECHIP

Theo dòng sự kiện

Xem tiếp...

Những tin mới hơn

Những tin cũ hơn

Giới thiệu về NukeViet

Giới thiệu khái quát NukeViet là một ứng dụng trên nền web có thể sử dụng vào nhiều mục đích khác nhau. Phiên bản đang được phát hành theo giấy phép phần mềm tự do nguồn mở có tên gọi đầy đủ là NukeViet CMS gồm 2 phần chính là phần nhân (core) của hệ thống NukeViet và nhóm chức năng quản trị nội...

Thăm dò ý kiến

Thống kê truy cập

Đang truy cập84
Máy chủ tìm kiếm19
Khách viếng thăm65
Hôm nay12,952
Tháng hiện tại83,066
Tổng lượt truy cập105,236,768

Thông tin mời thầu

Gói thầu số 95: Mua sắm hộp công tơ các loại

Thứ hai - 04/08/2025 02:27
Số TBMT: IB2500334520-00. Bên mời thầu: Công ty Điện lực Đà Nẵng - Chi nhánh Tổng công ty Điện lực miền Trung. Đóng thầu: 14:00 11/08/25
Sửa chữa biển hiệu các đơn vị trực thuộc Công ty Điện lực Hưng Yên (khu vực 1) năm 2025

Thứ hai - 04/08/2025 02:24
Số TBMT: IB2500334519-00. Bên mời thầu: CÔNG TY ĐIỆN LỰC HƯNG YÊN - CHI NHÁNH TỔNG CÔNG TY ĐIỆN LỰC MIỀN BẮC. Đóng thầu: 16:00 13/08/25
Sửa chữa kết cấu nhà xưởng; Sửa chữa và trung tu thiết bị các xí nghiệp Supe

Thứ hai - 04/08/2025 02:21
Số TBMT: IB2500333028-00. Bên mời thầu: CÔNG TY CỔ PHẦN SUPE PHỐT PHÁT VÀ HOÁ CHẤT LÂM THAO. Đóng thầu: 13:00 13/08/25
Mua sắm phụ kiện thay thế dùng cho thiết bị y tế tại Bệnh viện Đa khoa tỉnh Ninh Bình đợt 01 năm 2025

Thứ hai - 04/08/2025 00:45
Số TBMT: IB2500332977-00. Bên mời thầu: Bệnh viện đa khoa tỉnh Ninh Bình. Đóng thầu: 16:30 08/08/25
Gói thầu số 2: Mua sắm trang thiết bị thực hiện lộ trình đổi mới chương trình, sách giáo khoa cấp Tiểu học, Trung học cơ sở của Trường TH&THCS Hồng Hạ

Thứ hai - 04/08/2025 00:34
Số TBMT: IB2500334341-00. Bên mời thầu: Trường Tiểu học và Trung học Cơ sở Hồng Hạ. Đóng thầu: 09:00 09/08/25
DV-2778/25-KT-DA-TTH_Khóa Đào tạo nâng cao về các thiết bị phòng nổ cho các công trình dầu khí

Thứ hai - 04/08/2025 00:32
Số TBMT: IB2500334437-00. Bên mời thầu: Liên doanh Việt-Nga Vietsovpetro. Đóng thầu: 09:00 14/08/25
Cung cấp vật tư, hóa chất, công cụ - dụng cụ cho các dự án dịch vụ cho mỏ Cá Tầm thuộc lô 09-3/12, năm 2025

Thứ hai - 04/08/2025 00:32
Số TBMT: IB2500334438-00. Bên mời thầu: Liên doanh Việt-Nga Vietsovpetro. Đóng thầu: 09:00 14/08/25
Gói thầu 01: Xây lắp và cung cấp VTTB

Thứ hai - 04/08/2025 00:31
Số TBMT: IB2500332177-00. Bên mời thầu: CÔNG TY ĐIỆN LỰC HẢI PHÒNG - CHI NHÁNH TỔNG CÔNG TY ĐIỆN LỰC MIỀN BẮC. Đóng thầu: 10:00 13/08/25
Gói thầu số 1: Tư vấn khảo sát, lập TK BVTC-DT

Thứ hai - 04/08/2025 00:26
Số TBMT: IB2500333442-00. Bên mời thầu: Ban quản lý dự án ODA Quảng Trạch. Đóng thầu: 09:00 22/08/25
Trang bị đồng phục cho CBCNV năm 2025

Thứ hai - 04/08/2025 00:19
Số TBMT: IB2500305788-01. Bên mời thầu: Bưu điện tỉnh Quảng Ngãi. Đóng thầu: 08:00 08/08/25

Tin từ NukeViet.vn

[Mời thầu] Gói thầu số 08: Mua sắm trang thiết bị, phần mềm đào tạo, thiết bị phục vụ học tập
Ban Quản lý dự án đầu tư xây dựng các công trình dân dụng và công nghiệp tỉnh Quảng Ngãi đang thực hiện mời thầu cho gói thầu “Gói thầu số 08: Mua sắm trang thiết bị, phần mềm đào tạo, thiết bị phục vụ học tập”. Thời hạn đóng thầu 08:00 08/08/2025.
[Mời thầu] Thuê phần mềm quản lý bệnh viện (HIS), quản lý xét nghiệm (LIS) tại Bệnh viện Ung bướu...
Bệnh viện Ung bướu tỉnh Khánh Hòa đang thực hiện mời thầu cho gói thầu “Thuê phần mềm quản lý bệnh viện (HIS), quản lý xét nghiệm (LIS), phần mềm quản lý chẩn đoán hình ảnh (RIS-PACS), phần mềm bệnh án điện tử (EMR) tại Bệnh viện Ung bướu Khánh Hòa”. Thời hạn đóng thầu 10:00 05/08/2025.
[Mời thầu] Xây dựng phần mềm thu thập dữ liệu an toàn thông tin cho mạng máy tính
Trung tâm 586/Bộ Tư lệnh 86 đang thực hiện mời thầu cho gói thầu “Xây dựng phần mềm thu thập dữ liệu an toàn thông tin cho mạng máy tính”. Thời hạn đóng thầu 10:00 28/07/2025.
[Mời thầu] Thuê phần mềm quản lý thông tin bệnh viện tại Trung tâm Y tế huyện Vân Đồn
Trung tâm Y tế huyện Vân Đồn đang thực hiện mời thầu cho gói thầu “Thuê phần mềm quản lý thông tin bệnh viện tại Trung tâm Y tế huyện Vân Đồn”. Thời hạn đóng thầu 10:00 14/07/2025.
[Mời thầu] Mua phần mềm quản lý chẩn đoán hình ảnh (PACS) và hệ thống quản lý thông tin xét nghiệm...
Trung Tâm Y Tế Các Khu Công Nghiệp Tỉnh Bắc Giang đang thực hiện mời thầu cho gói thầu “Mua phần mềm quản lý chẩn đoán hình ảnh (PACS) và hệ thống quản lý thông tin xét nghiệm (LIS) của Trung Tâm Y tế các khu công nghiệp tỉnh Bắc Giang”. Thời hạn đóng thầu 08:00 30/06/2025.
Xây dựng phần mềm Quản trị kinh doanh
Công Ty TNHH Một Thành Viên Tổng Công Ty Tân Cảng Sài Gòn đang thực hiện mời thầu cho gói thầu “Xây dựng phần mềm Quản trị kinh doanh”. Thời hạn đóng thầu 09:00 08/07/2025.
NukeViet.vn tham gia chương trình Bug Bounty trên WhiteHub
Từ năm 2019, NukeViet.vn đã tham gia chương trình Bug Bounty trên nền tảng WhiteHub - nền tảng Bug Bounty đầu tiên tại Việt Nam. Đây là bước đi thể hiện cam kết mạnh mẽ của đội ngũ phát triển NukeViet trong việc xây dựng một hệ thống an toàn, minh bạch và có chất lượng bảo mật cao, phục vụ cộng đồng người dùng và lập trình viên tại Việt Nam.

Kế hoạch lựa chọn nhà thầu

Cung cấp dịch vụ máy chủ ảo của Đại học Kinh tế quốc dân

Thứ hai - 04/08/2025 02:00
Số KHLCNT: PL2500181539-00. Chủ đầu tư: Trường Đại học Kinh tế quốc dân. Ngày đăng tải: 13:00 04/08/25
Cung cấp dịch vụ máy chủ ảo COMPUTER của Đại học Kinh tế quốc dân

Thứ hai - 04/08/2025 01:53
Số KHLCNT: PL2500181537-00. Chủ đầu tư: Trường Đại học Kinh tế quốc dân. Ngày đăng tải: 12:53 04/08/25
Bảo trì, bảo dưỡng hệ thống điều hòa chính xác tại trụ sở số 1 Lê Đức Thọ

Thứ hai - 04/08/2025 01:44
Số KHLCNT: PL2500181536-00. Chủ đầu tư: Cục truyền thông Công An Nhân Dân. Ngày đăng tải: 12:44 04/08/25
Lắp đặt máy lạnh cho các phòng tại khu vực phòng Cathlab 3 (khu D)

Thứ hai - 04/08/2025 01:16
Số KHLCNT: PL2500181535-00. Chủ đầu tư: Viện Tim Thành phố Hồ Chí Minh. Ngày đăng tải: 12:16 04/08/25
KHLCNT bổ sung chuẩn bị Dự án chống biến đổi khí hậu

Thứ hai - 04/08/2025 01:11
Số KHLCNT: PL2500181506-00. Chủ đầu tư: Ban quản lý dự án đầu tư xây dựng các công trình giao thông và nông nghiệp Hải Phòng. Ngày đăng tải: 12:11 04/08/25

VietOCR 1.5: Nhận dạng ký tự tiếng Việt một cách hoàn hảo.

Giới thiệu về NukeViet

Bạn biết gì về NukeViet 4?

Gói thầu số 95: Mua sắm hộp công tơ các loại

Sửa chữa biển hiệu các đơn vị trực thuộc Công ty Điện lực Hưng Yên (khu vực 1) năm 2025

Sửa chữa kết cấu nhà xưởng; Sửa chữa và trung tu thiết bị các xí nghiệp Supe

Mua sắm phụ kiện thay thế dùng cho thiết bị y tế tại Bệnh viện Đa khoa tỉnh Ninh Bình đợt 01 năm 2025

Gói thầu số 2: Mua sắm trang thiết bị thực hiện lộ trình đổi mới chương trình, sách giáo khoa cấp Tiểu học, Trung học cơ sở của Trường TH&THCS Hồng Hạ

DV-2778/25-KT-DA-TTH_Khóa Đào tạo nâng cao về các thiết bị phòng nổ cho các công trình dầu khí

Cung cấp vật tư, hóa chất, công cụ - dụng cụ cho các dự án dịch vụ cho mỏ Cá Tầm thuộc lô 09-3/12, năm 2025

Gói thầu 01: Xây lắp và cung cấp VTTB

Gói thầu số 1: Tư vấn khảo sát, lập TK BVTC-DT

Trang bị đồng phục cho CBCNV năm 2025

[Mời thầu] Gói thầu số 08: Mua sắm trang thiết bị, phần mềm đào tạo, thiết bị phục vụ học tập

[Mời thầu] Thuê phần mềm quản lý bệnh viện (HIS), quản lý xét nghiệm (LIS) tại Bệnh viện Ung bướu...

[Mời thầu] Xây dựng phần mềm thu thập dữ liệu an toàn thông tin cho mạng máy tính

[Mời thầu] Thuê phần mềm quản lý thông tin bệnh viện tại Trung tâm Y tế huyện Vân Đồn

[Mời thầu] Mua phần mềm quản lý chẩn đoán hình ảnh (PACS) và hệ thống quản lý thông tin xét nghiệm...

Xây dựng phần mềm Quản trị kinh doanh

NukeViet.vn tham gia chương trình Bug Bounty trên WhiteHub

Cung cấp dịch vụ máy chủ ảo của Đại học Kinh tế quốc dân

Cung cấp dịch vụ máy chủ ảo COMPUTER của Đại học Kinh tế quốc dân

Bảo trì, bảo dưỡng hệ thống điều hòa chính xác tại trụ sở số 1 Lê Đức Thọ

Lắp đặt máy lạnh cho các phòng tại khu vực phòng Cathlab 3 (khu D)

KHLCNT bổ sung chuẩn bị Dự án chống biến đổi khí hậu

Cổng thông tin doanh nghiệp

Cổng thông tin Phòng giáo dục, Sở giáo dục