<!DOCTYPE html>
    <html lang="vi" xmlns="http://www.w3.org/1999/xhtml" prefix="og: http://ogp.me/ns#">
    <head>
<title>Nhận dạng chữ Việt với Tesseract OCR</title>
<meta name="description" content="Nhận dạng chữ Việt với Tesseract OCR - Savefile - Tin Tức - https&#x3A;&#x002F;&#x002F;mangvn.org&#x002F;savefile&#x002F;Thu-thuat-Phan-mem&#x002F;Nhan-dang-chu-Viet-voi-Tesseract-OCR-733.html">
<meta name="author" content="MangVN">
<meta name="copyright" content="MangVN [admin@vinades.vn]">
<meta name="generator" content="NukeViet v4.5">
<meta name="viewport" content="width=device-width, initial-scale=1">
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta property="og:title" content="Nhận dạng chữ Việt với Tesseract OCR">
<meta property="og:type" content="website">
<meta property="og:description" content="Savefile - Tin Tức - https&#x3A;&#x002F;&#x002F;mangvn.org&#x002F;savefile&#x002F;Thu-thuat-Phan-mem&#x002F;Nhan-dang-chu-Viet-voi-Tesseract-OCR-733.html">
<meta property="og:site_name" content="MangVN">
<meta property="og:url" content="https://mangvn.org/savefile/Thu-thuat-Phan-mem/Nhan-dang-chu-Viet-voi-Tesseract-OCR-733.html">
<link rel="shortcut icon" href="https://mangvn.org/favicon.ico">
<link rel="canonical" href="https://mangvn.org/savefile/Thu-thuat-Phan-mem/Nhan-dang-chu-Viet-voi-Tesseract-OCR-733.html">
<link rel="alternate" href="https://mangvn.org/rss/" title="Tin Tức" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Tin-nhanh-Cong-nghe/" title="Tin Tức - Tin nhanh Công nghệ" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Virut-Hacker-Bao-mat/" title="Tin Tức - Virut, Hacker & Bảo mật" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/CNTT/" title="Tin Tức - CNTT" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Vien-thong/" title="Tin Tức - Viễn thông" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/May-tinh/" title="Tin Tức - Máy tính" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Dien-thoai/" title="Tin Tức - Điện thoại" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/May-anh/" title="Tin Tức - Máy ảnh" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Thu-thuat-Phan-mem/" title="Tin Tức - Thủ thuật - Phần mềm" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Phan-mem-Tin-hoc/" title="Tin Tức - Phần mềm Tin học" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Thu-thuat-tin-hoc/" title="Tin Tức - Thủ thuật tin học" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Thiet-ke-Web/" title="Tin Tức - Thiết kế Web" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Kien-thuc-co-ban/" title="Tin Tức - Kiến thức cơ bản" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/PHP-HTML-JavaScript/" title="Tin Tức - PHP, HTML & JavaScript" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Quang-cao-tang-thu-nhap/" title="Tin Tức - Quảng cáo tăng thu nhập" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Tao-Web-bang-NukeViet/" title="Tin Tức - Tạo Web NukeViet" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Ban-tin-an-ninh/" title="Tin Tức - Bản tin an ninh" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Tin-tuc-NukeViet/" title="Tin Tức - Tin tức NukeViet" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Nhan-vat-su-kien/" title="Tin Tức - Nhân vật & sự kiện" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Huong-dan-su-dung/" title="Tin Tức - Hướng dẫn sử dụng" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/He-thong-NukeViet-20/" title="Tin Tức - Hệ thống NukeViet 2.0" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/He-thong-NukeViet-10/" title="Tin Tức - Hệ thống NukeViet 1.0" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/NukeViet-co-ban/" title="Tin Tức - NukeViet cơ bản" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Web-Internet/" title="Tin Tức - Web & Internet" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Thu-thuat-Internet/" title="Tin Tức - Thủ thuật Internet" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Dich-vu-tien-ich/" title="Tin Tức - Dịch vụ & tiện ích" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Website-nen-vao/" title="Tin Tức - Website nên vào" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Thong-tin-khuyen-mai/" title="Tin Tức - Thông tin khuyến mại" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/thuong-mai-dien-tu/" title="Tin Tức - Thương mại điện tử" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Hau-truong/" title="Tin Tức - Hậu trường" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Blog-Admin/" title="Tin Tức - Blog Admin" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Cong-tac-vien/" title="Tin Tức - Cộng tác viên" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Chuyen-cong-nghe/" title="Tin Tức - Chuyện công nghệ" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Chuyen-kinh-doanh/" title="Tin Tức - Chuyện kinh doanh" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Cuoc-song-quanh-ta/" title="Tin Tức - Cuộc sống quanh ta" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Cuoi-thu-gian/" title="Tin Tức - Cười thư giãn" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Lang-nghe-va-suy-ngam/" title="Tin Tức - Lắng nghe và suy ngẫm" type="application/rss+xml">
<link rel="alternate" href="https://mangvn.org/rss/Kien-thuc-Song/" title="Tin Tức - Kiến thức Sống" type="application/rss+xml">
<link rel="preload" as="style" href="https://mangvn.org/assets/css/font-awesome.min.css" type="text/css">
<link rel="preload" as="style" href="https://mangvn.org/themes/default/css/bootstrap.min.css" type="text/css">
<link rel="preload" as="style" href="https://mangvn.org/themes/default/css/style.css" type="text/css">
<link rel="preload" as="style" href="https://mangvn.org/themes/default/css/style.responsive.css" type="text/css">
<link rel="preload" as="style" href="https://mangvn.org/themes/default/css/news.css" type="text/css">
<link rel="preload" as="style" href="https://mangvn.org/themes/default/css/custom.css" type="text/css">
<link rel="preload" as="script" href="https://mangvn.org/assets/js/jquery/jquery.min.js" type="text/javascript">
<link rel="preload" as="script" href="https://mangvn.org/assets/js/language/vi.js" type="text/javascript">
<link rel="preload" as="script" href="https://mangvn.org/assets/js/DOMPurify/purify3.js" type="text/javascript">
<link rel="preload" as="script" href="https://mangvn.org/assets/js/global.js" type="text/javascript">
<link rel="preload" as="script" href="https://mangvn.org/assets/js/site.js" type="text/javascript">
<link rel="preload" as="script" href="https://mangvn.org/themes/default/js/news.js" type="text/javascript">
<link rel="preload" as="script" href="https://mangvn.org/themes/default/js/main.js" type="text/javascript">
<link rel="preload" as="script" href="https://mangvn.org/themes/default/js/custom.js" type="text/javascript">
<link rel="preload" as="script" href="https://mangvn.org/themes/default/js/bootstrap.min.js" type="text/javascript">
<link rel="stylesheet" href="https://mangvn.org/assets/css/font-awesome.min.css">
<link rel="stylesheet" href="https://mangvn.org/themes/default/css/bootstrap.min.css">
<link rel="stylesheet" href="https://mangvn.org/themes/default/css/style.css">
<link rel="stylesheet" href="https://mangvn.org/themes/default/css/style.responsive.css">
<link rel="StyleSheet" href="https://mangvn.org/themes/default/css/news.css">
<link rel="stylesheet" href="https://mangvn.org/themes/default/css/custom.css">
<style type="text/css">
	body{background: #fff;}
</style>
    </head>
    <body>
<div id="print">
	<div id="hd_print">
		<h2 class="pull-left">MangVN</h2>
		<p class="pull-right"><a title="MangVN" href="https://mangvn.org/">https://mangvn.org</a></p>
	</div>
	<div class="clear"></div>
	<hr />
	<div id="content">
		<h1>Nhận dạng chữ Việt với Tesseract OCR</h1>
		<ul class="list-inline">
			<li>Chủ nhật - 27/12/2009 15:38</li>
			<li class="hidden-print txtrequired"><em class="fa fa-print">&nbsp;</em><a title="In ra" href="javascript:;" onclick="window.print()">In ra</a></li>
			<li class="hidden-print txtrequired"><em class="fa fa-power-off">&nbsp;</em><a title="Đóng cửa sổ này" href="javascript:;" onclick="window.close()">Đóng cửa sổ này</a></li>
		</ul>
		<div class="clear"></div>
		<div id="hometext">
			Trước đây, chúng ta hầu như chỉ biết đến phần mềm VnDOCR như một phần mềm nhận dạng chữ Việt duy nhất. Tuy nhiên VnDOCR có tiền bản quyền khá cao. Nay mangvn.org xin giới thiệu tới các bạn giải pháp nhận dạng chữ Việt bằng phần mềm Tesseract OCR và VietORC. Đây là phần mềm mã nguồn mở hoàn toàn miễn phí có thể nhận dạng nhiều loại ngôn ngữ bao gồm cả chữ Việt. Đặc biệt bạn có thể tự huấn luyện để phần mềm nhận dạng chính xác các font chữ lạ.
		</div>
		<div id="bodytext" class="clearfix">
<p>Sau khi cài đặt<a href="http://code.google.com/p/tesseract-ocr/">Tesseract</a>, tải và giải nén<a href="http://sourceforge.net/project/showfiles.php?group_id=230717&package_id=279910"> Vietnamese language data 
pack</a> cho Tesseract vào <tt>tesseract</tt> installation folder; các files <tt>vie.</tt> sẽ được đặt vào <tt>tessdata</tt>subdirectory. Tesseract hiện tại chỉ có thể nhận dạng hình uncompressed
TIFF. Để thực thi nhận dạng chữ OCR trên ảnh với Tesseract:</p><blockquote>
  <p><tt>tesseract vietsample.tif output –l vie</tt></p></blockquote>
<p>Bộ Vietnamese language data được tạo cụ thể cho các font 
Times New Roman, Arial, Verdana, và Courier New. Do đó, việc nhận dạng sẽ có kết quả cao 
hơn cho các ảnh có font glyphs tương tự. OCR ảnh có font glyphs trông khác các 
font hỗ trợ thường thường sẽ đòi hỏi<a href="http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract">tập huấn</a> 
Tesseract để tạo một bộ language data khác cụ thể cho những mặt chữ đó.</p>
<p>&nbsp;<u>Cập nhật</u>: Thêm language data đã được tạo cho các kiểu 
font cũ Việt Nam, VNI and TCVN3 (ABC).</p>
<p>&nbsp;Có vài chương trình GUI frontend miễn phí cho Tesseract OCR 
engine: <a href="http://vietocr.sourceforge.net/">VietOCR</a>, một ứng dụng 
open-source Java/.NET, cung cấp hỗ trợ quét văn bản và nhận dạng cho các dạng ảnh 
PDF, TIFF, JPEG, 
GIF, PNG, và BMP; và <a href="http://www.softi.co.uk/freeocr.htm">FreeOCR</a> là 
một chương trình .NET, thăng tiến Tesseract thêm ở phần quét vào văn bản và hỗ 
trợ nhận dạng compressed TIFF images.</p>
<p>&nbsp; Qua Microsoft Office Document Image Writer hay 
virtual printer driver khác, các ứng dụng Windows có thể in ra TIFF hay các dạng 
ảnh khác, mà ta có thể thực hành OCR với VietOCR hay FreeOCR. Trong những trường 
hợp ảnh tạo ra bởi virtual printer không đủ phẩm chất cho OCR, ta có thể dùng 
các công cụ chỉnh ảnh tiêu chuẩn, như <a href="http://www.gimp.org/" target="_blank">GIMP</a> hay<a href="http://www.imagemagick.org/" target="_blank"> ImageMagick</a>, để tạo ra 
ảnh đạt yêu cầu của OCR engine. Một số công cụ ảnh này thậm chí còn có thể nhận 
vào PDF files và xuất ra các dạng ảnh thích hợp cho OCR.</p>
<p>&nbsp;Hình <a href="http://en.wikipedia.org/wiki/TIFF">TIFF</a> muốn được OCR cần quét ở độ phân giải từ 200 DPI 
(dot per inch) trở lên tới 400. Quét ảnh với độ phân giải cao hơn nữa chưa hẳn sẽ tăng sự chính xác của 
kết quả nhận dạng. Hiện tại, mức chính xác có thể lên trên 97% cho Tiếng Việt (<a href="http://downloads.sourceforge.net/vietocr/vietsample.zip">ảnh 
thí nghiệm</a>), 
và phiên bản tới của Tesseract có thể nâng cao độ nhận dạng hơn nữa. Dầu vậy, độ chính 
xác thực thụ vẫn còn tùy thuộc rất lớn vào phẩm chất của ảnh quét. Thông số cho 
quét ảnh tiêu biểu là 300 DPI và 1 bpp 
(bit per pixel) black&amp;white hoặc 8 bpp grayscale dạng uncompressed TIFF.</p>
<p>&nbsp;Các lỗi nhận dạng có thể phân làm ba loại. Nhiều lỗi thường 
bị bởi do lẫn lộn chữ hoa và chữ 
thường (upper and lower) — ví dụ: hOa, nhắC — có thể dễ dàng sửa chữa sử dụng 
các chương trình Unicode text editor. Lỗi do sự xử lý không chính xác, gây ra 
các lỗi như thiếu sót dấu, lầm với ký tự có hình dáng tương tự, v.v… — huu – hưu, 
mang – marg, h0a – hoa, la – 1a, uhìu - nhìn. Đa số các lỗi này cũng có thể dễ 
dàng sửa chữa dùng các phần mềm duyệt chính tả.</p>
<p>&nbsp;Loại lỗi cuối cùng là khó phát hiện nhất bởi chúng liên quan 
đến ngữ nghĩa, semantics, có nghĩa là những chữ đánh vần đúng (tức là mục từ có trong 
tự điển), nhưng sai nghĩa trong ngữ cảnh (context) — ví dụ: tinh – tình, vân – 
vấn. Những lỗi này cần phải có người đọc duyệt lại và sửa theo bản gốc trong 
hình.</p>
<p>&nbsp;Sau đây là hướng dẫn cách sửa chữa 1 cách nhanh chóng và hiệu 
quả 2 loại lỗi đầu tiên, sử dụng chương trình<a href="http://vietpad.sourceforge.net/"> VietPad</a> (cả phiên bản Java và 
.NET). Quy trình có thể tóm tắt như sau:</p>
<ol start="1" type="1">
  <li value="-1">Gom dòng. Các hàng chữ (line) cần được gom lại theo từng 
	đoạn (paragraph), bởi khi được OCR, các hàng chữ đứng riêng trong các đoạn 1 
	hàng (1-line paragraph). Dùng tính năng <i>Nối dòng</i> trong menu <i>Định 
	dạng</i>. Lưu ý rằng tác vụ này có thể không cần cho thi thơ.</li>
  <li value="-1">Cũng trong menu <i>Định dạng</i> , bấm <i>Đổi ngữ cách</i> 
	và chọn <i>Chữ hoa đầu câu</i> để sửa gần như tất cả các lỗi chữ hoa-thường. 
	Hãy dò tìm và sửa các lỗi hoa-thường còn sót.</li>
  <li value="-1">Sửa lỗi chính tả bằng tính năng <i>Dò chính tả</i> dưới 
	menu <i>Công cụ</i>.</li>
</ol>
<p>&nbsp;Qua các bước trên, hầu hết các lỗi thông thường sẽ được loại 
trừ. Những 
lỗi ngữ nghĩa semantic còn sót lại ít, nhưng đòi hỏi người duyệt đọc dò 
lại toàn bộ văn bản để được giống y như văn bản gốc quét, và toàn thiện nếu 
muốn.</p>
<p>Mọi thắc mắc và trao đổi mời các bạn tham gia<a href="http://vietunicode.sourceforge.net/forum/"> Diễn Đàn VietUnicode</a>.</p>
<p>Download phần mềm tại đây: <a href="https://mangvn.org/nukeviet/modules.php?name=Files&go=view_file&lid=1446" style="font-weight: bold;">Tesseract OCR</a></p><h2>Hướng dẫn tập huấn Tesseract OCR nhận dạng chữ Việt:
  <br /></h2>
<p>Ứng dụng thực tế cho thấy Tesseract OCR engine
rất nhạy cảm tới sự khác biệt trong hình dáng phông chữ. Cho chữ Quốc
ngữ, nếu dáng phông khác với bốn phông được hỗ trợ, sự chính xác suy
giảm hẳn. Bạn sẽ phải tập huấn cho font của bạn, mà quy trình hơi phức
tạp chút nhưng được giải thích chi tiết trong trang <a target="_blank" href="http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract">Tesseract Wiki</a>.
  <br />
  <br />Tóm lược như sau:
  <br /></p>
<ul>1. Làm một ảnh tốt, sạch, uncompressed 300 DPI TIFF scan từ 1 trang của văn bản của bạn
  <br />2. Đánh máy lại trang đó cho mục đích sửa lỗi và thực nghiệm
  <br />3. Càng nhiều dữ kiện, kết quả OCR càng tốt, vì vậy hãy lập lại (1) and (2) cho đến khi bạn có ít nhất 4 trang. Giới hạn là 32
  <br />4. Chạy tesseract command để tạo box files
  <br />5. Chỉnh sửa box file sử dụng <a target="_blank" href="http://code.google.com/p/bbtesseract/">bbTesseract</a> editing tool
  <br />6. Chạy tesseract command để tạo data files (clustering)
  <br />7. Thay tên file với tiếp đầu ngữ "vie." và copy data files vào tessdata directory, đè trên file đang hiện có
  <br />8. Chạy OCR trên ảnh gốc để chứng thực công quả của bạn. Mức chính xác sẽ nằm trong tầm cao của 90%
</ul>
<br />Để cộng đồng có thể hưởng lợi từ công lao của bạn, xin vui lòng gửi data files. Chúng sẽ được đăng trong VietOCR's <a target="_blank" href="http://sourceforge.net/project/showfiles.php?group_id=230717">Download</a>page. Hãy nhớ ghi tên của font mà bạn đã tập huấn cho, để người sử dụng
biết phải load bộ data nào vào tessdata directory khi OCR văn bản của
họ.
<p>&nbsp;</p>
		</div>
	</div>
	<div id="footer" class="clearfix">
		<div id="url">
			<strong>URL của bản tin này: </strong><a href="https://mangvn.org/savefile/Thu-thuat-Phan-mem/Nhan-dang-chu-Viet-voi-Tesseract-OCR-733.html" title="Nhận dạng chữ Việt với Tesseract OCR">https://mangvn.org/savefile/Thu-thuat-Phan-mem/Nhan-dang-chu-Viet-voi-Tesseract-OCR-733.html</a>

		</div>
		<div class="clear"></div>
		<div class="copyright">
			&copy; MangVN
		</div>
		<div id="contact">
			<a href="mailto:admin@vinades.vn">admin@vinades.vn</a>
		</div>
	</div>
</div>
        <div id="timeoutsess" class="chromeframe">
            Bạn đã không sử dụng Site, <a onclick="timeoutsesscancel();" href="https://mangvn.org/#">Bấm vào đây để duy trì trạng thái đăng nhập</a>. Thời gian chờ: <span id="secField"> 60 </span> giây
        </div>
        <div id="openidResult" class="nv-alert" style="display:none"></div>
        <div id="openidBt" data-result="" data-redirect=""></div>
<script src="https://mangvn.org/assets/js/jquery/jquery.min.js"></script>
<script>var nv_base_siteurl="/",nv_lang_data="vi",nv_lang_interface="vi",nv_name_variable="nv",nv_fc_variable="op",nv_lang_variable="language",nv_module_name="news",nv_func_name="savefile",nv_is_user=0, nv_my_ofs=-4,nv_my_abbr="EDT",nv_cookie_prefix="nv4c_b41EI",nv_check_pass_mstime=1738000,nv_area_admin=0,nv_safemode=0,theme_responsive=1,nv_recaptcha_ver=2,nv_recaptcha_sitekey="6LfaEikpAAAAAB7BnT8L5ijh2CCG0esJquuWj9ZJ",nv_recaptcha_type="image",XSSsanitize=1;</script>
<script src="https://mangvn.org/assets/js/language/vi.js"></script>
<script src="https://mangvn.org/assets/js/DOMPurify/purify3.js"></script>
<script src="https://mangvn.org/assets/js/global.js"></script>
<script src="https://mangvn.org/assets/js/site.js"></script>
<script src="https://mangvn.org/themes/default/js/news.js"></script>
<script src="https://mangvn.org/themes/default/js/main.js"></script>
<script src="https://mangvn.org/themes/default/js/custom.js"></script>
<script type="application/ld+json">
        {
            "@context": "https://schema.org",
            "@type": "Organization",
            "url": "https://mangvn.org",
            "logo": "https://mangvn.org/uploads/logo-mangvn.png"
        }
        </script>
<script src="https://mangvn.org/themes/default/js/bootstrap.min.js"></script>
</body>
</html>