鍍金池/ 問答/Python  網(wǎng)絡(luò)安全  HTML/ tesseract只能識別訓(xùn)練后的漢字,訓(xùn)練前的識別不了?

tesseract只能識別訓(xùn)練后的漢字,訓(xùn)練前的識別不了?

大家好,第一次進(jìn)行漢字識別,并訓(xùn)練字庫,在訓(xùn)練字庫后,出現(xiàn) 一些問題,請教各位。
訓(xùn)練教程參照https://www.jianshu.com/p/31a...
選取的圖片為:
圖片描述

訓(xùn)練前,使用tesseract進(jìn)行識別,結(jié)果為:

風(fēng)急天高猿嘯衷′

 

無邊落木蕭蕭下
萬 悲秋常作害

 

 

渚清沙^鳥飛鞏

 

 

 

 

 

 

 

′ 不盡長江滾滾來。

′百仨

 

三多病獨(dú)登臺(tái)=

艱難苦恨寰霜鬢′ 渣倒新停濁酒杯=

然后按照教程開始訓(xùn)練,訓(xùn)練后識別的結(jié)果為:



′ 渚清沙白鳥飛回 。
′ 不盡長江滾滾來。
萬 秋 ′ 百年多病獨(dú)登臺(tái)。
艱難苦恨繁霜鬢′ 潦倒新停濁酒杯。

訓(xùn)練后的結(jié)果,是我使用jtessboxeditor修改的字,訓(xùn)練前的字都不見了。
如何能識別出這張圖片上的所有字呢?

回答
編輯回答
維他命

我最近也在研究tesseract,好像要用上百萬張圖片去做訓(xùn)練數(shù)據(jù)才行

2018年9月2日 10:17