結(jié)構(gòu)模式識別是早期漢字識別研究的主要方法。其主要出發(fā)點是漢字的組成結(jié)構(gòu)。從漢字的構(gòu)成上講,漢字是由筆劃(點橫豎撇捺等)、偏旁部首構(gòu)成的;還可以認為漢字是由更小的結(jié)構(gòu)基元構(gòu)成的。由這些結(jié)構(gòu)基元及其相互關(guān)系完全可以精確地對漢字加以描述,就像一篇文章由單字、詞、短語和句子按語法規(guī)律所組成一樣。所以這種方法也叫句法模式識別。識別時,利用上述結(jié)構(gòu)信息及句法分析的方法進行識別,類似一個邏輯推理器。
漢字的統(tǒng)計模式識別是將字符點陣看作一個整體,其所用的特征是從這個整體上經(jīng)過大量的統(tǒng)計而得到的。統(tǒng)計特征的特點是抗干擾性強,匹配與分類的算法簡單,易于實現(xiàn)。不足之處在于細分能力較弱,區(qū)分相似字的能力差一些。常見的統(tǒng)計模式識別方法有:
(1)利用變換特征的方法。對字符圖象進行二進制變換(如Walsh, Hardama變換)或更復(fù)雜的變換(如Karhunen-Loeve, Fourier,Cosine,Slant變換等),變換后的特征的維數(shù)大大降低。但是這些變換不是旋轉(zhuǎn)不變的,因此對于傾斜變形的字符的識別會有較大的偏差。二進制變換的計算雖然簡單,但變換后的特征沒有明顯的物理意義。K-L變換雖然從最小均方誤差角度來說是最佳的,但是運算量太大,難以實用。總之,變換特征的運算復(fù)雜度較高,且有一定弱點。
(2) 模板匹配。模板匹配并不需要特征提取過程。字符的圖象直接作為特征,與字典中的模板相比,相似度最高的模板類即為識別結(jié)果。這種方法簡單易行,可以并行處理;但是一個模板只能識別同樣大小、同種字體的字符,對于傾斜、筆劃變粗變細均無良好的適應(yīng)能力。
010-69584232