光學手寫字的資訊不像印刷字般的穩定性,因此對於手寫稿的文字擷取必須有別於印刷文件的擷取方法。傳統的文字擷取方法,不外乎是利用相連元件偵測法和投影輪廓分析法,來找出可能的文字區塊位置。由於手寫文件的傾斜校正不易,前者的方法通常比後者有較佳的文字抽取結果。在本研究當中,我們先利用堆疊方式偵測出所有相連元件,而後提出三階段的元件合併過程,利用元件間彼此的重疊性、元件間的間隔大小、與元件兩側鄰居間隔差異性,來決定兩元件是否合併。最後再利用字元區塊投映與鄰近元件位置差異檢測方式,決定出所有字元的讀序。在實驗過程,我們請15 人寫了57 張手寫稿,合計1148 字元。以掃描器數位化成tif格式影像後,利用本系統作字元抽取,可得到98.43% 的正確抽取率。 |