一般說來,漢字乃圖形文字,無法像英文等拼音文字一樣,一旦學會拼音方法,即有基本的閱讀能力。相對的,漢字讀寫的學習進展則相當緩慢,而且必須搭配注音符號或是其他拼音方法,才可知道每個漢字的發音。事實上漢字中有八、九成的字是形聲字,形聲字不僅可由形旁表意,又可以聲符表音,因此即使沒見過的字也可以由偏旁推論其音及義。不過主要的困難在於聲旁未必一定同音,可能是相近的發音,之間的演變規則尚未有人探究過,例如:泡、抱、飽三個字同樣與『包』的發音相近,然而發音如何由『包』的發音轉變成其他三個字的發音,則仍待研究。本論文首先嘗試以自動化方式判定漢字聲符,做為研究形聲字發生規則的第一步。實驗顯示,我們所提的兩種方式,發音相似比較法在7340個形聲字中的判定聲符準確率為93.35%,而構件發聲分佈比較法則可達到98.66%的準確率,可以加速形聲字聲符標記所需的大量人力工作與時間。 |