[發明專利]拼音標注方法及其系統無效
| 申請號: | 201010208608.5 | 申請日: | 2010-06-24 |
| 公開(公告)號: | CN101894101A | 公開(公告)日: | 2010-11-24 |
| 發明(設計)人: | 陳淮琰;巨雷;鄭建鋒 | 申請(專利權)人: | 無敵科技(西安)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 西安智邦專利商標代理有限公司 61211 | 代理人: | 商宇科 |
| 地址: | 710075 陜西省*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 拼音 標注 方法 及其 系統 | ||
技術領域
本發明涉及一種拼音標注方法及其系統,尤其是一種以分詞標注方式,提高拼音標注正確性的方法及其系統。
背景技術
隨著社會的發展,商業的交流,中文已經成為新的語言學習重點。而中文學習的過程中,拼音為最重要的學習手段之一,幾乎所有的中文學習數據,都會標注中文對應的拼音。
然而,由于中文的復雜性與多樣性,例如多音字、多音字、變音字和一些不同地域的慣用法,使得標注正確的拼音成為一個困難問題。
有些時候,即使字面上看來完全相同的名詞,也會因為不同地域的不同慣用法,而造成讀音上有所差異。請參考表1,表1中列舉出兩個相同名詞不同讀音的范例。例如“企業”,臺灣地區慣用的讀音為“qi4ye4”,而中國大陸慣用的讀音則為“qi3ye4”。又例如“夕陽”,臺灣地區慣用的讀音為“xi4yang2”,而中國大陸慣用的讀音則為“xi1yang2”。類似上述相同名詞不同讀音的情形可以說是多不勝數,而且,并無法從中歸納通用的規則或規律。此種相同名詞卻有不同讀音的情形,使得拼音標注問題更加地困難。
表1相同名詞不同讀音的范例
為解決上述問題,先前方法中常以單字為單元進行標注,并添加一些輔助校對機制進行二次處理,以達到漢語拼音的校對。而目前對于多音字、多音字和變音字的處理,大多采用單字添加拼音序列的方法,通過提供多組拼音,以解決一字多音的問題。但是由于此方法所需數據量十分龐大,以及語言本身具有很高的靈活性,并沒有通用的規則或規律,使得這種方法仍有很大的局限性。而且,由于先前方法只以單字為處理單位,并未將相同名詞不同讀音的狀況納入考慮,無法有效的解決拼音標注正確性的問題。
發明內容
本發明為解決背景技術中存在的上述技術問題,而提出一種拼音標注方法及其系統。
本發明的技術解決方案是本發明為一種拼音標注方法,其特殊之處在于:該方法包含下列步驟:
1)建立分詞數據對應的拼音序列表;
2)根據分詞數據,將字符串進行分詞處理,并產生分詞序列;
3)由該分詞序列中取出分詞;
4)根據拼音序列表,查詢分詞的拼音;
5)標注分詞的拼音。
上述步驟1)中,根據使用情況,分別建立分詞數據對應的多個拼音序列表。
上述拼音序列表為繁體漢語拼音序列表和簡體漢語拼音序列表。
上述步驟4)中,包含根據當前使用情況,選取對應的拼音序列表,并據以查找分詞的拼音。
上述步驟5)之后還包括步驟6)判斷分詞序列中的所有分詞的拼音是否已全部標注,若是,則完成拼音標注,若否,則返回步驟3)。
本發明還提供一種拼音標注系統,其特殊之處在于:該系統包含:數據庫,用于儲存分詞數據;分詞拼音建立單元,根據分詞數據,建立對應的拼音序列表,并存入數據庫中;字符串接收單元,用來接收字符串;字符串處理單元,根據分詞數據,將字符串進行分詞處理,并據以產生分詞序列;分詞拼音查詢單元,根據拼音序列表,查詢分詞序列中的每個分詞的拼音,并產生查詢結果;拼音標注單元,根據查詢結果,標注分詞序列中的每個分詞的拼音,并產生標注結果;輸出單元,用來輸出標注結果,所述字符串接收單元接入字符串處理單元,所述字符串處理單元接入分詞拼音查詢單元,所述分詞拼音查詢單元通過拼音標注單元接入輸出單元,所述分詞拼音建立單元和數據庫連接,所述數據庫分別與字符串接收單元和分詞拼音查詢單元連接。
上述分詞拼音建立單元中,根據使用情況,分別建立分詞對應的多個拼音序列表。
上述分詞拼音查詢系統中,根據當前使用情況,選取對應的拼音序列表,并據以查詢分詞序列中的每個分詞的拼音。
上述拼音序列表為繁體漢語拼音序列表和簡體漢語拼音序列表。
本發明提供的拼音標注方法及其系統,通過分詞標注方式,提高了拼音標注的正確性。
附圖說明
圖1為本發明拼音標注方法的流程圖;
圖2為本發明拼音標注系統的示意圖;
圖3為本發明拼音標注方法及其系統的實施例示意圖。
其中,2-拼音標注系統,21-數據庫,211-分詞數據,212-拼音序列表,22-分詞拼音建立單元,23-字符串接收單元,24-字符串處理單元,25-分詞拼音查詢單元,26-拼音標注單元,27-輸出單元;
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于無敵科技(西安)有限公司,未經無敵科技(西安)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010208608.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:嵌入式數據庫中數據恢復的方法和裝置
- 下一篇:多核CPU及其核間通信方法





