[發明專利]漢語依存樹庫中未登錄詞的處理方法有效
| 申請號: | 201210344884.3 | 申請日: | 2012-09-17 |
| 公開(公告)號: | CN103678272A | 公開(公告)日: | 2014-03-26 |
| 發明(設計)人: | 呂學強;鄭略省;王玥;關曉炟 | 申請(專利權)人: | 北京信息科技大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100192 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 漢語 依存 樹庫中未 登錄 處理 方法 | ||
1.一種漢語依存樹庫中未登錄詞的處理方法,其特征在于,所述方法包括以下步驟:
利用同義詞詞林,查找未登錄詞的所有同義詞;
根據漢字字形特征,設計詞語之間的字形相似度計算模型,計算未登錄詞及其所有同義詞之間的字形相似度;
當未登錄詞存在多個同義詞與之映射時,抽取所映射的詞及其對應詞性的信息量,改進字形相似度計算模型;
根據字形相似度,抽取未登錄詞的最優映射詞,作為樹庫中對未登錄詞的解釋。
2.如權利要求1所述的漢語依存樹庫中未登錄詞的處理方法,其特征在于,在步驟A中,借助現有語義資源,尋找與樹庫中未登錄詞在語義上相同或相近或相關的所有詞,作為未登錄詞的同義詞。
3.如權利要求1和權利要求2所述的漢語依存樹庫中未登錄詞的處理方法,其特征在于,在步驟A中,選用了哈爾濱工業大學信息檢索研究室擴展版的《同義詞詞林》作為語義資源,獲取未登錄詞的同義詞。
4.如權利要求1所述的漢語依存樹庫中未登錄詞的處理方法,其特征在于,在步驟B中,漢字字形特征是指根據漢字是象形文字的特點,利用字形表征漢字字義,具體做法是全體漢字用一個向量表示,向量的維數即為全體漢字總數,向量的值或者說權重為某一特定單元中漢字出現的次數。
5.如權利要求1所述和權利要求4所述的漢語依存樹庫中未登錄詞的處理方法,其特征在于,字形相似度計算模型如下:
uwi代表未登錄詞,wj代表與未登錄詞uwi在同義詞詞林中5層編碼均相等的詞匯,n為全體漢字組成的向量的維數,k為全體漢字向量的元素位置,Cik表示未登錄詞uwi中第k個漢字的頻次,Cjk表示詞wj中第k個漢字的頻次。
6.如權利要求1所述的漢語依存樹庫中未登錄詞的處理方法,其特征在于,當存在多個同義詞與未登錄詞字形相似度值相同時,引入詞的頻度信息來調整字形相似度計算模型,調整后的字形相似度計算模型如下:
其中,CPj表示已知詞wj的詞性在樹庫中的頻次,Cwj表示詞wj在樹庫中的頻次,為避免頻次為0的情況,對對數進行了數據加1平滑。
7.如權利要求1所述的漢語依存樹庫中未登錄詞的處理方法,其特征在于,字形相似度最大的詞作為未登錄詞的最優映射詞,在樹庫中作為對未登錄詞的解釋,其選擇方式如下:
。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學,未經北京信息科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210344884.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息關聯的方法及裝置
- 下一篇:一種信息處理方法和裝置





