[發明專利]一種確定多義詞詞義的方法有效
| 申請號: | 201410821314.8 | 申請日: | 2014-12-25 |
| 公開(公告)號: | CN104572633A | 公開(公告)日: | 2015-04-29 |
| 發明(設計)人: | 江潮;張芃 | 申請(專利權)人: | 語聯網(武漢)信息技術有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 北京康盛知識產權代理有限公司 11331 | 代理人: | 張宇峰 |
| 地址: | 430073 湖北省武漢市東湖開發區光谷軟件*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 確定 多義詞 詞義 方法 | ||
1.一種確定多義詞詞義的方法,其特征在于,包括:
獲取待判定詞義的多義詞w的關聯文本,并從所述關聯文本中找出其具有的詞匯w的特征詞;
以找出的所述特征詞在用于判定詞義的決策樹中,按照所述決策樹的生成順序依次進行判定;
根據判定結果,確定所述詞匯w當前應采用的詞義。
2.根據權利要求1所述的方法,其特征在于,所述獲取待判定詞義的多義詞w的關聯文本,并從所述關聯文本中找出其具有的詞匯w的特征詞之前,還包括:
從語料庫中隨機選取一定數量的、包含詞匯w的特定段落;
對選取的所述特定段落進行至少一次數據篩選,篩選確定出所述詞匯w的所述特征詞。
3.根據權利要求2所述的方法,其特征在于,所述對選取的所述特定段落進行至少一次數據篩選,篩選確定出所述詞匯w的所述特征詞,具體包括:
對選取的每個特定段落進行分詞處理,去除其中的停用詞,將剩余的詞匯作為候選關聯詞;
保留出現概率高于第一閾值的候選關聯詞作為關聯詞,,并計算出每個所述關聯詞與詞匯w的每個詞義的互信息;
將得到的所述互信息高于第二閾值的關聯詞作為該詞義的所述特征詞。
4.根據權利要求3所述的方法,其特征在于,所述計算出每個所述關聯詞與詞匯w的每個詞義為互信息,具體包括:
按照如下公式計算出第i個詞義mi和第j個關聯詞wj的互信息I(mi,wj):
其中,P(mi)為詞匯w的第i個詞義mi的先驗概率,P(wj)為第j個關聯詞wj在所述選取的所述特定段落中的出現概率,P(miwj)為第i個詞義mi和第j個關聯詞wj同時出現的概率;i為詞匯w的詞義序號,,j為關聯詞的序號。
5.根據權利要求3所述的方法,其特征在于,在所述以找出的所述特征詞在用于判定詞義的決策樹中,按照所述決策樹的生成順序依次進行判定之前,還包括:
根據確定的所述特征詞,利用ID3算法或C4.5算法構建詞匯w用于判定詞義的決策樹。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于語聯網(武漢)信息技術有限公司,未經語聯網(武漢)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410821314.8/1.html,轉載請聲明來源鉆瓜專利網。





