[發明專利]一種基于大量偽數據的貝葉斯詞義消歧方法在審
| 申請號: | 201710572187.6 | 申請日: | 2017-07-13 |
| 公開(公告)號: | CN107357786A | 公開(公告)日: | 2017-11-17 |
| 發明(設計)人: | 楊陟卓;張虎;李茹;譚紅葉;陳千 | 申請(專利權)人: | 山西大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 山西五維專利事務所(有限公司)14105 | 代理人: | 程園園 |
| 地址: | 030006*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 大量 數據 貝葉斯 詞義 方法 | ||
1.一種基于大量偽數據的貝葉斯詞義消歧方法,其特征在于:包括以下步驟:
步驟1、采用依存句法分析器對訓練語料庫中的訓練實例進行分析,收集與目標歧義詞具有依存關系的元組;
步驟2、將步驟1收集的依存元組輸入機器翻譯系統,獲取包含該依存元組的雙語例句,并將其加入偽訓練語料庫;
步驟3、重復步驟1、2,對所有訓練語料庫中的訓練實例進行處理,同時將所有不重復的雙語例句加入偽訓練語料庫,直到沒有新的雙語例句加入偽訓練語料庫;
步驟4、同時采用訓練語料庫和偽訓練語料庫訓練貝葉斯消歧模型,最后利用貝葉斯消歧模型決策測試實例中歧義詞的詞義。
2.根據權利要求1所述的一種基于大量偽數據的貝葉斯詞義消歧方法,其特征在于:所述步驟2中的機器翻譯系統為百度翻譯或有道翻譯。
3.根據權利要求1或2所述的一種新的基于大量偽數據的貝葉斯詞義消歧方法,其特征在于:所述步驟4中利用貝葉斯消歧模型決策測試實例中歧義詞的詞義時,在估計詞義和特征的條件概率時,由以下公式計算得出:
公式中,p(fj|si)表示詞義與特征的條件概率,ct(fj,si)表示詞義si與特征fj在訓練語料中的共現次數,ct(si)表示詞義si在訓練語料中的出現次數,cp(fj,si)表示特征與歧義詞在偽訓練語料中的共現次數,cp(si)表示詞義si在偽訓練語料中出現次數,λ取值范圍為0.8。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山西大學,未經山西大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710572187.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:袋裝彈簧封袋焊接裝置
- 下一篇:一種紅碎茶包裝封口裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





