[發明專利]從文本中挖掘語義關鍵詞的方法和設備有效
| 申請號: | 201310223884.2 | 申請日: | 2013-06-06 |
| 公開(公告)號: | CN104239300B | 公開(公告)日: | 2017-10-20 |
| 發明(設計)人: | 繆慶亮;孟遙;于浩 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司11227 | 代理人: | 康建峰,吳瓊 |
| 地址: | 日本神*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 挖掘 語義 關鍵詞 方法 設備 | ||
1.一種從文本中挖掘語義關鍵詞的方法,包括:
在文本中搜索已知詞,以得到多個候選關鍵詞;
根據所述已知詞的參考概率和/或上下文,計算所述多個候選關鍵詞的候選概率,所述參考概率表明所述已知詞作為錨文本的可能性,所述候選概率表明所述候選關鍵詞作為語義關鍵詞的可能性;以及
根據所述多個候選關鍵詞的候選概率,確定所述多個候選關鍵詞是否為所述文本的語義關鍵詞。
2.如權利要求1所述的方法,其中根據所述已知詞的上下文計算所述多個候選關鍵詞的候選概率包括:
提取在所述文本中與所述候選關鍵詞相鄰的多個詞,作為所述候選關鍵詞的上下文;
計算所述候選關鍵詞的上下文與所述候選關鍵詞對應的已知詞的上下文之間的上下文相似度;
根據所述上下文相似度,計算所述候選關鍵詞的候選概率。
3.如權利要求1所述的方法,其中根據所述多個候選關鍵詞的候選概率,確定所述多個候選關鍵詞是否為所述文本的語義關鍵詞包括:
將其候選概率大于預定閾值的候選關鍵詞判定為所述語義關鍵詞。
4.如權利要求1所述的方法,其中還根據所述多個候選關鍵詞的語義關系,確定所述多個候選關鍵詞是否為所述文本的語義關鍵詞。
5.如權利要求4所述的方法,其中所述確定步驟包括:
計算所述多個候選關鍵詞之間的關聯度,所述關聯度表明語義關系的強弱;
基于所述多個候選關鍵詞之間的關聯度,根據所述多個候選關鍵詞的候選概率,判定所述多個候選關鍵詞是否為所述文本的語義關鍵詞。
6.如權利要求5所述的方法,其中計算所述多個候選關鍵詞之間的關聯度包括:
根據所述多個候選關鍵詞在所述文本中的共現次數和出現次數,計算所述多個候選關鍵詞之間的關聯度;或者
對于作為百科全書中的概念的所述多個候選關鍵詞,根據指向其的頁面的相似度,計算所述多個候選關鍵詞之間的關聯度。
7.如權利要求5所述的方法,其中判定所述多個候選關鍵詞是否為所述文本的語義關鍵詞包括:
構建關鍵詞語義關聯網絡,所述關鍵詞語義關聯網絡的節點是所述多個候選關鍵詞,所述節點之間的邊的權重是所述多個候選關鍵詞之間的關聯度;
選擇所述關鍵詞語義關聯網絡中的部分節點,為其賦予標簽,所述標簽表明所述部分節點是所述語義關鍵詞的可能性;
在所述關鍵詞語義關聯網絡上重復進行標簽傳播,以獲得所述關鍵詞語義關聯網絡中的每個節點的標簽;
根據所獲得的標簽,判斷所述多個候選關鍵詞是否為所述文本的語義關鍵詞。
8.如權利要求7所述的方法,其中所述選擇步驟包括:
隨機選擇其候選概率大于第一閾值的第一候選關鍵詞和/或其候選概率小于第二閾值的第二候選關鍵詞,作為所述部分節點;
為所述第一候選關鍵詞賦予表明其是語義關鍵詞的標簽,為所述第二候選關鍵詞賦予表明其不是語義關鍵詞的標簽。
9.如權利要求7所述的方法,其中還根據所述文本的語義結構來構建所述關鍵詞語義關聯網絡,將出現在所述文本的主標題中的候選關鍵詞作為根支撐節點,將出現在所述文本的子標題中的候選關鍵詞作為枝支撐節點,將從所述子標題下面的文本內容中抽取出的候選關鍵詞作為所述枝支撐節點下的普通節點;
所述部分節點包括全部所述根支撐節點和全部所述枝支撐節點,并且為所述根支撐節點和所述枝支撐節點賦予表明其是語義關鍵詞的標簽;
在每次標簽傳播之后,將所述部分節點的標簽恢復為初始為之設定的標簽。
10.一種從文本中挖掘語義關鍵詞的設備,包括:
候選關鍵詞搜索裝置,被配置為:在文本中搜索已知詞,以得到多個候選關鍵詞;
候選概率計算裝置,被配置為:根據所述已知詞的參考概率和/或上下文,計算所述多個候選關鍵詞的候選概率,所述參考概率表明所述已知詞作為錨文本的可能性,所述候選概率表明所述候選關鍵詞作為語義關鍵詞的可能性;以及
語義關鍵詞確定裝置,被配置為:根據所述多個候選關鍵詞的候選概率,確定所述多個候選關鍵詞是否為所述文本的語義關鍵詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310223884.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種仿藤座椅
- 下一篇:基于依存樹的統計機器翻譯方法及系統





