[發明專利]從文本中挖掘語義關鍵詞的方法和設備有效
| 申請號: | 201310223884.2 | 申請日: | 2013-06-06 |
| 公開(公告)號: | CN104239300B | 公開(公告)日: | 2017-10-20 |
| 發明(設計)人: | 繆慶亮;孟遙;于浩 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司11227 | 代理人: | 康建峰,吳瓊 |
| 地址: | 日本神*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 挖掘 語義 關鍵詞 方法 設備 | ||
技術領域
本發明一般地涉及自然語言處理領域。具體而言,本發明涉及一種從文本中挖掘語義關鍵詞的方法和設備。
背景技術
文本是自然語言處理領域最常見的處理對象。面對海量的文本,直接利用文本本身進行操作顯然并不實際,人們通常借助于代表文本的語義信息的語義關鍵詞來幫助表示、索引、共享、檢索、分類、聚類文本。
然而,文本的數量呈爆炸式增長,并且文本的種類繁多,相當一部分文本不具有固定的結構。故而,存在如何從海量、非結構化的文本中挖掘出語義關鍵詞的問題。
因此,期望能夠以較高的效率和準確度從文本中挖掘語義關鍵詞。
發明內容
在下文中給出了關于本發明的簡要概述,以便提供關于本發明的某些方面的基本理解。應當理解,這個概述并不是關于本發明的窮舉性概述。它并不是意圖確定本發明的關鍵或重要部分,也不是意圖限定本發明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
本發明的目的是針對現有技術的上述問題,提出了一種能夠以較高的效率和準確度從文本中挖掘語義關鍵詞的方法和設備。
為了實現上述目的,根據本發明的一個方面,提供了一種從文本中挖掘語義關鍵詞的方法,該方法包括:在文本中搜索已知詞,以得到多個候選關鍵詞;根據所述已知詞的參考概率和/或上下文,計算所述多個候選關鍵詞的候選概率,所述參考概率表明所述已知詞作為錨文本的可能性,所述候選概率表明所述候選關鍵詞作為語義關鍵詞的可能性;以及根據所述多個候選關鍵詞的候選概率,確定所述多個候選關鍵詞是否為所述文本的語義關鍵詞。
根據本發明的另一個方面,提供了一種從文本中挖掘語義關鍵詞的設備,該設備包括:候選關鍵詞搜索裝置,被配置為:在文本中搜索已知詞,以得到多個候選關鍵詞;候選概率計算裝置,被配置為:根據所述已知詞的參考概率和/或上下文,計算所述多個候選關鍵詞的候選概率,所述參考概率表明所述已知詞作為錨文本的可能性,所述候選概率表明所述候選關鍵詞作為語義關鍵詞的可能性;以及語義關鍵詞確定裝置,被配置為:根據所述多個候選關鍵詞的候選概率,確定所述多個候選關鍵詞是否為所述文本的語義關鍵詞。
另外,根據本發明的另一方面,還提供了一種存儲介質。所述存儲介質包括機器可讀的程序代碼,當在信息處理設備上執行所述程序代碼時,所述程序代碼使得所述信息處理設備執行根據本發明的上述方法。
此外,根據本發明的再一方面,還提供了一種程序產品。所述程序產品包括機器可執行的指令,當在信息處理設備上執行所述指令時,所述指令使得所述信息處理設備執行根據本發明的上述方法。
附圖說明
參照下面結合附圖對本發明實施例的說明,會更加容易地理解本發明的以上和其它目的、特點和優點。附圖中的部件只是為了示出本發明的原理。在附圖中,相同的或類似的技術特征或部件將采用相同或類似的附圖標記來表示。附圖中:
圖1示出了根據本發明的第一實施例的已知詞獲取方法的流程圖;
圖2示出了根據本發明的第二實施例的已知詞獲取方法的流程圖;
圖3示出了根據本發明的第一實施例的挖掘文本語義關鍵詞的方法的流程圖;
圖4示出了根據本發明的第二實施例的挖掘文本語義關鍵詞的方法的流程圖;
圖5示出了根據本發明實施例的文本語義關鍵詞挖掘設備的結構方框圖;以及
圖6示出了可用于實施根據本發明實施例的方法和設備的計算機的示意性框圖。
具體實施方式
在下文中將結合附圖對本發明的示范性實施例進行詳細描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應該了解,在開發任何這種實際實施方式的過程中必須做出很多特定于實施方式的決定,以便實現開發人員的具體目標,例如,符合與系統及業務相關的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應該了解,雖然開發工作有可能是非常復雜和費時的,但對得益于本公開內容的本領域技術人員來說,這種開發工作僅僅是例行的任務。
在此,還需要說明的一點是,為了避免因不必要的細節而模糊了本發明,在附圖中僅僅示出了與根據本發明的方案密切相關的裝置結構和/或處理步驟,而省略了與本發明關系不大的其他細節。另外,還需要指出的是,在本發明的一個附圖或一種實施方式中描述的元素和特征可以與一個或更多個其它附圖或實施方式中示出的元素和特征相結合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310223884.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種仿藤座椅
- 下一篇:基于依存樹的統計機器翻譯方法及系統





