[發明專利]用于挖掘信息的方法和裝置有效
| 申請號: | 201610937725.2 | 申請日: | 2016-10-25 |
| 公開(公告)號: | CN107977379B | 公開(公告)日: | 2022-06-28 |
| 發明(設計)人: | 屈冰欣;曾剛 | 申請(專利權)人: | 百度國際科技(深圳)有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/36 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 518057 廣東省深圳市南山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 挖掘 信息 方法 裝置 | ||
本申請公開了用于挖掘信息的方法和裝置。所述方法的一具體實施方式包括:確定待挖掘文本信息集合中的問答文本信息,待挖掘文本信息集合中的各條待挖掘文本信息中包括用于表示實體的第一實體詞和第二實體詞、以及用于表征第一實體詞和第二實體詞之間關系的關系詞;對待挖掘文本信息集合中的問答文本信息進行分析處理,得到第一實體詞和第二實體詞的待確定實體關系信息以及分析處理后的問答文本信息;對分析處理后的問答文本信息和非問答文本信息進行分析處理,得到第一實體詞和第二實體詞的待確定實體關系信息;對得到的待確定實體關系信息進行統計分析,得到第一實體詞和第二實體詞之間的實體關系信息。該實施方式實現了實體關系信息的準確挖掘。
技術領域
本申請涉及計算機技術領域,具體涉及信息挖掘,尤其涉及用于挖掘信息的方法和裝置。
背景技術
隨著計算機的普及以及互聯網技術的迅猛發展,大量的信息得到了共享,面對海量的信息,迫切需要一些方法能幫助人們在海量信息源中迅速獲取真正需要的信息,在獲取信息的過程中,往往需要對文本進行命名實體的識別,并挖掘實體之間的關系。
由于受上下文之間的連續性、文本中詞語的靈活多變性等因素的影響,使實體關系的挖掘顯得更加困難。例如,現有的實體關系挖掘方法往往不能很好的處理包含封閉式問答信息的文本信息,比如,患者提問“糖尿病人可不可以多吃燕麥?”,醫生回答“可以多吃”;若將患者提問和醫生回答連接起來處理,則只會挖掘出糖尿病人不可以多吃燕麥的關系,而這個關系是與該文本信息表達的真實意思不相符的。因此,現在亟需一種能夠準確挖掘實體之間關系的方法。
發明內容
本申請的目的在于提出一種改進的用于挖掘信息的方法和裝置,來解決以上背景技術部分提到的技術問題。
第一方面,本申請提供了一種用于挖掘信息的方法,包括:確定待挖掘文本信息集合中的問答文本信息,其中,所述待挖掘文本信息集合中包括問答文本信息和非問答文本信息,所述待挖掘文本信息集合中的各條待挖掘文本信息中包括用于表示實體的第一實體詞和第二實體詞、以及用于表征第一實體詞和第二實體詞之間關系的關系詞,第一實體詞和第二實體詞是根據所表示實體所屬類別劃分的;對所述待挖掘文本信息集合中的問答文本信息進行分析處理,得到第一實體詞和第二實體詞的待確定實體關系信息以及分析處理后的問答文本信息;對分析處理后的問答文本信息和非問答文本信息進行分析處理,得到第一實體詞和第二實體詞的待確定實體關系信息;對得到的待確定實體關系信息進行統計分析,得到第一實體詞和第二實體詞之間的實體關系信息。
在一些實施例中,所述方法還包括:根據預先設定的映射規則將各關系詞進行映射,得到各關系詞的映射關系詞。
在一些實施例中,所述對所述待挖掘文本信息集合中的問答文本信息進行分析處理,得到第一實體詞和第二實體詞的待確定實體關系信息以及分析處理后的問答文本信息,包括:將問答文本信息的提問部分進行切詞處理,獲得提問部分的實體詞集合,其中,問答文本信息包括提問部分和回答部分;確定提問部分的實體詞集合中包括第一實體詞、第二實體詞、以及關系詞;從問答文本信息的回答部分中搜索距離提問部分最近的關系詞;判斷搜索得到的關系詞的前后是否存在否定詞;如果存在,則對第一實體詞和第二實體詞的關系進行反轉;基于搜索得到的關系詞的映射關系詞或反轉結果得到問答文本信息中第一實體詞和第二實體詞的待確定實體關系信息,并刪除提問部分中的關系詞和第二實體,得到分析處理后的問答文本信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度國際科技(深圳)有限公司,未經百度國際科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610937725.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種分布式數據聚合方法和裝置
- 下一篇:用于生成頁面的方法和裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





