[發明專利]一種信息挖掘方法和裝置、一種用于信息挖掘的裝置有效
| 申請號: | 201710062815.6 | 申請日: | 2017-01-25 |
| 公開(公告)號: | CN108345625B | 公開(公告)日: | 2022-09-30 |
| 發明(設計)人: | 邸楠;尹順順;鄧超 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/33 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 劉祥景 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 信息 挖掘 方法 裝置 用于 | ||
1.一種信息挖掘方法,其特征在于,包括:
從網頁文本語料中獲取包含預置謂語的目標語句;
從所述目標語句對應的句法分析結果中提取主語和賓語;
依據提取得到的主語和賓語,建立實體-屬性對;
確定所述實體-屬性對對應的第一置信度,若所述第一置信度超過第一置信度閾值,則保存所述實體-屬性對;
其中,所述確定實體-屬性對對應的第一置信度,包括:針對所述實體-屬性對,提取對應的獨立特征和/或聯合特征;其中,所述獨立特征用于表示所述實體-屬性對中實體或者屬性自身的特征,所述聯合特征用于表示所述實體-屬性對中實體和關鍵屬性的特征;依據所述實體-屬性對對應的獨立特征和/或聯合特征,確定對應的第一置信度;
所述獨立特征包括如下特征中的至少一種:所述實體或者屬性或者關鍵屬性對應詞匯在實體-屬性對集合中的詞頻、共現次數、分布熵和在實體-屬性對中作為后綴的次數;和/或
所述聯合特征包括如下特征中的至少一種:所述實體-屬性對或者實體-關鍵屬性對在實體-屬性對集合中的共現信息、互相的條件概率和獨立特征的差值。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
從實體對應的多個屬性中獲取對所述實體有指向性的關鍵屬性;
依據所述實體和所述關鍵屬性,建立實體-關鍵屬性對,并保存所述實體-關鍵屬性對。
3.根據權利要求2所述的方法,其特征在于,所述從實體對應的多個屬性中獲取對所述實體有指向性的關鍵屬性的步驟,包括:
針對所述實體對應的各屬性,統計獲取各屬性對應的條件概率;所述屬性對應的條件概率為預置語料中出現所述實體的情況下同時出現所述屬性的概率;
將所述條件概率超過概率閾值的屬性作為對所述實體有指向性的關鍵屬性。
4.根據權利要求2所述的方法,其特征在于,在所述建立實體-關鍵屬性對之后,所述保存所述實體-關鍵屬性對之前,所述方法還包括:
確定所述實體-關鍵屬性對對應的第二置信度;
若所述第二置信度超過第二置信度閾值,則保存所述實體-關鍵屬性對。
5.根據權利要求4所述的方法,其特征在于,所述確定實體-關鍵屬性對對應的第二置信度的步驟,包括:
針對所述實體-關鍵屬性對,提取對應的獨立特征和/或聯合特征;其中,所述獨立特征用于表示所述實體-關鍵屬性對中實體或者關鍵屬性自身的特征,所述聯合特征用于表示所述實體-關鍵屬性對中實體和關鍵屬性的特征;
依據所述實體-關鍵屬性對對應的獨立特征和/或聯合特征,確定對應的第二置信度。
6.一種信息挖掘裝置,其特征在于,包括:
目標語句獲取模塊,用于從網頁文本語料中獲取包含預置謂語的目標語句;
主賓提取模塊,用于從所述目標語句對應的句法分析結果中提取主語和賓語;
實體屬性對建立模塊,用于依據提取得到的主語和賓語,建立實體-屬性對;以及
實體屬性對保存模塊,用于保存所述實體-屬性對;
所述裝置還包括:
第一置信度確定模塊,用于在所述實體屬性對保存模塊保存所述實體-屬性對之前,確定所述實體-屬性對對應的第一置信度;
則所述實體屬性對保存模塊,具體用于在所述第一置信度超過第一置信度閾值時,保存所述實體-屬性對;
所述第一置信度確定模塊包括:
第一特征提取子模塊,用于針對所述實體-屬性對,提取對應的獨立特征和/或聯合特征;其中,所述獨立特征用于表示所述實體-屬性對中實體或者屬性自身的特征,所述聯合特征用于表示所述實體-屬性對中實體和關鍵屬性的特征;以及
第一置信度計算子模塊,用于依據所述實體-屬性對對應的獨立特征和/或聯合特征,確定對應的第一置信度;
其中,所述獨立特征包括如下特征中的至少一種:所述實體或者屬性或者關鍵屬性對應詞匯在實體-屬性對集合中的詞頻、共現詞數、分布熵和在實體-屬性對中作為后綴的次數;和/或
所述聯合特征包括如下特征中的至少一種:所述實體-屬性對或者實體-關鍵屬性對在實體-屬性對集合中的共現信息、互相的條件概率和獨立特征的差值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710062815.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:生成頁面的方法及裝置
- 下一篇:一種云系統的跨目錄的數據分類資料集合
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





