[發明專利]搜索結果信息組織方法和裝置有效
| 申請號: | 201410400557.4 | 申請日: | 2014-08-14 |
| 公開(公告)號: | CN104133916B | 公開(公告)日: | 2019-01-15 |
| 發明(設計)人: | 呉先超 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F16/9537 | 分類號: | G06F16/9537;G06F16/36 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 胡彬;路凱 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 搜索 結果 信息 組織 方法 裝置 | ||
1.一種搜索結果信息組織方法,其特征在于,包括:
使用語義角色標注器對原始語料進行語義角色標注,得到標注有成分屬性的不同句子成分;其中,所述語義角色標注器采用管程結構;
按照不同的句子成分在原始語料中的成分屬性進行歸類排列,形成知識條目,其中,所述知識條目中記錄有原始語料中包括謂詞和論元的句子主干信息;
將與挖掘目標關聯的知識條目,按照時間關系和/或空間關系整合形成所述挖掘目標的知識圖譜;
其中,使用語義角色標注器對原始語料進行語義角色標注包括:
利用預先訓練的語料庫對所述原始語料進行語義分析,以獲取所述原始語料中的謂詞;
通過命名實體識別NER獲取所述原始語料中的其他句子成分;
其中,在獲取所述原始語料中的謂詞之后,所述方法還包括:
檢查所述謂詞的上下文中是否出現預設詞對信息中除所述謂詞的其他成分,其中,所述預設詞對信息中包含有參考謂詞的固定搭配,所述參考謂詞已標明語義分類;
如果出現了所述預設詞對信息中除所述謂詞的其他成分,則使用不同的語義分類標記對原始語料中的謂詞進行標注;
將原始語料按照謂詞的標注結果進行聚類整合。
2.根據權利要求1所述的方法,其特征在于,在利用預先訓練的語料庫對從互聯網獲取的所述原始語料進行語義分析之前,還包括:
使用預先生成的深層神經網絡DNN泛化詞典將所述挖掘目標的關鍵字進行泛化,以獲取至少一個泛化詞;
將所述泛化詞添加為所述挖掘目標的關鍵字,采用所述關鍵字在互聯網中搜索獲取所述原始語料。
3.根據權利要求2所述的方法,其特征在于,根據語義角色標注結果形成知識條目包括:
利用所述DNN泛化詞典對所述語義角色標注結果中的詞進行歸一化,以形成所述知識條目。
4.根據權利要求1-3任一所述的方法,其特征在于,所述挖掘目標為人物姓名或組織名稱,則將與挖掘目標關聯的知識條目,按照時間關系整合形成所述挖掘目標的知識圖譜包括下述至少一項:
在所述知識條目中進行查詢獲取包括所述挖掘目標的知識條目,并按照時間順序進行排序,以獲取所述挖掘目標的履歷圖譜;
在所述知識條目中進行查詢獲取包括所述挖掘目標的關聯人物或關聯組織的知識條目,并按照時間順序進行排序,以獲取所述挖掘目標的關聯人物圖譜或關聯組織圖譜;
在所述知識條目中進行查詢獲取包括所述挖掘目標,且發生時間在設定時間范圍內的知識條目,并按照時間順序進行排序,以獲取所述挖掘目標的新聞圖譜。
5.根據權利要求1-3任一所述的方法,其特征在于,在形成所述挖掘目標的知識圖譜之后,還包括:
在用戶輸入的搜索式與挖掘目標匹配時,將所述挖掘目標的知識圖譜作為搜索結果向用戶顯示。
6.一種搜索結果信息組織裝置,其特征在于,包括:
語義角色標注模塊,用于使用語義角色標注器對原始語料進行語義角色標注,得到標注有成分屬性的不同句子成分;其中,所述語義角色標注器采用管程結構;
知識條目形成模塊,用于按照不同的句子成分在原始語料中的成分屬性進行歸類排列,形成知識條目,其中,所述知識條目中記錄有原始語料中包括謂詞和論元的句子主干信息;
知識圖譜形成模塊,用于將與挖掘目標關聯的知識條目,按照時間關系和/或空間關系整合形成所述挖掘目標的知識圖譜;
其中,所述語義角色標注模塊包括:
語義分析單元,用于利用預先訓練的語料庫對所述原始語料進行語義分析,以獲取所述原始語料中的謂詞;
命名實體識別單元,用于通過命名實體識別NER獲取所述原始語料中的其他句子成分;
所述語義角色標注模塊還包括:
謂詞語義分類單元,用于在獲取所述原始語料中的謂詞之后,檢查所述謂詞的上下文中是否出現預設詞對信息中除所述謂詞的其他成分,其中,所述預設詞對信息中包含有參考謂詞的固定搭配,所述參考謂詞已標明語義分類;如果出現了所述預設詞對信息中除所述謂詞的其他成分,則使用不同的語義分類標記對原始語料中的謂詞進行標注;將原始語料按照謂詞的標注結果進行聚類整合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410400557.4/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





