[發明專利]一種通用文本內容挖掘方法、裝置、服務器及存儲介質有效
| 申請號: | 201711297664.9 | 申請日: | 2017-12-08 |
| 公開(公告)號: | CN108052577B | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 楊仁凱;王浩;李瑩;張一麟 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/33;G06F16/332;G06N3/08;G06N3/04 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 通用 文本 內容 挖掘 方法 裝置 服務器 存儲 介質 | ||
1.一種通用文本內容挖掘方法,其特征在于,包括:
獲取包含目標實體以及目標特征的目標問題;其中,所述目標實體為所述目標問題在知識圖譜中匹配到的實體;所述目標特征為所述目標實體在所述知識圖譜中匹配到的屬性;
將所述目標實體、所述目標特征以及目標文本輸入預先構建的答案預測模型中,通過所述答案預測模型確定目標問題的答案在所述目標文本中的起始位置和結束位置,其中所述答案預測模型是預先依據包含樣本實體和樣本特征的樣本問題以及樣本答案在文本中的起始位置和結束位置訓練得到的,所述答案預測模型為邊界模型;
其中,獲取包含目標實體以及目標特征的目標問題之后,還包括:
將所述目標實體與所述目標特征作為問題識別模型的輸入,通過所述問題識別模型將所述目標實體的詞向量,依據知識庫確定的所述目標實體的類型,以及依據知識庫確定的所述目標實體的候選特征與所述目標特征進行比較,并依據比較結果確定所述目標實體與所述目標特征是否關聯;
若不關聯,則停止操作。
2.根據權利要求1所述的方法,其特征在于,所述答案預測模型依次包括輸入層,雙向LSTM層、關注層、兩層雙向LSTM層和輸出層,其中所述關注層用于將問題與目標文本進行雙向匹配。
3.根據權利要求1所述的方法,其特征在于,通過所述答案預測模型確定目標問題的答案在所述目標文本中的起始位置和結束位置之后,還包括:
依據答案在所述目標文本中的起始位置和結束位置確定答案內容;
將所述答案內容和所述目標特征作為預設構建的答案約束模型,通過所述答案約束模型確定所述答案內容與所述目標特征之間是否關聯;
若不關聯,則剔除答案內容。
4.一種通用文本內容挖掘裝置,其特征在于,包括:
問題獲取模塊,用于獲取包含目標實體以及目標特征的目標問題;其中,所述目標實體為所述目標問題在知識圖譜中匹配到的實體;所述目標特征為所述目標實體在所述知識圖譜中匹配到的屬性;
實體特征比較模塊,用于在獲取包含目標實體以及目標特征的目標問題之后,將所述目標實體與所述目標特征作為問題識別模型的輸入,通過所述問題識別模型將所述目標實體的詞向量,依據知識庫確定的所述目標實體的類型,以及依據知識庫確定的所述目標實體的候選特征與所述目標特征進行比較,并依據比較結果確定所述目標實體與所述目標特征是否關聯;若不關聯,則停止操作;
答案位置確定模塊,用于將所述目標實體、所述目標特征以及目標文本輸入預先構建的答案預測模型中,通過所述答案預測模型確定目標問題的答案在所述目標文本中的起始位置和結束位置,其中所述答案預測模型是預先依據包含樣本實體和樣本特征的樣本問題以及樣本答案在文本中的起始位置和結束位置訓練得到的,所述答案預測模型為邊界模型。
5.根據權利要求4所述的裝置,其特征在于,所述答案預測模型依次包括輸入層,雙向LSTM層、關注層、兩層雙向LSTM層和輸出層,其中所述關注層用于將問題與目標文本進行雙向匹配。
6.根據權利要求4所述的裝置,其特征在于,還包括:
答案內容確定模塊,用于通過所述答案預測模型確定目標問題的答案在所述目標文本中的起始位置和結束位置之后,依據答案在所述目標文本中的起始位置和結束位置確定答案內容;
內容特征關聯確定模塊,用于將所述答案內容和所述目標特征作為預設構建的答案約束模型,通過所述答案約束模型確定所述答案內容與所述目標特征之間是否關聯;若不關聯,則剔除答案內容。
7.一種服務器,其特征在于,所述服務器包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序;
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如權利要求1-3中任一所述的通用文本內容挖掘方法。
8.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現如權利要求1-3中任一所述的通用文本內容挖掘方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711297664.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種消邊緣效應的非球面鏡胚
- 下一篇:一種內接多面體的能源自給球形裝置
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





