[發明專利]一種提取實體詞和上位詞的方法及裝置有效
| 申請號: | 201611247066.6 | 申請日: | 2016-12-29 |
| 公開(公告)號: | CN106649819B | 公開(公告)日: | 2021-04-02 |
| 發明(設計)人: | 龐偉;陳進平;蘇文杰 | 申請(專利權)人: | 北京奇虎科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 王玉雙 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提取 實體詞 上位 方法 裝置 | ||
本發明公開了一種提取實體詞和上位詞的方法,包括:基于第一網頁數據,構造第一訓練樣本;基于所述第一訓練樣本,訓練第一深度神經網絡模型;利用所述第一深度神經網絡模型,在第二網頁數據中提取實體詞和上位詞,其中,所述第二網頁數據包括所述第一網頁數據,所述上位詞與所述實體詞對應。本發明解決了現有技術中,在網頁信息中提取實體詞和上位詞時,存在效率低的技術問題,實現了高效率地在網頁信息中提取實體詞和上位詞的技術效果。同時,本發明還公開了一種提取實體詞和上位詞的裝置。
技術領域
本發明涉及搜索技術領域,尤其涉及一種提取實體詞和上位詞的方法及裝置。
背景技術
在搜索引擎中,實體詞和上位詞都是重要的基礎數據,分析用戶意圖所屬的概念范疇,縮小用戶查詢(Query)與文檔的語義距離,助益搜索引擎檢索到潛在語義相關的搜索結果。比如:用戶查詢“新入職員工是否享受福利”,而某一網頁標題為“新入職員工能否享受當年帶薪休假”,由于“休假”的上位詞是“福利”,所以用戶查詢和該網頁是語義相關的。這個例子說明上位詞可以用來解決一部分語義相關的搜索問題。實體詞和上位詞也是構建知識圖譜的基礎數據,描述概念和實體、實體和實體之間的上下位關系。因此研究實體詞和上位詞的高效挖掘方法有很多應用價值,是信息檢索領域的一項關鍵技術,也是自然語言處理領域的基本問題。
垂直領域的實體詞和上位詞,一般是由人工挖掘,準確率高,基本上容易覆蓋本領域,滿足實際應用。但是對于網頁信息檢索領域,實體詞和上位詞的數量龐大,人工挖掘的時間成本太高,導致實體詞和上位詞的提取效率很低。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的提取實體詞和上位詞的方法及裝置。
本發明的一個方面,提供了一種提取實體詞和上位詞的方法,包括:
基于第一網頁數據,構造第一訓練樣本;
基于所述第一訓練樣本,訓練第一深度神經網絡模型;
利用所述第一深度神經網絡模型,在第二網頁數據中提取實體詞和上位詞,其中,所述第二網頁數據包括所述第一網頁數據,所述上位詞與所述實體詞對應。
優選地,所述第一網頁數據為百科網頁數據。
優選地,所述基于第一網頁數據,構造第一訓練樣本,包括:
對所述百科網頁數據進行分類,獲得U類百科網頁數據,U為正整數;
基于所述U類百科網頁數據,構造所述第一訓練樣本。
優選地,所述對所述百科網頁數據進行分類,獲得U類百科網頁數據,包括:
從所述百科網頁數據中提取部分百科網頁數據;
基于所述部分百科網頁數據,構建第二訓練樣本;
基于所述第二訓練樣本,訓練第二深度神經網絡模型;
利用所述第二深度神經網絡模型,對所述百科網頁數據進行分類,獲得所述U類百科網頁數據。
優選地,所述基于所述部分百科網頁數據,構建第二訓練樣本,包括:
在所述部分百科網頁數據中的每個百科網頁中提取預設信息;
基于所述預設信息,對所述每個百科網頁進行分類,獲得M類百科網頁數據,M為正整數;
基于所述M類百科網頁數據,構建所述第二訓練樣本。
優選地,所述預設信息,包括:
詞條標題、詞條副標題、詞條摘要、詞條信息框內信息、詞條分段標題中的一種或多種。
優選地,所述基于所述M類百科網頁數據,構建所述第二訓練樣本,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司,未經北京奇虎科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611247066.6/2.html,轉載請聲明來源鉆瓜專利網。





