[發明專利]用于生成有向無環圖的方法和裝置有效
| 申請號: | 201710900009.1 | 申請日: | 2017-09-28 |
| 公開(公告)號: | CN107657035B | 公開(公告)日: | 2021-10-22 |
| 發明(設計)人: | 趙岷;秦華鵬 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/901 | 分類號: | G06F16/901;G06F16/9532 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 生成 無環圖 方法 裝置 | ||
本申請實施例公開了用于生成有向無環圖的方法和裝置。該方法的一具體實施方式包括:獲取目標網頁上的網頁文本;確定網頁文本中的概念以及概念之間的屬種關系;對確定出的概念之間的屬種關系進行處理,利用處理后的屬種關系對目標概念體系進行更新;生成用于表征更新后的概念體系的有向無環圖,其中,有向無環圖中的節點用于表征概念,有向無環圖中的邊方向用于表征概念之間的屬種關系。該實施方式提高了生成結果的豐富度。
技術領域
本申請涉及計算機技術領域,具體涉及信息處理技術領域,尤其涉及用于生成有向無環圖的方法和裝置。
背景技術
目前,文本解析相關技術與產品通常需要概念體系作為基礎特征,用于計算文本相似度或關聯度、擴展文本語義特征。現有的概念體系構建方法通常是基于領域專家手工構建或者基于領域特化的模板進行構建。但是,這種方法難以獲得通用的概念體系,無法滿足搜索、推薦等場景的需求。
發明內容
本申請實施例的目的在于提出一種改進的用于生成有向無環圖的方法和裝置,來解決以上背景技術部分提到的技術問題。
第一方面,本申請實施例提供了一種用于生成有向無環圖的方法,該方法包括:獲取目標網頁上的網頁文本;確定網頁文本中的概念以及概念之間的屬種關系;對確定出的概念之間的屬種關系進行處理,利用處理后的屬種關系對目標概念體系進行更新;生成用于表征更新后的概念體系的有向無環圖,其中,有向無環圖中的節點用于表征概念,有向無環圖中的邊方向用于表征概念之間的屬種關系。
在一些實施例中,確定網頁文本中的概念以及概念之間的屬種關系,包括:將網頁文本劃分成至少一個句子,在至少一個句子中選取包含至少兩個概念的句子;將選取出的句子轉換成特征向量并輸入預先訓練的屬種關系識別模型中,得到概念之間的屬種關系,其中,屬種關系識別模型用于表征特征向量與概念之間的屬種關系的對應關系。
在一些實施例中,概念之間的屬種關系具有權重;以及對確定出的概念之間的屬種關系進行處理,包括:對于確定出的每個概念,響應于該概念的屬概念與種概念相同,獲取該概念與該概念的屬概念之間的屬種關系的權重以及該概念與該概念的種概念之間的屬種關系的權重;刪除獲取到的權重小的屬種關系,保留獲取到的權重大的屬種關系。
在一些實施例中,對確定出的概念之間的屬種關系進行處理,包括:響應于確定出同一概念的至少一個種概念,確定至少一個種概念中不屬于網頁文本所屬領域的概念,并刪除不屬于網頁文本所屬領域的種概念。
在一些實施例中,在利用處理后的屬種關系對目標概念體系進行更新之前,該方法還包括:獲取預先確定出的至少一個領域概念體系和預先構建的預設概念體系,其中,領域概念體系由屬于同一領域的概念所組成;將至少一個領域概念體系與預設概念體系進行合并,將合并后的概念體系作為目標概念體系。
在一些實施例中,概念體系包括具有屬種關系的屬概念和種概念;以及將至少一個領域概念體系與預設概念體系進行合并,包括:確定預設概念體系中的至少一個種概念;對于確定出的每個種概念,響應于在至少一個領域概念體系中查找到該種概念,在至少一個領域概念體系中查找該種概念的至少一個種概念,并將該種概念的至少一個種概念合并到預設概念體系中。
在一些實施例中,在將至少一個領域概念體系與預設概念體系進行合并之后,該方法還包括:將屬概念與種概念均相同的至少兩個概念確定為同一概念,以預設的第一呈現方式呈現確定為同一概念的至少兩個概念;和/或確定不同領域的同名概念,以預設的第二呈現方式呈現同名概念。
第二方面,本申請實施例提供了一種用于生成有向無環圖的裝置,該裝置包括:第一獲取單元,配置用于獲取目標網頁上的網頁文本;確定單元,配置用于確定網頁文本中的概念以及概念之間的屬種關系;更新單元,配置用于對確定出的概念之間的屬種關系進行處理,利用處理后的屬種關系對目標概念體系進行更新;生成單元,配置用于生成用于表征更新后的概念體系的有向無環圖,其中,有向無環圖中的節點用于表征概念,有向無環圖中的邊方向用于表征概念之間的屬種關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710900009.1/2.html,轉載請聲明來源鉆瓜專利網。





