[發明專利]一種搜索信息的摘要自動生成方法及裝置有效
| 申請號: | 202110587256.7 | 申請日: | 2021-05-27 |
| 公開(公告)號: | CN113268651B | 公開(公告)日: | 2023-06-06 |
| 發明(設計)人: | 李涓子;祝方韋;侯磊;涂尚卿;張鵬;唐杰;許斌 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/9035;G06F16/9038;G06F16/9032;G06N3/044;G06N3/047;G06N3/084 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 鄭朝然 |
| 地址: | 100084 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 搜索 信息 摘要 自動 生成 方法 裝置 | ||
1.一種搜索信息的摘要自動生成方法,其特征在于,包括:
獲取搜索信息對應的網頁文本集,所述搜索信息是屬于第一實體類別的信息;
將所述網頁文本集輸入訓練好的主題檢測模型,輸出所述網頁文本集對應的主題文本簇集合,其中,所述訓練好的主題檢測模型是基于攜帶有主題標簽的網頁樣本文本訓練得到的,所述訓練好的主題檢測模型用于為網頁文本集中每一段文本尋找最符合的主題,對于每個主題,將同一主題的文本段落拼接起來,得到網頁文本集對應的主題文本簇集合;
將所述主題文本簇集合輸入訓練好的摘要生成模型,所述訓練好的摘要生成模型中使用門控循環單元,預測將生成摘要中每一個句子的主題概率分布,其中,所述每一個句子的主題概率分布,是基于上一句的向量表示和隱狀態通過全連接神經網絡確定的;
基于所述每一個句子的主題概率分布,輸出含有主題信息的向量表示;基于指針生成網絡模型對所述含有主題信息的向量表示進行分析,生成所述搜索信息的摘要,其中,所述訓練好的摘要生成模型是基于攜帶有摘要文本標簽的樣本主題文本簇訓練得到的。
2.根據權利要求1所述的搜索信息的摘要自動生成方法,其特征在于,所述獲取搜索信息對應的網頁文本信息,包括:
將所述搜索信息輸入搜索引擎,得到搜索信息對應的第一百科網頁和第一非百科網頁;
對所述第一非百科網頁進行篩選,得到第一非百科目標網頁;
基于所述第一非百科目標網頁中的文本信息,確定所述搜索信息對應的網頁文本集。
3.根據權利要求1所述的搜索信息的摘要自動生成方法,其特征在于,所述將所述網頁文本集輸入訓練好的主題檢測模型,輸出所述網頁文本集對應的主題文本簇集合之前,所述方法還包括:
獲取多個網頁樣本文本和每個所述網頁樣本文本對應的主題標簽;
將每個網頁樣本文本和所述主題標簽的組合作為一個第一訓練樣本,獲取多個第一訓練樣本;
利用多個所述第一訓練樣本對預設主題檢測模型進行訓練,在滿足第一預設訓練條件的情況下,結束訓練,得到訓練好的主題檢測模型。
4.根據權利要求3所述的搜索信息的摘要自動生成方法,其特征在于,所述獲取多個網頁樣本文本和每個所述網頁樣本文本對應的主題標簽之前,所述方法還包括:
獲取第一實體類別對應的百科網頁文本集;
根據所述百科網頁文本集中段標題的出現次數,確定所述第一實體類別對應的主題標簽。
5.根據權利要求3所述的搜索信息的摘要自動生成方法,其特征在于,所述獲取多個網頁樣本文本和每個所述網頁樣本文本對應的主題標簽之前,所述方法還包括:
將所述第一實體類別對應的搜索樣本信息集輸入搜索引擎,得到所述搜索樣本信息集對應的第二百科網頁和第二非百科網頁;
按照所述第二非百科網頁的搜索排名順序進行篩選,得到第二非百科目標網頁;
基于所述第二非百科目標網頁中的文本信息,確定所述第一實體類別對應的網頁樣本文本。
6.一種搜索信息的摘要自動生成裝置,其特征在于,包括:
獲取單元,用于獲取搜索信息對應的網頁文本集,所述搜索信息是屬于第一實體類別的信息;
處理單元,用于將所述網頁文本集輸入訓練好的主題檢測模型,輸出所述網頁文本集對應的主題文本簇集合,其中,所述訓練好的主題檢測模型是基于攜帶有主題標簽的網頁樣本文本訓練得到的,所述訓練好的主題檢測模型用于為網頁文本集中每一段文本尋找最符合的主題,對于每個主題,將同一主題的文本段落拼接起來,得到網頁文本集對應的主題文本簇集合;
生成單元,用于將所述主題文本簇集合輸入訓練好的摘要生成模型,所述訓練好的摘要生成模型中使用門控循環單元,預測將生成摘要中每一個句子的主題概率分布,其中,所述每一個句子的主題概率分布,是基于上一句的向量表示和隱狀態通過全連接神經網絡確定的;
基于所述每一個句子的主題概率分布,輸出含有主題信息的向量表示;基于指針生成網絡模型對所述含有主題信息的向量表示進行分析,生成所述搜索信息的摘要,其中,所述訓練好的摘要生成模型是基于攜帶有摘要文本標簽的樣本主題文本簇訓練得到的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110587256.7/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





