[發明專利]一種文本摘要的提取方法及裝置在審
| 申請號: | 201911164417.0 | 申請日: | 2019-11-25 |
| 公開(公告)號: | CN111125348A | 公開(公告)日: | 2020-05-08 |
| 發明(設計)人: | 李函擎 | 申請(專利權)人: | 北京明略軟件系統有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/35;G06F16/958;G06F40/284 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 劉靜 |
| 地址: | 100000 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 摘要 提取 方法 裝置 | ||
本申請提供了一種文本摘要的提取方法及裝置,其中,該方法包括:獲取待分析文本中各個句子的關鍵詞,并針對每個所述句子,得到該句子中各個關鍵詞的權重;基于該句子中各個關鍵詞的詞向量,以及該句子中所述各個關鍵詞的權重,確定該句子所對應的句子向量;基于所述待分析文本中各個句子分別對應的句子向量,確定各個句子的重要性分數;基于各個所述句子的重要性分數,從各個句子中確定目標句子,并將所述目標句子確定為所述待分析文本的文本摘要。本申請中,能夠從待分析文本中提取出更好的表征待分析文本涵義的目標句子,提高文本摘要提取的準確度。
技術領域
本申請涉及信息技術領域,尤其是涉及一種文本摘要的提取方法及裝置。
背景技術
隨著互聯網技術的不斷發展,在為廣大用戶提供豐富信息的同時,網絡上的數據量也與日俱增,為了使用戶能夠獲取目標信息,需要對一些文本信息進行摘要提取處理。
現有技術中,可以通過網頁排名(PageRank)的方法對文本信息進行摘要提取,PageRank是谷歌(Google)公司創辦人拉里佩奇發明的一種基于圖的排序模型,可以將數據之間的關系用圖的形式表示,PageRank的研究對象可以是網頁、社交網絡中的用戶乃至文章中的句子或詞語,其應用范圍十分廣泛。
但是,申請人在研究中發現,現有技術中,利用PageRank的方法提取出的文本摘要往往不能夠準確地表達出文本的主要信息,造成按照該方法得到的文本摘要存在一定的偏差。
發明內容
本申請至少提供一種文本摘要的提取方法及裝置,能夠減少文本摘要的提取過程中產生的誤差。
第一方面,本申請實施例提供了一種文本摘要的提取方法,包括:
獲取待分析文本中各個句子的關鍵詞,并針對每個所述句子,得到該句子中各個關鍵詞的權重;
基于該句子中各個關鍵詞的詞向量,以及該句子中所述各個關鍵詞的權重,確定該句子所對應的句子向量;
基于所述待分析文本中各個句子分別對應的句子向量,確定各個句子的重要性分數;
基于各個所述句子的重要性分數,從各個句子中確定目標句子,并將所述目標句子確定為所述待分析文本的文本摘要。
一種可選實施方式中,所述獲取待分析文本各個句子中的關鍵詞,包括:
對所述待分析文本中各個句子進行分詞處理,得到各個句子分別對應的分詞詞匯;
針對每個所述句子,從該句子對應的分詞詞匯中,確定該句子的關鍵詞;
所述關鍵詞包括:所述分詞詞匯中的名詞、動詞、以及形容詞中一種或者多種。
一種可選實施方式中,所述針對每個所述句子,得到該句子中各個關鍵詞的權重,包括:
基于各個關鍵詞在所述句子中的順序,針對任意連續的N個關鍵詞,建立所述任意連續的N個關鍵詞中,每兩個關鍵詞之間建立關聯關系;
針對該句子中的任一關鍵詞,基于該任一關鍵詞與其他關鍵詞之間的關聯關系,確定以該任一關鍵詞為起點的第一關聯關系數,以及以該任一關鍵詞為終點的第二關聯關系數;
基于所述第一關聯關系數、所述第二關聯關系數,得到該任一關鍵詞的權重;
基于得到的任一關鍵詞的權重,進行多輪迭代,直至達到預設迭代截止條件。
一種可選實施方式中,所述基于該句子中各個關鍵詞的詞向量,以及該句子中所述各個關鍵詞的權重,確定該句子所對應的句子向量,包括:
基于該句子中各個關鍵詞的權重,對該句子中各個關鍵詞的詞向量進行加權平均處理,得到該句子對應的句子向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略軟件系統有限公司,未經北京明略軟件系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911164417.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種金融數據云存儲安保系統
- 下一篇:一種預測海積超軟土流變強度的計算方法





