[發明專利]一種文摘生成方法及裝置在審
| 申請號: | 201611111235.3 | 申請日: | 2016-12-02 |
| 公開(公告)號: | CN106599148A | 公開(公告)日: | 2017-04-26 |
| 發明(設計)人: | 王偉 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京集佳知識產權代理有限公司11227 | 代理人: | 劉曉菲,王寶筠 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文摘 生成 方法 裝置 | ||
1.一種文摘生成方法,其特征在于,所述方法包括:
獲取待處理文本的關鍵詞集合,并分別計算所述關鍵詞集合中各個關鍵詞的權重,所述關鍵詞用于表達所述待處理文本的內容,所述關鍵詞的權重表示所述關鍵詞在所述待處理文本中的重要程度;
以句子為單位對所述待處理文本進行劃分,得到目標句子;
確定所述目標句子中包含的關鍵詞,并根據所述目標句子中包含的關鍵詞的數量和關鍵詞的權重得到所述目標句子的第一相似度;
根據所述目標句子的第一相似度得到所述目標句子是否能夠加入文摘的判斷結果。
2.根據權利要求1所述的方法,其特征在于,所述根據所述目標句子中包含的關鍵詞的數量和關鍵詞的權重得到所述目標句子的第一相似度包括:
將所述目標句子中包含的關鍵詞的權重之和與所述包含的關鍵詞的數量的乘積作為所述目標句子的第一相似度。
3.根據權利要求1或2所述的方法,其特征在于,所述方法還包括:
確定所述目標句子與所述關鍵詞集合之間的語義相關度,和/或所述目標句子在所述待處理文本中的位置;
所述根據所述目標句子中包含的關鍵詞的數量和關鍵詞的權重得到所述目標句子的第一相似度包括:
根據所述目標句子與所述關鍵詞集合之間的語義相關度和所述目標句子在所述待處理文本中的位置的至少其一,以及所述目標句子中包含的關鍵詞的數量和關鍵詞的權重得到所述目標句子的第一相似度。
4.根據權利要求3所述的方法,其特征在于,所述確定所述目標句子與所述關鍵詞集合之間的語義相關度包括:
對所述目標句子進行分詞,得到各個特征詞;
分別計算所述關鍵詞集合中各個關鍵詞與所述目標句子的各個特征詞之間的詞相似度;
根據所述關鍵詞集合中各個關鍵詞與所述目標句子的各個特征詞之間的詞相似度,利用加權二部圖的最大權重匹配算法來得到所述目標句子與所述關鍵詞集合之間的語義相關度。
5.根據權利要求1所述的方法,其特征在于,所述方法還包括:
獲取所述目標句子與已加入文摘的文摘句之間的第二相似度;
所述根據所述目標句子的第一相似度得到所述目標句子是否能夠加入文摘的判斷結果包括:
根據所述目標句子的第一相似度和所述第二相似度得到所述目標句子是否能夠加入文摘的判斷結果。
6.根據權利要求5所述的方法,其特征在于,所述獲取所述目標句子與已加入文摘的文摘句之間的第二相似度包括:
獲取所述目標句子與所述已加入文摘的文摘句的重合詞,并計算所述重合詞的權重,所述重合詞的權重表示所述重合詞在所述文本中的重要程度;
根據所述目標句子中包含的重合詞的數量和重合詞的權重,得到所述目標句子與已加入文摘的文摘句之間的第二相似度。
7.根據權利要求6所述的方法,其特征在于,所述根據所述目標句子中包含的重合詞的數量和重合詞的權重,得到所述目標句子與已加入文摘的文摘句之間的第二相似度包括:
將所述目標句子中包含的重合詞的權重之和,與包含的重合詞的數量的乘積,作為所述目標句子與已加入文摘的文摘句之間的第二相似度。
8.根據權利要求6或7所述的方法,其特征在于,所述獲取所述目標句子與已加入文摘的文摘句之間的第二相似度還包括:
獲取所述目標句子與所述已加入文摘的文摘句之間的語義相似度;
所述根據所述目標句子中包含的重合詞的數量和重合詞的權重,得到所述目標句子與已加入文摘的文摘句之間的第二相似度包括:
根據所述目標句子中包含的重合詞的數量和重合詞的權重,以及所述目標句子與所述已加入文摘的文摘句之間的語義相似度,得到所述目標句子與已加入文摘的文摘句之間的第二相似度。
9.根據權利要求5所述的方法,其特征在于,所述方法還包括:
若所述目標句子為對所述待處理文本進行劃分得到的句子集合中第一相似度最高的句子,則將所述目標句子加入所述文摘作為首個文摘句。
10.根據權利要求1所述的方法,其特征在于,所述獲取待處理文本的關鍵詞集合包括:
獲取所述待處理文本的特征詞,并獲取所述特征詞的第一參數和第二參數,所述第一參數表示利用ATF*PSF算法得到的所述特征詞在所述待處理文本中的頻率信息,所述第二參數表示利用TextRank算法得到的所述特征詞在所述待處理文本中的重要程度;
根據所述特征詞的第一參數和第二參數選取所述待處理文本的關鍵詞集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611111235.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種瀏覽器瀏覽記錄的管理方法及裝置
- 下一篇:一種工程文本的編碼方法





