[發明專利]摘要提取方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202011412961.5 | 申請日: | 2020-12-03 |
| 公開(公告)號: | CN112597295A | 公開(公告)日: | 2021-04-02 |
| 發明(設計)人: | 楊洋;張瀚林 | 申請(專利權)人: | 京東數字科技控股股份有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 張大威 |
| 地址: | 100176 北京市北京經濟*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 摘要 提取 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種摘要提取方法,其特征在于,包括:
讀取會話中的多個句子,以及讀取關鍵字數據庫;其中,所述關鍵字數據庫中存儲有多個關鍵字,以及每個所述關鍵字對應的標簽;
將每個所述句子與關鍵字數據庫中的關鍵字匹配,以得到每個所述句子在所述關鍵字數據庫中的匹配關鍵字;
根據每個所述句子在所述關鍵字數據庫中的匹配關鍵字,確定每個所述句子在所述關鍵字數據庫中的匹配標簽數量;所述匹配標簽數量,是在所述關鍵字數據庫中匹配關鍵字所對應標簽的數量;
根據每個所述句子在所述關鍵字數據庫中的匹配標簽數量,確定每個所述句子為摘要句子的概率;
根據所述概率,從所述多個句子中選取目標句子,以將所述目標句子作為所述會話的摘要。
2.根據權利要求1所述的摘要提取方法,其特征在于,所述關鍵字數據庫為多個,所述根據每個所述句子在所述關鍵字數據庫中的匹配標簽數量,確定每個所述句子為摘要句子的概率,包括:
查詢多個所述關鍵字數據庫的權重;
對每個所述句子,根據所述多個關鍵字數據庫的權重,以及每個所述關鍵字數據庫中的匹配標簽數量,確定加權數量;
根據每個所述句子的所述加權數量,確定每個所述句子為摘要句子的概率。
3.根據權利要求2所述的摘要提取方法,其特征在于,所述根據每個所述句子的所述加權數量,確定每個所述句子為摘要句子的概率,包括:
對每個所述句子進行類型識別,以確定每個所述句子的類型;其中,所述類型,用于表征每個所述句子屬于疑問句類型或非疑問句類型;
查詢每個所述句子的類型所對應的分值;其中,所述疑問句類型對應的分值大于所述非疑問句類型對應的分值;
對每個所述句子,根據所述加權數量與所述分值,確定每個所述句子為摘要句子的概率。
4.根據權利要求3所述的摘要提取方法,其特征在于,所述對每個所述句子進行類型識別,以確定每個所述句子的類型,包括:
采用分類模型對每個所述句子進行類型識別,以確定每個所述句子的類型;其中,所述類型包括多個所述疑問句類型和非疑問句類型,所述多個疑問句類型分別對不同對象進行提問。
5.根據權利要求1所述的摘要提取方法,其特征在于,所述根據所述概率,從所述多個句子中選取目標句子之前,還包括:
確定每個所述句子在所述會話中的順序;
根據每個所述句子的順序,確定每個所述句子的系數;其中,順序在前的句子的系數大于順序在后的句子的系數;
根據每個所述句子的系數,對每個所述句子的概率進行修正。
6.根據權利要求1-5任一項所述的摘要提取方法,其特征在于,所述將每個所述句子與關鍵字數據庫中的關鍵字匹配,以得到每個所述句子在所述關鍵字數據庫中的匹配關鍵字,包括:
將每個所述句子進行分詞,以得到每個所述句子的多個文本片段;
對每個所述句子,將所述多個所述文本片段與所述關鍵字數據庫中的關鍵字匹配,以得到所述關鍵字數據庫中的匹配關鍵字。
7.根據權利要求1-5任一項所述的摘要提取方法,其特征在于,所述根據每個所述句子在所述關鍵字數據庫中的匹配關鍵字,確定每個所述句子在所述關鍵字數據庫中的匹配標簽數量,包括:
確定每個所述句子在所述關鍵字數據庫中的匹配關鍵字所對應的標簽;
對每個所述句子的匹配關鍵字所對應的標簽去重后進行計數,以得到所述匹配標簽數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東數字科技控股股份有限公司,未經京東數字科技控股股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011412961.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種水泥窯生產用脫氮燃燒方法
- 下一篇:一種便于規整可調節的電線桿支架





