[發(fā)明專利]古詩關鍵詞提取、詩句生成方法、裝置、設備及介質有效
| 申請?zhí)枺?/td> | 202010738707.8 | 申請日: | 2020-07-28 |
| 公開(公告)號: | CN111859916B | 公開(公告)日: | 2023-07-21 |
| 發(fā)明(設計)人: | 劉廣 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/284;G06F40/289;G06F40/117;G06F40/242 |
| 代理公司: | 深圳眾鼎專利商標代理事務所(普通合伙) 44325 | 代理人: | 譚果林 |
| 地址: | 518000 廣東省深圳市福田*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 古詩 關鍵詞 提取 詩句 生成 方法 裝置 設備 介質 | ||
1.一種古詩關鍵詞提取方法,其特征在于,包括:
接收到詩句提取指令,獲取所述詩句提取指令中的詩句信息;
將所述詩句信息輸入古詩關鍵詞提取模型中基于BERT和古文字典的詩句標注模型中,通過所述詩句標注模型對所述詩句信息進行拆分及標注處理,得到詩句序列信息;所述詩句序列信息包括多個詩字序列信息;
通過所述古詩關鍵詞提取模型中的詩句類型識別模型識別出與所述詩句信息匹配的詩句類型;
將所述詩句序列信息輸入所述古詩關鍵詞提取模型中與所述詩句類型對應的基于CRF的類型約束模型,通過與所述詩句類型對應的所述類型約束模型對各所述詩字序列信息進行打標及約束預測處理,得到關鍵詞結果;其中,一個所述詩句類型對應一個所述類型約束模型;
獲取所述古詩關鍵詞提取模型根據(jù)所述關鍵詞結果輸出的最終關鍵詞,將所述最終關鍵詞確定為所述詩句信息的古詩關鍵詞;
所述通過所述詩句標注模型對所述詩句信息進行拆分及標注處理,得到詩句序列信息,包括:
通過所述詩句標注模型對所述詩句信息進行拆分,得到多個單獨詩字及與其對應的詩字位置;
自所述詩句標注模型中的古文字典中查詢各所述單獨詩字,獲取與各所述單獨詩字對應的聲調向量和詞性向量;
通過BERT算法,對各所述單獨詩字的所述聲調向量進行聲調標注處理,得到各所述單獨詩字的聲調信息,同時對各所述單獨詩字的所述詞性向量進行序列標注處理,得到所述單獨詩字的序列標注信息;
將所述單獨詩字的所述詩字位置、所述聲調信息和所述序列標注信息確定為所述單獨詩字的詩字序列信息,將所有所述詩字序列信息確定為詩句序列信息;
所述將所述詩句序列信息輸入所述古詩關鍵詞提取模型中與所述詩句類型對應的基于CRF的類型約束模型之前,包括:
獲取與所述詩句類型對應的詩句類型樣本集,所述詩句類型樣本集包括詩句類型樣本,所述詩句類型樣本包括詩句樣本文本信息、詩句樣本詞性信息和詩句樣本聲調信息,一個所述詩句類型樣本與一組聲調詞標簽關聯(lián);
將所述詩句類型樣本輸入含有初始約束參數(shù)的卷積神經(jīng)網(wǎng)絡模型;
對所述詩句樣本文本信息進行連續(xù)兩個字的位置進行提取,得到第一約束數(shù)組,同時對所述詩句樣本詞性信息進行連續(xù)兩個字的詞性進行提取,得到第二約束數(shù)組,以及對所述詩句樣本聲調信息進行連續(xù)兩個字的聲調進行提取,得到第三約束數(shù)組;
將所述第一約束數(shù)組、所述第二約束數(shù)組和所述第三約束數(shù)組進行拼接,得到最終約束數(shù)組;
通過CRF算法,對所述最終約束數(shù)組進行詞意特征判別,得到一組詞樣本結果;
根據(jù)所述詞樣本結果和所述聲調詞標簽確定約束損失值;
在所述約束損失值未達到預設的約束收斂條件時,迭代更新所述卷積神經(jīng)網(wǎng)絡模型的初始約束參數(shù),直至所述約束損失值達到所述預設的約束收斂條件時,將收斂之后的所述卷積神經(jīng)網(wǎng)絡模型記錄為與所述詩句類型對應的類型約束模型。
2.如權利要求1所述的古詩關鍵詞提取方法,其特征在于,所述通過所述古詩關鍵詞提取模型中的詩句類型識別模型識別出與所述詩句信息匹配的詩句類型,包括:
通過所述詩句類型識別模型識別出所述詩句信息的文字個數(shù);
根據(jù)所述文字個數(shù)確定與所述詩句信息匹配的詩句類型。
3.一種詩句生成方法,其特征在于,包括:
接收到生成指令,獲取所述生成指令中的文本信息;
通過IF-IDF算法,提取出所述文本信息中的文本關鍵詞;
將所述文本關鍵詞輸入通過關鍵詞樣本進行訓練獲得的詩句生成模型,得到詩句生成結果;所述詩句生成結果確定為根據(jù)所述文本信息生成的詩句;所述關鍵詞樣本為通過如權利要求1至2任一項所述古詩關鍵詞提取方法對所述關鍵詞樣本關聯(lián)的詩句標簽進行處理獲得。
4.如權利要求3所述的詩句生成方法,其特征在于,所述將所述文本關鍵詞輸入通過關鍵詞樣本進行訓練獲得的詩句生成模型之前,包括:
獲取詩句樣本;
通過如權利要求1至2任一項所述古詩關鍵詞提取方法對所述詩句樣本進行提取處理,得到所述詩句樣本中的古詩關鍵詞;
將所述古詩關鍵詞中的各關鍵詞確定為所述關鍵詞樣本,將所述詩句樣本確定為與所述關鍵詞樣本關聯(lián)的詩句標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經(jīng)中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010738707.8/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





