[發(fā)明專利]文本處理方法、裝置、電子設備及存儲介質在審
| 申請?zhí)枺?/td> | 202111478093.5 | 申請日: | 2021-12-06 |
| 公開(公告)號: | CN114238562A | 公開(公告)日: | 2022-03-25 |
| 發(fā)明(設計)人: | 李向林 | 申請(專利權)人: | 廣東明創(chuàng)軟件科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/295 |
| 代理公司: | 深圳市智圈知識產權代理事務所(普通合伙) 44351 | 代理人: | 苗燕 |
| 地址: | 523860 廣東省東莞市長*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 裝置 電子設備 存儲 介質 | ||
1.一種文本處理方法,其特征在于,所述方法包括:
獲取待處理文本,所述待處理文本為與待查詢文本匹配度最高的答案文本;
獲取所述待處理文本所包括的答案句與所述待查詢文本的相關度得分;以及
獲取所述待處理文本所包括的答案句對應的實體重要度得分;
基于所述相關度得分和所述實體重要度得分,從所述待處理文本所包括的答案句中確定所述待處理文本的關鍵答案句。
2.根據權利要求1所述的方法,其特征在于,所述獲取所述待處理文本所包括的答案句與所述待查詢文本的相關度得分,包括:
按照預設分隔符將所述待處理文本劃分為多個答案句;
將所述多個答案句和所述待查詢文本輸入到文本匹配模型中,獲取所述文本匹配模型輸出的所述多個答案句與所述待查詢文本的相關度得分。
3.根據權利要求2所述的方法,其特征在于,所述獲取所述待處理文本所包括的答案句對應的實體重要度得分,包括:
將所述多個答案句輸入到實體識別模型中,獲取所述實體識別模型輸出的所述多個答案句各自對應的命名實體;
獲取所述多個答案句中,每個答案句所包括的命名實體各自對應的歷史搜索頻次;
基于所述歷史搜索頻次,確定每個答案句所包括的命名實體各自對應的重要度得分;
將每個答案句各自所包括的目標命名實體對應的重要度得分,作為每個答案句各自的實體重要度得分,所述目標命名實體為對應答案句中所包括的命名實體中對應的重要度得分最高的命名實體。
4.根據權利要求3所述的方法,其特征在于,所述獲取所述多個答案句中,每個答案句所包括的命名實體各自對應的歷史搜索頻次,包括:
將所述多個答案句中,每個答案句所包括的命名實體鏈接到知識圖譜中;
獲取所述所述多個答案句中,每個答案句所包括的命名實體各自對應的歷史搜索頻次。
5.根據權利要求1所述的方法,其特征在于,所述基于所述相關度得分和所述實體重要度得分,從所述待處理文本所包括的答案句中確定所述待處理文本的關鍵答案句,包括:
將所述相關度得分和所述實體重要度得分進行加權融合,計算得到所述待處理文本所包括的答案句各自對應的關鍵性得分;
基于所述關鍵性得分,對所述待處理文本所包括的答案句進行排序;
將排序后對應的關鍵性得分最高的答案句,確定為所述待處理文本的關鍵答案句。
6.根據權利要求1所述的方法,其特征在于,所述獲取待處理文本,包括:
獲取待查詢文本;
根據所述待查詢文本,獲取與所述待查詢文本匹配度最高的答案文本,將所述與待查詢文本匹配度最高的答案文本作為待處理文本。
7.根據權利要求1-6任一所述的方法,其特征在于,所述基于所述相關度得分和所述實體重要度得分,確定所述待處理文本的關鍵答案句之后還包括:
對所述待處理文本的關鍵答案句進行高亮顯示;以及
為所述關鍵答案句中的命名實體配置對應的超鏈接。
8.一種文本處理裝置,其特征在于,所述裝置包括:
文本獲取單元,用于獲取待處理文本,所述待處理文本為與待查詢文本匹配度最高的答案文本;
第一得分獲取單元,用于獲取所述待處理文本所包括的答案句與所述待查詢文本的相關度得分;以及
第二得分獲取單元,用于獲取所述待處理文本所包括的答案句對應的實體重要度得分;
確定單元,用于基于所述相關度得分和所述實體重要度得分,從所述待處理文本所包括的答案句中確定所述待處理文本的關鍵答案句。
9.一種電子設備,其特征在于,包括一個或多個處理器;一個或多個程序被存儲在所述存儲器中并被配置為由所述一個或多個處理器執(zhí)行權利要求1-7任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東明創(chuàng)軟件科技有限公司,未經廣東明創(chuàng)軟件科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111478093.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種針對非均勻軌跡序列的預測方法
- 下一篇:標記機構





