[發明專利]短文本語義理解模板生成方法、語義理解處理方法及裝置在審
| 申請號: | 202011359958.1 | 申請日: | 2020-11-27 |
| 公開(公告)號: | CN112395885A | 公開(公告)日: | 2021-02-23 |
| 發明(設計)人: | 李曉霞 | 申請(專利權)人: | 安徽迪科數金科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/211;G06F16/33;G06F16/35 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 張乾楨 |
| 地址: | 230088 安徽省合肥市*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 語義 理解 模板 生成 方法 處理 裝置 | ||
1.一種短文本語義理解模板生成方法,其特征在于,包括:
步驟S1:收集第一預設數量的待語義理解的短文本;
步驟S2:根據第一預設數量的待語義理解的短文本生成預設基礎語義組集合,所述預設基礎語義組集合由相互之間不存在包含或被包含關系的若干預設基礎語義組組成;
步驟S3:基于第一預設數量的待語義理解的短文本生成和/或優化規則模板集合,進一步生成和/或優化預設基礎語義組集合對應的匹配模板集合,所述規則模板包括多個正則模板組件,是進行短文本語義理解匹配處理的最小單元;所述正則模板組件包括正則表達式、標點組合和關鍵字符,限定在規則模板的指定位置使用;所述匹配模板分為正式類和輔助類,各類別由若干對應的規則模板組成;
步驟S4:所述匹配模板集合結合優先級生成預設基礎語義組集合對應的預設基礎模板組集合。
2.根據權利要求1所述的方法,其特征在于,所述步驟S2根據第一預設數量的待語義理解的短文本生成預設基礎語義組集合,包括:
步驟S21:生成語義庫,所述語義庫由第一預設數量條待語義理解的短文本中所有的不重復的最小語義單元組成;所述最小語義單元指最小數量子句組合的語義;所述子句指中文標點連接文本內容再連接中文標點;所述最小數量子句組合指自然語言表述中小于最小數量的子句組合的語義不能被理解,從而不能被合理響應,達到對應最小數量的子句組合的語義能夠被理解并響應;
步驟S22:根據業務或領域預設的響應范圍對應的語義分類,將語義庫中的最小語義單元分類到若干個具有預定語義寬度的預設基礎語義組中,生成預設基礎語義組集合。
3.根據權利要求1所述的方法,其特征在于,所述步驟S3基于第一預設數量的待語義理解的短文本生成和/或優化規則模板集合,進一步生成和/或優化預設基礎語義組集合對應的匹配模板集合,包括:
步驟S31:從第一預設數量的待語義理解的短文本中挑選出同時滿足有關最小語義單元S1的2個條件的第三預設數量條待語義理解的短文本,所述最小語義單元S1被分類在預先設定的基礎語義組BSi中;
所述2個條件為:
條件一是待語義理解的短文本包含最小語義單元S1的語義;
條件二是最小語義單元S1的語義與整條待語義理解的短文本的整體語義一致;
步驟S32:從挑選出的第三預設數量條待語義理解的短文本中提取決定最小語義單元S1語義的多個最小長度組合中的關鍵字符,所述長度指其中的關鍵字符的個數;所述最小長度組合根據理解時是否產生歧義分為正式類和輔助類;
步驟S33:根據提取的每個最小長度組合中的關鍵字符的種類選取合適的正則模板組件,結合關鍵字符的相對位置,生成和/或優化最小語義單元S1對應的規則模板集合,所述關鍵字符的種類包括同義字符、禁止字符、同義亂序n次共用字符、已被部分或全部禁止的特殊字符4類;
步驟S34:根據每個最小長度組合的種類,將對應的規則模板放入對應的正式類或輔助類集合中,形成最小語義單元S1對應的預設匹配模板的集合;
步驟S35:對預先設定的基礎語義組BSi包含的其他最小語義單元,依次重復以上步驟,生成預先設定的基礎語義組BSi預設的匹配模板集合;
步驟S36:循環以上步驟,生成預設基礎語義組集合中所有預設基礎語義組的預設匹配模板集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽迪科數金科技有限公司,未經安徽迪科數金科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011359958.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種中高熱流條件下防熱前緣柵格舵
- 下一篇:一種將普通開關轉化為點開關的裝置





