[發明專利]短語聚類方法、裝置、設備及存儲介質有效
| 申請號: | 202010581172.8 | 申請日: | 2020-06-23 |
| 公開(公告)號: | CN111737468B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 勾震;馬丹;曾增烽 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/151;G06F40/186;G06F40/216;G06N3/0464;G06N3/08 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 劉挽瀾 |
| 地址: | 518033 廣東省深圳市福田區益田路5033號*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 短語 方法 裝置 設備 存儲 介質 | ||
本發明涉及人工智能,公開了一種短語聚類方法、裝置、設備及存儲介質。該方法包括:獲取待處理的短語;對字符組合中每個字符進行向量化處理,得到每個字符的字符向量,并按照短語中的字排序對所有字符向量進行排序組合,得到短語對應的短語向量;對短語向量依次進行卷積計算與池化處理,得到卷積向量;對卷積向量賦予權重,以及對賦予權重后的卷積向量進行回歸計算,得到結果向量;將結果向量輸入預置聚類模型進行分類處理,得到短語對應的種類。此外,本發明還涉及區塊鏈技術,用戶的隱私信息可存儲于區塊鏈中。在本發明實施例中,解決新出現的短語無法被分類的技術問題,提高了深度學習處理文本的能力。
技術領域
本發明涉及人工智能領域,尤其涉及一種短語聚類方法、裝置、設備及存儲介質。
背景技術
隨著信息化不斷深入,人們的數據不斷擴展,越來越多的人使用網絡辦理自己的事務。在保險單的問題咨詢時,人工網絡答復人們的問題,成本不僅高而且效率也不高,使人們開始不斷尋找新的方法去解決網絡自動答復的問題。因此不僅需要減少回復人們對保險單的疑問的成本,還需要能準確答復人們的問題。
在傳統的解決方案中,使用詞頻特征對短語進行表示,根據詞頻來反映語意內容不能準確反映真實語意。因此興起一種新的處理方式,使用開源Word2Vec工具對文本內容的處理簡化為K維向量空間中的向量運算,使用向量空間上的相似度可以用來表示文本語義上的相似度。但是這種新興的處理方法無法解決在語料詞庫之外的詞語的分類問題,需要能解決新的詞語分類問題的方案。
發明內容
本發明的主要目的在于解決現有短語分類方式無法對新詞語進行分類的技術問題。
本發明第一方面提供了一種短語聚類方法,包括:
獲取待處理的短語,并基于所述短語查詢預置短語語料庫;
若所述預置短語語料庫中不存在所述短語時,對所述短語進行字拆分處理,得到所述短語的字符組合;
對所述字符組合中每個字符進行向量化處理,得到每個字符的字符向量,并按照所述短語中的字排序將得到的所有字符向量進行排序組合,得到所述短語的短語向量;
對所述短語向量進行卷積計算與池化處理,得到卷積向量;
對所述卷積向量賦予權重,以及對賦予權重后的所述卷積向量進行回歸計算,得到結果向量;
將所述結果向量輸入預置聚類模型進行分類處理,得到所述短語對應的種類。
可選的,在本發明第一方面的第一種實現方式中,所述對所述字符組合中每個字符進行向量化處理,得到每個字符的字符向量包括:
基于短語語料庫與字符向量轉換表之間的對應關系,從預置存儲盤中獲取與所述短語語料庫對應的字符向量轉換表;
根據所述字符組合中的字符查詢所述字符向量轉換表,得到所述字符組合中每個字符對應的字符向量。
可選的,在本發明第一方面的第二種實現方式中,所述按照所述短語中的字排序對將得到的所有字符向量進行排序組合,得到所述短語的短語向量包括:
將所有所述字符向量按照所述短語的字排序依次排序組合,得到字符向量序列,并計算所述字符向量序列的字節長度;
判斷所述字符向量序列的字節長度是否超過預置模板長度;
若超過預置模板長度,則以所述字符向量序列中第一排序的字符向量為始點,向后截取序列段,得到所述短語的短語向量,其中,所述序列段的字節長度等于所述預置模板長度;
若未超過預置模板長度,則通過零向量填充的方式,在所述字符向量序列的最后插入所述零向量,直至所述字符向量序列的長度等于所述預置模板長度為止,得到所述短語的短語向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010581172.8/2.html,轉載請聲明來源鉆瓜專利網。





