[發明專利]分詞方法及裝置、建立句子向量生成模型方法及裝置有效
| 申請號: | 201711080184.7 | 申請日: | 2017-11-06 |
| 公開(公告)號: | CN107729322B | 公開(公告)日: | 2021-01-12 |
| 發明(設計)人: | 英高海;林載輝;趙舒陽;朱德明;李坤;李冬梅 | 申請(專利權)人: | 廣州杰賽科技股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 梁順宜;郝傳鑫 |
| 地址: | 510310 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分詞 方法 裝置 建立 句子 向量 生成 模型 | ||
1.一種分詞方法,其特征在于,包括:
通過分詞技術對待分詞句子進行初步分詞處理,以得到若干初步分詞結果;
將所述若干初步分詞結果中的詞語轉化為詞向量;
將每一所述初步分詞結果的所述詞向量輸入句子向量生成模型,以得到每一所述初步分詞結果的第一句子向量;
根據預設算法計算所述待分詞句子的標準句子向量;
將與所述標準句子向量的相似度最高的第一句子向量所對應的初步分詞結果確定為所述待分詞句子的最終分詞結果;
其中,所述句子向量生成模型為通過句子語料庫中的每一句子的標準分詞結果的詞向量作為輸入以及對應的句子的標準句子向量作為輸出訓練循環神經網絡所生成的。
2.如權利要求1所述的一種分詞方法,其特征在于,所述將與所述標準句子向量的相似度最高的第一句子向量所對應的初步分詞結果確定為所述待分詞句子的最終分詞結果包括:
計算每一所述第一句子向量與所述標準句子向量之間的距離;其中,所述距離為余弦距離或歐式距離;
比較每一所述第一句子向量與所述標準句子向量之間的距離的數值大小關系,確定所述距離的數值最小的所述第一句子向量所對應的初步分詞結果為最終分詞結果。
3.如權利要求1所述的一種分詞方法,其特征在于,所述根據預設算法計算所述待分詞句子的標準句子向量包括:
根據sentence2vec算法計算所述待分詞句子的標準句子向量。
4.如權利要求1所述的一種分詞方法,其特征在于,所述將所述若干初步分詞結果中的詞語轉化為詞向量包括:
獲取詞向量模型,并通過詞向量模型將所述初步分詞結果中的詞語轉化為詞向量;
所述獲取詞向量模型的過程包括:
獲取目標領域的文本語料庫;
對所述文本語料庫進行預處理,其中,所述預處理包括分詞處理和去停用詞處理;
通過word2vec算法對預處理后的所述文本語料庫的數據進行訓練,以得到所述詞向量模型。
5.如權利要求1所述的一種分詞方法,其特征在于,所述句子向量生成模型為通過句子語料庫中的每一句子的標準分詞結果的詞向量作為輸入以及對應的句子的標準句子向量作為輸出訓練循環神經網絡所生成的生成過程包括:
獲取目標領域的所述句子語料庫,并對所述句子語料庫中的每一句子,通過分詞技術進行分詞以得到若干分詞結果;
根據預設選取標準從所述若干分詞結果中選取標準分詞結果;
將所述標準分詞結果中的詞語轉化為詞向量;
根據所述預設算法計算所述句子語料庫中的每一句子的標準句子向量;
搭建循環神經網絡,并通過所述句子語料庫的每一句子的詞向量作為輸入以及對應的所述句子的標準句子向量作為輸出訓練所述循環神經網絡,以得到句子向量生成模型。
6.一種建立句子向量生成模型方法,其特征在于,包括:
獲取目標領域的句子語料庫,對句子語料庫中的每一句子,通過分詞技術進行分詞以得到若干分詞結果;
根據預設選取方式從所述若干分詞結果中選取標準分詞結果;
將所述標準分詞結果中的詞語轉化為詞向量;
根據預設算法計算所述句子語料庫中的每一句子的標準句子向量;
搭建循環神經網絡,并通過所述每一句子的詞向量作為輸入以及對應的所述標準句子向量作為輸出訓練所述循環神經網絡,以得到句子向量生成模型。
7.如權利要求6所述的一種建立句子向量生成模型方法,其特征在于,所述將所述標準分詞結果中的詞語轉化為詞向量包括:
獲取詞向量模型,并通過詞向量模型將所述標準分詞結果中的詞語轉化為詞向量;
所述獲取詞向量模型的過程包括:
獲取所述目標領域的文本語料庫;
對所述文本語料庫進行預處理,其中,所述預處理包括分詞處理和去停用詞處理;
通過word2vec算法對預處理后的所述文本語料庫的數據進行訓練,以得到所述詞向量模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州杰賽科技股份有限公司,未經廣州杰賽科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711080184.7/1.html,轉載請聲明來源鉆瓜專利網。





