[發明專利]分詞方法及裝置、建立句子向量生成模型方法及裝置有效
| 申請號: | 201711080184.7 | 申請日: | 2017-11-06 |
| 公開(公告)號: | CN107729322B | 公開(公告)日: | 2021-01-12 |
| 發明(設計)人: | 英高海;林載輝;趙舒陽;朱德明;李坤;李冬梅 | 申請(專利權)人: | 廣州杰賽科技股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 梁順宜;郝傳鑫 |
| 地址: | 510310 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分詞 方法 裝置 建立 句子 向量 生成 模型 | ||
本發明公開了一種分詞方法,包括:通過分詞技術對待分詞句子進行初步分詞處理,以得到若干初步分詞結果;將若干初步分詞結果中的詞語轉化為詞向量;將每一初步分詞結果的詞向量輸入句子向量生成模型,以得到每一初步分詞結果的第一句子向量;根據預設算法計算待分詞句子的標準句子向量;將與標準句子向量的相似度最高的第一句子向量所對應的初步分詞結果確定為待分詞句子的最終分詞結果;其中,句子向量生成模型為通過句子語料庫中的每一句子的標準分詞結果的詞向量作為輸入以及對應的句子的標準句子向量作為輸出訓練循環神經網絡所生成的。本發明得到的分詞結果能夠有效表達語義,提高了分詞的效率與準確率。
技術領域
本發明涉及人工智能領域,尤其涉及一種分詞方法及裝置、建立句子向量生成模型方法及裝置。
背景技術
在自然語言處理中,文本分詞是其他語義分析處理的前提和基礎。對英文文本,詞自然地以空格為劃分標志,而對中文文本,詞的劃分并沒有固定的標志或規則,因為中文詞語的構成往往包含了人的主觀意志與應用語境。也因此,對同一個中文文本,可以有多種不同的分詞結果,其中有一個分詞結果,它的語義通常更為接近句子的“真實”語義。而現今常見的分詞系統有中科院的NLPIR漢語分詞系統以及結巴分詞系統等,本發明人在實施過程中發現,現有技術中存在以下技術問題:現有技術通常都是通用型的分詞工具,對特定領域的中文文本,其默認的分詞結果,往往效果欠佳,難以較好地表達真實的語義。
發明內容
本發明實施例提供一種分詞方法及裝置、建立句子向量生成模型方法及裝置,能有效解決現有技術中分詞結果無法表達真實語義的問題,得到的分詞結果能夠有效表達語義,提高了分詞的效率與準確率。
本發明實施例提供一種分詞方法,包括:
通過分詞技術對待分詞句子進行初步分詞處理,以得到若干初步分詞結果;
將所述若干初步分詞結果中的詞語轉化為詞向量;
將每一所述初步分詞結果的所述詞向量輸入句子向量生成模型,以得到每一所述初步分詞結果的第一句子向量;
根據預設算法計算所述待分詞句子的標準句子向量;
將與所述標準句子向量的相似度最高的第一句子向量所對應的初步分詞結果確定為所述待分詞句子的最終分詞結果;
其中,所述句子向量生成模型為通過句子語料庫中的每一句子的標準分詞結果的詞向量作為輸入以及對應的句子的標準句子向量作為輸出訓練循環神經網絡所生成的。
本發明實施例所提供的一種分詞方法,通過對待分詞句子通過分詞技術得到若干初步分詞結果后,將每一初步分詞結果的詞語轉化為詞向量后輸入到句子向量生成模型中,獲取與每一初步分詞結果對應的句子向量,另一方面,通過預設算法直接獲取待分詞句子的句子向量作為標準句子向量,然后將每一初步分詞結果對應的句子向量與標準句子向量進行相似度比較,將相似度最高的初步分詞結果做為最終分詞結果。本實施例使用了循環神經網絡來生成句子向量,生成的句子向量包含了詞與詞之間的語義依賴關系,基于分詞結果與句子的語義相似度的,得到的分詞結果能夠有效表達語義,提高了分詞結果優選的效率與準確率。
進一步的,所述將與所述標準句子向量的相似度最高的第一句子向量所對應的初步分詞結果確定為所述待分詞句子的最終分詞結果包括:
計算每一所述第一句子向量與所述標準句子向量之間的距離;其中,所述距離為余弦距離或歐式距離;
比較每一所述第一句子向量與所述標準句子向量之間的距離的數值大小關系,確定所述距離的數值最小的所述第一句子向量所對應的初步分詞結果為最終分詞結果。
進一步的,所述根據預設算法計算所述待分詞句子的標準句子向量包括:
根據sentence2vec算法計算所述待分詞句子的標準句子向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州杰賽科技股份有限公司,未經廣州杰賽科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711080184.7/2.html,轉載請聲明來源鉆瓜專利網。





