[發明專利]字矩陣的訓練方法及裝置有效
| 申請號: | 201911083289.7 | 申請日: | 2019-11-07 |
| 公開(公告)號: | CN110765779B | 公開(公告)日: | 2023-09-29 |
| 發明(設計)人: | 周慧超;王冉;李東軍 | 申請(專利權)人: | 蘇州躍盟信息科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 梁文惠 |
| 地址: | 215123 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 矩陣 訓練 方法 裝置 | ||
本發明公開了一種字矩陣的訓練方法及裝置。其中,該方法包括:獲取目標語句的字向量以及與字向量對應的字矩陣;依據近語義模型和近義語料數據對字矩陣進行訓練,得到第一訓練結果;依據反語義模型和反義語料數據對第一訓練結果進行訓練,得到第二訓練結果;輸出第二訓練結果中確定的目標字矩陣。本發明解決了現有技術中計算機處理自然語言時訓練出的字向量無法準確表征語義,導致計算機處理自然語言的準確性較低的技術問題。
技術領域
本發明涉及計算機技術領域,具體而言,涉及一種字矩陣的訓練方法及裝置。
背景技術
在本技術領域中,對于計算機處理自然語言而言,由于每個字、字母、數字等等只是一個沒有任何含義的編碼,這給計算機處理自然語言帶來諸多不便。
2013年Google團隊發表了Word2Vec工具,Word2Vec工具主要包含兩個模型:跳字模型(skip-gram)和連續詞袋模型(continuousbagofwords,簡稱CBOW),以及兩種近似訓練法:負采樣(negativesampl?ing)和層序softmax(hierarchicalsoftmax)。Word2Vec可以將詞或者字轉換成一個指定維度的向量,一般情況下使用100到300維的向量,它生成的詞向量可以較好地表達不同詞之間的相似和類比關系。它可以把用法相似的詞或字表達成一個每一維都是一個實數相似的稠密向量,這種低維的稠密向量便于計算機處理,大幅度提升了計算機處理自然語言的效果。
現在用的詞向量大部分是受Word2Vec啟發和其有相似的特點,利用無監督模型把用法接近的詞或字表達成相似向量。在句子“我喜歡草莓”和“我討厭草莓”中,“喜歡”和“討厭”用法相同,就造成了當前的詞向量不能區分“喜歡”和“討厭”。并且,由于漢語處理起來比較復雜,分詞并不是很容易,所以一般情況下用的是字向量。語義相似度計算,將兩句話的每一個字對應的字向量相加后得到兩句話的語義向量,但是由于向量加法運算具有交換律,即a+b=b+a,使得實際語義不同的詞語得到相同的語義向量,例如:“京東”和“東京”,“人生”和“生人”,“風扇”和“扇風”,“帶領”和“領帶”等詞的對應的語義向量是一樣的,導致計算機處理自然語言的準確性較低。
針對上述的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種字矩陣的訓練方法及裝置,以至少解決現有技術中計算機處理自然語言時訓練出的字矩陣無法準確表征語義,導致計算機處理自然語言的準確性較低的技術問題。
根據本發明實施例的一個方面,提供了一種字矩陣的訓練方法,包括:獲取目標語句的字向量以及與字向量對應的字矩陣;依據近語義模型和近義語料數據對字矩陣進行訓練,得到第一訓練結果;依據反語義模型和反義語料數據對第一訓練結果進行訓練,得到第二訓練結果;輸出第二訓練結果中確定的目標字矩陣。
根據本發明實施例的另一方面,還提供了一種字矩陣的訓練裝置,包括:獲取模塊,用于獲取目標語句的字向量以及與字向量對應的字矩陣;第一訓練模塊,用于依據近語義模型和近義語料數據對字矩陣進行訓練,得到第一訓練結果;第二訓練模塊,用于依據反語義模型和反義語料數據對第一訓練結果進行訓練,得到第二訓練結果;輸出模塊,用于輸出第二訓練結果中確定的目標字矩陣。
根據本發明實施例的另一方面,還提供了一種存儲介質,上述存儲介質包括存儲的程序,其中,在上述程序運行時控制上述存儲介質所在設備執行任意一項上述的字矩陣的訓練方法。
根據本發明實施例的另一方面,還提供了一種處理器,上述處理器用于運行程序,其中,上述程序運行時執行任意一項上述的字矩陣的訓練方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州躍盟信息科技有限公司,未經蘇州躍盟信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911083289.7/2.html,轉載請聲明來源鉆瓜專利網。





