[發明專利]一種詞語詞向量的生成方法以及相似詞的確定方法在審
| 申請號: | 202110057200.0 | 申請日: | 2021-01-15 |
| 公開(公告)號: | CN112686033A | 公開(公告)日: | 2021-04-20 |
| 發明(設計)人: | 林曉明;江金陵 | 申請(專利權)人: | 上海明略人工智能(集團)有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/289;G06F40/216;G06K9/62 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 裴素英 |
| 地址: | 200030 上海市徐匯區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 詞語 向量 生成 方法 以及 相似 確定 | ||
本申請提供了一種詞語詞向量的生成方法以及相似詞的確定方法,所述生成方法包括:獲取樣本訓練語料以及詞間關系集,構建樣本語料庫;確定樣本語料庫中各個樣本詞語的初始詞向量,得到初始語料向量集;按照詞間關系集中各個詞語相關關系的預設訓練順序,依次更新初始語料向量集中對應樣本詞語的初始詞向量,并迭代訓練所述初始語料向量集,得到所述各個樣本詞語的目標詞向量,其中,所述詞語相關關系包括弱關系,強關系以及相等關系;基于各個樣本詞語的目標詞向量,構建目標語料向量集。這樣,本申請通過在訓練過程中,引入了弱、強及相等關系詞向量替換規則信息,使得訓練得到的詞向量能有效的蘊涵關系信息,從而提高了詞向量的準確度。
技術領域
本申請涉及文本處理技術領域,尤其是涉及一種詞語詞向量的生成方法以及相似詞的確定方法。
背景技術
詞語間相似度的計算是使用計算機處理文本的一種常用方法。在計算詞語間相似度的實際場景中又分為多類:有語料、沒語料、多語料、少語料。(所謂語料即包含詞語的文檔)。在含有大量語料的場景里面,以Word2vec為代表的詞向量模型以是一種公知的有效方法:通過分詞預處理技術將語料庫分詞,然后使用預處理后的語料訓練得到詞向量,最后根據詞向量間的相似度得到詞語間的相似度。但是,當語料少的時候,雖然某些詞語互為相似詞語,但訓練得到的詞向量并不能很好的表現出詞語之間的相關性,從而也導致訓練結果準確度的偏低。
發明內容
有鑒于此,本申請的目的在于提供一種詞語詞向量的生成方法以及相似詞的確定方法,通過在訓練詞語詞向量的過程中,引入了弱關系、強關系以及相等關系詞向量替換規則信息,依次更新訓練向量集,使得訓練得到的詞語的目標詞向量能有效的蘊涵關系信息,從而提高了詞向量的準確度。
本申請實施例提供了一種詞語詞向量的生成方法,所述生成方法包括:
獲取樣本訓練語料以及詞間關系集,構建所述樣本訓練語料對應的樣本語料庫;
確定所述樣本語料庫中各個樣本詞語的初始詞向量,得到所述樣本語料庫的初始語料向量集;
按照所述詞間關系集中各個詞語相關關系的預設訓練順序,依次更新所述初始語料向量集中對應樣本詞語的初始詞向量,并迭代訓練所述初始語料向量集,得到所述各個樣本詞語的目標詞向量,其中,所述詞語相關關系包括弱關系、強關系以及相等關系;
基于所述各個樣本詞語的目標詞向量,構建所述樣本語料庫的目標語料向量集。
進一步的,通過以下步驟構建樣本語料庫:
對所述樣本訓練語料進行分詞處理,將所述樣本訓練語料拆分為多個樣本詞語;
基于所述多個樣本詞語構建所述樣本語料庫。
進一步的,所述確定所述樣本語料庫中各個樣本詞語的初始詞向量,得到所述樣本語料庫的初始語料向量集,包括:
將所述樣本語料庫中各個樣本詞語進行向量化處理,得到所述樣本語料庫中各個樣本詞語的原始向量;
使用Word2vec模型,對所述樣本語料庫中各個樣本詞語的原始向量進行訓練,得到所述樣本語料庫中各個樣本詞語的初始詞向量;
基于所述各個樣本詞語的初始詞向量,構建所述樣本語料庫的初始語料向量集。
進一步的,所述按照所述詞間關系集中各個詞語相關關系的預設訓練順序,依次更新所述初始語料向量集中對應樣本詞語的初始詞向量,并迭代訓練所述初始語料向量集,得到所述各個樣本詞語的目標詞向量,其中,所述詞語相關關系包括弱關系、強關系以及相等關系,包括:
根據所述詞間關系集的指示,從所述初始語料向量集中確定出互為弱關系的多組弱關系詞組中的每個樣本詞語的初始詞向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海明略人工智能(集團)有限公司,未經上海明略人工智能(集團)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110057200.0/2.html,轉載請聲明來源鉆瓜專利網。





