[發明專利]字母向量計算方法、系統、存儲介質及電子設備在審
| 申請號: | 202110942877.2 | 申請日: | 2021-08-17 |
| 公開(公告)號: | CN113743053A | 公開(公告)日: | 2021-12-03 |
| 發明(設計)人: | 梁吉光;黃艷香 | 申請(專利權)人: | 上海明略人工智能(集團)有限公司 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06F40/242;G06F40/30 |
| 代理公司: | 青島清泰聯信知識產權代理有限公司 37256 | 代理人: | 梁春艷 |
| 地址: | 200030 上海市徐匯區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 字母 向量 計算方法 系統 存儲 介質 電子設備 | ||
本申請公開了一種字母向量計算方法、系統、存儲介質及電子設備,方法包括:獲取字典步驟:提取預訓練中文字向量模型中的漢字并形成字典;獲取二元組步驟:遍歷所述字典中的漢字,獲取所述漢字中的尖團字,并將所述漢字的拼音拆分構成字母串;還原步驟:將所述漢字的拼音還原為尖團音并拆分為字母字符串;計算步驟:計算還原尖團音之后的漢語拼音字符串中每個漢語拼音在所述漢字中所分得的向量;獲取字母向量步驟:根據還原尖團音之后的所述漢語拼音字符串中每個所述漢語拼音字母在所述漢字中所分得的所述向量,計算獲取漢字拼音字母向量。本發明豐富了只基于字或詞粒度的向量表示。
技術領域
本發明屬于字母向量計算領域,具體涉及一種字母向量計算方法、系統、存儲介質及電子設備。
背景技術
近年來,詞嵌入(wordembedding)在自然語言處理領域多項任務中取得了矚目的成績,也吸引了眾多研究人員的關注。在中文詞嵌入中,研究人員大多只關注字和詞維度的embedding,而對漢語拼音字母的關注比較少。漢語拼音是對漢字讀音的注解,也是一種漢字語義的體現。
現有技術中詞嵌入基于字或詞做embedding,很少考慮讀音,更沒有融合尖團音做漢語拼音字母embedding的相關研究了。
發明內容
本申請實施例提供了一種字母向量計算方法、系統、存儲介質及電子設備,以至少解決現有的字母向量計算方法沒有融合尖團音做漢語拼音字母embedding的相關研究的問題。
本發明提供了一種字母向量計算方法,其中,包括:
獲取字典步驟:提取預訓練中文字向量模型中的漢字并形成字典;
獲取二元組步驟:遍歷所述字典中的漢字,獲取所述漢字中的尖團字,并將所述漢字的拼音拆分構成字母串,根據所述漢字和所述字母串構建二元組;
還原步驟:將所述漢字的拼音還原為尖團音并拆分為字母字符串;
計算步驟:根據所述漢字與所述漢字對應的還原尖團音之后的所述字母字符串,計算還原尖團音之后的漢語拼音字符串中每個漢語拼音在所述漢字中所分得的向量;
獲取字母向量步驟:根據還原尖團音之后的所述漢語拼音字符串中每個所述漢語拼音字母在所述漢字中所分得的所述向量,計算獲取漢字拼音字母向量。
上述字母向量計算方法,其中,所述獲取字典步驟包括:
模型獲取步驟:獲取預訓練中文字向量模型,所述預訓練中文字向量模型為N維向量字向量模型;
提取步驟:提取所述N維向量字向量模型中的漢字形成字典。
上述字母向量計算方法,其中,所述計算步驟包括:
倒排步驟:根據所述漢字與所述漢字對應的還原尖團音之后的漢語拼音構成的所述字母串,對所述漢字和所述字母串進行倒排;
向量計算步驟:根據所述漢字與所述漢字對應的還原尖團音之后的所述字母字符串、倒排結果以及向量計算公式計算所述字符串中每個漢語拼音字母的在所述漢字中所分得的向量。
上述字母向量計算方法,其中,所述獲取二元組步驟包括:
如果所述漢字是多音字則所述漢字可以拆分為多個由漢語拼音字母構成的所述字母串。
本發明還提供了一種字母向量計算系統,其中,包括:
獲取字典模塊,所述獲取字典模塊提取預訓練中文字向量模型中的漢字并形成字典;
獲取二元組模塊,所述獲取二元組模塊遍歷所述字典中的漢字,獲取所述漢字中的尖團字,并將所述漢字的拼音拆分構成字母串,根據所述漢字和所述字母串構建二元組;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海明略人工智能(集團)有限公司,未經上海明略人工智能(集團)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110942877.2/2.html,轉載請聲明來源鉆瓜專利網。





