[發明專利]字母向量計算方法、系統、存儲介質及電子設備在審

申請號：	202110942877.2	申請日：	2021-08-17
公開（公告）號：	CN113743053A	公開（公告）日：	2021-12-03
發明（設計）人：	梁吉光;黃艷香	申請（專利權）人：	上海明略人工智能（集團）有限公司
主分類號：	G06F40/126	分類號：	G06F40/126;G06F40/242;G06F40/30
代理公司：	青島清泰聯信知識產權代理有限公司 37256	代理人：	梁春艷
地址：	200030 上海市徐匯區***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	字母向量計算方法系統存儲介質電子設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請公開了一種字母向量計算方法、系統、存儲介質及電子設備，方法包括：獲取字典步驟：提取預訓練中文字向量模型中的漢字并形成字典；獲取二元組步驟：遍歷所述字典中的漢字，獲取所述漢字中的尖團字，并將所述漢字的拼音拆分構成字母串；還原步驟：將所述漢字的拼音還原為尖團音并拆分為字母字符串；計算步驟：計算還原尖團音之后的漢語拼音字符串中每個漢語拼音在所述漢字中所分得的向量；獲取字母向量步驟：根據還原尖團音之后的所述漢語拼音字符串中每個所述漢語拼音字母在所述漢字中所分得的所述向量，計算獲取漢字拼音字母向量。本發明豐富了只基于字或詞粒度的向量表示。

技術領域

本發明屬于字母向量計算領域，具體涉及一種字母向量計算方法、系統、存儲介質及電子設備。

背景技術

近年來，詞嵌入(wordembedding)在自然語言處理領域多項任務中取得了矚目的成績，也吸引了眾多研究人員的關注。在中文詞嵌入中，研究人員大多只關注字和詞維度的embedding，而對漢語拼音字母的關注比較少。漢語拼音是對漢字讀音的注解，也是一種漢字語義的體現。

現有技術中詞嵌入基于字或詞做embedding，很少考慮讀音，更沒有融合尖團音做漢語拼音字母embedding的相關研究了。

發明內容

本申請實施例提供了一種字母向量計算方法、系統、存儲介質及電子設備，以至少解決現有的字母向量計算方法沒有融合尖團音做漢語拼音字母embedding的相關研究的問題。

本發明提供了一種字母向量計算方法，其中，包括：

獲取字典步驟：提取預訓練中文字向量模型中的漢字并形成字典；

獲取二元組步驟：遍歷所述字典中的漢字，獲取所述漢字中的尖團字，并將所述漢字的拼音拆分構成字母串，根據所述漢字和所述字母串構建二元組；

還原步驟：將所述漢字的拼音還原為尖團音并拆分為字母字符串；

計算步驟：根據所述漢字與所述漢字對應的還原尖團音之后的所述字母字符串，計算還原尖團音之后的漢語拼音字符串中每個漢語拼音在所述漢字中所分得的向量；