[發明專利]一種基于相似詞的漢語拼音標注方法、裝置及存儲介質在審
| 申請號: | 201910154080.9 | 申請日: | 2019-03-01 |
| 公開(公告)號: | CN109977361A | 公開(公告)日: | 2019-07-05 |
| 發明(設計)人: | 徐波 | 申請(專利權)人: | 廣州多益網絡股份有限公司;廣東利為網絡科技有限公司;多益網絡有限公司 |
| 主分類號: | G06F17/21 | 分類號: | G06F17/21;G06F17/27 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 麥小嬋;郝傳鑫 |
| 地址: | 510000 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞語 拼音標注 標注 多音字 漢語拼音 漢語拼音標注 拼音 存儲介質 文本 詞向量 相似詞 分詞 語料 備用 錯誤標注 分詞處理 模型獲取 準確率 存儲 投票 應用 | ||
本發明公開了一種基于相似詞的漢語拼音標注方法、裝置及存儲介質,該方法包括步驟:收集文本語料,根據文本語料訓練分詞模型、詞向量模型;根據分詞模型對待標注拼音的文本進行分詞處理,獲得若干個待標注詞語;當待標注詞語中含有多音字時,基于多音字,根據詞向量模型獲取待標注詞語的相似詞語;根據漢語拼音詞典和漢語拼音備用詞典對相似詞語中的多音字進行拼音標注,獲得拼音標注后的相似詞語;采用投票方法根據拼音標注后的相似詞語確定待標注詞語中的多音字的拼音并進行拼音標注;將拼音標注后的待標注詞語存儲至漢語拼音備用詞典。本發明能減少漢語拼音的錯誤標注,提高漢語拼音標注的準確率和應用拼音的可靠性。
技術領域
本發明涉及自然語言處理領域,尤其涉及一種基于相似詞的漢語拼音標注方法、裝置及存儲介質。
背景技術
在中文的自然語言處理領域,許多任務需要用到漢語拼音來解決問題,例如語言合成將文本轉為音素的過程中需要把漢語文本轉為拼音,不少信息識別任務需要提取文本的拼音信息以提高方法的泛化能力等等。
現有的漢語拼音標注方法主要采用分詞后再標注拼音的方法,用最大匹配法對文本分詞,用拼音詞典的拼音標注詞典存在的詞匯,用默認拼音標注詞典外的漢字拼音。這種方法雖然有一定的成效,但是,在分詞過程難免出現分詞錯誤的情況,從而可能導致拼音標注錯誤;并且對詞典外的詞匯用默認拼音導致多音字詞匯的可靠性不高,容易出現標注錯誤的情況。
發明內容
本發明實施例的目的是提供一種基于相似詞的漢語拼音標注方法、裝置及存儲介質,能減少漢語拼音的錯誤標注,提高漢語拼音標注的準確率和應用拼音的可靠性。
為實現上述目的,本發明實施例提供了一種基于相似詞的漢語拼音標注方法,包括以下步驟:
收集文本語料,根據所述文本語料訓練分詞模型、詞向量模型;
根據訓練后的分詞模型對待標注拼音的文本進行分詞處理,獲得若干個待標注詞語;
當任一所述待標注詞語中含有多音字時,基于所述多音字,根據訓練后的詞向量模型獲取所述待標注詞語的相似詞語;
根據預設的漢語拼音詞典和預設的漢語拼音備用詞典對所述相似詞語中的所述多音字進行拼音標注,獲得拼音標注后的相似詞語;
采用預設的投票方法根據所述拼音標注后的相似詞語確定所述待標注詞語中的所述多音字的拼音并進行拼音標注;
將拼音標注后的待標注詞語存儲至所述漢語拼音備用詞典。
作為上述方案的改進,所述方法還包括:
當任一所述待標注詞語中含有單音字時,根據所述漢語拼音詞典中獲取所述單音字的拼音并進行拼音標注。
作為上述方案的改進,所述收集文本語料,根據所述文本語料訓練分詞模型、詞向量模型,具體包括:
收集文本語料;其中,所述文本語料包括新聞、小說、劇本和對話語料;
根據所述文本語料對預設的第一模型進行訓練,獲得所述訓練后的分詞模型;其中,所述第一模型為隱馬爾可夫模型或神經網絡分詞模型;
根據所述文本語料對預設的第二模型進行訓練,獲得所述訓練后的詞向量模型;其中,所述第二模型為word2vec模型、fasttext模型或glove模型。
作為上述方案的改進,所述根據所述文本語料對預設的第一模型進行訓練,獲得所述訓練后的分詞模型,具體包括:
基于最大匹配分詞算法,根據所述文本語料對所述第一模型進行訓練,獲得所述訓練后的分詞模型。
作為上述方案的改進,所述根據訓練后的分詞模型對待標注拼音的文本進行分詞處理,獲得若干個待標注詞語,具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州多益網絡股份有限公司;廣東利為網絡科技有限公司;多益網絡有限公司,未經廣州多益網絡股份有限公司;廣東利為網絡科技有限公司;多益網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910154080.9/2.html,轉載請聲明來源鉆瓜專利網。





