[發明專利]跨語言非標準詞識別方法及裝置有效
| 申請號: | 202010122519.2 | 申請日: | 2020-02-27 |
| 公開(公告)號: | CN110991176B | 公開(公告)日: | 2020-07-14 |
| 發明(設計)人: | 閆啟偉;郝玉峰;黃宇凱;曹瓊;李科;宋瓊 | 申請(專利權)人: | 北京海天瑞聲科技股份有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/247 |
| 代理公司: | 北京鉦霖知識產權代理有限公司 11722 | 代理人: | 李英艷;李志新 |
| 地址: | 100083 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語言 非標準 識別 方法 裝置 | ||
1.一種跨語言非標準詞識別方法,其特征在于,所述方法包括:
獲取目標語言語料;
對所述目標語言語料進行分詞處理;
對分詞后的目標語言語料中的非標準詞進行預處理;
確定所述目標語言語料中目標詞在源語言中的替代詞向量及替代權重;
通過所述替代詞向量及替代權重,使用源語言的非標準詞識別模型,確定所述目標語言的非標準詞類別;
其中,確定所述目標語言語料中目標詞在源語言中的替代詞向量及替代權重,包括:在雙語詞典中查找目標詞對應的源語言詞;若所述目標詞在所述雙語詞典中對應一個或多個源語言詞,則將每個所述源語言詞分別作為替代詞;若所述目標詞在所述雙語詞典中無對應的源語言詞,則在目標語言詞向量模型中確定所述目標詞的向量,統計所述目標詞與目標語言中其他詞的距離并排序,確定在雙語詞典中存在對應的源語言詞且距離所述目標詞最近的詞為候選詞,將候選詞對應的源語言詞作為替代詞;基于所述目標詞設置所述替代權重;將所述源語言中的替代詞向量化得到所述替代詞向量;
其中,所述通過所述替代詞向量及替代權重,使用源語言的非標準詞識別模型,確定所述目標語言的非標準詞類別,包括:獲取所述替代詞向量構成的目標語言詞向量序列;通過所述源語言的非標準詞識別模型,得到所述詞向量序列中包含的非標準詞的類別置信度;根據所述替代權重與所述類別置信度,確定所述非標準詞的類別。
2.根據權利要求1所述的跨語言非標準詞識別方法,其特征在于,所述對分詞后的目標語言語料中的非標準詞進行預處理,包括:
將所述非標準詞中的數字轉化為固定格式,保留所述非標準詞中包含的特殊字符,所述特殊字符包括:數學符號、貨幣符號和物理符號中的任意一種或多種字符。
3.根據權利要求1所述的跨語言非標準詞識別方法,其特征在于,所述目標詞為所述分詞后的目標語言語料中完整句子的全部詞,或以非標準詞為中心上下文窗口長度內的詞。
4.根據權利要求1所述的跨語言非標準詞識別方法,其特征在于,所述基于所述目標詞設置所述替代權重包括:
若所述目標詞在所述雙語詞典中對應一個或多個源語言詞,則設置每個替代詞的所述替代權重為1;
若所述目標詞在所述雙語詞典中無對應的源語言詞,則基于所述候選詞與所述目標詞的距離確定替代權重。
5.根據權利要求1所述的跨語言非標準詞識別方法,其特征在于,所述根據所述替代權重與所述類別置信度,確定所述非標準詞的類別,包括:
設所述替代詞向量構成的目標語言詞向量序列為S,計算非標準詞N的類別是T的概率為:
其中,為非標準詞N的上下文中的第i個目標詞,為替換為替代詞的替代權重,為通過所述源語言的非標準詞識別模型計算的替代詞向量序列S屬于類別T的置信度;
所述非標準詞的類別為使值最大的類別T。
6.一種非標準詞識別模型的訓練方法,其特征在于,所述非標準詞識別模型用于如權利要求1-5任一項所述的跨語言非標準詞識別方法中,所述訓練方法包括:
獲取源語言語料;
對所述源語言語料進行分詞;
對分詞后的所述源語言語料進行預處理;
對預處理后的所述源語言語料進行向量化,得到源語言詞向量序列;
標注所述源語言語料中的非標準詞,得到包含類別信息的標注序列;
通過所述源語言詞向量序列與標注序列,訓練所述非標準詞識別模型,其中所述模型是BiLSTM+CRF模型。
7.根據權利要求6所述的非標準詞識別模型的訓練方法,其特征在于,所述方法還包括:
在獲取所述源語言語料后,建立過濾規則,保留包含非標準詞的語句;
所述過濾規則包括,利用所述源語言的合法字符集合與標點符號集合,過濾所述源語言語料中僅包含合法字符和標點符號的句子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京海天瑞聲科技股份有限公司,未經北京海天瑞聲科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010122519.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:清潔機器人及其控制方法、存儲介質
- 下一篇:物料檢測方法、裝置及電子設備





