[發明專利]中文字符和拼音相結合的詞向量表示方法、裝置、介質在審
| 申請號: | 202011356716.7 | 申請日: | 2020-11-27 |
| 公開(公告)號: | CN112464655A | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 姚金良;胡創;王榮波;諶志群;黃孝喜 | 申請(專利權)人: | 紹興達道生涯教育信息咨詢有限公司;杭州電子科技大學 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/216;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 傅朝棟;張法高 |
| 地址: | 312399 浙江省紹興市上虞區曹娥*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 字符 拼音 相結合 向量 表示 方法 裝置 介質 | ||
本發明公開了一種中文字符和拼音相結合的詞向量表示方法、裝置、介質。該方法包括步驟:S11:將待轉換為詞向量表示的中文文本中每個中文字符轉化為拼音;S12:針對中文文本中每個中文字符,利用預訓練的中文字符詞嵌入模型,得到中文字符的詞向量表示;S13:針對中文文本中每個中文字符的拼音,利用預訓練的拼詞嵌入模型,得到拼音的詞向量表示;S14:針對中文文本中每個中文字符,融合兩種詞向量表示得到字符融合表示向量。本發明通過中文字符和拼音相合的方法,在可區分同音字的基礎上,建立了同音字之間的關系信息,從而能夠很好地處理同音字噪聲。本發明可以用于但不限于不良信息的過濾。
技術領域
本發明屬于計算機自然語言處理領域,公開了一種中文字符和拼音相結合的詞向量表示方法。
背景技術
互聯網的迅速發展,信息共享的時效和傳遞性得到了很大的提升,用戶可以更加高效、便捷地獲取到所需要的信息。在互聯網中,信息呈現的方式多種多樣,其中文本是最常見的。用戶不僅可以通過文本獲取信息,自身也可作為發布者來發布文本,這就使得互聯網中存在著海量的信息。然而科技往往是把雙刃劍。海量文本信息便利用戶的同時,其中也存在著不好的一面。由于文本信息的發布比較自由,大量的不良信息諸如色情、暴力、賭博、廣告等不良信息充斥其中,極大地影響著用戶的上網體驗。故而,不良信息過濾是十分必要的。
在不良信息過濾所面臨的問題中,如何去除噪聲的影響對模型的最終效果有著很大的影響。溫園旭在其《變體短文本過濾算法研究》中提出通過預處理過程來消除噪聲的影響,取得了不錯的效果。但是由于中文同音字的噪聲的特殊性,即在分類前無法判斷同音字是否為噪聲,如:“微信”,“維信”、“薇新”……是其同音字噪聲,“威信”則是可能是正常表達。還有像“或”、“活”、“火”、“貨”……這些同音字都是中文中的常用字,不應當做同音字噪聲處理。故該預處理過程無法消除同音字的影響。
不良信息過濾是典型的文本分類問題。文本分類是在預定義的分類體系下,根據文本的特征(內容或屬性),將給定文本與一個或多個類別相關聯的過程。因此,文本分類研究涉及文本內容理解和模式分類等若干自然語言理解和模式識別問題。文本分類任務的最終目的是要找到一個有效的映射函數,準確地實現域D×C到值T或F的映射,這個映射函數實際上就是我們通常所說的分類器。因此,文本分類中有兩個關鍵問題:一個是文本的表示,另一個就是分類器設計。目前最為常用的詞向量化方法,通過簡單的神經網絡訓練使特征詞得向量表示由其上下文相關的詞表示,使得最終的詞向量能夠考慮到相鄰詞與詞之間的關系。由于同音字有音相同的關系,在文本中的位置并無關系,所以這種向量化方法無法考慮到同音字間的聯系。
基于實際應用的需求和現有向量化方法無法考慮到同音字之間的關系,本發明方法提出一種中文字符和拼音相結合的詞向量表示方法。
發明內容
本發明針對實際應用中的對同音字噪聲過濾的需求以及現有技術不能很好解決同音字噪聲的現狀,提出一種中文字符和拼音相結合的詞向量表示方法。本發明方法通過在文本的表示即文本向量化階段融合了中文字符和拼音,由此得到包含同音字信息的詞向量。在后續模型的處理過程中便可根據同音字信息來識別同音字,從而降低同音字噪聲的影響。
為了實現上述發明目的,本發明具體采取如下技術方案:
第一方面,本發明提供了一種中文字符和拼音相結合的詞向量表示方法,其步驟如下:
S11:使用拼音轉換工具將待轉換為詞向量表示的中文文本中每個中文字符轉化為拼音;
S12:針對中文文本中每個中文字符,利用預訓練的中文字符詞嵌入模型,得到中文字符的詞向量表示x1;
S13:針對中文文本中每個中文字符的拼音,利用預訓練的拼音詞嵌入模型,得到拼音的詞向量表示x2;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于紹興達道生涯教育信息咨詢有限公司;杭州電子科技大學,未經紹興達道生涯教育信息咨詢有限公司;杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011356716.7/2.html,轉載請聲明來源鉆瓜專利網。





