[發明專利]字符序列處理方法及設備在審
| 申請號: | 201810257040.2 | 申請日: | 2018-03-27 |
| 公開(公告)號: | CN108595416A | 公開(公告)日: | 2018-09-28 |
| 發明(設計)人: | 陸晨昱;武擁珍;何永;李傳豐;劉杰漢 | 申請(專利權)人: | 義語智能科技(上海)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/22 |
| 代理公司: | 上海百一領御專利代理事務所(普通合伙) 31243 | 代理人: | 王奎宇;甘章乖 |
| 地址: | 201203 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞向量 向量 向量序列 連續字 連續向量 字詞混合 字符序列 語義信息 拼接 | ||
本發明的目的是提供一種字符序列處理方法及設備,提出一種結合利用詞向量和字向量的方案,提供所述連續詞向量序列中的詞向量個數與所述連續字向量序列中的字向量個數一致,所述連續字向量序列中的每一個字向量與所述連續詞向量序列中的一個詞向量對應,可以實現依序將所述連續字向量序列中的每一個字向量與所述連續詞向量序列中對應的一個詞向量拼接,得到字詞混合的連續向量序列。在本發明中,因為同時使用了詞向量和字向量,使得得到的字詞混合的連續向量序列可以包含對應的詞向量和字向量的語義信息。
技術領域
本發明涉及計算機領域,尤其涉及一種字符序列處理方法及設備。
背景技術
近幾年,隨著深度學習領域的飛速發展,越來越多的自然語言處理相關的任務也逐漸從傳統的做法轉向使用深度學習的方法,在效果上也有明顯的提升。這些任務中比較典型的有:機器翻譯,文本生成,情感分類,智能問答等。
在用深度學習的方法去做自然語言處理相關任務時,不同的任務我們會使用不同的模型,比如用Seq2Seq模型來做機器翻譯,用CNN分類器來做情感分類等。但幾乎所有任務都有共通的一步,那就是首先要將離散的字符序列轉為一個連續向量的序列。
現有的自然語言處理任務中,在將離散的中文字符序列轉為連續向量序列的任務中,有兩種方案:
一是采用字向量,具體做法是將中文字符序列中的每個字通過事先訓練好的字向量矩陣映射到一個連續向量值;
另一種方案是采用詞向量,具體做法是先將中文字符序列做分詞,再用事先訓練好的詞向量矩陣將每個詞映射到一個連續向量值。
這兩種方案都有各自的缺點。字向量的方案由于省略了分詞的步驟,直接以字為單位做映射,因而缺失了詞的語義信息;詞向量的方案則因為在分詞后可能產生一些詞表外的詞(oov),這些oov詞因為無法在詞向量矩陣中找到對應項,因而最終得到的向量值無法準確表征其語義。同時,由于分詞這一步驟不可避免的存在一定的錯誤率,導致根據錯誤分詞得到的詞向量包含了錯誤的語義信息。
發明內容
本發明的一個目的是提供一種字符序列處理方法及設備,能夠解決現有的字向量的方案缺失了詞的語義信息,而現有的詞向量的方最終得到的向量值在某些情況下無法準確表征其語義的問題。
根據本發明的一個方面,提供了一種字符序列處理方法,該方法包括:
獲取字向量矩陣和詞向量矩陣;
根據所述字向量矩陣,將待轉換字符序列中的每個字依序轉換為對應的字向量,根據依次轉換得到的各字向量得到連續字向量序列;
將所述待轉換字符序列依序進行分詞,以得到對應的詞語序列;
根據所述詞向量矩陣,依序將所述詞語序列中的每個詞,轉換為對應的詞向量,根據轉換得到的各詞向量得到連續詞向量序列,其中,所述連續詞向量序列中的詞向量個數與所述連續字向量序列中的字向量個數一致,所述連續字向量序列中的每一個字向量與所述連續詞向量序列中的一個詞向量對應;
依序將所述連續字向量序列中的每一個字向量與所述連續詞向量序列中對應的一個詞向量拼接,得到字詞混合的連續向量序列。
進一步的,上述方法中,根據所述詞向量矩陣,依序將所述詞語序列中的每個詞,轉換為對應的詞向量,根據轉換得到的各詞向量得到連續詞向量序列,包括:
根據所述詞向量矩陣,依序將所述詞語序列中的每個詞中的每個字映射到該字所屬的詞的詞向量。
進一步的,上述方法中,根據所述詞向量矩陣,依序將所述詞語序列中的每個詞中的每個字映射到該字所屬的詞的詞向量中,
若某個詞的字無法根據所述詞向量矩陣映射得到該字所屬的詞對應的詞向量,則將該字轉換為預設的詞向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于義語智能科技(上海)有限公司,未經義語智能科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810257040.2/2.html,轉載請聲明來源鉆瓜專利網。





