[發明專利]中文文本匹配方法及系統有效
| 申請號: | 202010837271.8 | 申請日: | 2020-08-19 |
| 公開(公告)號: | CN111914067B | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 俞凱;呂波爾;陳露;朱蘇 | 申請(專利權)人: | 思必馳科技股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/30;G06F40/289;G06N3/08 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 黃謙;車江華 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 文本 匹配 方法 系統 | ||
本發明實施例提供一種中文文本匹配方法。該方法包括:使用多個分詞工具對中文句子對進行字級別的編碼,得到中文句子對的初始字向量;將中文句子對的初始字向量輸入至輸入層,基于知網外部知識庫確定詞向量的語義表示;通過多維圖注意力網絡分別對語義表示、詞向量的詞格進行迭代更新,輸出帶有語義表示的語義詞向量;將語義詞向量輸入至句子匹配層,確定中文句子對的最終特征表示語義字向量;基于中文句子對的最終特征表示語義字向量和多個分詞工具對中文句子對的特征表示確定匹配概率。本發明實施例還提供一種中文文本匹配系統。本發明實施例將在模型中融入了HowNet外部知識庫中的語義信息,更好地利用句子中的語義信息,匹配效果有顯著性能提升。
技術領域
本發明涉及文本匹配領域,尤其涉及一種中文文本匹配方法及系統。
背景技術
文本匹配是自然語言處理中一個重要的基礎問題,可以應用于大量的 NLP(Natural Language Processing,自然語言處理)任務中,如信息檢索、問答系統、復述問題、對話系統、機器翻譯等,這些NLP任務在很大程度上可以抽象為文本匹配問題。對于文本匹配通常會使用詞格卷積神經網絡、自然語言句子中雙向多角度匹配。
詞格卷積神經網絡:使用詞格作為輸入,在不同的n-gram文本上使用多種CNN(Convolutional Neural Networks,卷積神經網絡)卷積核提取特征,再通過池化機制對特征進行融合,以用于文本匹配。
自然語言句子中的雙向多角度匹配。使用詞作為輸入,對每個句子用 BiLSTM(Bi-directional Long Short-Term Memory,雙向長短期記憶網絡) 進行編碼,采用多種方法對兩個句子的特征進行交互,將多種交互信息結合進行分類。
在實現本發明過程中,發明人發現相關技術中至少存在如下問題:
使用詞格卷積神經網絡時,特征來源于局部信息,無法對全局信息進行融合,可能會造成模型在提取句子中某一位置的特征時,丟失了遠距離的信息。另外,該技術只使用了詞的表示,沒有將語義信息利用起來。
使用自然語言句子中的雙向多角度匹配時,雖然可以獲得句子之間的交互信息,但是由于輸入是簡單的分詞,可能會引入分詞不準確帶來的影響。另外,該技術同樣沒有利用詞的語義信息。
發明內容
為了至少解決現有技術中詞格卷積神經網絡的n-gram文本卷積只能獲得局部信息,另外使用的是詞向量表示,沒有包含顯式的語義信息。雙向多角度匹配時,輸入單元使用了分詞工具進行分詞,分詞工具無法保證分詞完全準確的問題。
第一方面,本發明實施例提供一種中文文本匹配方法,包括:
使用多個分詞工具,對中文句子對進行字級別的編碼,得到所述中文句子對的初始字向量;
將所述中文句子對的初始字向量輸入至輸入層,確定所述中文句子對的詞向量,基于知網外部知識庫,得到對應于所述詞向量的義原,確定所述詞向量的語義表示;
將所述中文句子對的詞向量以及語義表示輸入至可感知語義的圖變換層,通過多維圖注意力網絡分別對所述語義表示、所述詞向量的詞格進行迭代更新,輸出帶有語義表示的語義詞向量;
將所述語義詞向量輸入至句子匹配層,將得到所述中文句子對的語義字向量和交互語義字向量進行連接,確定所述中文句子對的最終特征表示語義字向量;
基于所述中文句子對的最終特征表示語義字向量以及所述多個分詞工具對所述中文句子對的特征表示確定匹配概率。
第二方面,本發明實施例提供一種中文文本匹配系統,包括:
編碼程序模塊,用于使用多個分詞工具,對中文句子對進行字級別的編碼,得到所述中文句子對的初始字向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于思必馳科技股份有限公司,未經思必馳科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010837271.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:光發射裝置和基于波前探測的成像裝置
- 下一篇:顯示裝置及其驅動方法





