[發明專利]基于字向量與自注意力機制的語義相似度計算方法在審
| 申請號: | 201810823575.1 | 申請日: | 2018-07-25 |
| 公開(公告)號: | CN109145290A | 公開(公告)日: | 2019-01-04 |
| 發明(設計)人: | 宋士祺;于丁文;宮俊 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/951;G06F16/332 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 王志強;李洪福 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 向量 語義相似度 句子 注意力機制 語義信息 漢字 知識庫 相似度計算 方案解決 模型計算 位置編碼 向量表示 準確率 語料 替換 搜集 網絡 | ||
本發明提供一種基于字向量與自注意力機制的語義相似度計算方法,S1、面向指定領域搜集、爬取網絡語料知識庫,并生成每一個漢字的字向量表示;S2、字向量依次替換句子S1、S2中的每一個漢字生成句向量;對句子S1、S2中的每一個字向量依次進行位置編碼與注意力機制模型計算得到句子的語義信息向量;S3、對得到的語義信息向量A′1、A′2進行相似度計算,獲得兩個向量之間的語義相似度。本發明的技術方案解決了現有技術中的句子的語義相似度計算準確率與速度不足的的問題。
技術領域
本發明涉及自然語言處理技術領域,具體而言,尤其涉及一種基于字向量與自注意力機制的語義相似度計算方法。
背景技術
句子相似度計算廣泛應用于信息檢索、機器翻譯、文本挖掘、自動問答系統等領域。如基于實例的問答系統,需要計算自然問句與數據庫中實例的句子語義相似度,返回最相似問題的答案。由于中文的一詞多義以及口語的靈活多變等特性,提高句子的語義相似度計算是自然語言領域一個亟待解決的問題。
傳統的計算語義相似度主要分為兩種:一種是基于數理統計的方法,一種是基于機器學習的方法。基于數理統計的方法是根據詞頻、詞性等進行統計計算,并沒有真正涉及語義信息的計算。基于機器學習的方法是根據知識庫來建立語義關系模型,但沒有完整考慮整個句子的中詞與詞之間的語義信息。
發明內容
根據上述提出句子的語義相似度計算準確率與速度不足的技術問題,而提供一種基于字向量與自注意力機制的語義相似度計算方法。本發明主要利用通過位置編碼與自注意力機制計算可以更好的獲得句子的語義信息,從而提高語義相似度計算的準確率與速度。
本發明采用的技術手段如下:
一種基于字向量與自注意力機制的語義相似度計算方法,包括:
S1、面向指定領域搜集、爬取網絡語料知識庫,并生成每一個漢字的字向量表示。
S2、字向量依次替換句子S1、S2中的每一個漢字生成句向量。
對句子S1、S2中的每一個字向量依次進行位置編碼與注意力機制模型計算得到句子的語義信息向量。
S3、對得到的語義信息向量A'1、A′2進行相似度計算,獲得兩個向量之間的語義相似度。
進一步地,步驟S1中,具體包括以下步驟:
S11、使用集搜客進行網絡語料爬取,獲取相應語料。
S12、對語料進行預處理,去除停用詞、標點符號、無用數字等,整理獲得原始語料知識庫。
S13、對單獨每一個句子按照字進行切分,以句子為訓練單位單個漢字依次輸入Word2vec工具的CBOW算法生成維度為Model的字向量模型。
因為,字包含的語義比詞的語義要豐富,并且字的數量遠遠小于詞的數量,訓練時間與參數要小很多,還能夠避免因為分詞錯誤導致的語義錯誤。
進一步地,步驟S2中,具體包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810823575.1/2.html,轉載請聲明來源鉆瓜專利網。





