[發明專利]一種提升句向量語義的方法、系統及存儲介質在審
| 申請號: | 201810990905.6 | 申請日: | 2018-08-28 |
| 公開(公告)號: | CN109408802A | 公開(公告)日: | 2019-03-01 |
| 發明(設計)人: | 劉浪;肖龍源;蔡振華;李稀敏;劉曉葳;譚玉坤;王靜 | 申請(專利權)人: | 廈門快商通信息技術有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 廈門仕誠聯合知識產權代理事務所(普通合伙) 35227 | 代理人: | 樂珠秀 |
| 地址: | 361007 福建省廈門*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞向量 向量 文本 權重 語義 存儲介質 去除 句子 分詞處理 分詞結果 句子語義 命名實體 停用詞 賦予 加權 | ||
1.一種提升句向量語義的方法,其特征在于,包括以下步驟:
a.對當前句子進行上下文擴展,得到擴展文本;
b.對所述擴展文本進行命名實體識別,得到所述擴展文本的實體詞;
c.對所述擴展文本進行分詞處理,并對分詞結果去除所述實體詞和去除停用詞,得到非實體詞;
d.對所述實體詞和所述非實體詞分別計算詞向量,并且,對所述實體詞的詞向量賦予第一權重,對所述非實體詞的詞向量賦予第二權重;
e.根據所述實體詞和所述非實體詞的詞向量及對應的權重,計算所有詞向量的加權平均值,作為當前句子的句向量。
2.根據權利要求1所述的一種提升句向量語義的方法,其特征在于:所述的步驟a中,對當前句子進行上下文擴展,是指將當前句子向上和/或向下擴展至三個句子以上。
3.根據權利要求1或2所述的一種提升句向量語義的方法,其特征在于:所述的步驟a中,若當前句子為文本的中間句子,則所述擴展文本包括當前句子、當前句子的上一個句子、當前句子的下一個句子;若當前句子為文本的第一個句子,則所述擴展文本包括當前句子和當前句子的下兩個句子;若當前句子為文本的最后一個句子,則所述擴展文本包括當前句子和當前句子的上兩個句子。
4.根據權利要求1所述的一種提升句向量語義的方法,其特征在于:所述的步驟b中,對所述擴展文本進行命名實體識別,是采用實體詞典庫對所述擴展文本進行匹配處理以獲取所述擴展文本的實體詞,和/或,采用統計機器學習的方法進行識別所述擴展文本的實體詞;其中,所述統計機器學習的方法包括:隱馬爾可夫模型HMM、最大熵ME、支持向量機SVM、條件隨機場CRF。
5.根據權利要求1或4所述的一種提升句向量語義的方法,其特征在于:所述的步驟b中,進一步對所述實體詞進行基于tf-idf算法提取關鍵詞,得到關鍵實體詞;并對所述關鍵實體詞賦予第三權重,且所述第三權重大于所述第一權重或所述第二權重。
6.根據權利要求1所述的一種提升句向量語義的方法,其特征在于:所述的步驟c中,去除停用詞,是通過查找停用詞表,并將分詞結果中存在于所述停用詞表中的詞語作為停用詞去除;并且,進一步將去除停用詞后的詞語進行詞性還原。
7.根據權利要求1所述的一種提升句向量語義的方法,其特征在于:所述的步驟d中,所述第一權重大于所述第二權重。
8.一種提升句向量語義的系統,其特征在于,包括:
文本擴展模塊,用于對當前句子進行上下文擴展,得到擴展文本;
實體識別模塊,用于對所述擴展文本進行命名實體識別,得到所述擴展文本的實體詞;
分詞處理模塊,用于對所述擴展文本進行分詞處理,并對分詞結果去除所述實體詞和去除停用詞,得到非實體詞;
詞向量計算模塊,用于對所述實體詞和所述非實體詞分別計算詞向量,并且,對所述實體詞的詞向量賦予第一權重,對所述非實體詞的詞向量賦予第二權重;
句向量計算模塊,其根據所述實體詞和所述非實體詞的詞向量及對應的權重,計算所有詞向量的加權平均值,作為當前句子的句向量。
9.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲計算機指令,所述計算機指令被處理器執行時實現如權利要求1-7任一項所述的提升句向量語義的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門快商通信息技術有限公司,未經廈門快商通信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810990905.6/1.html,轉載請聲明來源鉆瓜專利網。





