[發明專利]信息處理方法、裝置及存儲介質在審
| 申請號: | 201910913189.6 | 申請日: | 2019-09-25 |
| 公開(公告)號: | CN110795937A | 公開(公告)日: | 2020-02-14 |
| 發明(設計)人: | 林田謙謹 | 申請(專利權)人: | 卓爾智聯(武漢)研究院有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/126;G06F16/35;G06F16/36 |
| 代理公司: | 11270 北京派特恩知識產權代理有限公司 | 代理人: | 胡亮;張穎玲 |
| 地址: | 432200 湖北省武漢市黃陂區盤龍城經*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征矩陣 嵌入 初始化 相關度 語料 網絡 存儲介質 分詞處理 關聯關系 降維處理 神經網絡 信息處理 訓練周期 構建 | ||
1.一種信息處理方法,其特征在于,所述方法包括:
對第一語料進行分詞處理,得到所述第一語料的第一詞集;所述第一詞集包含至少兩個詞;
確定所述第一詞集中任意兩個詞之間的相關度;
利用確定的所述第一詞集中任意兩個詞之間的相關度,構建第一詞共現網絡;所述第一詞共現網絡表征所述第一詞集中詞之間的關聯關系;
利用所述第一詞共現網絡的數據,結合圖卷積神經網絡GCN模型,確定第一特征矩陣;所述第一特征矩陣為第一詞共現網絡中各節點對應的特征矩陣;
對所述第一特征矩陣進行降維處理,得到詞嵌入初始化結果。
2.根據權利要求1所述的方法,其特征在于,所述確定所述第一詞集中任意兩個詞之間的相關度,包括:
利用第一指標,確定任意兩個詞之間的相關度;其中,當所述任意兩個詞滿足第一預設條件時,所述第一指標是根據所述任意兩個詞的點互信息PMI指標得到的;當所述任意兩個詞不滿足所述第一預設條件時,所述第一指標為第一值。
3.根據權利要求2所述的方法,其特征在于,所述利用第一指標,確定任意兩個詞之間的相關度時,所述方法包括:
確定兩個詞之間的第一指標;
將所述第一指標和第二指標兩者之中的較大值作為所述兩個詞之間的權重值;所述第二指標為第二值;
將所述兩個詞之間的權重值作為所述兩個詞之間的相關度。
4.根據權利要求1所述的方法,其特征在于,所述利用所述第一詞共現網絡的數據,結合GCN模型,確定第一特征矩陣,包括:
求取所述第一詞共現網絡的對稱拉普拉斯矩陣;
根據所述對稱拉普拉斯矩陣、權重矩陣的初始化參數以及第一映射函數,確定第一特征矩陣。
5.根據權利要求1所述的方法,其特征在于,所述對第一語料進行分詞處理,得到所述第一語料的第一詞集,包括:
對第一語料進行分詞處理,得到處理后的第一語料;
基于第一預設規則,對所述處理后的第一語料進行過濾處理,得到所述第一語料的第一詞集。
6.根據權利要求1所述的方法,其特征在于,所述方法還包括:
基于第二預設規則,將所述第一詞集中所有詞進行編碼,得到編碼后的詞;
利用所述編碼后的詞,確定任意兩個詞之間的相關度。
7.根據權利要求1所述的方法,其特征在于,所述方法還包括:
保存所述詞嵌入初始化結果。
8.一種信息處理裝置,其特征在于,包括:
分詞單元,用于對第一語料進行分詞處理,得到所述第一語料的第一詞集;所述第一詞集包含至少兩個詞;
第一確定單元,用于確定所述第一詞集中任意兩個詞之間的相關度;
構建單元,用于利用確定的所述第一詞集中任意兩個詞之間的相關度,構建第一詞共現網絡;所述第一詞共現網絡表征所述第一詞集中詞之間的關聯關系;
第二確定單元,用于利用所述第一詞共現網絡的數據,結合GCN模型,確定第一特征矩陣;所述第一特征矩陣為第一詞共現網絡中各節點對應的特征矩陣;
第三確定單元,用于對所述第一特征矩陣進行降維處理,得到詞嵌入初始化結果。
9.一種信息處理裝置,其特征在于,包括:處理器和用于存儲能夠在處理器上運行的可執行指令的存儲器,其中,所述處理器用于運行所述可執行指令時,執行權利要求1至7任一項所述方法的步驟。
10.一種存儲介質,其上存儲有可執行指令,其特征在于,所述可執行指令被處理器執行時實現權利要求1至7任一項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于卓爾智聯(武漢)研究院有限公司,未經卓爾智聯(武漢)研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910913189.6/1.html,轉載請聲明來源鉆瓜專利網。





