[發明專利]基于深度神經網絡的自然語言語義分析系統及方法在審
| 申請號: | 201710172099.7 | 申請日: | 2017-03-22 |
| 公開(公告)號: | CN107015963A | 公開(公告)日: | 2017-08-04 |
| 發明(設計)人: | 李鵬華;趙芬;孫健;朱智勤;程安宇;米怡 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30;G06N3/04 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙)11350 | 代理人: | 湯東鳳 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;85 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 神經網絡 自然語言 語義 分析 系統 方法 | ||
1.一種基于深度神經網絡的自然語言語義分析系統及方法,其特征在于,包括以下步驟:
(1)構建知識圖,用知識圖作為實體構造的知識表示方法,以期基于此建立出知識表示準確的實體;以長短文本為語義知識資源,知識圖為語義表示方法,構建一種基于深度神經網絡下的自然語言語義知識圖,利用構建的知識圖對自然語言中的實體進行描述;
(2)輸入訓練集;
(3)利用基于統計的分詞方法中的N-Gram算法,N-Gram模型思想:一個單詞的出現與其上下文環境中出現的單詞序列密切相關,第n個詞的出現只與前面n-1個詞相關,而與其它任何詞都不相關,設W1,W2,…,Wn是長度為n的字串,由于預測詞Wn的出現概率,必須知道它前面所有詞的出現概率,太過復雜;為了簡化計算,規定任意詞Wi只與其前兩個相關,得到三元概率模型如下:
P(W)≈P(W1)P(W2/W1)∏i=3…n P(Wi/IWi-2Wi-1) (1)
以此類推,N元模型就是假設當前詞的出現概率只同它前面的N-1個詞有關而得出的;
(4)利用word2vec將詞表征為向量,得到矩陣作為輸入;Word2vec以文本語料庫作為輸入,首先在訓練文本數據集中構建一個詞匯表,然后訓練出每個單詞的詞向量作為輸出,產生的詞向量文件可以作為特征向量供后續的自然語言處理和機器學習等算法使用;Word2Vec模型提取文本中詞匯的位置關系,提取詞匯的上下文信息,生成詞匯的向量模型;詞匯可以通過數值向量量化表示,詞匯之間的相似度可以由向量計算得到;
(5)利用深度置信網絡模型進行實體識別,實體識別的目的是識別出數據集中描述同一真實世界實體的元組;利用深度置信網絡模型進行基于特征的實體關系抽取任務;
(6)輸入驗證集,調整分類器參數;
(7)輸入測試集,測試模型的分類能力;
(8)采用知識圖的方法,對語言描述中的實體進行推理;
(9)得到相應結論;構建基于深度置信網絡的知識圖,實現對自然語言語義的分析和理解,有利于可視化或分類,得出相應的結論。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710172099.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:觸摸屏用實體鍵盤及POS機
- 下一篇:一種觸控條藍牙鍵盤





