[發明專利]一種采用稀疏編碼的自然語言語義深度解析算法在審
| 申請號: | 201710093898.5 | 申請日: | 2017-02-21 |
| 公開(公告)號: | CN106919556A | 公開(公告)日: | 2017-07-04 |
| 發明(設計)人: | 李鵬華;米怡;孫健;朱智勤;程安宇 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙)11350 | 代理人: | 湯東鳳 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;85 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 采用 稀疏 編碼 自然語言 語義 深度 解析 算法 | ||
技術領域
本發明涉及神經網絡對自然語言處理的領域,尤其涉及采用深置信度神經網絡和稀疏編碼方法,對自然語言進行語義深度解析的一種采用稀疏編碼的自然語言語義深度解析算法。
背景技術
現如今,自然語言語義解析在各個領域的應用十分廣泛。對于文本特征選擇時,存在語義表征不明確的問題,這主要是由于文本中詞語間出現歧義或近義而難以辨析所導致。這一問題的解決與否幾乎決定了自然語言處理的效果。由于稀疏編碼算法是一種無監督學習方法,通過尋找一組“超完備”基向量來更高效地表示樣本數據。同時其還具備編存儲能力大,具有聯想記憶能力,計算簡便,使自然信號的結構更加清晰的優點。所以本專利采用稀疏編碼的方式處理現存的這一問題,在本專利中采用稀疏編碼的方法將作為樣本數據的詞與詞間的向量空間距離拉大,使原本有相近或歧義含義的詞間的細微差別擴大化,有效的將具有歧義或近義的詞分開,使得文本中的整體語義更加符合文本作者的真實意圖,為提高處理大量自然語言語義解析的準確性提供了便利。
發明內容
本發明的目的就在于為了解決上述問題而提供一種采用稀疏編碼的自然語言語義深度解析算法。
本發明通過以下技術方案來實現上述目的:
本發明包括以下步驟:
1)采用基于統計的分詞方法。在訓練文本中,通過計算字x與字y的組合度大小,從而來判斷字x與字y是否是同一個單詞。其組合度的計算公式如下:
其中,Hxy為字x與字y的組合度大小,k為文本中xy組合的個數,n1為文本中字x的個數,n2為文本中字y的個數,N為文本的總字數。
2)采用word 2vec對分好的詞組進行轉化。將分好詞的文本語料作為word2vec的輸入文件并指定合適的訓練參數,進行中文詞向量的訓練,得到最佳的詞語對應的詞向量。
3)搭建DBN神經網絡,將轉換好的詞向量輸入DBN神經網絡中進行稀疏編碼神經網絡的訓練,得到訓練好的稀疏編碼器。稀疏編碼將多維的數據進行線性分解,進行線性轉換,表達如下:
S=MX (2)
其中,M為稀疏變換矩陣,其每一個行向量類似于小波變換中的小波基;S為線性轉換后的稀疏分量,滿足稀疏分布的要求。
4)通過步驟3)的訓練,將訓練文本的詞向量序列輸入這個訓練好的稀疏編碼器中,得到文本的稀疏特征。
5)將步驟4)中得到的稀疏特征進行分類和解析。搭建DBN神經網絡,將稀疏特征輸入DBN中,對其進行訓練,得到語義的解析結果。這個過程包括以下算法:
搭建深度置信神經網絡DBN,利用TF-IDF方法選取特征項,經過受限玻爾茲曼機RBM網絡預訓練和反向傳播BP神經網絡微調來訓練DBN網絡模型,擬合訓練數據集的分布,重構出測試數據集的分類模型。
其條件分布可表示為:
其中,σ=1/(1+e-x),為sigmoid激活函數。
RBM作為一個系統,其能量函數形式如下:
其中,θ=(W,a,b)是RBM的參數。
基于能量函數,可得到(v,h)的聯合分布概率為:
p(v,h|θ)=1/(Z(θ))e-E(v,h|θ) (6)
其中,Z(θ)為歸一化因子,為所有可視層和隱含層概率的和,即:
p(v,h|θ)對h的邊緣分布為:
RBM采用迭代的方式進行訓練,求出參數θ=(W,a,b)的最優值。利用最大似然學習可得參數的更新公式如下:
Δai=ε(<vi>data-<vi>model) (11)
Δbj=ε(<hj>data-<hj>model) (12)
其中,T為輸入樣本數目;<>data表示訓練集所定義的分布之上的數學期望;<>model表示初始模型所定義的分布之上的數學期望;ε為學習率。
本發明的有益效果在于:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710093898.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文本智能編排展示方法及裝置
- 下一篇:一種結合主題模型的文檔向量生成方法





