[發明專利]基于自然語言處理和深度學習的智能問答優化方法在審
| 申請號: | 202010364914.1 | 申請日: | 2020-04-30 |
| 公開(公告)號: | CN111639165A | 公開(公告)日: | 2020-09-08 |
| 發明(設計)人: | 陳立;徐雷 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/284;G06F40/289;G06F40/35;G06K9/62 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 吳茂杰 |
| 地址: | 210094 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 自然語言 處理 深度 學習 智能 問答 優化 方法 | ||
1.一種基于自然語言處理和深度學習的智能問答優化方法,其特征在于,包括如下步驟:
(10)中文分詞及詞向量轉換:抓取特定目標領域語意信息,將自然語言中的單詞字符轉換成計算機可以理解的N維矩陣向量;
(20)自然語言處理:給本體語義概念間關系賦予權重,使用權重計算語義距離,基于概念間語義距離描述語義相似性;
(30)語言歧義消除:通過闕值比較消除語言歧義。
2.根據權利要求1所述的智能問答優化方法,其特征在于,所述(10)中文分詞及詞向量轉換步驟包括:
(11)中文分詞:采用算法工具HanLP實現中文分詞;
(12)詞向量轉換:采用基于霍夫曼樹的訓練詞向量模型,將自然語言中的單詞字符轉換成計算機可以理解的N維矩陣向量。
3.根據權利要求1所述的智能問答優化方法,其特征在于,所述(20)自然語言處理步驟包括:
(21)計算詞形相似度:根據下式計算詞形相似度,
其中,Com(S1,S2)是句子S1和S2經分詞結果,如果某一項特征項在句子S1和S2中出現過一次,則以出現次數的最小值作為Com(S1,S2)的值,Len()代表句子的長度;
(22)計算詞序相似度:設S1和S2中均出現且只出現一次的詞匯定義為Once(S1,S2),s代表Once(S1,S2)集合中的詞匯的個數,則表示兩個句子中關鍵詞相對位置的詞序相似度計算公式為
其中定義AIN(S1,S2,s)代表句子S2中詞匯的逆序數,在Morsim(S1,S2)和OrdSim(S1,S2)中。
(23)計算句長相似度:按下式計算句長相似度LenSim(S1,S2):
(24)計算詞形、詞序、句長的權重占比:構造各層次判斷矩陣如下
計算該層次矩陣的對應的特征向量作為相似度權值。
(25)計算語義相似度:使用下式計算概念C1和概念C2的語義相似度
其中概念Ci表示所給節點與跟節點之間最短路徑的節點集合,而SemSim(C1,C2)表示概念C1和C2之間的語義距離。
4.根據權利要求3所述的智能問答優化方法,其特征在于,所述(24)權重比較步驟包括
(241)建立結構模型:綜合詞形相似度,詞序相似度,句長相似度得出句子結構相似度
StrSim(S1,S2)=
α×MorSim(S1,S2)+β×OrdSim(S1,S2)+γ×LenSim(S1,S2),
其中α、β和γ分別表示詞形相似度、詞序相似度、句長相似度的權重值且滿足α+β+γ=1,通過AHP進行結構相似度中的各個權制計算,建立遞階層次結構模型
(242)計算相似值權值:構造各層次中的判斷矩陣
計算出該矩陣的最大特征值λmax=3,對應特征向量為p=[5,5,1]τ,定義一致性指標其中λmax是最大特征值,n=特征向量的維度。依據矩陣A計算可得CI=0.查找平均隨機一致性指標RI=0.52。計算一致性比例得到CR=0,根據檢驗系數標準,當CR<0.1,判斷矩陣的一致性可接受,因此上述判斷矩陣A對應的特征向量可以作為相似度權值。
(243)計算權重:對上述矩陣特征向量p=[5,5,1]τ做歸一化處理,得到的權制向量為W=[0.455,0.455,0.09],即α=0.455、β=0.455和γ=0.09。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010364914.1/1.html,轉載請聲明來源鉆瓜專利網。





