[發明專利]一種基于語形特征的語義識別分析方法在審
| 申請號: | 201910919960.0 | 申請日: | 2019-09-26 |
| 公開(公告)號: | CN110728152A | 公開(公告)日: | 2020-01-24 |
| 發明(設計)人: | 宋凌俊 | 申請(專利權)人: | 宋凌俊 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06N3/08 |
| 代理公司: | 32320 南京禾易知識產權代理有限公司 | 代理人: | 張松云 |
| 地址: | 311507 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡 語義分析 語義識別 輸出 語句 語言數據資源 正則表達式 前向傳播 語義背景 語義場景 網絡 二叉樹 特征集 算法 稠密 分析 篩選 | ||
1.一種基于語形特征的語義識別分析方法,其特征在于,包括如下步驟:
確定問語的特征集,從一級到若干級逐級與二叉樹的各級左、右分支對應的分支特征集進行交集運算,根據交集的大小,逐級確定分支直至定位到一定深度的二叉樹分支上,再將此分支對應的語句集逐句與問語正則匹配,得到與問語語義最相似的待定語;
從待定語網絡中確定可能答語,在待定語網絡中將上述第一步得到的與問語最相似待定語的后續語句作為問語的若干可能答語;
將問語作為語義分析神經網絡的輸入,以若干答語包含的詞包括可代替變元的詞作為輸出,對語義分析神經網絡進行前向傳播,得到輸出詞節點的值,根據詞節點的輸出值,取輸出值較大者代替變元,再以可能答語的平均值最大者為最終答語。
2.根據權利要求1所述的基于語形特征的語義識別分析方法,其特征在于:所述語義分析神經網絡包括輸入層、中間層和輸出層;選擇中文詞、字作為輸入層、中間層和輸出層的節點,在輸入層和中間層、中間層和輸出層之間加入若干間隔層,將節點之間的權值和節點偏置值隨機初始化,并設置激活函數;以前后相續的問語和答語作為語義分析神經網絡訓練的一組對象,將輸入層中屬于問語的詞節點激活,其余不激活,將輸出層中屬于答語的詞節點包括可代替變元的詞作為輸出節點。
3.根據權利要求2所述的基于語形特征的語義識別分析方法,其特征在于:所述語義分析神經網絡的前向傳播方法得到輸出節點的網絡輸出,與目標值進行誤差計算,再將誤差用后向傳播方法進行神經網絡權值和偏置值修改,經過多輪訓練,使誤差減小到設定值以下。
4.根據權利要求3所述的基于語形特征的語義識別分析方法,其特征在于:所述輸入層至中間層組成第一子神經網絡,中間層至輸出層組成第二子神經網絡,在神經網絡的前向傳播過程中,對中間層屬于問語的詞節點給與前向傳播高輸出,其余節點給與低輸出,在神經網絡的后向傳播中,根據設定輸出對于中間層的相關偏導予以修正。
5.根據權利要求1所述的基于語形特征的語義識別分析方法,其特征在于:所述待定語句集的具體獲取方式為,逐句統計一系列對話式語言文本,將不同語句中具有相同臨近詞的詞采用變元替換,生成各待定語句且每個變元對應一個集合,集合內的成員即各語句中變元所在處的詞,所有待定語句組成待定語句集。
6.根據權利要求5所述的基于語形特征的語義識別分析方法,其特征在于:所述對話式語句包括由邏輯關聯的前后兩句話,并分別稱作問語和答語。
7.根據權利要求1所述的基于語形特征的語義識別分析方法,其特征在于:所述分支特征集的具體獲取方式為,將待定語句集中每一語句的詞包括變元取值范圍中的詞作為該句的特征集,將待定語句集的第一句作為第一分類的成員句,并將此句特征集作為該分類的初始特征集,接著逐句求得語句特征集與若干分類的特征集的交集大小,將交集從大到小排序;若排序滿足第1交集大于排序第2交集且大于等于設定閾值,則將該句加入排序第1交集對應的分類且將該句的特征集與此分類特征集的并集作為此分類的新特征集;若排序不滿足第1交集大于排序第2交集且大于等于設定閾值,則將該句作為新增分類的第一個成員句,將該句的特征集作為新增分類的特征集,重復上述過程,直到將待定語句集中所有語句聚類成若干分類,并獲得分類特征集;對所述所有分類特征集進行若干級二叉樹逐級二分,二分過程隨機,直至最后一級二叉樹分支對應的分類數量小于設定閾值,并將各分支對應的所有分類特征集的并集作為各級二叉樹下左、右分支對應的分支特征集。
8.根據權利要求7所述的基于語形特征的語義識別分析方法,其特征在于:將待定語句集逐句進行二叉樹歸類:從一級到若干級將語句的特征集與各級左、右分支對應的分支特征集進行交集運算,根據交集的大小,將語句歸入左或右分支對應的語句集,歸類后將該語句與所歸分支的下一級左、右分支進行同樣的操作,直至歸入最高一級的左或右分支對應的語句集。
9.根據權利要求5所述的基于語形特征的語義識別分析方法,其特征在于:將所述待定語句集中的每一語句作為節點,根據語句間的相續關系,生成待定語網絡,其中相同的待定語為同一節點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于宋凌俊,未經宋凌俊許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910919960.0/1.html,轉載請聲明來源鉆瓜專利網。





