[發明專利]基于深度語義模型與語義角色標注的句子相似度評估方法在審
| 申請號: | 201710876254.3 | 申請日: | 2017-09-25 |
| 公開(公告)號: | CN107818081A | 公開(公告)日: | 2018-03-20 |
| 發明(設計)人: | 周俏麗;楊鳳玲 | 申請(專利權)人: | 沈陽航空航天大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 沈陽優普達知識產權代理事務所(特殊普通合伙)21234 | 代理人: | 李曉光 |
| 地址: | 110136 遼寧省沈*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 語義 模型 角色 標注 句子 相似 評估 方法 | ||
技術領域
本發明涉及一種自然語言處理技術,具體為一種基于深度語義模型與語義角色標注的句子相似度評估方法。
背景技術
句子相似度(Sentence Similarity Computing)是測量兩個句子之間的語義等價性,是自然語言處理領域中十分重要而又較為基礎的研究工作。如在基于實例的機器翻譯中通過句子相似度計算匹配相似的句子作為翻譯的候選集合、在自動問答系統中問題與答案的匹配、在信息過濾中,用于剔除可能的垃圾信息、在自動文摘中通過相似度抽取文摘句子、在分類或聚類中,用來判定句子或文檔的類別等。
目前研究句子的相似度方法有呂學強等人提出的基于詞形、詞序匹配的方法;秦兵等人提出基于關鍵詞的方法;潘謙紅等人提出基于屬性論的方法;李彬等人提出的使用語義依存計算的方法;穗志方等人提出的基于骨架依存樹的方法;車萬翔等人提出的改進編輯距離的方法;程傳鵬等人提出的基于知網的句子相似度計算方法等等。
目前計算句子相似度的方法可分為三種:(1)基于詞語特征的方法,如向量空間模型、詞形、詞序等;(3)基于語義的方法:如基于語義字典的方法等;(3)基于句法分析的方法,如基于依存句法分析的句子相似度計算等。
基于詞語特征的方法只用了句子的表層信息,對于含有同義詞、反義詞等詞匯的句子得不到很好的處理。基于語義字典的方法,在一定程度上解決了基于詞語特征方法的不足,但這種方法依賴于語義字典的完備性,忽略了句子詞語之間的相互作用關系和句子深層次的句法結構。而基于依存句法分析的方法能夠挖掘句子的深層次的信息、獲取句子的組織結構和詞語間的依存關系,但目前使用的依存句法的方法只利用了句子的有效搭配對,忽略了其他詞語對句子相似度的影響。
發明內容
針對現有技術中基于語義角色標注的句子相似度計算建立在以動詞為核心的框架的相似度上,存在不能夠充分利用動詞及其支配的成分信息等不足,本發明提出了基于深度語義模型與語義角色標注的句子相似度計算的方法,從句子的句子結構、語義層面進行分析。
為解決上述技術問題,本發明采用的技術方案是:
本發明一種基于深度語義模型與語義角色標注的句子相似度評估方法,包括以下步驟:
1)建立深度語義模型:將相對較短的文本字符串映射到低語義空間中的特征向量,獲取每個句子的語義特征向量之后,利用余弦相似度來度量兩個句子之間的相似度;
2)語義角色分類處理:A0、A1、A2已有的語義角色進行保留,其他的語義角色統一作為一類語義角色進行處理;A0、A1、A2均為公開的語義角色標識;
3)謂詞相似度計算:在語義角色分類基礎上,針對多謂詞句子,根據謂詞之間的相似度的大小對句子對進行謂詞的配對,得到謂詞匹配對,分別針對多個謂詞匹配對進行語義角色的計算,得到語義角色之間的相似計算值;
4)基于語義角色的句子相似度計算:根據語義角色之間相似度計算值將一個句子的多個謂詞中每一個謂詞的多個語義角色進行語義搭配,計算語義角色的相似度,即轉化為謂詞之間以及相同語義角色之間的相似度計算;
5)句子相似度計算:將深度語義模型計算出的相似度和基于語義角色計算出的相似度兩部分進行線性組合作為句子的最終相似度。
深度語義模型模型包括詞哈希層、隱藏層以及輸出層三部分,各個層的函數如下所示:
l1=W1x(1)
li=f(Wili-1+bi),i=2,...,N-1(2)
y=f(WNlN-1+bN)(3)
其中,x為輸入向量,y為輸出向量,li,i=1,...,N-1為隱藏層的輸出,Wi表示第i權重,bi表示第i個偏置,f(*)表示tanh激活函數;
由詞哈希層生成的特征向量通過隱藏層進行投影,并在輸出層形成語義特征向量;
在獲取了每個句子的語義特征向量之后,利用余弦相似度來度量兩個句子之間的語義相似性。
謂詞配對方法如下:
通過DSSM模型進行計算句子A中第i個謂詞和句子B中第j個謂詞之間的相似度為Sij,得到兩個句子謂詞之間兩兩之間的相似度矩陣N:
其中n、m分別為兩個句子中謂詞的個數;
謂詞配對的具體算法如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽航空航天大學,未經沈陽航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710876254.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:術語識別方法及裝置
- 下一篇:結合短語結構樹的語義角色識別方法





