[發明專利]一種基于詞匯語義和句法依存的情感關鍵句識別方法有效
| 申請號: | 201410425148.X | 申請日: | 2014-08-27 |
| 公開(公告)號: | CN104281645B | 公開(公告)日: | 2017-06-16 |
| 發明(設計)人: | 馮沖;廖純;劉至潤;黃河燕 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 詞匯 語義 句法 依存 情感 關鍵 識別 方法 | ||
1.一種基于詞匯語義和句法依存的中文情感關鍵句識別方法,其特征在于,包括以下步驟:
步驟一、語料預處理:對待識別的語料集的每一個句子進行分詞、詞性標注得到帶有詞性標注的語料集合T;
步驟二、候選情感關鍵句生成:分別將T中的每一個句子與領域相關的情感詞典DEL和關鍵詞詞典KL進行匹配,選擇既含有情感詞又含有關鍵詞的句子作為候選情感關鍵句,記候選情感關鍵句的集合為A;
步驟三、SVM分類器分類:從情感詞特征、關鍵詞特征、依存模板特征和位置特征四個方面對集合A的每個句子提取特征向量,并將特征向量置于經過訓練的SVM分類器中進行分類,得到情感關鍵句集合Y和非情感關鍵句集合N;
步驟四、識別完成:輸出識別結果Y;
所述領域相關的情感詞典DEL構建方法包括以下步驟:
步驟一、采用知網(Hownet)提供的情感分析用詞語集中的正面情感詞語、負面情感詞語、正面評價詞語、負面評價詞語加上由臺灣大學整理和發布的簡體中文的NTUSD構成基礎情感詞典(Basic Emotion Lexicon);
步驟二、對語料集S中的所有句子進行分詞、詞性標注后得到語料集合T,按詞性篩選出名詞、動詞和形容詞作為候選詞;
步驟三、分別計算上文構建的Basic Emotion Lexicon中每個詞與這些候選詞之間的點間互信息,關于兩個詞語w1和w2之間的點間互信息PMI(w1,w2)的計算公式如下:
其中P(w1&w2)表示w1和w2在同一個句子中共同出現的概率,P(w1)和P(w2)分別表示兩個詞語單獨出現的概率;計算過程中過濾掉P(w1&w2),P(w1),P(w2)為零的情況;P(w1&w2)、P(w1)和P(w2)都可以通過對語料集合T的統計得到,其計算公式如下:
P(w1&w2)=numsen(w1&w2)/N
P(w1)=numsen(w1)/N
P(w2)=numsen(w2)/N
其中,numsen(w1&w2)表示集合中即出現w1又出現w2的句子數,numsen(w1)表示出現w1的句子數,numsen(w2)表示出現w2的句子數,N表示語料集合T的全部句子數;
步驟四、對于Basic Emotion Lexicon中的每個詞,選取至多前5個與之點間互信息最高的候選詞作為擴展詞,與其在語料集合T中的出現頻率一起加入Basic Emotion Lexicon,并對Basic Emotion Lexicon中的每個情感詞也分別計算其在語料集合T中的出現概率,生成最終的領域相關的情感詞典DEL;
所述關鍵詞詞典的構建方法包括以下步驟:
步驟一、對語料集S中的所有句子進行分詞、詞性標注后得到語料集合T,設置語料集合T的主題個數為n,某個主題用Zt表示,其中t為1到n之間的自然數,通過LDA模型求出文檔-主題分布P(Zt|d)和主題-詞分布P(w|Zt);計算隨機跳轉概率P(Zt|w),計算公式如下:
其中,m表示語料集合T中的文檔個數,w表示一個詞,di表示語料集合T的第i篇文章,i∈{1,2,3......,m},P(di)表示文章di在語料集合T中的出現概率;
步驟二、對語料集合T中的每一篇文章按詞性選擇名詞和形容詞作為候選關鍵詞,并以這些詞為節點,分別在每一個主題下構建圖模型:圖G=(V,E),節點集合V={v1,v2,v3......vk},連接從節點vi到節點vj的邊得到邊集(vi,vj)∈E,其中k表示候選關鍵詞的個數,i,j∈{1,2,3......,k},i≠j;
確定兩個節點之間是否存在邊以及邊的方向的方法如下:
在原文中設置一個大小為window的滑動窗口,分別按照順序從第一個詞性為名詞或形容詞的詞語指向窗口內與第一個詞不同的其他詞性為名詞或形容詞的詞語,由此得到邊集E,依次遍歷集合E中的每條邊,按以下方法對每條邊設置權重:
權重設置主要考慮四個因素:位置重要性的影響力、覆蓋重要性的影響力、頻度重要性的影響力和共現重要性的影響力;對于任意兩個結點vi和vj,結點vi對vj的影響力通過其有向邊e=<vi,vj>傳遞,邊的權重wij決定了vj最終所獲得vi部分的分值大小,令wij表示結點vi和vj的整體影響力權重,α,β,γ,δ分別表示這四類不同的影響力所占的比重,且α+β+γ+δ=1,則兩節點之間的權值wij可以根據下式計算:
wij=αwpos(vi,vj)+βwcov(vi,vj)+γwfreq(vi,vj)+δwco-occur(vi,vj)
a)wpos(vi,vj)表示節點vi的位置影響力傳遞到vj的權重,計算公式如下:
其中,Out(vi)表示以vi為起點所指向的節點的集合,P(vj)表示節點vj的位置重要性得分,具體賦值方式如下:
其中,λ是一個比1大的數字,值為1.5;
b)wcov(vi,vj)表示節點vi的覆蓋影響力傳遞到vj的權重,計算公式如下:
其中,|Out(vi)|表示節點vi的出度;
c)wfreq(vi,vj)表示節點vi的頻度影響力傳遞到vj的權重,計算公式如下:
其中,Out(vi)表示以vi為起點所指向的節點的集合,f(vj)表示節點vj所代表的詞語在文章中出現的次數;
d)wco-occur(vi,vj)表示節點vi的共現影響力傳遞到vj的權重,計算公式如下:
其中,Co(vi,vj)表示節點vi,vj所代表的詞語在一定窗口內共現的次數;
步驟三、圖模型建立完畢之后,利用textrank的思想對各節點進行打分排序,用以下公式迭代計算每一個節點在特定主題下的得分:
其中,w(vj,vi)即為步驟二中求得的節點vj,vi之間的權值wji;P(zt|vi)即為步驟一中求得的P(zt|w);λ為阻尼因子,值為0.75;j:vj→vi表示節點vj在以節點vi為終點的節點集合內遍歷;按以上公式迭代前設置所有節點得分初值為1;當連續兩次迭代,所有節點得分誤差都在0.0001范圍之內時,迭代終止,將此時的得分作為每一個節點在特定主題下的得分;
步驟四、求得每一個節點在特定主題下的得分之后,按照下述公式計算每一個節點在一篇文章下的最終得分R(vi):
選取最終得分排名靠前的節點,將節點所代表的候選關鍵詞與此節點的最終得分一塊加入關鍵詞詞典KL,依此方法生成對應于語料集合T中所有文章的最終的關鍵詞詞典KL。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410425148.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:度量空間中逐個支撐點數據劃分方法
- 下一篇:無人售菜機、系統及方法





