[發明專利]一種句子相似度的計算方法及基于該方法的輿情監督方法有效
| 申請號: | 201810148814.8 | 申請日: | 2018-02-13 |
| 公開(公告)號: | CN108363692B | 公開(公告)日: | 2021-04-02 |
| 發明(設計)人: | 馬曉敏;李為民 | 申請(專利權)人: | 成都智庫二八六一信息技術有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/289;G06F40/58 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 王記明 |
| 地址: | 610000 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 句子 相似 計算方法 基于 方法 輿情 監督 | ||
1.一種句子相似度的計算方法,包括需要進行相似度判斷的句子a和句子b,其特征在于,還包括依次進行的以下步驟:
A、從互聯網上收集到的語料庫,利用Word2Vec算法進行訓練,建立模型,將語料庫中的所有單詞映射到向量空間;
B、對句子a和句子b進行分詞處理,得到句子a的TextRank詞組a[a1,a2,...,am]和句子b的TextRank詞組b[b1,b2,...,bn];
C、將兩個詞組中的所有單詞去重后建立一個詞列表c[C1,C2,...,Ct],以列表的長度t作為句子a和句子b對應的句向量的維數,結合詞組a和詞組b構建句向量a[v11,v12,...,v1t]和句向量b[v21,v22,...,v2t];
D、根據句向量a[v11,v12,...,v1t]和句向量b[v21,v22,...,v2t]計算兩個句子的相似度sim(a,b);
所述步驟C中,對句子a的句向量的每一維v1i,根據步驟A建立的模型,計算句子對應的詞組中每一個單詞aj與所述詞列表中該位置的詞Ci的相似度model(Ci,aj),在句向量中填入最大的一個相似度值,即v1i=min[model(Ci,aj)],其中1≤i≤t,1≤j≤m,相似度范圍在0~1之間,值越大表明兩單詞越相似。
2.根據權利要求1所述的一種句子相似度的計算方法,其特征在于,所述步驟B中對句子a和句子b進行分詞處理的方法采用Jieba中文分詞工具中的TextRank方法。
3.根據權利要求1所述的一種句子相似度的計算方法,其特征在于,所述步驟D中計算兩個句子的相似度sim(a,b)的方法是:
4.根據權利要求1所述的一種句子相似度的計算方法,其特征在于,包括依次進行的以下步驟:
D、從互聯網獲取輿情事件語料,進行內容清洗后,將語料切分成短句;
E、建立情緒語料庫和情況語料庫,將描述性短句放入情況庫,表達情緒的短句放入情緒庫,并根據情緒激烈程度對短句標注權重,權重范圍為-4~4,正數表示正面情緒,負數表示負面情緒,絕對值越大代表情緒越激烈;
F、將待識別長句切分成待識別短句,分別利用所述句子相似度的計算方法,計算其與情況庫和情緒庫中語料的相似度,確定長句情緒值;
G、依照步驟F依次對某一目標長句群進行識別,得到輿情事件描述的誘因和情緒值分布。
5.根據權利要求4所述的一種句子相似度的計算方法,其特征在于,所述步驟F中確定長句情緒值的方法如下:
F1、將所有待識別短句與情況庫對比,如果待識別短句與情況庫中短句相似度都小于閾值,則認為長句不表達輿情事件;否則,進入步驟F2;
F2、繼續將所有待識別短句與情緒庫對比,如果有情緒庫中短句與待識別短句相似度大于閾值,則累加該情緒庫中短句對應的權重;最后將累加得到的權重的算術平均值作為長句情緒值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都智庫二八六一信息技術有限公司,未經成都智庫二八六一信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810148814.8/1.html,轉載請聲明來源鉆瓜專利網。





