[發(fā)明專利]一種網(wǎng)絡(luò)論壇消息的內(nèi)容相似度測(cè)量方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201810102058.5 | 申請(qǐng)日: | 2018-02-01 |
| 公開(公告)號(hào): | CN108319690A | 公開(公告)日: | 2018-07-24 |
| 發(fā)明(設(shè)計(jì))人: | 姚俊萍;李曉軍;沈濤;李新社 | 申請(qǐng)(專利權(quán))人: | 中國人民解放軍火箭軍工程大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F17/27 |
| 代理公司: | 北京高沃律師事務(wù)所 11569 | 代理人: | 王戈 |
| 地址: | 710000 *** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 內(nèi)容相似度 網(wǎng)絡(luò)論壇 向量 文本消息 測(cè)量方法及系統(tǒng) 測(cè)試狀態(tài) 基準(zhǔn)狀態(tài) 相似度 測(cè)試文本 基準(zhǔn)消息 敏感信息 語義特征 準(zhǔn)確度 管控 對(duì)稱 測(cè)量 | ||
本發(fā)明公開一種網(wǎng)絡(luò)論壇消息的內(nèi)容相似度測(cè)量方法及系統(tǒng)。該方法根據(jù)所述測(cè)試狀態(tài)向量和所述基準(zhǔn)狀態(tài)向量S={s1,s2,...,sM}計(jì)算所述測(cè)試文本消息dk與所述基準(zhǔn)文本消息d之間的內(nèi)容的相似度,所述測(cè)試狀態(tài)向量和所述基準(zhǔn)狀態(tài)向量S={s1,s2,...,sM}間內(nèi)容的相似度是非對(duì)稱的,即兩個(gè)文本消息之間的內(nèi)容相似度的值不僅與兩個(gè)文本消息的語義特征相關(guān),而且與基準(zhǔn)消息的選擇有關(guān),更符合網(wǎng)絡(luò)論壇敏感信息管控需求,提高了網(wǎng)絡(luò)論壇消息的內(nèi)容相似度測(cè)量的準(zhǔn)確度。
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)輿情管控領(lǐng)域,特別是涉及一種網(wǎng)絡(luò)論壇消息的內(nèi)容相似 度測(cè)量方法及系統(tǒng)。
背景技術(shù)
現(xiàn)有技術(shù)中的網(wǎng)絡(luò)論壇消息中的文本內(nèi)容相似度測(cè)量的方法,主要的技術(shù) 思路是建立文本的向量空間模型描述文本的內(nèi)容特征,通過計(jì)算兩個(gè)文本特征 向量之間的余弦距離來測(cè)量內(nèi)容的相似度。
現(xiàn)有技術(shù)中通過計(jì)算兩個(gè)文本特征向量之間的余弦距離來測(cè)量內(nèi)容的相 似度的方法,主要特點(diǎn)是該余弦距離具有對(duì)稱性,例如,具有文本消息A和 文本消息B兩條內(nèi)容,文本消息A的內(nèi)容為CA,文本消息B的內(nèi)容為CB, 當(dāng)以文本消息A為基準(zhǔn)時(shí),文本消息B與文本消息A之間的內(nèi)容差異為 DiffAB=CB-CB∩CA,當(dāng)以文本消息B為基準(zhǔn)時(shí),文本消息A與文本消息B之 間的內(nèi)容差異為DiffBA=CA-CA∩CB,所以,DiffBA≠DiffAB。
所以,根據(jù)余弦距離測(cè)量兩個(gè)文本之間內(nèi)容的相似度,由于余弦距離具有 對(duì)稱性,忽略了基準(zhǔn)消息選擇的影響,實(shí)際的測(cè)量結(jié)果應(yīng)該是非對(duì)稱的,測(cè)量 的結(jié)果不準(zhǔn)確,不符合網(wǎng)絡(luò)管控的需求。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種能夠提高測(cè)量準(zhǔn)確度的網(wǎng)絡(luò)論壇消息的內(nèi)容相 似度測(cè)量方法及系統(tǒng)。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:
一種網(wǎng)絡(luò)論壇消息的內(nèi)容相似度測(cè)量方法,所述測(cè)量方法包括:
獲取基準(zhǔn)文本消息d和網(wǎng)絡(luò)輿情管控的具體需求參數(shù);
根據(jù)所述基準(zhǔn)文本消息d和所述網(wǎng)絡(luò)輿情管控的具體需求參數(shù),建立用戶 詞典Dictionary={t1,t2,...,tM},其中,M為所述用戶詞典的維數(shù),tj表示所 述基準(zhǔn)文本消息d中的第j個(gè)關(guān)鍵中文實(shí)詞,j的取值為1,2,...,M;
分別以所述關(guān)鍵中文實(shí)詞tj為關(guān)鍵詞檢索網(wǎng)絡(luò)論壇消息,獲得測(cè)試文本消 息集合D={d1,d2,...,dN},其中,N表示所述測(cè)試文本消息的條數(shù),dk表示第k 條測(cè)試文本消息,k的取值為1,2,3,...,N;
統(tǒng)計(jì)所述關(guān)鍵中文實(shí)詞在所述基準(zhǔn)文本消息d中出現(xiàn)的頻率 獲得基準(zhǔn)關(guān)鍵詞頻率向量
根據(jù)所述基準(zhǔn)關(guān)鍵詞頻率向量計(jì)算所述基準(zhǔn)文本消息 d的狀態(tài)向量,獲得基準(zhǔn)狀態(tài)向量 所述基準(zhǔn)狀態(tài)向量用于表征所 述基準(zhǔn)文本消息d的文本特征;其中,sl表示所述基準(zhǔn)文本消息d的第l個(gè)文 本特征,l的取值為1,2,...,M,i的取值為1,2,...,M;
統(tǒng)計(jì)所述關(guān)鍵中文實(shí)詞在所述測(cè)試文本消息dk中出現(xiàn)的頻率 獲得測(cè)試關(guān)鍵詞頻率向量
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍火箭軍工程大學(xué),未經(jīng)中國人民解放軍火箭軍工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810102058.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 判斷網(wǎng)頁內(nèi)容是否相同的方法
- 網(wǎng)頁相似度計(jì)算方法及裝置
- 一種搜索內(nèi)容資源的方法、裝置及服務(wù)器
- 一種基于用戶書法練習(xí)效果檢測(cè)的智能書法練習(xí)系統(tǒng)
- 一種聽寫報(bào)讀進(jìn)度的控制方法及電子設(shè)備
- 基于相似度檢測(cè)的原創(chuàng)內(nèi)容申明方法及裝置
- 內(nèi)容處理方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于相似度的推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 基于描述內(nèi)容與圖像內(nèi)容特征的圖像綜合相似分析方法
- 一種基于內(nèi)容及文獻(xiàn)的海洋科學(xué)數(shù)據(jù)推薦系統(tǒng)
- 一種基于網(wǎng)絡(luò)論壇的網(wǎng)絡(luò)調(diào)查新方法
- 一種網(wǎng)絡(luò)論壇實(shí)現(xiàn)方法和系統(tǒng)
- 基于網(wǎng)絡(luò)結(jié)構(gòu)用戶行為模式的信息跟蹤與檢測(cè)方法及系統(tǒng)
- 一種論壇事件傳播圖的構(gòu)建裝置及構(gòu)建方法
- 一種論壇系統(tǒng)
- 安裝論壇的方法和裝置
- 論壇目錄頁內(nèi)容爬取方法和裝置
- 基于二維碼以登錄網(wǎng)絡(luò)論壇進(jìn)行操作的方法
- 一種網(wǎng)絡(luò)論壇小群體確定方法及系統(tǒng)
- 基于卷積神經(jīng)網(wǎng)絡(luò)的慕課論壇主題分類方法
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置





