[發明專利]一種基于多重余弦定理的文章相關度計算方法在審
| 申請號: | 201810859907.1 | 申請日: | 2018-08-01 |
| 公開(公告)號: | CN109086271A | 公開(公告)日: | 2018-12-25 |
| 發明(設計)人: | 龍華;祁俊輝;彭藝;杜慶治 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相關度 余弦定理 權重 信息處理技術 詞頻 關鍵詞向量 創新性地 重新規劃 詞向量 再利用 累加 詞性 映射 出錯 加權 計算機 分類 改進 | ||
本發明涉及一種基于多重余弦定理的文章相關度計算方法,屬于信息處理技術領域。本發明將文章映射為實意詞向量和關鍵詞向量,并重新規劃詞權重,再利用多重余弦定理對現階段的文章相關度計算方法進行改進。摒棄單純利用TFIDF值做詞權重的方法,而是創新性地將TFIDF值、詞頻、詞性、詞長等加權累加;另一方面,對文章計算其相關度還使用了多重余弦定理,分別對其計算實意詞相關度和關鍵詞相關度,再由相關定義確定其最終相關度。本發明與現有技術相比,主要解決了現有技術準確性欠佳、分類易出錯、靈活性差等現象,增加了目前利用計算機對文章相關度計算的準確性。
技術領域
本發明涉及一種基于多重余弦定理的文章相關度計算方法,屬于信息處理技術領域。
背景技術
文章相關度的計算是信息處理領域中的一項基本研究工作,主要應用于文章分類、推薦等。
目前,對文章相關度的研究方法主要分為兩類:基于統計學和基于語義分析。這兩類方法都有各自的優缺點,其中基于統計學的方法需要大量文章作為訓練,基于語義分析的方法則需要提前準備較為完整的語義詞典。但是現階段,利用計算機對文章相關度的計算這一技術并不成熟,準確性欠佳、靈活性差等現象一直存在,在很多情況下還需要人工對其進行計算、估計。
發明內容
本發明要解決的技術問題是針對現有技術的局限和不足,提供一種基于多重余弦定理的文章相關度計算方法,主要解決利用計算機對文章相關度的計算這一技術準確性欠佳、靈活性差等現象。
本發明的技術方案是:一種基于多重余弦定理的文章相關度計算方法,該方法具體包括以下步驟:
Step0:獲取文章集合{X1,X2…Xp},對文章X,X∈{X1,X2…Xp}進行預處理,并建立文章數據庫,具體如Step0.1~Step0.4所示;
Step0.1:對文章X進行分詞、去停用詞、同義詞替換等操作,生成文章的實意詞集合X:{x1,x2…xm};
Step0.2:以TFIDF值為主,該文章中出現該詞的詞頻、詞性、詞長為輔,遍歷Step0.1中得到的實意詞集合X:{x1,x2…xm},對每個實意詞xi,i∈[1,m]求其權重,并生成實意詞權重集合Y:{y1,y2…ym};
Step0.3:以實意詞xi,i∈[1,m]為key,權重yi,i∈[1,m]為value,對Step0.2中得到的實意詞權重yi,i∈[1,m]排序,選取權重最高的n個實意詞作為關鍵詞,并生成關鍵詞集合X':{x1',x2'…xn'}和關鍵詞權重集合Y':{y1',y2'…yn'};
Step0.4:將文章X、實意詞集合X:{x1,x2…xm}、實意詞權重集合Y:{y1,y2…ym}、關鍵詞集合X':{x1',x2'…xn'}及關鍵詞權重集合Y':{y1',y2'…yn'}作為元組加入文章數據庫;
Step1:從文章數據庫中獲取待比較文章T和比較文章H;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810859907.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于古詩詞語料向量化的自動作詩系統及其方法
- 下一篇:句型識別方法及其系統





