[發(fā)明專利]一種文本相似度檢測方法有效
| 申請?zhí)枺?/td> | 201510064979.3 | 申請日: | 2015-02-06 |
| 公開(公告)號: | CN104679728B | 公開(公告)日: | 2018-08-31 |
| 發(fā)明(設計)人: | 陳瑛;高萬林;季烜;任延昭;張港紅 | 申請(專利權)人: | 中國農(nóng)業(yè)大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京路浩知識產(chǎn)權代理有限公司 11002 | 代理人: | 李相雨 |
| 地址: | 100193 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 詞匯 句子 文本相似度 專業(yè)詞匯 對齊 相似度 詞語 計算機網(wǎng)絡系統(tǒng) 預處理 百科詞條 分類標簽 人力資源 準確度 檢測 構建 去除 過濾 重復 | ||
1.一種文本相似度檢測方法,其特征在于,所述方法包括以下步驟:
S1、根據(jù)百度百科詞條的分類標簽構建類詞典;
S2、輸入需要對比的兩篇中文文獻,并分別對兩篇中文文獻進行預處理;
S3、將兩篇所述中文文獻中的詞語進行過濾,去除重復詞語,生成詞項集,并將所述詞項集中的詞項分為專業(yè)詞匯集和普通詞匯集;
S4、將兩篇所述中文文獻中的兩個句子中的專業(yè)詞匯對齊,并且將兩個句子中的普通詞匯對齊,并分別計算各個詞匯相對于其對應性質的詞匯的相似度;
S5、計算兩篇所述中文文獻中各個句子的相似度;
其中,將所述詞項集分為專業(yè)詞匯集和普通詞匯集具體包括以下步驟:
S31、如果詞項是百度百科詞條,并且所述詞條的分類標簽將其標注為通用詞典的常用詞,則所述詞項為普通詞匯,否則進行步驟S32;
S32、如果詞項出現(xiàn)在美國賓州樹庫資源庫中,結合所述詞項在美國賓州樹庫資源庫中的詞性標簽POS和如下規(guī)則判斷其是否為普通詞匯:若所述詞項不出現(xiàn)在類詞典中,則所屬詞項為普通詞匯;若所述詞項出現(xiàn)在類詞典中,并且所述詞項的前k個按照權重排序的祖先節(jié)點均不含中文文獻所屬領域的代表詞匯,則該詞項為普通詞匯,否則為專業(yè)詞匯,其中k>1;
S33、由普通詞匯構成普通詞匯集,由專業(yè)詞匯構成專業(yè)詞匯集。
2.根據(jù)權利要求1所述的方法,其特征在于,所述步驟S1中,采用迭代的方法提取每一個詞條的所有的祖先節(jié)點以及權重,所述祖先節(jié)點為對應詞條的上位詞,對應的所述權重反應了所述詞條與其祖先節(jié)點的語義關系:權重越大,對應的空間距離越小,語義越相近。
3.根據(jù)權利要求2所述的方法,其特征在于,所述步驟S2中,對中文文獻進行預處理具體包括:
將所述中文文獻按標點符號進行分句;對所有的句子進行分詞,同時去除其中的停用詞、單字和標點符號。
4.根據(jù)權利要求1所述的方法,其特征在于,所述步驟S4中計算各個詞匯相對于其對應性質的詞匯的相似度具體包括:
對于所述普通詞匯的相似度的計算:一個句子中的普通詞匯,通過采用基于潛在語義分析LSA算法,分別計算其與另一句子中各個普通詞匯的相似度,并選擇得到的多個相似度值中的最大值作為所述普通詞匯對應的相似度的值;
對于所述專業(yè)詞匯的相似度的計算:一個句子中的專業(yè)詞匯,通過采用基于類詞典的詞相似度計算方法,分別計算其與另一句子中各個專業(yè)詞匯的相似度,并選擇得到的多個相似度值中的最大值作為所述專業(yè)詞匯對應的相似度的值。
5.根據(jù)權利要求4所述的方法,其特征在于,所述基于類詞典的詞相似度計算中,對于每個詞項,其在類詞典中的祖先節(jié)點和權重構成一個向量,詞項用向量來表示,詞相似度計算轉化成向量相似度計算。
6.根據(jù)權利要求5所述的方法,其特征在于,所述步驟S5具體為:
對于兩篇所述中文文獻中的各個句子,分別計算其包含的各個詞匯的相似度的平均值,作為對應句子的相似度。
7.根據(jù)權利要求6所述的方法,其特征在于,所述方法還包括以下步驟:
S6、把句子相似度的計算結果傳遞給計算機客戶端,并進行可視化展示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國農(nóng)業(yè)大學,未經(jīng)中國農(nóng)業(yè)大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510064979.3/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種信息處理的方法及電子設備
- 下一篇:具有嵌入RFID的無線電設備





