[發(fā)明專利]改進(jìn)的基于語義分析的文本相似度求解算法在審
| 申請(qǐng)?zhí)枺?/td> | 201610864853.9 | 申請(qǐng)日: | 2016-09-29 |
| 公開(公告)號(hào): | CN106610951A | 公開(公告)日: | 2017-05-03 |
| 發(fā)明(設(shè)計(jì))人: | 金平艷 | 申請(qǐng)(專利權(quán))人: | 四川用聯(lián)信息技術(shù)有限公司 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610054 四川省成*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 改進(jìn) 基于 語義 分析 文本 相似 求解 算法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及語義網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種改進(jìn)的基于語義分析的文本相似度求解算法。
背景技術(shù)
目前,常用的計(jì)算文本相似度方法主要有兩種:一種是基于數(shù)理統(tǒng)計(jì)的方法,另外一種是基于語義分析的方法。基于數(shù)理統(tǒng)計(jì)的方法是根據(jù)詞形和詞頻進(jìn)行計(jì)算,而語義分析則是利用文本內(nèi)部詞匯的內(nèi)在語義聯(lián)系進(jìn)行計(jì)算。向量空間模型(Vector Space Model簡(jiǎn)稱VSM)是計(jì)算文本相似度的經(jīng)典方法,該方法沒有考慮詞匯的語義信息和詞匯之間的語義聯(lián)系,因此不能真實(shí)的反應(yīng)文本之間的相似情況,此外VSM沒有考慮詞匯在文本中的語義地位和對(duì)文本中心思想表達(dá)所作出的貢獻(xiàn)大小,所以用向量空間模型來計(jì)算文本相似度是有缺陷的。為了提高文本相似度計(jì)算的準(zhǔn)確性和解決“一詞多義”與“一義多詞”等現(xiàn)象,本發(fā)明提供了改進(jìn)的基于語義分析的文本相似度求解算法。
發(fā)明內(nèi)容
針對(duì)于文本中特征詞匯中不同詞匯對(duì)文本的重要程度的差異問題、“一詞多義”與“一義多詞”問題以及提高文本相似度計(jì)算的準(zhǔn)確性問題,本發(fā)明提供了改進(jìn)的基于語義分析的文本相似度求解算法。
為了解決上述問題,本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:
步驟1:初始化文本語料庫模塊,對(duì)待比較文本(W1,W2)的進(jìn)行預(yù)處理。
步驟2:基于信息論方法,計(jì)算詞匯在文本中權(quán)重值WI。
步驟3:根據(jù)詞匯位置信息和詞性,計(jì)算詞匯在文本中的權(quán)重值
步驟4:綜合考慮上述三因子,構(gòu)造提取文本(W1,W2)中的特征值目標(biāo)函數(shù)分別提取文本(W1,W2)中的特征值。
步驟5:利用詞匯語義相似度sim(c1i,c1i+1)對(duì)上述得到的特征詞匯集合進(jìn)行降維處理
步驟6:根據(jù)皮爾森相關(guān)系數(shù)求解待比較文本(W1,W2)間的文本相似度sim(W1,W2)。
本發(fā)明有益效果是:
1、此方法比傳統(tǒng)的文本相似度計(jì)算方法得到的結(jié)果具有更高的準(zhǔn)確性,更符合人工提取的結(jié)果。
2、此方法在信息檢索、機(jī)器翻譯、自動(dòng)問答系統(tǒng)等領(lǐng)域都具有更好的適用性。
3、此算法具有更大的利用價(jià)值。
4、此方法精確地計(jì)算了特征詞匯中不同詞匯對(duì)文本思想的貢獻(xiàn)度。
5、計(jì)算特征詞匯中不同詞匯對(duì)文本思想的貢獻(xiàn)度具有更高的精確度。
6、為后續(xù)的文本聚類提供良好的理論基礎(chǔ)。
7、此方法處理了“一詞多義”與“一義多詞”的問題
8、此方法著重在語義分析的角度來計(jì)算兩文本間的相似度,更符合人們的經(jīng)驗(yàn)值。
附圖說明
圖1改進(jìn)的基于語義分析的文本相似度求解算法的結(jié)構(gòu)流程圖
圖2中文文本預(yù)處理過程流程圖
圖3 n元語法分詞算法圖
具體實(shí)施方式
為了解決文本中特征詞匯中不同詞匯對(duì)文本的重要程度的差異問題、“一詞多義”與“一義多詞”問題以及提高文本相似度計(jì)算的準(zhǔn)確性問題,結(jié)合圖1-圖3對(duì)本發(fā)明進(jìn)行了詳細(xì)說明,其具體實(shí)施步驟如下:
步驟1:初始化文本語料庫模塊,對(duì)待比較文本(W1,W2)的進(jìn)行預(yù)處理,其具體描述過程如下:
綜合分詞和刪除停用詞技術(shù),中文文本預(yù)處理過程流程圖如圖2。
這里分詞方法利用一種基于信息論中文自動(dòng)分詞算法,其具體分詞和去停用詞處理步驟如下:
步驟1.1:利用停用表分別對(duì)文本(W1,W2)進(jìn)行去停用詞處理。
步驟1.2:根據(jù)《分詞詞典》找到待分詞句子中與詞典中匹配的詞,其具體描述如下:
把待分詞的漢字串完整的掃描一遍,在系統(tǒng)的詞典里進(jìn)行查找匹配,遇到字典里有的詞就標(biāo)識(shí)出來;如果詞典中不存在相關(guān)匹配,就簡(jiǎn)單地分割出單字作為詞;直到漢字串為空。
步驟1.3:依據(jù)概率統(tǒng)計(jì)學(xué),將待分詞句子拆分為網(wǎng)狀結(jié)構(gòu),即得n個(gè)可能組合的句子結(jié)構(gòu),把此結(jié)構(gòu)每條順序節(jié)點(diǎn)依次規(guī)定為SM1M2M3M4M5E,其結(jié)構(gòu)圖如圖3所示。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川用聯(lián)信息技術(shù)有限公司,未經(jīng)四川用聯(lián)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610864853.9/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 面向語義Web服務(wù)程序設(shè)計(jì)的語義數(shù)據(jù)表示和處理方法
- 一種基于語義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語義匹配方法和系統(tǒng)
- 遠(yuǎn)程語義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語義表征和語義計(jì)算的信號(hào)語義識(shí)別方法
- 語義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





