[發(fā)明專利]考慮詞語相似度的計算文檔所對應(yīng)的主題的方法有效
| 申請?zhí)枺?/td> | 201810022783.1 | 申請日: | 2018-01-10 |
| 公開(公告)號: | CN108255809B | 公開(公告)日: | 2021-10-08 |
| 發(fā)明(設(shè)計)人: | 賈喜瑞;初天寶 | 申請(專利權(quán))人: | 北京海存志合科技股份有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F16/31;G06K9/62;G06N5/02 |
| 代理公司: | 北京市商泰律師事務(wù)所 11255 | 代理人: | 黃曉軍 |
| 地址: | 100085 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 考慮 詞語 相似 計算 文檔 對應(yīng) 主題 方法 | ||
本發(fā)明提供了一種考慮詞語相似度的計算文檔所對應(yīng)的主題的方法。包括根據(jù)已知主題及其主題詞語分布構(gòu)建主題詞語知識庫;對于待計算主題的文檔初始化主題?詞語矩陣和文檔?主題矩陣;再根據(jù)主題詞語知識庫獲取文檔所包含詞語之間的相似度,利用詞語之間的相似度對主題?詞語矩陣和文檔?主題矩陣進行迭代更新,直到兩個矩陣達到收斂精度則停止計算,得到待計算主題的文檔所對應(yīng)的主題。本發(fā)明利用非負矩陣分解技術(shù),自動批量計算文檔主題。在計算過程中,融入詞語語義近似度和文檔類別信息,提高主題計算的準確度;同時考慮主題詞語的語義演化,將計算出的最終結(jié)果融入到知識庫中,使知識庫保持最新的詞語語義信息。
技術(shù)領(lǐng)域
本發(fā)明涉及文本分析技術(shù)領(lǐng)域,尤其涉及一種考慮詞語相似度的計算文檔所對應(yīng)的主題的方法。
背景技術(shù)
隨著計算機及互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,人們每天所接觸的文檔信息呈現(xiàn)爆炸式的增長。為了更快速、直觀地了解文檔信息,人們研發(fā)了一系列文本分析技術(shù),如文檔摘要技術(shù)、文檔關(guān)鍵詞提取技術(shù)、文檔主題建模技術(shù)。其中,文檔主題具有更加廣泛的作用。文檔主題不僅能夠直觀明了地反映文檔所屬的類別信息,而且主題詞也能快速地反映文檔的主要內(nèi)容。所以,對文檔進行主題建模是處理和分析海量文本數(shù)據(jù)必不可少的環(huán)節(jié)。
目前,現(xiàn)有技術(shù)中的文檔主題建模方法分為有監(jiān)督學習和無監(jiān)督學習兩種。無監(jiān)督學習的方法提取出來的主題缺少語義信息,很難讓人理解每個主題的含義,而有監(jiān)督學習的方法沒有考慮詞語語義的演化,需要再定期更新模型。因此,需要一種既能考慮詞語語義信息、又能對詞語語義進行終生自動學習的方法,來實現(xiàn)對文檔主題的計算。
發(fā)明內(nèi)容
本發(fā)明的實施例提供了一種考慮詞語相似度的計算文檔所對應(yīng)的主題的方法,以實現(xiàn)有效地計算文檔所對應(yīng)的主題。
為了實現(xiàn)上述目的,本發(fā)明采取了如下技術(shù)方案。
一種考慮詞語相似度的計算文檔所對應(yīng)的主題的方法,包括:
根據(jù)已知主題和主題詞,以相同主題下詞語間的共現(xiàn)關(guān)系為基礎(chǔ)構(gòu)建主題詞語知識庫;
利用非負矩陣分解方法建立待計算主題的文檔的初始化的主題-詞語矩陣和文檔-主題矩陣;
根據(jù)待計算主題的文檔所包含詞語對應(yīng)的所述主題詞語知識庫,計算出所述待計算主題的文檔中的文檔詞語相似度,獲取所述待計算主題的文檔中的文檔類別相似度;
根據(jù)所述文檔詞語相似度和所述文檔類別相似度,迭代更新主題-詞語矩陣和文檔-主題矩陣,直到所述主題-詞語矩陣和文檔-主題矩陣收斂,得到所述待計算主題的文檔所對應(yīng)的主題。
進一步地,所述的根據(jù)已知主題和主題詞,以相同主題下詞語間的共現(xiàn)關(guān)系為基礎(chǔ)構(gòu)建主題詞語知識庫,包括:
根據(jù)已知主題和主題詞,從每個主題的主題詞中,選出權(quán)重最高的前設(shè)定數(shù)量個主題詞,統(tǒng)計兩兩主題詞之間共同出現(xiàn)在相同主題中的次數(shù),以主題詞為節(jié)點,共同出現(xiàn)在相同主題中的次數(shù)為邊,構(gòu)建主題詞共線網(wǎng)絡(luò),該主題詞共線網(wǎng)絡(luò)由多個子網(wǎng)絡(luò)構(gòu)成,每個子網(wǎng)絡(luò)對應(yīng)一個或者多個詞語,將所述主題詞共線網(wǎng)絡(luò)作為主題詞語知識庫。
進一步地,所述的利用非負矩陣分解方法建立待計算主題的文檔的初始化的主題-詞語矩陣和文檔-主題矩陣,包括:
針對需要計算主題的N個文檔,把所述N個文檔表示為詞語及其頻數(shù)矩陣D,D∈RM×N,其中,M表示所述N個文檔中包含的詞語的總數(shù);根據(jù)所述詞語及其頻數(shù)矩陣D的維度隨機初始化兩個非負矩陣,主題-詞語矩陣U,U∈RM×K;文檔-主題矩陣V,V∈RK×N,其中,K表示主題的個數(shù)。
進一步地,所述的根據(jù)待計算主題的文檔所包含詞語對應(yīng)所述主題詞語知識庫中的子網(wǎng)絡(luò),計算出所述待計算主題的文檔中的文檔詞語相似度,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京海存志合科技股份有限公司,未經(jīng)北京海存志合科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810022783.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 標志控制請求代理仲裁的方法和系統(tǒng)
- 信號處理方法與設(shè)備以及記錄介質(zhì)
- 一種考慮能量傳輸?shù)闹欣^選擇方法
- 一種考慮電網(wǎng)分區(qū)優(yōu)化運行的城市電網(wǎng)規(guī)劃方法
- 一種定位考慮攻擊精度的骨干鏈路DDoS攻擊目標鏈路的方法
- 基于全局策略管理節(jié)點網(wǎng)絡(luò)故障的程序
- 基于本地策略管理節(jié)點網(wǎng)絡(luò)故障的程序
- 考慮互補約束的潮流計算方法及裝置
- 考慮穩(wěn)態(tài)約束和暫態(tài)約束的聯(lián)絡(luò)線功率可行域刻畫方法
- 土結(jié)作用的變壓器本體地震放大系數(shù)確定及抗震評估方法





