[發(fā)明專(zhuān)利]一種用于子話題劃分的誘導(dǎo)劃分方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710587046.1 | 申請(qǐng)日: | 2017-07-18 |
| 公開(kāi)(公告)號(hào): | CN107391660B | 公開(kāi)(公告)日: | 2021-05-11 |
| 發(fā)明(設(shè)計(jì))人: | 續(xù)欣瑩;蘇婧瓊;鄒雪君;謝珺 | 申請(qǐng)(專(zhuān)利權(quán))人: | 太原理工大學(xué) |
| 主分類(lèi)號(hào): | G06F16/35 | 分類(lèi)號(hào): | G06F16/35;G06F40/289;G06K9/62 |
| 代理公司: | 太原市科瑞達(dá)專(zhuān)利代理有限公司 14101 | 代理人: | 盧茂春 |
| 地址: | 030024 山西*** | 國(guó)省代碼: | 山西;14 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 話題 劃分 誘導(dǎo) 方法 | ||
一種用于子話題劃分的改進(jìn)誘導(dǎo)劃分,屬于文本語(yǔ)義分析技術(shù)與全覆蓋粒計(jì)算的交叉領(lǐng)域,它包含如下步驟:1)利用LDA主題模型對(duì)語(yǔ)料庫(kù)建模,對(duì)“文檔?主題”矩陣設(shè)定合適的閾值;2)利用全覆蓋粒計(jì)算模型表征文本,結(jié)合全覆蓋粒約簡(jiǎn)的方法,刪除冗余覆蓋元;3)通過(guò)改進(jìn)誘導(dǎo)劃分算法對(duì)覆蓋元中具有相同鄰域系統(tǒng)的元素進(jìn)行重新組合,尋找誘導(dǎo)等價(jià)類(lèi),實(shí)現(xiàn)子話題劃分。本發(fā)明克服了目前子話題劃分的已有方法存在的問(wèn)題,為研究子話題劃分提供了一種新的有效方法。
技術(shù)領(lǐng)域
本發(fā)明屬于文本語(yǔ)義分析技術(shù)與全覆蓋粒計(jì)算的交叉領(lǐng)域,具體涉及文本的子話題劃分與全覆蓋粒計(jì)算模型,尤其涉及誘導(dǎo)劃分和改進(jìn)誘導(dǎo)劃分方法在子話題劃分中的應(yīng)用。
背景技術(shù)
在當(dāng)今網(wǎng)絡(luò)信息規(guī)模急劇膨脹的時(shí)代,用戶(hù)很難在海量的大數(shù)據(jù)信息中快速、準(zhǔn)確地獲得感興趣的、有用的新聞話題。對(duì)于同一個(gè)話題,事件往往是從多個(gè)角度、多個(gè)側(cè)面進(jìn)行描述與分析,僅僅通過(guò)這些孤立的信息,用戶(hù)無(wú)法全面的了解和掌握某個(gè)話題下的報(bào)道。例如,對(duì)于“2012倫敦奧運(yùn)”這一話題,各大新聞網(wǎng)站涉及了“各國(guó)備戰(zhàn)奧運(yùn)”、“奧運(yùn)圣火傳遞”、“奧運(yùn)隊(duì)服”、“獎(jiǎng)牌狀況”等多個(gè)事件,但是并沒(méi)有對(duì)這些報(bào)道進(jìn)行相關(guān)的分類(lèi)與整理,使人們不能很快的分類(lèi)瀏覽該話題下的各個(gè)專(zhuān)題。
針對(duì)文本語(yǔ)義分析技術(shù),專(zhuān)家學(xué)者們分別提出了一系列的解決方法,但是在解決子話題劃分這一關(guān)鍵問(wèn)題上,這些方法仍存在一些問(wèn)題,主要有:
1)雖然現(xiàn)在有很多學(xué)者采用LDA主題模型,但是該模型提取出的隱含主題粒度太大,不能較好的區(qū)別同一話題下的子話題。
2)在文本表征方面,大多數(shù)都采用傳統(tǒng)的VSM模型,但是該模型是從統(tǒng)計(jì)的角度進(jìn)行歸納的,缺乏文本的語(yǔ)義信息,使最終的結(jié)果準(zhǔn)確度較低。
由此可見(jiàn),現(xiàn)有的子話題劃分方法在話題粒度、文本表征等方面存在問(wèn)題,尚無(wú)法準(zhǔn)確解決子話題劃分這一問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明提供劃分結(jié)果準(zhǔn)確性高的一種用于子話題劃分的誘導(dǎo)劃分方法。
本發(fā)明的技術(shù)方案:1、一種用于子話題劃分的誘導(dǎo)劃分方法,其特征在于包括下述內(nèi)容:
(1)文本預(yù)處理:即從新聞?wù)Z料庫(kù)中隨機(jī)挑選某一熱點(diǎn)話題若干篇,進(jìn)行人工標(biāo)注,并采用ICTCLAS系統(tǒng)對(duì)文檔進(jìn)行分詞和去停用詞;
(2)LDA主題建模對(duì)語(yǔ)料庫(kù)進(jìn)行建模:即采用Gibbs抽樣算法,提取語(yǔ)料庫(kù)中的隱含主題,得到“文檔-主題”矩陣θ,對(duì)矩陣θ設(shè)定閾值δ,δ為0~1的任意小數(shù);
(3)全覆蓋粒計(jì)算的知識(shí)約簡(jiǎn):利用全覆蓋粒計(jì)算模型表征設(shè)置閾值δ后的矩陣θ,用粒計(jì)算的方法將冗余話題刪除,將詞項(xiàng)空間表達(dá)的文檔約簡(jiǎn)為主題空間的低維表達(dá),從而達(dá)到了降維的目的;
(4)誘導(dǎo)劃分:將刪除冗余覆蓋元之后的結(jié)果作為誘導(dǎo)劃分的輸入,通過(guò)誘導(dǎo)劃分方法或改進(jìn)的誘導(dǎo)劃分方法,得到誘導(dǎo)等價(jià)類(lèi),從而實(shí)現(xiàn)誘導(dǎo)劃分;
(5)子話題劃分:將誘導(dǎo)等價(jià)類(lèi)中的每一類(lèi)作為一個(gè)子話題,誘導(dǎo)等價(jià)類(lèi)中集合的個(gè)數(shù)對(duì)應(yīng)子話題的個(gè)數(shù),將同一集合中的文檔劃分為同一個(gè)子話題,實(shí)現(xiàn)語(yǔ)料庫(kù)中新聞文檔的子話題劃分。
文檔中主題的概率ρδ時(shí),δ為0~1的任意小數(shù),矩陣θ為1,文檔中主題的概率ρ<δ時(shí),矩陣θ為0。
所述誘導(dǎo)劃分方法是:
步驟1:確定論域和覆蓋元;
步驟2:將全覆蓋中的覆蓋元兩兩之間進(jìn)行交運(yùn)算和對(duì)稱(chēng)差運(yùn)算;
步驟3:判斷步驟1中產(chǎn)生的集合是否為全覆蓋中已有的覆蓋元;
步驟4:若是,則不做任何處理,繼續(xù)進(jìn)行其它覆蓋元的運(yùn)算;若不是,將產(chǎn)生的集合加入全覆蓋中,作為一個(gè)新的覆蓋元,并且與其它覆蓋元之間進(jìn)行交運(yùn)算和對(duì)稱(chēng)差運(yùn)算;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于太原理工大學(xué),未經(jīng)太原理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710587046.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 話題檢測(cè)的方法和裝置
- 一種科研文獻(xiàn)話題發(fā)現(xiàn)和演化跟蹤的方法
- 話題驅(qū)動(dòng)的人工智能回應(yīng)方法及裝置
- 熱點(diǎn)話題早期發(fā)展趨勢(shì)預(yù)測(cè)系統(tǒng)及預(yù)測(cè)方法
- 話題檢測(cè)方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種消息組織方法和服務(wù)器
- 話題篩選和發(fā)布的方法、裝置和服務(wù)器
- 話題內(nèi)容的排序方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 大數(shù)據(jù)話題日志處理方法、服務(wù)器及存儲(chǔ)介質(zhì)
- 一種基于人工智能的熱點(diǎn)話題數(shù)據(jù)處理方法及話題服務(wù)器
- 智能式動(dòng)態(tài)路線誘導(dǎo)系統(tǒng)誘導(dǎo)子區(qū)協(xié)調(diào)方法
- 帶誘導(dǎo)輪的閥配流往復(fù)泵
- 一種蜈蚣藻絲狀體的誘導(dǎo)方法
- 一種公路智能語(yǔ)音誘導(dǎo)系統(tǒng)
- 一種結(jié)球甘藍(lán)胚狀體再生植株誘導(dǎo)方法
- 一種牽引器誘導(dǎo)環(huán)組件
- 一種多功能的折疊誘導(dǎo)標(biāo)
- 帶誘導(dǎo)輪的凝水泵過(guò)流部件結(jié)構(gòu)
- 帶誘導(dǎo)輪的凝水泵過(guò)流部件結(jié)構(gòu)
- 導(dǎo)航播報(bào)方法、裝置及設(shè)備





