[發(fā)明專利]層次化文本主題分割方法在審
| 申請?zhí)枺?/td> | 201810629577.7 | 申請日: | 2018-06-19 |
| 公開(公告)號: | CN108984520A | 公開(公告)日: | 2018-12-11 |
| 發(fā)明(設(shè)計)人: | 宗成慶;亢曉勉 | 申請(專利權(quán))人: | 中國科學(xué)院自動化研究所 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京瀚仁知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11482 | 代理人: | 郭文浩;陳曉鵬 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分割 層次化 句子 文本主題 文本 向量 句子集合 主題分割 子主題 預(yù)設(shè) 文本結(jié)構(gòu)信息 語言處理技術(shù) 標(biāo)點符號 概率選擇 向量計算 詞向量 更新 構(gòu)建 概率 | ||
本發(fā)明涉及語言處理技術(shù)領(lǐng)域,并提出了一種層次化文本主題分割方法,旨在解決在文本主題分割中,忽視文本整體結(jié)構(gòu),無法利用層次化文本結(jié)構(gòu)信息進行主題分割的技術(shù)問題。為此目的,本發(fā)明中的層次化文本主題分割方法包括:根據(jù)預(yù)設(shè)的標(biāo)點符號對待分割文本進行切分,得到包含多個句子的句子集合;利用預(yù)先構(gòu)建的詞向量生成上述句子集合中每個句子對應(yīng)的句向量;按照上述每個句子在上述待分割文本中出現(xiàn)的順序,依次根據(jù)每個句子對應(yīng)的句向量對預(yù)設(shè)的子主題向量進行更新;利用更新后的子主題向量計算在每個句子處進行主題分割的概率,并根據(jù)上述概率選擇性地分割上述待分割文本。本發(fā)明可以快速、準(zhǔn)確的對文本進行層次化分割。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,特別是基于深度學(xué)習(xí)的自然語言處理領(lǐng)域,具體涉及一種層次化文本主題分割方法。
背景技術(shù)
文本主題分割是對一篇文本,根據(jù)其中句子之間所表達的主題的不同,將其分割為一個或多個句群的過程。一個句群通常由一個或多個連續(xù)的句子構(gòu)成,這些句子表達同一個主題。
文本主題分割能夠清晰地表示文本中所蘊含的子主題的范圍,對理解文本的內(nèi)容和整體結(jié)構(gòu)具有重要意義;文本主題分割出的句群可以應(yīng)用于自然語言處理的其它下游任務(wù)中。在機器閱讀理解和信息檢索中,其目標(biāo)信息可能存在于與問題或查詢語句的主題最相關(guān)的句群中,而與文本中的其它部分無關(guān)。因此,借助文本分割結(jié)果所劃分的主題范圍,能夠幫助縮小目標(biāo)的搜索空間。在自動摘要任務(wù)中,摘要系統(tǒng)需要衡量文本中句子的重要程度并盡量保證內(nèi)容的完整。文本主題分割的結(jié)果可以反映篇章中所包含的子主題的數(shù)目,以及每個子主題對應(yīng)的句群在文本中所占的篇幅,這可以為摘要內(nèi)容的選擇提供參考信息。
目前,文本主題分割方法主要基于詞袋模型設(shè)計特征,計算片段之間的相似性。近年來隨著深度學(xué)習(xí)技術(shù)的興起,神經(jīng)網(wǎng)絡(luò)方法可以更好地建模句子的語義表示,從而提升相似性的比較效果。文本中存在著明顯的層次結(jié)構(gòu),即詞匯構(gòu)成句子,相同主題的連續(xù)句子構(gòu)成句群,句群構(gòu)成整個文本;但這些方法忽視了文本的整體結(jié)構(gòu),無法利用層次化的結(jié)構(gòu)信息對文本進行分割。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中的上述技術(shù)問題,即為了解決在文本主題分割中忽視文本整體結(jié)構(gòu),無法利用層次化的結(jié)構(gòu)信息對文本進行分割的技術(shù)問題,為此目的,本發(fā)明提供了一種層次化文本主題分割方法,以解決上述問題。
第一方面,本發(fā)明提供的層次化文本主題分割方法包括如下步驟:根據(jù)預(yù)設(shè)的標(biāo)點符號對待分割文本進行切分,得到包含多個句子的句子集合;利用預(yù)先構(gòu)建的詞向量生成上述句子集合中每個句子對應(yīng)的句向量;按照上述每個句子在上述待分割文本中出現(xiàn)的順序,依次根據(jù)每個句子對應(yīng)的句向量對預(yù)設(shè)的子主題向量進行更新;利用更新后的子主題向量計算在每個句子處進行主題分割的概率,并根據(jù)上述概率選擇性地分割上述待分割文本。
進一步地,本發(fā)明提供的一個優(yōu)選技術(shù)方案中,“根據(jù)預(yù)設(shè)的標(biāo)點符號對待分割文本進行切分”的步驟包括:對上述待分割文本進行逐字掃描,判斷上述待分割文本中的每個字符與上述標(biāo)點符號是否匹配,若某個字符與上述標(biāo)點符號匹配,則在上述某個字符處對上述待分割文本進行切分;根據(jù)切分結(jié)果,將上述待分割文本中相鄰匹配字符之間的字符串作為上述句子集合的一個句子。
進一步地,本發(fā)明提供的一個優(yōu)選技術(shù)方案中,“依次根據(jù)每個句子對應(yīng)的句向量對預(yù)設(shè)的子主題向量進行更新”的步驟包括:獲取上述句向量對上述子主題向量更新的貢獻權(quán)重;根據(jù)上述句向量和貢獻權(quán)重對上述子主題向量進行更新。
進一步地,本發(fā)明提供的一個優(yōu)選技術(shù)方案中,“獲取上述句向量對上述子主題向量更新的貢獻權(quán)重”的步驟包括:通過如下公式計算在每個句子處,當(dāng)前句子的句向量對上述子主題向量更新的貢獻權(quán)重:
ut=σ(Wuxxt+Wuhht-1+Wuddt-1+bu)
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院自動化研究所,未經(jīng)中國科學(xué)院自動化研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810629577.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 層次化圖結(jié)構(gòu)數(shù)據(jù)可視化的方法、裝置
- 一種層次化密鑰安全管理方法、裝置和加解密裝置
- 關(guān)鍵詞變換裝置、關(guān)鍵詞變換程序、記錄介質(zhì)以及關(guān)鍵詞變換方法
- 層次化標(biāo)簽交換路徑LSP處理方法、裝置及網(wǎng)關(guān)節(jié)點
- 基于層次化結(jié)構(gòu)的室內(nèi)場景運動性分析與檢測方法
- 一種面向?qū)哟位瘮?shù)據(jù)的交互可視方法及裝置
- 一種層次化新聞熱點及其演化的挖掘與可視化方法
- 一種傳感器數(shù)據(jù)層次化存儲裝置與方法
- 嵌入式層次化系統(tǒng)的調(diào)試方法、系統(tǒng)、計算機及存儲介質(zhì)
- 層次化監(jiān)控方法及裝置





