[發明專利]一種融入句法結構信息的主題挖掘方法、存儲介質及系統在審
| 申請號: | 202111498143.6 | 申請日: | 2021-12-09 |
| 公開(公告)號: | CN114491013A | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 劉洪濤;趙洪慷 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/31;G06F40/211;G06F40/268;G06F40/289 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 陳棟梁 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融入 句法 結構 信息 主題 挖掘 方法 存儲 介質 系統 | ||
本發明請求保護一種融入句法結構信息的主題挖掘方法、存儲介質及系統,包括以下步驟:獲取社交文本數據集,利用依存句法結構對社交文本數據集的二元詞匯關系期望值進行計算;將二元詞匯關系的期望值輸入到二元詞匯信息構建的主題挖掘模型中,所述主題挖掘模型采用隱含狄利克雷分布DP?BTM模型;對待挖掘文本的詞語進行采樣分析,來確定主題詞語分布集合;給出具體的主題分布結果和主題下詞語的分布結果。該方法能夠消除短文本數據稀疏對主題挖掘的影響,并且豐富了模型采樣過程中二元詞匯之間的語義信息,可以提升主題挖掘的質量和其解讀性。
技術領域
本發明屬于自然語言處理技術領域,涉及一種融入句法結構信息的主題挖掘方法、存儲介質及系統。
背景技術
目前在進行社會科學研究時,常常會使用大數據技術對大量的文本信息進行知識挖掘和分析,可以通過爬蟲技術以及短文本主題挖掘,對大量的社交文本數據進行訓練和分析,并輸出相關的主題觀點。但短文本的數據特征稀疏,同時傳統的主題挖掘模型對語義的內容沒有針對性,導致其結果可解釋性差。如何利用社交文本,對于某個輿情的走向進行追蹤,以及對新發的事件輿情走向進行預測,是目前社會科學領域的熱點研究。
經過檢索,申請公開號CN109766431A,一種基于詞義主題模型的社交網絡短文本推薦方法,具體步驟:將詞義及下義詞信息的基于上下文注意力機制的詞表示學習融入社交網絡短文本推薦中,以豐富文本的詞層面特征;將基于詞義表示的狄利克雷多項混合分布短文本主題建模融入社交網絡短文本推薦中,以豐富文本層面特征;結合社交網絡用戶關系,用戶相關文本的基于詞義表示的短文本主題特征,及用戶與文本間的潛在關系特征,對隨時間演化的用戶潛在興趣度及傾向度進行建模;通過參數估計方法,預測用戶對文本的潛在傾向度,并選取傾向度最大的文本推薦給用戶,實現短文本推薦。本發明將詞義信息融入到短文本主題建模及社交網絡短文本推薦任務中,提高了社交網絡短文本推薦任務的準確率。其技術上完全不同,本發明用的詞匯間的依賴關系,是基于依存分析算法的信息,同時提出了基于該關系的度量方法,并且應用到了算法采樣中。他用到了注意力機制提取信息,這些信息是模糊的概念,且沒有度量的方法來保障自己提取的信息到底有多少意義。
發明內容
本發明旨在解決以上現有技術的問題。提出了一種融入句法結構信息的主題挖掘方法。本發明的技術方案如下:
一種融入句法結構信息的主題挖掘方法,其包括以下步驟:
獲取社交文本數據集,利用依存句法結構對社交文本數據集的二元詞匯關系期望值進行計算;
將二元詞匯關系的期望值輸入到句法結構信息構建的主題挖掘模型中,所述主題挖掘模型采用隱含狄利克雷分布DP-BTM模型;對待挖掘文本的詞語進行采樣分析,來確定主題詞語分布集合;
給出具體的主題分布結果和主題下詞語的分布結果。
進一步的,所述社交文本數據集的二元詞匯關系信息具體包括:|B|個二元詞關系的期望值和L個詞語;其中上述二元關系期望值包含兩個單詞和一個關系期望值,期望值由句法結構信息樹包含的二元關系計算所得,其詞語是由待挖掘的短文本中出現的單詞構成的,句法結構信息樹由依存句法工具分析實現,|B|、 L為正整數;當得到待主題挖掘的短文本時,計算其中出現的二元詞匯關系期望值。
進一步的,所述利用依存句法分析工具獲得句子中出現的依存關系,具體包括:
S11、一個短文本di中包含多個句子S,以句子為單位進行分割,對句子進行分詞操作獲得單詞集合W,為單詞進行詞性標注,并使用依存算法工具獲得單詞之間存在的句法結構信息;句法結構信息中包含有多個由中心詞words、從屬詞wordd和關系r組成的三元組合,篩選剔除掉其中words、wordd均是同一詞的組合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111498143.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鋼板尺寸視覺測量方法及系統
- 下一篇:自適應頻率匹配方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





