[發(fā)明專利]一種融入句法結(jié)構(gòu)信息的主題挖掘方法、存儲(chǔ)介質(zhì)及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202111498143.6 | 申請日: | 2021-12-09 |
| 公開(公告)號(hào): | CN114491013A | 公開(公告)日: | 2022-05-13 |
| 發(fā)明(設(shè)計(jì))人: | 劉洪濤;趙洪慷 | 申請(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/31;G06F40/211;G06F40/268;G06F40/289 |
| 代理公司: | 重慶市恒信知識(shí)產(chǎn)權(quán)代理有限公司 50102 | 代理人: | 陳棟梁 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融入 句法 結(jié)構(gòu) 信息 主題 挖掘 方法 存儲(chǔ) 介質(zhì) 系統(tǒng) | ||
1.一種融入句法結(jié)構(gòu)信息的主題挖掘方法,其特征在于,包括以下步驟:
獲取社交文本數(shù)據(jù)集,利用依存句法結(jié)構(gòu)對社交文本數(shù)據(jù)集的二元詞匯關(guān)系期望值進(jìn)行計(jì)算;
將二元詞匯關(guān)系的期望值輸入到二元詞匯信息構(gòu)建的主題挖掘模型中,所述主題挖掘模型采用隱含狄利克雷分布DP-BTM模型;對待挖掘文本的詞語進(jìn)行采樣分析,來確定主題詞語分布集合;
給出具體的主題分布結(jié)果和主題下詞語的分布結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種融入句法結(jié)構(gòu)信息的主題挖掘方法,其特征在于,所述社交文本數(shù)據(jù)集的二元詞匯關(guān)系信息具體包括:|B|個(gè)二元詞關(guān)系的期望值和L個(gè)詞語;其中上述二元關(guān)系期望值包含兩個(gè)單詞和一個(gè)關(guān)系期望值,期望值由句法結(jié)構(gòu)信息樹包含的二元關(guān)系計(jì)算所得,其詞語是由待挖掘的短文本中出現(xiàn)的單詞構(gòu)成的,句法結(jié)構(gòu)信息樹由依存句法工具分析實(shí)現(xiàn),|B|、L為正整數(shù);當(dāng)?shù)玫酱黝}挖掘的短文本時(shí),計(jì)算其中出現(xiàn)的二元詞匯關(guān)系期望值。
3.根據(jù)權(quán)利要求2所述的一種融入句法結(jié)構(gòu)信息的主題挖掘方法,其特征在于,所述利用依存句法分析工具獲得句子中出現(xiàn)的依存關(guān)系,具體包括:
S11、一個(gè)短文本di中包含多個(gè)句子S,以句子為單位進(jìn)行分割,對句子進(jìn)行分詞操作獲得單詞集合W,為單詞進(jìn)行詞性標(biāo)注,并使用依存算法工具獲得單詞之間存在的句法結(jié)構(gòu)信息;句法結(jié)構(gòu)信息中包含有多個(gè)由中心詞words、從屬詞wordd和關(guān)系r組成的三元組合,篩選剔除掉其中words、wordd均是同一詞的組合;
S12將節(jié)點(diǎn)中在句法結(jié)構(gòu)信息中僅有做為中心詞出現(xiàn)的單詞節(jié)點(diǎn)掛載到Root節(jié)點(diǎn)下,生成句法結(jié)構(gòu)信息樹;
S13統(tǒng)計(jì)句法結(jié)構(gòu)信息樹中出現(xiàn)的二元關(guān)系,分別為:親子關(guān)系,兄弟關(guān)系,叔侄關(guān)系和無特殊關(guān)系;
S14在分別統(tǒng)計(jì)樹中出現(xiàn)的二元關(guān)系之后,以短文本di為單位,將其包含的所有句子sj的句法結(jié)構(gòu)信息樹中統(tǒng)計(jì)的二元關(guān)系進(jìn)行整合統(tǒng)計(jì);
S15計(jì)算二元詞匯b在文檔di中的期望值;
S16重復(fù)S11-S15步驟對所有文檔d中的二元詞匯b關(guān)系進(jìn)行期望值計(jì)算;
S16根據(jù)S16的結(jié)果最后wordi和wordj在短文本數(shù)據(jù)集中D的期望值。
4.根據(jù)權(quán)利要求3所述的一種融入句法結(jié)構(gòu)信息的主題挖掘方法,其特征在于,所述S15計(jì)算二元詞匯b在文檔di中的期望值,具體公式為:
pk為b所涉及的單詞words和worde單詞之間關(guān)系k出現(xiàn)在文檔di下的概率,
其中為步驟S13中敘述的四種二元關(guān)系在文檔di出現(xiàn)次數(shù)的總和,當(dāng)k依次取s,b,u,n時(shí)l依次取3,2,1,0,即親子關(guān)系,兄弟關(guān)系,叔侄關(guān)系和無特殊關(guān)系對應(yīng)的權(quán)重分配為(1+γ)3,(1+γ)2,(1+γ)1,(1+γ)0;
其在文檔di下二元詞匯b的關(guān)系期望值為
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111498143.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種增強(qiáng)尼龍包容鋼齒輪
- 一種增強(qiáng)尼龍包容鋼齒輪
- 融入式市場系統(tǒng)和方法
- 煤矸石淋濾液消融入滲土柱模擬系統(tǒng)及特征參數(shù)測定方法
- 煤矸石淋濾液消融入滲室內(nèi)土柱模擬裝置
- 將句子權(quán)重融入神經(jīng)機(jī)器翻譯的領(lǐng)域適應(yīng)方法
- 融入依存關(guān)系的神經(jīng)機(jī)器翻譯方法
- 基于虛擬現(xiàn)實(shí)及多模態(tài)信息的孤獨(dú)癥輔助干預(yù)系統(tǒng)及方法
- 一種基于生成對抗網(wǎng)絡(luò)的視頻廣告融入系統(tǒng)與方法
- 基于融入空間信息的加權(quán)伽馬混合模型的SAR影像分割方法
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺(tái)結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





