[發(fā)明專利]文本主題標(biāo)引方法、裝置、電子設(shè)備及計算機存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201910970014.9 | 申請日: | 2019-10-12 |
| 公開(公告)號: | CN110728135B | 公開(公告)日: | 2023-06-09 |
| 發(fā)明(設(shè)計)人: | 韓紅旗;薛陜;劉志輝;張運良;悅林東;高雄 | 申請(專利權(quán))人: | 中國科學(xué)技術(shù)信息研究所 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/30;G06F40/169;G06F18/22 |
| 代理公司: | 北京市立方律師事務(wù)所 11330 | 代理人: | 張筱寧 |
| 地址: | 100038*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 主題 標(biāo)引 方法 裝置 電子設(shè)備 計算機 存儲 介質(zhì) | ||
1.一種文本主題標(biāo)引方法,其特征在于,包括:
確定待標(biāo)引文本的文本詞列表;
基于預(yù)定詞向量庫,根據(jù)所述文本詞列表,確定所述待標(biāo)引文本的文本表示向量;
根據(jù)樣本文本的語料庫,確定與所述一個主題詞相關(guān)聯(lián)的樣本文本;
確定所述樣本文本的各個樣本文本詞,并計算所述各個樣本文本詞的詞頻逆文本頻率TF-IDF;
基于第一預(yù)定排序方式,對各個TF-IDF進行排序,并將第一預(yù)設(shè)個數(shù)的排序后的TF-IDF所對應(yīng)的樣本文本詞,確定為與所述一個主題詞具有映射關(guān)系的普通詞,來建立所述一個主題詞與該普通詞之間的映射關(guān)系,并根據(jù)所述映射關(guān)系,得到主題詞與普通詞間的映射表;
基于根據(jù)受控詞表預(yù)先建立的主題詞與普通詞間的映射表,通過將與任一文本詞的關(guān)聯(lián)強度大于第一預(yù)定閾值的主題詞確定為所述任一文本詞的主題詞,來得到所述各個文本詞分別對應(yīng)的主題詞;
根據(jù)所述文本表示向量與所述各個文本詞分別對應(yīng)的主題詞,確定所述待標(biāo)引文本的目標(biāo)主題詞,并通過所述目標(biāo)主題詞對所述待標(biāo)引文本進行主題標(biāo)引。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述文本詞列表包括所述待標(biāo)引文本的各個文本詞及各個文本詞在所述待標(biāo)引文本中出現(xiàn)的次數(shù)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于預(yù)定詞向量庫,根據(jù)所述文本詞列表,確定所述待標(biāo)引文本的文本表示向量,包括:
基于所述預(yù)定詞向量庫,確定所述各個文本詞分別對應(yīng)的詞向量;
基于平均詞向量法,根據(jù)所述各個文本詞的詞向量及出現(xiàn)次數(shù),確定所述待標(biāo)引文本的文本表示向量。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述文本表示向量與所述各個文本詞分別對應(yīng)的主題詞,確定所述待標(biāo)引文本的目標(biāo)主題詞,包括:
通過計算所述文本表示向量與所述各個文本詞分別對應(yīng)的主題詞的詞向量之間的余弦相似度,確定所述待標(biāo)引文本與所述各個文本詞分別對應(yīng)的主題詞之間的語義關(guān)聯(lián)強度;
基于第二預(yù)定排序方式,根據(jù)所述語義關(guān)聯(lián)強度,對所述各個文本詞分別對應(yīng)的主題詞進行排序,并根據(jù)排序結(jié)果選取第二預(yù)設(shè)個數(shù)的主題詞;
將所述第二預(yù)設(shè)個數(shù)的主題詞,確定為所述待標(biāo)引文本的目標(biāo)主題詞。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在計算所述文本表示向量與所述各個文本詞分別對應(yīng)的主題詞的詞向量之間的余弦相似度之前,還包括:
基于所述預(yù)定詞向量庫,確定所述各個文本詞分別對應(yīng)的主題詞的詞向量;
其中,基于所述預(yù)定詞向量庫,確定一個文本詞對應(yīng)的任一主題詞的詞向量,包括:
確定所述預(yù)定詞向量庫中是否存在與所述任一主題詞相同的詞;
如果存在,則將該詞的詞向量確定為所述任一主題詞的詞向量;
如果不存在,則將所述任一主題詞劃分為第二預(yù)設(shè)個數(shù)的短詞,并根據(jù)所述預(yù)定詞向量庫確定各個短詞的詞向量,并將各個短詞的詞向量的平均值作為所述任一主題詞的詞向量。
6.一種文本主題標(biāo)引裝置,其特征在于,包括:
第一確定模塊,用于確定待標(biāo)引文本的文本詞列表;
第二確定模塊,基于預(yù)定詞向量庫,根據(jù)所述文本詞列表,確定所述待標(biāo)引文本的文本表示向量;
建立模塊,用于根據(jù)樣本文本的語料庫,確定與所述一個主題詞相關(guān)聯(lián)的樣本文本;
確定所述樣本文本的各個樣本文本詞,并計算所述各個樣本文本詞的詞頻逆文本頻率TF-IDF;
基于第一預(yù)定排序方式,對各個TF-IDF進行排序,并將第一預(yù)設(shè)個數(shù)的排序后的TF-IDF所對應(yīng)的樣本文本詞,確定為與所述一個主題詞具有映射關(guān)系的普通詞,來建立所述一個主題詞與該普通詞之間的映射關(guān)系,并根據(jù)所述映射關(guān)系,得到主題詞與普通詞間的映射表;
第一處理模塊,用于基于根據(jù)受控詞表預(yù)先建立的主題詞與普通詞間的映射表,通過將與任一文本詞的關(guān)聯(lián)強度大于第一預(yù)定閾值的主題詞確定為所述任一文本詞的主題詞,來得到所述各個文本詞分別對應(yīng)的主題詞;
第二處理模塊,用于根據(jù)所述文本表示向量與所述各個文本詞分別對應(yīng)的主題詞,確定所述待標(biāo)引文本的目標(biāo)主題詞,并通過所述目標(biāo)主題詞對所述待標(biāo)引文本進行主題標(biāo)引。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)技術(shù)信息研究所,未經(jīng)中國科學(xué)技術(shù)信息研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910970014.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種在報紙版面上檢查標(biāo)引稿件的方法及系統(tǒng)
- 一種報刊版面網(wǎng)絡(luò)標(biāo)引的方法及系統(tǒng)
- 標(biāo)引嵌入方法及設(shè)備、標(biāo)引檢測方法、設(shè)備、及系統(tǒng)
- 圖片標(biāo)引的方法和裝置
- 一種音視頻數(shù)據(jù)標(biāo)引的方法和系統(tǒng)
- 一種網(wǎng)絡(luò)貼文標(biāo)引系統(tǒng)及標(biāo)引方法
- 圖片標(biāo)引方法和圖片標(biāo)引裝置
- 導(dǎo)盲的方法和裝置以及導(dǎo)盲設(shè)備
- 一種基于Triz的專利標(biāo)引系統(tǒng)及其方法
- Word論文的標(biāo)引方法、裝置、設(shè)備及存儲介質(zhì)





