[發(fā)明專利]基于TF-IDF的主題詞提取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202110707228.4 | 申請(qǐng)日: | 2021-06-24 |
| 公開(公告)號(hào): | CN113392637B | 公開(公告)日: | 2023-02-07 |
| 發(fā)明(設(shè)計(jì))人: | 王華東;張津烽;王軍 | 申請(qǐng)(專利權(quán))人: | 青島科技大學(xué) |
| 主分類號(hào): | G06F40/242 | 分類號(hào): | G06F40/242;G06F40/258;G06F40/279;G06Q30/0601 |
| 代理公司: | 北京華清迪源知識(shí)產(chǎn)權(quán)代理有限公司 11577 | 代理人: | 胡樂(lè) |
| 地址: | 266061 山*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 tf idf 主題詞 提取 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種基于TF-IDF的主題詞提取方法,其特征在于,所述方法包括:
獲取多個(gè)商品描述文本,所述多個(gè)商品描述文本中包括一個(gè)目標(biāo)文本;
將所述多個(gè)商品描述文本進(jìn)行分詞處理,所述目標(biāo)文本包括目標(biāo)分詞;
針對(duì)于同一目標(biāo)分詞,根據(jù)所述目標(biāo)分詞在所述目標(biāo)文本中出現(xiàn)的頻率以及所述目標(biāo)分詞的逆向文本頻率得到所述目標(biāo)分詞的第一權(quán)值;
根據(jù)所述目標(biāo)分詞的詞性,得到所述目標(biāo)分詞的第二權(quán)值;
根據(jù)所述目標(biāo)分詞在所述目標(biāo)文本中的位置,得到所述目標(biāo)分詞的第三權(quán)值;
根據(jù)所述目標(biāo)分詞在所述多個(gè)商品描述文本出現(xiàn)的次數(shù),得到所述目標(biāo)分詞的第四權(quán)值;
根據(jù)所述第一權(quán)值、所述第二權(quán)值、所述第三權(quán)值以及所述第四權(quán)值確定所述目標(biāo)分詞的目標(biāo)權(quán)值,并根據(jù)所述目標(biāo)文本中所有目標(biāo)分詞的目標(biāo)權(quán)值得到所述目標(biāo)文本的主題詞提取結(jié)果;
所述根據(jù)所述目標(biāo)分詞在所述目標(biāo)文本中出現(xiàn)的頻率以及所述目標(biāo)分詞的逆向文本頻率得到所述目標(biāo)分詞的第一權(quán)值,包括:
根據(jù)第一公式確定所述目標(biāo)分詞在所述目標(biāo)文本中出現(xiàn)的頻率,所述第一公式包括:
其中,TF表示所述目標(biāo)分詞在所述目標(biāo)文本中出現(xiàn)的頻率,ni,j表示所述目標(biāo)分詞在所述目標(biāo)文本中出現(xiàn)的次數(shù),∑nk,j表示所述目標(biāo)文本中的分詞總數(shù);
根據(jù)第二公式確定所述目標(biāo)分詞的逆向文本頻率,所述第二公式包括:
其中,IDF表示所述目標(biāo)分詞的逆向文本頻率,D表示所述多個(gè)商品描述文本的文本總數(shù),|{j:ti∈dj}|表示包含所述目標(biāo)分詞的商品描述文本數(shù)目;
根據(jù)所述目標(biāo)分詞在所述目標(biāo)文本中出現(xiàn)的頻率以及所述目標(biāo)分詞的逆向文本頻率得到所述目標(biāo)分詞的第一權(quán)值,包括:
根據(jù)第三公式確定所述目標(biāo)分詞第一權(quán)值,所述第三公式包括:
Ti=TFi×IDFi
其中,Ti表示第i個(gè)目標(biāo)分詞的第一權(quán)值,TFi表示第i個(gè)目標(biāo)分詞在所述目標(biāo)文本中出現(xiàn)的頻率,IDFi表示第i個(gè)目標(biāo)分詞的逆向文本頻率;
所述根據(jù)所述目標(biāo)分詞的詞性,得到所述目標(biāo)分詞的第二權(quán)值,包括:
確定不同的詞性權(quán)重,根據(jù)所述不同的詞性權(quán)重得到所述目標(biāo)分詞的第二權(quán)值;
所述根據(jù)所述目標(biāo)分詞在所述目標(biāo)文本中的位置,得到所述目標(biāo)分詞的第三權(quán)值,包括:
根據(jù)第四公式確定所述目標(biāo)分詞的第三權(quán)值,所述第四公式包括:
其中,Posi表示目標(biāo)分詞在句子中的位置,Address_leni表示目標(biāo)分詞所在句子的長(zhǎng)度,Weight_Posi表示所述目標(biāo)分詞第三權(quán)值;
所述根據(jù)所述目標(biāo)分詞在所述多個(gè)商品描述文本出現(xiàn)的次數(shù),得到所述目標(biāo)分詞的第四權(quán)值,包括:
根據(jù)第五公式確定所述目標(biāo)分詞的第四權(quán)值,所述第五公式包括:
其中,Num_Wi表示所述目標(biāo)分詞Wordi出現(xiàn)在所述多個(gè)商品描述文本出現(xiàn)的總次數(shù),Num_Di表示所述目標(biāo)分詞在所述多個(gè)商品描述文本出現(xiàn)的文本數(shù),F(xiàn)req(Wordi)表示所述目標(biāo)分詞的第四權(quán)值;
所述根據(jù)所述第一權(quán)值、所述第二權(quán)值、所述第三權(quán)值以及所述第四權(quán)值確定所述目標(biāo)分詞的目標(biāo)權(quán)值,包括:
根據(jù)第六公式確定所述目標(biāo)分詞的目標(biāo)權(quán)值,所述第六公式包括:
其中,Ni表示目標(biāo)分詞i的目標(biāo)權(quán)值,Ti表示第一權(quán)值,Pi表示第二權(quán)值,Wi表示所述第三權(quán)值,F(xiàn)i表示所述第四權(quán)值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于青島科技大學(xué),未經(jīng)青島科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110707228.4/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于TF?IDF的多索引結(jié)果合并排序方法
- 一種視頻標(biāo)簽排序方法、裝置及智能電視
- 一種基于支持向量機(jī)的面向智能專家推薦的用戶畫像方法
- 一種基于卡方統(tǒng)計(jì)量和IDF的文本分類特征選取方法
- 一種信息分類方法及系統(tǒng)
- 一種用于敏感數(shù)據(jù)泄露檢測(cè)的關(guān)鍵詞提取方法及系統(tǒng)
- 一種主題詞提取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 針對(duì)web入侵檢測(cè)的輸出內(nèi)容過(guò)濾方法及系統(tǒng)
- 基于TF-IDF算法對(duì)句子分類的方法、裝置及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種網(wǎng)絡(luò)配線IDF防誤操作工具
- 域詞典創(chuàng)建
- 一種設(shè)備故障解決方案知識(shí)管理與檢索系統(tǒng)及方法
- 一種基于主題數(shù)據(jù)庫(kù)的文獻(xiàn)檢索方法及系統(tǒng)
- 基于MeSH的醫(yī)學(xué)文獻(xiàn)集相似性度量方法
- 一種基于流式LDA主題模型發(fā)現(xiàn)文檔隱含主題和主題詞的方法
- 祝福語(yǔ)文本生成方法和裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 用于推送信息的方法和裝置
- 主題詞提取方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 完善主題詞的全文數(shù)據(jù)庫(kù)精準(zhǔn)高效檢索方法
- 佛學(xué)主題詞識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





