[發(fā)明專利]一種文檔關(guān)鍵詞提取及基于文檔匹配商品的方法在審
| 申請?zhí)枺?/td> | 201910553323.6 | 申請日: | 2019-06-25 |
| 公開(公告)號: | CN110287289A | 公開(公告)日: | 2019-09-27 |
| 發(fā)明(設(shè)計(jì))人: | 周楠;徐翔 | 申請(專利權(quán))人: | 北京金海群英網(wǎng)絡(luò)信息技術(shù)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/335;G06Q30/06 |
| 代理公司: | 北京市盈科律師事務(wù)所 11344 | 代理人: | 李兆嶺 |
| 地址: | 北京市海淀區(qū)學(xué)清路8號(*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 目標(biāo)文檔 文檔關(guān)鍵詞 校驗(yàn) 選擇權(quán) 權(quán)重 文檔 匹配 關(guān)鍵詞提取 | ||
1.一種目標(biāo)文檔關(guān)鍵詞提取方法,其特征在于,包括如下步驟:
S210,利用TextRank技術(shù),獲得目標(biāo)文檔中m個(gè)詞的權(quán)重;
S220,在m個(gè)初始關(guān)鍵詞中,選擇權(quán)重靠前的n個(gè)詞作為初始關(guān)鍵詞,其中,n≦m;
S230,基于預(yù)定的策略,分別確定目標(biāo)文檔中j個(gè)詞的預(yù)定IDF值;
S240,利用TF-IDF,分別確定目標(biāo)文檔中j個(gè)詞在目標(biāo)文檔中的TF值;
S250,基于預(yù)定IDF值和TF值,利用TF-IDF技術(shù)確定j個(gè)詞的TF-IDF權(quán)重;
S260,在j個(gè)詞中,選擇權(quán)重靠前的k個(gè)詞作為校驗(yàn)關(guān)鍵詞;其中,k≦j;
S270,判斷各初始關(guān)鍵詞是否屬于校驗(yàn)關(guān)鍵詞,如果為是,則將該初始關(guān)鍵詞作為文檔關(guān)鍵詞,并輸出。
2.根據(jù)權(quán)利要求1所述的目標(biāo)文檔關(guān)鍵詞提取方法,其特征在于,所述步驟S210中,利用TextRank技術(shù),獲得目標(biāo)文檔中所有詞的權(quán)重。
3.根據(jù)權(quán)利要求1或2所述的目標(biāo)文檔關(guān)鍵詞提取方法,其特征在于,所述步驟S230具體包括:
判斷文檔指數(shù)X是否大于Y;如果是,則基于預(yù)置IDF數(shù)據(jù)庫的數(shù)據(jù)及目標(biāo)文檔,利用TF-IDF技術(shù),更新IDF數(shù)據(jù)庫的數(shù)據(jù),并使X歸0;如果否,則使X+1;然后從預(yù)置IDF數(shù)據(jù)庫獲取相應(yīng)詞的IDF值,該IDF值作為相應(yīng)詞的預(yù)定IDF值;所述IDF數(shù)據(jù)庫存儲(chǔ)有預(yù)定的詞與各詞對應(yīng)的IDF值。
4.根據(jù)權(quán)利要求3所述的目標(biāo)文檔關(guān)鍵詞提取方法,其特征在于,在步驟S230中:如果否,還包括將目標(biāo)文檔標(biāo)記為待更新目標(biāo)文檔的步驟;
基于預(yù)置IDF數(shù)據(jù)庫的數(shù)據(jù)及目標(biāo)文檔,利用TF-IDF技術(shù),更新IDF數(shù)據(jù)庫的數(shù)據(jù),具體為:基于預(yù)置IDF數(shù)據(jù)庫的數(shù)據(jù)、當(dāng)前目標(biāo)文檔及待更新目標(biāo)文檔。
5.根據(jù)權(quán)利要求3所述的目標(biāo)文檔關(guān)鍵詞提取方法,其特征在于,在所述步驟S230中,更新IDF數(shù)據(jù)庫的數(shù)據(jù)包括更新存儲(chǔ)的詞及對應(yīng)相應(yīng)詞的IDF值。
6.根據(jù)權(quán)利要求1或2所述的目標(biāo)文檔關(guān)鍵詞提取方法,其特征在于,所述步驟S230具體包括:基于預(yù)置IDF數(shù)據(jù)庫的數(shù)據(jù)及目標(biāo)文檔,利用TF-IDF技術(shù),更新IDF數(shù)據(jù)庫的數(shù)據(jù);從預(yù)置IDF數(shù)據(jù)庫獲取相應(yīng)詞的IDF值,該IDF值作為相應(yīng)詞的預(yù)定IDF值;所述IDF數(shù)據(jù)庫存儲(chǔ)有預(yù)定的詞與各詞對應(yīng)的IDF值。
7.根據(jù)權(quán)利要求1至5任一項(xiàng)所述的目標(biāo)文檔關(guān)鍵詞提取方法,其特征在于,在所述步驟S230中,基于預(yù)定的策略,分別確定目標(biāo)文檔中所有詞的預(yù)定IDF值;
在所述步驟S240中,利用TF-IDF,分別確定目標(biāo)文檔中所有詞在目標(biāo)文檔中的TF值;
在所述步驟S250中,基于預(yù)定IDF值和TF值,利用TF-IDF技術(shù)確定所有詞的TF-IDF權(quán)重。
8.一種基于目標(biāo)文檔匹配商品的方法,其特征在于,基于預(yù)定的商品數(shù)據(jù)庫,所述商品數(shù)據(jù)庫對應(yīng)存儲(chǔ)有預(yù)定的文檔關(guān)鍵詞和商品屬性參數(shù),對應(yīng)商品屬性參數(shù)存儲(chǔ)有預(yù)定的商品信息;
基于目標(biāo)文檔匹配商品的方法包括權(quán)利要求1至5任一項(xiàng)所述的目標(biāo)文檔關(guān)鍵詞提取方法;
在步驟S270中獲得文檔關(guān)鍵詞之后,還包括:
S310,基于文檔關(guān)鍵詞,在所述商品數(shù)據(jù)庫查詢與該文檔關(guān)鍵詞對應(yīng)的商品屬性參數(shù),并基于商品屬性參數(shù),確定對應(yīng)商品信息;
S320,在預(yù)定的文檔與商品匹配數(shù)據(jù)庫中,對應(yīng)存儲(chǔ)文檔編號(Id,identification)及商品信息;
S330,將與相應(yīng)文檔編號對應(yīng)的商品信息輸出。
9.根據(jù)權(quán)利要求8所述的基于目標(biāo)文檔匹配商品的方法,其特征在于,
所述商品數(shù)據(jù)庫還對應(yīng)存儲(chǔ)文檔編號及從該文檔提取的文檔關(guān)鍵詞;
在步驟S210之前,還包括:
S110,判斷目標(biāo)文檔是否重復(fù)輸入,如果是,則基于目標(biāo)文檔編號獲取所述商品數(shù)據(jù)庫中對應(yīng)存儲(chǔ)的文檔關(guān)鍵詞,然后進(jìn)入步驟S310;如果否,則進(jìn)入步驟S210。
10.根據(jù)權(quán)利要求9所述的基于目標(biāo)文檔匹配商品的方法,其特征在于,
所述商品數(shù)據(jù)庫還對應(yīng)存儲(chǔ)文檔編號及從該文檔的基準(zhǔn)Md5(Message-DigestAlgorithm)的值;
所述步驟S110具體包括:獲取目標(biāo)文檔的MD5的值;判斷所述商品數(shù)據(jù)庫中,與該目標(biāo)文檔編號對應(yīng)的基準(zhǔn)MD5與獲取的MD5的值是否一致;如果為是,則基于目標(biāo)文檔編號獲取所述商品數(shù)據(jù)庫中對應(yīng)存儲(chǔ)的文檔關(guān)鍵詞,然后進(jìn)入步驟S310;如果為否,則進(jìn)入步驟S210。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京金海群英網(wǎng)絡(luò)信息技術(shù)有限公司,未經(jīng)北京金海群英網(wǎng)絡(luò)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910553323.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 目標(biāo)文檔檢測方法和設(shè)備
- 一種文檔生成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種目標(biāo)文檔的確定方法及裝置
- 文檔展示方法、裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于線性模型的文檔轉(zhuǎn)換方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 處理文檔的方法和裝置
- 在線文檔提交方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文檔資源的集成方法、裝置、存儲(chǔ)介質(zhì)和電子裝置
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備
- 文檔加載方法、裝置、終端和存儲(chǔ)介質(zhì)
- 一種網(wǎng)絡(luò)驗(yàn)證信息的方法和裝置
- 數(shù)據(jù)安全校驗(yàn)方法、裝置及校驗(yàn)設(shè)備
- XBRL實(shí)例文檔校驗(yàn)方法以及系統(tǒng)
- 一次性可編程存儲(chǔ)裝置以及對其進(jìn)行數(shù)據(jù)校驗(yàn)的方法
- 信息校驗(yàn)方法及裝置
- 一種基于Java系統(tǒng)的數(shù)據(jù)校驗(yàn)方法及系統(tǒng)
- 用于獨(dú)立冗余磁盤陣列的數(shù)據(jù)管理方法、設(shè)備和計(jì)算機(jī)程序產(chǎn)品
- 數(shù)據(jù)校驗(yàn)方法及應(yīng)用系統(tǒng)
- 數(shù)據(jù)校驗(yàn)方法、裝置、電子設(shè)備
- 一種業(yè)務(wù)數(shù)據(jù)校驗(yàn)方法及裝置
- 選擇權(quán)商品的策略投資系統(tǒng)及方法
- 知識(shí)產(chǎn)權(quán)買賣系統(tǒng)及方法及其程序和記錄媒體
- 同步傳輸系統(tǒng)中時(shí)鐘源的選擇方法
- 一種讓人們對食品有更多知情權(quán)和選擇權(quán)的方法
- 穩(wěn)定節(jié)能分群方法
- 金融商品的引導(dǎo)式投資系統(tǒng)及方法,及其機(jī)器可讀取媒體
- 促進(jìn)知識(shí)資產(chǎn)的轉(zhuǎn)讓的方法和系統(tǒng)
- 一種基于區(qū)塊鏈的數(shù)據(jù)存儲(chǔ)方法、設(shè)備及介質(zhì)
- 基于密度峰值多屬性聚類的網(wǎng)絡(luò)日志分析方法
- 空氣調(diào)節(jié)裝置的運(yùn)轉(zhuǎn)控制裝置





