[發(fā)明專利]一種基于關(guān)鍵詞的文本信息精準(zhǔn)匹配方法、系統(tǒng)、存儲介質(zhì)、終端在審
| 申請?zhí)枺?/td> | 202011002294.3 | 申請日: | 2020-09-22 |
| 公開(公告)號: | CN112100363A | 公開(公告)日: | 2020-12-18 |
| 發(fā)明(設(shè)計)人: | 不公告發(fā)明人 | 申請(專利權(quán))人: | 上海蜜度信息技術(shù)有限公司 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/33;G06F16/35;G06F40/284 |
| 代理公司: | 上海光華專利事務(wù)所(普通合伙) 31219 | 代理人: | 徐秋平 |
| 地址: | 201204 上海市浦東新區(qū)中國(上*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 關(guān)鍵詞 文本 信息 精準(zhǔn) 匹配 方法 系統(tǒng) 存儲 介質(zhì) 終端 | ||
本發(fā)明提供一種基于關(guān)鍵詞的文本信息精準(zhǔn)匹配方法、系統(tǒng)、存儲介質(zhì)、終端,包括以下步驟:構(gòu)建關(guān)鍵詞方案;基于所述關(guān)鍵詞方案在數(shù)據(jù)庫中獲取初步匹配文本;對所述初步匹配文本進(jìn)行分詞,以獲取分詞結(jié)果;將所述關(guān)鍵詞方案拆解為多個獨立關(guān)鍵詞方案;當(dāng)所述分詞結(jié)果命中至少一個獨立關(guān)鍵詞方案時,對所述初步匹配文本進(jìn)行關(guān)鍵詞抽取,并獲取文本特征;根據(jù)所述文本特征基于決策樹模型獲取文本信息匹配分值,并在所述文本信息匹配分值大于預(yù)設(shè)閾值時判斷所述初步匹配文本為最終匹配文本。本發(fā)明的基于關(guān)鍵詞的文本信息精準(zhǔn)匹配方法、系統(tǒng)、存儲介質(zhì)、終端將關(guān)鍵詞作為文本特征,結(jié)合有監(jiān)督的文本分類,大大提升了文本信息匹配的可解釋性和精確程度。
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理的技術(shù)領(lǐng)域,特別是涉及一種基于關(guān)鍵詞的文本信息精準(zhǔn)匹配方法、系統(tǒng)、存儲介質(zhì)、終端。
背景技術(shù)
現(xiàn)有技術(shù)中,在進(jìn)行文本信息檢索時,通常采用以下幾種方案:
(1)采用純文字匹配的方式,但該方式會導(dǎo)致檢索到很多無關(guān)的文本內(nèi)容,給用戶帶來很多困擾。例如,文本內(nèi)容出現(xiàn)有用戶指定的關(guān)鍵詞,但該關(guān)鍵詞并非文本的重點講述內(nèi)容。再例如,文本內(nèi)容中出現(xiàn)有該關(guān)鍵詞,但該關(guān)鍵詞并不形成一個構(gòu)詞,導(dǎo)致語義不相關(guān)的文本內(nèi)容被命中,如關(guān)鍵詞是“和服”,命中的文本內(nèi)容為“產(chǎn)品和服務(wù)”。
(2)采用文本關(guān)鍵詞抽取的方式對用戶設(shè)置的關(guān)鍵詞進(jìn)行賦分和排序,但計算得到的結(jié)果會因為文本長度不同、關(guān)鍵詞設(shè)置數(shù)量不同等原因很難進(jìn)行分值比較,同時很多完全命中且關(guān)鍵詞分值高的文本信息并非用戶所需。
(3)采用文本分類的方式,但該方式僅在海量數(shù)據(jù)的情況下能夠自動捕捉文本特征,難以融合用戶設(shè)置的關(guān)鍵詞信息進(jìn)行判斷。特別地,對于用戶反饋數(shù)據(jù)數(shù)量有限的應(yīng)用場景,無法滿足應(yīng)用需求。
(4)采用基于文本的推薦系統(tǒng),推薦用戶在當(dāng)前最感興趣或者與最相似的內(nèi)容,即收集用戶收藏或點擊的匹配內(nèi)容,用文本相似的方法查找匹配文本信息。但該方式需要積累一定程度的用戶反饋信息。
(5)采用融合關(guān)鍵詞特征的協(xié)同過濾推薦。典型的推薦系統(tǒng)中,將點擊率、閱讀時間等可以量化的目標(biāo)作為目標(biāo)函數(shù),采用用戶歷史行為、協(xié)同特征、環(huán)境特征等進(jìn)行建模,但也需要積累一定量的用戶反饋數(shù)據(jù)。
發(fā)明內(nèi)容
鑒于以上所述現(xiàn)有技術(shù)的缺點,本發(fā)明的目的在于提供一種基于關(guān)鍵詞的文本信息精準(zhǔn)匹配方法、系統(tǒng)、存儲介質(zhì)、終端,將關(guān)鍵詞作為文本特征,結(jié)合有監(jiān)督的文本分類,大大提升了文本信息匹配的可解釋性和精確程度。
為實現(xiàn)上述目的及其他相關(guān)目的,本發(fā)明提供一種基于關(guān)鍵詞的文本信息精準(zhǔn)匹配方法,包括以下步驟:構(gòu)建關(guān)鍵詞方案,所述關(guān)鍵詞方案包括至少兩個獨立關(guān)鍵詞組,每個獨立關(guān)鍵詞組包括一個或多個關(guān)鍵詞;基于所述關(guān)鍵詞方案在數(shù)據(jù)庫中獲取初步匹配文本;對所述初步匹配文本進(jìn)行分詞,以獲取分詞結(jié)果;將所述關(guān)鍵詞方案拆解為多個獨立關(guān)鍵詞方案,所述獨立關(guān)鍵詞方案由每個獨立關(guān)鍵詞組中的一個關(guān)鍵詞并列組成;當(dāng)所述分詞結(jié)果命中至少一個獨立關(guān)鍵詞方案時,對所述初步匹配文本進(jìn)行關(guān)鍵詞抽取,并獲取文本特征;根據(jù)所述文本特征基于決策樹模型獲取文本信息匹配分值,并在所述文本信息匹配分值大于預(yù)設(shè)閾值時判斷所述初步匹配文本為最終匹配文本。
于本發(fā)明一實施例中,基于Textrank算法對所述初步匹配文本進(jìn)行關(guān)鍵詞抽取。
于本發(fā)明一實施例中,所述文本特征包括文本排序特征、文本分?jǐn)?shù)特征、文本排序分?jǐn)?shù)融合特征、文本關(guān)鍵詞匹配特征、文本方案特征、文本方案深度特征、標(biāo)題排序特征、標(biāo)題分?jǐn)?shù)特征、標(biāo)題排序分?jǐn)?shù)融合特征、標(biāo)題關(guān)鍵詞匹配特征、標(biāo)題方案特征和標(biāo)題方案深度特征。
于本發(fā)明一實施例中,所述決策樹模型基于帶標(biāo)注的數(shù)據(jù)進(jìn)行有監(jiān)督建模生成。
對應(yīng)地,本發(fā)明提供一種基于關(guān)鍵詞的文本信息精準(zhǔn)匹配系統(tǒng),包括構(gòu)建模塊、獲取模塊、分詞模塊、拆解模塊、抽取模塊和匹配模塊;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海蜜度信息技術(shù)有限公司,未經(jīng)上海蜜度信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011002294.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測方法和裝置
- 關(guān)鍵詞排名的檢測方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動化否定關(guān)鍵詞方法及裝置
- 一種長尾關(guān)鍵詞識別方法、關(guān)鍵詞搜索方法及計算機(jī)設(shè)備
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





