[發(fā)明專利]文本推薦方法和裝置在審
| 申請?zhí)枺?/td> | 201810149129.7 | 申請日: | 2018-02-13 |
| 公開(公告)號: | CN110309293A | 公開(公告)日: | 2019-10-08 |
| 發(fā)明(設(shè)計)人: | 楊俊 | 申請(專利權(quán))人: | 北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F16/9535 |
| 代理公司: | 中原信達(dá)知識產(chǎn)權(quán)代理有限責(zé)任公司 11219 | 代理人: | 張一軍;楊曉偉 |
| 地址: | 100195 北京市海淀區(qū)杏石口路6*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 歷史文本 文本 分組 文本類別 方法和裝置 標(biāo)準(zhǔn)文本 計算機(jī)技術(shù)領(lǐng)域 用戶推薦 用戶咨詢 相似度 重復(fù) | ||
本發(fā)明公開了一種文本推薦方法和裝置,涉及計算機(jī)技術(shù)領(lǐng)域。該方法的一具體實施方式包括:獲取多個歷史文本,根據(jù)歷史文本之間的相似度將所述多個歷史文本歸入至少一個文本類別;將所述文本類別按照其所包含的歷史文本數(shù)量進(jìn)行分組,得到至少一個文本分組;從每一文本分組中選取標(biāo)準(zhǔn)文本作為待推薦文本進(jìn)行推薦;其中,每一文本分組的標(biāo)準(zhǔn)文本為:在該文本分組的每一文本類別中重復(fù)次數(shù)最大的歷史文本。該實施方式能夠從多個歷史文本中自動準(zhǔn)確地提取熱點文本向用戶推薦,從而使用戶咨詢時不需進(jìn)行手動輸入。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種文本推薦方法和裝置。
背景技術(shù)
在實際生活中,用戶往往會在售前或售后對某種物品進(jìn)行咨詢,咨詢的問題由用戶自行輸入。如果可以從物品的歷史咨詢問題中確定該物品的一個或多個熱點問題提供于用戶,則可減少用戶的手工輸入,提升其體驗。在現(xiàn)有技術(shù)中,一般利用客服人員的工作經(jīng)驗來總結(jié)上述熱點問題。
在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:
由于不同的客服人員的觀察能力與認(rèn)識水平存在的差異性以及人工總結(jié)無法避免的主觀性,使得現(xiàn)有技術(shù)中總結(jié)到的熱點問題存在偏差。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例提供一種文本推薦方法和裝置,能夠從多個歷史文本中自動準(zhǔn)確地提取熱點文本向用戶推薦,從而使用戶在咨詢時不需進(jìn)行手動輸入。
為實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種文本推薦方法。
本發(fā)明實施例的文本推薦方法包括步驟:獲取多個歷史文本,根據(jù)歷史文本之間的相似度將所述多個歷史文本歸入至少一個文本類別;將所述文本類別按照其所包含的歷史文本數(shù)量進(jìn)行分組,得到至少一個文本分組;從每一文本分組中選取標(biāo)準(zhǔn)文本作為待推薦文本進(jìn)行推薦;其中,每一文本分組的標(biāo)準(zhǔn)文本為:在該文本分組的每一文本類別中重復(fù)次數(shù)最大的歷史文本。
可選地,所述多個歷史文本中的每一歷史文本均對應(yīng)于一生成時間;以及,所述根據(jù)歷史文本之間的相似度將所述多個歷史文本歸入至少一個文本類別,包括步驟:S201:由所述多個歷史文本組成初始的文本集合;S202:將當(dāng)前的文本集合中生成時間最晚的歷史文本確定為當(dāng)前的文本集合的基礎(chǔ)文本,將當(dāng)前的文本集合中與所述基礎(chǔ)文本的相似度符合預(yù)設(shè)條件的歷史文本確定為所述基礎(chǔ)文本的相似文本,將所述基礎(chǔ)文本及其相似文本確定為一個文本類別,并將該文本類別從當(dāng)前的文本集合中去除;S203:在判斷去除該文本類別的文本集合不為空時,執(zhí)行步驟S202和S203;直到初始的文本集合中的每一文本均歸入一個文本類別。
可選地,所述預(yù)設(shè)條件包括:相似度不小于預(yù)設(shè)的相似度閾值。
可選地,所述將所述文本類別按照其所包含的歷史文本數(shù)量進(jìn)行分組,得到至少一個文本分組,具體包括:S301:將所述至少一個文本類別按照所包含的歷史文本數(shù)量從大到小的順序排列,形成類別序列;將所述類別序列在前的、包含第一預(yù)設(shè)數(shù)量的文本類別的部分作為初始的待分組類別序列;S302:對于當(dāng)前的待分組類別序列的第一個文本類別,將其后的、鄰接比連續(xù)不小于預(yù)設(shè)的比例閾值的文本類別確定為所述第一個文本類別的同量類別,將所述第一個文本類別及其同量類別確定為一個文本分組,并將該文本分組從當(dāng)前的待分組類別序列中去除;其中,當(dāng)前的待分組類別序列中每一文本類別的鄰接比為:該文本類別與其在前文本類別包含的歷史文本數(shù)量的比值;S303:在判斷當(dāng)前文本分組的數(shù)量小于第二預(yù)設(shè)數(shù)量時,執(zhí)行步驟S302和步驟S303;直到當(dāng)前文本分組的數(shù)量等于第二預(yù)設(shè)數(shù)量。
可選地,所述方法進(jìn)一步包括:在所述獲取多個歷史文本之后,利用預(yù)先建立的語言模型檢測所述多個歷史文本中的噪聲數(shù)據(jù),將檢測到的噪聲數(shù)據(jù)去除。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司,未經(jīng)北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810149129.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





