[發(fā)明專利]文本信息處理方法及介質(zhì)、設(shè)備、系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202110609909.7 | 申請(qǐng)日: | 2021-06-01 |
| 公開(公告)號(hào): | CN113204632A | 公開(公告)日: | 2021-08-03 |
| 發(fā)明(設(shè)計(jì))人: | 朱登龍;鄒宇;何蜀波;孫玉霞;劉新;劉洋;余遷 | 申請(qǐng)(專利權(quán))人: | 攜程旅游信息技術(shù)(上海)有限公司 |
| 主分類號(hào): | G06F16/332 | 分類號(hào): | G06F16/332;G06F16/33;G06F16/35;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 上海隆天律師事務(wù)所 31282 | 代理人: | 鐘宗 |
| 地址: | 201203 上海市浦東新*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 信息處理 方法 介質(zhì) 設(shè)備 系統(tǒng) | ||
本發(fā)明實(shí)施例提供了文本信息處理方法及介質(zhì)、設(shè)備、系統(tǒng)。所述方法包括建立內(nèi)容豐富度模型,所述內(nèi)容豐富度模型用于對(duì)目標(biāo)文本對(duì)應(yīng)的內(nèi)容豐富度進(jìn)行評(píng)價(jià),所述目標(biāo)文本來(lái)源于用戶的歷史文本,所述內(nèi)容豐富度至少包括:所述目標(biāo)文本的信息量;基于所述豐富度模型對(duì)所述目標(biāo)文本進(jìn)行分析,得到豐富度衡量后的文本;根據(jù)所述豐富度衡量后的文本確定選定的文本集合。上述技術(shù)方案可以提升文本信息處理的效率。
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理領(lǐng)域,具體地,涉及文本信息處理方法及介質(zhì)、設(shè)備、系統(tǒng)。
背景技術(shù)
隨著數(shù)據(jù)化時(shí)代的到來(lái),越來(lái)越多的信息以文本信息的形式呈現(xiàn)。如何從文本信息中高效的挖掘符合預(yù)期目標(biāo)的信息成為亟待解決的問(wèn)題。
該問(wèn)題呈現(xiàn)在各種領(lǐng)域中。例如,在旅游服務(wù)領(lǐng)域,如何挖掘得到符合預(yù)期目標(biāo)的優(yōu)質(zhì)文本,已成為該領(lǐng)域中信息服務(wù)提供方研究的熱點(diǎn)。
以旅游服務(wù)領(lǐng)域?yàn)槔S著互聯(lián)網(wǎng)技術(shù)的發(fā)展,在線旅行社(Online TravelAgency,OTA)應(yīng)運(yùn)而生。OTA指旅游消費(fèi)者通過(guò)網(wǎng)絡(luò)向旅游服務(wù)提供商預(yù)定旅游產(chǎn)品或服務(wù),并通過(guò)網(wǎng)上支付或者線下付費(fèi),即各旅游主體可以通過(guò)網(wǎng)絡(luò)進(jìn)行產(chǎn)品營(yíng)銷或產(chǎn)品銷售。OTA的出現(xiàn)將原來(lái)傳統(tǒng)的旅行社銷售模式放到網(wǎng)絡(luò)平臺(tái)上,更廣泛的傳遞了線路信息,互動(dòng)式的交流更方便了客人的咨詢和訂購(gòu)。
大型的OTA平臺(tái)積累了大量的用戶文本(評(píng)論,問(wèn)答,攻略分享等等)信息。這些信息包含了用戶的真實(shí)的評(píng)價(jià),如何合理運(yùn)用這些寶貴的信息是眾多OTA平臺(tái)亟待解決的問(wèn)題。一方面面對(duì)上億級(jí)別的數(shù)據(jù),傳統(tǒng)的人工挑選的方法來(lái)挑選產(chǎn)品的優(yōu)質(zhì)文本內(nèi)容,已經(jīng)不適合現(xiàn)在的技術(shù)發(fā)展;另一方面技術(shù)的快速發(fā)展,尤其是自然語(yǔ)言處理(NLP,NaturalLanguage Processing)方面的機(jī)器學(xué)習(xí),深度學(xué)習(xí)等方法,也是的如何處理海量信息成為可能。如何利用機(jī)器學(xué)習(xí),深度學(xué)習(xí)并結(jié)合傳統(tǒng)方法來(lái)發(fā)現(xiàn)有價(jià)值,高品質(zhì)的文本內(nèi)容成為OTA亟待解決的技術(shù)難題。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的問(wèn)題,本發(fā)明實(shí)施例提供票務(wù)信息交互方法,包括:建立內(nèi)容豐富度模型,所述內(nèi)容豐富度模型用于對(duì)目標(biāo)文本對(duì)應(yīng)的內(nèi)容豐富度進(jìn)行評(píng)價(jià),所述目標(biāo)文本來(lái)源于用戶的歷史文本,所述內(nèi)容豐富度至少包括:所述目標(biāo)文本的信息量;基于所述豐富度模型對(duì)所述目標(biāo)文本進(jìn)行分析,得到豐富度衡量后的文本;根據(jù)所述豐富度衡量后的文本確定選定的文本集合。
可選的,對(duì)所述目標(biāo)文本的信息量進(jìn)行評(píng)價(jià)包括:利用信息熵、詞性以及依存句法中至少一種確定所述目標(biāo)文本對(duì)應(yīng)的語(yǔ)句信息量。
可選的,所述文本信息處理方法還包括:獲取指定產(chǎn)品的信息;所述內(nèi)容豐富度模型用于對(duì)目標(biāo)文本對(duì)應(yīng)的內(nèi)容豐富度進(jìn)行評(píng)價(jià)還包括:評(píng)價(jià)所述目標(biāo)文本與所述指定產(chǎn)品的內(nèi)容關(guān)聯(lián)關(guān)系。
可選的,所述目標(biāo)文本與所述指定產(chǎn)品的內(nèi)容關(guān)聯(lián)關(guān)系基于實(shí)體識(shí)別技術(shù)以及知識(shí)圖譜確定。
可選的,所述文本信息處理方法還包括:獲取所述目標(biāo)文本對(duì)應(yīng)的應(yīng)用場(chǎng)景;所述內(nèi)容豐富度模型用于對(duì)目標(biāo)文本對(duì)應(yīng)的內(nèi)容豐富度進(jìn)行評(píng)價(jià)包括:基于所述應(yīng)用場(chǎng)景對(duì)所述目標(biāo)文本進(jìn)行評(píng)價(jià)。
可選的,基于所述應(yīng)用場(chǎng)景對(duì)所述目標(biāo)文本進(jìn)行評(píng)價(jià)包括:
建立對(duì)應(yīng)不同應(yīng)用場(chǎng)景的評(píng)價(jià)維度及評(píng)價(jià)維度分類模型;
基于所述評(píng)價(jià)維度及評(píng)價(jià)維度分類模型對(duì)所述目標(biāo)文本進(jìn)行評(píng)價(jià)。
可選的,在所述建立內(nèi)容豐富度模型之前還包括:對(duì)所述用戶的歷史文本進(jìn)行預(yù)處理,篩選情感為正向的文本作為所述目標(biāo)文本。
可選的,所述的文本信息處理方法還包括:
獲取用戶的個(gè)性化要求;
基于所述個(gè)性化要求,建立個(gè)性化匹配模型;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于攜程旅游信息技術(shù)(上海)有限公司,未經(jīng)攜程旅游信息技術(shù)(上海)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110609909.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





