[發(fā)明專利]一種用戶級(jí)別的個(gè)性化文本摘要生成方法和系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201911151025.0 | 申請(qǐng)日: | 2019-11-21 |
| 公開(kāi)(公告)號(hào): | CN110941712B | 公開(kāi)(公告)日: | 2022-09-20 |
| 發(fā)明(設(shè)計(jì))人: | 王智;易坤;孫立峰 | 申請(qǐng)(專利權(quán))人: | 清華大學(xué)深圳國(guó)際研究生院 |
| 主分類號(hào): | G06F16/34 | 分類號(hào): | G06F16/34;G06F16/335;G06F16/9536 |
| 代理公司: | 深圳新創(chuàng)友知識(shí)產(chǎn)權(quán)代理有限公司 44223 | 代理人: | 江耀純 |
| 地址: | 518055 廣東省深圳市*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用戶 級(jí)別 個(gè)性化 文本 摘要 生成 方法 系統(tǒng) | ||
本發(fā)明提供一種用戶級(jí)別的個(gè)性化文本摘要生成方法和系統(tǒng),方法包括:采集用戶的基本信息以及用戶在閱讀至少一個(gè)類別的文本時(shí)的注意力分布原始數(shù)據(jù);提取用戶的個(gè)性化偏好特征,包括用戶在不同詞性上的注意力分布;將用戶的個(gè)性化偏好特征和文本輸入到個(gè)性化摘要抽取模塊,輸出為抽取出來(lái)的個(gè)性化句子;將個(gè)性化句子組合成新的文本輸入到后續(xù)的抽象生成模型中生成個(gè)性化文本摘要;獲取新用戶的基本信息,計(jì)算與已有的用戶的相似度,選擇最相似的至少兩個(gè)用戶并獲取個(gè)性化偏好特征的平均值作為新用戶的初始化個(gè)性偏好特征;根據(jù)初始化個(gè)性偏好特征獲得新用戶的個(gè)性化文本摘要。通過(guò)匹配新用戶的基本信息,得到個(gè)性化文本摘要,簡(jiǎn)單且準(zhǔn)確。
技術(shù)領(lǐng)域
本發(fā)明涉及文本信息挖掘技術(shù)領(lǐng)域,尤其涉及一種用戶級(jí)別的個(gè)性化文本摘要生成方法和系統(tǒng)。
背景技術(shù)
現(xiàn)有的文本摘要生成技術(shù)主要為非個(gè)性化文本摘要類型,這類技術(shù)對(duì)于相同文本不同用戶生成的摘要是完全相同的,不能對(duì)不同的用戶生成個(gè)性化的文本摘要。而現(xiàn)存的個(gè)性化文本摘要技術(shù)主要存在兩個(gè)問(wèn)題:
1)前期需要大量與文本本身無(wú)關(guān)的用戶背景信息的采集工作,而在往往實(shí)際場(chǎng)景中這些用戶背景信息的采集較為困難;
2)并未真正做到用戶級(jí)別的個(gè)性化,只是針對(duì)不同的主題挑選了更符合選定主題的句子作為個(gè)性化摘要的輸出。
因?yàn)闊o(wú)法克服這兩個(gè)問(wèn)題,所以現(xiàn)有技術(shù)中缺乏一種用戶級(jí)別的個(gè)性化文本摘要方法。
發(fā)明內(nèi)容
本發(fā)明為了解決現(xiàn)有的問(wèn)題,提供一種用戶級(jí)別的個(gè)性化文本摘要生成方法和系統(tǒng)。
為了解決上述問(wèn)題,本發(fā)明采用的技術(shù)方案如下所述:
一種用戶級(jí)別的個(gè)性化文本摘要生成方法,包括如下步驟:S1:采集用戶的基本信息以及所述用戶在閱讀至少一個(gè)類別的文本時(shí)的注意力分布原始數(shù)據(jù);S2:從所述注意力分布原始數(shù)據(jù)中提取所述用戶的個(gè)性化偏好特征,所述個(gè)性化偏好特征包括所述用戶在不同詞性上的注意力分布;S3:將所述用戶的個(gè)性化偏好特征和所述文本輸入到個(gè)性化摘要抽取模塊,輸出為抽取出來(lái)的個(gè)性化句子;將所述個(gè)性化句子組合成新的文本輸入到后續(xù)的抽象生成模型中生成個(gè)性化文本摘要;S4:獲取新用戶的基本信息,計(jì)算與已有的所述用戶的相似度,選擇最相似的至少兩個(gè)用戶并獲取所述至少兩個(gè)用戶的個(gè)性化偏好特征的平均值作為所述新用戶的初始化個(gè)性偏好特征;S5:根據(jù)所述初始化個(gè)性偏好特征獲得所述新用戶的個(gè)性化文本摘要。
優(yōu)選地,所述基本信息包括:性別,年齡,學(xué)歷和專業(yè)背景,所述性別包括男性、女性;所述年齡包括15歲以下、15-25歲、25-35歲、35-45歲、45歲以上;所述學(xué)歷包括高中在讀、大學(xué)在讀、本科、碩士和博士;所述專業(yè)背景包括計(jì)算機(jī)、環(huán)境、生物、人文、歷史、電子、機(jī)械、英語(yǔ)、法律、金融和高中生。
優(yōu)選地,所述類別包括金融、教育、體育、娛樂(lè)、科技、軍事、汽車、游戲、動(dòng)漫和文化。
優(yōu)選地,所述原始數(shù)據(jù)包括所述用戶在25種詞性上的注意力分布百分比,包括形容詞、區(qū)別詞、連詞、副詞、嘆詞、方位詞、語(yǔ)素、成語(yǔ)、前接成分、簡(jiǎn)稱略語(yǔ)、后接成分、習(xí)用語(yǔ)、數(shù)詞、名詞、介詞、量詞、代詞、處所詞、時(shí)間詞、助詞、動(dòng)詞、標(biāo)點(diǎn)符號(hào)、非語(yǔ)素字、語(yǔ)氣詞和狀態(tài)詞。
優(yōu)選地,采用眼動(dòng)儀采集用戶在閱讀文本時(shí)的注意力分布原始數(shù)據(jù)。
優(yōu)選地,抽象生成模型是神經(jīng)網(wǎng)絡(luò)模型,包括Pointer Generator端到端的模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué)深圳國(guó)際研究生院,未經(jīng)清華大學(xué)深圳國(guó)際研究生院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911151025.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 頻道信息生成、訪問(wèn)控制、交付方法、IPTV系統(tǒng)及裝置
- 向個(gè)性化回鈴音用戶提供網(wǎng)絡(luò)閃鈴的方法
- 一種個(gè)性化設(shè)置的控制方法、系統(tǒng)及設(shè)備
- 個(gè)性化配置應(yīng)用功能的方法和裝置
- 瀏覽器新建標(biāo)簽頁(yè)的展現(xiàn)方法和瀏覽器客戶端
- 一觸式設(shè)備個(gè)性化
- 一種跨媒介個(gè)性化推薦方法和系統(tǒng)
- 基于大數(shù)據(jù)的證券資訊個(gè)性化服務(wù)系統(tǒng)
- 一種個(gè)性化的交易員教學(xué)自動(dòng)推薦方法和系統(tǒng)
- 實(shí)物禮品的個(gè)性化處理方法、裝置、設(shè)備和可讀存儲(chǔ)介質(zhì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





