[發(fā)明專利]用于生成文章的方法和裝置在審
| 申請?zhí)枺?/td> | 201710206961.1 | 申請日: | 2017-03-31 |
| 公開(公告)號: | CN106970898A | 公開(公告)日: | 2017-07-21 |
| 發(fā)明(設(shè)計)人: | 王文斌;施鵬;吳廣發(fā) | 申請(專利權(quán))人: | 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號: | G06F17/24 | 分類號: | G06F17/24;G06F17/25;G06F17/30 |
| 代理公司: | 北京英賽嘉華知識產(chǎn)權(quán)代理有限責(zé)任公司11204 | 代理人: | 王達佐,馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 生成 文章 方法 裝置 | ||
1.一種用于生成文章的方法,其特征在于,所述方法包括:
基于輸入的文章主題和以下任意一項生成文章提綱:提綱模型,根據(jù)對應(yīng)所述文章主題的用戶行為數(shù)據(jù)建立的提綱數(shù)據(jù)庫,以及人工設(shè)定的提綱;
從預(yù)先建立的素材庫中,提取與所述文章提綱的特征相關(guān)聯(lián)的素材;
向所述文章提綱中,插入提取的素材,得到生成的文章。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)對應(yīng)所述文章主題的用戶行為數(shù)據(jù)建立的提綱數(shù)據(jù)庫包括:
檢索全網(wǎng)圍繞所述文章主題的子主題,建立子主題數(shù)據(jù)庫;
根據(jù)用戶對所述子主題數(shù)據(jù)庫中的子主題的點擊順序和/或所述子主題數(shù)據(jù)庫中的子主題的語義遞進順序,排序所述子主題數(shù)據(jù)庫中的子主題;
剔除所述子主題數(shù)據(jù)庫中不符合預(yù)定邏輯規(guī)則的子主題,得到符合預(yù)定邏輯規(guī)則的子主題;
將各符合預(yù)定邏輯規(guī)則的子主題作為提綱,得到提綱數(shù)據(jù)庫。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)先建立的素材庫通過以下步驟建立:
獲取素材的特征,所述素材為將現(xiàn)有的文章的內(nèi)容根據(jù)篩選規(guī)則篩選得到和/或變換現(xiàn)有的文章的內(nèi)容得到;
根據(jù)所述素材的特征建立索引結(jié)構(gòu),得到所述素材庫。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:對所述生成的文章進行優(yōu)化處理,得到優(yōu)化后的所述生成的文章,所述優(yōu)化處理包括以下一項或多項:潤色處理、插入富媒體數(shù)據(jù)處理以及排版優(yōu)化處理。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述潤色處理包括以下一項或多項:統(tǒng)一所述生成的文章的文法風(fēng)格;刪除與前后語句不連貫的語句;以及替換與前后語句不連貫的語句。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述插入富媒體數(shù)據(jù)處理包括:
從預(yù)先建立的資源庫,提取與所述生成的文章的特征相關(guān)聯(lián)的富媒體數(shù)據(jù);
向所述生成的文章中,插入提取的富媒體數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述從預(yù)先建立的資源庫,提取與所述生成的文章的特征相關(guān)聯(lián)的富媒體數(shù)據(jù)包括:
根據(jù)以下一項或多項從預(yù)先建立的資源庫中提取富媒體數(shù)據(jù)生成候選富媒體列表:所述文章主題、所述文章提綱、所述生成的文章的各段落的摘要以及所述生成的文章的各段落的關(guān)鍵詞;
采用質(zhì)量篩選從所述候選富媒體列表中提取與所述生成的文章的特征相關(guān)聯(lián)的富媒體數(shù)據(jù)。
8.根據(jù)權(quán)利要求6-7任意一項所述的方法,其特征在于,所述預(yù)先建立的資源庫通過以下步驟建立:
獲取富媒體數(shù)據(jù)的特征;
根據(jù)所述富媒體數(shù)據(jù)的特征建立索引結(jié)構(gòu),得到所述資源庫。
9.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述質(zhì)量篩選根據(jù)以下一項或多項進行:
圖文相關(guān)性、圖片分辨率、圖片長寬比、圖片來源權(quán)威度、廣告過濾策略、反作弊過濾策略、反黃過濾策略和水印過濾策略。
10.根據(jù)權(quán)利要求1-9任意一項所述的方法,其特征在于,所述方法還包括:
將所述文章主題和所述文章提綱輸入標(biāo)題模型,得到所述生成的文章的標(biāo)題。
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述方法還包括:
對所述標(biāo)題中的核心詞進行屬性擴展;
對屬性擴展后的標(biāo)題中的核心詞進行替換和改寫,得到更新后的標(biāo)題。
12.一種用于生成文章的裝置,其特征在于,所述裝置包括:
提綱生成單元,用于基于輸入的文章主題和以下任意一項生成文章提綱:提綱模型,根據(jù)對應(yīng)所述文章主題的用戶行為數(shù)據(jù)建立的提綱數(shù)據(jù)庫,以及人工設(shè)定的提綱;
素材提取單元,用于從預(yù)先建立的素材庫中,提取與所述文章提綱的特征相關(guān)聯(lián)的素材;
素材插入單元,用于向所述文章提綱中,插入提取的素材,得到生成的文章。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710206961.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





