[發(fā)明專利]一種基于自然語(yǔ)言處理及圖像算法的文章自動(dòng)生成系統(tǒng)和方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010176734.0 | 申請(qǐng)日: | 2020-03-13 |
| 公開(kāi)(公告)號(hào): | CN111428472A | 公開(kāi)(公告)日: | 2020-07-17 |
| 發(fā)明(設(shè)計(jì))人: | 孟憲坤;邊樹(shù)森;劉志軍 | 申請(qǐng)(專利權(quán))人: | 浙江華坤道威數(shù)據(jù)科技有限公司 |
| 主分類號(hào): | G06F40/216 | 分類號(hào): | G06F40/216;G06F40/258;G06F40/189;G06K9/00;G06F16/335;G06F16/58;G06N3/04;G06N3/08 |
| 代理公司: | 杭州信義達(dá)專利代理事務(wù)所(普通合伙) 33305 | 代理人: | 陳繼算 |
| 地址: | 310016 浙江省杭州市余杭區(qū)余杭街道*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 自然語(yǔ)言 處理 圖像 算法 文章 自動(dòng) 生成 系統(tǒng) 方法 | ||
1.一種基于自然語(yǔ)言處理及圖像算法的文章自動(dòng)生成系統(tǒng),其特征在于,包括:
操作終端,輸入產(chǎn)品信息query和用戶信息、輸出最終推文;
基礎(chǔ)標(biāo)簽提取系統(tǒng),根據(jù)輸入的產(chǎn)品信息和用戶信息,利用BERT預(yù)訓(xùn)練模型提取關(guān)鍵字,建立多個(gè)標(biāo)簽;
內(nèi)容生成模塊,包括標(biāo)題生成模型、短文生成模型和圖像生成模型,根據(jù)標(biāo)簽信息生成相應(yīng)的若干標(biāo)題、若干文章內(nèi)容d和若干與文章內(nèi)容相符的圖片;智能篩選模塊,包括文章篩選模塊和圖片篩選模塊,對(duì)于多個(gè)文章內(nèi)容與相符圖片的組合,利用文章篩選模塊和圖片篩選模塊進(jìn)行篩選,得到符合要求的一組文章內(nèi)容與相符圖片;
智能排版模塊,對(duì)最終選擇的文章及相符圖片進(jìn)行排版,得到最終推文。
2.根據(jù)權(quán)利要求1所述的一種基于自然語(yǔ)言處理及圖像算法的文章自動(dòng)生成系統(tǒng),其特征在于:所述智能排版模塊包括文本數(shù)據(jù)庫(kù),通過(guò)深度學(xué)習(xí)BERT算法訓(xùn)練出自動(dòng)對(duì)文章與圖片進(jìn)行排版的模型。
3.根據(jù)權(quán)利要求1所述的一種基于自然語(yǔ)言處理及圖像算法的文章自動(dòng)生成系統(tǒng),其特征在于:所述內(nèi)容生成模塊包括收集的標(biāo)題數(shù)據(jù)庫(kù)、不同類型的短文數(shù)據(jù)庫(kù);通過(guò)BERT預(yù)訓(xùn)練模型訓(xùn)練分別得到標(biāo)題生成模型和短文生成模型;通過(guò)圖像生成模型-StackGAN算法繪制出與短文相符的圖片。
4.根據(jù)權(quán)利要求3所述的一種基于自然語(yǔ)言處理及圖像算法的文章自動(dòng)生成系統(tǒng),其特征在于:所述圖片篩選模塊,根據(jù)圖像生成模型-StackGAN算法計(jì)算相符圖片與文章內(nèi)容的契合度,設(shè)定閾值,選擇契合度最高的相符圖片。
5.根據(jù)權(quán)利要求3所述的一種基于自然語(yǔ)言處理及圖像算法的文章自動(dòng)生成系統(tǒng),其特征在于:所述文章篩選模塊,通過(guò)BERT預(yù)訓(xùn)練模型計(jì)算產(chǎn)品信息query和每篇文檔d之間的相關(guān)性分?jǐn)?shù),query中包括詞q1,q2...qn,相關(guān)性分?jǐn)?shù)的計(jì)算公式為:
其中R(qi,d)是查詢語(yǔ)句query中每個(gè)詞qi和文檔d的相關(guān)度值,Wi是詞qi的逆向文檔頻率IDF,其中,N為文檔總數(shù),n(qi)為包含詞qi的文檔數(shù);
其中,k1,k2,b為調(diào)節(jié)因子,qfi為詞qi在查詢語(yǔ)句query中的出現(xiàn)頻率,fi為qi在文檔d中的出現(xiàn)頻率,dl為文檔d的長(zhǎng)度,avgdl為所有文檔的平均長(zhǎng)度;
計(jì)算每個(gè)文檔d與query的相關(guān)性分?jǐn)?shù),設(shè)定閾值,將閾值與每個(gè)計(jì)算完成的相關(guān)性分?jǐn)?shù)進(jìn)行比較,選擇相關(guān)度適合的相符文章。
6.根據(jù)權(quán)利要求1-5所述的一種基于自然語(yǔ)言處理及圖像算法的文章自動(dòng)生成方法,其特征在于,包括以下步驟:
S1,通過(guò)操作終端輸入產(chǎn)品信息和用戶信息;
S2,所述基礎(chǔ)標(biāo)簽提取系統(tǒng)對(duì)輸入的內(nèi)容提取關(guān)鍵字,建立多個(gè)標(biāo)簽;
S3,所述內(nèi)容生成模塊根據(jù)S2步驟生成的標(biāo)簽信息,生成符合標(biāo)簽的多個(gè)標(biāo)題、多個(gè)文章內(nèi)容以及多個(gè)與文章內(nèi)容相符的圖片;
S4,通過(guò)智能篩選模塊篩選出一個(gè)短文和契合度最高的相符圖片;經(jīng)篩選后無(wú)法獲得操作人認(rèn)可,則從步驟S2重新開(kāi)始,直到篩選出滿意的一個(gè)短文和契合度最高的相符圖片;
S5,通過(guò)智能排版模塊對(duì)短文和相符圖片進(jìn)行排版,得到最終的推文,將推文通過(guò)操作終端輸出。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江華坤道威數(shù)據(jù)科技有限公司,未經(jīng)浙江華坤道威數(shù)據(jù)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010176734.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種自然語(yǔ)言的搜索方法及系統(tǒng)
- 基于交互上下文處理自然語(yǔ)言方法
- 計(jì)算機(jī)化的自然語(yǔ)言查詢意圖分派
- 自然語(yǔ)言描述信息的生成方法及裝置
- 風(fēng)格可定制的文本生成
- 多輪預(yù)制對(duì)話
- 改變應(yīng)答以提供表現(xiàn)豐富的自然語(yǔ)言對(duì)話的方法、計(jì)算機(jī)裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 自然語(yǔ)言查詢的轉(zhuǎn)換
- 一種自然語(yǔ)言處理方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 自然語(yǔ)言理解模型訓(xùn)練方法、自然語(yǔ)言理解方法及裝置
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





