[發(fā)明專利]煙草科技文獻(xiàn)數(shù)據(jù)推薦模型的構(gòu)建方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202011070273.5 | 申請(qǐng)日: | 2020-10-09 |
| 公開(公告)號(hào): | CN112115237A | 公開(公告)日: | 2020-12-22 |
| 發(fā)明(設(shè)計(jì))人: | 張勝華;閆愛華;周俊;李琳;楊睿;陳一 | 申請(qǐng)(專利權(quán))人: | 湖北中煙工業(yè)有限責(zé)任公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/335;G06F40/247;G06N3/08 |
| 代理公司: | 浙江千克知識(shí)產(chǎn)權(quán)代理有限公司 33246 | 代理人: | 裴金華 |
| 地址: | 430000 湖北省*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 煙草 科技 文獻(xiàn) 數(shù)據(jù) 推薦 模型 構(gòu)建 方法 裝置 | ||
本發(fā)明實(shí)施例提供一種煙草科技文獻(xiàn)數(shù)據(jù)推薦模型的構(gòu)建方法及裝置,所述方法包括:從煙草科技文獻(xiàn)庫(kù)中采樣文獻(xiàn)數(shù)據(jù),得到訓(xùn)練數(shù)據(jù)集;根據(jù)文獻(xiàn)數(shù)據(jù)的語義獲取對(duì)應(yīng)的關(guān)聯(lián)語句,通過關(guān)聯(lián)語句、文獻(xiàn)數(shù)據(jù)以及預(yù)設(shè)的正向標(biāo)注構(gòu)建正例標(biāo)注數(shù)據(jù);通過預(yù)設(shè)的非關(guān)聯(lián)方法獲取與文獻(xiàn)數(shù)據(jù)不相關(guān)的非關(guān)聯(lián)文獻(xiàn)數(shù)據(jù),并通過關(guān)聯(lián)語句、非關(guān)聯(lián)文獻(xiàn)數(shù)據(jù)以及預(yù)設(shè)的負(fù)向標(biāo)注構(gòu)建負(fù)例標(biāo)注數(shù)據(jù);將正例標(biāo)注數(shù)據(jù)和負(fù)例標(biāo)注數(shù)據(jù)通過神經(jīng)網(wǎng)絡(luò)模型進(jìn)行模型訓(xùn)練,得到煙草科技的文獻(xiàn)數(shù)據(jù)的推薦模型。采用本方法構(gòu)建一種能夠更準(zhǔn)確的針對(duì)煙草科技文獻(xiàn)數(shù)據(jù)進(jìn)行推薦的推薦模型。
技術(shù)領(lǐng)域
本發(fā)明涉及煙草科技數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種煙草科技文獻(xiàn)數(shù)據(jù)推薦模型的構(gòu)建方法及裝置。
背景技術(shù)
近年來,隨著煙草科技領(lǐng)域的信息化建設(shè)不斷深化,漸漸的煙草相關(guān)部門也積累了大量的煙草科技文獻(xiàn)數(shù)據(jù);但由于參與煙草信息化建設(shè)的各部門、各企業(yè)和各業(yè)務(wù)單元的系統(tǒng)之間缺乏統(tǒng)一標(biāo)準(zhǔn),煙草科技文獻(xiàn)信息的數(shù)據(jù)質(zhì)量也面臨著巨大挑戰(zhàn)。
其中,如何從充滿重復(fù)數(shù)據(jù)、數(shù)據(jù)質(zhì)量參差不齊的文獻(xiàn)數(shù)據(jù)庫(kù)中搜索到高質(zhì)量的文獻(xiàn)已經(jīng)成為煙草科技文獻(xiàn)應(yīng)用領(lǐng)域的一個(gè)重大問題。為了更好地利用煙草科技領(lǐng)域的文獻(xiàn)數(shù)據(jù),需要有效的文獻(xiàn)智能推薦方法來處理煙草科技領(lǐng)域的文獻(xiàn)數(shù)據(jù)。
目前,已經(jīng)有一些傳統(tǒng)方法可以對(duì)通用領(lǐng)域的文獻(xiàn)數(shù)據(jù)記錄進(jìn)行搜索推薦,這些包括利用文獻(xiàn)數(shù)據(jù)記錄ID比對(duì)、關(guān)鍵詞列表和摘要信息比對(duì)等匹配度計(jì)算方法。但上述傳統(tǒng)方法屬于泛用的文獻(xiàn)數(shù)據(jù)推薦方法,用于煙草科技文獻(xiàn)領(lǐng)域,沒有領(lǐng)域的針對(duì)性,導(dǎo)致推薦的內(nèi)容準(zhǔn)確度不夠高。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中存在的問題,本發(fā)明實(shí)施例提供一種煙草科技文獻(xiàn)數(shù)據(jù)推薦模型的構(gòu)建方法。
本發(fā)明實(shí)施例提供一種煙草科技文獻(xiàn)數(shù)據(jù)推薦模型的構(gòu)建方法,包括:
從煙草科技文獻(xiàn)庫(kù)中采樣文獻(xiàn)數(shù)據(jù),得到訓(xùn)練數(shù)據(jù)集;
根據(jù)所述文獻(xiàn)數(shù)據(jù)的語義獲取對(duì)應(yīng)的關(guān)聯(lián)語句,通過所述關(guān)聯(lián)語句、文獻(xiàn)數(shù)據(jù)以及預(yù)設(shè)的正向標(biāo)注構(gòu)建正例標(biāo)注數(shù)據(jù);
通過預(yù)設(shè)的非關(guān)聯(lián)方法獲取與所述文獻(xiàn)數(shù)據(jù)不相關(guān)的非關(guān)聯(lián)文獻(xiàn)數(shù)據(jù),并通過所述關(guān)聯(lián)語句、非關(guān)聯(lián)文獻(xiàn)數(shù)據(jù)以及預(yù)設(shè)的負(fù)向標(biāo)注構(gòu)建負(fù)例標(biāo)注數(shù)據(jù);
將所述正例標(biāo)注數(shù)據(jù)和所述負(fù)例標(biāo)注數(shù)據(jù)通過神經(jīng)網(wǎng)絡(luò)模型進(jìn)行模型訓(xùn)練,得到所述煙草科技的文獻(xiàn)數(shù)據(jù)的推薦模型。
在其中一個(gè)實(shí)施例中,所述方法還包括:
從所述訓(xùn)練數(shù)據(jù)集中隨機(jī)抽取文獻(xiàn),通過預(yù)設(shè)的文本匹配方法計(jì)算所述關(guān)聯(lián)語句與所述隨機(jī)抽取文獻(xiàn)之間的匹配度;
當(dāng)所述匹配度低于預(yù)設(shè)值時(shí),將所述隨機(jī)抽取文獻(xiàn)作為與所述文獻(xiàn)數(shù)據(jù)不相關(guān)的非關(guān)聯(lián)文獻(xiàn)數(shù)據(jù)。
在其中一個(gè)實(shí)施例中,所述方法還包括:
檢測(cè)所述正例標(biāo)注數(shù)據(jù)和所述負(fù)例標(biāo)注數(shù)據(jù)的數(shù)據(jù)量是否達(dá)到預(yù)設(shè)的數(shù)據(jù)量標(biāo)準(zhǔn);
當(dāng)所述正例標(biāo)注數(shù)據(jù)和所述負(fù)例標(biāo)注數(shù)據(jù)的數(shù)據(jù)量未達(dá)到預(yù)設(shè)的數(shù)據(jù)量標(biāo)準(zhǔn)時(shí),重復(fù)構(gòu)建負(fù)例標(biāo)注數(shù)據(jù)的步驟直至所述正例標(biāo)注數(shù)據(jù)和所述負(fù)例標(biāo)注數(shù)據(jù)的數(shù)據(jù)量達(dá)到預(yù)設(shè)的數(shù)據(jù)量標(biāo)準(zhǔn)。
在其中一個(gè)實(shí)施例中,所述方法還包括:
獲取預(yù)設(shè)的數(shù)據(jù)權(quán)重表,根據(jù)所述數(shù)據(jù)權(quán)重表為所述從煙草科技文獻(xiàn)庫(kù)中的數(shù)據(jù)分配權(quán)重,得到權(quán)重分配后的煙草科技文獻(xiàn)庫(kù),所述煙草科技文獻(xiàn)庫(kù)的權(quán)重用于調(diào)整從所述煙草科技文獻(xiàn)庫(kù)中采樣時(shí)的采樣概率。
在其中一個(gè)實(shí)施例中,所述關(guān)聯(lián)語句,包括:
關(guān)鍵詞、關(guān)鍵詞的同義詞、包含關(guān)鍵詞的語句。
在其中一個(gè)實(shí)施例中,所述方法還包括:
獲取搜索關(guān)鍵詞列表;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湖北中煙工業(yè)有限責(zé)任公司,未經(jīng)湖北中煙工業(yè)有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011070273.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 基于PageRank和時(shí)間衰減的科技文獻(xiàn)重要度評(píng)價(jià)方法
- 基于手機(jī)APP的科技信息服務(wù)查詢系統(tǒng)
- 一種科技情報(bào)信息管理系統(tǒng)
- 一種高校科技成果收集方法
- 一種表征科技專家成果能力的科技詞條抽取方法
- 一種科技成果轉(zhuǎn)化信息服務(wù)方法及系統(tǒng)
- 一種基于語義分析的科技成果入庫(kù)方法及系統(tǒng)
- 一種科技項(xiàng)目申報(bào)咨詢服務(wù)平臺(tái)
- 面向科技服務(wù)的知識(shí)圖譜構(gòu)建方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種科技金融評(píng)估系統(tǒng)的構(gòu)建方法
- PDF科技文獻(xiàn)管理系統(tǒng)及其方法
- 建立新舊文獻(xiàn)代替關(guān)系的方法及裝置
- 一種自動(dòng)標(biāo)注文獻(xiàn)作廢的方法和裝置
- 一種新型的中文科技文獻(xiàn)半自動(dòng)標(biāo)引方法
- 文獻(xiàn)歸一方法、文獻(xiàn)搜索方法及對(duì)應(yīng)裝置
- 文獻(xiàn)價(jià)值評(píng)估方法和裝置
- 一種基于引用次數(shù)的文獻(xiàn)推薦方法
- 一種多語種文獻(xiàn)分類方法、裝置及存儲(chǔ)介質(zhì)
- 一種文獻(xiàn)標(biāo)簽的識(shí)別方法及裝置
- 一種基于文檔數(shù)據(jù)分析的在線文獻(xiàn)歸納和儲(chǔ)存系統(tǒng)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





