[發(fā)明專利]一種知識庫構(gòu)建方法、裝置、電子設(shè)備和可讀存儲裝置在審
| 申請?zhí)枺?/td> | 202010695181.X | 申請日: | 2020-07-19 |
| 公開(公告)號: | CN111950729A | 公開(公告)日: | 2020-11-17 |
| 發(fā)明(設(shè)計)人: | 方航;謝小容 | 申請(專利權(quán))人: | 中國建設(shè)銀行股份有限公司;建信金融科技有限責(zé)任公司 |
| 主分類號: | G06N5/02 | 分類號: | G06N5/02;G06F16/71;G06F16/783;G06F16/36 |
| 代理公司: | 北京市蘭臺律師事務(wù)所 11354 | 代理人: | 張峰 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 知識庫 構(gòu)建 方法 裝置 電子設(shè)備 可讀 存儲 | ||
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種知識庫構(gòu)建方法、裝置、電子設(shè)備和可讀存儲介質(zhì)。所述方法包括:獲取所述目標領(lǐng)域第一知識庫,并對所述第一知識庫進行數(shù)據(jù)增強處理;其中所述第一知識庫為根據(jù)所述目標領(lǐng)域內(nèi)視頻數(shù)據(jù)樣本確定;所述數(shù)據(jù)增強處理包括采用詞頻?逆文檔頻率算法;確定所述數(shù)據(jù)增強處理后的第一知識庫為目標知識庫。采用本申請?zhí)峁┑闹R庫構(gòu)建方法通過對視頻數(shù)據(jù)知識庫進行的增強處理,避免視頻訓(xùn)練數(shù)據(jù)的稀疏性,特別適合對例如教育等主要數(shù)據(jù)為視頻資料的知識庫的構(gòu)建,從而建立以視頻數(shù)據(jù)為主的目標領(lǐng)域的知識譜圖,為下游利用知識譜圖進行視頻推薦提供了有效知識庫。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其是涉及到一種知識庫構(gòu)建方法、裝置、電子設(shè)備和可讀存儲裝置。
背景技術(shù)
目前利用大數(shù)據(jù)云平臺進行例如教育類視頻推薦、用戶畫像等的需求日益增加,為此構(gòu)建例如教育領(lǐng)域等特定領(lǐng)域的知識圖譜并將此用于視頻推薦等方面提升的需求就日益凸顯。但是目前構(gòu)建特定專業(yè)領(lǐng)域,尤其是教育金融等技術(shù)領(lǐng)域的難題是數(shù)據(jù)大平臺上的視頻數(shù)量較少,數(shù)據(jù)量太少會造成數(shù)據(jù)稀疏性問題,數(shù)據(jù)稀疏性問題造成缺乏足夠的數(shù)據(jù)來構(gòu)建適合訓(xùn)練的知識圖譜是,這是目前特定專業(yè)領(lǐng)域推薦系統(tǒng)面臨的主要問題。
發(fā)明內(nèi)容
本申請的目的旨在至少能解決上述的技術(shù)缺陷之一。本申請所采用的技術(shù)方案如下:
第一方面,本申請實施例提供了一種知識庫構(gòu)建方法,該方法包括:
獲取所述目標領(lǐng)域第一知識庫,并對所述第一知識庫進行數(shù)據(jù)增強處理;其中所述第一知識庫為根據(jù)所述目標領(lǐng)域內(nèi)視頻數(shù)據(jù)樣本確定;所述數(shù)據(jù)增強處理包括采用詞頻-逆文檔頻率算法;
確定所述數(shù)據(jù)增強處理后的第一知識庫為目標知識庫。
可選地,所述對第一知識庫進行數(shù)據(jù)增強處理還包括:
對所述第一知識庫的數(shù)據(jù)增強處理包括對知識庫的知識點進行以下至少之一處理:同義詞替換、隨機插入、隨機交換、隨機刪除。
可選地,所述對所述第一知識庫進行詞頻-逆文檔頻率算法處理包括:
獲取目標領(lǐng)域視頻數(shù)據(jù)樣本;
將所述視頻數(shù)據(jù)樣本中的語音進行提取形成語音樣本;
將所述語音樣本轉(zhuǎn)化為文本樣本;
采用所述詞頻逆文檔頻率算法獲取所述文本樣本的關(guān)鍵詞;
從所述第二知識庫中獲取所述關(guān)鍵詞的關(guān)聯(lián)詞樣本;
將所述關(guān)鍵詞的關(guān)聯(lián)詞樣本擴充進所述第一知識庫中。
可選地,所述方法還包括:
獲取目標領(lǐng)域視頻數(shù)據(jù)樣本的主題和知識點;
構(gòu)建所述主題與知識點的從屬關(guān)系;
將所述主題與知識點的從屬關(guān)系擴充進所述第一知識庫樣本。
可選地,所述第一知識庫為根據(jù)所述目標領(lǐng)域內(nèi)視頻數(shù)據(jù)樣本確定還包括:
根據(jù)所述目標領(lǐng)域的視頻數(shù)據(jù)樣本確定目標主題;
引入與所述目標主題關(guān)聯(lián)的外部數(shù)據(jù)庫為第一知識庫。
可選地,所述知識庫可用于構(gòu)建目標領(lǐng)域知識圖譜。
第二方面,本發(fā)明實施例提供了一種知識庫構(gòu)建裝置,所述裝置包括:獲取模塊、存儲模塊、處理模塊,其中,
所述獲取模塊,用于獲取所述目標領(lǐng)域第一知識庫;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國建設(shè)銀行股份有限公司;建信金融科技有限責(zé)任公司,未經(jīng)中國建設(shè)銀行股份有限公司;建信金融科技有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010695181.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 構(gòu)建墊、實體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測模型構(gòu)建方法





