[發(fā)明專利]一種用于影視素材領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)管理方法有效
| 申請?zhí)枺?/td> | 201610972138.7 | 申請日: | 2016-11-04 |
| 公開(公告)號: | CN108021592B | 公開(公告)日: | 2021-11-02 |
| 發(fā)明(設(shè)計)人: | 毛順億;高洪皓;朱永華;劉寧杰;高迅;張鐵男 | 申請(專利權(quán))人: | 上海大學(xué) |
| 主分類號: | G06F16/182 | 分類號: | G06F16/182;G06F16/11;G06F16/43 |
| 代理公司: | 上海科盛知識產(chǎn)權(quán)代理有限公司 31225 | 代理人: | 葉敏華 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 影視 素材 領(lǐng)域 結(jié)構(gòu) 數(shù)據(jù)管理 方法 | ||
1.一種用于影視素材領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)管理方法,用于對影視素材領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)進行分布式存儲、查詢和可視化管理,其特征在于,所述分布式存儲具體為:
A1)建立影視素材領(lǐng)域的知識本體,包括領(lǐng)域知識庫KS和標簽分類庫LS,所述影視素材領(lǐng)域的知識本體為樹結(jié)構(gòu),所述樹結(jié)構(gòu)上的結(jié)點對應(yīng)影視素材領(lǐng)域的知識分類;
A2)根據(jù)建立的影視素材領(lǐng)域的知識本體,確定所接收影視素材的非結(jié)構(gòu)化數(shù)據(jù)的存儲路徑,按照存儲路徑將其存儲到HDFS文件系統(tǒng)中,同時將影視素材的非結(jié)構(gòu)化數(shù)據(jù)的描述信息存儲到數(shù)據(jù)庫中;
所述查詢和可視化管理具體為:
B1)通過計算語義相似相關(guān)度拓展用戶的搜索條件;
B2)根據(jù)拓展后的用戶的搜索條件,利用ElasticSearch搜索引擎結(jié)合Jena推理算法進行搜索,得到搜索結(jié)果并反饋給用戶;
B3)利用可視化工具對搜索數(shù)據(jù)進行展示;
步驟B1)具體為:
B11)對用戶的搜索條件進行自然語言處理;
B12)計算處理后的搜索條件的語義相似相關(guān)度,所述語義相似相關(guān)度包括字面相似度wordSim(A,B)、語義重合度semCR(A,B)、距離相似度disSim(A,B)和層次深度depH(A,B);
B13)根據(jù)計算結(jié)果得到拓展后的搜索條件;
所述字面相似度wordSim(A,B)具體為:
所述語義重合度semCR(A,B)具體為:
所述距離相似度disSim(A,B)具體為:
所述層次深度depH(A,B)具體為:
其中,A和B表示影視素材領(lǐng)域的知識本體的兩個結(jié)點,R表示根節(jié)點,wordNum表示漢字數(shù),nodeSet表示結(jié)點集合,length表示途經(jīng)長度;
步驟B2)具體為:
B21)利用ElasticSearch搜索引擎,將拓展后的用戶的搜索條件與標簽分類庫LS進行匹配;
B22)根據(jù)標簽分類庫LS的匹配結(jié)果得到對應(yīng)的領(lǐng)域知識庫KS中的結(jié)點,利用Jena推理算法得到其兄弟結(jié)點;
B23)將步驟B22)中得到的結(jié)點及其兄弟結(jié)點對應(yīng)的描述信息和影視素材的非結(jié)構(gòu)化數(shù)據(jù)作為搜索結(jié)果;
B24)對步驟B23)得到的搜索結(jié)果進行排序并反饋給用戶。
2.根據(jù)權(quán)利要求1所述的用于影視素材領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)管理方法,其特征在于,步驟A1)具體為:
A11)對影視素材領(lǐng)域的知識進行分類,得到領(lǐng)域知識庫KS;
A12)根據(jù)步驟A11)的分類結(jié)果建立影視素材領(lǐng)域的知識本體,所述影視素材領(lǐng)域的知識本體為樹結(jié)構(gòu),所述樹結(jié)構(gòu)上的結(jié)點對應(yīng)影視素材領(lǐng)域的知識分類;
A13)對步驟A12)中樹結(jié)構(gòu)上的結(jié)點進行信息描述并設(shè)置語義標簽,得到標簽分類庫LS。
3.根據(jù)權(quán)利要求1所述的用于影視素材領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)管理方法,其特征在于,步驟A2)具體為:
A21)根據(jù)領(lǐng)域知識庫KS確定接收的影視素材的非結(jié)構(gòu)化數(shù)據(jù)的相關(guān)分類;
A22)根據(jù)標簽分類庫LS確定接收的影視素材的非結(jié)構(gòu)化數(shù)據(jù)的語義標簽;
A23)根據(jù)確定的相關(guān)分類和語義標簽確定影視素材的非結(jié)構(gòu)化數(shù)據(jù)的存儲路徑;
A24)按照存儲路徑將影視素材的非結(jié)構(gòu)化數(shù)據(jù)存儲至HDFS文件系統(tǒng)的主控機器中,主控機器將其分配到其他從屬機器進行存儲,從屬機器同時對影視素材的非結(jié)構(gòu)化數(shù)據(jù)進行備份;
A25)影視素材的非結(jié)構(gòu)化數(shù)據(jù)的描述信息存儲到數(shù)據(jù)庫中,所述描述信息包括本體結(jié)構(gòu)信息、相關(guān)分類、語義標簽和存儲路徑。
4.根據(jù)權(quán)利要求1所述的用于影視素材領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)管理方法,其特征在于,所述自然語言處理包括中文分詞和過濾預(yù)定義的停用詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海大學(xué),未經(jīng)上海大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610972138.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





