[發(fā)明專利]支持模糊評論挖掘的視頻高效檢索系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110971077.3 | 申請日: | 2021-08-23 |
| 公開(公告)號: | CN113656641A | 公開(公告)日: | 2021-11-16 |
| 發(fā)明(設(shè)計)人: | 嚴大蓮;王華 | 申請(專利權(quán))人: | 嚴大蓮 |
| 主分類號: | G06F16/735 | 分類號: | G06F16/735;G06F16/78;G06F16/35;G06F40/289;G06F16/951;G06F16/955;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 443100 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 支持 模糊 評論 挖掘 視頻 高效 檢索系統(tǒng) | ||
1.支持模糊評論挖掘的視頻高效檢索系統(tǒng),其特征在于,基于視頻概念擴展的模糊檢索,把視頻需要表達無法直觀獲得的高層抽象概念信息進行挖掘提煉,擴展視頻對象的被檢索域,使得用戶在檢索視頻時,即使提交一個模糊的抽象描述也能夠精確高效的查詢;
第一,通過對視頻評論數(shù)據(jù)的挖掘和解析,提取視頻的高層抽象概念,實現(xiàn)一套基于模糊評論挖掘的視頻檢索系統(tǒng),第一步是獲取評論,針對網(wǎng)絡(luò)視頻評論數(shù)據(jù)進行爬取,通過編碼網(wǎng)絡(luò)蜘蛛,對各類視頻的評論數(shù)據(jù)進行收集,解決針對各類視頻的動態(tài)網(wǎng)頁信息爬取問題;
第二,在獲取到評論之后,對評論中隱藏的信息進行挖掘,首先通過分詞、詞性標注、去停用詞對評論數(shù)據(jù)進行清洗;然后采用關(guān)聯(lián)規(guī)則挖掘算法,從評論中提取出頻繁出現(xiàn)的名詞集合,并通過孤立性剪枝和相關(guān)性剪枝去掉其中噪聲集,此外,采用點互信息對可能的非主題頻繁詞進行過濾,最后得到與視頻密切的特征詞集合;
第三,在獲取到特征詞后,采用聚類算法對重復的表達進行聚類,本發(fā)明提出基于信息群落將視頻的可能相關(guān)內(nèi)容對應(yīng)到一系列的特征名詞以及圍繞每一個特征詞的相關(guān)主題,通過LDA主題模型對主題進行挖掘,評論挖掘完成后,每一個視頻對應(yīng)一個信息群落;檢索系統(tǒng)基于Lucene開源檢索框架實現(xiàn);
獲取視頻評論并提取特征:首先采用關(guān)聯(lián)規(guī)則相關(guān)分析從評論中提取出候選特征詞集合,這時提取的特征詞中存在各種噪聲,采用孤立性和相關(guān)性進行剪枝,此外,結(jié)合網(wǎng)頁標題并采用點互信息過濾掉與主題無關(guān)的特征詞,最終提取出主題相關(guān)的特征詞;
特征詞聚類及潛在主題挖掘:在已經(jīng)提取特征詞的情況下進行特征詞的聚類,按照類簇進行潛在主題挖掘,首先定義詞語的字符相近度和語義相近度的計算,并利用該算法對詞語的相近度進行定義,然后通過選擇向量特征并融合k-means++聚類算法,對特征詞進行聚類分析,最后按照特征詞聚類結(jié)果,在原始語料庫中通過LDA主題挖掘算法,對其中潛在主題進行再一次的挖掘;
視頻高效檢索系統(tǒng)由三個部分組成:評論獲取子系統(tǒng)、評論挖掘子系統(tǒng)、視頻檢索子系統(tǒng),其中評論獲取依靠網(wǎng)絡(luò)蜘蛛來獲得,評論挖掘系統(tǒng)包含特征詞抽取和主題挖掘,特征詞抽取包括相關(guān)分析、詞語剪枝、點互信息計算,主題挖掘依靠聚類分析和LDA主題挖掘算法實現(xiàn),系統(tǒng)采用Java語言進行開發(fā),系統(tǒng)運行過程中產(chǎn)生各種中間文件包括原始評論數(shù)據(jù)、分詞結(jié)果、事物文件、剪枝結(jié)果、頻繁特征詞結(jié)果、聚類結(jié)果、LDA挖掘結(jié)果文件均以文本的形式存儲。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于嚴大蓮,未經(jīng)嚴大蓮許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110971077.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





