[發明專利]一種面向模糊文本挖掘的新聞視頻主題分割方法有效
| 申請號: | 201910062048.8 | 申請日: | 2019-01-23 |
| 公開(公告)號: | CN109902289B | 公開(公告)日: | 2022-12-13 |
| 發明(設計)人: | 姜大志;黃志均;曾文信;黃瑞香;漆原 | 申請(專利權)人: | 汕頭大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F40/279;G10L13/02;G10L13/08;G10L15/04;G10L15/26 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 周增元;曹江 |
| 地址: | 515000 *** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 模糊 文本 挖掘 新聞 視頻 主題 分割 方法 | ||
1.一種面向模糊文本挖掘的新聞視頻主題分割方法,其特征在于,包括以下步驟:
S1:將新聞轉換為音頻;
S2:將所述音頻轉換成模糊文本;
S3:添加用戶詞典,根據所述用戶詞典與待分析的語料庫,以逆向匹配的分詞方式對文本使用字符串匹配進行分詞;
S4:使用Filter方法計算得到特征項的子集,并根據權重來判斷該特征項對文本的重要程度,
S5:分析音頻信息,找出靜音點作為潛在分割點;
S6:使用應用TextTiling算法的詞性分析和命名實體分析方法確定保留和過濾詞語來實現相關的計算;
S7:將所述詞性分析后篩選出的詞語序列,用語言模型轉換成句子向量,并根據句子向量的相似度分布來更新潛在分割點;
S8:使用粒子群優化算法確定所述TextTiling算法參數進行文本主題分割。
2.根據權利要求1所述的面向模糊文本挖掘的新聞視頻主題分割方法,其特征在于,所述步驟S3前還包括步驟:針對所述模糊文本的數據清洗。
3.根據權利要求2所述的面向模糊文本挖掘的新聞視頻主題分割方法,其特征在于,所述步驟S3的字符串匹配是通過掃描Trie樹實現。
4.根據權利要求2所述的面向模糊文本挖掘的新聞視頻主題分割方法,其特征在于,所述步驟S5具體包括在使用閾值判斷方法后得到初始分割點,之后使用貝葉斯信息準則對初次的初始分割點進行第二次分割。
5.根據權利要求4所述的面向模糊文本挖掘的新聞視頻主題分割方法,其特征在于,所述步驟S7還包括根據文本中的特征詞,分析文本中詞語序列的詞性,之后根據詞性分析的結果進行相似度的計算。
6.根據權利要求5所述的面向模糊文本挖掘的新聞視頻主題分割方法,其特征在于,所述相似度的計算包括采用tf-idf方法對文本信息向量化,
參數tf為在選取的語料庫中的主題中出現的次數,參數idf代表的是使用語料庫中總的主題數目除以當前詞出現過的主題的數目,最后再取對數值,其中,其中,ni,j是當前詞在文本dj中的出現次數,分母表示的是文本dj中所有詞語出現的次數之和,|D|表示的是整個語料庫中文檔的個數,分母|{j∶ti∈dj}|表示的是在整個語料當中包含ti詞語的文檔的個數,最終的tf-idf值為tfi,j×idfi。
7.根據權利要求1-6任一項所述的面向模糊文本挖掘的新聞視頻主題分割方法,其特征在于,所述步驟S8具體包括:
S81:模型初始化,定義詞性分析所得到的詞語序列得到的長度為word_size,偽句子長度為K,塊的大小為W,初始化參數K,W,其中K取值范圍為[1,word_size/2],W的取值范圍是[1,word_size/k],W取值范圍里面的K值為當前K的取值;
S82:計算適應度值,重新劃分過濾之后的詞語序列,對劃分好的塊使用TextTiling算法進行相似度計算,根據相似度的分布情況,尋找極值點,根據極小值點確定對應的分割點,分割點對應著詞語序列的索引;
S83:更新種群個體,在計算了種群中所有個體的適應度值之后,記錄種群中取得最優值的個體的K,W值,根據當前最優和種群最優的粒子坐標進行更新個體的坐標,再進行適應度的計算。
8.根據權利要求7所述的面向模糊文本挖掘的新聞視頻主題分割方法,其特征在于,所述步驟S8還包括:使用TextTiling算法對文本當中的詞語序列重新進行句子的劃分,生成偽句子,之后根據偽句子和塊的大小計算塊與塊之間的相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于汕頭大學,未經汕頭大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910062048.8/1.html,轉載請聲明來源鉆瓜專利網。





