[發明專利]一種句子連貫性判斷方法及裝置和電子設備有效
| 申請號: | 201710384666.5 | 申請日: | 2017-05-26 |
| 公開(公告)號: | CN107341143B | 公開(公告)日: | 2020-08-14 |
| 發明(設計)人: | 余咸國 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/30;G06F40/279;G06K9/32 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 馬敬;項京 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 句子 連貫性 判斷 方法 裝置 電子設備 | ||
本發明實施例提供了一種句子連貫性判斷方法及裝置和電子設備,應用于多媒體技術領域,所述方法包括:獲取待分析文本,對待分析文本進行預處理,得到待處理文本。對待處理文本中的每一個字符進行向量表示,得到待處理文本的字符矩陣。將字符矩陣輸入預先建立的句子連貫性模型,得到字符矩陣對應的句子連貫性向量,其中,句子連貫性模型是根據樣本數據,以及樣本數據對應的句子連貫性結果進行訓練得到的。根據句子連貫性向量,得到待分析文本的句子連貫性結果。本發明實施例通過卷積神經網絡對樣本文本進行訓練,得到句子連貫性模型,通過句子連貫性模型識別不連貫的句子,提高了句子連貫性判斷的準確性。
技術領域
本發明涉及多媒體技術領域,特別是涉及一種句子連貫性判斷方法及裝置和電子設備。
背景技術
在視頻分析中,為了更好地分析視頻所表達的內容、更深地挖掘視頻信息,目前往往通過分析視頻中的字幕來理解視頻,而字幕文本的獲取,最準確有效的方法是OCR(Optical Character Recognition,光學字符識別)識別。但是,在OCR識別中,由于視頻背景的多樣性,以及字幕定位算法精度的不足,在OCR識別中會有部分識別錯誤的字幕,如果不對錯誤的字幕糾錯或者剔除,那么會對之后的字幕分析造成非常大的干擾。由于錯誤的字幕會造成句子的不連貫性,因此,可通過判斷句子的連貫性識別不通順的句子,得到錯誤的字幕,進而對錯誤的字幕進行糾錯或者剔除。
目前,對句子連貫性的判斷都是基于語言模型。為了判斷句子的通順度,通過大量的訓練語料構建N-Gram模型,計算句子的條件概率得到句子的通順度。其中,N-Gram是大詞匯連續語音識別中常用的一種語言模型,該模型基于這樣一種假設,第N個詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的條件概率就是各個詞出現概率的乘積。通過直接從語料中統計N個詞同時出現的次數可以得到整句的條件概率,常用的句子條件概率的計算包括:二元的Bi-Gram和三元的Tri-Gram。
雖然上述計算句子的條件概率的方法簡單明了,但目前對訓練語料中句子的分詞準確率無法達到100%,特別是專有名詞,分錯的概率高達60%以上。并且,對于句子條件概率的計算,目前最多只計算tri-Gram,更高層次的條件概率需要更多的訓練語料,同時計算更高層次的條件概率導致訓練數據稀疏嚴重,計算時間復雜度高,句子條件概率的計算精度卻提高的較少。由于無法計算更多的條件概率,從而不能考慮上下文之間的關系,進而導致不能根據上下文的邏輯關系判斷句子的連貫性。因此,上述計算方法判斷句子連貫性的準確性比較低。
發明內容
本發明實施例的目的在于提供一種句子連貫性判斷方法及裝置和電子設備,以提高句子連貫性判斷的準確性。具體技術方案如下:
本發明實施例公開了一種句子連貫性判斷方法,包括:
獲取待分析文本,對所述待分析文本進行預處理,得到待處理文本;
對所述待處理文本中的每一個字符進行向量表示,得到所述待處理文本的字符矩陣;
將所述字符矩陣輸入預先建立的句子連貫性模型,得到所述字符矩陣對應的句子連貫性向量,其中,所述句子連貫性模型是根據樣本數據,以及樣本數據對應的句子連貫性結果進行訓練得到的;
根據所述句子連貫性向量,得到所述待分析文本的句子連貫性結果。
可選的,在所述獲取待分析文本之前,所述方法還包括:
獲取句子連貫的正樣本數據和句子不連貫的負樣本數據,其中,所述正樣本數據和所述負樣本數據分別具有對應的句子連貫性向量;
分別對所述正樣本數據和所述負樣本數據進行向量表示,得到所述正樣本數據的字符矩陣和所述負樣本數據的字符矩陣;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710384666.5/2.html,轉載請聲明來源鉆瓜專利網。





