[發明專利]一種句子連貫性判斷方法及裝置和電子設備有效
| 申請號: | 201710384666.5 | 申請日: | 2017-05-26 |
| 公開(公告)號: | CN107341143B | 公開(公告)日: | 2020-08-14 |
| 發明(設計)人: | 余咸國 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/30;G06F40/279;G06K9/32 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 馬敬;項京 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 句子 連貫性 判斷 方法 裝置 電子設備 | ||
1.一種句子連貫性判斷方法,其特征在于,包括:
獲取待分析文本,對所述待分析文本進行預處理,得到待處理文本;
對所述待處理文本中的每一個字符進行向量表示,得到所述待處理文本的字符矩陣;
將所述字符矩陣輸入預先建立的句子連貫性模型,得到所述字符矩陣對應的句子連貫性向量,其中,所述句子連貫性模型是根據樣本數據,以及樣本數據對應的句子連貫性結果進行訓練得到的,所述句子連貫性向量為一個二維向量,該二維向量中的元素包括:句子連貫的概率和句子不連貫的概率;
根據所述句子連貫性向量,得到所述待分析文本的句子連貫性結果,所述句子連貫性結果為句子連貫或句子不連貫。
2.根據權利要求1所述的句子連貫性判斷方法,其特征在于,在所述獲取待分析文本之前,所述方法還包括:
獲取句子連貫的正樣本數據和句子不連貫的負樣本數據,其中,所述正樣本數據和所述負樣本數據分別具有對應的句子連貫性向量;
分別對所述正樣本數據和所述負樣本數據進行向量表示,得到所述正樣本數據的字符矩陣和所述負樣本數據的字符矩陣;
通過卷積神經網絡對所述正樣本數據的字符矩陣、所述正樣本數據對應的句子連貫性向量,以及所述負樣本數據的字符矩陣、所述負樣本數據對應的句子連貫性向量進行訓練,得到所述句子連貫性模型。
3.根據權利要求1所述的句子連貫性判斷方法,其特征在于,所述根據所述句子連貫性向量,得到所述待分析文本的句子連貫性結果,包括:
將所述句子連貫性向量中元素概率最高值對應的句子連貫性結果確定為所述待分析文本的句子連貫性結果,其中,所述句子連貫性向量中元素對應的句子連貫性結果包括:句子連貫和句子不連貫。
4.根據權利要求1所述的句子連貫性判斷方法,其特征在于,所述獲取待分析文本,包括:
通過光學字符識別OCR技術識別待分析視頻中的字幕,得到所述待分析文本。
5.根據權利要求1所述的句子連貫性判斷方法,其特征在于,所述對所述待分析文本進行預處理,包括:
刪除所述待分析文本中的非中文字符。
6.一種句子連貫性判斷裝置,其特征在于,包括:
預處理模塊,用于獲取待分析文本,對所述待分析文本進行預處理,得到待處理文本;
文本向量表示模塊,用于對所述待處理文本中的每一個字符進行向量表示,得到所述待處理文本的字符矩陣;
句子連貫性向量獲得模塊,用于將所述字符矩陣輸入預先建立的句子連貫性模型,得到所述字符矩陣對應的句子連貫性向量,其中,所述句子連貫性模型是根據樣本數據,以及樣本數據對應的句子連貫性結果進行訓練得到的,所述句子連貫性向量為一個二維向量,該二維向量中的元素包括:句子連貫的概率和句子不連貫的概率;
句子連貫性結果獲得模塊,用于根據所述句子連貫性向量,得到所述待分析文本的句子連貫性結果,所述句子連貫性結果為句子連貫或句子不連貫。
7.根據權利要求6所述的句子連貫性判斷裝置,其特征在于,還包括:
樣本數據獲取模塊,用于獲取句子連貫的正樣本數據和句子不連貫的負樣本數據,其中,所述正樣本數據和所述負樣本數據分別具有對應的句子連貫性向量;
樣本數據向量表示模塊,用于分別對所述正樣本數據和所述負樣本數據進行向量表示,得到所述正樣本數據的字符矩陣和所述負樣本數據的字符矩陣;
模型訓練模塊,用于通過卷積神經網絡對所述正樣本數據的字符矩陣、所述正樣本數據對應的句子連貫性向量,以及所述負樣本數據的字符矩陣、所述負樣本數據對應的句子連貫性向量進行訓練,得到所述句子連貫性模型。
8.根據權利要求6所述的句子連貫性判斷裝置,其特征在于,所述句子連貫性結果獲得模塊,具體用于將所述句子連貫性向量中元素概率最高值對應的句子連貫性結果確定為所述待分析文本的句子連貫性結果,其中,所述句子連貫性向量中元素對應的句子連貫性結果包括:句子連貫和句子不連貫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710384666.5/1.html,轉載請聲明來源鉆瓜專利網。





