[發明專利]口語化語句提取的方法及裝置有效

申請號：	201710225009.6	申請日：	2017-04-07
公開（公告）號：	CN106991181B	公開（公告）日：	2020-04-21
發明（設計）人：	李賢	申請（專利權）人：	廣州視源電子科技股份有限公司
主分類號：	G06F16/33	分類號：	G06F16/33;G06F16/36
代理公司：	北京品源專利代理有限公司 11332	代理人：	孟金喆;胡彬
地址：	510530 廣東省***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	口語化語句提取方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明實施例公開了一種口語化語句提取的方法及裝置，所述方法包括：分別統計電影語料庫與混合語料庫中詞語的詞頻，并對所述電影語料庫與混合語料庫中的詞語根據所述詞頻進行排序；根據所述詞語的詞頻和排序的信息計算所述詞語在所述電影語料庫和混合語料庫中的差異度，并根據所述差異度確認口語語料庫；基于所述口語語料庫提取所述混合語料庫中的口語化語句。本發明實施例通過分別統計電影語料庫與混合語料庫中詞語的詞頻與排序的信息確認口語語料庫，再使用口語語料庫提取混合語料庫中的口語化語句，解決了現有技術中用戶自定義口語語料庫費時費力的問題，有效提高口語化語句提取的效率，完善了整個語料庫體系。

技術領域

本發明實施例涉及信息技術領域，尤其涉及一種口語化語句提取的方法及裝置。

背景技術

隨著科技的進步，計算機存儲容量大的特點被運用在了語言的存儲上，由此語料庫得以發展。

口語語料庫也是以電子計算機為載體承載語言知識的基礎資源，完整的口語語料庫用于語言模型構建、詞典編纂以及文本分類等，但是在現有技術中基于口語語料庫的資源少之又少，即使有，也是用戶逐個詞去提取的口語化語句構建的口語語料庫。

用戶自定義口語語料庫的方式費時費力，并且帶有個人因素，缺乏權威性，導致成體系的口語語料庫的缺失不利于完善整個語料庫體系。

發明內容

本發明實施例提供一種口語化語句提取的方法及裝置，能夠避免用戶自定義口語語料庫的費時費力方式，以提高口語化語句提取的效率和信度。

第一方面，本發明實施例提供了一種口語化語句提取的方法，包括：

分別統計電影語料庫與混合語料庫中詞語的詞頻，并對所述電影語料庫與混合語料庫中的詞語根據所述詞頻進行排序；

根據所述詞語的詞頻和排序的信息計算所述詞語在所述電影語料庫和混合語料庫中的差異度，并根據所述差異度確認口語語料庫；

基于所述口語語料庫提取所述混合語料庫中的口語化語句。