[發明專利]口語化語句提取的方法及裝置有效
| 申請號: | 201710225009.6 | 申請日: | 2017-04-07 |
| 公開(公告)號: | CN106991181B | 公開(公告)日: | 2020-04-21 |
| 發明(設計)人: | 李賢 | 申請(專利權)人: | 廣州視源電子科技股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆;胡彬 |
| 地址: | 510530 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 口語化 語句 提取 方法 裝置 | ||
本發明實施例公開了一種口語化語句提取的方法及裝置,所述方法包括:分別統計電影語料庫與混合語料庫中詞語的詞頻,并對所述電影語料庫與混合語料庫中的詞語根據所述詞頻進行排序;根據所述詞語的詞頻和排序的信息計算所述詞語在所述電影語料庫和混合語料庫中的差異度,并根據所述差異度確認口語語料庫;基于所述口語語料庫提取所述混合語料庫中的口語化語句。本發明實施例通過分別統計電影語料庫與混合語料庫中詞語的詞頻與排序的信息確認口語語料庫,再使用口語語料庫提取混合語料庫中的口語化語句,解決了現有技術中用戶自定義口語語料庫費時費力的問題,有效提高口語化語句提取的效率,完善了整個語料庫體系。
技術領域
本發明實施例涉及信息技術領域,尤其涉及一種口語化語句提取的方法及裝置。
背景技術
隨著科技的進步,計算機存儲容量大的特點被運用在了語言的存儲上,由此語料庫得以發展。
口語語料庫也是以電子計算機為載體承載語言知識的基礎資源,完整的口語語料庫用于語言模型構建、詞典編纂以及文本分類等,但是在現有技術中基于口語語料庫的資源少之又少,即使有,也是用戶逐個詞去提取的口語化語句構建的口語語料庫。
用戶自定義口語語料庫的方式費時費力,并且帶有個人因素,缺乏權威性,導致成體系的口語語料庫的缺失不利于完善整個語料庫體系。
發明內容
本發明實施例提供一種口語化語句提取的方法及裝置,能夠避免用戶自定義口語語料庫的費時費力方式,以提高口語化語句提取的效率和信度。
第一方面,本發明實施例提供了一種口語化語句提取的方法,包括:
分別統計電影語料庫與混合語料庫中詞語的詞頻,并對所述電影語料庫與混合語料庫中的詞語根據所述詞頻進行排序;
根據所述詞語的詞頻和排序的信息計算所述詞語在所述電影語料庫和混合語料庫中的差異度,并根據所述差異度確認口語語料庫;
基于所述口語語料庫提取所述混合語料庫中的口語化語句。
第二方面,本發明實施例還提供了一種口語化語句提取的裝置,包括:
詞頻統計模塊,用于分別統計電影語料庫與混合語料庫中詞語的詞頻,并對所述電影語料庫與混合語料庫中的詞語根據所述詞頻進行排序;
口語語料庫確認模塊,用于根據所述詞語的詞頻和排序的信息計算所述詞語在所述電影語料庫和混合語料庫中的差異度,并根據所述差異度確認口語語料庫;
口語化語句提取模塊,用于基于所述口語語料庫提取所述混合語料庫中的口語化語句。
本發明實施例提供了一種口語化語句提取的方法及裝置,通過分別統計電影語料庫與混合語料庫中詞語的詞頻與排序的信息確認口語語料庫,再使用口語語料庫提取混合語料庫中的口語化語句,解決了現有技術中用戶自定義口語語料庫費時費力的問題,有效提高口語化語句提取的效率,完善了整個語料庫體系。
附圖說明
圖1A是本發明實施例一中的一種口語化語句提取的流程圖;
圖1B是本發明實施例一中的一種口語化語句提取過程的示意圖;
圖2A是本發明實施例二中的一種口語化語句提取的流程圖;
圖2B是本發明實施例二中的一種口語化語句提取的流程圖;
圖3是本發明實施例三中的一種口語化語句提取裝置的結構圖;
圖4是本發明實施例四中的一種口語化語句提取裝置的結構圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州視源電子科技股份有限公司,未經廣州視源電子科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710225009.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文件顯示方法及移動終端
- 下一篇:一種基于高頻刷卡數據的朋友關系識別方法





