[發明專利]分詞詞典的生成方法和裝置及分詞處理方法和裝置有效
| 申請號: | 201510301079.6 | 申請日: | 2015-06-04 |
| 公開(公告)號: | CN104899190B | 公開(公告)日: | 2017-10-03 |
| 發明(設計)人: | 肖朔;李秀林;白潔 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙)11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分詞 詞典 生成 方法 裝置 處理 | ||
技術領域
本發明涉及語音處理技術領域,尤其涉及一種分詞詞典的生成方法和裝置及分詞處理方法和裝置。
背景技術
語音合成,又稱文語轉換(Text to Speech),能將文字信息實時轉換為語音朗讀出來,相當于給機器裝上了人工嘴巴。對于語音合成系統,首先需要對輸入的文本進行處理,其中包括分詞處理。分詞算法主要有兩類,一種是基于詞典匹配的算法,另一種是基于訓練語料的學習算法。詞典和訓練語料分別是基于詞典的匹配算法和基于訓練語料的學習算法所必須的數據。
現有技術中,不管是詞典生成還是語料生成,都必須依靠人工篩選和分詞器切分,因此更新周期長且過于依賴已有分詞器,無法識別未登錄的詞條或者語料。
發明內容
本發明旨在至少在一定程度上解決相關技術中的技術問題之一。
為此,本發明的一個目的在于提出一種分詞詞典的生成方法,該方法可以不依賴人工篩選和分詞器,可以識別未登錄的詞條,從而提高分詞詞典的生成速度和效果。
本發明的另一個目的在于提出一種分詞處理方法,該方法可以結合基于詞典匹配的算法和基于訓練語料的學習算法的優點,從而提高分詞效果。
本發明的另一個目的在于提出一種分詞詞典的生成裝置。
本發明的另一個目的在于提出一種分詞處理裝置。
為達到上述目的,本發明第一方面實施例提出的分詞詞典的生成方法,包括:獲取原始句語料;對所述原始句語料進行切分,得到分詞,并對所述分詞進行過濾,得到過濾結果,所述過濾包括如下項中的至少一項:基于詞頻和逆頻率的過濾,基于邊界的過濾,基于拼接的過濾;根據所述過濾結果生成分詞詞典。
本發明第一方面實施例提出的分詞詞典的生成方法,通過對切分后的分詞進行過濾,生成分詞詞典,可以不依賴人工篩選和分詞器,可以識別未登錄的詞條,從而提高分詞詞典的生成速度和效果。
為達到上述目的,本發明第二方面實施例提出的分詞處理方法,包括:將待切分的原始文本,采用預先獲取的分詞詞典,進行基于詞典的匹配,將所述原始文本切分為分詞;根據所述分詞和預先獲取的訓練模型,進行基于訓練語料的學習,得到分詞結果;其中,所述分詞詞典采用如本發明第一方面實施例所述的方法生成。
本發明第二方面實施例提出的分詞處理方法,在分詞處理后,可以結合基于詞典的匹配算法和基于訓練語料的學習算法,因此可以結合這兩種算法的優點,在分詞時不僅可以參考詞典的詞條,還可以參考上下文信息,提高分詞處理的效果。
為達到上述目的,本發明第三方面實施例提出的分詞詞典的生成裝置,包括:獲取模塊,用于獲取原始句語料;過濾模塊,用于對所述原始句語料進行切分,得到分詞,并對所述分詞進行過濾,得到過濾結果,所述過濾包括如下項中的至少一項:基于詞頻和逆頻率的過濾,基于邊界的過濾,基于拼接的過濾;生成模塊,用于根據所述過濾結果生成分詞詞典。
本發明第三方面實施例提出的分詞詞典的生成裝置,通過對切分后的分詞進行過濾,生成分詞詞典,可以不依賴人工篩選和分詞器,可以識別未登錄的詞條,從而提高分詞詞典的生成速度和效果。
為達到上述目的,本發明第四方面實施例提出的分詞處理裝置,包括:第一切分模塊,用于將待切分的原始文本,采用預先獲取的分詞詞典,進行基于詞典的匹配,將所述原始文本切分為分詞;第二切分模塊,用于根據所述分詞和預先獲取的訓練模型,進行基于訓練語料的學習,得到分詞結果;其中,所述分詞詞典采用如本發明第一方面實施例所述的方法生成。
本發明第四方面實施例提出的分詞處理裝置,在分詞處理后,可以結合基于詞典的匹配算法和基于訓練語料的學習算法,因此可以結合這兩種算法的優點,在分詞時不僅可以參考詞典的詞條,還可以參考上下文信息,提高分詞處理的效果。
本發明附加的方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到。
附圖說明
本發明上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:
圖1是本發明一實施例提出的分詞詞典的生成方法的流程示意圖;
圖2是本發明實施例中第一次過濾處理的流程示意圖;
圖3是本發明實施例中第二次過濾處理的流程示意圖;
圖4是本發明實施例中第三次過濾處理的流程示意圖;
圖5是本發明另一實施例提出的分詞處理方法的流程示意圖;
圖6是本發明實施例中訓練流程和預測流程的示意圖;
圖7是本發明另一實施例提出的分詞詞典的生成裝置的結構示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510301079.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:外語文本現場查詢指路機信息的查詢裝置
- 下一篇:文字處理方法、裝置及系統





