[發明專利]基于自學排列的排列語料庫的生成裝置及其方法、使用排列語料庫的破壞性表達語素分析裝置及其語素分析方法有效
| 申請號: | 201480054951.5 | 申請日: | 2014-08-27 |
| 公開(公告)號: | CN105593845B | 公開(公告)日: | 2018-04-17 |
| 發明(設計)人: | 池昌真 | 申請(專利權)人: | 系統翻譯國際有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京德琦知識產權代理有限公司11018 | 代理人: | 梁洪源,康泉 |
| 地址: | 韓國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 自學 排列 語料庫 生成 裝置 及其 方法 使用 破壞性 表達 語素 分析 | ||
1.一種排列語料庫的生成方法,包括步驟:
構建雙語語料庫,所述雙語語料庫儲存由包含破壞性表達的破壞性句子和與該破壞性句子對應的正常句子組成的句子對,其中所述破壞性表達是拼寫錯誤或者沒有規范化和標準化的表達;及
對所述雙語語料庫進行基于自學的排列,從而生成由破壞性表達及與該破壞性表達對應的正常表達排列而成的排列語料庫,
其中,所述雙語語料庫的構建步驟包括:
通過網絡收集多個破壞性句子;
利用查詢對包含在被收集的破壞性句子中的破壞性表達進行網絡檢索,以判斷該破壞性句子的普遍性;
當判斷為被收集的破壞性句子具有普遍性時,生成與該破壞性句子對應的正常句子;及
將所生成的正常句子和與該正常句子對應的破壞性句子組成為一對,以構建所述雙語語料庫。
2.根據權利要求1所述的排列語料庫的生成方法,其特征在于,
在所述普遍性的判斷步驟中,
以利用所述查詢的檢索結果的量為基準,當超過基準量時,判斷為該破壞性表達具有普遍性,
所述普遍性的判斷通過利用多個門戶網站的網絡檢索自動運行。
3.根據權利要求1所述的排列語料庫的生成方法,其中,
生成所述排列語料庫的步驟包括:
以隨機或者初始化方法學,在所述雙語語料庫給出的字符串中設定子字符串對,并初始化關聯概率;
根據字符串的匹配及該匹配的概率值,進行破壞性表達和正常表達之間的匹配,以使破壞性句子和正常句子之間能夠最匹配;
重新計算新排列的各子字符串對之間的概率;及
滿足自學停止條件為止反復執行所述匹配步驟及所述計算步驟,當滿足所述自學停止條件時,將最終輸出的破壞性表達、正常表達及關聯概率儲存在所述排列語料庫中,其中所述關聯概率為所述破壞性表達和正常表達的排列概率值。
4.根據權利要求1所述的排列語料庫的生成方法,其特征在于,
為了生成所述排列語料庫,使用期望最大化算法,以便在自學基礎上求出排列并且設定排列概率值。
5.一種排列語料庫的生成裝置,包括:
雙語語料庫構建部,用于構建雙語語料庫,所述雙語語料庫儲存由包含破壞性表達的破壞性句子和與該破壞性句子對應的正常句子組成的句子對,其中,所述破壞性表達是拼寫錯誤或者沒有規范化和標準化的表達;及
自學部,對通過所述雙語語料庫構建部構建的雙語語料庫進行基于自學的排列,從而生成由破壞性表達及與該破壞性表達對應的正常表達排列而成的排列語料庫,
其中,所述雙語語料庫構建部包括:
破壞性句子收集器,通過網絡收集多個破壞性句子;
普遍性判斷器,利用查詢對包含在通過所述破壞性句子收集器收集的破壞性句子中的破壞性表達進行網絡檢索,并判斷該破壞性句子的普遍性;
正常句子生成器,當判斷為被收集的破壞性句子具有普遍性時,生成與該破壞性句子對應的正常句子;及
構建器,將通過所述正常句子生成器生成的正常句子和與該正常句子對應的破壞性句子組成為一對,以構建所述雙語語料庫。
6.根據權利要求5所述的排列語料庫的生成裝置,其特征在于,
所述自學部包括:
雙語語料庫,由所述雙語語料庫構建部構建;及
自學排列部,對所述雙語語料庫使用自學方法學習破壞性表達和正常表達的單音節、多音節或者單詞之間的最佳排列概率值,從而生成所述排列語料庫。
7.根據權利要求6所述的排列語料庫的生成裝置,其特征在于,
所述自學排列部包括:
初始化器,以隨機或者初始化方法學,在所述雙語語料庫給出的字符串中設定子字符串對,并初始化關聯概率;
E-步驟處理器,根據字符串的匹配及該匹配概率值,進行破壞性表達和正常表達之間的匹配,以使破壞性句子和正常句子之間能夠最匹配;
M-步驟處理器,重新計算新排列的各子字符串對之間的概率;及
控制器,將所述雙語語料庫中構建的破壞性句子和正常句子的字符串向所述初始化器輸入,在所述M-步驟處理器的概率計算后,滿足自學停止條件為止控制所述E-步驟處理器及M-步驟處理器進行反復操作,當滿足所述自學停止條件時生成儲存最終輸出的破壞性表達、正常表達及關聯概率的所述排列語料庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于系統翻譯國際有限公司,未經系統翻譯國際有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201480054951.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于審計跟蹤的無回滾閾值
- 下一篇:稀疏矩陣數據結構





