[發明專利]基于自學排列的排列語料庫的生成裝置及其方法、使用排列語料庫的破壞性表達語素分析裝置及其語素分析方法有效
| 申請號: | 201480054951.5 | 申請日: | 2014-08-27 |
| 公開(公告)號: | CN105593845B | 公開(公告)日: | 2018-04-17 |
| 發明(設計)人: | 池昌真 | 申請(專利權)人: | 系統翻譯國際有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京德琦知識產權代理有限公司11018 | 代理人: | 梁洪源,康泉 |
| 地址: | 韓國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 自學 排列 語料庫 生成 裝置 及其 方法 使用 破壞性 表達 語素 分析 | ||
技術領域
本發明涉及一種基于自學排列的排列語料庫的生成裝置及其方法、使用排列語料庫的破壞性表達語素分析裝置及其語素分析方法。
背景技術
最近,博客、特別是以Facebook和推特(Twitter)為首的社交平臺、Kakaotalk等移動短信不僅在電腦,在智能手機上也已習以為常,并且其使用呈現出日益增加的趨勢。
但在這種短信的使用過程中,泛濫著包含不符合拼寫規定的錯誤的破壞性表達。在此,破壞性表達是指拼寫錯誤或者沒有規范化和標準化的表達,包含這種破壞性表達的句子稱為破壞性句子。這種破壞性句子為因互聯網的活性化和智能手機的普及而產生的新的語言使用范式。
破壞性句子雖然包含著作為非規范表達的破壞性表達,但不影響傳遞句子的含義。
另外,在機器翻譯等的自然語言信息處理、檢索、數據挖掘等中使用的語素分析中,其操作對象為不包含破壞性表達的正常句子。即,以往的語素分析中使用語素詞典,該語素詞典中儲存有在語素分析中將要使用的語素知識或者語素信息。然而,如上所述的破壞性句子中所包含的已破壞的語素在其特性上不可能被收錄于規范的語素詞典中,并且將單純破壞的語素加入語素詞典的方式上也有局限性,因此具有對包含破壞性表達的破壞性句子難以進行語素分析的問題。
發明內容
本發明所要解決的技術問題是提供一種基于自學排列的排列語料庫的生成裝置及其方法、使用排列語料庫的破壞性表達語素分析裝置及其語素分析方法,該生成裝置及方法、該分析裝置及分析方法能夠對包含破壞性表達的破壞性句子進行準確的語素分析。
根據本發明的一個特征的排列語料庫的生成方法,包括步驟:構建雙語語料庫,所述雙語語料庫中儲存有由包含破壞性表達的破壞性句子和與該破壞性句子對應的正常句子組成的句子對,其中所述破壞性表達是拼寫錯誤或者沒有規范化和標準化的表達;及對所述雙語語料庫進行基于自學的排列,從而生成由破壞性表達及與該破壞性表達對應的正常表達排列而成的排列語料庫。
在此,所述雙語語料庫的構建步驟包括:通過網絡收集多個破壞性句子;利用查詢對包含在被收集的破壞性句子中的破壞性表達進行網絡檢索,以判斷該破壞性句子的普遍性;當判斷為被收集的破壞性句子具有普遍性時,生成與該破壞性句子對應的正常句子;及將所生成的正常句子和與該正常句子對應的破壞性句子組成為一對,以構建所述雙語語料庫。
此外,本發明的特征在于,在所述普遍性的判斷步驟中,以利用所述查詢的檢索結果的量為基準,當超過基準量時,判斷為該破壞性表達具有普遍性,所述普遍性的判斷通過利用多個門戶網站的網絡檢索自動運行。
此外,生成所述排列語料庫的步驟包括:以隨機或者初始化方法學,在所述雙語語料庫給出的字符串中設定子字符串對(sub-string pair),并初始化關聯概率;根據字符串的匹配及該匹配概率值,進行破壞性表達和正常表達之間的匹配,以使破壞性句子和正常句子之間能夠最匹配;重新計算新排列的各子字符串對之間的概率;及滿足自學停止條件為止反復執行所述匹配步驟及所述計算步驟,當滿足所述自學停止條件時,將最終輸出的破壞性表達、正常表達及關聯概率儲存在所述排列語料庫中,其中所述關聯概率為所述破壞性表達和正常表達的排列概率值。
此外,本發明的特征在于,為了生成所述排列語料庫,使用期望最大化(EM,Expectation-Maximization)算法,以便在自學基礎上求出排列并且設定排列的概率值,其中所述自學是為了生成所述排列語料庫而進行的。
根據本發明的另一特征的排列語料庫的生成裝置,包括:雙語語料庫構建部,用于構建雙語語料庫,所述雙語語料庫儲存由包含破壞性表達的破壞性句子和與該破壞性句子對應的正常句子組成的句子對,其中所述破壞性表達是拼寫錯誤或者沒有規范化和標準化的表達;及自學部,對通過所述雙語語料庫構建部構建的雙語語料庫進行基于自學的排列,從而生成由破壞性表達及與該破壞性表達的正常表達排列而成的排列語料庫。
在此,所述自學部包括:雙語語料庫,由所述雙語語料庫構建部構建;及自學排列部,對所述雙語語料庫使用自學方法學習破壞性表達和正常表達的單音節、多音節或者單詞之間的最佳排列概率值,從而生成所述排列語料庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于系統翻譯國際有限公司,未經系統翻譯國際有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201480054951.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于審計跟蹤的無回滾閾值
- 下一篇:稀疏矩陣數據結構





