[發明專利]一種多詞表達抽取方法及其裝置在審
| 申請號: | 201610990921.6 | 申請日: | 2016-11-10 |
| 公開(公告)號: | CN106649263A | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 朱澤德;曾新華;鄭守國;孫熊偉;翁士狀 | 申請(專利權)人: | 中科院合肥技術創新工程院 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 230001 安徽省合肥市高*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 詞表 抽取 方法 及其 裝置 | ||
技術領域
本發明涉及統計機器翻譯和跨語言信息檢索技術領域,尤其是一種多詞表達抽取方法及其裝置。
背景技術
多詞表達是具有語法、語義或語用特性,并有意義完整的多個詞組合。多詞表達的識別能夠很好的提升分詞、詞性標注以及機器翻譯等工作的效率和準確性。在機器翻譯中,正確識別源語言中的多詞表達有助于選擇合適的翻譯,避免多個詞分別翻譯而導致的目標語言不自然甚至不能達意。
多詞表達的抽取方法基本分為基于統計的方法和基于規則的方法。基于規則的方法一般是具體研究某一種類型如動詞短語結構等或局限于某一個特定領域,基于統計的方法則可以抽取形式獨立的多詞表達,也就是利用統計信息無差別的抽取各種結構和領域的多詞表達。然而,現有的統計方法面臨的問題有:一維互信息需要人工設定閾值,對不同數據存在適應性問題,局限于多詞的二元結構,無法一次獲取多詞組合的多詞表達,且需分步實現,多詞表達庫建設的準確度低。
發明內容
本發明的首要目的在于提供一種一次性獲取多詞組合的多詞表達,無需分步實現,有效提高多詞表達抽取利用率,提高了多詞表達庫建設的準確度。
為實現上述目的,本發明采用了以下技術方案,一種多詞表達抽取方法,該方法包括下列順序的步驟:
(1)文檔庫采用分詞和詞性標注的預處理,形成源語言文檔;
(2)計算多文檔中相鄰詞匯的互信息,并進一步計算互信息序列前后的跳變信息;
(3)將互信息序列與跳變信息序列構成二維互信息集合;
(4)二維互信息集合采用分類器為多詞表達內點和外點,選多內點鏈接構建多詞表達。
進一步的,在所述步驟(1)中,針對收集文檔庫的所有文檔進行中文分詞、詞性標注和命名實體識別、詞性選擇的預處理構成有特定次序的候選詞匯集合。
進一步的,所述步驟(2)包括以下順序的步驟:
(a)計算多文檔中所有相鄰詞匯的互信息;
(b)計算互信息序列前后的跳變信息。
進一步的,所述步驟(3)中,根據互信息序列與跳變信息序列對應位置點,構建二維互信息(MIi,fi),多個二維互信息構成二維互信息集合。
進一步的,所述步驟(4)中,采用分類器將二維互信息集合中所有點,劃分為多詞表達內點和外點兩類,將包含內點的相鄰詞匯鏈接構成多詞表達。
進一步的,所述步驟(a)中,計算多文檔中相鄰詞匯的互信息,構成互信息序列MI,其中相鄰詞匯x和y的互信息計算MIi(0≤i<len(MI)-α)如下式:
其中,x和y表示相鄰詞匯;MIi表示相鄰詞匯x和y構成的第i個互信息;len(MI)表示互信息序列MI的長度;α表示一個常量;M表示所有文檔中詞匯的總數;p(x,y)表示詞匯x和y在所有文檔中共現次數;p(x)表示詞匯x在所有文檔中出現次數;p(y)表示詞匯y在所有文檔中出現次數;N表示文檔集中所有文檔的個數;Nx,y表示包含x和y共現的文檔個數。
進一步的,所述步驟(b)中,計算互信息序列前后的跳變信息,構成跳變信息序列f,其中的相鄰互信息的跳變信息fi計算公式如下:
其中,fi表示互信息序列中當前互信息和后續互信息的跳變信息;||表示取絕對值。
進一步的,所述α為2。
本發明的另一目的在于提供一種多詞表達抽取裝置,包括:
候選詞匯獲取裝置:針對收集文檔庫的所有文檔進行中文分詞、詞性標注和命名實體識別、詞性選擇的預處理構成具有特定次序的候選詞匯集合;
互信息和跳變信息獲取裝置:計算多文檔中相鄰候選詞匯的互信息,并跟據相鄰互信息計算互信息序列前后的跳變信息;
二維互信息獲取裝置:根據互信息序列與跳變信息序列位置對應的信息,選擇互信息和跳變信息構成二維互信息;
分類篩選多詞表達裝置:采用分類器將二維互信息集合中所有點,分類為多詞表達內點和外點兩類,將有內點的相鄰詞匯鏈接構成多詞表達。
由上述技術方案可知,本發明將相鄰詞匯間的互信息轉變成二維互信息,聚類二維互信息篩選出多詞表達,避免了一維互信息需要人工設定閾值,對不同數據的適應性問題,同時不局限于多詞的二元結構,可一次獲取多詞組合的多詞表達,且無需分步實現,有效提高多詞表達的利用率,提高了多詞表達庫建設的準確度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科院合肥技術創新工程院,未經中科院合肥技術創新工程院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610990921.6/2.html,轉載請聲明來源鉆瓜專利網。





