[發明專利]中文機器閱讀系統有效
| 申請號: | 201310685182.6 | 申請日: | 2013-12-13 |
| 公開(公告)號: | CN103617290B | 公開(公告)日: | 2017-02-15 |
| 發明(設計)人: | 秦謙;宋陽秋;常凱斯 | 申請(專利權)人: | 江蘇名通信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 南京縱橫知識產權代理有限公司32224 | 代理人: | 董建林 |
| 地址: | 212000 江蘇省鎮江市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 機器 閱讀 系統 | ||
技術領域
本發明涉及中文閱讀技術領域,特別涉及一種中文閱讀系統。
背景技術
隨著大數據時代的到來,越來越多的數據以文本的形式被發布到網上。如何對網絡數據進行理解成為了更加緊迫和急需解決的問題。其中一個方式就是把非結構化的文本數據組織成機器能夠識別并使用的結構化數據(如詞與詞之間的關系),為未來進行一系列的推理、識別打下基礎。結構化的數據可以用于做語義消歧,根據詞之間的關系可以推斷詞的含義。另外現有技術對文本共現頻率的統計,僅限于使用窗口進行滑動,進而統計兩個詞共同出現的頻率;或者使用語言模型統計連續出現的詞的頻率。而隨著計算能力的提高,共現可以進行歸類,語言模型也可以不局限于連續出現的詞的統計。
在文本處理領域,英文的機器閱讀已經得到了相當大的發展。例如Never?Ending?Language?Learning(NELL)系統,通過英文文本的概念和實體之間的關系,對互聯網數據進行特征提取和學習,從而得到更多的概念和實體。又比如Textrunner(Reverb)系統,通過使用一系列正則表達式和簡單的機器學習方法,來實現開放式的語言抽取。
目前已有一些中文的知識庫(如zhishi.me),通過對中文百科數據進行實體和關系的抽取所構建的,對百科數據的抽取可以通過標題、超鏈接的文本等信息進行提取,然后通過鏈接和Infobox中的屬性關系來構建關系鏈接。但是,,語言本身是多樣的,關鍵詞并不應局限于實體(如人名、地名等),關系也不應局限在百科中已有的關系(如屬性),還應該包含更多種(同一種關系,可以有不同的說法;同一個關系,可以有不同的關系對象)情況。
發明內容
本發明克服了現有技術的不足,提供一種能夠在中文文本中進行閱讀的中文機器閱讀系統。
為解決上述技術問題,本發明采用的技術方案為:
中文機器閱讀系統,包括數據抓取模塊、數據處理模塊、數據抽取模塊、知識庫、數據整合模塊和使用接口,數據抓取模塊、數據處理模塊、數據抽取模塊和知識庫依次連接,數據整合模塊和使用接口與知識庫連接。
數據抓取模塊用于抓取互聯網上文本的非結構化數據。數據抓取模塊使用URL種子,通過graph?propagation的方式傳播抓取網頁,對于抓取下來的網頁,分析HTML的結構化數據,抽取非結構化的文本信息,使用Hadoop框架,利用多臺數據大量URL數據進行抓取非結構化文本信息,使用Lucene和Neo4J兩種存儲框架,Lucene對非結構化網頁進行處理和檢索,Neo4J存儲URL的圖結構。
數據處理模塊把數據進行標準化處理,具體包括以下步驟:1)中文分詞:使用分詞器對中文進行分詞處理,經過分詞的文章和句子存儲到Lucene數據庫;2)詞性標注:對于中文分詞的結果進行詞性標注,并將詞性標注的結構存儲到Lucene數據庫;3)標準化處理:特征抽取中文單詞,特征為根據中文單詞曾經出現的頻率加權,并進行全局上的歸一化。
知識庫用于存儲的知識集群。
使用接口提供調用數據的接口。
數據抽取模塊通過機器學習和模塊匹配的方法,得到計算機能夠處理的知識。數據抽取模塊包括wiki內容抽取模塊、模板抽取模塊、實體抽取模塊、關系抽取模塊和模板匹配模塊。數據抽取模塊中數據的流向具體包括:數據通過wiki內容抽取模塊提取為實體列表和三元組,實體列表和三元組通過實體抽取模塊、關系抽取模塊抽取為實體和關系后,在模板抽取模塊初始化模板,并通過模板匹配模塊匹配模板,經過匹配后的關系,流向關系抽取模塊,判斷是否被列為知識庫中的內容。
wiki內容抽取模塊提取wiki的內容進行抽取;先提取wiki的標題、超鏈接中的實體,然后對infobox中的屬性關系進行提取,得到實體列表和由實體、關系、鍵值組成的三元組兩種形式的知識。
模板抽取模塊根據wiki中得到的內容初始化模板,對三元組信息歸納總結,使用頻率最高的限定數量的關系作為初始化模板。
實體抽取模塊、關系抽取模塊對已有的實體和關系進行學習;首先,使用詞典和匹配技術,找到相應的實體和關系,其中關系可以是實體的屬性也可以是某種聯系;其次,使用序列標簽技術,例如,條件隨機場CRF、最大熵方法,對已有的實體和關系所在的例句進行訓練,標注新的數據。
模板匹配模塊根據模板抽取模塊獲得的模板,使用正則表達式進行匹配,得到備選的新知識,使用特征提取的方法把相應的關系表示成機器可以擴展識別的特征,對特征使用支持向量機方法和樸素貝葉斯方法等機器學習的方法,判斷一條知識是否被列為知識庫中的內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇名通信息科技有限公司,未經江蘇名通信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310685182.6/2.html,轉載請聲明來源鉆瓜專利網。





