[發明專利]藏語實體關系抽取方法有效
| 申請號: | 201510173998.X | 申請日: | 2015-04-13 |
| 公開(公告)號: | CN104809176B | 公開(公告)日: | 2018-08-07 |
| 發明(設計)人: | 孫媛 | 申請(專利權)人: | 中央民族大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京億騰知識產權代理事務所 11309 | 代理人: | 陳霽 |
| 地址: | 100081 北京市海淀區中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 藏語 實體 關系 抽取 方法 | ||
本發明涉及一種藏語實體關系抽取方法,該方法包括以下步驟:從藏漢文本語料信息中抽取訓練語料;構建藏語詞向量模型;通過藏語詞向量模型獲得實體關系特征向量;將實體關系特征向量作為輸入,構建基于神經網絡的實體關系分類模型,并對實體關系特征向量做多層的特征提取,最終獲得藏語實體關系分類。本發明通過建立藏語詞向量模型,研究和解決藏語實體關系的詞匯語義特征和句子特征向量表示方法,進而通過建立藏語實體關系分類模型,實現藏語實體關系的抽取,提高了藏語實體關系分類的準確性,為藏語知識圖譜、問答系統、信息抽取、信息檢索等領域研究提供技術支撐和服務。
技術領域
本發明涉及一種藏語實體關系抽取方法,尤其涉及一種基于詞向量的藏語實體關系抽取方法。
背景技術
隨著互聯網的快速普及,特別是發展中國家互聯網用戶的快速增加,網絡上非英語文本資源數量急速增長,其增長速度遠遠超過了10年前的速度,并且越來越多的網上信息以多語言的形式發布。據中央民族大學國家語言資源監測與研究中心少數民族語言分中心調查:截止到2011年12月底,大陸少數民族語言文字的網站總量在1,250個左右,其中維吾爾文網站840個、藏文網站146個、蒙古文網站136個。“與全國網民增長速度相比,少數民族網民的增速較為突出,例如藏族網民增幅達86%,遠遠高于全國平均增長速度”。
Web內容的爆炸式增長,使得對Web的社會網絡研究已經不再局限于對Web結構的分析,而是轉向以Web內容為研究對象的分析,其中知識圖譜(Knowledge Graph)成為大數據時代自然語言處理領域的一個研究熱點。知識圖譜以結點代表實體或者概念,邊代表實體/概念之間的各種語義關系,其中實體關系的抽取是主要研究內容之一。知識圖譜以全面、完整的知識體系為信息檢索、問答系統、知識庫構建等領域的研究提供了資源和支撐,而目前已有的Google(超過5.7億實體,18億關系),DBpedia(超過1900萬實體,1億關系),Wiki-links(4000萬排除歧義的關系),Wolframalpha(10萬億關系),Probase(超過265萬實體),百度知心,搜狗知立方等知識圖譜只提供英、漢、法等語言的相關知識,少數民族語言知識圖譜的構建才剛剛起步。
例如,當我們搜索“(達賴喇嘛)”時,Google會出現64,100條結果;而當我們搜索“(嘉瓦仁波切)”時,Google會出現586,000條結果。在藏語中,通常稱(達賴喇嘛)為(嘉瓦仁波切),而目前的搜索引擎卻沒有顯示兩者之間的關系。而且,所有搜索結果以含有關鍵詞的文本顯示為主,沒有知識的結構表示。因此,我們得不到全面準確的相關信息,更不能實現信息的深度挖掘。
發明內容
本發明的目的是針對現有技術的缺陷,提供一種基于詞向量的藏語實體關系抽取方法,通過建立藏語詞向量模型,研究和解決藏語實體關系的詞匯語義特征和句子特征向量表示方法,進而通過建立藏語實體關系分類模型,以實現藏語實體關系的抽取,提高了藏語實體關系分類的準確性。
為實現上述目的,本發明提供了一種藏語實體關系抽取方法,該方法包括:
從藏漢文本語料信息中抽取訓練語料;
構建藏語詞向量模型;
通過所述藏語詞向量模型獲得實體關系特征向量,所述實體關系特征向量包括藏語詞匯語義特征向量和藏語句子特征向量;
將所述實體關系特征向量作為輸入,根據所述訓練語料構建基于神經網絡的實體關系分類模型,并對所述實體關系特征向量做多層的特征提取,最終獲得藏語實體關系分類。
進一步地,所述訓練語料包括:藏語語義角色標注語料和基于自然標注的藏漢跨語言訓練語料。
進一步地,所述基于自然標注的藏漢跨語言訓練語料具體為:利用漢語結構化、半結構化的自然標注語料,通過跨語言環境下的藏漢實體及句子映射,將漢語句子的標注傳遞給藏語,得到所述基于自然標注的藏漢跨語言訓練語料。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中央民族大學,未經中央民族大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510173998.X/2.html,轉載請聲明來源鉆瓜專利網。





