[發明專利]藏語實體關系抽取方法有效
| 申請號: | 201510173998.X | 申請日: | 2015-04-13 |
| 公開(公告)號: | CN104809176B | 公開(公告)日: | 2018-08-07 |
| 發明(設計)人: | 孫媛 | 申請(專利權)人: | 中央民族大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京億騰知識產權代理事務所 11309 | 代理人: | 陳霽 |
| 地址: | 100081 北京市海淀區中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 藏語 實體 關系 抽取 方法 | ||
1.一種藏語實體關系抽取方法,其特征在于,所述方法包括:
從藏漢文本語料信息中抽取訓練語料;
構建藏語詞向量模型;
通過所述藏語詞向量模型獲得實體關系特征向量,所述實體關系特征向量包括藏語詞匯語義特征向量和藏語句子特征向量;
將所述實體關系特征向量作為輸入,根據所述訓練語料構建基于神經網絡的實體關系分類模型,并對所述實體關系特征向量做多層的特征提取,最終獲得藏語實體關系分類。
2.根據權利要求1所述的方法,其特征在于,所述訓練語料包括:藏語語義角色標注語料和基于自然標注的藏漢跨語言訓練語料。
3.根據權利要求2所述的方法,其特征在于,所述基于自然標注的藏漢跨語言訓練語料具體為:
利用漢語結構化和/或半結構化的自然標注語料,通過跨語言環境下的藏漢實體及句子映射,將漢語句子的標注傳遞給藏語,得到所述基于自然標注的藏漢跨語言訓練語料。
4.根據權利要求1所述的方法,其特征在于,所述構建藏語詞向量模型具體為:
通過對藏文網頁文本進行分析,采用國家語言資源監測與研究中心少數民族語言分中心開發完成的藏文分詞及詞性標注系統,對所述藏文網頁文本進行分詞,作為所述藏語詞向量模型的訓練語料,構建所述藏語詞向量模型。
5.根據權利要求1所述的方法,其特征在于,所述構建基于神經網絡的實體關系分類模型,并對所述實體關系特征向量做多層的特征提取,最終獲得實體關系分類具體為:
以包含兩個及以上命名實體的句子作為樣本,采用向量空間模型計算特征的相似度;
利用所述相似度信息,構建實體對近鄰圖,在所述近鄰圖上依據點之間的相似度進行傳遞;
通過構建實體關系圖,計算節點到節點之間的路徑得分,最大化路徑得分,實現所述藏語實體關系的抽取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中央民族大學,未經中央民族大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510173998.X/1.html,轉載請聲明來源鉆瓜專利網。





