[發明專利]一種基于統計機器學習算法的實體共指消解方法在審
| 申請號: | 201910542364.5 | 申請日: | 2019-06-21 |
| 公開(公告)號: | CN110362682A | 公開(公告)日: | 2019-10-22 |
| 發明(設計)人: | 肖清林 | 申請(專利權)人: | 廈門美域中央信息科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06N20/00 |
| 代理公司: | 北京勁創知識產權代理事務所(普通合伙) 11589 | 代理人: | 王志敏 |
| 地址: | 361008 福建省廈門市軟件園*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 消解 分類模型 統計機器 學習算法 構建 訓練組 實測 校正 分類模型訓練 機器翻譯 輸入分類 信息抽取 組信息 檢測 資料庫 集合 保證 | ||
一種基于統計機器學習算法的實體共指消解方法,方法步驟包括:構建資料庫,劃分訓練組和實測組;確定實體共指消解的特征;對訓練組進行表述檢測;構建實體共指表述對集合;構建分類模型;進行分類模型訓練;進行分類模型校正;將實測組信息輸入分類模型,并生成結果。本發明首先確定實體共指消解的特征,接著進行表述檢測,建立分類模型,并通過對分類模型的反復訓練和校正,在統計機器學習算法的基礎上最終實現對實體共指消解,使得對實體共指消解的準確性高,從而保證了工作在機器翻譯,信息抽取以及問答等領域的順利進行,利于工作的普及和開展。
技術領域
本發明涉及實體共指消解領域,尤其涉及一種基于統計機器學習算法的實體共指消解方法。
背景技術
指代是一種常見的語言現象,廣泛存在于自然語言的各種表達中。一般情況下,指代分為2種:回指(也稱指示性指代)和共指(也稱同指)。回指是指當前的照應語與上文出現的詞、短語或句子(句群)存在密切的語義關聯性,指代依存于上下文語義中,在不同的語言環境中可能指代不同的實體,具有非對稱性和非傳遞性;共指主要是指2個名詞(包括代名詞、名詞短語)指向真實世界中的同一參照體,這種指代脫離上下文仍然成立。而實體共指消解是識別不同關聯數據源中相同實體的不同標識符,主要解決三元組中主語之間的沖突問題。
目前,實體共指現象嚴重,往往對機器翻譯,信息抽取以及問答等領域造成干擾,降低了工作的普及和開展的效率和準確性。
為解決上述問題,本申請中提出一種基于統計機器學習算法的實體共指消解方法。
發明內容
(一)發明目的
為解決背景技術中存在的技術問題,本發明提出一種基于統計機器學習算法的實體共指消解方法,本發明首先確定實體共指消解的特征,接著進行表述檢測,建立分類模型,并通過對分類模型的反復訓練和校正,在統計機器學習算法的基礎上最終實現對實體共指消解,使得對實體共指消解的準確性高,從而保證了工作在機器翻譯,信息抽取以及問答等領域的順利進行,利于工作的普及和開展。
(二)技術方案
為解決上述問題,本發明提供了一種基于統計機器學習算法的實體共指消解方法,方法步驟包括:
S1、構建資料庫,并將資料庫內容隨機劃分為訓練組和實測組;
S2、確定實體共指消解的特征;
S3、根據實體共指消解的特征對訓練組進行表述檢測,通過表述檢測識別出訓練組中可能產生實體共指的全部候選表述;
S4、根據檢測結果構建實體共指表述對集合;
S5、構建分類模型;分類模型包括輸入模塊、分類器模塊和輸出模塊;
S6、將實體共指表述對集合依次輸入分類模型中,進行訓練;
S7、根據訓練結果對分類模型進行校正,并除去不匹配的表述對;
S8、將實測組信息輸入分類模型,并生成結果。
優選的,在S1中,訓練組和實測組均包括多個三元組。
優選的,三元組包括主語、謂語和賓語。
優選的,在S2中,實體共指消解的特征包括:詞法特征、語法特征、距離和位置特征、以及語義特征;其中實體與表述的距離是方法的核心。
優選的,在S3中,候選表述的表述對主要來自所有三元組中的主語子集。
優選的,在S4中,表述對包括文本中的任一位置的表述m,以及其前面的所有表述m。
優選的,在S5中,通過輸入模塊將表述對集合輸入分類模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門美域中央信息科技有限公司,未經廈門美域中央信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910542364.5/2.html,轉載請聲明來源鉆瓜專利網。





