[發明專利]一種基于統計機器學習算法的實體共指消解方法在審
| 申請號: | 201910542364.5 | 申請日: | 2019-06-21 |
| 公開(公告)號: | CN110362682A | 公開(公告)日: | 2019-10-22 |
| 發明(設計)人: | 肖清林 | 申請(專利權)人: | 廈門美域中央信息科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06N20/00 |
| 代理公司: | 北京勁創知識產權代理事務所(普通合伙) 11589 | 代理人: | 王志敏 |
| 地址: | 361008 福建省廈門市軟件園*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 消解 分類模型 統計機器 學習算法 構建 訓練組 實測 校正 分類模型訓練 機器翻譯 輸入分類 信息抽取 組信息 檢測 資料庫 集合 保證 | ||
1.一種基于統計機器學習算法的實體共指消解方法,其特征在于,方法步驟包括:
S1、構建資料庫,并將資料庫內容隨機劃分為訓練組和實測組;
S2、確定實體共指消解的特征;
S3、根據實體共指消解的特征對訓練組進行表述檢測,通過表述檢測識別出訓練組中可能產生實體共指的全部候選表述;
S4、根據檢測結果構建實體共指表述對集合;
S5、構建分類模型;分類模型包括輸入模塊、分類器模塊和輸出模塊;
S6、將實體共指表述對集合依次輸入分類模型中,進行訓練;
S7、根據訓練結果對分類模型進行校正,并除去不匹配的表述對;
S8、將實測組信息輸入分類模型,并生成結果。
2.根據權利要求1所述的一種基于統計機器學習算法的實體共指消解方法,其特征在于,在S1中,訓練組和實測組均包括多個三元組。
3.根據權利要求2所述的一種基于統計機器學習算法的實體共指消解方法,其特征在于,三元組包括主語、謂語和賓語。
4.根據權利要求1所述的一種基于統計機器學習算法的實體共指消解方法,其特征在于,在S2中,實體共指消解的特征包括:詞法特征、語法特征、距離和位置特征、以及語義特征;其中實體與表述的距離是方法的核心。
5.根據權利要求1所述的一種基于統計機器學習算法的實體共指消解方法,其特征在于,在S3中,候選表述的表述對主要來自所有三元組中的主語子集。
6.根據權利要求1所述的一種基于統計機器學習算法的實體共指消解方法,其特征在于,在S4中,表述對包括文本中的任一位置的表述m,以及其前面的所有表述m。
7.根據權利要求1所述的一種基于統計機器學習算法的實體共指消解方法,其特征在于,在S5中,通過輸入模塊將表述對集合輸入分類模型。
8.根據權利要求1所述的一種基于統計機器學習算法的實體共指消解方法,其特征在于,在S5中,用于表述對集合篩選、分類的分類器模塊包括二元分類器。
9.根據權利要求1所述的一種基于統計機器學習算法的實體共指消解方法,其特征在于,在S5中,輸出模塊對分類結果進行反饋。
10.根據權利要求1所述的一種基于統計機器學習算法的實體共指消解方法,其特征在于,在S8中,結果生成的方法為最優最先、最近最先或傳遞性約束中的任意一種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門美域中央信息科技有限公司,未經廈門美域中央信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910542364.5/1.html,轉載請聲明來源鉆瓜專利網。





