[發明專利]動詞短語成分標注方法、裝置、電子設備及存儲介質在審
| 申請號: | 202110857779.9 | 申請日: | 2021-07-28 |
| 公開(公告)號: | CN113486220A | 公開(公告)日: | 2021-10-08 |
| 發明(設計)人: | 陳凡 | 申請(專利權)人: | 平安國際智慧城市科技股份有限公司 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903;G06F40/117;G06F40/186;G06F40/279;G06N3/08 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 嚴林;劉麗華 |
| 地址: | 518000 廣東省深圳市前海深港合*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 動詞 短語 成分 標注 方法 裝置 電子設備 存儲 介質 | ||
1.一種動詞短語成分標注方法,其特征在于,所述方法包括:
獲取多個動詞短語;
基于預設狀語詞表創建狀語模板并基于預設補語詞表創建補語模板,將所述多個動詞短語分別與所述狀語模板及所述補語模板進行匹配,得到每個動詞短語的關鍵詞的成分;
對每個動詞短語的關鍵詞的成分進行矯正,得到目標成分;
將所述動詞短語按照字為單位進行分割,并將每個字對應的目標成分打上預設格式的目標標簽,得到數據集;
基于所述數據集訓練RNN序列標注模型,并通過正反饋測試對所述RNN序列標注模型進行提純,得到目標RNN序列標注模型;
通過所述目標RNN序列標注模型標注待處理動詞短語中的成分。
2.如權利要求1所述的動詞短語成分標注方法,其特征在于,所述將所述多個動詞短語分別與所述狀語模板及所述補語模板進行匹配,得到每個動詞短語的關鍵詞的成分包括:
基于所述狀語模板得到多個第一正則表達式;
基于所述補語模板得到多個第二正則表達式;
將所述多個動詞短語分別與所述多個第一正則表達式進行匹配,得到每個動詞短語的關鍵詞的第一成分;
將所述多個動詞短語分別與所述多個第二正則表達式進行匹配,得到每個動詞短語的關鍵詞的第二成分。
3.如權利要求2所述的動詞短語成分標注方法,其特征在于,所述對每個動詞短語的關鍵詞的成分進行矯正,得到目標成分包括:
判斷所述動詞短語是否被所述狀語模板或者所述補語模板完全匹配;
當確定所述動詞短語被所述狀語模板或者所述補語模板完全匹配,則將所述動詞短語的關鍵詞被所述狀語模板或者所述補語模板完全匹配到的成分作為目標成分;
當確定所述動詞短語沒有被所述狀語模板或者所述補語模板完全匹配,則對所述多個動詞短語的關鍵詞被所述狀語模板及所述補語模板匹配到的成分進行投票,根據投票結果確定每個動詞短語的關鍵詞的目標成分。
4.如權利要求3所述的動詞短語成分標注方法,其特征在于,所述判斷所述動詞短語是否被所述狀語模板或者所述補語模板完全匹配包括:
判斷所述動詞短語中的所有關鍵詞是否被所述狀語模板對應的多個第一正則表達式匹配到,及判斷所述動詞短語中的所有關鍵詞是否被所述補語模板對應的多個第二正則表達式匹配到;
當所述動詞短語中的所有關鍵詞被所述狀語模板對應的多個第一正則表達式匹配到,但所述動詞短語中的任意一個關鍵詞沒有被所述補語模板對應的多個第二正則表達式匹配到,則確定所述動詞短語被所述狀語模板完全匹配;
當所述動詞短語中的所有關鍵詞被所述補語模板對應的多個第二正則表達式匹配到,但所述動詞短語中的任意一個關鍵詞沒有被所述狀語模板對應的多個第一正則表達式匹配到,則確定所述動詞短語被所述補語模板完全匹配。
5.如權利要求3或4所述的動詞短語成分標注方法,其特征在于,所述對所述多個動詞短語的關鍵詞被所述狀語模板及所述補語模板匹配到的成分進行投票,根據投票結果確定每個動詞短語的關鍵詞的目標成分包括:
獲取所述動詞短語的關鍵詞的第一成分的第一投票數;
獲取所述動詞短語的關鍵詞的第二成分的第二投票數;
比較所述第一投票數是否大于所述第二投票數;
當所述第一投票數大于所述第二投票數,確定所述動詞短語的關鍵詞的目標成分為所述第一成分;
當所述第二投票數大于所述第一投票數,確定所述動詞短語的關鍵詞的目標成分為所述第二成分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安國際智慧城市科技股份有限公司,未經平安國際智慧城市科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110857779.9/1.html,轉載請聲明來源鉆瓜專利網。





