[發明專利]一種基于序列標注的把字句和被字句陳述化方法及系統有效
| 申請號: | 202110253306.8 | 申請日: | 2021-03-05 |
| 公開(公告)號: | CN112966477B | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 王功明;張嫻;周慶勇 | 申請(專利權)人: | 浪潮云信息技術股份公司 |
| 主分類號: | G06F40/151 | 分類號: | G06F40/151;G06F40/205;G06F40/129;G06F40/216;G06F16/35;G06N3/0442;G06N3/084;G06N3/0985 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 馮春連;姜鵬 |
| 地址: | 250100 山東省濟南市高*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 序列 標注 字句 陳述 方法 系統 | ||
本發明公開一種基于序列標注的把字句和被字句陳述化方法,涉及自然語言處理技術領域,其實現過程包括:采用BIES方法,對把字句和被字句中的每個單字進行序列標注;以把字句或被字句作為輸入,以序列標注結果作為輸出,訓練基于端到端的序列標注模型;使用訓練得到的序列標注模型對把字句或被字句進行序列標注;根據序列標注模型的標注結果提取把字句或被字句的構成要素;按照句式“施事者+動作+其它+受事者”,將把字句或被字句的構成要素組成為陳述句。本發明還公開一種基于序列標注的把字句和被字句陳述化系統,其與前述方案相結合,可以解決自然語言處理領域方法處理把字句和被字句時存在的效率低、準確性差等問題。
技術領域
本發明涉及自然語言處理技術領域,具體的說是一種基于序列標注的把字句和被字句陳述化方法及系統。
背景技術
把字句是漢語中的主動式動詞謂語句,用來強調行為結果或行為方式。這種句式又稱為“處置式”,因為動詞所表示的動作對賓語進行了“處置”,使其屬性(例如位置或狀態)發生改變。這種句式的基本結構是:施事者+把+受事者+動作+其他,例如:奔流不息的洪水把人們回家的路淹沒了。
被字句是指在核心動詞前面,用介詞“被(給、叫、讓)”引出施事或單用“被”表示被動的主謂句。這種句式的基本結構是:受事者+被+施事者+動作+其他,例如:人們回家的路被奔流不息的洪水淹沒了。
在現代漢語中,把字句和被字句是常用的特殊句式,是語言學的研究重點,也是自然語言處理的語料來源。但是,自然語言處理領域的方法沒有考慮把字句和被字句的結構特點,這就使得訓練出來的模型主要適用于陳述句,處理把字句和被字句時存在效率低、精度差等問題。
發明內容
本發明針對目前技術發展的需求和不足之處,提供一種基于序列標注的把字句和被字句陳述化方法及系統,來提高把字句和被字句的處理效果。
首先,本發明公開一種基于序列標注的把字句和被字句陳述化方法,來解決上述技術問題,所采用的技術方案如下:
一種基于序列標注的把字句和被字句陳述化方法,包括如下步驟:
S1、采用BIES方法,對把字句和被字句中的每個單字進行序列標注;
S2、標注完成后,以把字句或被字句作為輸入,以序列標注結果作為輸出,訓練基于端到端的序列標注模型;
S3、使用訓練得到的序列標注模型對把字句或被字句進行序列標注;
S4、根據序列標注模型的標注結果提取把字句或被字句的構成要素;
S5、按照句式“施事者+動作+其它+受事者”,將把字句或被字句的構成要素組成為陳述句。
可選的,把字句或被字句的構成要素采用下述符號表示:
施事者:Sub;
受事者:Obj;
把字句標記介詞“把”:Vba;
被字句標記介詞“被/給/叫/讓”:Vbei;
動作:Verb;
其它:Oth;
每個構成要素由一個或多個單字組成,借助BIES方法對每個單字進行序列標注,其中,B表示構成要素開始,I表示構成要素中間,E表示構成要素結束,S表示由單字形成的構成要素;
將上述4種標記添加到構成要素符號的前面,即形成單字的標簽。
可選的,基于端到端的序列標注模型包括:
序列單字層,用于將把字句和被字句中的單字,按照單字出現的先后順序,轉換為單字構成的序列;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮云信息技術股份公司,未經浪潮云信息技術股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110253306.8/2.html,轉載請聲明來源鉆瓜專利網。





