[發(fā)明專利]一種基于條件隨機場和規(guī)則調(diào)整的句法依存方法有效
| 申請?zhí)枺?/td> | 201810410000.7 | 申請日: | 2018-05-02 |
| 公開(公告)號: | CN108595434B | 公開(公告)日: | 2021-11-02 |
| 發(fā)明(設(shè)計)人: | 金勇;吳兵 | 申請(專利權(quán))人: | 武漢烽火普天信息技術(shù)有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/289;G06F40/216;G06F40/30 |
| 代理公司: | 上海精晟知識產(chǎn)權(quán)代理有限公司 31253 | 代理人: | 馮子玲 |
| 地址: | 430000 湖北*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 條件 隨機 規(guī)則 調(diào)整 句法 依存 方法 | ||
1.一種基于條件隨機場和規(guī)則調(diào)整的句法依存方法,其特征在于,包括以下步驟:
步驟一、配置模板:基于訓(xùn)練語料,在CRF模型中配置合適的unigram特征模板;
步驟二、調(diào)整中文句法依存規(guī)則:基于中文依存句法規(guī)則,對步驟一得到的模型進(jìn)行規(guī)則調(diào)整;其中,每個句子具有一個root,且各標(biāo)簽是合法存在的,依存關(guān)系之間沒有交叉性;
步驟三、預(yù)測依存關(guān)系名稱:基于步驟二得到的模型進(jìn)行統(tǒng)計分析,然后制定預(yù)測規(guī)則,逐步輸出其最可能的關(guān)系名稱;
步驟四、依存關(guān)系標(biāo)注:基于步驟三得到的模型,結(jié)合詞性標(biāo)注模型,對訓(xùn)練語料的依存關(guān)系進(jìn)行自動標(biāo)注;
所述步驟二中的規(guī)則調(diào)整具體為,采取依次遍歷概率前30個結(jié)果,按照概率從高到低進(jìn)行排列,并對得到的結(jié)果中詞的id從小到大進(jìn)行排序,統(tǒng)計各個詞預(yù)測為root的次數(shù),并按照root的次數(shù)從大到小進(jìn)行排列,結(jié)果保存為元組列表,root的次數(shù)最大的詞的id作為整句詞唯一root的詞的id,其中:
a、若root次數(shù)一樣,取元組列表中排序最前的詞的id,作為整句詞唯一root的詞的id;
b、若唯一root的詞的id大于0,即各詞存在多個root數(shù)時,則再次遍歷30個結(jié)果,含有該詞的id為root的結(jié)果中,先將其它可能仍然為root的標(biāo)簽,改為合法性且概率最大的預(yù)測標(biāo)簽,然后遍歷每個詞的各類預(yù)測標(biāo)簽的概率,從大到小排序,依次取滿足標(biāo)簽合法性、無交叉性的結(jié)果;
c、若唯一root的詞的id為0,即各詞均沒有root數(shù)時,則根據(jù)中文語言規(guī)則的統(tǒng)計分析,依次判斷將第一個動詞或者介詞或者形容詞作為root,按照之前的過程再依次遍歷各詞,取得符合中文依存句法規(guī)則的結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種基于條件隨機場和規(guī)則調(diào)整的句法依存方法,其特征在于:所述步驟一中,unigram特征模板具體設(shè)置為前后五個詞的模板及豐富到40個特征數(shù)量。
3.根據(jù)權(quán)利要求1所述的一種基于條件隨機場和規(guī)則調(diào)整的句法依存方法,其特征在于:依次判斷各詞是否作為root的優(yōu)先級是預(yù)設(shè)的,具體為,動詞的優(yōu)先級大于介詞的優(yōu)先級,介詞的優(yōu)先級大于形容詞的優(yōu)先級。
4.根據(jù)權(quán)利要求1所述的一種基于條件隨機場和規(guī)則調(diào)整的句法依存方法,其特征在于:所述步驟三中,所述預(yù)測規(guī)則根據(jù)訓(xùn)練語料中統(tǒng)計兩個詞的詞與詞性兩兩組合出現(xiàn)概率并用此模型接受依存邊兩端的詞語和詞性來制定。
5.根據(jù)權(quán)利要求1所述的一種基于條件隨機場和規(guī)則調(diào)整的句法依存方法,其特征在于:所述步驟四中,所述詞性標(biāo)注模型內(nèi)進(jìn)行詞性標(biāo)注前先進(jìn)行分詞。
6.根據(jù)權(quán)利要求5所述的一種基于條件隨機場和規(guī)則調(diào)整的句法依存方法,其特征在于:所述分詞采用結(jié)巴分詞。
7.根據(jù)權(quán)利要求1所述的一種基于條件隨機場和規(guī)則調(diào)整的句法依存方法,其特征在于:所述CRF模型中的參數(shù)設(shè)置包括采用規(guī)范化算法的參數(shù)a、用于調(diào)整過度擬合和不擬合之間的平衡度的參數(shù)c、用于設(shè)置特征截取閾值的參數(shù)f和用于提升訓(xùn)練速度的多線程參數(shù)p,其中,所述規(guī)范化算法為CRF-L2算法,所述參數(shù)c設(shè)置為4.0,所述參數(shù)f設(shè)置為3.0,所述參數(shù)p設(shè)置為20。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢烽火普天信息技術(shù)有限公司,未經(jīng)武漢烽火普天信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810410000.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 限制條件解決方法、限制條件解決裝置、以及限制條件解決系統(tǒng)
- 制造條件設(shè)定系統(tǒng)及制造條件設(shè)定方法
- 成形條件確定方法及成形條件確定系統(tǒng)
- 成形條件設(shè)定裝置、成形條件設(shè)定方法及成形條件設(shè)定畫面
- 攝影條件設(shè)定設(shè)備、攝影條件設(shè)定方法和攝影條件設(shè)定程序
- 生理條件監(jiān)視系統(tǒng)、生理條件傳感器和生理條件儀表
- 成形條件設(shè)定裝置、成形條件設(shè)定方法及成形條件設(shè)定畫面
- 條件訪問設(shè)備
- 用于條件切換的裝置、方法、介質(zhì)和系統(tǒng)
- 基于條件分布的條件生成對抗網(wǎng)絡(luò)
- 規(guī)則發(fā)現(xiàn)程序、規(guī)則發(fā)現(xiàn)處理和規(guī)則發(fā)現(xiàn)裝置
- 不規(guī)則瓶蓋
- 相關(guān)規(guī)則分析裝置以及相關(guān)規(guī)則分析方法
- 分析規(guī)則調(diào)整裝置、分析規(guī)則調(diào)整系統(tǒng)以及分析規(guī)則調(diào)整方法
- 規(guī)則抽取方法和規(guī)則抽取設(shè)備
- 終端規(guī)則引擎裝置、終端規(guī)則運行方法
- 布(規(guī)則)
- 規(guī)則呈現(xiàn)方法、存儲介質(zhì)和規(guī)則呈現(xiàn)裝置
- 可編寫規(guī)則配置模塊、規(guī)則生成系統(tǒng)、及規(guī)則管理平臺
- 不規(guī)則圍棋





