[發(fā)明專利]中文排比句識(shí)別方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201711078736.0 | 申請(qǐng)日: | 2017-11-06 |
| 公開(公告)號(hào): | CN107943852B | 公開(公告)日: | 2020-10-30 |
| 發(fā)明(設(shè)計(jì))人: | 宋巍;劉彤;劉麗珍 | 申請(qǐng)(專利權(quán))人: | 首都師范大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/205 |
| 代理公司: | 北京清亦華知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 張潤(rùn) |
| 地址: | 100037 北*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 中文 排比 識(shí)別 方法 系統(tǒng) | ||
1.一種中文排比句識(shí)別方法,其特征在于,包括以下步驟:
選取目標(biāo)數(shù)據(jù)集,其中,所述目標(biāo)數(shù)據(jù)集中包括多種類型的文章;
將當(dāng)前文章中每?jī)蓚€(gè)句子構(gòu)成一個(gè)句對(duì),并對(duì)得到的所述句對(duì)構(gòu)建不同維度的特征;所述不同維度的特征由詞對(duì)齊策略、序列對(duì)齊策略、樹對(duì)齊策略、位置和長(zhǎng)度特征組成;
所述詞對(duì)齊策略包括精確匹配對(duì)齊方式、詞性匹配對(duì)齊方式、句法規(guī)則匹配對(duì)齊方式、語義匹配對(duì)齊方式中的一種;
所述序列對(duì)齊策略包括最長(zhǎng)公共子序列對(duì)齊方式、最長(zhǎng)公共子串對(duì)齊方式、Needleman-Wunsch算法中的一種;
所述位置和長(zhǎng)度特征由鄰接特征、位置對(duì)齊、長(zhǎng)度差異和子句差異組成;
根據(jù)隨機(jī)森林方法構(gòu)建分類模型,并將得到的所述特征作為模型輸入,以根據(jù)預(yù)設(shè)的評(píng)價(jià)指標(biāo)對(duì)所述特征進(jìn)行篩選,得到一組最好的特征以對(duì)模型進(jìn)行訓(xùn)練,其中,所述預(yù)設(shè)的評(píng)價(jià)指標(biāo)采用句對(duì)準(zhǔn)確率pair-precision、句對(duì)召回率pair-recall和句對(duì)F值Fpair表示,其中,句對(duì)準(zhǔn)確率pair-precision為正確識(shí)別的排比句句對(duì)個(gè)數(shù)與識(shí)別句對(duì)個(gè)數(shù)的比值,句對(duì)召回率pair-recall為正確識(shí)別的排比句句對(duì)個(gè)數(shù)與真排比句句對(duì)個(gè)數(shù)的比值;Fpair為:
根據(jù)訓(xùn)練后的模型,在新的測(cè)試測(cè)試集上對(duì)排比句進(jìn)行抽取,并將抽取的句對(duì)組合成句組進(jìn)行評(píng)價(jià),以將句對(duì)的分類擴(kuò)展為句組的分類;
其中,句組的評(píng)價(jià)指標(biāo)采用句組準(zhǔn)確率chunk-precision,句組召回率chunk-recall和句組F值Fchunk表示,其中,句組準(zhǔn)確率chunk-precision為正確識(shí)別的排比句句組個(gè)數(shù)與識(shí)別句組個(gè)數(shù)的比值,句組召回率chunk-recall為正確識(shí)別的排比句句組個(gè)數(shù)與真排比句句組個(gè)數(shù)的比值;Fchunk為:
2.一種中文排比句識(shí)別系統(tǒng),其特征在于,包括:
選取模塊,用于選取目標(biāo)數(shù)據(jù)集,其中,所述目標(biāo)數(shù)據(jù)集中包括多種類型的文章;
構(gòu)建模塊,用于將當(dāng)前文章中每?jī)蓚€(gè)句子構(gòu)成一個(gè)句對(duì),并對(duì)得到的所述句對(duì)構(gòu)建不同維度的特征;所述不同維度的特征由詞對(duì)齊策略、序列對(duì)齊策略、樹對(duì)齊策略、位置和長(zhǎng)度特征組成;
所述詞對(duì)齊策略包括精確匹配對(duì)齊方式、詞性匹配對(duì)齊方式、句法規(guī)則匹配對(duì)齊方式、語義匹配對(duì)齊方式中的一種;
所述序列對(duì)齊策略包括最長(zhǎng)公共子序列對(duì)齊方式、最長(zhǎng)公共子串對(duì)齊方式、Needleman-Wunsch算法中的一種;
所述位置和長(zhǎng)度特征由鄰接特征、位置對(duì)齊、長(zhǎng)度差異和子句差異組成;
訓(xùn)練模塊,用于根據(jù)隨機(jī)森林方法構(gòu)建分類模型,并將得到的所述特征作為模型輸入,以根據(jù)預(yù)設(shè)的評(píng)價(jià)指標(biāo)對(duì)所述特征進(jìn)行篩選,得到一組最好的特征以對(duì)模型進(jìn)行訓(xùn)練,其中,所述預(yù)設(shè)的評(píng)價(jià)指標(biāo)采用句對(duì)準(zhǔn)確率pair-precision、句對(duì)召回率pair-recall和句對(duì)F值Fpair表示,其中,句對(duì)準(zhǔn)確率pair-precision為正確識(shí)別的排比句句對(duì)個(gè)數(shù)與識(shí)別句對(duì)個(gè)數(shù)的比值,句對(duì)召回率pair-recall為正確識(shí)別的排比句句對(duì)個(gè)數(shù)與真排比句句對(duì)個(gè)數(shù)的比值;Fpair為:
分類模塊,用于根據(jù)訓(xùn)練后的模型,在新的測(cè)試測(cè)試集上對(duì)排比句進(jìn)行抽取,并將抽取的句對(duì)組合成句組進(jìn)行評(píng)價(jià),以將句對(duì)的分類擴(kuò)展為句組的分類;
其中,句組的評(píng)價(jià)指標(biāo)采用句組準(zhǔn)確率chunk-precision,句組召回率chunk-recall和句組F值Fchunk表示,其中,句組準(zhǔn)確率chunk-precision為正確識(shí)別的排比句句組個(gè)數(shù)與識(shí)別句組個(gè)數(shù)的比值,句組召回率chunk-recall為正確識(shí)別的排比句句組個(gè)數(shù)與真排比句句組個(gè)數(shù)的比值;Fchunk為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于首都師范大學(xué),未經(jīng)首都師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711078736.0/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





