[發(fā)明專利]一種基于支持向量機(jī)的對(duì)話語(yǔ)句正確性評(píng)價(jià)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010792210.4 | 申請(qǐng)日: | 2020-08-08 |
| 公開(kāi)(公告)號(hào): | CN111783441A | 公開(kāi)(公告)日: | 2020-10-16 |
| 發(fā)明(設(shè)計(jì))人: | 李?yuàn)檴?/a>;毛曉光;董威;劉浩然;陳振邦;陳立前;尹良澤;文艷軍;劉萬(wàn)偉;賈周陽(yáng) | 申請(qǐng)(專利權(quán))人: | 中國(guó)人民解放軍國(guó)防科技大學(xué) |
| 主分類號(hào): | G06F40/279 | 分類號(hào): | G06F40/279;G06F40/30;G06F40/35;G06K9/62 |
| 代理公司: | 國(guó)防科技大學(xué)專利服務(wù)中心 43202 | 代理人: | 文玲 |
| 地址: | 410073 湖*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 支持 向量 對(duì)話 語(yǔ)句 正確性 評(píng)價(jià) 方法 | ||
1.一種基于支持向量機(jī)的對(duì)話語(yǔ)句正確性評(píng)價(jià)方法,其特征在于,包括以下步驟:
步驟一、從錯(cuò)誤報(bào)告或郵件列表管理網(wǎng)站上獲取包含完整討論過(guò)程的錯(cuò)誤報(bào)告或郵件列表,并根據(jù)標(biāo)點(diǎn)符號(hào)隊(duì)所獲得的數(shù)據(jù)進(jìn)行分句,得到待標(biāo)注數(shù)據(jù);
步驟二、從待標(biāo)注數(shù)據(jù)進(jìn)行語(yǔ)氣標(biāo)注肯定或者否定,并獲得肯定語(yǔ)氣標(biāo)注和否定語(yǔ)氣標(biāo)注兩類數(shù)據(jù)各至少5000個(gè)進(jìn)行人工打標(biāo)數(shù)據(jù);
步驟三、通過(guò)統(tǒng)一大小寫、標(biāo)點(diǎn)符號(hào),停用詞去除和單詞詞根提取對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,構(gòu)建支持向量機(jī)的訓(xùn)練集;
步驟四、通過(guò)調(diào)節(jié)參數(shù)和利用所獲得的訓(xùn)練數(shù)據(jù),訓(xùn)練支持向量機(jī);
步驟五、根據(jù)對(duì)話中明確的引用關(guān)系和關(guān)鍵詞共享,獲取對(duì)話歷史中的評(píng)價(jià)關(guān)系,明確評(píng)論者語(yǔ)句和被評(píng)價(jià)語(yǔ)句;
步驟六、根據(jù)評(píng)價(jià)者語(yǔ)句的觀點(diǎn)分?jǐn)?shù),以及評(píng)價(jià)者語(yǔ)句的正確性得分,對(duì)被評(píng)價(jià)的語(yǔ)句正確性進(jìn)行評(píng)估。
2.根據(jù)權(quán)利要求1所述的基于支持向量機(jī)的對(duì)話語(yǔ)句正確性評(píng)價(jià)方法,其特征在于,所述獲取步驟一中待標(biāo)注數(shù)據(jù)方法為:
(1)從錯(cuò)誤報(bào)告管理網(wǎng)站https://issues.apache.org/jira/secure/Dashboard.jspa上獲取關(guān)于bug的討論過(guò)程作為待標(biāo)注數(shù)據(jù),需要獲取至少10000個(gè)錯(cuò)誤報(bào)告中的討論內(nèi)容,討論內(nèi)容包括全部的錯(cuò)誤描述和討論內(nèi)容;
(2)對(duì)所獲取討論歷史進(jìn)行篩選,只保留狀態(tài)為“Closed”的錯(cuò)誤報(bào)告;
(3)根據(jù)符號(hào)‘,’,‘.’,‘?’,‘!’對(duì)語(yǔ)句進(jìn)行分句,其中,當(dāng)‘.’作為單詞的一部分出現(xiàn)時(shí),不作為劃分單元。
3.根據(jù)權(quán)利要求1所述的一種基于支持向量機(jī)的對(duì)話語(yǔ)句正確性評(píng)價(jià)方法,其特征在于,所述獲取步驟二中人工打標(biāo)數(shù)據(jù)方法為:
(1)對(duì)同一組數(shù)據(jù)進(jìn)行標(biāo)注,標(biāo)注內(nèi)容為肯定或者否定,標(biāo)注依據(jù)為句子中包含明確的肯定或者否定詞語(yǔ),不能明確判斷語(yǔ)氣的語(yǔ)句不作標(biāo)注并舍棄;
(2)根據(jù)所有標(biāo)注人員的標(biāo)注獲得語(yǔ)句的標(biāo)簽;語(yǔ)句被任一人員舍棄,則舍棄該語(yǔ)句;語(yǔ)句被所有人員同時(shí)認(rèn)定為肯定,則語(yǔ)句標(biāo)簽為肯定;被同時(shí)認(rèn)定為否定,則標(biāo)簽為否定,標(biāo)注人員出現(xiàn)意見(jiàn)不同的語(yǔ)句舍棄;
(3)具有肯定與否定標(biāo)簽的語(yǔ)句,應(yīng)分別不少于5000個(gè);如果少于,則轉(zhuǎn)步驟(1),直至肯定與否定標(biāo)簽分別達(dá)到5000個(gè);
(4)取肯定標(biāo)簽與否定標(biāo)簽的語(yǔ)句各5000個(gè)作為訓(xùn)練數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的一種基于支持向量機(jī)的對(duì)話語(yǔ)句正確性評(píng)價(jià)方法,其特征在于,所述步驟三中數(shù)據(jù)標(biāo)準(zhǔn)化方法為:
(1)將訓(xùn)練數(shù)據(jù)中所有單詞統(tǒng)一為小寫;
(2)去除標(biāo)點(diǎn)符號(hào),保留單詞內(nèi)部連接號(hào)、函數(shù)調(diào)用關(guān)系符號(hào)“.”;
(3)去除停用詞,停用詞列表使用RankNL提供的常用英文停用詞列表;
(3)統(tǒng)一單詞時(shí)態(tài),保持單詞詞根,單詞時(shí)態(tài)統(tǒng)一采用python中,nltk擴(kuò)展包中,stem函數(shù)實(shí)現(xiàn)。
5.根據(jù)權(quán)利要求1所述的一種基于支持向量機(jī)的對(duì)話語(yǔ)句正確性評(píng)價(jià)方法,其特征在于,所述步驟四中對(duì)支持向量機(jī)的參數(shù)設(shè)置與訓(xùn)練包括以下步驟:
(1)支持向量機(jī)使用python數(shù)據(jù)庫(kù)中,sklearn擴(kuò)展包中的svm組件來(lái)實(shí)現(xiàn),Python版本取3.5及以上;
(2)支持向量機(jī)的參數(shù)設(shè)置如下:
C=10.0,cache_size=200,class_weight=None,coef0=0.0,decision_function_shape=None,degree=3,gamma='auto',kernel='rbf',max_iter=-1,probability=True,random_state=None,shrinking=True,tol=0.001,verbose=False;
(3)將包含肯定標(biāo)簽與否定標(biāo)簽的語(yǔ)句各不少于5000個(gè)的訓(xùn)練數(shù)據(jù)輸入到支持向量機(jī)中,完成模型訓(xùn)練,并保存模型用作語(yǔ)句觀點(diǎn)評(píng)價(jià)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)人民解放軍國(guó)防科技大學(xué),未經(jīng)中國(guó)人民解放軍國(guó)防科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010792210.4/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置
- 對(duì)話控制裝置、對(duì)話控制方法以及記錄介質(zhì)
- 任務(wù)對(duì)話系統(tǒng)中的對(duì)話處理方法及裝置
- 一種人機(jī)對(duì)話的方法、裝置和存儲(chǔ)介質(zhì)
- 對(duì)話(中)獎(jiǎng)勵(lì)評(píng)估和對(duì)話方法、介質(zhì)、裝置和計(jì)算設(shè)備
- 一種對(duì)話方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 一種輔助英文對(duì)話的方法及系統(tǒng)
- 一種回復(fù)對(duì)話評(píng)分模型訓(xùn)練方法、對(duì)話回復(fù)方法及其裝置
- 一種多輪對(duì)話的問(wèn)題定位方法及裝置
- 文本對(duì)話方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 對(duì)話型文本分類方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)





