[發(fā)明專利]一種面向機(jī)械化工領(lǐng)域的中文實(shí)體識別方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110588878.1 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113408286A | 公開(公告)日: | 2021-09-17 |
| 發(fā)明(設(shè)計)人: | 高楠;朱象宇 | 申請(專利權(quán))人: | 浙江工業(yè)大學(xué) |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/216 |
| 代理公司: | 杭州天正專利事務(wù)所有限公司 33201 | 代理人: | 王兵 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 機(jī)械 化工 領(lǐng)域 中文 實(shí)體 識別 方法 系統(tǒng) | ||
1.一種面向機(jī)械化工領(lǐng)域的中文實(shí)體識別方法,包含如下步驟:
(1)采取短文本預(yù)處理來提取有效內(nèi)容;
(2)采用經(jīng)過詞典優(yōu)化的中文分詞器進(jìn)行中文分詞和詞性標(biāo)注篩選出名詞;
(3)利用詞頻與類優(yōu)先級函數(shù)所構(gòu)成的權(quán)重函數(shù)用作權(quán)重計算同時基于規(guī)則式優(yōu)化加權(quán)提取短文本最高權(quán)重關(guān)鍵詞;
(4)搜索權(quán)重最高關(guān)鍵詞的上下文同時基于構(gòu)建的有向概率狀態(tài)轉(zhuǎn)化圖來進(jìn)行關(guān)鍵詞的上下文擴(kuò)展從而形成目標(biāo)實(shí)體。
2.如權(quán)利要求1所述的一種面向機(jī)械化工領(lǐng)域的中文實(shí)體識別方法,其特征在于:步驟(1)所述的短文本預(yù)處理具體包括:
(1-1)文本正則;為了處理臟數(shù)據(jù),文本正則包括純中文的提取并且無視短文本所有括號中的內(nèi)容,其中括號內(nèi)容為特殊注釋,對實(shí)體識別無明顯作用故舍去;
(1-2)特殊詞的處理;機(jī)械化工類短文本含有包含了產(chǎn)品名稱和產(chǎn)品型號的獨(dú)有的特征,“型號”、“規(guī)格”、“規(guī)格型號”的詞能幫助快速直接定位目標(biāo)產(chǎn)品實(shí)體所在的位置,在定位型號的位置后只需在上下文尋找產(chǎn)品名稱即可,即直接將上下文作為候選關(guān)鍵詞,能減少在關(guān)鍵詞提取步驟中的消耗,無需將短文本中的全部名詞當(dāng)作候選關(guān)鍵詞去使用權(quán)重公式,或者直接當(dāng)作步驟(3)中的規(guī)則式,能提高識別準(zhǔn)確率。
3.如權(quán)利要求1所述的一種面向機(jī)械化工領(lǐng)域的中文實(shí)體識別方法,其特征在于:步驟(2)所述的詞典優(yōu)化是對于中文分詞器的詞典優(yōu)化,包括添加停止詞和自定義詞典、根據(jù)識別結(jié)果統(tǒng)計更新語料庫。
4.如權(quán)利要求1所述的一種面向機(jī)械化工領(lǐng)域的中文實(shí)體識別方法,其特征在于:步驟(3)所述的提取關(guān)鍵詞所使用的權(quán)重函數(shù),提取關(guān)鍵詞策略為基于TF-IDF關(guān)鍵詞提取策略的增強(qiáng)改進(jìn)版,TF-IDF策略為常用文本分類統(tǒng)計方法,詞頻*逆向文件頻率作為加權(quán)即tfi,j*idfi;其中:
因?yàn)槟嫦蛭募l率idfi在短文本中的提取識別效率極低,故用類優(yōu)先級函數(shù)
作為替代,權(quán)重函數(shù)則優(yōu)化為tfi,j*f(t),其中
t=實(shí)體為最終關(guān)鍵詞個數(shù)/該實(shí)體在全部短文本中作為候選關(guān)鍵詞個數(shù),即
t代表了候選關(guān)鍵詞成為最終詞的強(qiáng)度,理想范圍為[0,1],當(dāng)t→0時,代表該詞不可能成為最終詞,當(dāng)t→1時代表了該詞出現(xiàn)必然為最終詞,因而利用函數(shù)變化通過f(t)在不影響函數(shù)實(shí)際作用凹凸性的情況下將范圍放大,使權(quán)重差距變大從而更利于體現(xiàn)t的作用,其核心目標(biāo)為提高最終關(guān)鍵詞命中概率,常數(shù)1.01是為了防止實(shí)際運(yùn)行中出現(xiàn)除數(shù)為0的情況;
在實(shí)際運(yùn)行中當(dāng)出現(xiàn)t1的情況,進(jìn)行范圍修正,范圍修正為將所有t除以tmax從而保證范圍t=1。
5.如權(quán)利要求1所述的一種面向機(jī)械化工領(lǐng)域的中文實(shí)體識別方法,其特征在于:步驟(3)所述的規(guī)則式優(yōu)化加權(quán)具體包括:
因?yàn)閒(t)為全監(jiān)督學(xué)習(xí),當(dāng)訓(xùn)練集太過紊亂導(dǎo)致f(t)存在明顯誤差,實(shí)際情況一個短文本可能包含多個最終關(guān)鍵詞,或t不存在時,即代表了該詞未曾出現(xiàn),此時類優(yōu)先級函數(shù)無效;此時采取規(guī)則式優(yōu)化加權(quán),其中規(guī)則式包含但不僅限于利用結(jié)果集聚類產(chǎn)生的某一特征,包括產(chǎn)品實(shí)體占據(jù)短文本的相對位置、產(chǎn)品實(shí)體的字符大小范圍;
設(shè)有n個規(guī)則式,結(jié)果集符合規(guī)則式的占取百分比分別為x1,x2,x3,……x1,當(dāng)xn0.5時,則認(rèn)為該規(guī)則式具有較大實(shí)用性,在權(quán)重函數(shù)的基礎(chǔ)上增加權(quán)重
其中C為常數(shù),實(shí)際上代表了規(guī)則式在總權(quán)重的占比,默認(rèn)置為1/n,在資源足夠時為了達(dá)到較優(yōu)的常數(shù)C,使用部分運(yùn)行結(jié)果基于梯度下降求得較優(yōu)解,特征值為兩部分分別為權(quán)重函數(shù)和加權(quán)函數(shù);加權(quán)函數(shù)本質(zhì)上為sigmoid激活函數(shù)的逆函數(shù),故實(shí)際上當(dāng)xn0.5也可參與優(yōu)化加權(quán)但影響不佳,可發(fā)現(xiàn)當(dāng)xn0.5也時加權(quán)函數(shù)為負(fù),為減少運(yùn)行成本考慮舍去。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江工業(yè)大學(xué),未經(jīng)浙江工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110588878.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





