[發(fā)明專利]企業(yè)名稱識別方法、電子設(shè)備及計算機可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201710960222.1 | 申請日: | 2017-10-16 |
| 公開(公告)號: | CN107797989A | 公開(公告)日: | 2018-03-13 |
| 發(fā)明(設(shè)計)人: | 徐冰;汪偉;肖京 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/04 |
| 代理公司: | 深圳市沃德知識產(chǎn)權(quán)代理事務(wù)所(普通合伙)44347 | 代理人: | 高杰,于志光 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 企業(yè)名稱 識別 方法 電子設(shè)備 計算機 可讀 存儲 介質(zhì) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計算機信息技術(shù)領(lǐng)域,尤其涉及一種企業(yè)名稱識別方法、電子設(shè)備及計算機可讀存儲介質(zhì)。
背景技術(shù)
輿情分析需要把財經(jīng)新聞結(jié)構(gòu)化,其中第一步是識別新聞中的企業(yè)實體。傳統(tǒng)的自然語言處理技術(shù)一般采用條件隨機場或者隱式馬爾科夫模型進行序列建模,但是,這些方法非常依賴于特征的選取、泛化能力很弱。故,現(xiàn)有技術(shù)中的企業(yè)名稱識別方法設(shè)計不夠合理,亟需改進。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提出一種企業(yè)名稱識別方法、電子設(shè)備及計算機可讀存儲介質(zhì),通過LSTM+CRF模型的結(jié)合,自動提取有效特征,并且在識別企業(yè)名稱時能夠利用上下文信息,在打標簽的階段有效利用了句子級別的標記信息,提高了識別精確度與召回率。
首先,為實現(xiàn)上述目的,本發(fā)明提出一種電子設(shè)備,所述電子設(shè)備包括存儲器和處理器,所述存儲器上存儲有可在所述處理器上運行的企業(yè)名稱識別系統(tǒng),所述企業(yè)名稱識別系統(tǒng)被所述處理器執(zhí)行時實現(xiàn)如下步驟:
接收輸入的特定文字序列;
將所述特定文字序列中的每個漢字轉(zhuǎn)化為對應(yīng)的詞向量,并將轉(zhuǎn)化后的詞向量輸入至遞歸神經(jīng)網(wǎng)絡(luò);
通過所述遞歸神經(jīng)網(wǎng)絡(luò)計算每個詞向量的狀態(tài)向量,并將每個詞向量的狀態(tài)向量輸入至條件隨機場;
通過特定的回歸模型將每個詞向量的狀態(tài)向量轉(zhuǎn)換成特征向量,并利用所述條件隨機場和預(yù)先設(shè)定的三元標注規(guī)則,對每個詞向量的特征向量進行解碼,得到所述特定文字序列中所有漢字的三元標注集,并通過最佳標簽序列輸出所有漢字的三元標注集;及
根據(jù)所述預(yù)先設(shè)定的三元標注規(guī)則,從所述最佳標簽序列中識別出特定企業(yè)名稱。
優(yōu)選地,所述預(yù)先設(shè)定的三元標注規(guī)則包括:通過第一標簽表示企業(yè)名稱的第一個漢字,第二標簽表示企業(yè)名稱的剩余漢字,及第三標簽表示不屬于企業(yè)名稱的漢字。
優(yōu)選地,所述狀態(tài)向量包括第一隱藏層狀態(tài)向量和第二隱藏層狀態(tài)向量;
所述狀態(tài)向量的計算包括:
調(diào)用所述遞歸神經(jīng)網(wǎng)絡(luò)的雙向長短期記憶模塊,從左向右根據(jù)當(dāng)前詞向量的前一個詞向量的隱藏層狀態(tài)向量計算當(dāng)前詞向量的第一隱藏層狀態(tài)向量,并從右向左根據(jù)當(dāng)前詞向量的后一個詞向量的隱藏層狀態(tài)向量計算當(dāng)前詞向量的第二隱藏層狀態(tài)向量。
所述特征向量的計算包括:通過所述特定的回歸模型將每個詞向量對應(yīng)的第一隱藏層狀態(tài)向量和第二隱藏層狀態(tài)向量進行合并,得到每個詞向量的特征向量。
優(yōu)選地,所述最佳標簽序列通過預(yù)定的標簽序列計算公式獲取,所述預(yù)定的標簽序列計算公式設(shè)置為:
其中,X代表每個詞向量的特征向量,y代表待預(yù)測的標簽序列,n代表所述特定文字序列中的漢字個數(shù),i代表所述特定文字序列中的第i個漢字;
A代表狀態(tài)轉(zhuǎn)移矩陣,Ayi,yi+1代表從第yi個標簽轉(zhuǎn)移到第yi+1個標簽的概率,Pi,yi代表第i個漢字被標記為第yi個標簽的概率;及
s(X,y)代表衡量每條標簽序列的指標,通過最大化s(X,y)得到所述最佳標簽序列。
優(yōu)選地,所述特定企業(yè)名稱的識別包括:從所述最佳標簽序列中提取連續(xù)標注的第一標簽和所有第二標簽對應(yīng)的漢字,將提取的漢字作為特定企業(yè)名稱。
此外,為實現(xiàn)上述目的,本發(fā)明還提供一種企業(yè)名稱識別方法,該方法應(yīng)用于電子設(shè)備,所述方法包括:
接收輸入的特定文字序列;
將所述特定文字序列中的每個漢字轉(zhuǎn)化為對應(yīng)的詞向量,并將轉(zhuǎn)化后的詞向量輸入至遞歸神經(jīng)網(wǎng)絡(luò);
通過所述遞歸神經(jīng)網(wǎng)絡(luò)計算每個詞向量的狀態(tài)向量,并將每個詞向量的狀態(tài)向量輸入至條件隨機場;
通過特定的回歸模型將每個詞向量的狀態(tài)向量轉(zhuǎn)換成特征向量,并利用所述條件隨機場和預(yù)先設(shè)定的三元標注規(guī)則,對每個詞向量的特征向量進行解碼,得到所述特定文字序列中所有漢字的三元標注集,并通過最佳標簽序列輸出所有漢字的三元標注集;及
根據(jù)所述預(yù)先設(shè)定的三元標注規(guī)則,從所述最佳標簽序列中識別出特定企業(yè)名稱。
優(yōu)選地,所述預(yù)先設(shè)定的三元標注規(guī)則包括:通過第一標簽表示企業(yè)名稱的第一個漢字,第二標簽表示企業(yè)名稱的剩余漢字,及第三標簽表示不屬于企業(yè)名稱的漢字。
優(yōu)選地,所述最佳標簽序列通過預(yù)定的標簽序列計算公式獲取,所述預(yù)定的標簽序列計算公式設(shè)置為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710960222.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種從企業(yè)名稱數(shù)據(jù)中提取區(qū)域信息的方法及系統(tǒng)
- 一種規(guī)范企業(yè)名稱的方法
- 中文企業(yè)名稱的識別方法
- 企業(yè)名稱相似度識別方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 關(guān)聯(lián)圖譜構(gòu)建方法、裝置、計算機設(shè)備、及存儲介質(zhì)
- 企業(yè)關(guān)聯(lián)風(fēng)險預(yù)警方法及系統(tǒng)
- 一種企業(yè)名稱識別方法及裝置
- 企業(yè)名稱匹配方法和裝置、以及存儲介質(zhì)和電子設(shè)備
- 企業(yè)名稱查重方法及裝置
- 企業(yè)名稱檢索方法、企業(yè)名稱檢索裝置及終端設(shè)備





