[發(fā)明專利]一種基于文本規(guī)則的公司簡稱識別方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710486058.5 | 申請日: | 2017-06-23 |
| 公開(公告)號: | CN107423285B | 公開(公告)日: | 2020-08-28 |
| 發(fā)明(設(shè)計)人: | 吳遠(yuǎn)輝 | 申請(專利權(quán))人: | 廣州市萬隆證券咨詢顧問有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/31 |
| 代理公司: | 廣州嘉權(quán)專利商標(biāo)事務(wù)所有限公司 44205 | 代理人: | 胡輝 |
| 地址: | 510600 廣東省廣州市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 文本 規(guī)則 公司 簡稱 識別 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于文本規(guī)則的公司簡稱識別方法及系統(tǒng),方法包括:根據(jù)需要識別的公司全稱,通過對應(yīng)的上市公司公告文本進(jìn)行簡稱抽取,得到待檢測簡稱,并對待檢測簡稱進(jìn)行有效性分析;根據(jù)需要識別的公司全稱,通過網(wǎng)絡(luò)搜索進(jìn)行簡稱識別。系統(tǒng)包括公告文本分析單元和搜索分析單元。本發(fā)明通過公告文本挖掘和網(wǎng)絡(luò)搜索規(guī)則相結(jié)合的方式進(jìn)行簡稱識別,從而在保證中文公司簡稱準(zhǔn)確率的同時,大大提高了查全率,有效提升識別效果。本發(fā)明可廣泛應(yīng)用于識別領(lǐng)域中。
技術(shù)領(lǐng)域
本發(fā)明涉及識別處理領(lǐng)域,尤其涉及一種基于文本規(guī)則的公司簡稱識別方法及系統(tǒng)。
背景技術(shù)
由于中文公司名稱命名的用字規(guī)律不強(qiáng),使用比較隨意,經(jīng)常以簡稱的形式出現(xiàn),如“中國銀行股份有限公司”經(jīng)常以簡稱的形式出現(xiàn),如“中國銀行”或“中行”,這為公司名的識別、應(yīng)用帶來了困難。
目前市面并沒有一套可以能查全率比較高的簡稱識別方法。一般中文公司簡稱識別的難點在于,在不同領(lǐng)域和場景下,命名簡稱的外延有差異,名稱變化頻繁,并且沒有嚴(yán)格的規(guī)律可以遵循,表達(dá)形式多樣,而且在中文文本的處理中,由于中文分詞效果很容易影響識別效果,導(dǎo)致識別準(zhǔn)確率較低。
發(fā)明內(nèi)容
為了解決上述技術(shù)問題,本發(fā)明的目的提供是一種能提高識別準(zhǔn)確率,基于文本規(guī)則的公司簡稱識別方法及系統(tǒng)。
本發(fā)明所采取的技術(shù)方案是:
一種基于文本規(guī)則的公司簡稱識別方法,包括以下步驟:
根據(jù)需要識別的公司全稱,通過對應(yīng)的上市公司公告文本進(jìn)行簡稱抽取,得到待檢測簡稱,并對待檢測簡稱進(jìn)行有效性分析;
根據(jù)需要識別的公司全稱,通過網(wǎng)絡(luò)搜索進(jìn)行簡稱識別。
作為所述的一種基于文本規(guī)則的公司簡稱識別方法的進(jìn)一步改進(jìn),所述的根據(jù)需要識別的公司全稱,通過對應(yīng)的證券公告文本進(jìn)行簡稱抽取,得到待檢測簡稱,并對待檢測簡稱進(jìn)行有效性分析,這一步驟具體包括:
根據(jù)需要識別的公司全稱,加載該公司的上市公司公告資訊文本;
從上市公司公告資訊文本中抽取含有該公司全稱的句子和段落,得到抽取樣本;
從抽取樣本中根據(jù)預(yù)設(shè)的抽取規(guī)則進(jìn)行簡稱抽取,并從上市公司公告資訊文本中根據(jù)預(yù)設(shè)的表格特征進(jìn)行簡稱抽取,得到若干的待檢測簡稱;
判斷待檢測簡稱是否有效,若是,則結(jié)束識別過程;反之,則繼續(xù)識別過程。
作為所述的一種基于文本規(guī)則的公司簡稱識別方法的進(jìn)一步改進(jìn),所述根據(jù)需要識別的公司全稱,通過網(wǎng)絡(luò)搜索進(jìn)行簡稱識別,這一步驟具體包括:
根據(jù)需要識別的公司全稱,結(jié)合預(yù)設(shè)的搜索規(guī)則進(jìn)行網(wǎng)絡(luò)搜索,得到網(wǎng)絡(luò)搜索結(jié)果;
對網(wǎng)絡(luò)搜索結(jié)果進(jìn)行分析,對每項網(wǎng)絡(luò)搜索結(jié)果的摘要進(jìn)行抽取;
根據(jù)預(yù)設(shè)的抽取規(guī)則,對得到的摘要進(jìn)行簡稱抽取,得到若干的待測公司簡稱;
對待測公司簡稱進(jìn)行數(shù)據(jù)清洗,得到并保存清洗后的公司簡稱。
本發(fā)明所采用的另一技術(shù)方案是:
一種基于文本規(guī)則的公司簡稱識別系統(tǒng),包括:
公告文本分析單元,用于根據(jù)需要識別的公司全稱,通過對應(yīng)的上市公司公告文本進(jìn)行簡稱抽取,得到待檢測簡稱,并對待檢測簡稱進(jìn)行有效性分析;
搜索分析單元,用于根據(jù)需要識別的公司全稱,通過網(wǎng)絡(luò)搜索進(jìn)行簡稱識別。
作為所述的一種基于文本規(guī)則的公司簡稱識別系統(tǒng)的進(jìn)一步改進(jìn),所述公告文本分析單元具體包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州市萬隆證券咨詢顧問有限公司,未經(jīng)廣州市萬隆證券咨詢顧問有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710486058.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 規(guī)則發(fā)現(xiàn)程序、規(guī)則發(fā)現(xiàn)處理和規(guī)則發(fā)現(xiàn)裝置
- 不規(guī)則瓶蓋
- 相關(guān)規(guī)則分析裝置以及相關(guān)規(guī)則分析方法
- 分析規(guī)則調(diào)整裝置、分析規(guī)則調(diào)整系統(tǒng)以及分析規(guī)則調(diào)整方法
- 規(guī)則抽取方法和規(guī)則抽取設(shè)備
- 終端規(guī)則引擎裝置、終端規(guī)則運(yùn)行方法
- 布(規(guī)則)
- 規(guī)則呈現(xiàn)方法、存儲介質(zhì)和規(guī)則呈現(xiàn)裝置
- 可編寫規(guī)則配置模塊、規(guī)則生成系統(tǒng)、及規(guī)則管理平臺
- 不規(guī)則圍棋





