[發明專利]一種基于文本規則的公司簡稱識別方法及系統有效
| 申請號: | 201710486058.5 | 申請日: | 2017-06-23 |
| 公開(公告)號: | CN107423285B | 公開(公告)日: | 2020-08-28 |
| 發明(設計)人: | 吳遠輝 | 申請(專利權)人: | 廣州市萬隆證券咨詢顧問有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/31 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 胡輝 |
| 地址: | 510600 廣東省廣州市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 規則 公司 簡稱 識別 方法 系統 | ||
1.一種基于文本規則的公司簡稱識別方法,其特征在于,包括以下步驟:
根據需要識別的公司全稱,通過對應的上市公司公告文本進行簡稱抽取,得到待檢測簡稱,并對待檢測簡稱進行有效性分析;
根據需要識別的公司全稱,通過網絡搜索進行簡稱識別;
所述的根據需要識別的公司全稱,通過對應的證券公告文本進行簡稱抽取,得到待檢測簡稱,并對待檢測簡稱進行有效性分析,這一步驟具體包括:
根據需要識別的公司全稱,加載該公司的上市公司公告資訊文本;
從上市公司公告資訊文本中抽取含有該公司全稱的句子和段落,得到抽取樣本;
從抽取樣本中根據預設的抽取規則進行簡稱抽取,并從上市公司公告資訊文本中根據預設的表格特征進行簡稱抽取,得到若干的待檢測簡稱;
判斷待檢測簡稱是否有效,若是,則結束識別過程;反之,則繼續識別過程。
2.根據權利要求1所述的一種基于文本規則的公司簡稱識別方法,其特征在于:所述根據需要識別的公司全稱,通過網絡搜索進行簡稱識別,這一步驟具體包括:
根據需要識別的公司全稱,結合預設的搜索規則進行網絡搜索,得到網絡搜索結果;
對網絡搜索結果進行分析,對每項網絡搜索結果的摘要進行抽?。?/p>
根據預設的抽取規則,對得到的摘要進行簡稱抽取,得到若干的待測公司簡稱;
對待測公司簡稱進行數據清洗,得到并保存清洗后的公司簡稱。
3.一種基于文本規則的公司簡稱識別系統,其特征在于,包括:
公告文本分析單元,用于根據需要識別的公司全稱,通過對應的上市公司公告文本進行簡稱抽取,得到待檢測簡稱,并對待檢測簡稱進行有效性分析;
搜索分析單元,用于根據需要識別的公司全稱,通過網絡搜索進行簡稱識別;
所述公告文本分析單元具體包括:
公告加載單元,用于根據需要識別的公司全稱,加載該公司的上市公司公告資訊文本;
樣本抽取單元,用于從上市公司公告資訊文本中抽取含有該公司全稱的句子和段落,得到抽取樣本;
簡稱抽取單元,用于從抽取樣本中根據預設的抽取規則進行簡稱抽取,并從上市公司公告資訊文本中根據預設的表格特征進行簡稱抽取,得到若干的待檢測簡稱;
簡稱檢測單元,用于判斷待檢測簡稱是否有效,若是,則結束識別過程;反之,則繼續識別過程。
4.根據權利要求3所述的一種基于文本規則的公司簡稱識別系統,其特征在于:所述搜索分析單元具體包括:
搜索單元,用于根據需要識別的公司全稱,結合預設的搜索規則進行網絡搜索,得到網絡搜索結果;
摘要抽取單元,用于對網絡搜索結果進行分析,對每項網絡搜索結果的摘要進行抽取;
簡稱分析單元,用于根據預設的抽取規則,對得到的摘要進行簡稱抽取,得到若干的待測公司簡稱;
數據清洗單元,用于對待測公司簡稱進行數據清洗,得到并保存清洗后的公司簡稱。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州市萬隆證券咨詢顧問有限公司,未經廣州市萬隆證券咨詢顧問有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710486058.5/1.html,轉載請聲明來源鉆瓜專利網。





