[發(fā)明專利]利用新詞發(fā)現(xiàn)投資標的的方法、裝置及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201711059221.6 | 申請日: | 2017-11-01 |
| 公開(公告)號: | CN108038119A | 公開(公告)日: | 2018-05-15 |
| 發(fā)明(設(shè)計)人: | 汪偉;羅傲雪;陳一戀;王曉偉 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 深圳市沃德知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44347 | 代理人: | 于志光;郭夢霞 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 利用 新詞 發(fā)現(xiàn) 投資 標的 方法 裝置 存儲 介質(zhì) | ||
1.一種利用新詞發(fā)現(xiàn)投資標的的方法,應(yīng)用于電子裝置,其特征在于,該方法包括:
S1、對語料庫中的語料進行預(yù)處理,得到語料文本數(shù)據(jù),形成語料文本集;
S2、讀取一條經(jīng)過預(yù)處理的語料文本,對該語料文本進行分詞及去停用詞處理,得到該語料文本的多個詞段;
S3、對該語料文本相鄰的詞段進行匯聚,將相鄰的詞段組合成待定新詞,構(gòu)成該語料文本的待定新詞集合;
S4、根據(jù)該語料文本中每個待定新詞的詞頻、凝固度及自由度與預(yù)設(shè)閾值的比較結(jié)果,篩選出該語料文本真正的新詞;及
S5、計算篩選出的新詞與公司名稱在語料庫中的互信息值,提取互信息值滿足預(yù)設(shè)條件的公司名稱及新詞作為參考投資標的。
2.如權(quán)利要求1所述的利用新詞發(fā)現(xiàn)投資標的的方法,其特征在于,所述步驟S1中的預(yù)處理包括:將語料庫中語料的格式統(tǒng)一為文本格式,從語料中去除廣告噪聲。
3.如權(quán)利要求1所述的利用新詞發(fā)現(xiàn)投資標的的方法,其特征在于,所述對該語料文本進行分詞的方法包括:基于字符串匹配的分詞方法、基于理解的分詞方法、基于統(tǒng)計的分詞方法及基于詞典的分詞方法。
4.如權(quán)利要求1或2或3所述的利用新詞發(fā)現(xiàn)投資標的的方法,其特征在于,所述步驟S4包括:
S41、計算該語料文本的每個待定新詞的詞頻,篩選出詞頻大于第一預(yù)設(shè)閾值的待定新詞;
S42、計算步驟S41篩選出的每個待定新詞的凝固度,從中篩選出凝固度大于第二預(yù)設(shè)閾值的待定新詞;及
S43、計算步驟S42篩選出的每個待定新詞的自由度,從中篩選出自由度大于第三預(yù)設(shè)閾值的待定新詞作為該語料文本的真正新詞。
5.如權(quán)利要求4所述的利用新詞發(fā)現(xiàn)投資標的的方法,其特征在于,所述“計算步驟S42篩選出的每個待定新詞的自由度”的步驟包括:
分別計算通過步驟S42篩選出的每個待定新詞的左鄰字信息熵和右鄰字信息熵;及
取每個待定新詞的左鄰字信息熵和右鄰字信息熵中的較小值,作為該待定新詞的自由度。
6.一種電子裝置,其特征在于,該裝置包括:存儲器、處理器,所述存儲器上存儲有可在所述處理器上運行的利用新詞發(fā)現(xiàn)投資標的的程序,該程序被所述處理器執(zhí)行時實現(xiàn)如下步驟:
A1、對語料庫中的語料進行預(yù)處理,得到語料文本數(shù)據(jù),形成語料文本集;
A2、讀取一條經(jīng)過預(yù)處理的語料文本,對該語料文本進行分詞及去停用詞處理,得到該語料文本的多個詞段;
A3、對該語料文本相鄰的詞段進行匯聚,將相鄰的詞段組合成待定新詞,構(gòu)成該語料文本的待定新詞集合;
A4、根據(jù)該語料文本中每個待定新詞的詞頻、凝固度及自由度與預(yù)設(shè)閾值的比較結(jié)果,篩選出該語料文本真正的新詞;及
A5、計算篩選出的新詞與公司名稱在語料庫中的互信息值,提取互信息值滿足預(yù)設(shè)條件的公司名稱及新詞作為參考投資標的。
7.根據(jù)權(quán)利要求6所述的電子裝置,其特征在于,所述步驟A1中的預(yù)處理包括:將語料庫中語料的格式統(tǒng)一為文本格式,從新聞?wù)Z料中去除廣告噪聲;
所述對該語料文本進行分詞的方法包括:基于字符串匹配的分詞方法、基于理解的分詞方法、基于統(tǒng)計的分詞方法及基于詞典的分詞方法。
8.根據(jù)權(quán)利要求6或7所述的電子裝置,其特征在于,所述步驟A4包括:
A41、計算該語料文本的每個待定新詞的詞頻,篩選出詞頻大于第一預(yù)設(shè)閾值的待定新詞;
A42、計算步驟A41篩選出的每個待定新詞的凝固度,從中篩選出凝固度大于第二預(yù)設(shè)閾值的待定新詞;及
A43、計算步驟A42篩選出的每個待定新詞的自由度,從中篩選出自由度大于第三預(yù)設(shè)閾值的待定新詞作為該語料文本的真正新詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711059221.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 知識發(fā)現(xiàn)裝置、知識發(fā)現(xiàn)程序和知識發(fā)現(xiàn)方法
- 規(guī)則發(fā)現(xiàn)程序、規(guī)則發(fā)現(xiàn)處理和規(guī)則發(fā)現(xiàn)裝置
- 發(fā)現(xiàn)協(xié)議
- 對等發(fā)現(xiàn)
- 小區(qū)發(fā)現(xiàn)
- 漏洞發(fā)現(xiàn)裝置、漏洞發(fā)現(xiàn)方法以及漏洞發(fā)現(xiàn)程序
- 使用發(fā)現(xiàn)節(jié)點的設(shè)備發(fā)現(xiàn)
- 漏洞發(fā)現(xiàn)裝置、漏洞發(fā)現(xiàn)方法以及存儲介質(zhì)
- 用于提供虛擬場景的裝置及方法
- 接入語音服務(wù)的方法、裝置和數(shù)據(jù)載體





