[發明專利]個股和文章關聯度的計算方法及其系統在審
| 申請號: | 201610050955.7 | 申請日: | 2016-01-26 |
| 公開(公告)號: | CN105740353A | 公開(公告)日: | 2016-07-06 |
| 發明(設計)人: | 陳發君;黃金才;劉忠;程光權;朱承;修保新;陳超;馮旸赫 | 申請(專利權)人: | 中國人民解放軍國防科學技術大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京中濟緯天專利代理有限公司 11429 | 代理人: | 陳立新 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 個股 文章 關聯 計算方法 及其 系統 | ||
1.個股和文章關聯度的計算方法,其特征在于,包括以下步驟:
S1.數據獲取
實時的從互聯網上爬取獲取財經類新聞作為語料并存檔入庫;
S2.關聯度分析
分析實時獲取的語料中的個股與文章的關聯關系,計算關聯度;
S3.熱度分析
按日匯總個股與文章的關聯度即個股的熱度;
S4.情感分析
分析實時獲取的語料中的個股情感;
S5.數據存儲
將關聯度分析、熱度分析和情感分析的結果存入mysql數據庫中;
S6.數據檢索
通過WebService對終端用戶提供查詢接口,用戶輸入個股信息,返回個股關聯的文章及關聯度、個股情感和個股熱度信息。
2.根據權利要求1所述的個股和文章關聯度的計算方法,其特征在于,所述步驟S2中關聯度的計算方法為:
S2.1獲取語料并區分標題和內容,分詞并計算各個詞的提及數;
S2.2對于個股A和新聞N,其關聯度計算如下:
S2.2.1記個股A的代碼、同義詞、簡稱、全稱在新聞N的標題和內容中出現的次數分別為nat_id、nat_syn、nat_short、nat_long和nct_id、nct_syn、nct_short、nct_long;記股票關鍵字字典為Stocks;記需要股票代碼和簡稱一塊出現的個股字典為codeAndName;
S2.2.2計算個股A和標題的關聯度assetTitleRel:
1)如果標題中沒有包含股票關鍵字字典Stocks中的詞,并且個股簡稱和代碼沒有同時在標題中出現,則assetTitleRel=(nat_syn+nat_long)*2;
2)如果標題中沒有包含股票關鍵字字典Stocks中的詞,并且個股簡稱和代碼同時在標題中出現,assetTitleRel=(nat_syn+nat_long+nat_id+nat_short)*2;
3)如果標題中包含股票關鍵字字典Stocks中的詞,并且個股A不在codeAndName中,則assetTitleRel=(nat_syn+nat_long+nat_short)*2;
4)如果標題中包含股票關鍵字字典Stocks中的詞,并且個股A在codeAndName中,同時個股簡稱和代碼沒有同時在標題中出現,則assetTitleRel=(nat_syn+nat_long)*2;
5)如果標題中包含股票關鍵字字典Stocks中的詞,并且個股A在codeAndName中,同時個股簡稱和代碼同時在標題中出現,則assetTitleRel=(nat_syn+nat_long+nat_id+nat_short)*2;
S2.2.3計算個股A和內容的關聯度assetContentRel:
1)如果內容中沒有包含股票關鍵字字典Stocks中的詞,并且個股簡稱和代碼沒有同時在內容中出現,則assetContentRel=(nac_syn+nac_long)*2;
2)如果內容中沒有包含股票關鍵字字典Stocks中的詞,并且個股簡稱和代碼同時在內容中出現,assetContentRel=(nac_syn+nac_long+nac_id+nac_short)*2;
3)如果內容中包含股票關鍵字字典Stocks中的詞,并且個股A不在codeAndName中,則assetContentRel=(nac_syn+nac_long+nac_short)*2;
4)如果內容中包含股票關鍵字字典Stocks中的詞,并且個股A在codeAndName中,同時個股簡稱和代碼沒有同時在內容中出現,則assetContentRel=(nac_syn+nac_long)*2;
5)如果內容中包含股票關鍵字字典Stocks中的詞,并且個股A在codeAndName中,同時個股簡稱和代碼同時在內容中出現,則
assetContentRel=(nac_syn+nac_long+nac_id+nac_short)*2;
S.2.4個股A和新聞N的關聯度assetRel等于個股A與標題關聯度加上個股A與內容關聯度,即assetRel=assetTitleRel+assetContentRel。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科學技術大學,未經中國人民解放軍國防科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610050955.7/1.html,轉載請聲明來源鉆瓜專利網。





