[發(fā)明專利]一種股票資訊新聞中心詞和相關(guān)股票的關(guān)聯(lián)度量方法在審
| 申請(qǐng)?zhí)枺?/td> | 201811318217.1 | 申請(qǐng)日: | 2018-11-07 |
| 公開(公告)號(hào): | CN109508386A | 公開(公告)日: | 2019-03-22 |
| 發(fā)明(設(shè)計(jì))人: | 王家華;薛醒思;詹先銀;朱鐘元;范淑娟;劉艷萍;楊瑩 | 申請(qǐng)(專利權(quán))人: | 福建工程學(xué)院 |
| 主分類號(hào): | G06F16/36 | 分類號(hào): | G06F16/36;G06F16/35;G06F16/9535 |
| 代理公司: | 福州市鼓樓區(qū)京華專利事務(wù)所(普通合伙) 35212 | 代理人: | 林曉琴 |
| 地址: | 350000 福建省福州*** | 國(guó)省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 股票資訊 頻繁項(xiàng)集 關(guān)聯(lián)度 新聞關(guān)鍵詞 股票 事務(wù)數(shù)據(jù)庫(kù) 關(guān)聯(lián)規(guī)則 數(shù)據(jù)庫(kù) 讀取 計(jì)算效率 挖掘算法 真子集 中心詞 補(bǔ)集 預(yù)備 | ||
本發(fā)明提供一種股票資訊新聞關(guān)鍵詞和相關(guān)股票的關(guān)聯(lián)度量方法,包括:步驟S10、讀取預(yù)備的股票資訊新聞文件中的數(shù)據(jù),并構(gòu)造事務(wù)數(shù)據(jù)庫(kù)D;步驟S20、從事務(wù)數(shù)據(jù)庫(kù)D中窮盡所有的頻繁項(xiàng)集,并生成頻繁項(xiàng)集數(shù)據(jù)庫(kù)L與頻繁項(xiàng)集組Lk;步驟S30、從所述頻繁項(xiàng)集Fk,m計(jì)算出有共現(xiàn)關(guān)系的若干個(gè)關(guān)聯(lián)規(guī)則α→β,項(xiàng)集α為Fk.m的非空真子集,項(xiàng)集β為所述項(xiàng)集α關(guān)于所述頻繁項(xiàng)集Fk.m的補(bǔ)集,并將所述關(guān)聯(lián)規(guī)則α→β歸入詞共現(xiàn)數(shù)據(jù)庫(kù)。本發(fā)明的股票資訊新聞關(guān)鍵詞和相關(guān)股票的關(guān)聯(lián)度量方法通過(guò)挖掘算法對(duì)股票資訊新聞關(guān)鍵詞和相關(guān)股票在不同新聞中出現(xiàn)的次數(shù)進(jìn)行計(jì)數(shù),使用關(guān)聯(lián)度公式進(jìn)行股票資訊新聞關(guān)鍵詞與相關(guān)股票的關(guān)聯(lián)度量,計(jì)算效率高,快捷可靠。
技術(shù)領(lǐng)域
本發(fā)明涉及股票數(shù)據(jù)發(fā)挖掘技術(shù)領(lǐng)域,具體地涉及一種股票資訊新聞中心詞和相關(guān)股票的關(guān)聯(lián)度量方法。
背景技術(shù)
項(xiàng)的集合稱為項(xiàng)集;包含k個(gè)項(xiàng)的項(xiàng)集稱為k-項(xiàng)集;支持度大于最小支持度閾值的項(xiàng)集為頻繁項(xiàng)集;項(xiàng)集的出項(xiàng)頻率是包含項(xiàng)集的事務(wù)數(shù),簡(jiǎn)稱為項(xiàng)集的頻率,支持度計(jì)數(shù)或計(jì)數(shù)。關(guān)聯(lián)規(guī)則是形如X→Y的蘊(yùn)涵式,其中,X和Y分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)和后繼。
隨著信息技術(shù)的飛速發(fā)展和網(wǎng)絡(luò)的普及,各類有關(guān)股票的新聞信息急速膨脹。如何從海量信息中迅速、準(zhǔn)確地獲取出所需要的有用信息就成為了一個(gè)難題[1]。為了能夠有效的組織和管理每時(shí)每刻都在積累更新的大量新聞數(shù)據(jù),需要對(duì)其內(nèi)容進(jìn)行標(biāo)注以實(shí)現(xiàn)結(jié)構(gòu)化[2]。考慮到手工標(biāo)注新聞的耗時(shí)性,準(zhǔn)確簡(jiǎn)便地對(duì)海量的資訊新聞進(jìn)行自動(dòng)標(biāo)注成為市場(chǎng)的需要。而要完成股票資訊新聞自動(dòng)標(biāo)注,需要構(gòu)建一個(gè)存儲(chǔ)中心詞和相關(guān)股票存在共現(xiàn)關(guān)系的“同義詞”語(yǔ)料庫(kù)。那么在“同義詞”語(yǔ)料庫(kù)的構(gòu)建中,度量股票資訊新聞中心詞與相關(guān)股票是否存在關(guān)聯(lián)關(guān)系是實(shí)現(xiàn)股票資訊新聞自動(dòng)標(biāo)注的一個(gè)關(guān)鍵問題。
近年來(lái),國(guó)內(nèi)外對(duì)詞關(guān)聯(lián)度計(jì)算的研究大體可以分為以下兩類:1)根據(jù)語(yǔ)義知識(shí)庫(kù)來(lái)進(jìn)行詞關(guān)聯(lián)度的計(jì)算;2)根據(jù)大規(guī)模的語(yǔ)料庫(kù)來(lái)進(jìn)行詞關(guān)聯(lián)度的計(jì)算。
Rada和J.H.Lee等通過(guò)計(jì)算在WordNet中詞節(jié)點(diǎn)之間上下位關(guān)系構(gòu)成的最短路徑來(lái)計(jì)算英文詞語(yǔ)之間的相似度[3-4]。P.Resnik根據(jù)兩個(gè)詞的公共祖先節(jié)點(diǎn)的最大信息量來(lái)衡量?jī)蓚€(gè)英文詞語(yǔ)的語(yǔ)義相似度[5]。E.Agirre和G.Rigau在利用WordNet計(jì)算英文詞語(yǔ)的語(yǔ)義相似度時(shí),除了節(jié)點(diǎn)間的路徑長(zhǎng)度外,還考慮到了其他一些因素,例如,概念層次樹的深度,概念層次數(shù)的區(qū)域密度等[6]。在漢語(yǔ)詞語(yǔ)相似度計(jì)算研究方面,王斌采用樹形圖中節(jié)點(diǎn)之間路徑的方法[7],利用《同義詞詞林》來(lái)計(jì)算漢語(yǔ)詞語(yǔ)之間的相似度。劉群等人提出一種基于《知網(wǎng)》的詞匯相似度計(jì)算方法[8]。L.Su-jian等人提出了一種綜合利用了《知網(wǎng)》和《同義詞詞林》來(lái)計(jì)算漢語(yǔ)詞語(yǔ)相似度的方法[9]。在義原相似度的計(jì)算過(guò)程中,不僅考慮了義原之間的上下文關(guān)系,還考慮了義原之間的其他關(guān)系。
L.Lillian利用相關(guān)熵,P.Brown等人采用平均互信息來(lái)計(jì)算詞語(yǔ)之間的相似度[10-11]。Dagan等人使用了更為復(fù)雜的概率模型來(lái)計(jì)算詞語(yǔ)的距離[12]。胡俊峰等人利用上下文的詞匯向量空間模型來(lái)近似地描述詞匯的語(yǔ)義,再在此基礎(chǔ)上定義詞匯的相似關(guān)系[13]。劉群利用Hopfeild神經(jīng)網(wǎng)絡(luò)進(jìn)行詞和詞的聯(lián)想[8],并用一個(gè)反映關(guān)鍵詞之間的關(guān)聯(lián)度的模糊自反矩陣來(lái)存儲(chǔ)詞和詞之間的相似度量值。
在上述基于語(yǔ)義詞典的詞語(yǔ)關(guān)聯(lián)度計(jì)算方法中,都需要事先提供一個(gè)針對(duì)該領(lǐng)域的語(yǔ)義詞典。由于目前不存在股票領(lǐng)域的語(yǔ)義詞典,且構(gòu)建該股票領(lǐng)域的詞典成本高、時(shí)間長(zhǎng),因此基于語(yǔ)義詞典的詞語(yǔ)關(guān)聯(lián)度計(jì)算方法不適合用于度量股票資訊新聞中心詞和相關(guān)股票關(guān)聯(lián)度。此外,傳統(tǒng)基于統(tǒng)計(jì)的詞語(yǔ)關(guān)聯(lián)度計(jì)算方法不能同時(shí)兼顧詞對(duì)共現(xiàn)頻率高和低的情況,無(wú)法保證股票資訊新聞中心詞與相關(guān)股票關(guān)聯(lián)結(jié)果的度量質(zhì)量。
參考文獻(xiàn):
[1].石愛萍.基于語(yǔ)義距離的Web頁(yè)面關(guān)鍵詞研究[D].江蘇科技大學(xué),2011.
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福建工程學(xué)院,未經(jīng)福建工程學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811318217.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于總量控制的頻繁項(xiàng)集數(shù)據(jù)挖掘方法
- 頻繁項(xiàng)集挖掘方法
- 一種關(guān)聯(lián)規(guī)則的挖掘方法和關(guān)聯(lián)規(guī)則的挖掘裝置
- 一種基于區(qū)間映射求交的快速頻繁模式挖掘方法及系統(tǒng)
- 一種文本數(shù)據(jù)集正負(fù)關(guān)聯(lián)規(guī)則挖掘方法及裝置
- 一種數(shù)據(jù)挖掘方法及相關(guān)設(shè)備
- 一種數(shù)據(jù)挖掘方法及裝置
- 一種頻繁項(xiàng)集的挖掘方法、裝置、存儲(chǔ)介質(zhì)和電子設(shè)備
- 一種閉項(xiàng)集及生成子挖掘方法及裝置
- 面向傳感數(shù)據(jù)的多概率閾值頻繁項(xiàng)集挖掘方法及裝置
- 一種數(shù)字證據(jù)鏈綜合分析系統(tǒng)及方法
- 一種基于斜率關(guān)聯(lián)度的顯著變量選擇方法
- 信息提示控制方法、信息提示控制系統(tǒng)及用戶終端
- 檢索方法、檢索裝置以及程序
- 基于灰色關(guān)聯(lián)度的球形閥體裝配質(zhì)量評(píng)價(jià)方法
- 一種基于實(shí)體及文本聯(lián)合嵌入的實(shí)體關(guān)聯(lián)度衡量方法、系統(tǒng)及存儲(chǔ)介質(zhì)
- 一種電力負(fù)荷的改進(jìn)關(guān)聯(lián)性獲取方法
- 基于鄰居關(guān)系的IP地址定位方法
- 互聯(lián)網(wǎng)內(nèi)容的識(shí)別方法及裝置、終端及可讀存儲(chǔ)介質(zhì)
- 一種關(guān)系強(qiáng)度分析系統(tǒng)及信息推薦系統(tǒng)





