[發明專利]語義數據存儲調度方法有效
| 申請號: | 201811039764.6 | 申請日: | 2018-09-06 |
| 公開(公告)號: | CN109241298B | 公開(公告)日: | 2020-09-15 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 紹興無相智能科技有限公司 |
| 主分類號: | G06F16/383 | 分類號: | G06F16/383;G06F9/50 |
| 代理公司: | 佛山市智匯聚晨專利代理有限公司 44409 | 代理人: | 曹麗敏 |
| 地址: | 312030 浙江省紹興市柯橋區齊*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義 數據 存儲 調度 方法 | ||
本發明提供了一種語義數據存儲調度方法,該方法包括:建立用于文本數據分析的Map/Reduce并行計算環境;文本挖掘主進程維護文檔元數據,啟動工作線程等待來自文本挖掘分進程的文本檢索請求;如果檢索請求的文件已經存在于云端緩存中,則工作線程將文件的元數據對象發送給分進程。本發明提出了一種語義數據存儲調度方法,從進程管理和緩存管理角度改進了MAPRUDUCE的并行框架,更好地適應文本數據挖掘的需要;并且針對社交文本的不規范特點,利用語義向量對文本數據進行有效表示和分析,適用于各種規模的社交文本挖掘分析和計算。
技術領域
本發明涉及大數據挖掘,特別涉及一種語義數據存儲調度方法。
背景技術
大數據尤其是社交網絡數據蘊涵著巨大的商業價值和社會價值,有效地管理和利用這些數據、挖掘數據的價值對企業和個人將帶來巨大的影響。另一方面,大數據帶來新的發展機遇的同時,也帶來很多技術挑戰。傳統的信息處理與計算技術已難以有效地應對大數據的處理。大規模社交網絡數據的有效處理面臨數據的存儲、算法分析等多個層面上的主要技術困難。巨大的數據量使得傳統的單機機器學習和數據挖掘算法都難以在可接受時間內完成計算,導致算法失效。以即時通信數據為例,由于實時更新性和變化性的特點,數據量的劇增會使自然語言處理及機器學習過程變得更加復雜,而當前的并行計算環境的總體架構并不適用于文本數據的高效并行處理,特別是進程管理和緩存管理上并未與文本挖掘算法所需要的存儲和分布式計算架構相匹配;再者,文本的不規范增加了用戶對信息理解和事件發現的困難程度,最終導致數據分布出現嚴重的不平衡。此外還存在中文詞缺乏語義表示的問題,使得傳統方法不能完全適用于對社交文本的分析和計算,因此難以實現信息的智能化、人機交互和自動問答。
發明內容
為解決上述現有技術所存在的問題,本發明提出了一種語義數據存儲調度方法,包括:
建立用于文本數據分析的Map/Reduce并行計算環境;
文本挖掘主進程維護文檔元數據,啟動工作線程等待來自文本挖掘分進程的文本檢索請求;
如果檢索請求的文件已經存在于云端緩存中,則工作線程將文件的元數據對象發送給分進程。
優選地,所述主進程一旦啟動運行,首先初始化一個散列表作為文檔元數據緩存,所述散列表存儲記錄文檔文件信息的key-value對。
優選地,所述每一個key-value對中,key值為文件名,value為一個元數據對象。
優選地,所述元數據對象中記錄文件的大小、存儲該文件數據塊的各個分進程以及所有數據塊在各個分進程管理的文檔緩存中的位置。
優選地,分進程將接收到的對象存入本地緩存中,并且主進程記錄每個文檔元數據對象被哪些分進程緩存,以當該文件被從云端緩存中刪除時,通知它們無效相應的文檔元數據對象。
優選地,還包括,如果請求的文件還沒被緩存,工作線程首先從云端緩存中申請足夠的空間并生成文檔元數據對象,然后通知負責緩存該文件數據塊的各個分進程將相應數據塊加載到各自本地文檔緩存中,最后工作線程將元數據對象發送給請求進程并記錄存儲該元數據的分進程ID。
優選地,當從云端緩存中申請存儲空間時,如果剩余空間不足,工作線程刪除最久未訪問的文件,刪除文件的元數據的同時通知相應的分進程。
本發明相比現有技術,具有以下優點:
本發明提出了一種語義數據存儲調度方法,從進程管理和緩存管理角度改進了MAPRUDUCE的并行框架,更好地適應文本數據挖掘的需要;并且針對社交文本的不規范特點,利用語義向量對文本數據進行有效表示和分析,適用于各種規模的社交文本挖掘分析和計算。
附圖說明
圖1是根據本發明實施例的語義數據存儲調度方法的流程圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于紹興無相智能科技有限公司,未經紹興無相智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811039764.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





