[發明專利]語義數據存儲調度方法有效
| 申請號: | 201811039764.6 | 申請日: | 2018-09-06 |
| 公開(公告)號: | CN109241298B | 公開(公告)日: | 2020-09-15 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 紹興無相智能科技有限公司 |
| 主分類號: | G06F16/383 | 分類號: | G06F16/383;G06F9/50 |
| 代理公司: | 佛山市智匯聚晨專利代理有限公司 44409 | 代理人: | 曹麗敏 |
| 地址: | 312030 浙江省紹興市柯橋區齊*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義 數據 存儲 調度 方法 | ||
1.一種語義數據存儲調度方法,其特征在于,包括:
建立用于文本數據分析的Map/Reduce并行計算環境;
文本挖掘主進程維護文檔元數據,啟動工作線程等待來自文本挖掘分進程的文本檢索請求;
如果檢索請求的文件已經存在于云端緩存中,則工作線程將文件的元數據對象發送給分進程;
所述主進程一旦啟動運行,首先初始化一個散列表作為文檔元數據緩存,所述散列表存儲記錄文檔文件信息的key-value對;所述key-value對中,key值為文件名, value為一個元數據對象;所述元數據對象中記錄文件的大小、存儲文件數據塊的各個分進程以及文件數據塊在各個分進程管理的文檔緩存中的位置;
采用主從并行訓練框架實現后向傳播算法的并行化;其中主控節點協同調度整個訓練過程,訓練過程在多個訓練節點上進行,訓練數據集以多個分片的形式分布式存儲在集群,每個訓練節點內部設置本地緩存。
2.根據權利要求1所述的方法,其特征在于,分進程將接收到的對象文件存入本地緩存中,并且主進程記錄每個文檔元數據對象被哪些分進程緩存,當該對象文件被從云端緩存中刪除時,通知它們無效相應的文檔元數據對象。
3.根據權利要求1所述的方法,其特征在于,還包括,如果請求的文件還沒被緩存,工作線程首先從云端緩存中申請足夠的空間并生成文檔元數據對象,然后通知負責緩存該請求的文件的各個分進程將相應數據塊加載到各自本地文檔緩存中,最后工作線程將元數據對象發送給請求進程并記錄存儲該元數據的分進程ID。
4.根據權利要求3所述的方法,其特征在于,當從云端緩存中申請存儲空間時,如果剩余空間不足,工作線程刪除最久未訪問的文件,刪除文件的元數據的同時通知相應的分進程。
5.根據權利要求1所述的方法,其特征在于,還包括,基于所述并行計算環境,將語義向量引入文本挖掘和擴展中,執行如下文檔數據挖掘過程:
給定一個檢索語句,使用通用的停用詞表對初始檢索中的詞進行過濾,僅保留有意義的檢索詞;
使用語義塊模型對詞匯進行語義向量表示;在語義向量的基礎之上針對每個初始檢索詞采用余弦相似度從其它詞匯中找出與之相似度最接近的m個詞,作為擴展檢索詞;
使用初始檢索中對應的擴展檢索詞在初始檢索語句中進行替換,將新生成的檢索詞序列作為擴展檢索語句;根據擴展檢索詞的排列組合得到不同表達形式的擴展檢索語句;
將文本向量模型應用于文檔摘要檢索。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于紹興無相智能科技有限公司,未經紹興無相智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811039764.6/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





