[發明專利]郵件索引建立方法及系統、郵件搜索方法及系統有效
| 申請號: | 201210357269.6 | 申請日: | 2012-09-21 |
| 公開(公告)號: | CN103678405A | 公開(公告)日: | 2014-03-26 |
| 發明(設計)人: | 佘智勇 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F12/08;H04L12/58 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 英屬開曼群島大開曼*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 郵件 索引 建立 方法 系統 搜索 | ||
技術領域
本申請涉及網絡數據處理領域,特別是涉及郵件索引建立方法及系統、郵件搜索方法及系統。
背景技術
目前,隨著互聯網通訊越來越普及,越來越多的用戶采用郵件進行溝通,而在用戶的郵件達到一定數量之后,郵箱檢索也越來越處于數據搜索的重要位置。郵箱檢索基于郵箱索引的建立,即是對于某個用戶來講,其所有的郵件都會通過郵箱索引進行檢索。
現有技術有這樣一種郵件索引建立方法,主要采用倒排索引方式建立郵箱索引,例如,有3個郵件文件名為doc_id1,doc_id2,以及doc_id3,其中都包含“hello?the?world”,則每一個關鍵詞的倒排索引記錄就如下所示:
hello->doc_id1,doc_id2,doc_id3,
the->doc_id1,doc_id2,doc_id3,
world->doc_id1,doc_id2,doc_id3;
將上述倒排索引記錄存放至倒排索引文件,再記錄每個倒排索引記錄在倒排索引文件中的偏移位置及長度,并將該偏移位置寫入詞典文件,寫入方式如下所示:
{“hello”:{“file_path″:″/xxx/倒排索引文件″,″offset″:0}};
假設用戶檢索包括“hello”的郵件,就能夠從詞典文件中找出包含該關鍵詞的所有郵件,即找到“/xxx/倒排索引文件”這個地址,然后打開該倒排索引文件讀取偏移量“0”的位置,即可以讀到{doc_id1,doc_id2,doc_id3}三個郵件。
但是在增加新郵件的時候,為了保證搜索結果的完整性需要更新倒排索引文件。例如增加一封新郵件為doc_id4,該郵件也包含“hello?the?world”共3個關鍵字,則此時需要倒排索引記錄更新如下:
hello->doc_id1,doc_id2,doc_id3,doc_id4,
the->doc_id1,doc_id2,doc_id3,doc_id4,
world->doc_id1,doc_id2,doc_id3,doc_id4;
而如果把更新后的倒排索引記錄存放至倒排索引文件,“the->doc_id1,doc_id2,doc_id3,doc_id4”和“world->doc_id1,doc_id2,doc_id3,doc_id4”這兩個倒排索引記錄都需要在倒排索引文件中改變其原本的存儲位置,同時也需要修改詞典文件里對應的偏移量(offset)值。
所以前述建立倒排索引文件的方式下,當每次增加一個新郵件時,都需要移動倒排索引文件的其他相關數據內容。
發明人在研究過程中發現,基于前述的郵件索引建立方法進行郵箱檢索,就需要在整個倒排索引文件中進行關鍵詞的搜索,而隨著郵件數據規模的增大,對于億級別的用戶的郵箱服務器來說,如果平均每個用戶一千封郵件,那么郵件總數即可達到千億級別(即和互聯網的全網網頁規模接近,全網目前有千億級的網頁數量),就不可避免的會導致對硬盤IO資源的大量占用,也使得無法快速實現對郵箱的索引。進一步的,郵箱服務器對于海量郵件的存儲成本也很高,造成大量的存儲資源被占用。
發明內容
本申請所要解決的技術問題是,提供一種郵件索引建立方法及系統、郵件搜索方法及系統,以解決按照現有技術中建立索引的方式導致的郵件搜索會導致對硬盤IO資源的大量占用,也使得無法快速實現對郵箱的索引的技術問題,進一步的,還能解決郵箱服務器對于海量郵件的存儲成本過高造成的存儲資源大量被占用的技術問題。
為解決上述技術問題,本申請實施例提供了一種郵件索引建立方法,該方法包括:
對待建立索引的當前郵件進行分詞得到所述當前郵件的關鍵詞;
依據所述當前郵件的關鍵詞更新一級緩存中保存的一級倒排索引記錄;
判斷所述一級緩存中的一級倒排索引記錄的大小是否到達第一預設閾值,如果是,則將所述一級緩存中的所有一級倒排索引記錄讀取至二級緩存文件中;
判斷當前二級緩存文件的大小是否到達第二預設閾值,如果是,則依據路徑文件將所述二級緩存文件中的所有二級倒排索引記錄讀取至三級倒排索引文件,所述路徑文件保存關鍵詞與三級倒排索引文件對應的映射關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210357269.6/2.html,轉載請聲明來源鉆瓜專利網。





