[發明專利]一種構建知識庫的方法及裝置有效
| 申請號: | 200910136206.6 | 申請日: | 2009-04-29 |
| 公開(公告)號: | CN101876981A | 公開(公告)日: | 2010-11-03 |
| 發明(設計)人: | 侯磊;秦吉勝;陳維;張勤 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 魏杉 |
| 地址: | 英屬開曼群*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 構建 知識庫 方法 裝置 | ||
1.一種由計算機設備構建知識庫的方法,其特征在于,包括以下步驟:
計算機設備中的基礎數據處理層獲得網頁中的句子;
計算機設備中的挖掘層對句子進行分詞;
挖掘層將知識庫中第一類別對應的預設的標志詞與分詞后得到的詞進行匹配;
挖掘層在至少有一個分詞后得到的詞匹配成功的情況下,將句子中與匹配成功的詞相鄰的未知字符串作為第一條目添加到第一類別中;
挖掘層在句子中的詞與知識庫中第二類別下的第二條目匹配時,判斷第一類別與第二類別之間是否已建立關系,在建立有關系的情況下,為第一條目與第二條目建立關系。
2.如權利要求1所述的方法,其特征在于,基礎數據處理層獲得的網頁中的句子為長句時,根據句子中的標點符號將長句劃分為多個短句;
挖掘層對句子進行分詞的步驟包括:對單句或短句進行分詞。
3.如權利要求1所述的方法,其特征在于,還包括步驟:
基礎數據處理層統計句子出現的次數;
挖掘層根據第一條目和相鄰的標志詞所在的句子出現的次數,為第一條目設置在第一類別下的權重。
4.如權利要求1所述的方法,其特征在于,挖掘層采用包括標志詞的分詞系統對句子進行分詞。
5.如權利要求1所述的方法,其特征在于,知識庫包括普通詞體系和實體詞體系,普通詞體系和實體詞體系分別包括不同的類別;標志詞包括實體詞體系中類別對應的索引詞和普通詞體系中類別對應的種子詞;
當未知字符串作為第一條目添加到第一類別中時,同時未知字符串作為第一條目添加到了第一類別所屬的體系。
6.如權利要求5所述的方法,其特征在于,當第一類別為普通詞體系中的類別時,所述方法還包括步驟:將第一條目作為第一類別對應的種子詞。
7.如權利要求1所述的方法,其特征在于,挖掘層為第一條目與第二條目建立關系之前,獲得第一條目與第二條目所在的句子出現的次數,并當該次數超過預設的關系閾值時,為第一條目與第二條目建立關系。
8.如權利要求1至7中任一項所述的方法,其特征在于,還包括步驟:
挖掘層根據每個類別及類別下的條目生成一個結果文件;
整合層將多個結果文件整合為一個結果文件。
9.如權利要求8所述的方法,其特征在于,還包括步驟:
基礎數據處理層統計句子出現的次數;
挖掘層根據第一條目和標志詞所在的句子出現的次數,為第一條目設置在第一類別下的權重;
整合層通過將條目在多個類別下的權重進行比較,來對條目對應的類別進行過濾。
10.如權利要求1所述的方法,其特征在于,還包括步驟:
基礎數據處理層從網頁中獲得表格;
挖掘層將表格中多次與第一條目成對出現的詞作為第一條目的屬性。
11.如權利要求1所述的方法,其特征在于,基礎數據處理層獲得網頁中的句子的步驟包括:基礎數據處理層獲得網頁中含有特征符號的句子。
12.一種搜索信息的方法,其特征在于,包括以下步驟:
根據用戶輸入的搜索詞,獲得與搜索詞匹配的標簽;
根據匹配的標簽獲得與該標簽對應的網頁;
將獲得的網頁或網頁的鏈接地址發送給用戶;
其中,標簽是依據網頁的關鍵詞和知識庫中與關鍵詞有關系的條目獲得的。
13.如權利要求12所述的方法,其特征在于,知識庫是通過以下步驟構建的:
基礎數據處理層獲得網頁中的句子;
挖掘層對句子進行分詞;
挖掘層將知識庫中第一類別對應的預設的標志詞與分詞后得到的詞進行匹配;
挖掘層在至少有一個分詞后得到的詞匹配成功的情況下,將句子中與匹配成功的詞相鄰的未知字符串作為第一條目添加到第一類別中;
挖掘層當句子中的詞與知識庫中第二類別下的第二條目匹配時,判斷第一類別與第二類別之間是否已建立關系,在建立有關系的情況下,為第一條目與第二條目建立關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910136206.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:污泥熱干化方法與裝置
- 下一篇:用于驅動光源模塊的方法





