[發明專利]一種用于科技信息垂直搜索的異構數據分析方法有效
| 申請號: | 201410150100.2 | 申請日: | 2014-04-15 |
| 公開(公告)號: | CN103984700B | 公開(公告)日: | 2017-09-26 |
| 發明(設計)人: | 曾爾曼;洪文興;朱順痣;林清懷 | 申請(專利權)人: | 廈門產業技術研究院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市合道英聯專利事務所(普通合伙)44309 | 代理人: | 劉輝,廉紅果 |
| 地址: | 361000 福建省廈*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 科技 信息 垂直 搜索 數據 分析 方法 | ||
技術領域
本發明涉及信息檢索技術領域,具體的說是一種用于科技信息垂直搜索的異構數據分析方法。
背景技術
垂直搜索引擎是針對某一個行業的專業搜索引擎,是搜索引擎的細分和延伸,是對網頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數據進行處理后再以某種形式返回給用戶。
對于現有的垂直搜索引擎而言,其呈現給用戶的搜索結果,一般是按文檔與查詢關鍵詞的相關程度、時間、引用次數等單一條件進行排序,而沒有充分考慮到文檔自身的內容,搜索結果準確的不高,用戶需要在搜索結果中進一步查找和選取與自己要搜索的內容實際相關或有用的文檔,有時用戶需要重復進行多次檢索,才能獲得期望看到的信息。
另外,隨著互聯網的迅猛發展,互聯網上的信息越來越多,返回給用戶的搜索結果通常是成百上千個文檔,文檔質量、真實性參差不齊的文檔羅列在一起,很容易掩蓋對用戶有用的文檔。
發明內容
本發明的目的在于提供一種用于科技信息垂直搜索的異構數據分析方法,其提高了垂直搜索的準確度,使得用戶更容易獲取符合實際需求的信息。
為實現上述目的,本發明采用以下技術方案:
一種用于科技信息垂直搜索的異構數據分析方法,包括以下步驟:
S1、預先建立聚類特征集N,所述聚類特征集N包括一組命名實體以及與每個命名實體對應的特征信息知識庫;
S2、獲得原始數據集A,對原始數據集A進行中文分詞并提取關鍵詞,得到關鍵詞數據集B;
S3、以關鍵詞作為基礎特征,采用k-means算法進行聚類,得到聚類集C;
S4、根據聚類集C與聚類特征集N的主題相關性,對原始數據集A進行數據源歸類;
S5、根據聚類特征集N與關鍵詞數據集B的相關性,提取相應的結構化數據集Q;
S6、對結構化數據集Q進行分析、優化,得到結構化數據Q2;
S7、根據關鍵詞數據集B與結構化數據集Q2的比對結果,進行關鍵詞權重標記,獲得權重集W,權重集W用于垂直搜索結果的排序。
進一步地,所述步驟S4具體通過以下方法實現:對于聚類集C中的單個聚類,在特征信息知識庫搜索與該個聚類的特征關鍵詞對應的匹配結果,以該匹配結果對應的命名實體作為歸類類型,將原始數據集A中與該個聚類對應的數據劃分到該歸類類型下,遍歷聚類集C中的所有聚類,從而實現對原始數據集A的所有數據進行歸類。
進一步地,所述步驟S5具體通過以下方法實現:對于關鍵詞數據集B中的單個關鍵詞,在特征信息知識庫搜索與該關鍵詞對應的匹配結果,將該匹配結果對應的命名實體作為屬性索引項添加到結構化數據表,將該關鍵詞作為屬性值添加到結構化數據表,遍歷關鍵詞數據集B中的所有關鍵詞,得到結構化數據集Q。
進一步地,所述步驟S6包括以下分步驟:
S61、預先設定相似度閾值;
S62、采用相似度算法分析結構化數據集Q,計算數據相似度值;
S63、對結構化數據集Q進行數據篩選,剔除相似度值小于相似度閾值的數據,得到結構化數據集Q1;
S64、對結構化數據集Q1中的相似數據合并去重,得到結構化數據集Q2。
優選地,所述相似度算法為歐式距離相似度算法或余弦相似度算法。
優選地,所述命名實體具體為人名、地域、工作單位、職稱、研究方向等。
優選地,步驟S2中所述中文分詞采用字符串匹配、上下文理解及詞頻統計相結合的方法。
采用上述技術方案后,本發明與背景技術相比,具有如下優點:本發明通過引入聚類特征的參數,將原始數據集A的異構數據進行結構化處理,實現了對原始數據源A的數據歸類和權重標記,從而提高了垂直搜索的準確度,使得用戶更容易獲取符合實際需求的信息。
附圖說明
圖1為本發明的工作流程圖。
具體實施方式
為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
實施例
請參閱圖1,本發明公開了一種用于科技信息垂直搜索的異構數據分析方法,包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門產業技術研究院,未經廈門產業技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410150100.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:連接器后罩組裝治具
- 下一篇:新型電流型端子短接連片
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





