[發明專利]一種用于科技信息垂直搜索的異構數據分析方法有效
| 申請號: | 201410150100.2 | 申請日: | 2014-04-15 |
| 公開(公告)號: | CN103984700B | 公開(公告)日: | 2017-09-26 |
| 發明(設計)人: | 曾爾曼;洪文興;朱順痣;林清懷 | 申請(專利權)人: | 廈門產業技術研究院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市合道英聯專利事務所(普通合伙)44309 | 代理人: | 劉輝,廉紅果 |
| 地址: | 361000 福建省廈*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 科技 信息 垂直 搜索 數據 分析 方法 | ||
1.一種用于科技信息垂直搜索的異構數據分析方法,其特征在于,包括以下步驟:
S1、預先建立聚類特征集N,所述聚類特征集N包括一組命名實體以及與每個命名實體對應的特征信息知識庫;
S2、獲得原始數據集A,對原始數據集A進行中文分詞并提取關鍵詞,得到關鍵詞數據集B;
S3、以關鍵詞作為基礎特征,采用k-means算法進行聚類,得到聚類集C;
S4、根據聚類集C與聚類特征集N的主題相關性,對原始數據集A進行數據源歸類;
S5、根據聚類特征集N與關鍵詞數據集B的相關性,對于關鍵詞數據集B中的單個關鍵詞,在特征信息知識庫搜索與該關鍵詞對應的匹配結果,將該匹配結果對應的命名實體作為屬性索引項添加到結構化數據表,將該關鍵詞作為屬性值添加到結構化數據表,遍歷關鍵詞數據集B中的所有關鍵詞,得到結構化數據集Q;
S6、對結構化數據集Q進行分析、優化,得到結構化數據Q2;
S7、根據關鍵詞數據集B與結構化數據集Q2的比對結果,進行關鍵詞權重標記,獲得權重集W,權重集W用于垂直搜索結果的排序。
2.如權利要求1所述的一種用于科技信息垂直搜索的異構數據分析方法,其特征在于,所述步驟S4具體通過以下方法實現:對于聚類集C中的單個聚類,在特征信息知識庫搜索與該個聚類的特征關鍵詞對應的匹配結果,以該匹配結果對應的命名實體作為歸類類型,將原始數據集A中與該個聚類對應的數據劃分到該歸類類型下,遍歷聚類集C中的所有聚類,從而實現對原始數據集A的所有數據進行歸類。
3.如權利要求1-2任一項所述的一種用于科技信息垂直搜索的異構數據分析方法,其特征在于,所述步驟S6包括以下分步驟:
S61、預先設定相似度閾值;
S62、采用相似度算法分析結構化數據集Q,計算數據相似度值;
S63、對結構化數據集Q進行數據篩選,剔除相似度值小于相似度閾值的數據,得到結構化數據集Q1;
S64、對結構化數據集Q1中的相似數據合并去重,得到結構化數據集Q2。
4.如權利要求3所述的一種用于科技信息垂直搜索的異構數據分析方法,其特征在于:所述相似度算法為歐式距離相似度算法或余弦相似度算法。
5.如權利要求4所述的一種用于科技信息垂直搜索的異構數據分析方法,其特征在于:所述命名實體具體為人名、地域、工作單位、職稱及研究方向。
6.如權利要求4所述的一種用于科技信息垂直搜索的異構數據分析方法,其特征在于:步驟S2中所述中文分詞采用字符串匹配、上下文理解及詞頻統計相結合的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門產業技術研究院,未經廈門產業技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410150100.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:連接器后罩組裝治具
- 下一篇:新型電流型端子短接連片
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





