[發明專利]投資人推薦方法和裝置在審
| 申請號: | 201710497012.3 | 申請日: | 2017-06-26 |
| 公開(公告)號: | CN107291912A | 公開(公告)日: | 2017-10-24 |
| 發明(設計)人: | 李微;朱正;吳志成;張健;徐銜;郭曉茹 | 申請(專利權)人: | 三螺旋大數據科技(昆山)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京超凡志成知識產權代理事務所(普通合伙)11371 | 代理人: | 蘇勝 |
| 地址: | 215300 江蘇省蘇州市昆山*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 投資人 推薦 方法 裝置 | ||
技術領域
本發明涉及數據檢索技術領域,尤其是涉及一種投資人推薦方法和裝置。
背景技術
為了挖掘文檔的主題,現有技術中通常采用潛在語義分析LSA和概率潛在語義分析PLSA方法。這些方法能夠通過模擬人類思維,找到文本的最佳主題和詞匯,最大程度地表示文本中所蘊含的含義;然而,上述LSA和PLSA在主題的獲取過程中容易產生過擬合問題,當通過上述方式獲取投資人的投資熱點主題時,主題獲取算法過于復雜,且結果準確率較低,進而導致根據熱點主題推薦的投資人與企業實際需求匹配程度較低。
針對上述現有的投資人推薦方式與企業實際需求匹配程度較低的問題,尚未提出有效的解決方案。
發明內容
有鑒于此,本發明的目的在于提供一種投資人推薦方法和裝置,以提高投資人推薦方式與企業實際需求匹配程度。
第一方面,本發明實施例提供了一種投資人推薦方法,包括:獲取投資人的文本數據;其中,文本數據至少包括投資人的投資行為數據;根據預先保存的文本與特征的映射關系對文本數據進行預處理,生成文本數據對應的特征集;根據文本數據的發布時間,對文本數據對應的特征集進行分類;采用潛在狄利克雷分配的方式,生成每個類型對應的主題分布;將投資人推薦至與主題分布相匹配的投資需求企業。
結合第一方面,本發明實施例提供了第一方面的第一種可能的實施方式,其中,上述根據預先保存的文本與特征的映射關系對文本數據進行預處理,生成文本數據對應的特征集的步驟,包括:將文本數據進行分詞處理,生成第一詞匯集;刪除第一詞匯集中的停用詞,生成第二詞匯集;將第二詞匯集中的詞匯,逐一與預先保存的文本與特征的映射關系進行匹配,生成詞匯對應的鍵值數據;其中,鍵值數據包括詞匯在映射關系中對應的標識符和權重;將每個詞匯對應的鍵值數據保存為文本數據的特征集。
結合第一方面,本發明實施例提供了第一方面的第二種可能的實施方式,其中,上述根據文本數據的發布時間,對文本數據對應的特征集進行分類的步驟,包括:提取文本數據的發布時間;將發布時間分別與預先設置的多個時間段進行匹配;根據匹配結果確定文本數據對應的特征集所屬的時間段。
結合第一方面的第二種可能的實施方式,本發明實施例提供了第一方面的第三種可能的實施方式,其中,上述采用潛在狄利克雷分配的方式,生成每個類型對應的主題分布的步驟,包括:設置分布參數的初始值;按照時間段發生的順序,獲取最早發生的時間段對應的特征集;循環操作:根據分布參數,采用潛在狄利克雷分配的方式,生成當前時間段對應的特征集的主題分布;其中,主題分布包括文本-主題分布和主題-詞匯分布;獲取時間段的下一個時間段,將當前時間段的主題分布作為下一個時間段的分布參數,繼續執行上述循環操作,直至遍歷所有的時間段。
結合第一方面的第三種可能的實施方式,本發明實施例提供了第一方面的第四種可能的實施方式,其中,上述將投資人推薦至與主題分布相匹配的投資需求企業的步驟,包括:從各個時間段對應的文本-主題分布和主題-詞匯分布中,提取投資人的主題;將投資人的主題與投資需求企業進行匹配,生成匹配結果;將投資人推薦至與匹配結果對應的投資需求企業。
第二方面,本發明實施例提供了一種投資人推薦裝置,包括:數據獲取模塊,用于獲取投資人的文本數據;其中,文本數據至少包括投資人的投資行為數據;預處理模塊,用于根據預先保存的文本與特征的映射關系對文本數據進行預處理,生成文本數據對應的特征集;分類模塊,用于根據文本數據的發布時間,對文本數據對應的特征集進行分類;主題生成模塊,用于采用潛在狄利克雷分配的方式,生成每個類型對應的主題分布;推薦模塊,用于將投資人推薦至與主題分布相匹配的投資需求企業。
結合第二方面,本發明實施例提供了第二方面的第一種可能的實施方式,其中,上述預處理模塊,包括:分詞單元,用于將文本數據進行分詞處理,生成第一詞匯集;刪除單元,用于刪除第一詞匯集中的停用詞,生成第二詞匯集;第一匹配單元,用于將第二詞匯集中的詞匯,逐一與預先保存的文本與特征的映射關系進行匹配,生成詞匯對應的鍵值數據;其中,鍵值數據包括詞匯在映射關系中對應的標識符和權重;保存單元,用于將每個詞匯對應的鍵值數據保存為文本數據的特征集。
結合第二方面,本發明實施例提供了第二方面的第二種可能的實施方式,其中,上述分類模塊,包括:時間提取單元,用于提取文本數據的發布時間;第二匹配單元,用于將發布時間分別與預先設置的多個時間段進行匹配;確定單元,用于根據匹配結果確定文本數據對應的特征集所屬的時間段。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于三螺旋大數據科技(昆山)有限公司,未經三螺旋大數據科技(昆山)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710497012.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種異常檢測方法和裝置
- 下一篇:超文本標記語言網頁加載方法及裝置





