[發明專利]語料自動化獲取方法、裝置、計算機設備及存儲介質有效
| 申請號: | 202110879937.0 | 申請日: | 2021-08-02 |
| 公開(公告)號: | CN113342942B | 公開(公告)日: | 2021-11-16 |
| 發明(設計)人: | 袁雅云;張莉;任杰;吳志成 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/216;G06Q10/10 |
| 代理公司: | 深圳市精英專利事務所 44242 | 代理人: | 李翔宇 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語料 自動化 獲取 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種語料自動化獲取方法,其特征在于,包括:
獲取語料庫;其中,所述語料庫中包括多篇文檔;
解析并獲取文檔的詞頻矩陣,對詞頻矩陣中的每一個元素矩陣進行隨機主題編號,得到每一元素矩陣對應的主題編號;將文檔中每一元素矩陣對應的主題編號作為待訓練LDA模型的輸入值,將文檔的主題概率分布結果作為待訓練LDA模型的輸出值,計算得到待訓練LDA模型的吉布斯采樣模型及狄利克雷參數估計值,將所述吉布斯采樣模型及狄利克雷參數估計值作為LDA模型的模型參數;其中,所述模型參數用于在采樣過程中估出文檔的主題概率分布結果,并根據所述主題概率分布結果中的高頻主題進行語料推薦;
接收第一用戶端上傳的對象清單,獲取與對象清單中每一對象對應的描述文本數據;其中,每一對象的描述文本數據至少包括對象描述文本和對象畫像標簽;
解析并獲取與每一對象的描述文本數據相應的描述詞頻矩陣,將各描述詞頻矩陣輸入至所述LDA模型進行運算,得到與描述文本數據對應的預測主題概率分布結果;
根據與描述文本數據對應的預測主題概率分布結果,獲取與描述文本數據分別對應的預測主題;以及
在所述語料庫中獲取具有所述預測主題的語料,組成與預測主題對應的第一目標語料子集,將第一目標語料子集發送至第一用戶端;
其中,當接收到面試官與每一對象之間的面試過程所有數據,進行數據類型識別及文本轉化處理,得到與每一對象對應的描述文本數據。
2.根據權利要求1所述的語料自動化獲取方法,其特征在于,所述在所述語料庫中獲取具有所述預測主題的語料,組成與預測主題對應的第一目標語料子集,將第一目標語料子集發送至第一用戶端之后,還包括:
若接收到第二用戶端上傳的學習需求數據,獲取所述學習需求數據相應的需求詞頻矩陣,將需求詞頻矩陣輸入至所述LDA模型進行運算,得到與所述需求詞頻矩陣對應的需求主題概率分布結果;
根據所述需求主題概率分布結果中的最大概率值,獲取與所述需求主題概率分布結果的需求預測主題。
3.根據權利要求1所述的語料自動化獲取方法,其特征在于,所述解析并獲取文檔的詞頻矩陣,包括:
將每一文檔分別依次進行分詞,得到與每一文檔分別對應的關鍵詞集;
獲取每一關鍵詞集中每一關鍵詞對應的詞語ID和詞頻,由每一關鍵詞的詞語ID和詞頻組成每一關鍵詞的矩陣元素,由每一關鍵詞的矩陣元素組成對應關鍵詞集的詞頻矩陣。
4.根據權利要求1所述的語料自動化獲取方法,其特征在于,所述接收第一用戶端上傳的對象清單,獲取與對象清單中每一對象對應的描述文本數據之前,還包括:
若檢測到用戶端上傳的對象初始溝通數據,獲取所述對象初始溝通數據中包括的數據類型;其中,所述數據類型包括圖片數據、語音數據、文本數據、視頻數據中的一種或多種組合;
若所述數據類型是語音數據,調用預先存儲的語音識別模型,通過語音識別模型獲取與所述初始溝通數據對應的第一識別文本數據;
若所述數據類型是圖片數據,調用預先存儲的圖像識別模型,通過圖像識別模型獲取與所述初始溝通數據對應的第二識別文本數據;
若所述數據類型是文本數據,將所述對象初始溝通數據作為對應的第三識別文本數據;
若所述數據類型是視頻數據,獲取并分離得到對象初始溝通數據中的音頻數據,調用預先存儲的語音識別模型,通過語音識別模型獲取與所述初始溝通數據對應的第四識別文本數據;
將所述第一識別文本數據、或第二識別文本數據、或第三識別文本數據、或第四識別文本數據依次經過分詞、關鍵詞抽取和用戶畫像標簽轉化,得到與所述對象初始溝通數據對應的描述文本數據。
5.根據權利要求1所述的語料自動化獲取方法,其特征在于,所述解析并獲取與每一對象的描述文本數據相應的描述詞頻矩陣,包括:
獲取所述描述文本數據中每一標簽關鍵詞對應的詞語ID和詞頻,由每一標簽關鍵詞的詞語ID和詞頻組成每一標簽關鍵詞的標簽矩陣元素,由每一標簽關鍵詞的標簽矩陣元素組成對應的描述詞頻矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110879937.0/1.html,轉載請聲明來源鉆瓜專利網。





