[發明專利]基于弱監督學習的信息識別方法及相關設備在審
| 申請號: | 202011481937.7 | 申請日: | 2020-12-15 |
| 公開(公告)號: | CN112507095A | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 謝攀 | 申請(專利權)人: | 平安國際智慧城市科技股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35;G06F40/279;G06Q50/26;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 遲珊珊 |
| 地址: | 518000 廣東省深圳市前海深港合*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 監督 學習 信息 識別 方法 相關 設備 | ||
本發明涉及人工智能技術領域,提供一種基于弱監督學習的信息識別方法,包括:獲取政務場景中的多個常見問題解答FAQ數據,并基于多個FAQ數據,構建第一標簽數據集;使用第一卷積神經網絡CNN,對第一標簽數據集進行多標簽文本分類,獲得多標簽CNN模型;獲取多個第二標簽數據集,并使用多個第二標簽數據集對多標簽CNN模型進行調整,獲得最終多標簽分類器;接收輸入的用戶問題;將用戶問題輸入至最終多標簽分類器中,獲得與用戶問題匹配的多個政務實體;輸出多個政務實體。本發明還涉及區塊鏈技術,可以將多個政務實體上傳至區塊鏈上。本發明能應用在智慧政務、智慧社區等需要進行信息識別的領域,從而推動智慧城市的發展。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種基于弱監督學習的信息識別方法及相關設備。
背景技術
目前,在政務場景中,經常會遇到各種各樣的咨詢問題,需要提供答案,政務問答機器人在問答方面起著很關鍵的作用。政務問答機器人可以協助政府人員解答用戶的咨詢問題,咨詢問題通常對應著相關的政務實體,例如:個體工商戶信息注冊、居住證辦理、農藥廣告審批、知識產權維權資助、種禽生產經營許可證核發等。
然而,實際中發現,政務實體一般都比較專業化,而不同的用戶又有不同的口語化叫法;另外,政務實體信息隱含在用戶表達的咨詢問題中,很難準確提取政務實體,這使得用戶的體驗較差。
因此,如何在政務場景中,對政務實體進行有效識別是一個亟待解決的技術問題。
發明內容
鑒于以上內容,有必要提供一種基于弱監督學習的信息識別方法及相關設備,能夠在政務場景中,對政務實體進行有效識別。
本發明的第一方面提供一種基于弱監督學習的信息識別方法,所述基于弱監督學習的信息識別方法包括:
獲取政務場景中的多個常見問題解答FAQ數據,并基于多個所述FAQ數據,構建第一標簽數據集;
使用第一卷積神經網絡CNN,對所述第一標簽數據集進行多標簽文本分類,獲得多標簽CNN模型,其中,所述第一CNN中的全鏈接層對應N個激活函數,所述N與輸出的標簽序列的維數相同,所述多標簽CNN模型為弱監督的模型;
獲取多個第二標簽數據集,并使用所述多個第二標簽數據集對所述多標簽CNN模型進行調整,獲得最終多標簽分類器;
接收輸入的用戶問題;
將所述用戶問題輸入至所述最終多標簽分類器中,獲得與所述用戶問題匹配的多個政務實體;
輸出所述多個政務實體。
在一種可能的實現方式中,所述基于多個所述FAQ數據,構建第一標簽數據集包括:
通過漢語語言模型Ngram,掃描多個所述FAQ數據中的答案數據;
根據詞向量模型,將所述答案數據轉換成第一向量,以及根據所述詞向量模型,將政務實體庫中的政務實體轉換成第二向量;
將所述第一向量與所述第二向量進行余弦相似度計算,獲得相似度分值;
將所述相似度分值大于預設閾值的政務實體確定為所述FAQ數據匹配的標簽;
根據每個所述FAQ數據以及所述FAQ數據匹配的標簽,構建第一標簽數據集。
在一種可能的實現方式中,所述第一標簽數據集中,每個問題對應一個標簽列表,所述標簽列表中的每個標簽對應一個政務實體,所述標簽列表中,與所述問題匹配的政務實體的標簽被設置為第一標識,與所述問題不匹配的政務實體的標簽被設置為第二標識。
在一種可能的實現方式中,所述使用第一卷積神經網絡CNN,對所述第一標簽數據集進行多標簽文本分類,獲得多標簽CNN模型包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安國際智慧城市科技股份有限公司,未經平安國際智慧城市科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011481937.7/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





