[發明專利]文本可信模型分析方法、設備和裝置有效
| 申請號: | 201811318058.5 | 申請日: | 2018-11-07 |
| 公開(公告)號: | CN110046200B | 公開(公告)日: | 2023-05-05 |
| 發明(設計)人: | 袁錦程;王維強;許遼薩;趙文飆;易燦 | 申請(專利權)人: | 創新先進技術有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/35;G06Q40/08 |
| 代理公司: | 北京永新同創知識產權代理有限公司 11376 | 代理人: | 林錦輝 |
| 地址: | 英屬開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 可信 模型 分析 方法 設備 裝置 | ||
1.一種文本可信模型分析方法(100),包括:
使用第一訓練模型對結構化行為數據進行分類并賦予與所屬類別相應的分數(114);
使用第二訓練模型對與所述結構化行為數據相對應的文本數據進行分類并賦予與所屬類別相應的分數(128);
將所述結構化行為數據的所述分數與對應的文本數據的所述分數進行比對(130);并且
根據所述比對的結果,判斷所述對應的文本數據是否可信(132,134)。
2.如權利要求1所述的文本可信模型分析方法(100),還包括:
在使用所述第二訓練模型對所述文本數據進行分類之前,對所述文本數據進行預處理,
其中,對所述文本數據的所述預處理包括定期地由使用者對所述文本數據中的一個或多個是否可信進行標簽(124)。
3.如權利要求2所述的文本可信模型分析方法(100),
其中,在文本數據與對應的結構化行為數據不相符時,該文本數據被打上不可信標簽。
4.如權利要求3所述的文本可信模型分析方法(100),還包括:
基于帶有不可信標簽的文本數據和剩余的文本數據,使用半監督學習算法從所述剩余的文本數據檢測出不可信的文本數據并打上不可信標簽(126)。
5.如權利要求4所述的文本可信模型分析方法(100),
其中,所述半監督學習算法包括PU?Learning,并且
其中,使用半監督學習算法進行的所述檢測包括利用所述帶有不可信標簽的文本數據來訓練PU?Learning模型,并且基于經訓練的PU?Learning模型,從所述剩余的文本數據中預測不可信的文本數據。
6.如權利要求3-5中的任一項所述的文本可信模型分析方法(100),
其中,使用所述第二訓練模型對所述文本數據進行的所述分類包括使用所述第二訓練模型僅對沒有標簽的文本數據進行分類(128)。
7.如權利要求1-5中的任一項所述的文本可信模型分析方法(100),
其中,所述比對包括分別將所述結構化行為數據的所述分數和所述對應的文本數據的所述分數進行歸一化,并且對歸一化后的兩個分數進行假設檢驗以判斷所述結構化行為數據的所述分數和所述對應的文本數據的所述分數是否屬于同一類。
8.如權利要求7所述的文本可信模型分析方法(100),
其中,在通過假設檢驗判定所述結構化行為數據的所述分數和所述對應的文本數據的所述分數屬于同一類時,基于t檢驗來確定所述對應的文本數據是否可信。
9.一種文本可信模型分析設備(200),包括:
處理器(220);以及
存儲器(210),其上存儲有可執行指令,其中,所述可執行指令當被執行時使得所述處理器執行權利要求1-8中的任一項所述的方法。
10.如權利要求9所述的文本可信模型分析設備(200),還包括:
顯示器(230),其被配置為顯示所述文本數據;以及
輸入器件(240),其被配置為供使用者為不可信的文本數據打標簽。
11.一種機器可讀存儲介質,其上存儲有可執行指令,其中,所述可執行指令當被執行時使得機器執行權利要求1-8中的任一項所述的方法。
12.一種文本可信模型分析裝置(300),包括:
第一分類模塊(340),用于通過第一訓練模型對結構化行為數據進行分類并賦予與所屬類別相應的分數;
第二分類模塊(330),用于通過第二訓練模型對與所述結構化行為數據相對應的文本數據進行分類并賦予與所屬類別相應的分數;以及
比對模塊(350),用于將所述結構化行為數據的所述分數與對應的文本數據的所述分數進行比對,并根據所述比對的結果,判斷所述對應的文本數據是否可信。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創新先進技術有限公司,未經創新先進技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811318058.5/1.html,轉載請聲明來源鉆瓜專利網。





