[發明專利]錯誤樣本識別方法和裝置有效
| 申請號: | 201610221936.6 | 申請日: | 2016-04-11 |
| 公開(公告)號: | CN107291774B | 公開(公告)日: | 2020-02-07 |
| 發明(設計)人: | 陶瑋 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N5/02 |
| 代理公司: | 11204 北京英賽嘉華知識產權代理有限責任公司 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100080 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 錯誤 樣本 識別 方法 裝置 | ||
1.一種錯誤樣本識別方法,其特征在于,所述方法包括:
獲取輸入信息,其中,所述輸入信息包括輸入文本和指示信息,其中,所述指示信息用于指示所述輸入文本所屬的預先訓練的邏輯回歸模型,其中,邏輯回歸模型包括:特征詞、特征詞對應的第一分類、特征詞在向量空間中位置和特征詞對應的權重;
通過輸入文本所屬的邏輯回歸模型得出所述輸入文本對應的至少一個第一分類及該第一分類對應的第一概率值;
響應于至少一個第一概率值中的每個第一概率值均小于第一預設閾值,通過至少一個關聯邏輯回歸模型得到所述輸入文本對應的至少一個第一分類及通過至少一個關聯邏輯回歸模型得到的第一分類對應的第二概率值,其中,所述關聯邏輯回歸模型與所述輸入文本所屬的邏輯回歸模型有相同的第一分類;
響應于至少一個第二概率值中的最大第二概率值大于第二預設閾值,將所述輸入文本識別為所述輸入文本所屬的邏輯回歸模型的錯誤樣本。
2.根據權利要求1所述的方法,其特征在于,所述通過輸入文本所屬的邏輯回歸模型得出所述輸入文本對應的至少一個第一分類及該第一分類對應的第一概率值,包括:
通過所述輸入文本所屬的邏輯回歸模型對所述輸入文本進行分詞,得到第一詞語集合;
基于所述第一詞語集合以及所述輸入文本所屬的邏輯回歸模型,通過邏輯回歸算法,獲得所述輸入文本對應的至少一個第一分類及該第一分類對應的第一概率值。
3.根據權利要求2所述的方法,其特征在于,所述基于所述第一詞語集合以及所述輸入文本所屬的邏輯回歸模型,通過邏輯回歸算法,獲得所述輸入文本對應的至少一個第一分類及該第一分類對應的第一概率值,包括:
將所述第一詞語集合中的詞語與所述輸入文本所屬的邏輯回歸模型的特征詞進行匹配,得出匹配結果;
根據所述匹配結果,獲取所述詞語對應的特征詞在向量空間的位置和權重值,并生成空間向量;
將所述詞語對應的空間向量設置為邏輯回歸算法的輸入值計算所述輸入文本對應的至少一個第一分類及該第一分類對應的第一概率值。
4.根據權利要求1-3任一項所述的方法,其特征在于,響應于至少一個第一概率值中的每個第一概率值均小于第一預設閾值,通過至少一個關聯邏輯回歸模型得到所述輸入文本對應的至少一個第一分類及該第一分類對應的第二概率值,包括:
判斷至少一個第一概率值中的每個第一概率值是否均小于第一預設閾值;
如果是,則通過至少一個關聯邏輯回歸模型對所述輸入文本進行分詞,得到第二詞語集合;
基于所述第二詞語集合以及至少一個關聯邏輯回歸模型中的每個關聯邏輯回歸模型,通過邏輯回歸算法,獲得所述輸入文本的與所述至少一個關聯邏輯回歸模型中的每個關聯邏輯回歸模型對應的至少一個第一分類及該第一分類對應的第二概率值。
5.根據權利要求4所述的方法,其特征在于,所述通過至少一個關聯邏輯回歸模型對所述輸入文本進行分詞,得到第二詞語集合,包括:
選取至少一個所述輸入文本所屬的邏輯回歸模型的關聯邏輯回歸模型;
按照相同的第一分類的數量由大到小的對至少一個關聯邏輯回歸模型進行排序;
根據所述排序的順序選取關聯邏輯回歸模型對所述輸入文本進行分詞,得到第二詞語集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610221936.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種網頁地址生成方法和裝置
- 下一篇:錯誤樣本的修復語料生成方法和裝置





