[發明專利]內容真實性檢測模型的訓練方法、裝置和計算設備有效
| 申請號: | 202010042646.1 | 申請日: | 2020-01-15 |
| 公開(公告)號: | CN111259115B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 楊雷;雷濤 | 申請(專利權)人: | 車智互聯(北京)科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F40/289;G06F40/30;G06N3/0442;G06N3/0455;G06N3/048;G06N3/08 |
| 代理公司: | 北京思睿峰知識產權代理有限公司 11396 | 代理人: | 謝建云;趙愛軍 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 內容 真實性 檢測 模型 訓練 方法 裝置 計算 設備 | ||
1.一種內容真實性檢測模型的訓練方法,適于在計算設備中執行,所述計算設備中存儲有包括多個知識條目的知識庫,所述模型適于輸出答案的真實性概率,所述方法包括步驟:
獲取多條具有標簽數據的訓練樣本,所述訓練樣本包括問題、答案、與該問題和答案相關的屬性特征、以及與該問題和屬性特征相關的知識點特征,其中,所述標簽數據為答案是否真實,所述知識點特征為基于所述屬性特征和問題的關鍵詞在所述知識庫中查找到的n個知識條目;其中,所述與該問題和答案相關的屬性特征包括問題版塊、問題類型、提問者和回答者的用戶信息中的至少一種,所述用戶信息包括會員級別、發帖數目、回帖數目、回帖長度、回帖真實性中的至少一種;
將所述訓練樣本輸入待訓練的內容真實性檢測模型中進行處理,得到訓練樣本的預測概率,并基于所述標簽數據進行模型訓練,得到訓練后的內容真實性檢測模型;
其中,所述內容真實性檢測模型包括:
編碼器,適于生成所述訓練樣本中每項內容的詞向量;
語義提取模塊,適于基于每項內容的詞向量生成對應的語義向量;
融合模塊,適于將所有語義向量進行拼接融合;以及
預測模塊,適于從拼接融合后的語義向量中預測答案的真實性概率。
2.如權利要求1所述的方法,其中,查找所述知識點特征的步驟包括:
在所述知識庫中查找與所述屬性特征相關的多個知識條目;
基于所述問題的關鍵詞對所述多個知識條目進行排序,得到前n個知識條目作為所述知識點特征。
3.如權利要求1所述的方法,其中,所述計算設備中還存儲有問答庫,所述訓練樣本中的問題和答案從所述問答庫中獲取。
4.如權利要求1所述的方法,其中,所述編碼器包括:
第一編碼器,適于分別生成所述問題、答案和知識點特征對應的第一至第三詞向量;以及
第二編碼器,適于生成所述屬性特征對應的第四詞向量。
5.如權利要求4所述的方法,其中,所述語義提取模塊包括:
第一語義提取模塊,適于分別基于所述第一和第二詞向量,生成所述問題和答案對應的第一和第二語義向量;
第二語義提取模塊,適于基于所述第三詞向量,生成所述知識點特征對應的第三語義向量;以及
第一線性轉換模塊,適于基于所述第四詞向量,生成所述屬性特征對應的第四語義向量。
6.如權利要求5所述的方法,其中,所述第一語義提取模塊包括:
第一循環網絡,適于分別提取所述問題和答案的語義信息;以及
注意力網絡,與所述第一循環網絡相耦接,適于提取所述問題和答案之間的關聯權重,并基于該關聯權重生成所述第一和第二語義向量。
7.如權利要求5或6所述的方法,其中,
所述第二語義提取模塊為第二循環網絡;
所述預測模塊包括相互耦接的第二線性轉換模塊和Sigmoid函數。
8.如權利要求7所述的方法,其中,
所述第一編碼器為詞向量編碼,所述第二編碼器為獨熱編碼;
所述第一和第二循環網絡為雙向-長短時記憶網絡,所述注意力網絡為雙向注意力網絡;
所述第一和第二線性轉換模塊為神經網絡全連接層。
9.一種內容真實性檢測方法,適于在計算設備中執行,所述方法包括步驟:
獲取待測問題、待測答案、以及與該待測問題和待測答案相關的待測屬性特征;
基于所述待測屬性特征和待測答案,查找對應的待測知識點特征;
將所述待測問題、待測答案、待測屬性特征和待測知識點特征作為待測樣本,分別輸入到多個訓練后的內容真實性檢測模型中,得到多個真實性概率值;以及
通過對該多個真實性概率值進行比較,確定所述待測答案的真實性;
其中,所述內容真實性檢測模型采用如權利要求1-8中任一項所述的方法訓練生成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于車智互聯(北京)科技有限公司,未經車智互聯(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010042646.1/1.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





