[發明專利]基于人工智能的詞分類模型訓練方法、詞處理方法及裝置有效
| 申請號: | 202010170529.3 | 申請日: | 2020-03-12 |
| 公開(公告)號: | CN111401066B | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 邵紀春;孫鐘前;胡海峰 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 崔曉嵐;張穎玲 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 人工智能 分類 模型 訓練 方法 處理 裝置 | ||
本發明提供了一種基于人工智能的詞分類模型訓練方法、詞處理方法、裝置、電子設備及存儲介質;方法包括:獲取由多個種子實體詞組成的種子實體詞集合;其中,所述多個種子實體詞屬于待挖掘實體類型;將所述種子實體詞集合內的任意兩個種子實體詞進行組合,得到正例樣本對;獲取包括所述種子實體詞的歷史文本,并根據所述種子實體詞和排除所述種子實體詞的所述歷史文本,構建負例樣本對;通過所述正例樣本對和所述負例樣本對更新詞分類模型;其中,更新后的所述詞分類模型用于確定待識別實體詞屬于所述待挖掘實體類型的概率。通過本發明,能夠提升模型訓練樣本的豐富性,降低實體挖掘所需要的語料標注成本,同時也能夠提升詞分類模型的訓練效果。
技術領域
本發明涉及人工智能技術,尤其涉及一種基于人工智能的詞分類模型訓練方法、詞處理方法、裝置、電子設備及存儲介質。
背景技術
人工智能(AI,Artificial Intelligence)是利用數字計算機或者數字計算機控制的機器模擬、延伸和擴展人的智能,感知環境、獲取知識并使用知識獲得最佳結果的理論、方法和技術及應用系統。自然語言處理(NLP,Nature Language Processing)是人工智能的一個重要方向,主要研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。
實體詞分類是自然語言處理的一個重要應用,通過確定文本中實體詞所屬的實體類型,從而能從文本中提取出有意義的信息。在相關技術提供的方案中,通常是采用基于Bootstrapping的規則模板擴展方式,來識別實體詞的實體類型,其核心思路是根據已知文本類型的實體詞構建規則模板,通過規則模板對相關文本中的實體詞進行分類,并根據分類后的實體詞更新規則模板。但是,由于初始的實體詞數量往往較少,導致通過該種方式構建的規則模板太過寬泛,進行實體詞分類的準確性較低。
發明內容
本發明實施例提供一種基于人工智能的詞分類模型訓練方法、詞處理方法、裝置、電子設備及存儲介質,能夠提升進行實體詞分類的準確性,便于進行實體詞挖掘。
本發明實施例的技術方案是這樣實現的:
本發明實施例提供一種基于人工智能的詞分類模型訓練方法,包括:
獲取由多個種子實體詞組成的種子實體詞集合;其中,所述多個種子實體詞屬于待挖掘實體類型;
將所述種子實體詞集合內的任意兩個種子實體詞進行組合,得到正例樣本對;
獲取包括所述種子實體詞的歷史文本,并
根據所述種子實體詞和排除所述種子實體詞的所述歷史文本,構建負例樣本對;
通過所述正例樣本對和所述負例樣本對更新詞分類模型;
其中,更新后的所述詞分類模型用于確定待識別實體詞屬于所述待挖掘實體類型的概率。
本發明實施例提供一種基于詞分類模型的詞處理方法,包括:
對待處理文本進行分詞處理,得到待識別實體詞;
將種子實體詞集合中的種子實體詞與所述待識別實體詞進行組合,得到待處理樣本對;其中,所述種子實體詞屬于待挖掘實體類型;
通過所述詞分類模型對所述待處理樣本對進行預測處理,得到所述待識別實體詞對應的預測概率;
將預測概率滿足篩選條件的所述待識別實體詞,確定為屬于所述待挖掘實體類型。
本發明實施例提供一種基于人工智能的詞分類模型訓練方法,包括:
獲取由多個醫療實體詞組成的醫療實體詞集合;其中,所述多個醫療實體詞屬于醫療實體類型;
將所述醫療實體詞集合內的任意兩個醫療實體詞進行組合,得到正例樣本對;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010170529.3/2.html,轉載請聲明來源鉆瓜專利網。





