[發明專利]單輪對話中的命名實體識別方法、裝置、設備及介質在審
| 申請號: | 201911338110.8 | 申請日: | 2019-12-23 |
| 公開(公告)號: | CN110969021A | 公開(公告)日: | 2020-04-07 |
| 發明(設計)人: | 簡仁賢;吳文杰;李強;劉影 | 申請(專利權)人: | 竹間智能科技(上海)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295 |
| 代理公司: | 北京挺立專利事務所(普通合伙) 11265 | 代理人: | 田黎絨 |
| 地址: | 200233 上海市徐*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 輪對 中的 命名 實體 識別 方法 裝置 設備 介質 | ||
本發明公開了單輪對話中的命名實體識別方法、裝置、設備及介質,所述方法包括步驟一、采集單輪對話中發問方的一句問句數據,采集單輪對話中回答方的一句對問句數據進行回答的答句數據;步驟二、將步驟一中采集的問句數據和答句數據合成為一句單輪對話數據;步驟三、將步驟二中合成的一句單輪對話數據輸入至命名實體識別模型,識別出答句數據的命名實體識別結果。本發明能夠在一定程度上解決單輪對話中句子命名實體識別真歧義的問題。
技術領域
本發明屬于計算機數據處理技術領域,尤其涉及一種單輪對話中的命名實體識別方法、裝置、設備及介質。
背景技術
命名實體識別(Named Entity Recognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。現有的對話系統中的命名實體識別都是單句子的,并沒有利用單輪對話中的信息。在對話系統中,用戶的句子通常不會很長,所以在進行命名實體識別時候,單從當前的句子中是無法對一些有真歧義的專有詞識別其類型的,比如有一個地名叫黃龍,有一個人名也叫黃龍,所以當一個句子是:“黃龍”時,這里的“黃龍”是標注成地名還是人名呢,如果從單句子看,標成哪一種類型都是對的,這個就是有真歧義的,目前是沒有技術來解決的。
發明內容
本發明所要解決的技術問題在于針對上述現有技術中的不足,提供單輪對話中的命名實體識別方法、裝置、設備及介質,能夠在一定程度上解決單輪對話中句子命名實體識別真歧義的問題。
為解決上述技術問題,本發明采用的技術方案是:本發明第一方面公開了一種單輪對話中的命名實體識別方法,包括以下步驟:
步驟一、采集單輪對話中發問方的一句問句數據,采集單輪對話中回答方的一句對問句數據進行回答的答句數據;
步驟二、將步驟一中采集的問句數據和答句數據合成為一句單輪對話數據;
步驟三、將步驟二中合成的一句單輪對話數據輸入至命名實體識別模型,識別出答句數據的命名實體識別結果。
上述單輪對話中的命名實體識別方法,步驟三中命名實體識別模型為經過訓練的序列標注算法模型。
上述單輪對話中的命名實體識別方法,所述序列標注算法模型為HMM模型、CRF模型或Deep Learning模型。
上述單輪對話中的命名實體識別方法,步驟三中將步驟二中合成的一句單輪對話數據輸入至命名實體識別模型前,將單輪對話數據轉換為文本數據,然后將該文本數據輸入至命名實體識別模型。
本發明第二方面公開了一種單輪對話中的命名實體識別裝置,包括數據采集模塊、數據合成模塊和命名實體識別模塊;
所述數據采集模塊,用于采集單輪對話中發問方的一句問句數據,還用于采集單輪對話中回答方的一句對問句數據進行回答的答句數據;
所述數據合成模塊,用于將數據采集模塊采集的問句數據和答句數據合成為一句單輪對話數據;
所述命名實體識別模塊,用于將數據合成模塊合成的一句單輪對話數據輸入至命名實體識別模型,識別出答句數據的命名實體識別結果。
上述單輪對話中的命名實體識別裝置,所述命名實體識別模型為經過訓練的序列標注算法模型。
上述單輪對話中的命名實體識別裝置,所述序列標注算法模型為HMM模型、CRF模型或Deep Learning模型。
上述單輪對話中的命名實體識別裝置,所述命名實體識別模塊包括數據轉換單元,所述數據轉換單元用于將數據合成模塊合成的一句單輪對話數據轉換為文本數據,然后輸入至命名實體識別模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于竹間智能科技(上海)有限公司,未經竹間智能科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911338110.8/2.html,轉載請聲明來源鉆瓜專利網。





