[發(fā)明專利]數(shù)據(jù)標(biāo)注方法、問答方法、裝置及電子設(shè)備有效
| 申請(qǐng)?zhí)枺?/td> | 202010464530.7 | 申請(qǐng)日: | 2020-05-27 |
| 公開(公告)號(hào): | CN111611781B | 公開(公告)日: | 2023-08-18 |
| 發(fā)明(設(shè)計(jì))人: | 常德杰;孔飛;劉邦長;谷書鋒;趙紅文;王燕華;張一坤;武云召;劉朝振;王海;劉紅霞;張航飛;季科 | 申請(qǐng)(專利權(quán))人: | 北京妙醫(yī)佳健康科技集團(tuán)有限公司 |
| 主分類號(hào): | G06F40/169 | 分類號(hào): | G06F40/169;G06F16/33 |
| 代理公司: | 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463 | 代理人: | 范彥揚(yáng) |
| 地址: | 100000 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù) 標(biāo)注 方法 問答 裝置 電子設(shè)備 | ||
本發(fā)明提供了一種數(shù)據(jù)標(biāo)注方法、問答方法、裝置及電子設(shè)備,數(shù)據(jù)標(biāo)注方法包括:獲取初始問題;在預(yù)先建立的問答庫中查找預(yù)設(shè)數(shù)量的與初始問題的相似度超過第一預(yù)設(shè)閾值的問題,將查找到的問題作為初始問題對(duì)應(yīng)的相似問題;將初始問題與初始問題對(duì)應(yīng)的相似問題組成問題對(duì);根據(jù)問題對(duì)的相似度對(duì)問題對(duì)進(jìn)行標(biāo)注。本發(fā)明能夠在適用于更多場景的同時(shí)提高標(biāo)注結(jié)果的準(zhǔn)確性。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其是涉及一種數(shù)據(jù)標(biāo)注方法、問答方法、裝置及電子設(shè)備。
背景技術(shù)
隨著深度學(xué)習(xí)的發(fā)展,數(shù)據(jù)集作為深度學(xué)習(xí)模型訓(xùn)練的基石和原料也變的越來越重要。現(xiàn)有的基于深度學(xué)習(xí)的問答系統(tǒng)的流程為當(dāng)用戶詢問一個(gè)問題時(shí),該系統(tǒng)的核模塊-意圖判定模塊判斷該問題的意圖,并進(jìn)行相應(yīng)的處理,因此需要一個(gè)數(shù)據(jù)集來訓(xùn)練該模塊,在建立數(shù)據(jù)集時(shí)則需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)注。現(xiàn)有的數(shù)據(jù)標(biāo)注方法大多采用關(guān)鍵詞映射的方式,即一個(gè)關(guān)鍵詞對(duì)應(yīng)一個(gè)意圖,這種方法只適用于意圖簡單或者意圖不多的場景,當(dāng)意圖較多時(shí),很難通過人工標(biāo)注得到映射列表,同時(shí)通過人工主觀判斷進(jìn)行標(biāo)注會(huì)導(dǎo)致標(biāo)注結(jié)果準(zhǔn)確性差。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種數(shù)據(jù)標(biāo)注方法、問答方法、裝置及電子設(shè)備,能夠在適用于更多場景的同時(shí)提高標(biāo)注結(jié)果的準(zhǔn)確性。
第一方面,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)標(biāo)注方法,包括:獲取初始問題;在預(yù)先建立的問答庫中查找預(yù)設(shè)數(shù)量的與初始問題的相似度超過第一預(yù)設(shè)閾值的問題,將查找到的問題作為初始問題對(duì)應(yīng)的相似問題;將初始問題與初始問題對(duì)應(yīng)的相似問題組成問題對(duì);根據(jù)問題對(duì)的相似度對(duì)問題對(duì)進(jìn)行標(biāo)注。
在一種實(shí)施方式中,根據(jù)問題對(duì)的相似度對(duì)問題對(duì)進(jìn)行標(biāo)注的步驟,包括:如果問題對(duì)中的初始問題和相似問題之間的題干相似度小于第二預(yù)設(shè)閾值,且問題對(duì)中的初始問題和相似問題之間的意圖相似度大于第三預(yù)設(shè)閾值,將問題對(duì)標(biāo)注為第一值;如果問題對(duì)中的初始問題和相似問題之間的題干相似度大于第二預(yù)設(shè)閾值,且問題對(duì)中的初始問題和相似問題之間的意圖相似度小于第三預(yù)設(shè)閾值,將問題對(duì)標(biāo)注為第二值。
在一種實(shí)施方式中,初始問題的數(shù)量為多個(gè),方法還包括:將初始問題按照預(yù)設(shè)類別劃分為多類,得到不同分類類別的初始問題;根據(jù)問題對(duì)的相似度對(duì)問題對(duì)進(jìn)行標(biāo)注的步驟,包括:基于問題對(duì)中初始問題的分類類別和問題對(duì)的相似度,對(duì)問題對(duì)進(jìn)行標(biāo)注。
在一種實(shí)施方式中,方法還包括:如果相似問題的數(shù)量小于預(yù)設(shè)數(shù)量,獲取指定數(shù)量的問題作為補(bǔ)充問題;其中,指定數(shù)量為預(yù)設(shè)數(shù)量與相似問題的數(shù)量的差值。
在一種實(shí)施方式中,問題對(duì)的數(shù)量為多個(gè),方法還包括:將已標(biāo)注的多個(gè)問題對(duì)按照預(yù)設(shè)比例進(jìn)行劃分,得到訓(xùn)練集、測試集和驗(yàn)證集;訓(xùn)練集、測試集和驗(yàn)證集均包括多個(gè)已標(biāo)注的問題對(duì)。
第二方面,本發(fā)明實(shí)施例提供了一種問答方法,包括:獲取待回答問題;基于意圖判斷模型和預(yù)先建立的問答庫確定待回答問題的答案;其中,意圖判斷模型是采用預(yù)先建立的相似問題數(shù)據(jù)庫訓(xùn)練得到的;相似問題數(shù)據(jù)庫中包含多個(gè)問題對(duì),問題對(duì)是采用上述第一方面提供的任一項(xiàng)的方法進(jìn)行標(biāo)注的;問答庫中包含有問題和答案的對(duì)應(yīng)關(guān)系。
第三方面,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)標(biāo)注裝置,包括:問題獲取模塊,用于獲取初始問題;問題查找模塊,用于在預(yù)先建立的問答庫中查找預(yù)設(shè)數(shù)量的與初始問題的相似度超過第一預(yù)設(shè)閾值的問題,將查找到的問題作為初始問題對(duì)應(yīng)的相似問題;問題對(duì)獲取模塊,用于將初始問題與初始問題對(duì)應(yīng)的相似問題組成問題對(duì);標(biāo)注模塊,用于根據(jù)問題對(duì)的相似度對(duì)問題對(duì)進(jìn)行標(biāo)注。
第四方面,本發(fā)明實(shí)施例提供了一種問答裝置,包括:獲取模塊,用于獲取待回答問題;答案確定模塊,用于基于意圖判斷模型和預(yù)先建立的問答庫確定待回答問題的答案;其中,意圖判斷模型是采用預(yù)先建立的相似問題數(shù)據(jù)庫訓(xùn)練得到的;相似問題數(shù)據(jù)庫中包含多個(gè)問題對(duì),問題對(duì)是采用上述第一方面提供的任一項(xiàng)的方法進(jìn)行標(biāo)注的;問答庫中包含有問題和答案的對(duì)應(yīng)關(guān)系。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京妙醫(yī)佳健康科技集團(tuán)有限公司,未經(jīng)北京妙醫(yī)佳健康科技集團(tuán)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010464530.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 標(biāo)注信息生成裝置、查詢裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語料庫數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲(chǔ)介質(zhì)、處理器以及運(yùn)載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺(tái)的方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 用于生成動(dòng)態(tài)幫助文檔的方法和系統(tǒng)
- 建立問答文本評(píng)價(jià)模型與評(píng)價(jià)問答文本的方法、裝置
- 基于學(xué)生問答方式的在線教育系統(tǒng)
- 一種問答輸入的智能提示方法、裝置和終端設(shè)備
- 一種通用的智能問答自動(dòng)化運(yùn)維系統(tǒng)及方法
- 自動(dòng)問答方法、裝置、可讀存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種基于知識(shí)圖譜的智能問答引擎及其實(shí)現(xiàn)方法
- 基于人工智能技術(shù)的類腦問答系統(tǒng)
- 一種基于語義分析技術(shù)的專業(yè)制度檔案問答機(jī)器人系統(tǒng)
- 一種視覺問答方法、系統(tǒng)及服務(wù)器





