[發(fā)明專利]基于百科數(shù)據(jù)的軍事知識圖譜構(gòu)建和問答方法在審
| 申請?zhí)枺?/td> | 202011489243.8 | 申請日: | 2020-12-16 |
| 公開(公告)號: | CN112667821A | 公開(公告)日: | 2021-04-16 |
| 發(fā)明(設(shè)計)人: | 路曉波;張可新;游若平 | 申請(專利權(quán))人: | 北京華如慧云數(shù)據(jù)科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F16/332;G06F16/28;G06F16/951;G06F16/953;G06F40/247;G06F40/295 |
| 代理公司: | 北京豐浩知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11781 | 代理人: | 李學(xué)康 |
| 地址: | 100094 北京市海淀區(qū)永豐*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 百科 數(shù)據(jù) 軍事 知識 圖譜 構(gòu)建 問答 方法 | ||
本發(fā)明公開了一種基于百科數(shù)據(jù)的軍事知識圖譜構(gòu)建和問答方法,通過在知識圖譜的構(gòu)建過程中以百科數(shù)據(jù)作為數(shù)據(jù)源,過濾篩選軍事類實體,豐富擴(kuò)展實體,在問答過程中,采用基于答案排序的方法,在問句的實體識別階段,添加實體名稱的同義詞,擴(kuò)大篩選范圍,保證返回結(jié)果的準(zhǔn)確性。其優(yōu)點(diǎn)是:在知識圖譜構(gòu)建階段,使用開源的百科數(shù)據(jù)自動構(gòu)建,不需要依賴專家知識,也不需要投入大量的人力物力;同時由于采用的百科數(shù)據(jù)的豐富性和及時性,能夠保證構(gòu)建的知識庫信息豐富充足;在問答階段,在基于答案排序的方法基礎(chǔ)上,引入百科詞條名稱的同義詞,擴(kuò)充實體數(shù)量,采用多階段處理的方法,保證結(jié)果更快更準(zhǔn)確。
技術(shù)領(lǐng)域
本發(fā)明屬于人工智能中的自然語言處理技術(shù)領(lǐng)域,具體涉及基于百科數(shù)據(jù)的軍事知識圖譜構(gòu)建和問答方法。
背景技術(shù)
問答是計算機(jī)與人類以自然語言的形式進(jìn)行交流的一種方式,是人工智能領(lǐng)域的一個分支,在語義搜索、問答系統(tǒng)、智能客服、個性化推薦等互聯(lián)網(wǎng)應(yīng)用中占有重要地位。互聯(lián)網(wǎng)的快速發(fā)展,導(dǎo)致網(wǎng)絡(luò)上的信息量呈現(xiàn)出爆炸式增長的勢頭,準(zhǔn)確的問答搜索方法顯得尤為重要。2012年5月,谷歌首次提出知識圖譜的概念,很快互聯(lián)網(wǎng)巨頭紛紛跟進(jìn),構(gòu)建了自己的知識圖譜,包括微軟Probase、百度知心、搜狗知立方等,各個行業(yè)也在探索建立垂直領(lǐng)域的知識圖譜。
傳統(tǒng)的軍事領(lǐng)域知識圖譜,基本都是人工構(gòu)建,人工構(gòu)建知識體系是一個耗時、昂貴、高度技巧化的任務(wù),并且構(gòu)造的過程煩瑣而枯燥,很容易出錯。因此自動的從數(shù)據(jù)中學(xué)習(xí)知識體系具有重要的意義。百科數(shù)據(jù)是由成千上萬的網(wǎng)絡(luò)用戶共同編輯得到的,其包含的知識范圍非常廣泛。由于百科知識是開放編輯的,因此知識的更新和新知識的添加都比較及時。典型的代表有百度百科、互動百科、Wikipedia等。
基于知識圖譜的問答主要分為基于語義分析和基于答案排序的方法兩類。絕大多數(shù)基于語義分析的知識圖譜問答需要帶有語義標(biāo)注的問題集合作為訓(xùn)練數(shù)據(jù)。這類數(shù)據(jù)需要花費(fèi)的時間和成本很高,而且要求標(biāo)注人員對語義表示有一定程度的理解。基于答案排序的知識圖譜問答將該任務(wù)看成一個信息檢索任務(wù),即給定輸入問題Q和知識圖譜KB,通過對KB中實體進(jìn)行打分和排序,選擇得分最高的實體或者實體集合作為答案輸出。傳統(tǒng)的基于答案排序的方法需要較強(qiáng)的約束條件,在普適性上又不如基于語義分析方法。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于百科數(shù)據(jù)的軍事知識圖譜構(gòu)建和問答方法,它能夠克服現(xiàn)有技術(shù)中存在的缺陷,在知識圖譜的構(gòu)建過程中以百科數(shù)據(jù)作為數(shù)據(jù)源,過濾篩選軍事類實體,豐富擴(kuò)展實體,在問答過程中,采用基于答案排序的方法,在問句的實體識別階段,添加實體名稱的同義詞,擴(kuò)大篩選范圍,保證返回結(jié)果的準(zhǔn)確性。
本發(fā)明的技術(shù)方案如下:基于百科數(shù)據(jù)的軍事知識圖譜構(gòu)建和問答方法,包括如下步驟:
步驟1:爬取百科的分類數(shù)據(jù),將上述的分類數(shù)據(jù)視作概念數(shù)據(jù),將爬取后的分類數(shù)據(jù)添加到圖數(shù)據(jù)庫中,同時建立概念之間的從屬關(guān)系;
步驟2:迭代批量讀取、處理百科數(shù)據(jù),所述的百科數(shù)據(jù)是百科詞條的集合,提取出百科詞條中的同一實體名稱的多種表述,所述的同一實體名稱的多種表述稱之為同義詞,將這些同義詞添加到圖數(shù)據(jù)庫中,同時建立實體名稱和它的同義詞之間的關(guān)系;
步驟3:使用ElasticSearch創(chuàng)建擴(kuò)展實體的搜索庫,在ElasticSearch中,創(chuàng)建索引,配置中文分詞引擎,將所有的百科數(shù)據(jù)導(dǎo)入ElasticSearch中,創(chuàng)建擴(kuò)展實體的搜索庫;
步驟4:解析處理百科數(shù)據(jù),提取實體信息,添加更新同義詞數(shù)據(jù),采用規(guī)則和文本分類的方法過濾軍事實體,添加更新軍事類實體信息到圖數(shù)據(jù)庫中,建立實體與概念之間的關(guān)系,處理軍事實體信息關(guān)聯(lián)的擴(kuò)展實體信息,搜索獲取擴(kuò)展實體信息,判斷類別,添加擴(kuò)展信息到圖數(shù)據(jù)庫,建立實體與拓展實體之間的關(guān)系;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京華如慧云數(shù)據(jù)科技有限公司,未經(jīng)北京華如慧云數(shù)據(jù)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011489243.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)百科數(shù)據(jù)獲取方法及系統(tǒng)
- 網(wǎng)絡(luò)百科內(nèi)容形成方法、網(wǎng)絡(luò)服務(wù)器和客戶端
- 一種信息處理方法及終端
- 面向語義網(wǎng)的中文百科知識組織與集成方法
- 基于百科詞條構(gòu)建問答知識庫數(shù)據(jù)項的方法和裝置
- 一種百科內(nèi)容輸入方法及系統(tǒng)
- 一種信息展示的方法、裝置以及計算機(jī)存儲介質(zhì)
- 融合維基知識的變分半監(jiān)督百度百科分類方法
- 百科詞條的展示方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品
- 一種信息處理的方法、裝置以及計算機(jī)存儲介質(zhì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種特種燃料發(fā)動機(jī)引動力的多功能軍事坦克
- 一種基于大空間虛擬現(xiàn)實的多兵軍事訓(xùn)練考核系統(tǒng)
- 一種基于通用內(nèi)核本體的軍事領(lǐng)域本體構(gòu)建方法
- 一種軍事人員數(shù)據(jù)管理系統(tǒng)和方法
- 一種結(jié)合詞典的軍事想定文書實體信息抽取方法及裝置
- 一種用于軍事態(tài)勢建模的軍事對象表達(dá)裝置
- 一種基于多源數(shù)據(jù)融合模型的軍事訓(xùn)練水平綜合評估方法
- 一種軍事案例數(shù)據(jù)管理方法
- 一種軍事知識圖譜構(gòu)建方法及系統(tǒng)
- 多源軍事裝備知識關(guān)聯(lián)組織方法





