[發(fā)明專利]用于輸出信息的方法和裝置有效
| 申請?zhí)枺?/td> | 201910738514.X | 申請日: | 2019-08-12 |
| 公開(公告)號: | CN110457325B | 公開(公告)日: | 2022-05-03 |
| 發(fā)明(設(shè)計)人: | 秦華鵬;程健一;趙岷 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/28 |
| 代理公司: | 北京英賽嘉華知識產(chǎn)權(quán)代理有限責(zé)任公司 11204 | 代理人: | 王達(dá)佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 輸出 信息 方法 裝置 | ||
本公開的實施例公開了用于輸出信息的方法和裝置。該方法的一具體實施方式包括:基于從目標(biāo)知識體系獲得的至少一對上下位詞擴(kuò)展概念體系,其中,概念體系是預(yù)先構(gòu)建的有向無環(huán)圖結(jié)構(gòu)的樹狀概念層次網(wǎng)絡(luò),有向無環(huán)圖中的節(jié)點是概念,節(jié)點間的邊是可傳遞的概念上下位關(guān)系;基于擴(kuò)展后的概念體系構(gòu)造訓(xùn)練樣本;基于擴(kuò)展后的概念體系構(gòu)建概念轉(zhuǎn)向量模型;基于訓(xùn)練樣本訓(xùn)練概念轉(zhuǎn)向量模型,輸出訓(xùn)練好的每個概念的特征向量。該實施方式解決了將概念體系的樹狀層次結(jié)構(gòu)嵌入到向量空間的問題,同時通過引入外部詞類信息的方式,補充概念體系中的上下位關(guān)系,解決概念體系中上下位不足導(dǎo)致的概念特征訓(xùn)練不充分的問題。
技術(shù)領(lǐng)域
本公開的實施例涉及計算機(jī)技術(shù)領(lǐng)域,具體涉及輸出信息的方法和裝置。
背景技術(shù)
概念體系是現(xiàn)實知識的樹形結(jié)構(gòu)表示,它主要描述了詞的上下位關(guān)系,如“演員”的上位是“人物”,“電影”的上位是“作品”等。實際上概念體系難以做到完全覆蓋現(xiàn)實世界的知識,其中會存在一些概念的上下位不夠豐富,如一些領(lǐng)域?qū)I(yè)術(shù)語等。
在文本處理任務(wù)中,文本特征需要具備較好的泛化性能,即相似但不同的兩個文本需要具有相似的語義特征,從而在文本處理任務(wù)中引入語義信息,提高算法的效果。概念體系之中,概念的層級結(jié)構(gòu)即代表了語義結(jié)構(gòu),將概念層級結(jié)構(gòu)嵌入到向量空間中,可以使之捕捉到上下位相似性,則可以在文本處理任務(wù)中引入上下位特征,從而提高文本處理算法的泛化能力。
概念關(guān)系特征表示目前普遍采用如下三種方案來解決:
方案(1)基于上下文語料訓(xùn)練詞向量,通過詞語在語料中的上下文共現(xiàn)信息計算詞語的相似性。不能捕捉到概念的層次泛化關(guān)系。
方案(2)基于知識圖譜訓(xùn)練實體向量,通過知識圖譜中三元組共現(xiàn)信息計算實體的相似性。同樣不能捕捉到概念的層次泛化關(guān)系。
方案(3)雖然能捕捉到概念層次的泛化關(guān)系,但當(dāng)收錄不足時,其底層節(jié)點難以訓(xùn)練充分,這些節(jié)點的向量表示難以準(zhǔn)確學(xué)習(xí)到概念體系的層次泛化關(guān)系。
發(fā)明內(nèi)容
本公開的實施例提出了用于輸出信息的方法和裝置。
第一方面,本公開的實施例提供了一種用于輸出信息的方法,包括:基于從目標(biāo)知識體系獲得的至少一對上下位詞擴(kuò)展概念體系,其中,概念體系是預(yù)先構(gòu)建的有向無環(huán)圖結(jié)構(gòu)的樹狀概念層次網(wǎng)絡(luò),有向無環(huán)圖中的節(jié)點是概念,節(jié)點間的邊是可傳遞的概念上下位關(guān)系;基于擴(kuò)展后的概念體系構(gòu)造訓(xùn)練樣本;基于擴(kuò)展后的概念體系構(gòu)建概念轉(zhuǎn)向量模型;基于訓(xùn)練樣本訓(xùn)練概念轉(zhuǎn)向量模型,輸出訓(xùn)練好的每個概念的特征向量。
在一些實施例中,基于從目標(biāo)知識體系獲得的至少一對上下位詞擴(kuò)展概念體系,包括:將百科數(shù)據(jù)的上位體系與概念體系直接映射,構(gòu)造至少一對上下位詞直接補充到概念體系中。
在一些實施例中,基于從目標(biāo)知識體系獲得的至少一對上下位詞擴(kuò)展概念體系,包括:從專業(yè)資料中獲取垂直領(lǐng)域的知識體系,利用上位預(yù)測模型或文本匹配等方式關(guān)聯(lián)到概念體系的節(jié)點上,將之補充到概念體系中。
在一些實施例中,基于從目標(biāo)知識體系獲得的至少一對上下位詞擴(kuò)展概念體系,包括:從搜索文本中挖掘詞匯,使用序列標(biāo)注模型預(yù)測這些詞匯的概念上位,并去掉命名實體,篩選結(jié)果補充到概念體系中。
在一些實施例中,基于擴(kuò)展后的概念體系構(gòu)造訓(xùn)練樣本,包括:將有向無環(huán)圖轉(zhuǎn)換成概念體系樹;根據(jù)概念體系樹的每個節(jié)點的最相似節(jié)點集以及節(jié)點的上下位關(guān)系,構(gòu)造每個節(jié)點與概念體系樹中其他節(jié)點的相似度的偏序關(guān)系;基于上述偏序關(guān)系,對于每一個節(jié)點,構(gòu)造該節(jié)點的采樣集合,在該節(jié)點的采樣集合中采樣得到該節(jié)點的訓(xùn)練樣本。
在一些實施例中,在該節(jié)點的采樣集合中采樣得到該節(jié)點的訓(xùn)練樣本,包括:若該節(jié)點的后代節(jié)點集中節(jié)點數(shù)量不小于最少樣本量,則將該節(jié)點的后代節(jié)點集作為該節(jié)點的訓(xùn)練樣本;否則,根據(jù)偏序關(guān)系補充訓(xùn)練樣本。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910738514.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





