[發(fā)明專利]模板自動生成的知識圖譜問答訓(xùn)練及應(yīng)用服務(wù)系統(tǒng)有效
| 申請?zhí)枺?/td> | 202010104143.2 | 申請日: | 2020-02-20 |
| 公開(公告)號: | CN111339269B | 公開(公告)日: | 2023-09-26 |
| 發(fā)明(設(shè)計)人: | 王杰;何韋澄;劉華根;馬勝雨;景永強 | 申請(專利權(quán))人: | 來康科技有限責(zé)任公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35;G06F16/36 |
| 代理公司: | 北京工信聯(lián)合知識產(chǎn)權(quán)代理有限公司 11266 | 代理人: | 白曉晰 |
| 地址: | 065001 河北*** | 國省代碼: | 河北;13 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 模板 自動 生成 知識 圖譜 問答 訓(xùn)練 應(yīng)用服務(wù) 系統(tǒng) | ||
本發(fā)明公開了一種模板自動生成的知識圖譜問答訓(xùn)練系統(tǒng),包括:謂詞詞典和類別詞典的構(gòu)建模塊,用于使用遠程監(jiān)督的方式分別構(gòu)建謂語詞典和類別詞典;骨干查詢生成模塊,用于獲取每一條訓(xùn)練問答對的主題實體和答案實體在知識圖譜中的子圖,使用變量代替子圖中的答案節(jié)點,形成骨干查詢;語義對齊模塊;用于使用依存句法分析和整形線性對齊技術(shù)將問句短語和主干查詢語義元素對齊;模板泛華模塊,將依存句法樹、骨干查詢、以及所述對應(yīng)關(guān)系作為模板存入模板庫;排序模型訓(xùn)練模塊,用于使用機器學(xué)習(xí)二分類器對每兩個匹配模板,根據(jù)匹配度高低進行分類學(xué)習(xí),獲取問句模板排序模型,解決現(xiàn)有技術(shù)人工成本高,問題覆蓋率低的問題。
技術(shù)領(lǐng)域
本申請涉及智能應(yīng)用領(lǐng)域,具體涉及一種模板自動生成的知識圖譜問答訓(xùn)練系統(tǒng),以及一種模板自動生成的知識圖譜問答應(yīng)用服務(wù)系統(tǒng)。
背景技術(shù)
基于問答模板的方法在知識圖譜問答中發(fā)揮重要的作用,該方法通過使用分詞、命名實體識別、謂詞檢測、類別檢測、問句類型分類、實體鏈接等方式對用戶自然語言問句進行語義特征抽取,利用獲取到的語義特征與模板庫中問句模板通過相似度或者排序算法進行匹配。模板匹配成功后利用自然語言問句中的實體、類別等信息對查詢模板(通常為SPARQL查詢語句)進行實例化繼而執(zhí)行知識查詢并返回結(jié)果。
基于問答模板的知識圖譜問答方法不僅可以較為清晰的追蹤整個問答過程還可以實現(xiàn)復(fù)雜問題的問答,但是傳統(tǒng)的基于模板的知識圖譜問答存在以下兩個問題:
1.依賴手工制定模板需要耗費大量的人工成本。
2.很難保證問題的覆蓋率。
發(fā)明內(nèi)容
本申請?zhí)峁┮环N模板自動生成的知識圖譜問答訓(xùn)練及應(yīng)用服務(wù)系統(tǒng),解決現(xiàn)有技術(shù)人工成本高,問題覆蓋率低的問題。
本申請?zhí)峁┮环N模板自動生成的知識圖譜問答訓(xùn)練系統(tǒng),其特征在于,包括:
謂詞詞典和類別詞典的構(gòu)建模塊,用于使用遠程監(jiān)督的方式分別構(gòu)建謂語詞典和類別詞典;
骨干查詢生成模塊,用于獲取每一條訓(xùn)練問答對的主題實體和答案實體在知識圖譜中的子圖,使用變量代替子圖中的答案節(jié)點,形成骨干查詢模塊;
依存句法分析和語義角色對齊模塊,依存句法分析模塊用于將句子分析成一棵依存句法樹,描述出各個詞語之間的依存關(guān)系;語義角色對齊模塊用于將問句中的短語映射到骨干查詢中提及的實體、關(guān)系、或者類別形成對應(yīng)關(guān)系。
模板泛華模塊,用于根據(jù)依存句法樹、骨干查詢、問句元素和骨干查詢元素間的對應(yīng)關(guān)系,將語義角色對齊后沒有被映射的問句依存樹節(jié)點和骨干查詢語義元素去除后,將依存句法樹、骨干查詢、以及所述對應(yīng)關(guān)系作為模板存入模板庫;
排序模型訓(xùn)練模塊,用于使用機器學(xué)習(xí)二分類器對每兩個匹配模板,根據(jù)匹配度高低進行分類學(xué)習(xí),獲取問句模板排序模型。
優(yōu)選的,使用遠程監(jiān)督的方式構(gòu)建謂語詞典,包括:
針對知識圖譜中的關(guān)系p,以C(p)={(s,o):(s,p,o)∈K}代表知識圖譜中所有與p相關(guān)的三元組,其中K表示知識圖譜;
若C(p)中的s和o兩個實體在同一句自然語言描述中被同時檢測到,則提取該句文本中兩個實體中間語言描述r;
按照遠程監(jiān)督的假設(shè)若(s,p,o)是知識圖譜中的三元組,則r表示p,將映射(r→p)添加到謂詞詞典Lp中;
將所述映射出現(xiàn)的次數(shù)與語料中所有關(guān)系被檢測到次數(shù)總和的商作為該映射的權(quán)重。
優(yōu)選的,使用遠程監(jiān)督的方式構(gòu)建類別詞典,包括:
針對知識圖譜中類別c,以C(c)={e:(e?type?c)∈K}表示知識圖譜中類別c的所有實體;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于來康科技有限責(zé)任公司,未經(jīng)來康科技有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010104143.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





