[發(fā)明專(zhuān)利]一種語(yǔ)句的語(yǔ)義抽象化表示方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202010828329.2 | 申請(qǐng)日: | 2020-08-18 |
| 公開(kāi)(公告)號(hào): | CN111737974B | 公開(kāi)(公告)日: | 2020-12-04 |
| 發(fā)明(設(shè)計(jì))人: | 徐芳;鄭茂盛;杜向陽(yáng) | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京擎盾信息科技有限公司 |
| 主分類(lèi)號(hào): | G06F40/211 | 分類(lèi)號(hào): | G06F40/211;G06F40/30;G06F40/289;G06F16/332;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京中和立達(dá)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11756 | 代理人: | 楊磊 |
| 地址: | 100070 北京市豐臺(tái)區(qū)南*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語(yǔ)句 語(yǔ)義 抽象化 表示 方法 裝置 | ||
本發(fā)明公開(kāi)了一種語(yǔ)句的語(yǔ)義抽象化表示方法及裝置,其中,方法包括:獲取目標(biāo)語(yǔ)句,并對(duì)目標(biāo)語(yǔ)句進(jìn)行預(yù)處理操作,得到處理后的語(yǔ)句,其中,所述預(yù)處理操作包括分詞操作和詞性標(biāo)注操作;從所述處理后的語(yǔ)句中提取多種特征,其中,所述特征包括以下至少一項(xiàng):詞語(yǔ)級(jí)別的特征、詞性特征、依存特征和Bert獲取到的詞語(yǔ)的上下文相關(guān)特征;對(duì)所述多種特征進(jìn)行聯(lián)合編碼,以獲取所述語(yǔ)句的最終向量;對(duì)所述最終向量進(jìn)行解碼,以生成所述語(yǔ)句中不同詞語(yǔ)之間的依賴關(guān)系;根據(jù)所述不同詞語(yǔ)之間的依賴關(guān)系生成所述語(yǔ)句對(duì)應(yīng)的抽象語(yǔ)義圖。通過(guò)該技術(shù)方案,在不損失語(yǔ)義信息的基礎(chǔ)上提高抽象語(yǔ)義表示的正確率。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,更具體地,涉及一種語(yǔ)句的語(yǔ)義抽象化表示方法及裝置。
背景技術(shù)
在法律領(lǐng)域中,多輪問(wèn)答重點(diǎn)在于掌握問(wèn)句的“問(wèn)意”,如果將“問(wèn)意”作為一個(gè)核心點(diǎn),則句子中的其他成分都圍繞該節(jié)點(diǎn)進(jìn)行展開(kāi),和核心節(jié)點(diǎn)相近的詞是問(wèn)句中和問(wèn)意最相關(guān)的;對(duì)問(wèn)句的虛詞和沒(méi)有實(shí)際意義的詞語(yǔ)進(jìn)行刪減,刪減后如果將和“問(wèn)意”意義相近程度進(jìn)行展開(kāi),則該句子的語(yǔ)義就可以構(gòu)成一個(gè)只有一個(gè)根節(jié)點(diǎn)的有向圖,該有向圖中節(jié)點(diǎn)的子節(jié)點(diǎn)表示對(duì)當(dāng)前節(jié)點(diǎn)的修飾,在問(wèn)答中用于填槽。在自然語(yǔ)言處理(NaturalLanguage Processing, NLP)中,這種將句子的語(yǔ)義表達(dá)為只有一個(gè)根節(jié)點(diǎn)的有向圖的方法為抽象語(yǔ)義表示(Abstract Meaning Representation, AMR)。
抽象語(yǔ)義表示是一種句子語(yǔ)義表示方法,指的是將一個(gè)句子的語(yǔ)義表示為一個(gè)圖,其中該圖只有一個(gè)根節(jié)點(diǎn)的有向圖,且不存在環(huán)路。在 AMR 圖中,通常,一個(gè)節(jié)點(diǎn)對(duì)應(yīng)于一個(gè)概念(Concept),在特殊情況下,某些專(zhuān)有名詞是一個(gè)子圖,該子圖整體對(duì)應(yīng)于一個(gè)概念,語(yǔ)義概念之間的語(yǔ)義關(guān)系則對(duì)應(yīng)于相應(yīng)節(jié)點(diǎn)之間的有向邊。
在自然語(yǔ)言處理中,和AMR比較相似的是句法分析(Syntactic Parsing)和語(yǔ)義分析(Semantic Parsing)任務(wù)。句法分析旨在確定句子的句法結(jié)構(gòu)或者句子中詞匯之間的句法關(guān)系,主要包括成分結(jié)構(gòu)分析(Constituent Structure Parsing)和依存關(guān)系分析(Dependency Parsing)等任務(wù)。語(yǔ)義分析旨在理解整個(gè)文本所要表達(dá)的真實(shí)語(yǔ)義。針對(duì)不同的研究對(duì)象,語(yǔ)義分析又可以分為詞匯級(jí)語(yǔ)義分析、句子級(jí)語(yǔ)義分析和篇章級(jí)語(yǔ)義分析。語(yǔ)義分析是自然語(yǔ)言處理最重要的基本任務(wù),也是許多自然語(yǔ)言處理上層應(yīng)用,如問(wèn)答(Question Answering)、對(duì)話(Dialogue)等的重要基礎(chǔ)。和句法分析、語(yǔ)義分析不同的是AMR重點(diǎn)在于句子中語(yǔ)義的層次關(guān)系。
通常,在實(shí)際應(yīng)用中,一個(gè)句子中的若干虛詞或者非核心詞在句子中并沒(méi)有起到任何的作用,因此我們?cè)噲D用核心詞或者命名實(shí)體等構(gòu)成詞鏈或者核心詞圖來(lái)表達(dá)句子的完整語(yǔ)義,然而,語(yǔ)義分析是自然語(yǔ)言處理領(lǐng)域亟待突破的瓶頸。想要做到更加精準(zhǔn)的語(yǔ)義分析,一個(gè)功能完善的語(yǔ)義表示方法是不可或缺的。而AMR這一新型的句子語(yǔ)義表示方法,基本具備較完整、較準(zhǔn)確地表示一個(gè)句子語(yǔ)義的能力,因此在語(yǔ)義研究界備受關(guān)注,但是目前AMR是基于通用語(yǔ)料,并制訂了相關(guān)的標(biāo)注方法,針對(duì)法律領(lǐng)域的句子語(yǔ)義表示還沒(méi)有被廣泛關(guān)注,同時(shí)AMR結(jié)構(gòu)中還是保留了所有的詞,造成了一定的信息冗余。
現(xiàn)有的AMR 解析主要有兩類(lèi)主流方法:基于圖(graph-based)的 AMR 解析方法和基于轉(zhuǎn)移(transition-based)的 AMR 解析方法。基于圖的方法從左向右解析句子,針對(duì)句中的每個(gè)詞,找該詞的head詞(head指的是該詞的父節(jié)點(diǎn))以及從該詞到head詞之間的關(guān)系類(lèi)型,即需要解決兩個(gè)問(wèn)題:哪兩個(gè)節(jié)點(diǎn)(詞語(yǔ))連依存弧以及弧的標(biāo)簽是什么(此處將弧分為兩種,指向和被指向,left為指向,right為被指向)。而轉(zhuǎn)移模型將AMR解析過(guò)程建模為預(yù)測(cè)動(dòng)作序列,為句子尋找最優(yōu)的動(dòng)作轉(zhuǎn)移序列,這兩種方法都是基于對(duì)句子特征的表示。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京擎盾信息科技有限公司,未經(jīng)北京擎盾信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010828329.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 基于聊天大數(shù)據(jù)知識(shí)庫(kù)的機(jī)器人對(duì)話控制方法和系統(tǒng)
- 基于大數(shù)據(jù)搜索的幽默型機(jī)器人對(duì)話控制方法和系統(tǒng)
- 基于對(duì)話知識(shí)庫(kù)的機(jī)器人對(duì)話控制方法和系統(tǒng)
- 一種自然語(yǔ)言語(yǔ)句評(píng)價(jià)方法及裝置
- 句子級(jí)雙語(yǔ)對(duì)齊方法及系統(tǒng)
- 一種獲取相似語(yǔ)句的方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種翻譯模型結(jié)果重排序的方法及裝置
- 用于輸出信息的方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)
- 搜索推薦方法和裝置、服務(wù)器、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本識(shí)別方法、裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)
- 面向語(yǔ)義Web服務(wù)程序設(shè)計(jì)的語(yǔ)義數(shù)據(jù)表示和處理方法
- 一種基于語(yǔ)義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語(yǔ)義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語(yǔ)義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語(yǔ)義匹配方法和系統(tǒng)
- 遠(yuǎn)程語(yǔ)義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語(yǔ)義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語(yǔ)義表征和語(yǔ)義計(jì)算的信號(hào)語(yǔ)義識(shí)別方法
- 語(yǔ)義分類(lèi)方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 基于視覺(jué)注意力的實(shí)時(shí)的視頻和圖像抽象化方法
- 一種對(duì)抽象化圖像進(jìn)行矢量化的方法
- 一種行車(chē)記錄圖像處理方法及系統(tǒng)
- 用于可重新配置存儲(chǔ)器系統(tǒng)的虛擬化物理地址
- 基于應(yīng)用對(duì)象抽象化的智能引擎聯(lián)動(dòng)系統(tǒng)及方法
- 信息提示裝置、信息提示方法及程序
- 一種數(shù)據(jù)庫(kù)腳本性能測(cè)試的方法及裝置
- 一種模板處理方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 代碼生成方法和裝置
- 設(shè)備控制系統(tǒng)和方法





