[發(fā)明專利]一種弱標(biāo)注環(huán)境下的分段式語義標(biāo)注方法在審
| 申請(qǐng)?zhí)枺?/td> | 201911190029.X | 申請(qǐng)日: | 2019-11-28 |
| 公開(公告)號(hào): | CN110888991A | 公開(公告)日: | 2020-03-17 |
| 發(fā)明(設(shè)計(jì))人: | 張健沛;安立桐;楊靜;王勇 | 申請(qǐng)(專利權(quán))人: | 哈爾濱工程大學(xué) |
| 主分類號(hào): | G06F16/36 | 分類號(hào): | G06F16/36;G06F40/30;G06F40/289;G06F16/35 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區(qū)*** | 國(guó)省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 標(biāo)注 環(huán)境 段式 語義 方法 | ||
本發(fā)明提供的是一種弱標(biāo)注環(huán)境下的分段式語義標(biāo)注方法。(1)輸入待標(biāo)注文本,使用數(shù)據(jù)挖掘算法自動(dòng)化構(gòu)建文本主題相關(guān)的“類別?實(shí)體?關(guān)系?擴(kuò)展”四層領(lǐng)域本體;(2)使用已構(gòu)建的四層領(lǐng)域本體對(duì)弱標(biāo)記文本進(jìn)行語義標(biāo)注;(3)采用加入注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)對(duì)已標(biāo)注的段落文本進(jìn)行段落句群劃分;(4)綜合使用詞袋模型驗(yàn)證句群劃分準(zhǔn)確性并對(duì)新生成的句群的標(biāo)注信息進(jìn)行篩選。本發(fā)明對(duì)歷史、文學(xué)、娛樂、計(jì)算機(jī)等不同領(lǐng)域的文本均具有較好的標(biāo)注和句群劃分效果,解決了多學(xué)科弱標(biāo)記資源文本無法準(zhǔn)確處理和分析的問題,可以幫助用戶縮小檢索范圍,快速找到搜索結(jié)果,提高搜索準(zhǔn)確性。
技術(shù)領(lǐng)域
本發(fā)明涉及的是一種自然語言處理(NLP)方法,具體地說是一種基于文本標(biāo)注的句群劃分方法。
背景技術(shù)
伴隨著中文互聯(lián)網(wǎng)世界的跨越式進(jìn)步,各大中文互聯(lián)網(wǎng)平臺(tái)上積累了海量的文本數(shù)據(jù),對(duì)這些文本數(shù)據(jù)進(jìn)行分析和分類,有助于平臺(tái)構(gòu)建清晰的用戶畫像,對(duì)平臺(tái)未來的發(fā)展和定位具有重要意義。
但現(xiàn)實(shí)生活中,大多數(shù)數(shù)據(jù)的標(biāo)記都是弱標(biāo)記(Weak Label),即不準(zhǔn)確、不完整的標(biāo)記。弱標(biāo)記樣本可能僅包含其對(duì)應(yīng)標(biāo)記中的小部分,又或者根本沒有任何標(biāo)記。而現(xiàn)有的較為流行的處理數(shù)據(jù)的方式,效果明顯的則都是基于多標(biāo)記數(shù)據(jù)的。常見的多標(biāo)簽分類算法如標(biāo)簽Powerset(Label Powerset,LP)、二元關(guān)聯(lián)(Binary Relevance,BR)、組合分類器鏈(Ensembles of Classifier Chains,ECC)、多標(biāo)簽K近鄰(Multi-Label K-NearestNeighbor,ML-KNN)等,都需要訓(xùn)練集中所有數(shù)據(jù)的標(biāo)簽信息完整,故均不能對(duì)弱標(biāo)記樣本進(jìn)行有效地學(xué)習(xí),基本無法使用弱標(biāo)記訓(xùn)練集獲得成熟的模型,也就無法對(duì)數(shù)據(jù)進(jìn)行有效的分類和進(jìn)一步解讀。
對(duì)數(shù)據(jù)的解讀,以對(duì)數(shù)據(jù)的分類標(biāo)注為主。具體到文本數(shù)據(jù),則是對(duì)文本進(jìn)行語義標(biāo)注。語義標(biāo)注可以視作一個(gè)輸入和輸出的過程,其輸入為無標(biāo)注的文本,輸出為有標(biāo)注語義信息的文本,它是語義檢索、知識(shí)挖掘、智能推理等研究領(lǐng)域的一個(gè)熱點(diǎn)問題,常用的模型有:條件隨機(jī)場(chǎng)(CRF)模型、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)模型等。而文本語義標(biāo)注技術(shù),則是將非結(jié)構(gòu)化的自然語言文本數(shù)據(jù)轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化的語義數(shù)據(jù)的有效手段。現(xiàn)有的文本語義標(biāo)注技術(shù)的研究方向,主要集中于借助統(tǒng)計(jì)學(xué)習(xí)的手段,對(duì)已有的文本資料進(jìn)行全文的命名實(shí)體的標(biāo)注。但根據(jù)此方法形成的語義標(biāo)注數(shù)據(jù),同樣存在邏輯結(jié)構(gòu)簡(jiǎn)單混亂、感情判斷不清、命名實(shí)體遺漏等問題,針對(duì)這一問題,需要將文章帶入相應(yīng)的領(lǐng)域本體中。
領(lǐng)域本體(Domain Ontology,DO)是對(duì)領(lǐng)域的一種結(jié)構(gòu)化描述。其具體可根據(jù)其作用的不同包含有學(xué)科中的類別、概念實(shí)體以及實(shí)體間的關(guān)系和與實(shí)體相關(guān)的擴(kuò)展概念及關(guān)系間的約束等。因?yàn)橹R(shí)含有顯著的學(xué)科特征,領(lǐng)域本體可以更加直觀合理的表示知識(shí)的結(jié)構(gòu)。這里的“學(xué)科”其實(shí)是一種領(lǐng)域范圍的概念,本質(zhì)上是按照本體創(chuàng)建者的需求來劃分的,它可以是一個(gè)大類別的學(xué)科,也可以是幾個(gè)學(xué)科或者范圍的組合,還也可以是一個(gè)學(xué)科中分出的更小的范圍。
目前為止,本體工程中比較有名的幾種方法包括TOVE法、Methontology方法、骨架法、IDEF-5法和七步法等,均處于人工建立領(lǐng)域本體的階段。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,聯(lián)合改進(jìn)經(jīng)典深度學(xué)習(xí)算法長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)和條件隨機(jī)場(chǎng)算法(CRF)構(gòu)建領(lǐng)域本體的技術(shù)也已經(jīng)出現(xiàn),但準(zhǔn)確率相對(duì)較低。由于本體工程到目前為止仍處于相對(duì)不成熟的階段,領(lǐng)域本體的建設(shè)還處于探索期,因此構(gòu)建過程中還存在著很多問題。因此,如何自動(dòng)化的構(gòu)建一個(gè)準(zhǔn)確率高的、可以用于標(biāo)注文本語義數(shù)據(jù)的領(lǐng)域本體就是目前急需解決的問題之一。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能夠解決多學(xué)科弱標(biāo)記資源文本無法準(zhǔn)確處理和分析的問題,可以幫助用戶縮小檢索范圍,快速找到搜索結(jié)果,提高搜索準(zhǔn)確性的弱標(biāo)注環(huán)境下的分段式語義標(biāo)注方法。
本發(fā)明的目的是這樣實(shí)現(xiàn)的:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工程大學(xué),未經(jīng)哈爾濱工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911190029.X/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 標(biāo)注信息生成裝置、查詢裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語料庫(kù)數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲(chǔ)介質(zhì)、處理器以及運(yùn)載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺(tái)的方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 環(huán)境服務(wù)系統(tǒng)以及環(huán)境服務(wù)事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測(cè)終端和環(huán)境檢測(cè)系統(tǒng)
- 環(huán)境調(diào)整系統(tǒng)、環(huán)境調(diào)整方法及環(huán)境調(diào)整程序
- 環(huán)境估計(jì)裝置和環(huán)境估計(jì)方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車輛環(huán)境的環(huán)境數(shù)據(jù)處理
- 環(huán)境取樣動(dòng)力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測(cè)儀(環(huán)境貓)
- 面向語義Web服務(wù)程序設(shè)計(jì)的語義數(shù)據(jù)表示和處理方法
- 一種基于語義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語義匹配方法和系統(tǒng)
- 遠(yuǎn)程語義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語義表征和語義計(jì)算的信號(hào)語義識(shí)別方法
- 語義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





