[發(fā)明專利]知識(shí)圖譜的構(gòu)建方法、裝置、電子設(shè)備有效
| 申請(qǐng)?zhí)枺?/td> | 201810620223.6 | 申請(qǐng)日: | 2018-06-15 |
| 公開(kāi)(公告)號(hào): | CN110674306B | 公開(kāi)(公告)日: | 2023-06-20 |
| 發(fā)明(設(shè)計(jì))人: | 鄭萌;耿璐;李嵐 | 申請(qǐng)(專利權(quán))人: | 株式會(huì)社日立制作所 |
| 主分類號(hào): | G06F16/36 | 分類號(hào): | G06F16/36 |
| 代理公司: | 北京銀龍知識(shí)產(chǎn)權(quán)代理有限公司 11243 | 代理人: | 黃燦;張博 |
| 地址: | 日本*** | 國(guó)省代碼: | 暫無(wú)信息 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 知識(shí) 圖譜 構(gòu)建 方法 裝置 電子設(shè)備 | ||
本發(fā)明提供一種知識(shí)圖譜的構(gòu)建方法、裝置、電子設(shè)備,屬于人工智能技術(shù)領(lǐng)域。知識(shí)圖譜的構(gòu)建方法包括:對(duì)待處理文本中的每個(gè)句子進(jìn)行分詞和句法依存關(guān)系分析,得到分詞結(jié)果和詞序列庫(kù);從所述詞序列庫(kù)中篩選出長(zhǎng)度大于預(yù)設(shè)第一閾值的頻繁序列;將提升度大于預(yù)設(shè)第二閾值、頻度大于預(yù)設(shè)第六閾值的頻繁序列中包括的單詞合并為新增詞,更新所述分詞結(jié)果;根據(jù)更新后的分詞結(jié)果建立近義詞組合,根據(jù)所述近義詞組合更新詞序列庫(kù),計(jì)算所述詞序列中單詞之間的變體置信度,并根據(jù)計(jì)算結(jié)果判斷單詞之間的上下位概念,所述變體置信度表示所述詞序列中單詞或詞序列之間的相關(guān)性。本發(fā)明能夠準(zhǔn)確有效地從非定義性領(lǐng)域文本中提取出概念和上下位關(guān)系。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,特別是指一種知識(shí)圖譜的構(gòu)建方法、裝置、電子設(shè)備。
背景技術(shù)
知識(shí)圖譜的構(gòu)建是自然語(yǔ)言處理和機(jī)器語(yǔ)言中的一個(gè)重要組成部分。目前大部分知識(shí)圖譜的構(gòu)建方法,都是從互聯(lián)網(wǎng)中提取文本,并從這些文本中發(fā)現(xiàn)概念并判定上下位關(guān)系。現(xiàn)有知識(shí)圖譜的構(gòu)建方法在提取上下位關(guān)系的時(shí)候往往需要某些預(yù)先規(guī)定的句式,例如,“深度學(xué)習(xí)是機(jī)器學(xué)習(xí)方法中的一種”,“word是微軟的office軟件中專門用于文字處理的軟件”等。這樣的句式往往可以在諸如說(shuō)明書,百科詞典等語(yǔ)料庫(kù)中大量找到。但是在現(xiàn)實(shí)生活中,同樣存在許多場(chǎng)景下,并不存在說(shuō)明書等對(duì)實(shí)體概念進(jìn)行專門定義的文本。例如一臺(tái)比較復(fù)雜的設(shè)備,說(shuō)明書中通常不會(huì)為用戶提供極為細(xì)致的部件定義或提示,指明部件A是部件B的一部分等等。另外,大量的領(lǐng)域性文本,例如客服記錄,維修記錄等,通常是以較為簡(jiǎn)潔的方式記錄,同時(shí)假設(shè)閱讀者具備較強(qiáng)的領(lǐng)域知識(shí)積累,同樣不會(huì)對(duì)文本中涉及的實(shí)體概念進(jìn)行定義性描述。此時(shí),現(xiàn)有的知識(shí)圖譜的構(gòu)建方法無(wú)法準(zhǔn)確有效地從非定義性領(lǐng)域文本中提取出概念和上下位關(guān)系。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是提供一種知識(shí)圖譜的構(gòu)建方法、裝置、電子設(shè)備,能夠準(zhǔn)確有效地從非定義性領(lǐng)域文本中提取出概念和上下位關(guān)系。
為解決上述技術(shù)問(wèn)題,本發(fā)明的實(shí)施例提供技術(shù)方案如下:
一方面,提供一種知識(shí)圖譜的構(gòu)建方法,包括:
對(duì)待處理文本中的每個(gè)句子進(jìn)行分詞和句法依存關(guān)系分析,得到分詞結(jié)果和詞序列庫(kù);
從所述詞序列庫(kù)中篩選出長(zhǎng)度大于預(yù)設(shè)第一閾值的頻繁序列,并計(jì)算每一頻繁序列的頻度以及提升度,其中,頻度表示所述頻繁序列在所述詞序列庫(kù)中出現(xiàn)的概率,提升度表示所述頻繁序列中單詞之間的相關(guān)性;
將提升度大于預(yù)設(shè)第二閾值和頻度大于預(yù)設(shè)第六閾值的頻繁序列中包括的單詞合并為新增詞,并根據(jù)所述新增詞更新所述分詞結(jié)果;
根據(jù)更新后的分詞結(jié)果建立近義詞組合,根據(jù)所述近義詞組合將所述詞序列庫(kù)中的單詞替換為同一近義詞組合中頻度最高的單詞;
獲取更新后的詞序列庫(kù)中頻度高于預(yù)設(shè)第三閾值且長(zhǎng)度為預(yù)設(shè)第四閾值的詞序列,計(jì)算所述詞序列中單詞之間的變體置信度,并根據(jù)計(jì)算結(jié)果判斷單詞之間的上下位概念,所述變體置信度表示所述詞序列中單詞或詞序列之間的相關(guān)性。
進(jìn)一步地,所述對(duì)待處理文本中的每個(gè)句子進(jìn)行分詞和句法依存關(guān)系分析,得到分詞結(jié)果和詞序列庫(kù)包括:
對(duì)所述待處理文本中的每個(gè)句子進(jìn)行分詞,得到分詞結(jié)果;
基于所述分詞結(jié)果,對(duì)所述待處理文本中的每個(gè)句子進(jìn)行句法依存關(guān)系分析,并根據(jù)句法依存關(guān)系分析結(jié)果對(duì)所述分詞結(jié)果進(jìn)行糾正,得到每個(gè)句子對(duì)應(yīng)的至少一組詞序列,得到包括所有句子的詞序列的詞序列庫(kù)。
進(jìn)一步地,所述根據(jù)句法依存關(guān)系分析結(jié)果對(duì)所述分詞結(jié)果進(jìn)行糾正,得到每個(gè)句子對(duì)應(yīng)的至少一組詞序列包括:
當(dāng)句子中心詞是名詞時(shí),確定中心詞,并遞歸的找到該中心詞的所有定中關(guān)系修飾詞,生成包括該中心詞和該中心詞的所有定中關(guān)系修飾詞的詞序列;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于株式會(huì)社日立制作所,未經(jīng)株式會(huì)社日立制作所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810620223.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 基于本體的知識(shí)地圖繪制系統(tǒng)
- 基于知識(shí)地圖的領(lǐng)域知識(shí)瀏覽方法
- 一種基于知識(shí)本體的知識(shí)體系的建模方法
- 一種知識(shí)工程系統(tǒng)
- 知識(shí)自動(dòng)化系統(tǒng)和方法以及存儲(chǔ)器
- 基于SOLR的知識(shí)管理系統(tǒng)
- 基于知識(shí)節(jié)點(diǎn)所屬度的知識(shí)圖譜構(gòu)建方法和裝置
- 一種基于知識(shí)圖譜的稅務(wù)知識(shí)庫(kù)系統(tǒng)
- 一種智聯(lián)網(wǎng)中的網(wǎng)絡(luò)知識(shí)統(tǒng)一表征架構(gòu)及實(shí)現(xiàn)方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)
- 用于圖譜界面的數(shù)據(jù)處理方法及系統(tǒng)
- 用于內(nèi)容特征圖譜化的特征圖譜布局的服務(wù)器及介質(zhì)
- 圖譜的構(gòu)建方法及裝置、電子設(shè)備
- 信息圖譜構(gòu)建方法、裝置及設(shè)備
- 知識(shí)圖譜的完善方法及裝置、數(shù)據(jù)處理方法及裝置
- 一種知識(shí)圖譜的構(gòu)建方法、裝置、知識(shí)圖譜系統(tǒng)及設(shè)備
- 一種基于知識(shí)圖譜的故障判別推理方法
- 一種事件圖譜的匹配方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種用于創(chuàng)建知識(shí)圖譜的計(jì)算機(jī)設(shè)備
- 一種支持增量實(shí)體關(guān)聯(lián)的關(guān)系圖譜計(jì)算方法
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測(cè)模型構(gòu)建方法
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





