[發(fā)明專利]從中文語(yǔ)料庫(kù)提取知識(shí)的方法與系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201810016373.6 | 申請(qǐng)日: | 2018-01-08 |
| 公開(kāi)(公告)號(hào): | CN108319583B | 公開(kāi)(公告)日: | 2021-11-26 |
| 發(fā)明(設(shè)計(jì))人: | 李應(yīng)樵;張英輝 | 申請(qǐng)(專利權(quán))人: | 萬(wàn)維數(shù)碼智能有限公司 |
| 主分類號(hào): | G06F40/30 | 分類號(hào): | G06F40/30;G06F40/289;G06F40/253;G06F40/216 |
| 代理公司: | 北京派特恩知識(shí)產(chǎn)權(quán)代理有限公司 11270 | 代理人: | 康艷青;姚開(kāi)麗 |
| 地址: | 中國(guó)香港新界沙田香港科學(xué)園科*** | 國(guó)省代碼: | 香港;81 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 中文 語(yǔ)料庫(kù) 提取 知識(shí) 方法 系統(tǒng) | ||
1.一種由中文和/或非中文書(shū)寫(xiě)的源語(yǔ)料庫(kù)提取知識(shí)用于中文本體庫(kù)生成的方法,所述方法包括步驟:
從所述源語(yǔ)料庫(kù)獲取字符串,其中每個(gè)源語(yǔ)料庫(kù)代表一個(gè)概念;
分隔所述字符串為分割的詞語(yǔ)或單詞;
對(duì)所述分割的詞語(yǔ)或單詞應(yīng)用POS標(biāo)注;
由所述分割的詞語(yǔ)或單詞將單獨(dú)中文詞語(yǔ)或單詞搭配成有意義的短語(yǔ)或復(fù)合詞;
由分隔的短語(yǔ)、詞語(yǔ)或單詞提取中文名詞短語(yǔ)、詞語(yǔ)或單詞;
推算提取結(jié)果的詞頻;以及
存儲(chǔ)提取結(jié)果和相應(yīng)概念的詞頻加權(quán)向量用于生成另一個(gè)中文本體庫(kù)。
2.如權(quán)利要求1所述的方法,其中從源語(yǔ)料庫(kù)獲取字符串的步驟包括步驟:從所述源語(yǔ)料庫(kù)獲取主題、標(biāo)題和主要文本內(nèi)容。
3.如權(quán)利要求2所述的方法,其中所述源語(yǔ)料庫(kù)是用中文和/或非中文書(shū)寫(xiě)的,包含數(shù)字字符、標(biāo)點(diǎn)符號(hào)、英語(yǔ)和其他語(yǔ)言字符,所述單詞之間沒(méi)有明顯的分隔,包括因特網(wǎng)、WAN、LAN、專用網(wǎng)或單個(gè)計(jì)算機(jī)中的電子文檔。
4.如權(quán)利要求1所述的方法,其中所述分隔所述字符串為分割的詞語(yǔ)或單詞的步驟包括步驟:通過(guò)詞語(yǔ)切分確認(rèn)分隔結(jié)果,其中分割結(jié)果是一個(gè)單詞或詞語(yǔ)形式的一系列單詞。
5.如權(quán)利要求4所述的方法,其中所述詞語(yǔ)切分包括步驟:應(yīng)用一個(gè)或多個(gè)詞語(yǔ)切分模型,其中所述詞語(yǔ)切分模型為隱形馬爾可夫模型和條件隨機(jī)域。
6.如權(quán)利要求1所述的方法,其中對(duì)分割的詞語(yǔ)或單詞應(yīng)用POS標(biāo)注的步驟包括步驟:
提取與所述分割的單詞或詞語(yǔ)相關(guān)的POS信息;和
將POS標(biāo)注分配給所述分割的單詞或詞語(yǔ)。
7.如權(quán)利要求6所述的方法,其中所述提取與所述分割的單詞或詞語(yǔ)相關(guān)的POS信息的步驟是從用于中文的成熟POS標(biāo)注模型中提取POS信息,其中所述用于中文的成熟POS標(biāo)注模型是從語(yǔ)言數(shù)據(jù)聯(lián)盟獲得的“中文樹(shù)庫(kù)”。
8.如權(quán)利要求6所述的方法,其中所述將POS標(biāo)注分配給所述分隔的單詞或詞語(yǔ)的步驟,是通過(guò)構(gòu)建索引或表格并在向量空間中將所述POS特征映射給所述分隔的單詞或詞語(yǔ)來(lái)完成的。
9.如權(quán)利要求1所述的方法,其中搭配單個(gè)的中文詞語(yǔ)或單詞成有意義的短語(yǔ)或復(fù)合詞包括步驟:
對(duì)同現(xiàn)的中文詞語(yǔ)或單詞進(jìn)行分組;
從所述中文詞語(yǔ)或單詞組中發(fā)現(xiàn)潛在的中文短語(yǔ)或復(fù)合詞;
從參考語(yǔ)料庫(kù)中尋找所述潛在的中文短語(yǔ)或復(fù)合詞;
用POS標(biāo)注存儲(chǔ)經(jīng)確認(rèn)的中文名詞短語(yǔ)或復(fù)合詞;以及
去除相應(yīng)的同現(xiàn)中文名詞詞語(yǔ)或單詞。
10.如權(quán)利要求9所述的方法,其中所述同現(xiàn)中文名詞詞語(yǔ)或單詞的分組步驟是通過(guò)確認(rèn)被標(biāo)注為名詞組的一系列兩個(gè)或多個(gè)中文詞語(yǔ)或單詞來(lái)進(jìn)行的。
11.如權(quán)利要求9所述的方法,其中所述從所述中文名詞詞語(yǔ)或單詞組中發(fā)現(xiàn)潛在的中文名詞短語(yǔ)或復(fù)合詞的步驟是通過(guò)使用n元語(yǔ)法模型以確認(rèn)潛在的短語(yǔ)來(lái)進(jìn)行的,其中所述n元語(yǔ)法模型確定了各個(gè)潛在的中文單詞或詞語(yǔ)組合的同現(xiàn)概率分布。
12.如權(quán)利要求11所述的方法,其中所述通過(guò)使用n元語(yǔ)法模型以確認(rèn)潛在的短語(yǔ)的步驟是通過(guò)搜索所述n元語(yǔ)法模型的結(jié)果來(lái)進(jìn)行的。
13.如權(quán)利要求9所述的方法,其中所述參考語(yǔ)料庫(kù)是一種常用的中文詞典,它通過(guò)從結(jié)構(gòu)化知識(shí)網(wǎng)絡(luò)中提取頻繁同現(xiàn)的單詞來(lái)構(gòu)建,其中所述結(jié)構(gòu)化知識(shí)網(wǎng)絡(luò)是一種基于中文網(wǎng)絡(luò)的百科全書(shū)。
14.如權(quán)利要求13所述的方法,其中所述結(jié)構(gòu)化知識(shí)網(wǎng)絡(luò)是在線數(shù)據(jù)庫(kù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于萬(wàn)維數(shù)碼智能有限公司,未經(jīng)萬(wàn)維數(shù)碼智能有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810016373.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種創(chuàng)建共享語(yǔ)料庫(kù)的方法
- 口語(yǔ)化語(yǔ)句提取的方法及裝置
- 面向任務(wù)式對(duì)話系統(tǒng)意圖識(shí)別的語(yǔ)料庫(kù)生成方法和裝置
- 一種數(shù)據(jù)驅(qū)動(dòng)的語(yǔ)料庫(kù)自動(dòng)化構(gòu)建方法
- 一種拼寫(xiě)數(shù)據(jù)的生成方法
- 訓(xùn)練語(yǔ)料庫(kù)細(xì)化和增量更新
- 用于電子文檔的內(nèi)容語(yǔ)料庫(kù)
- 作者創(chuàng)建的數(shù)字代理
- 情感語(yǔ)料庫(kù)的擴(kuò)展方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 意圖識(shí)別模型的訓(xùn)練語(yǔ)料生成方法及其相關(guān)設(shè)備
- 基于本體的知識(shí)地圖繪制系統(tǒng)
- 基于知識(shí)地圖的領(lǐng)域知識(shí)瀏覽方法
- 一種基于知識(shí)本體的知識(shí)體系的建模方法
- 一種知識(shí)工程系統(tǒng)
- 知識(shí)自動(dòng)化系統(tǒng)和方法以及存儲(chǔ)器
- 基于SOLR的知識(shí)管理系統(tǒng)
- 基于知識(shí)節(jié)點(diǎn)所屬度的知識(shí)圖譜構(gòu)建方法和裝置
- 一種基于知識(shí)圖譜的稅務(wù)知識(shí)庫(kù)系統(tǒng)
- 一種智聯(lián)網(wǎng)中的網(wǎng)絡(luò)知識(shí)統(tǒng)一表征架構(gòu)及實(shí)現(xiàn)方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)





