[發(fā)明專利]一種基于中文文本的水務(wù)領(lǐng)域知識(shí)圖譜構(gòu)建方法在審
| 申請(qǐng)?zhí)枺?/td> | 201810665703.4 | 申請(qǐng)日: | 2018-06-26 |
| 公開(kāi)(公告)號(hào): | CN108984647A | 公開(kāi)(公告)日: | 2018-12-11 |
| 發(fā)明(設(shè)計(jì))人: | 呂田田;閆健卓 | 申請(qǐng)(專利權(quán))人: | 北京工業(yè)大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F17/27 |
| 代理公司: | 北京思海天達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 圖譜構(gòu)建 圖譜 中文文本 分詞 領(lǐng)域知識(shí) 文本 概念詞 掛接 詞表 結(jié)構(gòu)化數(shù)據(jù)庫(kù) 結(jié)構(gòu)化知識(shí) 接口連接 詞組 結(jié)構(gòu)化 停用詞 評(píng)估 詞庫(kù) 構(gòu)建 權(quán)重 去除 融合 保留 | ||
1.一種中文文本的水務(wù)領(lǐng)域知識(shí)圖譜構(gòu)建方法,其特征在于:該方法主要包括如下步驟:
步驟1:在java系統(tǒng)中構(gòu)建水務(wù)概念詞庫(kù),將構(gòu)建的詞庫(kù)放入word文本中;
步驟2:將構(gòu)建好的水務(wù)概念詞庫(kù)放入mysql數(shù)據(jù)庫(kù)中構(gòu)建概念層次關(guān)系,并對(duì)不合理的信息進(jìn)行修改;
步驟3:構(gòu)建好的概念層次關(guān)系在protégé系統(tǒng)中實(shí)現(xiàn)可視化并掛接水務(wù)數(shù)據(jù)庫(kù)表以及水務(wù)文本,得到最終的水務(wù)領(lǐng)域知識(shí)圖譜。
2.根據(jù)權(quán)利要求1所述的一種中文文本的水務(wù)領(lǐng)域知識(shí)圖譜構(gòu)建方法,其特征在于:步驟1所述的構(gòu)建水務(wù)概念詞庫(kù)的方法,其步驟具體包括:
步驟1-1:使用python從水務(wù)博客以及水務(wù)文檔中爬取一些水務(wù)文本;
步驟1-2:用python中的jieba工具對(duì)抽取的水務(wù)文本進(jìn)行文本分詞;
步驟1-3:用python中的stopwords工具對(duì)分詞后的文本進(jìn)行停用詞去除,組成水務(wù)相關(guān)概念詞;
步驟1-4:用TF-IDF方法對(duì)水務(wù)相關(guān)概念詞分別進(jìn)行權(quán)重計(jì)算,設(shè)置一個(gè)權(quán)重閾值,保留權(quán)重大于閾值的概念詞。
3.根據(jù)權(quán)利要求1所述的一種中文文本的水務(wù)領(lǐng)域知識(shí)圖譜構(gòu)建方法,其特征在于:步驟2所述的構(gòu)建概念層次關(guān)系的方法,其步驟具體包括:
步驟2-1:輸出的概念詞與CN-Dbpedie接口連接,提取出概念詞的上級(jí)詞匯,構(gòu)建概念的等級(jí)結(jié)構(gòu)層次關(guān)系,并保存到數(shù)據(jù)庫(kù)中,根據(jù)備選概念詞和專家知識(shí)對(duì)概念等級(jí)結(jié)構(gòu)進(jìn)行修改;
步驟2-2:用jena工具將保存到數(shù)據(jù)庫(kù)中的概念信息表寫(xiě)成owl文件。
4.根據(jù)權(quán)利要求1所述的一種中文文本的水務(wù)領(lǐng)域知識(shí)圖譜構(gòu)建方法,其特征在于:步驟3所述的在protégé中實(shí)現(xiàn)可視化并掛接水務(wù)信息的方法,其步驟具體包括:
步驟3-1:將owl文件導(dǎo)入到protégé軟件中,實(shí)現(xiàn)水務(wù)領(lǐng)域知識(shí)圖譜的可視化;
步驟3-2:運(yùn)用語(yǔ)義相似度算法掛接水務(wù)結(jié)構(gòu)化數(shù)據(jù)庫(kù)表以及非結(jié)構(gòu)化水務(wù)文本,以完善水務(wù)領(lǐng)域知識(shí)圖譜,形成最終的水務(wù)知識(shí)圖譜。
5.根據(jù)權(quán)利要求2所述的一種中文文本的水務(wù)領(lǐng)域知識(shí)圖譜構(gòu)建方法,其特征在于:步驟1-4所述的用TF-IDF選取水務(wù)相關(guān)概念詞方法,其步驟具體包括:
步驟1-4-1:計(jì)算詞語(yǔ)ti的詞頻其中ni,j是詞語(yǔ)ti在文檔dj中出現(xiàn)的次數(shù),∑knk,j是在文檔dj中所有字詞的出現(xiàn)次數(shù)之和;
步驟1-4-2:計(jì)算逆向文件頻率其中|D|為語(yǔ)料庫(kù)中的文檔總數(shù),|{j:ti∈dj}|為包含該詞的文檔數(shù);
步驟1-4-3:計(jì)算tf-idf值:TF-IDFi,j=TFi,j×IDFi;
步驟1-4-4:令i=i+1重復(fù)前四步,計(jì)算出所有文檔中每個(gè)詞的tf-idf值;
步驟1-4-5:根據(jù)概念詞權(quán)重值情況設(shè)定一個(gè)閾值,保留權(quán)重大于閾值的概念詞。
6.根據(jù)權(quán)利要求4所述的一種中文文本的水務(wù)領(lǐng)域知識(shí)圖譜構(gòu)建方法,其特征在于:步驟3-2所述的運(yùn)用語(yǔ)義相似度算法掛接水務(wù)結(jié)構(gòu)化數(shù)據(jù)庫(kù)表以及非結(jié)構(gòu)化水務(wù)文本,其步驟具體包括:
步驟3-2-1:分別用編輯距離算法、Jaccard算法以及歐氏距離算法計(jì)算結(jié)構(gòu)化數(shù)據(jù)庫(kù)表與水務(wù)知識(shí)圖譜概念詞之間的相似度;
步驟3-2-2:分別用TF-IDF+余弦相似度算法、LSI算法以及LDA算法計(jì)算水務(wù)文本與水務(wù)知識(shí)圖譜概念詞之間的相似度;
步驟3-2-3:分別計(jì)算結(jié)構(gòu)化數(shù)據(jù)庫(kù)表以及水務(wù)文本掛接算法結(jié)果的查準(zhǔn)率P、召回率R以及精確值和召回率的調(diào)和均值F,以評(píng)估算法,計(jì)算公式分別如下:
查準(zhǔn)率:
召回率:
精確值和召回率的調(diào)和均值:
步驟3-2-4:選取評(píng)估結(jié)果最好的一種結(jié)構(gòu)化數(shù)據(jù)庫(kù)表掛接算法以及一種非結(jié)構(gòu)化水務(wù)文本的掛接算法,分別在水務(wù)知識(shí)圖譜中對(duì)這兩種數(shù)據(jù)進(jìn)行掛接,得到最終完善的水務(wù)知識(shí)圖譜。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工業(yè)大學(xué),未經(jīng)北京工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810665703.4/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種面向法律領(lǐng)域的動(dòng)態(tài)法律事件圖譜構(gòu)建方法
- 一種基于深度學(xué)習(xí)技術(shù)的知識(shí)圖譜自適應(yīng)構(gòu)建方法
- 多模態(tài)知識(shí)圖譜構(gòu)建方法、裝置、服務(wù)器以及存儲(chǔ)介質(zhì)
- 醫(yī)學(xué)知識(shí)圖譜構(gòu)建方法及裝置、存儲(chǔ)介質(zhì)和電子設(shè)備
- 知識(shí)圖譜的構(gòu)建方法及裝置
- 針對(duì)特定醫(yī)療領(lǐng)域的知識(shí)圖譜構(gòu)建方法及裝置
- 知識(shí)圖譜構(gòu)建方法、裝置、網(wǎng)絡(luò)設(shè)備及存儲(chǔ)介質(zhì)
- 知識(shí)圖譜的構(gòu)建方法、裝置、可讀存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種面向特定疾病領(lǐng)域的醫(yī)療健康知識(shí)圖譜系統(tǒng)
- 知識(shí)圖譜構(gòu)建方法及裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 用于圖譜界面的數(shù)據(jù)處理方法及系統(tǒng)
- 用于內(nèi)容特征圖譜化的特征圖譜布局的服務(wù)器及介質(zhì)
- 圖譜的構(gòu)建方法及裝置、電子設(shè)備
- 信息圖譜構(gòu)建方法、裝置及設(shè)備
- 知識(shí)圖譜的完善方法及裝置、數(shù)據(jù)處理方法及裝置
- 一種知識(shí)圖譜的構(gòu)建方法、裝置、知識(shí)圖譜系統(tǒng)及設(shè)備
- 一種基于知識(shí)圖譜的故障判別推理方法
- 一種事件圖譜的匹配方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種用于創(chuàng)建知識(shí)圖譜的計(jì)算機(jī)設(shè)備
- 一種支持增量實(shí)體關(guān)聯(lián)的關(guān)系圖譜計(jì)算方法
- 一種基于深度學(xué)習(xí)的中文語(yǔ)義分析的方法及裝置
- 手寫(xiě)模型訓(xùn)練方法、文本識(shí)別方法、裝置、設(shè)備及介質(zhì)
- 用于獲取中文文本要義的方法和裝置
- 一種文本的分詞方法及分詞裝置
- 一種文本處理方法及裝置
- 一種轉(zhuǎn)換中文、英文語(yǔ)言的信息溝通方法及電子設(shè)備
- 結(jié)合RPA與AI的文本標(biāo)注方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種融入偏旁語(yǔ)義的中文文本分類方法
- 中文文本的自動(dòng)糾錯(cuò)方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)
- 一種基于多核雙層卷積神經(jīng)網(wǎng)絡(luò)的中文文本情緒分類方法





