[發(fā)明專利]一種基于“引文關(guān)系”數(shù)據(jù)的業(yè)務(wù)行為關(guān)系抽取方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201811463779.5 | 申請(qǐng)日: | 2018-11-30 |
| 公開(kāi)(公告)號(hào): | CN109597879B | 公開(kāi)(公告)日: | 2022-03-29 |
| 發(fā)明(設(shè)計(jì))人: | 藍(lán)建敏 | 申請(qǐng)(專利權(quán))人: | 京華信息科技股份有限公司 |
| 主分類號(hào): | G06F16/332 | 分類號(hào): | G06F16/332;G06F40/289;G06F40/258 |
| 代理公司: | 廣州三環(huán)專利商標(biāo)代理有限公司 44202 | 代理人: | 顏希文;麥小嬋 |
| 地址: | 510000 廣東省廣州*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 引文 關(guān)系 數(shù)據(jù) 業(yè)務(wù) 行為 抽取 方法 裝置 | ||
1.一種基于“引文關(guān)系”數(shù)據(jù)的業(yè)務(wù)行為關(guān)系抽取方法,其特征在于,包括:
采集語(yǔ)料,并對(duì)所述語(yǔ)料進(jìn)行預(yù)處理及構(gòu)建語(yǔ)料庫(kù),所述采集語(yǔ)料,具體的,搜索已有語(yǔ)料,以及從網(wǎng)上下載、抓取語(yǔ)料;所述對(duì)所述語(yǔ)料進(jìn)行預(yù)處理,具體的,對(duì)所述語(yǔ)料進(jìn)行語(yǔ)料清洗、分詞、詞性標(biāo)注和去停用詞;
從所述語(yǔ)料庫(kù)中的所有文件標(biāo)題抽取業(yè)務(wù)行為詞,并按照業(yè)務(wù)領(lǐng)域?qū)λ鰳I(yè)務(wù)行為詞進(jìn)行歸類,形成各業(yè)務(wù)領(lǐng)域?qū)?yīng)的業(yè)務(wù)行為詞庫(kù);
從所述語(yǔ)料庫(kù)中抽取所有文件標(biāo)題和被引文件標(biāo)題的關(guān)系數(shù)據(jù),構(gòu)建引文關(guān)系數(shù)據(jù)庫(kù);
根據(jù)所述引文關(guān)系數(shù)據(jù)庫(kù),統(tǒng)計(jì)業(yè)務(wù)行為詞與被引用業(yè)務(wù)行為詞的數(shù)量以及同時(shí)出現(xiàn)的次數(shù),生成業(yè)務(wù)行為關(guān)系,并構(gòu)建業(yè)務(wù)行為關(guān)系庫(kù)。
2.根據(jù)權(quán)利要求1所述的基于“引文關(guān)系”數(shù)據(jù)的業(yè)務(wù)行為關(guān)系抽取方法,其特征在于,所述從所述語(yǔ)料庫(kù)中的所有文件標(biāo)題抽取業(yè)務(wù)行為詞,具體的:
對(duì)所述語(yǔ)料庫(kù)中的所有文件標(biāo)題進(jìn)行解析和分詞;
搜集業(yè)務(wù)行為詞,包括已知的業(yè)務(wù)行為詞、不斷衍生的業(yè)務(wù)行為詞和需轉(zhuǎn)化的業(yè)務(wù)行為詞;
篩選并測(cè)試業(yè)務(wù)行為詞;
對(duì)所述業(yè)務(wù)行為詞進(jìn)行初始?xì)w類和推理。
3.根據(jù)權(quán)利要求1所述的基于“引文關(guān)系”數(shù)據(jù)的業(yè)務(wù)行為關(guān)系抽取方法,其特征在于,所述從所述語(yǔ)料庫(kù)中抽取所有文件標(biāo)題和被引文件標(biāo)題的關(guān)系數(shù)據(jù),構(gòu)建引文關(guān)系數(shù)據(jù)庫(kù),具體的:
對(duì)語(yǔ)料庫(kù)中的每篇文件內(nèi)容進(jìn)行解析,抽取文件標(biāo)題與被引文件標(biāo)題的關(guān)系數(shù)據(jù);
根據(jù)所述文件標(biāo)題,對(duì)每篇文件打上業(yè)務(wù)行為標(biāo)簽,形成引文關(guān)系數(shù)據(jù),并構(gòu)建引文關(guān)系數(shù)據(jù)庫(kù);其中,所述引文關(guān)系數(shù)據(jù),包括文件標(biāo)題、行為標(biāo)簽、被引文件標(biāo)題、被引行為標(biāo)簽。
4.一種基于“引文關(guān)系”數(shù)據(jù)的業(yè)務(wù)行為關(guān)系抽取裝置,其特征在于,包括:
語(yǔ)料庫(kù)模塊,用于采集語(yǔ)料,并對(duì)所述語(yǔ)料進(jìn)行預(yù)處理及構(gòu)建語(yǔ)料庫(kù);
所述語(yǔ)料庫(kù)模塊,具體用于:搜索已有語(yǔ)料,以及從網(wǎng)上下載、抓取語(yǔ)料;對(duì)所述語(yǔ)料進(jìn)行語(yǔ)料清洗、分詞、詞性標(biāo)注和去停用詞;
業(yè)務(wù)行為詞庫(kù)模塊,用于從所述語(yǔ)料庫(kù)中的所有文件標(biāo)題抽取業(yè)務(wù)行為詞,并按照業(yè)務(wù)領(lǐng)域?qū)λ鰳I(yè)務(wù)行為詞進(jìn)行歸類,形成各業(yè)務(wù)領(lǐng)域?qū)?yīng)的業(yè)務(wù)行為詞庫(kù);
引文關(guān)系數(shù)據(jù)庫(kù)模塊,用于從所述語(yǔ)料庫(kù)中抽取所有文件標(biāo)題和被引文件標(biāo)題的關(guān)系數(shù)據(jù),構(gòu)建引文關(guān)系數(shù)據(jù)庫(kù);
業(yè)務(wù)行為關(guān)系庫(kù)模塊,用于根據(jù)所述引文關(guān)系數(shù)據(jù)庫(kù),統(tǒng)計(jì)業(yè)務(wù)行為詞與被引用業(yè)務(wù)行為詞的數(shù)量以及同時(shí)出現(xiàn)的次數(shù),生成業(yè)務(wù)行為關(guān)系,并構(gòu)建業(yè)務(wù)行為關(guān)系庫(kù)。
5.根據(jù)權(quán)利要求4所述的基于“引文關(guān)系”數(shù)據(jù)的業(yè)務(wù)行為關(guān)系抽取裝置,其特征在于,所述業(yè)務(wù)行為詞庫(kù)模塊,具體用于:
對(duì)所述語(yǔ)料庫(kù)中的所有文件標(biāo)題進(jìn)行解析和分詞;
搜集業(yè)務(wù)行為詞,包括已知的業(yè)務(wù)行為詞、不斷衍生的業(yè)務(wù)行為詞和需轉(zhuǎn)化的業(yè)務(wù)行為詞;
篩選并測(cè)試業(yè)務(wù)行為詞;
對(duì)所述業(yè)務(wù)行為詞進(jìn)行初始?xì)w類和推理。
6.根據(jù)權(quán)利要求4所述的基于“引文關(guān)系”數(shù)據(jù)的業(yè)務(wù)行為關(guān)系抽取裝置,其特征在于,所述引文關(guān)系數(shù)據(jù)庫(kù)模塊,具體用于:
對(duì)語(yǔ)料庫(kù)中的每篇文件內(nèi)容進(jìn)行解析,抽取文件標(biāo)題與被引文件標(biāo)題的關(guān)系數(shù)據(jù);
根據(jù)所述文件標(biāo)題,對(duì)每篇文件打上業(yè)務(wù)行為標(biāo)簽,形成引文關(guān)系數(shù)據(jù),并構(gòu)建引文關(guān)系數(shù)據(jù)庫(kù);其中,所述引文關(guān)系數(shù)據(jù),包括文件標(biāo)題、行為標(biāo)簽、被引文件標(biāo)題、被引行為標(biāo)簽。
7.一種基于“引文關(guān)系”數(shù)據(jù)的業(yè)務(wù)行為關(guān)系抽取裝置,其特征在于,包括處理器、存儲(chǔ)器以及存儲(chǔ)在所述存儲(chǔ)器中且被配置為由所述處理器執(zhí)行的計(jì)算機(jī)程序,且所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至3任一項(xiàng)所述的基于“引文關(guān)系”數(shù)據(jù)的業(yè)務(wù)行為關(guān)系抽取方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于京華信息科技股份有限公司,未經(jīng)京華信息科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811463779.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 倒排索引文件的存儲(chǔ)方法和裝置
- 一種索引文件恢復(fù)方法、裝置及視頻監(jiān)控系統(tǒng)
- 索引文件的生成方法及裝置
- 用于更新索引文件的方法和裝置
- 一種基于判別混合模型的實(shí)體-引文相關(guān)性分類方法
- 一種媒體文件獲取方法、裝置及存儲(chǔ)介質(zhì)
- 快速擴(kuò)容的軟件升級(jí)方法
- 一種基于FastText-CRF的引文元數(shù)據(jù)抽取方法
- 引文重要性的識(shí)別方法、裝置、電子設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 基于上下文的引文推薦方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 關(guān)系視圖
- 位置關(guān)系檢測(cè)裝置以及位置關(guān)系檢測(cè)系統(tǒng)
- 關(guān)系建模
- 關(guān)系分析方法、關(guān)系分析程序、以及關(guān)系分析裝置
- 實(shí)體關(guān)系分類裝置和實(shí)體關(guān)系分類方法
- 用戶關(guān)系抽取方法和用戶關(guān)系抽取系統(tǒng)
- 融合依存關(guān)系與篇章修辭關(guān)系的事件時(shí)序關(guān)系識(shí)別方法
- 開(kāi)關(guān)系統(tǒng)
- 視頻視覺(jué)關(guān)系檢測(cè)的關(guān)系片段連接方法
- 開(kāi)關(guān)系統(tǒng)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





