[發(fā)明專利]一種信息處理的方法、裝置、計算機存儲介質(zhì)及終端在審
| 申請?zhí)枺?/td> | 202010181441.1 | 申請日: | 2020-03-16 |
| 公開(公告)號: | CN111428473A | 公開(公告)日: | 2020-07-17 |
| 發(fā)明(設(shè)計)人: | 陳棟;付驍弈 | 申請(專利權(quán))人: | 北京明略軟件系統(tǒng)有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216 |
| 代理公司: | 北京安信方達知識產(chǎn)權(quán)代理有限公司 11262 | 代理人: | 王康;龍洪 |
| 地址: | 100084 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 信息處理 方法 裝置 計算機 存儲 介質(zhì) 終端 | ||
一種信息處理的方法、裝置、計算機存儲介質(zhì)及終端,包括:統(tǒng)計原始文本和抽取結(jié)果包含的各詞性詞語的詞數(shù),獲得詞性統(tǒng)計信息;根據(jù)獲得的詞性統(tǒng)計信息,計算抽取結(jié)果中包含的各詞性詞語的信息覆蓋度;根據(jù)計算的所有詞性詞語的信息覆蓋度,確定抽取結(jié)果的質(zhì)量。本發(fā)明實施例通過自動化過程實現(xiàn)了抽取結(jié)果的質(zhì)量評價,提升了質(zhì)量評價的分析效率。
技術(shù)領(lǐng)域
本文涉及但不限于知識圖譜技術(shù),尤指一種信息處理的方法、裝置、計算機存儲介質(zhì)及終端。
背景技術(shù)
當前,海量的非結(jié)構(gòu)化數(shù)據(jù)(文本)多具有不規(guī)范性和開放性等特點,使得依賴于訓練語料的有監(jiān)督的信息抽取方法變得不再適用。
開放域文本信息抽取是指通過無監(jiān)督的方式從自然語言文本中抽取指定類型的信息,所抽取的語義單元不再限定類型,而是自動地從網(wǎng)絡(luò)中挖掘語義單元的類型,例如實體類型、關(guān)系類型等,并形成結(jié)構(gòu)化數(shù)據(jù)的文本處理技術(shù);形成的結(jié)構(gòu)化數(shù)據(jù)后期可用于知識圖譜構(gòu)建、數(shù)據(jù)分析等任務(wù)。獲得結(jié)構(gòu)化數(shù)據(jù)后,一般需要對開放域文本信息抽取的抽取結(jié)果進行質(zhì)量評價。
相關(guān)技術(shù)中,對抽取結(jié)果進行質(zhì)量評價的方法一般基于人工標注的測試樣本集進行,處理過程包括:針對測試樣本集中的每一條樣本,標注其可能的三元組(實體-關(guān)系-實體)、二元組(實體-屬性)等;通過對比標注結(jié)果與抽取結(jié)果進行質(zhì)量評估;評估指標包括準確率、召回率和F1(準確率和召回率的調(diào)和平均數(shù))等。這種方法存在人工標注耗時耗力、標注結(jié)果可能因為標注人員的差異而不同等問題。如何實現(xiàn)對開放域文本信息抽取的抽取結(jié)果進行質(zhì)量評價,成為一個有待解決的問題。
發(fā)明內(nèi)容
以下是對本文詳細描述的主題的概述。本概述并非是為了限制權(quán)利要求的保護范圍。
本發(fā)明實施例提供一種信息處理的方法、裝置、計算機存儲介質(zhì)及終端,能夠?qū)Τ槿〗Y(jié)果的質(zhì)量進行評價。
本發(fā)明實施例提供了一種信息處理的方法,包括:
統(tǒng)計原始文本和抽取結(jié)果包含的各詞性詞語的詞數(shù),獲得詞性統(tǒng)計信息;
根據(jù)獲得的詞性統(tǒng)計信息,計算抽取結(jié)果中包含的各詞性詞語的信息覆蓋度;
根據(jù)計算的所有詞性詞語的信息覆蓋度,確定抽取結(jié)果的質(zhì)量。
在一種示例性實施例中,所述計算抽取結(jié)果中包含的各詞性詞語的信息覆蓋度,包括:
根據(jù)所述詞性統(tǒng)計信息,分別通過以下公式計算所述抽取結(jié)果中包含的各詞性詞語的信息覆蓋度:
所述抽取結(jié)果中當前詞性詞語的詞數(shù)/所述原始文本中當前詞性詞語的詞數(shù)。
在一種示例性實施例中,所述確定抽取結(jié)果的質(zhì)量,包括:
將計算獲得的各詞性詞語的所述信息覆蓋度,分別與預(yù)設(shè)的加權(quán)參數(shù)相乘后累加,獲得加權(quán)信息覆蓋度;
其中,所述加權(quán)信息覆蓋度用于量化所述抽取結(jié)果的質(zhì)量。
在一種示例性實施例中,所述抽取結(jié)果中包括以下一種或任意種詞性的詞語:
名詞、動詞、介詞和副詞。
另一方面,本發(fā)明實施例還提供一種計算機存儲介質(zhì),所述計算機存儲介質(zhì)中存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述信息處理的方法。
再一方面,本發(fā)明實施例還提供一種終端,包括:存儲器和處理器,所述存儲中保存有計算機程序;其中,
處理器被配置為執(zhí)行存儲器中的計算機程序;
所述計算機程序被所述處理器執(zhí)行時實現(xiàn)如上述信息處理的方法。
還一方面,本發(fā)明實施例還提供一種信息處理的裝置,包括:統(tǒng)計單元、計算單元和確定單元;其中,
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京明略軟件系統(tǒng)有限公司,未經(jīng)北京明略軟件系統(tǒng)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010181441.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





