[發(fā)明專(zhuān)利]標(biāo)注方法、關(guān)系抽取方法、存儲(chǔ)介質(zhì)和運(yùn)算裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202010124863.5 | 申請(qǐng)日: | 2020-02-27 |
| 公開(kāi)(公告)號(hào): | CN111291554A | 公開(kāi)(公告)日: | 2020-06-16 |
| 發(fā)明(設(shè)計(jì))人: | 代亞菲 | 申請(qǐng)(專(zhuān)利權(quán))人: | 京東方科技集團(tuán)股份有限公司 |
| 主分類(lèi)號(hào): | G06F40/279 | 分類(lèi)號(hào): | G06F40/279;G06F16/35;G06F16/36 |
| 代理公司: | 北京天昊聯(lián)合知識(shí)產(chǎn)權(quán)代理有限公司 11112 | 代理人: | 柴亮;姜春咸 |
| 地址: | 100015 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 標(biāo)注 方法 關(guān)系 抽取 存儲(chǔ) 介質(zhì) 運(yùn)算 裝置 | ||
1.一種標(biāo)注方法,其特征在于,包括:
步驟S1、確定待標(biāo)注文本、多個(gè)正確種子和多個(gè)錯(cuò)誤種子,所述待標(biāo)注文本中的每個(gè)句子均已由標(biāo)簽標(biāo)示出一個(gè)第一實(shí)體和一個(gè)第二實(shí)體,所述正確種子和所述錯(cuò)誤種子均是由第一實(shí)體和第二實(shí)體構(gòu)成的實(shí)體對(duì);
步驟S2、根據(jù)所述正確種子遍歷所述待標(biāo)注文本中每一個(gè)句子以匹配出第一模板;
步驟S3、根據(jù)所述第一模板遍歷所述待標(biāo)注文本中每一個(gè)句子以匹配出種子;
步驟S4、根據(jù)已有第一模板、已有的正確種子和已有的錯(cuò)誤種子評(píng)價(jià)匹配出的種子,其中,評(píng)價(jià)合格的種子作為正確種子;
步驟S5、用步驟S4中得到的正確種子替換步驟S2中的正確種子重復(fù)執(zhí)行步驟S2-S4設(shè)定次數(shù)后停止或至評(píng)價(jià)合格的正確種子的數(shù)量達(dá)到設(shè)定閾值后停止;
步驟S6、輸出匹配出的正確種子及該正確種子中第一實(shí)體和第二實(shí)體之間的分類(lèi)關(guān)系。
2.根據(jù)權(quán)利要求1所述的標(biāo)注方法,其特征在于,所述根據(jù)所述正確種子遍歷所述待標(biāo)注文本中每一個(gè)句子以匹配出第一模板包括:
將所述待標(biāo)注文本中的句子中出現(xiàn)所述正確種子的句子進(jìn)行聚類(lèi);
根據(jù)同一類(lèi)句子和對(duì)應(yīng)的正確種子得到第一模板,所述第一模板包括該同一類(lèi)句子中出現(xiàn)在對(duì)應(yīng)的正確種子之前的字段的字符向量化表達(dá)、出現(xiàn)在對(duì)應(yīng)的正確種子中第一實(shí)體與第二實(shí)體之間的字段的字符向量化表達(dá)、出現(xiàn)在對(duì)應(yīng)的正確種子之后的字段的字符向量化表達(dá)。
3.根據(jù)權(quán)利要求2所述的標(biāo)注方法,其特征在于,所述根據(jù)所述第一模板遍歷所述待標(biāo)注文本中每一個(gè)句子以匹配出種子包括:
根據(jù)所述待標(biāo)注文本中的句子得到第二模板,所述第二模板包括該句子中出現(xiàn)在該句子中第一實(shí)體和第二實(shí)體二者之前的字段的字符向量化表達(dá)、出現(xiàn)在該句子中第一實(shí)體和第二實(shí)體二者之間的字段的字符向量化表達(dá)、出現(xiàn)在該句子中第一實(shí)體和第二實(shí)體二者之后的字段的字符向量化表達(dá);
比較所述第一模板與所述第二模板的相似度;
在所述第一模板與所述第二模板的相似度大于設(shè)定閾值的情況下,該第二模板所在句子中的第一實(shí)體和第二實(shí)體作為匹配出的種子。
4.根據(jù)權(quán)利要求3所述的標(biāo)注方法,其特征在于,所述第一模板與所述第二模板的相似度由如下Match函數(shù)確定:
Match(P1,P2)=α*Cosine(p,q)+β*Euclidean(p,q)+γ*Tanimoto(p,q),其中,
第一模板記為P1,第二模板記為P2,p為第一模板P1中出現(xiàn)在對(duì)應(yīng)的正確種子之前的字段的字符向量化表達(dá)、出現(xiàn)在對(duì)應(yīng)的正確種子中第一實(shí)體與第二實(shí)體之間的字段的字符向量化表達(dá)、出現(xiàn)在對(duì)應(yīng)的正確種子之后的字段的字符向量化表達(dá)組成的列表,q為第二模板P2中出現(xiàn)在對(duì)應(yīng)句子中第一實(shí)體和第二實(shí)體二者之前的字段的字符向量化表達(dá)、出現(xiàn)在對(duì)應(yīng)句子中第一實(shí)體和第二實(shí)體二者之間的字段的字符向量化表達(dá)、出現(xiàn)在對(duì)應(yīng)句子中第一實(shí)體和第二實(shí)體二者之后的字段的字符向量化表達(dá)組成的列表,α、β與γ均為大于0的比例系數(shù)。
5.根據(jù)權(quán)利要求4所述的標(biāo)注方法,其特征在于,在步驟S5中,按照如下公式評(píng)價(jià)新的種子的正確性:
其中,待評(píng)價(jià)的種子記為T(mén),P={Pi}是產(chǎn)生種子T的所有第一模板,Ci是由第一模板Pi匹配出種子T時(shí)種子T所在句子中第一實(shí)體和第二實(shí)體之前的字段的字符向量化表達(dá)、該句子中第一實(shí)體與第二實(shí)體之間的字段的字符向量化表達(dá)、該句子中第一實(shí)體與第二實(shí)體之后的字段的字符向量化表達(dá)組成的列表,Conf(Pi)記為:
Conf(Pi)=(Pip)/(Pip+Pin),
其中,Pip是第一模板Pi匹配出來(lái)的正例個(gè)數(shù);Pin是模板P匹配出來(lái)的負(fù)例個(gè)數(shù)。
6.根據(jù)權(quán)利要求1所述的標(biāo)注方法,其特征在于,所述第一實(shí)體包括標(biāo)示疾病名稱(chēng)的字段,所述第二實(shí)體包括標(biāo)示檢查方法、治療方法、表現(xiàn)癥狀和預(yù)防措施的字段,所述分類(lèi)關(guān)系包括疾病-檢查、疾病-治療、疾病-癥狀、疾病-預(yù)防。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于京東方科技集團(tuán)股份有限公司,未經(jīng)京東方科技集團(tuán)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010124863.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 標(biāo)注信息生成裝置、查詢(xún)裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語(yǔ)料庫(kù)數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲(chǔ)介質(zhì)、處理器以及運(yùn)載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺(tái)的方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線(xiàn)程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 關(guān)系視圖
- 位置關(guān)系檢測(cè)裝置以及位置關(guān)系檢測(cè)系統(tǒng)
- 關(guān)系建模
- 關(guān)系分析方法、關(guān)系分析程序、以及關(guān)系分析裝置
- 實(shí)體關(guān)系分類(lèi)裝置和實(shí)體關(guān)系分類(lèi)方法
- 用戶(hù)關(guān)系抽取方法和用戶(hù)關(guān)系抽取系統(tǒng)
- 融合依存關(guān)系與篇章修辭關(guān)系的事件時(shí)序關(guān)系識(shí)別方法
- 開(kāi)關(guān)系統(tǒng)
- 視頻視覺(jué)關(guān)系檢測(cè)的關(guān)系片段連接方法
- 開(kāi)關(guān)系統(tǒng)





