[發(fā)明專利]實體名詞鏈接方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011239234.3 | 申請日: | 2020-11-09 |
| 公開(公告)號: | CN112364640A | 公開(公告)日: | 2021-02-12 |
| 發(fā)明(設(shè)計)人: | 謝忠玉;陳立 | 申請(專利權(quán))人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/295;G06F40/242 |
| 代理公司: | 廣州華進(jìn)聯(lián)合專利商標(biāo)代理有限公司 44224 | 代理人: | 陳小娜 |
| 地址: | 518048 廣東省深圳市福田區(qū)益田路503*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 實體 名詞 鏈接 方法 裝置 計算機(jī) 設(shè)備 存儲 介質(zhì) | ||
本申請涉及大數(shù)據(jù)技術(shù)領(lǐng)域,提供了一種實體名詞鏈接方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)。方法包括:獲取待處理文本,并根據(jù)待處理文本所屬的垂直領(lǐng)域,確定垂直領(lǐng)域的領(lǐng)域詞典,基于與領(lǐng)域詞典關(guān)聯(lián)的分詞工具,對待處理文本進(jìn)行分詞處理,得到分詞結(jié)果,將分詞結(jié)果中存在于領(lǐng)域詞典中的名詞標(biāo)記為候選實體名詞,建立候選實體名詞與領(lǐng)域詞典中對應(yīng)實體名詞的鏈接關(guān)系。針對垂直領(lǐng)域,通過領(lǐng)域詞典和與領(lǐng)域詞典關(guān)聯(lián)的分詞工具,快速構(gòu)建輕量級的實體鏈接,有效提高實體名詞鏈接效率。本申請可應(yīng)用于智慧政務(wù),從而推動智慧城市的建設(shè)。
技術(shù)領(lǐng)域
本申請涉及大數(shù)據(jù)技術(shù)領(lǐng)域,特別是涉及一種實體名詞鏈接方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)。
背景技術(shù)
隨著自然語言處理技術(shù)的發(fā)展,實體鏈接在自然語言處理中的許多領(lǐng)域都得到了應(yīng)用,比如問題回答,語義搜索,信息提取等。
現(xiàn)有實體鏈接需要較大的知識庫作為支撐,同時也需要大量實體識別語料來訓(xùn)練一個實體識別模型和消歧模型,對數(shù)據(jù)基礎(chǔ)設(shè)施和算力基礎(chǔ)設(shè)施的要求都比較高,構(gòu)建一個龐大的知識庫和大量的實體識別語料和消歧語料,需要消耗大量的計算資源,而且,基數(shù)龐大的語料,會導(dǎo)致文本中的實體名詞鏈接建立過程效率降低。
發(fā)明內(nèi)容
基于此,有必要針對上述技術(shù)問題,提供一種能夠提高實體名詞鏈接效率的實體名詞鏈接方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)。
一種實體名詞鏈接方法,方法包括:
獲取待處理文本,并根據(jù)待處理文本所屬的垂直領(lǐng)域,確定垂直領(lǐng)域的領(lǐng)域詞典;
基于與領(lǐng)域詞典關(guān)聯(lián)的分詞工具,對待處理文本進(jìn)行分詞處理,得到分詞結(jié)果;
將分詞結(jié)果中存在于領(lǐng)域詞典中的名詞標(biāo)記為候選實體名詞;
建立候選實體名詞與領(lǐng)域詞典中對應(yīng)實體名詞的鏈接關(guān)系。
在其中一個實施例中,領(lǐng)域詞典中的實體名詞類別包括待展示實體名詞和無需展示實體名詞;
將分詞結(jié)果中存在于領(lǐng)域詞典中的名詞標(biāo)記為候選實體名詞包括:
根據(jù)分詞結(jié)果,篩選出存在于領(lǐng)域詞典中的目標(biāo)實體名詞;
根據(jù)領(lǐng)域詞典中實體名詞攜帶的實體名詞類別標(biāo)識,確定目標(biāo)實體名詞的實體名詞類別;
將實體名詞類別為待展示實體名詞的目標(biāo)實體名詞標(biāo)記為候選實體名詞。
在其中一個實施例中,基于與領(lǐng)域詞典關(guān)聯(lián)的分詞工具,對待處理文本進(jìn)行分詞處理,得到分詞結(jié)果包括:
基于與領(lǐng)域詞典關(guān)聯(lián)的分詞工具,遍歷領(lǐng)域詞典,將待處理文本與領(lǐng)域詞典中的實體名詞進(jìn)行匹配,得到匹配結(jié)果;
根據(jù)匹配結(jié)果,對待處理文本進(jìn)行分詞處理,得到分詞結(jié)果。
在其中一個實施例中,建立候選實體名詞與領(lǐng)域詞典中對應(yīng)實體名詞的鏈接關(guān)系包括:
當(dāng)候選實體名詞滿足預(yù)設(shè)的鏈接展示條件時,建立候選實體名詞與領(lǐng)域詞典中對應(yīng)實體名詞的鏈接關(guān)系,其中,預(yù)設(shè)的鏈接展示條件包括在待處理文本中不包含候選實體名詞的釋義文本、候選實體名詞在待處理文本中第一次出現(xiàn)、在待處理文本中不包含候選實體名詞的鏈接、以及待處理文本中鏈接數(shù)量與分詞結(jié)果數(shù)量的比例未達(dá)到預(yù)設(shè)比例中的至少一項條件。
在其中一個實施例中,建立候選實體名詞與領(lǐng)域詞典中對應(yīng)實體名詞的鏈接關(guān)系包括:
獲取待處理文本中鏈接數(shù)量與分詞結(jié)果數(shù)量的比例數(shù)據(jù);
當(dāng)比例數(shù)據(jù)小于預(yù)設(shè)比例時,獲取候選實體名詞在待處理文本中的鏈接信息;
當(dāng)鏈接信息為候選實體名詞無對應(yīng)鏈接時,獲取候選實體名詞在待處理文本中的出現(xiàn)次數(shù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國平安人壽保險股份有限公司,未經(jīng)中國平安人壽保險股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011239234.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種給袋式包裝機(jī)用夾取裝置
- 下一篇:一種高效的水稻秧苗種植方法
- 用于提取最大名詞短語的裝置、方法以及電子設(shè)備
- 將權(quán)利要求書中的權(quán)利要求元件名詞所屬元件名詞對應(yīng)標(biāo)號予以對應(yīng)的對應(yīng)方法
- 英語體系名詞性結(jié)構(gòu)表達(dá)訓(xùn)練系統(tǒng)及其方法
- 一種機(jī)構(gòu)名簡稱生成方法和裝置、計算機(jī)可讀存儲介質(zhì)
- 確定食材名詞之間的關(guān)聯(lián)度的方法、裝置、設(shè)備及介質(zhì)
- 基于雙向關(guān)聯(lián)的語義消歧方法、裝置、設(shè)備及存儲介質(zhì)
- 文景轉(zhuǎn)換中基于詞典的名詞可視性標(biāo)注方法、介質(zhì)及系統(tǒng)
- 文本語句的處理方法和裝置、電子設(shè)備及存儲介質(zhì)
- 用于處理信息的方法、裝置、設(shè)備和介質(zhì)
- 基于語義的關(guān)聯(lián)詞查找方法及裝置、電子設(shè)備、存儲介質(zhì)





