[發(fā)明專利]基于關(guān)鍵詞和動(dòng)詞依存的中文實(shí)體關(guān)系抽取方法有效
| 申請(qǐng)?zhí)枺?/td> | 201811124153.1 | 申請(qǐng)日: | 2018-09-26 |
| 公開(公告)號(hào): | CN109241538B | 公開(公告)日: | 2022-12-20 |
| 發(fā)明(設(shè)計(jì))人: | 許青青;謝赟;韓欣;卓建飛 | 申請(qǐng)(專利權(quán))人: | 上海德拓信息技術(shù)股份有限公司 |
| 主分類號(hào): | G06F40/30 | 分類號(hào): | G06F40/30;G06F40/295;G06F40/211 |
| 代理公司: | 上海灣谷知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31289 | 代理人: | 張恒 |
| 地址: | 200233 上海*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 關(guān)鍵詞 動(dòng)詞 依存 中文 實(shí)體 關(guān)系 抽取 方法 | ||
本發(fā)明公開了一種基于關(guān)鍵詞和動(dòng)詞依存的中文實(shí)體關(guān)系抽取方法,以大規(guī)模非結(jié)構(gòu)化自由文本為目標(biāo)文本,首先對(duì)文本進(jìn)行分詞、抽取關(guān)鍵詞,形成文本關(guān)鍵詞詞庫;然后對(duì)文本進(jìn)行分句、分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、依存句法分析處理,結(jié)合命名實(shí)體詞庫和關(guān)鍵詞詞庫構(gòu)建實(shí)體語料庫;根據(jù)中文句子構(gòu)成特點(diǎn)、句法結(jié)構(gòu)以及詞語間的依存關(guān)系從動(dòng)詞出發(fā)構(gòu)建實(shí)體關(guān)系句法規(guī)則,再對(duì)文本中每個(gè)句子進(jìn)行關(guān)系句法規(guī)則的匹配;最后輸出關(guān)系三元組,得到文本關(guān)系三元組集合。本發(fā)明能夠使大規(guī)模中文文本的實(shí)體關(guān)系抽取更加有效,更加精確。
技術(shù)領(lǐng)域
本發(fā)明涉及中文實(shí)體關(guān)系抽取方法,尤其涉及一種基于關(guān)鍵詞和動(dòng)詞依存分析的大規(guī)模自由文本抽取方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)信息技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)上的文本信息呈現(xiàn)爆炸式增長(zhǎng)。如何從大規(guī)模的文本信息中快速而準(zhǔn)確地抽取人們需要的信息成為研究的熱點(diǎn)。因此,信息抽取技術(shù)應(yīng)運(yùn)而生。實(shí)體關(guān)系抽取作為信息抽取的重要組成部分,其目的在于從自然語言文本挖掘出實(shí)體間的語義關(guān)聯(lián),不僅有助于領(lǐng)域本體的建立,促進(jìn)知識(shí)圖譜的構(gòu)建,而且通過對(duì)實(shí)體間的語義信息深入挖掘與分析能夠進(jìn)一步理解用戶的搜索意圖,從而為用戶提供更加精準(zhǔn)的搜索服務(wù),提高用戶搜索體驗(yàn)。
傳統(tǒng)的中文實(shí)體關(guān)系抽取面向的是特定領(lǐng)域文本的、限定關(guān)系類別、限定實(shí)體類別等的抽取,常用的方法是基于有監(jiān)督的機(jī)器學(xué)習(xí)方法。這種有監(jiān)督的實(shí)體關(guān)系抽取方法需要人工標(biāo)注關(guān)系語料庫,預(yù)定義關(guān)系類型,但面對(duì)現(xiàn)實(shí)中海量的非結(jié)構(gòu)化、跨領(lǐng)域的中文文本,很多時(shí)候難以預(yù)先確定實(shí)體關(guān)系類型,所以有監(jiān)督的機(jī)器學(xué)習(xí)方法在實(shí)體關(guān)系抽取中遇到了嚴(yán)峻挑戰(zhàn)。因此,面對(duì)大規(guī)模自由文本,開放式無監(jiān)督的關(guān)系抽取方法受到越來越多的關(guān)注。
現(xiàn)有開放式無監(jiān)督關(guān)系抽取方法主要有基于聚類算法、基于啟發(fā)式規(guī)則和基于句法分析的實(shí)體抽取方法。其中,基于聚類的實(shí)體關(guān)系抽取方法是通過距離、位置等限制獲得實(shí)體對(duì),再運(yùn)用某種聚類算法將語義相似的實(shí)體對(duì)聚為同一類簇,然后選擇代表性的詞作為每個(gè)類簇的關(guān)系表述。該方法不需要預(yù)定義關(guān)系類別、標(biāo)注語料、制定人工規(guī)則,很大程度上降低了人工參與,但該類方法仍有一些不足之處,比如聚類算法中固有的聚類數(shù)目、聚類中心的確定問題,而且需要大量相關(guān)實(shí)體對(duì)才能訓(xùn)練出好的效果,對(duì)于低頻實(shí)體對(duì)的召回率較低,此外難以準(zhǔn)確歸納每個(gè)類簇的關(guān)系描述詞。基于啟發(fā)式規(guī)則的實(shí)體抽取方法一般是通過對(duì)大量中文實(shí)體抽取結(jié)構(gòu)特征進(jìn)行分析,總結(jié)出常見三元組的實(shí)體對(duì)距離和關(guān)系指示詞在實(shí)體間位置分布,然后通過對(duì)實(shí)體間距離和關(guān)系詞位置的限制生成候選三元組,最后對(duì)候選三元組進(jìn)行過濾。有研究是采用全局排序和類型排序的方法來挖掘關(guān)系指示詞,然后使用關(guān)系指示詞和句式規(guī)則對(duì)關(guān)系三元組進(jìn)行過濾,該方法從文本中抽取的實(shí)體關(guān)系三元組準(zhǔn)確率較高,但通過實(shí)體對(duì)間距離的限制可能會(huì)過濾掉一些有關(guān)聯(lián)的實(shí)體對(duì)而且關(guān)系指示詞的不全面會(huì)將有語義關(guān)聯(lián)的三元組過濾掉,所以使得抽取的召回率較低?;诰浞ǚ治龅膶?shí)體關(guān)系抽取通過分析句子句法結(jié)構(gòu)以及詞語間的依存關(guān)關(guān)系識(shí)別實(shí)體對(duì)之間的關(guān)系。常用的基于句法分析的方法是獲取兩實(shí)體間最短依存樹,然后以兩實(shí)體間的最短依賴路徑中的詞匯作為關(guān)系詞,構(gòu)造出三元組,該類方法操作簡(jiǎn)單,但得到的關(guān)系詞可能是多個(gè)詞語的組合,而在一些復(fù)雜中文句子中獲得的組合詞也未必能形成正確的短語,所以關(guān)系表述可能會(huì)很抽象,意義比較模糊。此外,還有一類基于句法分析的方法是深入挖掘?qū)嶓w間最短依存路徑所蘊(yùn)含的依存語義,利用依存關(guān)系、詞性信息和位置關(guān)系等特征為限定,得到依存語義范式,若輸入文本中實(shí)體對(duì)間的依存路徑與所提的依存語義范式匹配,則能抽取出三元組關(guān)系。該方法對(duì)抽取的關(guān)系詞相對(duì)準(zhǔn)確,計(jì)算復(fù)雜度低,抽取效率高,而對(duì)于復(fù)雜文本,特別是有多個(gè)實(shí)體的句子,抽取效果不太理想。但總體來說,基于句法分析的實(shí)體關(guān)系計(jì)算復(fù)雜度低,能應(yīng)對(duì)大規(guī)模、跨領(lǐng)域中文文本的實(shí)體關(guān)系抽取。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海德拓信息技術(shù)股份有限公司,未經(jīng)上海德拓信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811124153.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測(cè)方法和裝置
- 關(guān)鍵詞排名的檢測(cè)方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲(chǔ)介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動(dòng)化否定關(guān)鍵詞方法及裝置
- 一種長(zhǎng)尾關(guān)鍵詞識(shí)別方法、關(guān)鍵詞搜索方法及計(jì)算機(jī)設(shè)備
- 基于事件本體的動(dòng)詞語義信息提取方法
- 具備詞典功能的電子設(shè)備
- 一種漢語新動(dòng)詞識(shí)別方法
- 基于句法特性與統(tǒng)計(jì)融合的自然語言謂語動(dòng)詞識(shí)別方法
- 基于參數(shù)概念表達(dá)動(dòng)詞語義的方法及系統(tǒng)
- 提取數(shù)據(jù)特征模板方法與應(yīng)用模板的方法和系統(tǒng)
- 英語體系動(dòng)詞性結(jié)構(gòu)表達(dá)訓(xùn)練系統(tǒng)及其方法
- 面向神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的日語動(dòng)詞識(shí)別、詞性標(biāo)注方法
- 動(dòng)詞短語蘊(yùn)含圖譜的構(gòu)建方法及相關(guān)設(shè)備
- 英語句型組合器





