[發明專利]一種中文關系抽取方法、裝置、終端及存儲介質在審
| 申請號: | 202210392477.3 | 申請日: | 2022-04-15 |
| 公開(公告)號: | CN115169326A | 公開(公告)日: | 2022-10-11 |
| 發明(設計)人: | 李龍;張煇;梁力偉;王恩慧 | 申請(專利權)人: | 山西長河科技股份有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京法筑知識產權代理有限公司 16100 | 代理人: | 張雨紅 |
| 地址: | 030006 山西省太原市山西綜改示范*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 關系 抽取 方法 裝置 終端 存儲 介質 | ||
本發明實施例公開了一種中文關系抽取方法、裝置、終端及存儲介質,該方法包括:獲取待處理的語句的字符表示和所有潛在單詞;通過多粒度網格模型基于所述字符表示以及所有的所述潛在單詞得到第一特征;通過Bert模型提取所述語句中的第二特征;對所述第一特征與所述第二特征進行拼接得到拼接特征;將所述拼接特征輸入softmax分類器,預測所述語句中的實體關系。本方案將Bert與多粒度網格模型進行結合,不僅利用Bert生成句子的字符向量,而且將單詞多個含義融人了字符表示進行編碼,更好地解決了中文多義詞歧義的問題;且實驗結果表明,本發明的模型在中文關系抽取任務中取得了更好的效果。
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種中文關系抽取方法、裝置、終端及存儲介質。
背景技術
關系抽取是信息抽取的子任務之一,具有十分重要的地位,其目的是從冗余、多源分散的文本中抽取出實體對之間的關系,從而構成結構化的實體-關系三元組。關系抽取在知識圖譜的構建、關系問答系統等眾多下游任務上有著廣泛的應用價值。如通過抽取人物間關系聯合人物實體,可獲得人物知識圖譜,以實現跨姓的大知識挖掘和推理服務。通過抽取旅游景點、文化之間的關系,可獲得文化知識圖譜,為實現文化旅游問答系統提供基礎。
由于關系抽取在自然語言處理領域占據著重要地位,因此獲得了大量學者的關注。Liu等人首先提出了CNN(中文名稱為:卷積神經網絡)的神經網絡方法來自動提取句子特征,避免了特征工程帶來的錯誤傳播問題,F1值達到59.42;Zeng等人將表達了位置信息的嵌入表示融入到 CNN網絡中,通過最大池化獲得句子中最重要的特征;受此啟發,Zeng等人在其基礎上進行擴充,提出了PCNN(Pulse Coupled Neural Network,脈沖耦合神經網絡)方法,根據兩個給定實體的位置將卷積結果分成三段,并設計分段最大池化層代替單個最大池化層,從而捕獲結構信息和其他潛在信息;然而,PCNN模型面臨著句子選擇的問題,Lin等人將注意力機制應用于包中的所有實例,F1值達到60.55;但由于CNN網絡無法捕捉長距離句子特征,因此Zhang等人首先嘗試利用RNN(中文名稱為:循環神經網絡)方法,其在長文本建模時可以體現其記憶優勢, F1值達到61.04;Zhou等人又在RNN模型中引入了注意機制,F1值達到 59.48。
上述研究雖然在一定程度上提升了中文關系抽取的準確度,但仍存在一些問題,包括:
(1)基于詞的關系抽取模型很大程度依賴分詞結果,分詞越準確,效果越好,反之就會有錯誤傳播問題。比如句子“達爾文研究所有杜鵑”,如果句子被正確劃分為“達爾文/研究/所有/杜鵑”,那么實體“達爾文”和“杜鵑”就可以得到正確的“研究”的關系,但如果句子被劃分為“達爾文/研究所/有/杜鵑”,那實體“達爾文”和“杜鵑”就會被錯誤標注為“屬于”的關系。
(2)而基于字符的關系抽取方法雖然不受分詞結果影響,但無法捕捉單詞的信息,無法解決多義詞歧義的問題。如句子中“杜鵑”有著“杜鵑花”和“杜鵑鳥”兩種含義,對于基于字符的關系抽取,沒有額外知識則很難判別其真實含義。
由此,目前需要有一種更好的方案來解決現有技術中的問題。
發明內容
有鑒于此,本發明提出了一種中文關系抽取方法、裝置、終端及存儲介質,用以克服現有技術中的問題。
具體的,本發明提出了以下具體的實施例:
本發明實施例提出了一種中文關系抽取方法,包括:
獲取待處理的語句的字符表示和所有潛在單詞;
通過多粒度網格模型基于所述字符表示以及所有的所述潛在單詞得到第一特征;
通過Bert模型提取所述語句中的第二特征;
對所述第一特征與所述第二特征進行拼接得到拼接特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山西長河科技股份有限公司,未經山西長河科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210392477.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:鰻魚烘烤裝置及烘烤方法
- 下一篇:葡萄一年兩育的育種方法





