[發明專利]一種基于自然語言實體關系的智能問答推理方法和系統在審
| 申請號: | 202110902862.3 | 申請日: | 2021-08-06 |
| 公開(公告)號: | CN113779211A | 公開(公告)日: | 2021-12-10 |
| 發明(設計)人: | 李瑞軒;辜希武;吳小建;李玉華 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/36;G06F40/289;G06N3/04;G06N3/08;G06N5/04 |
| 代理公司: | 華中科技大學專利中心 42201 | 代理人: | 胡秋萍 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自然語言 實體 關系 智能 問答 推理 方法 系統 | ||
本發明公開一種基于自然語言實體關系的智能問答推理方法和系統,屬于自然語言處理領域。包括:將語料庫中每條語句進行分詞、實體詞提取;以自然語句作為實體關聯的邊,形成實體關系,對語料庫中實體連接關系進行匯總,形成基于自然語言實體關系的語義網絡數據庫;設計基于BERT預訓練語言模型和圖神經網絡的智能推理深度學習模型;以用戶提交問題相關的實體連接圖輸入網絡進行推理,通過多層感知機進行結果篩選給出最終答案。本發明通過任意給定的自然語言文本語料庫自動構建實體關系數據庫,避免通過人工介入手段進行實體提取和標注,并通過分析用戶的復雜問句來自動發現和推理出答案,以幫助用戶更快和更精準獲得所需結果。
技術領域
本發明屬于自然語言處理領域,更具體地,涉及一種基于自然語言實體關系的智能問答推理方法和系統。
背景技術
隨著信息化產業的蓬勃飛速發展,人們對于各個領域的信息搜索和分析的需求也是與日俱增。面對互聯網每日以驚人速度增長的信息和內容,如何從這些爆炸的信息中快速檢索出人們想要的東西也變得愈發重要和迫切。這里面涉及到查詢時的易用度和精準度的權衡:一方面,雖然可以設計和使用結構化的查詢語言來精準描述自己的目標并快速獲取到想要的結果,但是掌握并靈活地應用這些專業查詢語言會使得學習成本陡然上升,因此并不適用于一般的用戶和從業者;另一方面,使用常用的搜索引擎,人們可以用自然語言描述自己的問題并獲取結果,這種檢索方式簡單且符合人類邏輯,但搜索引擎返回的結果往往是紛繁復雜、眼花繚亂的,包含很多冗余和錯誤的頁面,要求查詢者自己去遴選甄別出所需要的特定信息,這無疑增加了使用者的負擔;更進一步的,由于用戶檢索時使用的是自然語言,這里面通常包含著復雜的語義內涵以及隱去了的常識性背景知識,而主流的搜索引擎一般都是基于關鍵詞來完成內容檢索任務,這進一步降低了搜索結果的準確率和召回率。
因此,一個理想的檢索系統應該能同時具備簡單易用和精準結果兩個特性,而這正是智能問答系統所具備和要解決的。智能問答系統能夠接受用戶以自然語言輸入的提問和描述,經過分析和推理后給出一個準確而簡明的答案,而非冗雜的網頁以供用戶甄選,所以智能問答系統是比搜索引擎更為高效和易用的,也越來越受到多方的關注。此外在構建問答系統時需要額外的信息數據庫提供問答決策支持。近年來一些產品化的問答系統也應運而生,例如Apple公司的Siri助手、Google公司的Google Now應用。智能問答利用自然語言處理(NLP)技術,能夠充分理解用戶提交的查詢語句,深入挖掘其中信息之間的語義聯系,然后更為精確地返還給用戶理想的結果。
在這其中,語料庫的構建和決策推理信息的生成也面臨著一些問題和挑戰:通常的語料信息庫是搜集自各種網頁文本,然后進行數據清洗和結構化處理,例如處理為典型的RDF三元組結構。高度結構化的語料庫在結點檢索時較方便,也有利于自動推理,但是其缺點是難以大規模生成和保持數據時效性的更新,且面對復雜語義的自然語言時不能夠很好的采樣出一個連接密集的網絡化結構數據,特別是面對實際需求時更是捉襟見肘,面對這些巨量的數據也變得越來越不現實。由此推廣至其他有類似需求的行業也是一樣的,故而相關行業從業者也迫切希望能夠借助人工智能技術來構建領域高效智能的信息處理系統以便能夠把握行業動態、增加自己的競爭能力。
發明內容
針對現有技術的缺陷和改進需求,本發明提供了一種基于自然語言實體關系的智能問答推理方法和系統,其目的在于將海量的文本數據直接作為數據源,從其中自動生成問題相關的、基于自然語言實體連接關系的決策數據,并交由智能問答系統進行推理和給出準確結果。
為實現上述目的,按照本發明的第一方面,提供了一種基于自然語言實體關系的智能問答推理方法,所述方法包括:
一、實體關系語料庫構建階段:
對語料庫中每一條語句進行分詞操作;從分詞后的語句中提取實體詞;
以提取到的實體詞為基礎,若兩個實體出現在同一自然語句中,則該條自然語句作為連接這兩個實體的邊,構成實體關系;對語料庫中實體連接關系進行匯總,形成實體關系語料庫;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110902862.3/2.html,轉載請聲明來源鉆瓜專利網。





