[發明專利]一種基于語義網無監督的自動問答方法有效
申請號: | 201510363362.1 | 申請日: | 2015-06-29 |
公開(公告)號: | CN104933031B | 公開(公告)日: | 2018-11-06 |
發明(設計)人: | 楊燕;杜澤宇;賀樑 | 申請(專利權)人: | 華東師范大學 |
主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
代理公司: | 上海藍迪專利商標事務所(普通合伙) 31215 | 代理人: | 徐筱梅;張翔 |
地址: | 200241 *** | 國省代碼: | 上海;31 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 基于 語義 監督 自動 問答 方法 | ||
本發明公開了一種基于語義網無監督的自動問答方法,該方法需要基于語義網的數據上實現,首先通過對用戶問題進行同義轉換和詞干化,并利用語義網資源內部的數據進行三元組抽取,并找到語義網數據中最相關的實體和屬性,生成對應的SPARQL語句查詢,最終在支持語義網的用戶終端中進行查詢,本發明是在一個對基于語義網的自動問答的實現方案,無需復雜的訓練預料和復雜的語義分析,只對語義網的文件自學習并利用同義詞典進行同義轉換,就能對跨領域的語義網知識庫進行問答;其客觀可行,并較之傳統的問答方法能夠回答復雜的知識問題。
技術領域
本發明涉及自動問答(QA)的技術領域,具體地說是基于語義網的無監督自動問答的方法。
背景技術
互聯網的數據增長迅速,如今已經有很多基于語義網的知識庫,(如DBpedia,Freebase,Yoga)。提高這些數據的質與量對互聯網向語義網的跨越發展極為重要。同樣,隨著語義網數據不斷完善,如何友好地查詢和使用語義網也成為研究的焦點。提供用戶友好的自然語言接口,是解決查詢語義網問題的關鍵。而引入語義網技術來進行自動問答并不是依靠單一的算法解決的,而是通過一系列的技術合并完成。現有的語義網標準,提供了在語義網標注的網絡數據,利用龐大的語義網知識庫,可以獲得其背后豐富的語義解釋。雖然語義網的技術提供了豐富的語義知識,但基于語義網的自動問答系統仍然面臨著兩大難題:(1)用戶和語義網之間轉換存在困難:從自動問答的終端用戶的角度來說,理解基于邏輯的復雜語義網非常的困難。必須能夠允許傳統的用戶從表達豐富的信息需求的同時能夠屏蔽語義網結構的復雜性。(2)語義網數據量大,增長快,異構性增強;現有的方法需要不斷的完善來應對不斷增長的異構知識數據。因此,在語義網基礎上的自動問答系統亟需能夠提供用戶友好的接口以及能夠支撐大量分布式的異構數據。最近幾年,隨著Google知識圖譜概念和Siri知識搜索的應用,基于語義網的自動問答系統成為了最新最熱的研究范疇。
傳統的問答系統主要分為三種:(1) 基于文本的問答系統,即對于查詢相關的文檔進行檢索,并從文檔中提取出問題的答案。(2) 基于協同的問答系統,這類問答系統通常通過找到與用戶提問最相似的問題,并檢索答案,比如Yahoo!Answer and Quora。 (3)基于結構化數據的問答系統,這類問答系統通過搜索知識庫而不是直接使用純文本的語料,并將自然語言翻譯成結構化的查詢語言,比如SQL,SPARQL,以及其它的語言,而其中通過自然語言轉換成SPARQL是現階段最主流的基于語義網自動問答的研究范疇。
發明內容
本發明的目的是提供一種基于語義網無監督的自動問答方法,該方法是在一個對基于語義網的自動問答的實現方案,無需復雜的訓練預料和復雜的語義分析,只對語義網的文件自學習并利用同義詞典進行同義轉換,就能對跨領域的語義網知識庫進行問答。
本發明的目的是這樣實現的:
一種基于語義網無監督的自動問答方法,該方法需要基于語義網的數據上實現,通過查詢處理模塊對用戶問題進行同義轉換和詞干化,通過查詢生成模塊,生成對應的SPARQL語句查詢,并在支持語義網的用戶終端中進行查詢,具體操作步驟:
第一步:用戶詢問分詞,提取詞主干,并利用同義詞典和語義網中的同義屬性進行同義轉換;
第二步:查詢語義網中與用戶詢問存在相關的三元組;
第三步:利用字符相似度和同義詞找出語義網中與問題中的詞相似度高的實體;
第四步:查詢語義網中與匹配到的實體詞有連接的數據;
第五步:對于第二步至第四步生成的三元組組合成查詢,并計算出與原始問題匹配值最高的sparql查詢;具體為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510363362.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:個人填表信息輔助翻譯方法及裝置
- 下一篇:中文地址分詞標注方法