[發明專利]一種基于產品信息結構化的Web問答檢索系統有效
| 申請號: | 201310354888.4 | 申請日: | 2013-08-14 |
| 公開(公告)號: | CN103440287A | 公開(公告)日: | 2013-12-11 |
| 發明(設計)人: | 郝志峰;溫雯;蔡瑞初;王鴻飛;張奇;張鑫;劉建明;王宗武 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510006 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 產品信息 結構 web 問答 檢索系統 | ||
技術領域
本發明涉及互聯網非結構化、半結構化信息抽取、建模與搜索領域,具體為一種基于產品信息結構化的Web問答檢索系統及方法,屬于基于產品信息結構化的Web問答檢索系統的改造技術。?
背景技術
21世紀是信息化的時代,網絡已成為人們生活不可或缺的一部分。隨著互聯網的迅速發展,一方面人們對于網絡信息的需求與日俱增,另一方面互聯網上存在海量的信息,然而由于互聯網大容量、動態性等固有特性,這些海量信息往往是零碎的,缺乏組織性并包含了大量無效數據。這降低了人們對豐富信息資源的利用效率。為了解決這種“信息過載”問題,許多公司及研究機構轉向了對自動問答系統的研究。?
問答系統(Question?Answering?System,QA)是信息檢索系統的一種高級形式。它能用準確、簡潔的自然語言回答用戶用自然語言提出的問題。其研究興起的主要原因是人們對快速、準確地獲取信息的需求。問答系統是目前人工智能和自然語言處理領域中一個倍受關注并具有廣泛發展前景的研究方向。?
從知識領域來看,現有的問答系統可分為“封閉領域”以及“開放領域”兩類系統。封閉領域系統專注于回答特定領域的問題,目前大多數問答系統屬于封閉領域系統。開放領域系統則希望不設限問題的內容范圍,難度相對較高。?
現有的封閉領域問答系統主要有:昆明理工大學的申請號為200810233734、發明名稱為“基于本體推理的旅游問答系統答案抽取方法”。該方法集中于對旅游問答系統答案抽取方法的研究,首先人工定義旅游領域中的概念、屬性和關系,并人工構建旅游領域本體知識庫,最后再對本體的一致性進行檢驗;其次利用本體知識庫中的語義信息對用戶問句進行語義消?歧;然后人工定義旅游領域中的語義規則;再次基于語義消歧的問句分析結果,采用相應的語義規則的推理和信息檢索相結合的方法在本體知識庫中抽取答案;最后根據不同的問句類型,設計相應的答案抽取算法,提高系統的響應率和召回率。?
可以看出,該發明采用的方法中需要大量的人工干涉,包括知識庫的構建、概念屬性的定義以及語義規則的制定都需要人工參與。過多的人工參與會導致人力成本的增加,并需要保持一定的人員對系統進行維護和更新。?
發明內容
本發明的目的在于考慮上述問題而提供一種確保檢索信息的完整性和真實性,且具有較高的檢索效率的基于產品信息結構化的Web問答檢索系統。?
本發明的技術方案是:本發明的基于產品信息結構化的Web問答檢索系統,包括有用戶接口、產品信息爬取模塊、信息抽取模塊、倒排索引建立模塊、數據庫接口、信息整合模塊、問句處理模塊、數據庫,其中,?
用戶接口,用于實現Web問答系統與用戶的各種通信,包括獲取用戶輸入的產品相關自然語言問句并將問句傳遞給問句處理模塊;將對應的搜索結果以及相關網頁返回給用戶;?
產品信息爬取模塊,用于按照一定時間間隔對網頁進行爬取,并將爬取的網頁進行存儲,傳遞給信息抽取模塊進行處理;?
信息抽取模塊,用于對產品信息爬取模塊爬取網頁中的非結構化網頁信息進行處理,將這些非結構化信息轉化為結構化信息,并通過數據庫接口與結構化產品信息數據建立連接,將處理好的結構化信息存儲在數據庫中;?
倒排索引建立模塊,用于從產品信息爬取模塊爬取的網頁中提取關鍵內容,并對這些網頁建立倒排索引;?
數據庫接口,實現結構化產品數據的存取、更新數據庫操作的統一接口及訪問權限控制;?
信息整合模塊,用于整合信息抽取模塊輸出的多個數據來源結構化信息,并將整合后的結構化數據通過數據庫接口與數據庫建立連接,保存到數?據庫中;?
問句處理模塊,用于將用戶輸入的自然語言問句轉化為結構化的語句,該模塊通過用戶接口與用戶建立連接獲取用戶輸入的自然語言問句,并通過數據庫接口與數據庫建立連接,使用轉化后得到的語句在數據庫中進行查詢,并通過用戶接口將語句的查詢結果反饋給用戶。?
上述問句處理模塊分兩步對自然語言問句進行轉化,首先使用訓練好的樸素貝葉斯分類器對自然語言問句進行分類,然后采用skip-chain?CRF模型對自然語言問句中的命名實體進行識別和抽取。?
上述命名實體為手機名稱、手機屬性。?
上述Skip-chain?CRF模型是在線性條件隨機場(Linear?CRF)模型的基礎上演變而來,是條件隨機場(CRF)模型中的一種。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310354888.4/2.html,轉載請聲明來源鉆瓜專利網。





