[發明專利]一種基于產品信息結構化的Web問答檢索系統有效
| 申請號: | 201310354888.4 | 申請日: | 2013-08-14 |
| 公開(公告)號: | CN103440287A | 公開(公告)日: | 2013-12-11 |
| 發明(設計)人: | 郝志峰;溫雯;蔡瑞初;王鴻飛;張奇;張鑫;劉建明;王宗武 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510006 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 產品信息 結構 web 問答 檢索系統 | ||
1.一種基于產品信息結構化的Web問答檢索系統,其特征在于包括有用戶接口、產品信息爬取模塊、信息抽取模塊、倒排索引建立模塊、數據庫接口、信息整合模塊、問句處理模塊、數據庫,其中,
用戶接口,用于實現Web問答系統與用戶的各種通信,包括獲取用戶輸入的產品相關自然語言問句并將問句傳遞給問句處理模塊;將對應的搜索結果以及相關網頁返回給用戶;
產品信息爬取模塊,用于按照一定時間間隔對網頁進行爬取,并將爬取的網頁進行存儲,傳遞給信息抽取模塊進行處理;
信息抽取模塊,用于對產品信息爬取模塊爬取網頁中的非結構化網頁信息進行處理,將這些非結構化信息轉化為結構化信息,并通過數據庫接口與結構化產品信息數據建立連接,將處理好的結構化信息存儲在數據庫中;
倒排索引建立模塊,用于從產品信息爬取模塊爬取的網頁中提取關鍵內容,并對這些網頁建立倒排索引;
數據庫接口,實現結構化產品數據的存取、更新數據庫操作的統一接口及訪問權限控制;
信息整合模塊,用于整合信息抽取模塊輸出的多個數據來源結構化信息,并將整合后的結構化數據通過數據庫接口與數據庫建立連接,保存到數據庫中;
問句處理模塊,用于將用戶輸入的自然語言問句轉化為結構化的語句,該模塊通過用戶接口與用戶建立連接獲取用戶輸入的自然語言問句,并通過數據庫接口與數據庫建立連接,使用轉化后得到的語句在數據庫中進行查詢,并通過用戶接口將語句的查詢結果反饋給用戶。
2.根據權利要求1所述的基于產品信息結構化的Web問答檢索系統,其特征在于上述問句處理模塊分兩步對自然語言問句進行轉化,首先使用訓練好的樸素貝葉斯分類器對自然語言問句進行分類,然后采用skip-chain?CRF模型對自然語言問句中的命名實體進行識別和抽取。
3.根據權利要求1所述的基于產品信息結構化的Web問答檢索系統,其特征在于上述命名實體為手機名稱、手機屬性。
4.根據權利要求1所述的基于產品信息結構化的Web問答檢索系統,其特征在于上述Skip-chain?CRF模型是在線性條件隨機場(Linear?CRF)模型的基礎上演變而來,是條件隨機場(CRF)模型中的一種。
5.根據權利要求1所述的基于產品信息結構化的Web問答檢索系統,其特征在于上述命名實體識別方法中,忽略連詞“和”、“或”在句中的作用,在Skip-chain?CRF模型中建立了連詞前后兩個詞間的聯系,幫助最終精度的提高;用于查詢問句命名實體抽取的識別模型,采用Skip-Chain?CRF模型對訓練集進行學習后,獲得針對產品信息的命名實體識別和判斷準則,進而將問句轉化為有檢索意義的關鍵詞和產品屬性。
6.根據權利要求1所述的基于產品信息結構化的Web問答檢索系統,其特征在于上述信息整合模塊先根據待處理的兩張表中的屬性值信息得到一張屬性映射表,即將兩張表中具有相同意義但命名可能不同的屬性名對應起來,便于下一步的整合工作;再根據得到的映射表信息創建目標表,分別按序重新排列兩張表的列名,根據能夠唯一確定一條記錄的主鍵值來確定兩張表中的對應記錄是否可比較,若相等則認為是可以比較的,若可比較,則對兩張表中的信息進行合并或去除冗余處理,將處理結果插入目標表中,并將原表中的對應記錄進行標記;最后將未標記的記錄也一一插入目標表中,得到一張經過整合的目標表;若有多張表,則每次處理兩張表,重復上述方法即得到最終結果。
7.根據權利要求1所述的基于產品信息結構化的Web問答檢索系統,其特征在于上述產品信息爬取模塊,用于按照一定時間間隔對pconline、泡泡大型數碼網站上介紹數碼產品詳細信息的網頁進行爬取,并將爬取的網頁進行存儲,傳遞給信息抽取模塊進行處理。
8.根據權利要求1所述的基于產品信息結構化的Web問答檢索系統,其特征在于上述問句處理模塊用于將用戶輸入的自然語言問句轉化為結構化的SQL語句,該模塊通過用戶接口與用戶建立連接獲取用戶輸入的自然語言問句,并通過數據庫接口與結構化產品信息數據庫建立連接,使用轉化后得到的SQL語句在數據庫中進行查詢,并通過用戶接口將SQL語句的查詢結果反饋給用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310354888.4/1.html,轉載請聲明來源鉆瓜專利網。





