[發(fā)明專利]一種基于次級屬性的非結構化數據信息查詢方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202010513529.9 | 申請日: | 2020-06-08 |
| 公開(公告)號: | CN111831787B | 公開(公告)日: | 2021-09-28 |
| 發(fā)明(設計)人: | 沈志宏;趙子豪;周園春 | 申請(專利權)人: | 中國科學院計算機網絡信息中心 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 次級 屬性 結構 數據 信息 查詢 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于次級屬性的非結構化數據信息查詢方法及系統(tǒng)。本方法為:1)對于一目標數據庫,將該目標數據庫中每條記錄的非結構化數據作為對應記錄的一級屬性;2)提取每個一級屬性中的內在信息作為該一級屬性的次級屬性;3)對該目標數據庫的查詢語言進行擴展,增加語義操作符“?”;對該目標數據庫的查詢引擎進行擴展,用于編譯并執(zhí)行符合該語義操作符“?”語法的查詢語句;4)查詢引擎根據查詢條件從緩存系統(tǒng)中查詢符合查詢條件的緩存結果,如果沒有匹配結果,則根據該查詢條件中的一級屬性查找該目標數據庫中匹配的記錄,然后從匹配記錄的一級屬性中提取次級屬性并分別與該查詢條件中的次級屬性進行匹配,并返回匹配結果。
技術領域
本發(fā)明涉及非結構化數據、數據查詢語言、人工智能技術領域,針對現有技術無法方便地對非結構化數據進行信息查詢,以及按需計算的現狀。提出一種基于次級屬性實現非結構化數據查詢的方法及系統(tǒng)。
背景技術
非結構化數據在網絡數據中占有較大的比重,圖片、錄音、視頻、無格式長文本等內容均屬于非結構化數據。當前,結構化數據的存儲和查詢相關的技術比較成熟,結構化數據的存儲與管理的相關解決方案已經很完善。但是隨著技術的進步和時代的發(fā)展,數據的來源越來越廣,數量越來越多,形式越來越復雜。在許多應用場景之中,工程人員需要面對的不僅僅是格式規(guī)范的結構化數據,還有帶自描述結構的半結構化數據甚至是沒有固定結構的非結構化數據。顯然,因為結構上的靈活性,這種數據有豐富的擴展性和極高的信息表達自由度。但是由于其格式上的自由性,這種非結構化數據的存儲和管理也是一個困擾業(yè)界多年的問題。當前非結構化數據的管理和查詢技術主要集中于根據非結構化數據的元數據,如文件名、大小,文件類別,標簽值等信息進行檢索。這種簡單的檢索不能充分利用AI技術,無法直接查詢和消費非結構化數據中包含的信息,這對非結構化數據的查詢和利用造成了困難。目前有一些人工智能方法可以抽取非結構化數據中的信息,如錄音轉文字、人臉識別、車牌號提取等,相關算法已經達到了較高的準確率。但因為AI算法依賴復雜、部署難度大,不同工具間差異較大等問題,使用AI算法獲取非結構化數據中的信息并不方便。
面對非結構化數據越來越多,AI算法的準確性和豐富性越來越強的現狀,開發(fā)一種能快速查詢非結構化數據中信息的方法和系統(tǒng)具有重要意義。
發(fā)明內容
本發(fā)明針對非結構化數據信息查詢問題,提出了一種基于次級屬性的非結構化數據信息查詢方法及系統(tǒng),并基于圖數據庫給出了實現。該方法將非結構化數據中的設定信息與次級屬性名結合,用次級屬性名代表非結構化數據中的該設定信息,用AI算法抽取指定的次級屬性,通過查詢次級屬性的形式獲取非結構化數據中的信息,從而實現了非結構化數據中信息的快速查詢,提升了靈活性。
本發(fā)明采用的技術方案如下:
一種基于次級屬性的非結構化數據信息查詢方法,其步驟包括:
1)對于一目標數據庫,將該目標數據庫中每條記錄的非結構化數據作為對應記錄的一級屬性;
2)提取每個一級屬性中的內在信息作為該一級屬性的次級屬性;
3)對該目標數據庫的查詢語言進行擴展,增加語義操作符“-”;該語義操作符“-”的使用方法為“a-b”,其含義為對于一級屬性a,查詢其中的次級屬性b的值;對該目標數據庫的查詢引擎進行擴展,用于編譯并執(zhí)行符合該語義操作符“-”語法的查詢語句;
4)查詢引擎根據查詢條件從緩存系統(tǒng)中查詢符合查詢條件的緩存結果,如果有匹配的緩存結果,則將其返回;如果沒有匹配的查詢結果,則根據該查詢條件中的一級屬性查找該目標數據庫中匹配的記錄,然后從匹配記錄的一級屬性中提取次級屬性并分別與該查詢條件中的次級屬性進行匹配,并返回匹配結果。
進一步的,對于該目標數據庫中的一記錄i,如果該記錄i有n個非結構化數據,則將該n個非結構化數據作為該記錄i的n個一級屬性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算機網絡信息中心,未經中國科學院計算機網絡信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010513529.9/2.html,轉載請聲明來源鉆瓜專利網。





