[發明專利]一種專有本體自動生成系統及方法在審
| 申請號: | 201710383135.4 | 申請日: | 2017-05-26 |
| 公開(公告)號: | CN108959240A | 公開(公告)日: | 2018-12-07 |
| 發明(設計)人: | 雷曉軍;周京 | 申請(專利權)人: | 上海醇聚信息科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 上海信好專利代理事務所(普通合伙) 31249 | 代理人: | 朱成之 |
| 地址: | 200000 上海市楊浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 短語 句子 輸入端連接 自然語言理解模塊 自動生成系統 文本數據庫 短語分析 建議模塊 句法語義 存儲文本數據 文本數據 輸出端 放入 分割 分析 | ||
本發明公開了一種專有本體自動生成系統及方法,該系統文本數據庫,用于存儲文本數據;自然語言理解模塊,其輸入端連接于文本數據庫,用于對文本數據分割成若干個句子并分析所述的句子得到句子的句法語義結構;短語分析模塊,其輸入端連接于自然語言理解模塊輸出端,用于根據所述的句子的句法語義結構得出對應的短語及短語關系;識別建議模塊、待建立專有本體庫,識別建議模塊輸入端連接短語分析模塊,用于識別所述的短語和短語關系作為待建立專有本體的類別和屬性并放入到待建立專有本體庫中。
技術領域
本發明涉及人工智能中的語義技術和語義搜索的領域,特別涉及一種專有本體自動生成系統及方法。
背景技術
計算機和互聯網的結合產生了大量的信息,這使得我們很快有被淹沒的感覺。事實也是這樣,我們在對付非常規海量信息的同時,也不斷地在制造新的信息。這個信息量是以幾何級數方式增長的。人們把希望放在了計算機對海量信息的有效處理上,期待不但從信息淹沒中被解放出來,也能夠更好地利用這些海量信息。
計算機的信息處理一開始是局限在結構簡單的數據上的,盡管數據量可能很大,但結構比較單一。隨著計算機硬件能力的迅速增強,計算機被用來對付復雜的問題,數據的結構的復雜性大大增加。經過了互聯網對數據的不同積累,不同數據源的數據開始匯集在一起,使得數據處理變得更加復雜。在計算機科學和人工智能學界,本體和專有本體的出現是為了應對這樣的復雜性的。本體和專有本體是第三代互聯網--語義網(Semantic Web)的基礎,同時也是語義搜索的基石。第三代互聯網和語義搜索是大數據處理的基礎。
傳統的專有本體的編撰是手工的工作。專有本體編撰工作者通過本體編輯器在一個專有領域中建立類(Class)、實體(Entity)、屬性(Property),同時還需要借鑒已有的其它專有本體,吸收這些專有本體的某些成分。這個過程非常耗費時間,而且容易前后不一致。
發明內容
本發明的目的是提供一種專有本體自動生成系統及方法,通過自然語言理解技術對一個專有領域的文獻進行處理,獲得這個專有領域中的大量短語,從這些短語和短語之間的關系中,學習自動建立專有本體,解決了時間耗費和前后不一致的問題。
為了實現以上目的,本發明是通過以下技術方案實現的:
一種專有本體自動生成系統,其特點是,包含:
文本數據庫,用于存儲文本數據;
自然語言理解模塊,其輸入端連接于文本數據庫,用于對文本數據分割成若干個句子并分析所述的句子得到句子的句法語義結構;
短語分析模塊,其輸入端連接于自然語言理解模塊輸出端,用于根據所述的句子的句法語義結構得出對應的短語及短語關系;
識別建議模塊、待建立專有本體庫,所述的識別建議模塊輸入端連接短語分析模塊,用于識別所述的短語和短語關系作為待建立專有本體的類別和屬性并放入到待建立專有本體庫中。
該專有本體自動生成系統還包含一其他專有本體庫,其與識別建議模塊相連,用于預設存儲已經被建立過的短語。
所述的自然語言理解模塊包含:
句子分割單元,用于對文本進行句子的切割,成為若干個句子;
句子分析單元,用于對輸入的若干個句子進行句法和語義進行分析,得到句子對應的句法語義結構。
所述的短語分析模塊包含:
短語語義分析過濾單元,用于提取句法語義結構中的所有短語,并對之進行語義分析,過濾與其他專有本體庫有對應的短語,留下沒有與其他專有本體庫有對應的短語;
短語之間關系分析單元,用于分析過濾留下短語具有的關系得到短語的關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海醇聚信息科技有限公司,未經上海醇聚信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710383135.4/2.html,轉載請聲明來源鉆瓜專利網。





