[發明專利]從語言輸入數據自動生成N?元和概念關系在審
| 申請號: | 201580060933.2 | 申請日: | 2015-10-14 |
| 公開(公告)號: | CN107111608A | 公開(公告)日: | 2017-08-29 |
| 發明(設計)人: | F·諾茲;C·奇斯格;M·扎拉芬;M·B·維拉達-莫伊恩;R·吉尼特 | 申請(專利權)人: | 甲骨文國際公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/28;G06F17/30 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所11038 | 代理人: | 李曉芳 |
| 地址: | 美國加*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語言 輸入 數據 自動 生成 概念 關系 | ||
對相關申請的交叉引用
本申請要求于2014年11月10日提交的標題為“Automatic Batch Generation of Concept Relations from N-Grams from Linguistic Input Data”的美國臨時申請No.62/077,868的權益。本申請還要求于2014年11月10日提交的標題為“Lemma Mapping to Univerasal Ontologies”的美國臨時申請No.62/077,887的權益。出于所有目的,這些申請中的每個申請通過引用并入本文。
以下三個申請彼此相關并且于2015年7月6日同一天提交:Fabrice Nauze等人于2015年7月7日提交的標題為“Automatic Generation of N-Grams and Concept Relations From Linguistic Input Data”的美國序列No.14/793,677(代理人案號88325-934160);Margaret Salome等人于2015年7月7日提交的標題為“Automatic Ontology Generation for Natural-Language Processing Applications”的美國序列No.14/793,701(代理人案號88325-913826);以及Fabrice Nauze等人于2015年7月7日提交的標題為“Lemma Mapping to Universal Ontologies in Computer Natural-Language Processing”的美國序列No.14/793,658(代理人案號88325-934161)。這些申請中的每個申請通過引用并入本文。
背景技術
管理大型企業可以涉及存儲、聚合和分析大量數據。許多組織使用企業軟件系統管理幾乎每種形式的業務數據。例如,企業軟件系統可以提供面向業務的工具,諸如在線購物和在線支付處理、交互式產品目錄、自動計費系統、安全性、企業內容管理、IT服務管理、客戶關系管理、企業資源規劃、商業智能、項目管理、協作、人力資源管理、制造、企業應用集成以及企業表單自動化。
發明內容
在一些實施例中,從web資源自動生成詞元詞典(lemma dictionary)的方法可以包括從web資源內的基于文本的文檔中提取多個標記,從該多個標記生成多個N-元(N-gram),接收識別有效N-元的一個或多個過濾器定義;使用該一個或多個過濾器定義來過濾該多個N-元,以生成詞元詞典;以及生成包括該詞元詞典的本體(ontology)。
在一些實施例中,非暫態計算機可讀介質可以包括指令,該指令當由一個或多個處理器執行時使得該一個或多個處理器執行操作,這些操作包括:從web資源內的基于文本的文檔中提取多個標記,從該多個標記生成多個N-元,接收識別有效N-元的一個或多個過濾器定義;使用該一個或多個過濾器定義來過濾該多個N-元,以生成詞元詞典;以及生成包括該詞元詞典的本體。
在一些實施例中,系統可以包括一個或多個處理器以及包括指令的一個或多個存儲器設備,該指令當由該一個或多個處理器執行時使得該一個或多個處理器執行操作,這些操作包括:從web資源內的基于文本的文檔中提取多個標記,從該多個標記生成多個N-元,接收識別有效N-元的一個或多個過濾器定義;使用該一個或多個過濾器定義來過濾該多個N-元,以生成詞元詞典;以及生成包括該詞元詞典的本體。
附圖說明
可以通過參考說明書的剩余部分和附圖來實現對本發明的本質和優點的進一步理解,其中貫穿若干附圖使用相似的附圖標記來指代相似的組件。在一些實例中,子標簽與附圖標記相關聯,以表示多個相似組件中的一個組件。當在沒有指定現有子標簽的情況下引用附圖標記時,旨在指代所有這樣的多個相似組件。
圖1示出了根據一些實施例的基于web的虛擬助手的簡化框圖。
圖2示出了根據一些實施例的用于生成自然語言本體的系統的框圖。
圖3示出了根據一些實施例的用于使用標準化過程來生成不同語言的本體的方法的流程圖。
圖4示出了根據一些實施例的用于與語言分析工具交互的用戶界面。
圖5示出了根據一些實施例的用于從web域自動提取標記的用戶界面。
圖6示出了用于顯示由語言分析工具返回的標記數據結構中的信息的用戶界面。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于甲骨文國際公司,未經甲骨文國際公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201580060933.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:活體傳感器
- 下一篇:帶圖形用戶界面的空氣質量檢測儀
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





