[發明專利]從語言輸入數據自動生成N?元和概念關系在審

申請號：	201580060933.2	申請日：	2015-10-14
公開（公告）號：	CN107111608A	公開（公告）日：	2017-08-29
發明（設計）人：	F·諾茲;C·奇斯格;M·扎拉芬;M·B·維拉達-莫伊恩;R·吉尼特	申請（專利權）人：	甲骨文國際公司
主分類號：	G06F17/27	分類號：	G06F17/27;G06F17/28;G06F17/30
代理公司：	中國國際貿易促進委員會專利商標事務所11038	代理人：	李曉芳
地址：	美國加***	國省代碼：	暫無信息
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語言輸入數據自動生成概念關系
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

對相關申請的交叉引用

本申請要求于2014年11月10日提交的標題為“Automatic Batch Generation of Concept Relations from N-Grams from Linguistic Input Data”的美國臨時申請No.62/077,868的權益。本申請還要求于2014年11月10日提交的標題為“Lemma Mapping to Univerasal Ontologies”的美國臨時申請No.62/077,887的權益。出于所有目的，這些申請中的每個申請通過引用并入本文。

以下三個申請彼此相關并且于2015年7月6日同一天提交：Fabrice Nauze等人于2015年7月7日提交的標題為“Automatic Generation of N-Grams and Concept Relations From Linguistic Input Data”的美國序列No.14/793,677(代理人案號88325-934160)；Margaret Salome等人于2015年7月7日提交的標題為“Automatic Ontology Generation for Natural-Language Processing Applications”的美國序列No.14/793,701(代理人案號88325-913826)；以及Fabrice Nauze等人于2015年7月7日提交的標題為“Lemma Mapping to Universal Ontologies in Computer Natural-Language Processing”的美國序列No.14/793,658(代理人案號88325-934161)。這些申請中的每個申請通過引用并入本文。

背景技術

管理大型企業可以涉及存儲、聚合和分析大量數據。許多組織使用企業軟件系統管理幾乎每種形式的業務數據。例如，企業軟件系統可以提供面向業務的工具，諸如在線購物和在線支付處理、交互式產品目錄、自動計費系統、安全性、企業內容管理、IT服務管理、客戶關系管理、企業資源規劃、商業智能、項目管理、協作、人力資源管理、制造、企業應用集成以及企業表單自動化。

發明內容

在一些實施例中，從web資源自動生成詞元詞典(lemma dictionary)的方法可以包括從web資源內的基于文本的文檔中提取多個標記，從該多個標記生成多個N-元(N-gram)，接收識別有效N-元的一個或多個過濾器定義；使用該一個或多個過濾器定義來過濾該多個N-元，以生成詞元詞典；以及生成包括該詞元詞典的本體(ontology)。

在一些實施例中，非暫態計算機可讀介質可以包括指令，該指令當由一個或多個處理器執行時使得該一個或多個處理器執行操作，這些操作包括：從web資源內的基于文本的文檔中提取多個標記，從該多個標記生成多個N-元，接收識別有效N-元的一個或多個過濾器定義；使用該一個或多個過濾器定義來過濾該多個N-元，以生成詞元詞典；以及生成包括該詞元詞典的本體。

在一些實施例中，系統可以包括一個或多個處理器以及包括指令的一個或多個存儲器設備，該指令當由該一個或多個處理器執行時使得該一個或多個處理器執行操作，這些操作包括：從web資源內的基于文本的文檔中提取多個標記，從該多個標記生成多個N-元，接收識別有效N-元的一個或多個過濾器定義；使用該一個或多個過濾器定義來過濾該多個N-元，以生成詞元詞典；以及生成包括該詞元詞典的本體。

附圖說明

可以通過參考說明書的剩余部分和附圖來實現對本發明的本質和優點的進一步理解，其中貫穿若干附圖使用相似的附圖標記來指代相似的組件。在一些實例中，子標簽與附圖標記相關聯，以表示多個相似組件中的一個組件。當在沒有指定現有子標簽的情況下引用附圖標記時，旨在指代所有這樣的多個相似組件。

圖1示出了根據一些實施例的基于web的虛擬助手的簡化框圖。

圖2示出了根據一些實施例的用于生成自然語言本體的系統的框圖。

圖3示出了根據一些實施例的用于使用標準化過程來生成不同語言的本體的方法的流程圖。

圖4示出了根據一些實施例的用于與語言分析工具交互的用戶界面。

圖5示出了根據一些實施例的用于從web域自動提取標記的用戶界面。

圖6示出了用于顯示由語言分析工具返回的標記數據結構中的信息的用戶界面。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于甲骨文國際公司，未經甲骨文國際公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201580060933.2/2.html，轉載請聲明來源鉆瓜專利網。