[發明專利]基于語義實體關系模型和可視化推薦的信息瀏覽檢索方法有效
| 申請號: | 200910199284.0 | 申請日: | 2009-11-24 |
| 公開(公告)號: | CN101706794A | 公開(公告)日: | 2010-05-12 |
| 發明(設計)人: | 羅迒哉;范建平 | 申請(專利權)人: | 上海顯智信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 上海申匯專利代理有限公司 31001 | 代理人: | 翁若瑩 |
| 地址: | 200062 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語義 實體 關系 模型 可視化 推薦 信息 瀏覽 檢索 方法 | ||
技術領域
本發明涉及一種基于語義實體關系模型和可視化推薦的新型海量信息瀏覽 檢索技術,用于實現海量非結構化信息瀏覽檢索等服務。
背景技術
海量非結構化數據(例如:Internet)中隱藏著豐富的信息。這些信息可以 為數據的擁有者在眾多方面提供有價值的情報。例如,國家安全部門可以從別國 新聞報道中分析其對我國的真實態度,企業可以從自己的經營數據中檢測異常的 交易以防止損失擴大化,等等。但是,這些信息都深深地隱藏在大量的數據中。 要獲得這些信息,用戶必須大量瀏覽所擁有的數據,從中挖掘出自己感興趣的部 分。由于數據量是如此之大,人工瀏覽和整理這些信息的方法是不可能勝任的。
目前,搜索引擎技術通過把數據分解成簡單關鍵字并利用倒排文件索引、布 爾檢索和排序技術(例如:PageRank和HITS)實現了對海量數據的索引和檢索, 是目前半自動獲取這些信息的最先進技術。
但是,現有的搜索引擎技術仍然難以滿足這方面的用戶需求。其一,搜索引 擎技術要求用戶的需求必須明確和具體。這是因為只有明確和具體的需求才能翻 譯成查詢關鍵字。但是,在大多數涉及海量數據的應用中,用戶是沒有具體需求 的。例如,用戶希望瀏覽新聞的時候,一般是不清楚究竟有什么事件發生了(否 則就不是新聞了);金融監管機構希望監控異常交易的時候,更無法定義什么是 “異常”。在這種情況下,用戶難以找到合適的關鍵字來描述自己的需求,就難 以使用任何搜索引擎技術來獲得自己需要的信息了。
為解決這個問題,推薦和瀏覽是必不可少的手段。由于用戶對需求不明確, 系統就必須對所有數據進行分析、綜合和摘要,然后把最有可能吸引用戶的信息 直觀、高效地展示給用戶,讓用戶在瀏覽信息的過程中發現最需要的信息。而要 實現這一點,就必須要實現以下三個功能:第一、對海量數據挖掘和分析,并對 所有信息的用戶關注度進行定量評價;第二、將所有信息直觀、高效地展示給用 戶;第三、提供瀏覽和分析海量信息的手段,以便用戶在海量數據中發現自己確 實需要的信息。目前的搜索引擎技術不能實現這三個功能,所以難以在這些領域 獲得好的效果。
發明內容
本發明的目的是提供一種通過對海量多媒體非結構化數據的挖掘和分析把 最有可能吸引用戶的信息直觀、高效地展示給用戶,讓用戶在瀏覽信息的過程中 發現最需要的信息的檢索方法。
為了達到上述目的,本發明的技術方案是提供了一種基于語義實體關系模型 和可視化推薦的信息瀏覽檢索方法,其步驟為:
步驟1、從互聯網或者私有數據庫中定時搜集數據;
步驟2、從步驟1獲得的文檔數據、具有語音的音頻數據或具有配音的視頻 數據或具有標題的圖像數據中提取語義實體和關系,從而將數據轉換成以語義實 體和關系表示的形式,語義實體被定義為在用戶所關注的時間段內有穩定含義的 任何實體,關系則存在于任何一對語義實體之間,其中,
從文檔數據中提取語義實體的方法為:待處理的所有文檔經詞典分詞裝置以 預設的詞典為依據分解為詞語流,然后分別經CRF邊界預測裝置和統計特征提取 裝置提取各種字符串組合的相應的邊界特征和統計特征,最后,同一字符串的邊 界特征和統計特征同時送入SVM分類裝置作為特征矢量由SVM算法進行分類,被 SVM分類裝置識別為文字語義實體的所有字符串即構成步驟2所述的語義實體;
從具有語音的音頻數據提取語義實體的方法為:首先利用自動語音識別技術 將音頻轉換成文字串,然后利用上所述的從文檔數據中提取語義實體的方法來提 取其中的語義實體,從而得到步驟2所述的語義實體;
從具有配音的視頻數據或具有標題的圖像數據中提取語義實體的方法為:
步驟2.1、分割
將每幅配圖看作一個語義實體,同時將視頻中的每個鏡頭看作單個的語義實 體,由此將具有配音的視頻數據或具有標題的圖像數據分割為多個視頻語義實體 或圖像語義實體;
步驟2.2、歸并
對圖像,通過上述的從文檔數據中提取語義實體的方法從配圖的替換文字和 標題中分割出文字語義實體,將該文字語義實體與通過步驟2.1分割得到的圖像 語義實體歸并為同一語義實體,得到步驟2所述的語義實體;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海顯智信息科技有限公司,未經上海顯智信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910199284.0/2.html,轉載請聲明來源鉆瓜專利網。





