[發明專利]基于語義實體關系模型和可視化推薦的信息瀏覽檢索方法有效
| 申請號: | 200910199284.0 | 申請日: | 2009-11-24 |
| 公開(公告)號: | CN101706794A | 公開(公告)日: | 2010-05-12 |
| 發明(設計)人: | 羅迒哉;范建平 | 申請(專利權)人: | 上海顯智信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 上海申匯專利代理有限公司 31001 | 代理人: | 翁若瑩 |
| 地址: | 200062 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語義 實體 關系 模型 可視化 推薦 信息 瀏覽 檢索 方法 | ||
1.一種基于語義實體關系模型和可視化推薦的信息瀏覽檢索方法,其步驟為:
步驟1、從互聯網或者私有數據庫中定時搜集數據;
步驟2、從步驟1獲得的文檔數據、具有語音的音頻數據或具有配音的 視頻數據或具有標題的圖像數據中提取語義實體和關系,從而將數據轉換成 以語義實體和關系表示的形式,語義實體被定義為在用戶所關注的時間段內 有穩定含義的任何實體,關系則存在于任何一對語義實體之間,其中,
從文檔數據中提取語義實體的方法為:待處理的所有文檔(D1)經詞典 分詞裝置(S1)以預設的詞典(D2)為依據分解為詞語流,然后分別經CRF 邊界預測裝置(S2)和統計特征提取裝置(S3)提取各種字符串組合的相應 的邊界特征和統計特征,最后,同一字符串的邊界特征(D3)和統計特征(D4) 同時送入SVM分類裝置(S4)作為特征矢量由SVM算法進行分類,被SVM分 類裝置(S4)識別為文字語義實體的所有字符串即構成步驟2所述的語義實 體;
從具有語音的音頻數據提取語義實體的方法為:首先利用自動語音識別 技術將音頻轉換成文字串,然后利用上所述的從文檔數據中提取語義實體的 方法來提取其中的語義實體,從而得到步驟2所述的語義實體;
從具有配音的視頻數據或具有標題的圖像數據中提取語義實體的方法 為:
步驟2.1、分割
將每幅配圖看作一個語義實體,同時將視頻中的每個鏡頭看作單個的語 義實體,由此將具有配音的視頻數據或具有標題的圖像數據分割為多個視頻 語義實體或圖像語義實體;
步驟2.2、歸并
對圖像,通過上述的從文檔數據中提取語義實體的方法從配圖的替換文 字和標題中分割出文字語義實體,將該文字語義實體與通過步驟2.1分割得 到的圖像語義實體歸并為同一語義實體,得到步驟2所述的語義實體;
對視頻,將視頻的配音用自動語音識別技術轉換成文字并用上述的從文 檔數據中提取語義實體的方法分割出其中的文字語義實體,對每個從配音中 識別出的文字語義實體,根據配音和視頻的同步關系,可以把這個語義實體 同步到視頻中的某個鏡頭,然后,這個文字語義實體就可以和所同步到的鏡 頭的前后各5個鏡頭的視頻語義實體歸并為同一語義實體,得到步驟2所述 的語義實體;
步驟3、通過提取頻率,將步驟2得到的數據轉換成原始語義實體關系 模型Dr,原始語義實體關系模型Dr在延時后加入歷史數據庫,所述的頻率 為語義實體或關系的出現頻率;
步驟4、歷史數據庫中的數據通過與用戶的學習/遺忘曲線卷積后生成表 示用戶已有知識的用戶知識模型KU;
步驟5、利用用戶知識模型KU對原始語義實體關系模型Dr中的數據進 行預測即可生成用戶感興趣的知識,其中,預測步驟為:
步驟5.1、將所述原始語義實體關系模型Dr中的權重項歸一化,根據KL- 距離公式計算用戶知識模型KU與原始語義實體關系模型Dr之間的總差異;
步驟5.2、把該公式進行分解并去除無關項和正相關函數,可以得到每 個語義實體或關系的局部生疏度w(ej);
步驟5.3、將原始語義實體關系模型Dr中的權重項用局部生疏度w(ej)來 替代,得到一個可較好地表達用戶感興趣信息的數學模型,在該模型中,具 有較高權重的語義實體或關系更可能吸引用戶,而權重較低的語義實體和關 系則對用戶意義不大,可以略去;
步驟6、將通過所述步驟5得到的數據經過檢索過濾并通過雙曲幾何布 局裝置顯示在可視化用戶操作界面上,或者直接通過雙曲幾何布局裝置顯示 在可視化用戶操作界面上。
2.如權利要求1所述的一種基于語義實體關系模型和可視化推薦的信息瀏覽檢 索方法,其特征在于,步驟3中所述原始語義實體關系模型Dr在數學上表示 為:
Dr={(ei,f(ei))|1≤i≤m}∪{(rj,f(rj))|1≤j≤n},其中ei表示一個語義實 體,f(ei)表示ei出現的頻率;rj表示一對語義實體之間的關系,f(rj)表示rj出現的頻率,m表示語義實體的個數,n表示關系的個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海顯智信息科技有限公司,未經上海顯智信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910199284.0/1.html,轉載請聲明來源鉆瓜專利網。





