[發明專利]基于知識網絡的文本標引系統及其方法有效
| 申請號: | 201010168526.2 | 申請日: | 2010-05-11 |
| 公開(公告)號: | CN102207945A | 公開(公告)日: | 2011-10-05 |
| 發明(設計)人: | 張偉偉;張旭成;孫威;宋傳寶;陶鵬 | 申請(專利權)人: | 天津海量信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京汲智翼成知識產權代理事務所(普通合伙) 11381 | 代理人: | 陳曦 |
| 地址: | 300384 天津市華苑*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 知識 網絡 文本 標引 系統 及其 方法 | ||
1.一種基于知識網絡的文本標引系統,其特征在于:
所述文本標引系統包括單文本特征提取單元、多文本詞關系提取單元、知識樹生成單元、知識樹應用單元以及知識庫存儲單元;其中,
所述單文本特征提取單元接收非結構化的文檔,提取文檔中的內容關鍵詞并送入所述多文本詞關系提取單元;
所述多文本詞關系提取單元與所述知識樹生成單元中的知識樹操作模型進行連接,用于完成多文本詞之間的關系提取以及聚類工作;
所述知識樹生成單元包括網頁結構化信息模塊、知識樹初始化模塊、屬性存儲模塊、知識樹存儲模塊、知識樹操作模型和知識樹運營平臺,所述網頁結構化信息模塊連接所述知識樹初始化模塊,所述知識樹初始化模塊連接所述知識樹存儲模塊,所述屬性存儲模塊也連接所述知識樹存儲模塊,所述知識樹存儲模塊和所述知識樹運營平臺分別與所述知識樹操作模型進行雙向的信息交互;
所述知識庫存儲單元分別與所述知識樹操作模型和所述單文本特征提取單元進行連接,用于提供分類用知識庫,所述知識樹存儲模塊將相關的應用導出至所述知識樹應用單元。
2.如權利要求1所述的文本標引系統,其特征在于:
所述多文本詞關系提取單元包括針對語義網絡的關系挖掘模塊、詞間網絡關系數據模塊和詞與TAG間關系數據模塊,其中該關系挖掘模塊一方面連接所述單文本特征提取單元中的關鍵詞提取模塊,另一方面分別連接詞間網絡關系數據模塊和詞與TAG間關系數據模塊。
3.如權利要求2所述的文本標引系統,其特征在于:
所述知識樹操作模型分別與所述多文本詞關系提取單元中的詞間網絡關系數據模塊和詞與TAG間關系數據模塊進行連接。
4.如權利要求1所述的文本標引系統,其特征在于:
所述知識樹生成單元利用從互聯網上得到的知識體系,直接轉化為機器可讀的數據結構,再通過所述知識樹操作模型進行操作。
5.一種基于知識網絡的文本標引方法,基于權利要求1所述的文本標引系統實現,其特征在于包括如下的步驟:
(1)對于輸入所述文本標引系統的文本,首先進行分詞,獲取文本中的文本特征詞;
(2)根據文本特征詞所對應的知識樹的節點位置,推演出該文本對應的類別詞TAG;
(3)在TAG的基礎上,通過判別式模型對TAG的合法性進行判定,由此提煉出可靠的TAG詞集,再通過所述可靠的TAG詞集重新定位文本特征詞詞集,形成可靠的文本特征詞詞集。
6.如權利要求5所述的基于知識網絡的文本標引方法,其特征在于:
在所述步驟(1)中,使用隱馬爾科夫模型進行分詞。
7.如權利要求5所述的基于知識網絡的文本標引方法,其特征在于:
在所述步驟(3)中,判定合法性的依據是統計上的假設檢驗是否成立。
8.如權利要求7所述的基于知識網絡的文本標引方法,其特征在于:
概率在0.5%以下則認為某個TAG與知識樹的某個節點之間不存在關聯,概率大于90%則認為關聯可靠。
9.如權利要求5所述的基于知識網絡的文本標引方法,其特征在于:
對于新的未分類的詞,在所述可靠的TAG詞集的基礎上,通過所述文本標引系統對批量文本進行標注和關系分析,利用條件概率計算獲得所述未分類的詞與TAG的關系,從而使所述未分類的詞被分在了某個TAG下。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津海量信息技術有限公司,未經天津海量信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010168526.2/1.html,轉載請聲明來源鉆瓜專利網。





