[發明專利]一種基于URL的中文多語義名詞的在線語義挖掘系統無效
| 申請號: | 201310431789.1 | 申請日: | 2013-09-22 |
| 公開(公告)號: | CN103488741A | 公開(公告)日: | 2014-01-01 |
| 發明(設計)人: | 劉一正 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海藍迪專利事務所 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 url 中文 語義 名詞 在線 挖掘 系統 | ||
1.一種基于URL的中文多語義名詞的在線語義挖掘系統,其特征在于該系統包括基于URL的語義分類模塊及語義生成模塊,其中:
所述基于URL的語義分類模塊利用互聯網網頁中URL中的語義特征,對中文多語義詞的搜索結果進行語義分類;其該模塊的生成:中文權威網站發布并更新URL網址分類目錄,此目錄會對其收錄的網站URL及其對應的語義類別;根據多個權威網站的網頁目錄,對其收錄的網頁URL及對應的語義分類進行歸納、去重,以構建URL分類器;?URL分類器為樹狀結構,樹中葉子結點即為其收錄的網站主頁URL,非葉子結點則為其子結點的語義類別;?
所述基于URL的語義生成模塊根據中文多語義詞搜索結果中的網頁摘要部分,對基于URL語義分類模塊中所得結果進行聚類,并采用top-N篩選出每類的特征詞,作為多語義詞的語義分類結果;其該模塊的多語義詞的語義生成過程:
ⅰ)對于構建的URL分類器所得的初始語義分類中的網頁摘要進行分詞處理,并按改進的基于詞頻的方法選取特征詞;
ⅱ)根據所得特征詞,對網頁摘要進行聚類,聚類方法為Single-link聚類;?
ⅲ)采用top-N,對每類選取一組特征詞,表示最終的語義挖掘結果。
2.根據權利要求1所述的系統,其特征在于所述中文多語義詞的搜索結果指多語義詞通過中文在線搜索引擎所獲得的網頁搜索結果,包括網頁URL及網頁摘要。
3.根據權利要求1所述的系統,其特征在于所述構建URL分類器的過程:
ⅰ)將網頁URL按標識符分段,提取分類特征;
ⅱ)將提取得來的URL分類特征同URL目錄下的葉子結點進行相似度匹配,若相似度超過閾值,則將此葉子結點的語義分類作為該網頁的候選語義分類;若未達到閾值,則不做任何處理;
ⅲ)按照top-N,為每個網頁從候選語義分類中確定其語義分類。
4.根據權利要求1所述的系統,其特征在于所述選取特征詞是:定義W為:
其中為某一初始語義分類的詞頻數,為某候選特征詞在對應的初始語義分類下的詞頻數,選取較大W值對應的詞為特征詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310431789.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:食品成型滾筒
- 下一篇:一種無鎖數據匯聚方法及裝置





