[發明專利]范例學習驅動的內容關聯網站發掘方法在審
| 申請號: | 202011004278.8 | 申請日: | 2020-09-23 |
| 公開(公告)號: | CN112100500A | 公開(公告)日: | 2020-12-18 |
| 發明(設計)人: | 高小翎;王斌 | 申請(專利權)人: | 高小翎 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/955;G06F16/33;G06F16/35;G06F40/216;G06F40/289 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 310016 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 范例 學習 驅動 內容 關聯 網站 發掘 方法 | ||
1.范例學習驅動的內容關聯網站發掘方法,其特征在于,采用范例學習的方法依據當前的網站信息智能發掘與其內容關聯的信息,提出學習范例網站發掘內容關聯網站并推薦給用戶的方法,主要內容包括:
一是基于范例網站的數據,通過改良的關鍵詞提取方法提取范例網站的關鍵詞,關鍵詞綜合考慮影響關鍵詞權重的詞長、詞頻、詞性和詞的出現位置因素,其中詞的出現位置分為標題、段落開頭、段落中間和段落結尾;
二是提出范例網站主題聚類模型,將范例網站的網頁文本、提取得到的范例網站關鍵詞集合以及這些關鍵詞的權重信息構建范例網站主題聚類模型,范例網站主題聚類模型有效表達原網站的信息;
三是采用搜索引擎在網絡上搜索同主題關鍵詞的關聯網頁,對爬取得到的網頁結果進行URL分析,構建這些URL的主題關鍵詞權重特征向量,并將這些URL特征向量跟范例網站主題聚類模型的特征向量進行近似度計算,最后將近似度值排在最前面的部分網站推薦給用戶;
本發明提出構建范例網站的主題聚類模型,描述范例網站的主題內容信息;首先獲取范例網站的所有網頁信息,并對這些網頁做過濾處理得到純凈的網頁文本,然后用改良的TF-IDF方法計算網頁文本的關鍵詞權重,綜合考慮包括詞頻統計信息、詞出現位置、詞性標注和詞長影響權重的因素,綜合以上影響因素得到范例網站的關鍵詞集合,并用這些關鍵詞生成描述范例網站的主題聚類模型;爬取近似時,用主題關鍵詞的各種組合作為搜索條件,并用正則表達式對爬取的頁面進行解析,提取其中的URL,根據URL獲取URL對應的域名,并保存到數據庫,利用數據庫的性質實現URL的去重工作;網站近似度計算提出將網站的主題聚類模型映射到向量空間的方法,以關鍵詞的權重信息構成網站的特征向量,將網站的近似度計算轉變成向量的近似度計算;然后設定近似度臨界值確定近似的網站。
2.根據權利要求1所述的范例學習驅動的內容關聯網站發掘方法,其特征在于,處理網頁噪聲獲取純凈的網頁文本,剔除網頁中的垃圾信息,保留與網頁主題內容關聯的信息,減小對網頁關鍵詞提取的影響;
去除網頁中存在的垃圾信息,根據HTML的結構處理,再采用程序方法獲取最終的純凈的網頁文本;一個HTML文件相當于一棵DOM樹,根據DOM的結點剔除垃圾信息,保留網頁正文;正文是在BODY標簽里面,正文的提取在處理垃圾信息之后進行;剔除垃圾信息利用正則表達式對其過濾,BODY中存在一些廣告的鏈接,依據廣告的特征將廣告鏈接剔除,或在提取正文時忽略這些信息;而正文內容中,包含許多的段落標簽P、字體屬性信息,對這些信息作標注,并生成相應的文本內容;最后根據得到的純凈文本,對其進行關鍵詞提取;
前置處理是去除網頁中的無用標簽內容,采用正則表達式匹配的方法;首先利用正則表達式匹配無用的標簽,然后用空串替換掉匹配到的標簽內容;對所有的無用標簽匹配過后,剩下的內容則是純凈的網頁文本。
3.根據權利要求1所述的范例學習驅動的內容關聯網站發掘方法,其特征在于,網頁關鍵詞加權處理采用ICTCLAS分詞系統對純凈的文本網頁進行中文分詞、位置標注和詞性標注,得到初始關鍵詞;ICTCLAS系統包括中文分詞、詞性標注、未登錄詞識別;網頁關鍵詞提取的具體過程包括以下四個步驟:
步驟1,停用詞過濾:停用詞不屬于主題關鍵詞集合,利用STOP詞庫直接排除文檔中的停用詞,生成初始備選關鍵詞集合;
步驟2,位置標注:所有關鍵詞在網頁文本中都有其相應出現的位置,比如標題和正文,而正文又分為段落起始位置、段落中間和段落結尾,用位置標注法標注關鍵詞的起始位置和終止位置;
步驟3,詞性過濾:根據詞性選擇中文分詞后生成的關鍵詞,保留名詞或包含名詞的詞匯,排除其它詞性的詞匯,減小尋找關鍵詞的集合;
步驟4,生成備選關鍵詞集合:按順序完成停用詞的過濾、位置信息標注和詞性信息的標注,得到正式的初始關鍵詞集合,為計算主題關鍵詞的最終加權處理提供數值基礎。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于高小翎,未經高小翎許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011004278.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種水下柔性網體啟閉裝置
- 下一篇:一種破碎式微動力污水處理設備
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





