[發明專利]形成用于生成文檔模板的合并樹的方法以及裝置有效
| 申請號: | 201010260747.2 | 申請日: | 2010-08-17 |
| 公開(公告)號: | CN102375847A | 公開(公告)日: | 2012-03-14 |
| 發明(設計)人: | 王新文;夏迎炬;孟遙;于浩 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王萍;許向華 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 形成 用于 生成 文檔 模板 合并 方法 以及 裝置 | ||
技術領域
本發明總體上涉及計算機領域,更具體而言,涉及形成用于生成文檔模板的合并樹的方法以及裝置。
背景技術
隨著因特網和電子技術的飛速發展,人們不再受地域的限制,可以方便的在網上交換各種各樣的信息。在大量用戶的參與之下,網站(比如論壇、博客、產品目錄網站等)的網頁中存在大量的有用信息,這些信息不僅對于個人而且對于企業都有很好的使用價值。
為了獲得這些有用信息,需要下載網站中所包括的多個網頁以進行進一步的分析提取。
對于同一個網站的網頁,大多數都具有相似的結構和組成,如果使用這些頁面的模板,那么去除噪音后提取其中的有用信息,就會變得簡單而精確。其中,如何生成正確的模板就成為其中的關鍵所在。
而且,原來的模板生成通常是通過手工來實現的,但是由于站點的眾多以及站點模板的變化,使得生成和長期維護一個模板成為一件費時而且費力的工作。
發明內容
針對上述情況,本發明的目的是提出一種通過對由多個頁面解析成的多棵樹進行比較和合并來形成合并樹的方法,以提高使用合并樹生成模板的準確率。
此外,本發明的另一目的是提出一種通過對合并樹根據節點的特征進行歸納和提取來生成站點網頁的模板的方法,以使得模板的生產變得簡單。
按照本發明的一方面,提供了一種形成用于生成文檔模板的合并樹的方法,包括以下步驟:
相似度計算步驟,用于當從由多個頁面解析成的多棵樹中每顆樹與另一顆樹進行比較時計算兩顆被比樹中位于同一層的子樹的相似度,以從兩顆被比樹中提取相似度大于或等于預定第一閾值的相似子樹和該些相似子樹的公共根節點,其中從所述多棵樹的節點能夠提取所需特征;
合并步驟,使用提取的所有樹的相似子樹來形成初始合并樹,其中初始合并樹的根節點是所有樹的相似子樹的公共根節點;以及
后處理步驟,用于對初始合并樹進行后處理,以通過去除初始合并樹的無效子樹來獲得合并樹。
按照本發明的一方面,提供了一種形成用于生成文檔模板的合并樹的裝置,包括:
相似度計算單元,配置成當從由多個頁面解析成的多棵樹中每顆樹與另一顆樹進行比較時計算兩顆被比樹中位于同一層的子樹的相似度,以從兩顆被比樹中提取相似度大于或等于預定第一閾值的相似子樹和該些相似子樹的公共根節點,其中從所述多棵樹的節點能夠提取所需特征;
合并單元,配置成使用提取的所有樹的相似子樹來形成初始合并樹,其中初始合并樹的根節點是所有樹的相似子樹的公共根節點;以及
后處理單元,配置成對初始合并樹進行后處理,以通過去除初始合并樹的無效子樹來獲得合并樹。
根據本發明實施例的方法和裝置可獲得的一個益處是,通過合并由多個頁面解析成的多棵樹得到用于生成模板的合并樹,能夠提高生成模板的準確率。進一步,通過對合并樹根據節點的特征進行歸納和提取,能夠降低因為頁面中的一些微小變化而導致生成錯誤模板的風險。此外,通過對一些參數的改變,可以提高不同情況下的準確率。可獲得的另外益處是,通過對多個頁面的歸納,可以明確地發現模板路徑中容易發生變化的節點,通過把這些節點變化信息添加到路徑模板中,可以減少以后提取信息的時間消耗和增加提取信息的準確率,從而增加了生成模板的靈活性。可獲得的又一益處是,根據節點的特征進行信息路徑的歸納和提取,使得模板的生產變得自動而簡單,而且能夠通過對抽取結果和原來存儲結果的對比,從而及時發現其中的改變并修改發生變化的模板。
附圖說明
從對說明本發明的主旨及其使用的優選實施例和附圖的以下描述來看,本發明的以上和其它目的、特點和優點將是易明白的。附圖中的部件不一定成比例繪制,而只是為了示出本發明的原理。為了便于示出和描述本發明的一些部分,附圖中對應部分可能被放大,即,使其相對于在依據本發明的示例性裝置中的其它部件變得更大。在附圖中,相同的或類似的技術特征或部件將采用相同或類似的附圖標記來表示。
圖1是示出了根據本發明實施例的用于生成文檔模板的合并樹的形成方法的流程簡圖;
圖2是示出了應用圖1所示方法的一個具體例子的流程簡圖;
圖3是示出了在如圖1所示實施例的方法的一個具體示例中所應用的相似度計算步驟的流程簡圖;
圖4是示出了在如圖1所示的實施例的方法的一個具體示例中所應用的后處理步驟的流程簡圖;
圖5是示出了根據本發明的實施例的形成用于生成文檔模板的合并樹的裝置的簡化框圖;以及
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010260747.2/2.html,轉載請聲明來源鉆瓜專利網。





