[發明專利]接續文章部分的媒體材料分析有效
| 申請號: | 200780048905.4 | 申請日: | 2007-11-05 |
| 公開(公告)號: | CN101573705A | 公開(公告)日: | 2009-11-04 |
| 發明(設計)人: | 拉爾夫·富爾馬尼亞克;雷·史密斯;盧克·文森特;丹·布魯姆伯格 | 申請(專利權)人: | 谷歌公司 |
| 主分類號: | G06F17/00 | 分類號: | G06F17/00 |
| 代理公司: | 中原信達知識產權代理有限責任公司 | 代理人: | 張煥生;安 翔 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 接續 文章 部分 媒體 材料 分析 | ||
1.一種用于分析表示具有布局的媒體材料的數據的媒體材料分析器,包括:
分段器,標識與所述媒體材料中的分欄主體文本相關聯的塊分段;和
語言統計分析器,為所述分段器所輸出的候選塊分段計算語言統計并基于語言統計信息中的重疊以及訓練數據確定所述候選塊分段屬于相同文章的概率,所述語言統計包括基于相對詞頻的匹配分值。
2.如權利要求1所述的媒體材料分析器,進一步包括:
文章合成器,基于語言統計信息和布局轉換信息來確定所標識的塊分段中的哪些屬于所述媒體材料中的一個或多個文章。
3.如權利要求2所述的媒體材料分析器,其中,所述文章合成器包括接續布局轉換分析器,所述接續布局轉換分析器標識所標識的塊分段中的與第一頁面中的候選接續文章部分相關聯的最后塊分段,標識在所述最后塊分段下方的一個或多個項目,基于所標識的一個或多個項目的至少一個特征對所述最后塊分段進行歸類,并且應用決策樹挑選出指示所述最后塊分段處于接續文章中的概率的一個或多個布局轉換特征,并且其中所標識的塊分段屬于所述媒體材料中跨多個頁面接續且延伸的一個或多個文章。
4.如權利要求2所述的媒體材料分析器,其中,所述語言統計信息包括詞頻信息,并且其中所述語言統計分析器基于每個塊分段中相對于整個文集的詞頻和候選塊分段對之間的余弦距離相似度為所述候選塊分段對計算匹配分值。
5.如權利要求2所述的媒體材料分析器,其中,所述語言統計分析器基于所計算的匹配分值和具有屬于和不屬于相同文章的預定肯定和否定塊分段示例的樣本數據來確定所述候選塊分段對屬于所述媒體材料中的相同文章的概率。
6.如權利要求5所述的媒體材料分析器,其中所述語言統計分析器自動地從訓練數據集合中的文章收集中選擇所述肯定和否定數據示例。
7.如權利要求5所述的媒體材料分析器,其中所述預定肯定和否定數據示例由用戶在用戶界面從文本數據的顯示中選擇,所述文本數據從所述媒體材料的圖像通過光學字符識別被提取。
8.如權利要求1所述的媒體材料分析器,進一步包括:
文章合成器,所述文章合成器包括布局轉換分析器,所述布局轉換分析器分析所述分段器所輸出的候選塊分段中的布局轉換特征并確定所述候選塊分段是否屬于所述媒體材料中的相同文章,并且
其中,所述布局轉換分析器計算來自所述候選塊分段的布局轉換特征,并且應用預定的布局轉換分類器基于所計算的布局轉換特征來確定所述候選塊分段是否屬于所述媒體材料中的相同文章。
9.一種計算機實現的用于分析表示具有布局的媒體材料的數據的方法,包括:
標識與所述媒體材料中的分欄主體文本相關聯的塊分段;和
基于語言統計信息和布局信息來確定所標識的塊分段中的哪些屬于所述媒體材料中的一個或多個文章,
其中所述確定包括:
為候選模塊分段計算語言統計;和
基于語言統計信息中的重疊和訓練數據確定所比較的塊分段屬于相同文章的概率,所述語言統計信息包括基于相對詞頻的匹配分值。
10.如權利要求9所述的方法,其中所標識的塊分段屬于所述媒體材料中跨多個頁面接續且延伸的一個或多個文章。
11.如權利要求9所述的方法,進一步包括顯示來自被確定處于相同的文章中的一個或多個塊分段的文本。
12.如權利要求9所述的方法,其中所述語言統計信息包括詞頻信息,并且所述計算包括基于每個塊分段中相對于整個文集的詞頻和候選塊分段對之間的余弦距離相似度為所述候選塊分段對計算匹配分值。
13.如權利要求12所述的方法,其中所述確定概率的步驟包括基于所計算的匹配分值和具有屬于和不屬于相同文章的預定肯定和否定塊分段示例的樣本數據來確定所述候選塊分段對屬于所述媒體材料中的相同文章的概率。
14.如權利要求13所述的方法,進一步包括使得用戶能夠從文本數據的顯示中選擇所述肯定和否定數據示例,所述文本數據從所述媒體材料的圖像通過光學字符識別而被提取。
15.如權利要求9所述的方法,其中所述確定進一步包括基于根據語言統計信息中的重疊所確定的概率來標識所述候選塊分段是否屬于所述媒體材料中的相同文章。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌公司,未經谷歌公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200780048905.4/1.html,轉載請聲明來源鉆瓜專利網。





