[發(fā)明專利]提取文本以轉(zhuǎn)換成音頻有效
| 申請?zhí)枺?/td> | 201210013614.4 | 申請日: | 2012-01-17 |
| 公開(公告)號: | CN102622333A | 公開(公告)日: | 2012-08-01 |
| 發(fā)明(設計)人: | 王莼棟;P·洛博;R·周 | 申請(專利權(quán))人: | 微軟公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F3/16 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 羅婷婷 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 提取 文本 轉(zhuǎn)換 音頻 | ||
1.一種在計算設備中從標記文檔提取文本以供音頻輸出的方法,所述方法包括:
將所述標記文檔分(202)成多個內(nèi)容面板;
通過基于每一個面板相對于所述標記文檔的總體組織的幾何準則和/或基于位置的準則來對所述多個內(nèi)容面板進行過濾(204)以形成內(nèi)容面板的子集;
確定(208)內(nèi)容面板的所述子集中的每一個內(nèi)容面板的文檔對象模型(DOM)分析值;
通過基于內(nèi)容面板的所述子集中的每一個內(nèi)容面板的DOM分析值來對內(nèi)容面板的所述子集進行過濾以標識出(218)被確定為包含文本正文內(nèi)容的內(nèi)容面板的集合;以及
將被確定為包含文本正文內(nèi)容的所選的內(nèi)容面板中的文本轉(zhuǎn)換(220)成音頻輸出。
2.如權(quán)利要求1所述的方法,其特征在于,面板的所述子集是面板的第一子集,并且還包括:
通過基于為內(nèi)容面板的所述第一子集中的每一個內(nèi)容面板確定的標簽的密度來對內(nèi)容面板的所述第一子集進行過濾以形成內(nèi)容面板的第二子集,并且其中確定內(nèi)容面板的所述子集中的每一個內(nèi)容面板的DOM分析值包括確定內(nèi)容面板的所述第二子集中的每一個內(nèi)容面板的DOM分析值。
3.如權(quán)利要求1所述的方法,其特征在于,從如下各項中的一個或多個確定所述DOM分析值:內(nèi)容面板與所選的其他面板相比的DOM節(jié)點深度、內(nèi)容面板與所述標記文檔的頂部間的距離、以及內(nèi)容面板與所選的其他內(nèi)容面板間的DOM節(jié)點間隔。
4.如權(quán)利要求3所述的方法,其特征在于,所述DOM分析值是基于如下各項的組合來確定的:內(nèi)容面板的DOM節(jié)點深度、內(nèi)容面板與所述標記文檔的頂部間的距離、以及內(nèi)容面板與所選的其他內(nèi)容面板間的DOM節(jié)點間隔。
5.如權(quán)利要求4所述的方法,其特征在于,還包括通過如下方式來確定所述DOM節(jié)點間隔:確定所述內(nèi)容面板與共同先輩節(jié)點間的深度及所選的其他內(nèi)容面板與所述共同先輩節(jié)點間的深度;以及將所述內(nèi)容面板的深度減去所選的其他內(nèi)容面板的深度。
6.如權(quán)利要求4所述的方法,其特征在于,還包括通過如下方式來確定所述DOM節(jié)點深度:在所述內(nèi)容面板與所選的其他內(nèi)容面板具有相同的節(jié)點深度的情況下分配第一值;以及,在所述內(nèi)容面板與所選的其他內(nèi)容面板具有不同的節(jié)點深度的情況下分配第二值。
7.如權(quán)利要求4所述的方法,其特征在于,還包括通過基于所述內(nèi)容面板與所述標記文檔的頂部間的距離的大小來對該距離進行加權(quán)以確定該距離。
8.如權(quán)利要求1所述的方法,其特征在于,所述計算設備包括移動設備。
9.一種計算設備(108、110、112),包括:
音頻輸出(124);
邏輯子系統(tǒng)(120);以及
數(shù)據(jù)保持子系統(tǒng)(122),它包括存儲于其中的可由所述邏輯子系統(tǒng)(120)執(zhí)行來通過如下方式輸出標記文檔的音頻呈現(xiàn)的指令:
將所述標記文檔分(202)成多個內(nèi)容面板;
基于每一個面板相對于所述標記文檔的總體組織的幾何準則和/或基于位置的準則來對所述多個內(nèi)容面板進行過濾(204),以便形成內(nèi)容面板的子集;
從以下各項中的一個或多個確定(208)內(nèi)容面板的所述子集中的每一個內(nèi)容面板的文檔對象模型(DOM)分析值:該內(nèi)容面板的DOM節(jié)點深度、該內(nèi)容面板與所述標記文檔的頂部間的距離、以及該內(nèi)容面板與所選的其他內(nèi)容面板間的DOM節(jié)點間隔;
通過基于內(nèi)容面板的所述子集中的每一個內(nèi)容面板的DOM分析值來對內(nèi)容面板的所述子集進行過濾以標識出(218)被確定為包含文本正文內(nèi)容的內(nèi)容面板的集合;以及
將被確定為包含文本正文內(nèi)容的所選的內(nèi)容面板中的文本轉(zhuǎn)換(220)成音頻輸出。
10.如權(quán)利要求9所述的計算設備,其特征在于,面板的所述子集是面板的第一子集,并且還包括可執(zhí)行來進行以下操作的指令:
通過基于為內(nèi)容面板的所述第一子集中的每一個內(nèi)容面板確定的標簽的密度來對內(nèi)容面板的所述第一子集進行過濾以形成內(nèi)容面板的第二子集;以及然后確定內(nèi)容面板的所述第二子集中的每一個內(nèi)容面板的DOM分析值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于微軟公司,未經(jīng)微軟公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210013614.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 圖像轉(zhuǎn)換設備、圖像轉(zhuǎn)換電路及圖像轉(zhuǎn)換方法
- 數(shù)模轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 轉(zhuǎn)換設備和轉(zhuǎn)換方法
- 占空比轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 通信轉(zhuǎn)換方法、轉(zhuǎn)換裝置及轉(zhuǎn)換系統(tǒng)
- 模數(shù)轉(zhuǎn)換和模數(shù)轉(zhuǎn)換方法
- 轉(zhuǎn)換模塊以及轉(zhuǎn)換電路
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件和熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊





