[發明專利]提取文本以轉換成音頻有效
| 申請號: | 201210013614.4 | 申請日: | 2012-01-17 |
| 公開(公告)號: | CN102622333A | 公開(公告)日: | 2012-08-01 |
| 發明(設計)人: | 王莼棟;P·洛博;R·周 | 申請(專利權)人: | 微軟公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F3/16 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 羅婷婷 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 提取 文本 轉換 音頻 | ||
技術領域
本發明涉及提取文本的技術,尤其涉及提取文本以轉換成音頻的技術。
背景技術
web瀏覽器和其他標記文檔呈現應用一般被配置成以可視形式來呈現標記文檔。盡管視覺上呈現的web內容適于在靜態位置中消費,但標記文檔的這種呈現可能不適于在移動時消費。已經提出了將標記文檔轉換成音頻輸出的各種方法。然而,由于許多網頁的復雜布局和不同內容,隔離供轉換成音頻的文本是具有挑戰性的。結果,網頁的非期望部分(諸如,廣告、內容發現鏈接、導航控件等)可被無意地轉換成音頻。
發明內容
在此公開了涉及將標記內容轉換成音頻輸出的各個實施例。例如,所公開的一個實施例提供了一種在計算設備中從標記文檔提取文本以供音頻輸出的方法。該方法包括:將標記文檔分成多個內容面板;以及通過基于每一個面板相對于標記文檔的總體組織的幾何準則和/或基于位置的準則來對所述多個內容面板進行過濾以形成內容面板的子集。該方法還包括:確定內容面板的子集中的每一個內容面板的文檔對象模型(DOM)分析值;通過基于內容面板的該子集中的每一個內容面板的DOM分析值來對內容面板的該子集進行過濾以標識出被確定為包含文本正文內容的內容面板的集合;以及,將在被確定為包含文本正文內容的所選內容面板中的文本轉換成音頻輸出。
提供本發明內容以便以簡化形式介紹將在以下具體實施方式中進一步描述的一些概念。本發明內容并不旨在標識所要求保護主題的關鍵特征或必要特征,也不旨在用于限制所要求保護主題的范圍。此外,所請求保護的主題不限于解決在本公開的任一部分中提及的任何或所有缺點的實現。
附圖說明
圖1示出了標記文檔使用環境的一實施例。
圖2示出了描繪用于從標記文檔提取文本以供轉換成音頻輸出的方法的一實施例的流程圖。
圖3示出了標記文檔的示例布局的實施例。
圖4示出了標記文檔的示例文檔對象模型(DOM)樹的一部分的實施例。
具體實施方式
如上所提到的,可在網頁或其他標記文檔內找到的各種不同的內容項可在將標記文檔文本轉換成令人滿意的音頻輸出時造成困難。例如,除了組成文章正文的文本以外,網頁還可包括諸如標題、該文章的作者的傳記、對該文章的評論以及所嵌入的視頻和音頻之類的相關內容,并包括諸如廣告、導航控件和指示、內容發現鏈接之類的無關內容。如果將這一頁面直接轉換成音頻而沒有任何內容過濾,則收聽體驗是不令人滿意的。
因此,在此呈現了涉及對標記文檔中的內容進行過濾以隔離出該文檔的文本正文(如果存在任何的話)以供轉換成音頻輸出的實施例。所公開的各實施例可幫助移除如廣告、標題、作者信息、評論等內容,使得用戶可收聽該文檔的文本正文而不會聽到該頁面中的其他較不期望的內容。
在更詳細地討論這些實施例之前,先參考圖1描述示例使用環境100。使用環境100包括被配置成經由網絡106向請求設備提供內容的服務器系統102,這些內容諸如是存儲在該服務器系統102上或可以以其他方式被該服務器系統102訪問的標記文檔104。各種類型的設備可請求和接收來自服務器系統102的標記文檔。示例包括但不限于:移動設備108、計算機110(例如,膝上型計算機、臺式計算機、筆記本計算機、筆記本型計算機、平板計算機和/或其他合適類型的計算機)、和電視機系統112(其可包括諸如數字錄像機、機頂盒、視頻游戲控制臺等硬件)。這些設備在此可被統稱為計算設備。
應該理解,上述計算設備是出于示例的目的來呈現的,而并非旨在以任何形式進行限制,因為在此所述的各實施例可以被實現在任何合適的計算設備上。示例包括但不限于:大型計算機、服務器計算機、臺式計算機、膝上型計算機、平板計算機、家庭娛樂計算機、網絡計算設備、移動計算設備、移動通信設備、游戲設備等。
如針對移動設備108示出的,這些計算設備中的每一個都可包括邏輯子系統120和數據保持子系統122,其中邏輯子系統120被配置成執行存儲在數據保持子系統122內的指令,以便實現在此公開的各實施例以及其他任務。這些計算設備中的每一個還包括音頻輸出124,它被配置成以電學的形式或聲學的形式輸出音頻信號。例如,音頻輸出124可包括諸如揚聲器之類的音頻轉換器,和/或可包括諸如揚聲器插孔、網絡接口等電子輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟公司,未經微軟公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210013614.4/2.html,轉載請聲明來源鉆瓜專利網。





