[發(fā)明專利]能自動抓取和播報新聞的方法及其機器人裝置在審
| 申請?zhí)枺?/td> | 201710041170.8 | 申請日: | 2017-01-20 |
| 公開(公告)號: | CN106933944A | 公開(公告)日: | 2017-07-07 |
| 發(fā)明(設(shè)計)人: | 紀江霖;吳勇謀 | 申請(專利權(quán))人: | 深圳前海勇藝達機器人有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京金蓄專利代理有限公司11544 | 代理人: | 孫巍 |
| 地址: | 518061 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 自動 抓取 播報 新聞 方法 及其 機器人 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,尤其涉及一種能自動抓取和播報新聞的方法及其機器人裝置。
背景技術(shù)
在互聯(lián)網(wǎng)的時代,傳統(tǒng)媒體新聞在逐漸退出歷史舞臺,淡出大眾的視野,成為一種小眾的讀物。在互聯(lián)網(wǎng)發(fā)達的今天,忙碌的年輕人更喜歡通過電子媒體的方式獲取最新的資訊和信息。例如今日頭條,F(xiàn)acebook,騰訊,網(wǎng)易等等公司的電子新聞都是目前大家喜歡閱讀的新聞平臺。
鑒于傳統(tǒng)的媒體新聞無法做到互聯(lián)網(wǎng)新聞的高時效性,新鮮性,和針對不同的用戶群體的精準推薦性。并且基于現(xiàn)有的新聞平臺新聞信息互為補充,因此急需一種技術(shù)可以對新聞平臺中的新聞進行整合后提供給用戶。
發(fā)明內(nèi)容
本發(fā)明目的是提供一種能自動抓取和播報新聞的方法及其機器人裝置,可以通過網(wǎng)絡(luò)機器人爬蟲爬取網(wǎng)頁的方式,采集不同類別的新聞,播報給用戶。
本發(fā)明解決技術(shù)問題采用如下技術(shù)方案:一種能自動抓取和播報新聞的方法,其特征在于,至少包括以下步驟:
獲取新聞網(wǎng)頁,指定初始種子連接和抓取深度,抓取相關(guān)網(wǎng)頁;
采用正則表達式抽取導航欄連接,進行網(wǎng)頁去噪,提取正文內(nèi)容;
對提取的正文內(nèi)容進行網(wǎng)頁去重;
對去重后的網(wǎng)頁內(nèi)容進行中文分詞;
對分詞后的網(wǎng)頁進行新聞文本分類;
語音播報分類后的新聞。
其中,使用開源工具nutch進行相關(guān)網(wǎng)頁抓取。
其中,使用開源工具BoilerPipe進行網(wǎng)頁去噪。
其中,采用開源算法Simhash進行網(wǎng)頁去重。
其中,使用樸素貝葉斯分類算法進行新聞文本分類。
本發(fā)明還提供一種能自動抓取和播報新聞的機器人裝置,至少包括:
網(wǎng)頁抓取單元,用于獲取新聞網(wǎng)頁,指定初始種子連接和抓取深度,抓取相關(guān)網(wǎng)頁;
網(wǎng)頁去噪單元,用于采用正則表達式抽取導航欄連接,進行網(wǎng)頁去噪,提取正文內(nèi)容;
網(wǎng)頁去重單元,用于對提取的正文內(nèi)容進行網(wǎng)頁去重;
中文分詞單元,用于對去重后的網(wǎng)頁內(nèi)容進行中文分詞;
文本分類單元,用于對分詞后的網(wǎng)頁進行新聞文本分類;
語音播報單元,用于語音播報分類后的新聞
本發(fā)明具有如下有益效果:采用本發(fā)明的技術(shù)方案對不同新聞平臺中的新聞進行整合并播報給用戶,提升了用戶新聞瀏覽的友好感。
附圖說明
圖1為本發(fā)明的能自動抓取和播報新聞的方法的流程簡圖;
圖2為本發(fā)明的能自動抓取和播報新聞的機器人裝置的結(jié)構(gòu)框圖。
具體實施方式
下面結(jié)合實施例及附圖對本發(fā)明的技術(shù)方案作進一步闡述。
本發(fā)明提供一種能自動抓取和播報新聞的方法,至少包括以下步驟:
獲取新聞網(wǎng)頁,指定初始種子連接和抓取深度,抓取相關(guān)網(wǎng)頁;
采用正則表達式抽取導航欄連接,進行網(wǎng)頁去噪,提取正文內(nèi)容;
對提取的正文內(nèi)容進行網(wǎng)頁去重;
對去重后的網(wǎng)頁內(nèi)容進行中文分詞;
對分詞后的網(wǎng)頁進行新聞文本分類;
語音播報分類后的新聞。
下面結(jié)合具體的實施例對本發(fā)明方法進一步說明,本發(fā)明的技術(shù)是通過從各大門戶網(wǎng)站(今日頭條,騰訊,網(wǎng)易等新聞網(wǎng)站)采集新聞網(wǎng)頁,通過網(wǎng)頁過濾(去除噪聲部分,去除廣告部分,提取正文),網(wǎng)頁去重,中文分詞,文本分類,使用語音的方式進行語音播報,播報給用戶關(guān)于不同類別的新聞內(nèi)容。
結(jié)合圖1所示的本發(fā)明的方法流程簡圖以及以下步驟對本方法進行說明:
1、采集新聞網(wǎng)頁,如sohu,騰訊,網(wǎng)易等網(wǎng)站,指定初始種子鏈接和抓取深度,如指定當天的熱門新聞,使用開源工具nutch進行相關(guān)網(wǎng)頁抓取;
2、使用正則表達式抽取導航欄鏈接,使用開源工具BoilerPipe進行網(wǎng)頁去噪的處理部分,提取出正文內(nèi)容;基于正則表達式屬于現(xiàn)有技術(shù)的內(nèi)容,因此不再贅述;
3、抽取出網(wǎng)頁的正文后,大量的新聞存在重復冗余,在本發(fā)明的實施例中可以使用Google的開源算法simhash進行網(wǎng)頁去重;
4、中文分詞,在本發(fā)明的實施例中可以使用開源的java版的斯坦福大學分詞器進行分詞,當然也可以采用現(xiàn)有的其他方式進行分詞,分詞的目的是為了抽取出關(guān)鍵詞(名詞,形容詞),去除冗余的詞,為下一步文本分類做準備;
5、在本發(fā)明的實施例中,使用樸素貝葉斯分類算法進行文本分類,把新聞分為科技,體育,娛樂,財經(jīng)新聞;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳前海勇藝達機器人有限公司,未經(jīng)深圳前海勇藝達機器人有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710041170.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





