[發(fā)明專利]文章可讀性確定方法、裝置、設(shè)備和介質(zhì)有效
| 申請?zhí)枺?/td> | 201811331517.3 | 申請日: | 2018-11-09 |
| 公開(公告)號: | CN109408829B | 公開(公告)日: | 2022-06-24 |
| 發(fā)明(設(shè)計)人: | 黃俊衡;陳思姣;羅雨 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F16/35;G06N3/04 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文章 可讀性 確定 方法 裝置 設(shè)備 介質(zhì) | ||
本發(fā)明實施例公開了一種文章可讀性確定方法、裝置、設(shè)備和介質(zhì),涉及文本可讀性分析領(lǐng)域。該方法包括:基于句間模型、句內(nèi)模型和相似度模型檢測目標文章,獲得句間概率、句子的困惑度和句間相似度;根據(jù)句間概率、句子的困惑度和句間相似度,通過動態(tài)分類模型確定目標文章的可讀性得分;動態(tài)分類模型的訓(xùn)練過程如下:將訓(xùn)練文檔集中的樣本文檔分別輸入訓(xùn)練完成的所述句間模型、句內(nèi)模型和相似度模型,獲得樣本文檔的句間概率、句子的困惑度和句間相似度;將樣本文檔的句間概率、句子的困惑度和句間相似度作為樣本特征輸入動態(tài)分類模型進行訓(xùn)練。本發(fā)明實施例提供的一種文章可讀性確定方法、裝置、設(shè)備和介質(zhì),實現(xiàn)了文章可讀性的準確確定。
技術(shù)領(lǐng)域
本發(fā)明實施例涉及文本可讀性分析領(lǐng)域,尤其涉及一種文章可讀性確定方法、裝置、設(shè)備和介質(zhì)。
背景技術(shù)
在這互聯(lián)網(wǎng)信息爆炸的時代,每天都有數(shù)以百萬計的文章產(chǎn)出。眾所周知,可讀性好的文章會給讀者帶來極大的經(jīng)濟意義。
然而,直接產(chǎn)出的文章中往往存在句子或段落不連貫,以及句子或段落存在錯別字的情況。這些情況都會導(dǎo)致文章邏輯混亂和文本不連貫的問題。這些問題都直接影響文章的可讀性,使得真正可讀性良好(邏輯清晰,文本連貫)的文章少了很多。
因此,如何挑選出可讀性好的文章推送給讀者成為了亟待解決的問題。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種文章可讀性確定方法、裝置、設(shè)備和介質(zhì),以實現(xiàn)文章可讀性的準確確定。
第一方面,本發(fā)明實施例提供了一種文章可讀性確定方法,該方法包括:
基于句間模型、句內(nèi)模型和相似度模型檢測目標文章,獲得句間概率、句子的困惑度和句間相似度;
根據(jù)所述句間概率、句子的困惑度和句間相似度,通過動態(tài)分類模型確定目標文章的可讀性得分;
其中:
所述句內(nèi)模型是基于對確定句子困惑度的神經(jīng)網(wǎng)絡(luò)語言模型訓(xùn)練獲得,所述句間模型是基于對確定句間概率的跨句子語言模型訓(xùn)練獲得;
其中所述動態(tài)分類模型的訓(xùn)練過程如下:
將訓(xùn)練文檔集中的樣本文檔分別輸入訓(xùn)練完成的所述句間模型、句內(nèi)模型和相似度模型,獲得樣本文檔的句間概率、句子的困惑度和句間相似度;
將所述樣本文檔的句間概率、句子的困惑度和句間相似度作為樣本特征輸入動態(tài)分類模型進行訓(xùn)練。
第二方面,本發(fā)明實施例還提供了一種文章可讀性確定裝置,該裝置包括:
特征確定模塊,用于基于句間模型、句內(nèi)模型和相似度模型檢測目標文章,獲得句間概率、句子的困惑度和句間相似度;
可讀性確定模塊,用于根據(jù)所述句間概率、句子的困惑度和句間相似度,通過動態(tài)分類模型確定目標文章的可讀性得分;
其中:
所述句內(nèi)模型是基于對確定句子困惑度的神經(jīng)網(wǎng)絡(luò)語言模型訓(xùn)練獲得,所述句間模型是基于對確定句間概率的跨句子語言模型訓(xùn)練獲得;
其中所述動態(tài)分類模型的訓(xùn)練過程如下:
將訓(xùn)練文檔集中的樣本文檔分別輸入訓(xùn)練完成的所述句間模型、句內(nèi)模型和相似度模型,獲得樣本文檔的句間概率、句子的困惑度和句間相似度;
將所述樣本文檔的句間概率、句子的困惑度和句間相似度作為樣本特征輸入動態(tài)分類模型進行訓(xùn)練。
第三方面,本發(fā)明實施例還提供了一種設(shè)備,所述設(shè)備包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序,
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811331517.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





