[發(fā)明專利]一種文本處理的方法、裝置、存儲介質(zhì)及電子設(shè)備有效
| 申請?zhí)枺?/td> | 202110392521.6 | 申請日: | 2021-04-13 |
| 公開(公告)號: | CN113204637B | 公開(公告)日: | 2022-09-27 |
| 發(fā)明(設(shè)計)人: | 汪沁;富饒;侯培旭;陸源源;冉祥映;華鎮(zhèn) | 申請(專利權(quán))人: | 北京三快在線科技有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34 |
| 代理公司: | 北京曼威知識產(chǎn)權(quán)代理有限公司 11709 | 代理人: | 方志煒 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 處理 方法 裝置 存儲 介質(zhì) 電子設(shè)備 | ||
本說明書公開了一種文本處理的方法、裝置、存儲介質(zhì)及電子設(shè)備,根據(jù)預(yù)設(shè)的分句規(guī)則對原始文本進行處理,得到多個子句,并通過預(yù)測模型確定任意兩個子句之間的句間關(guān)系緊密程度表征值。根據(jù)各子句之間的句間關(guān)系緊密程度表征值,對各個子句進行合并,根據(jù)合并結(jié)果,得到至少一個備選摘要。本方法在生成備選摘要時,考慮了原始文本中的每個子句與其他子句的句間關(guān)系緊密程度,根據(jù)子句之間的句間關(guān)系緊密程度對各子句進行合并,并根據(jù)合并結(jié)果確定了備選摘要,保證了備選摘要包含的子句之間的語義相同,從而保證生成的備選摘要的準(zhǔn)確性。
技術(shù)領(lǐng)域
本說明書涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種文本處理的方法、裝置、存儲介質(zhì)及電子設(shè)備。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,越來越多的用戶會將自己創(chuàng)作的用戶生產(chǎn)內(nèi)容(User-Generated Content,UGC)發(fā)布在各類客戶端中,例如,用戶在一家餐廳消費后,將自己的感受以UGC的形式發(fā)布出來。為了方便其他用戶迅速了解到短文的內(nèi)容,客戶端會從字數(shù)較多的UGC中截取出符合字數(shù)限制的短句作為摘要展示在推薦頁面中。
在現(xiàn)有技術(shù)中,生成摘要的方式主要是根據(jù)標(biāo)點符號將原始UGC拆成多個子句后,再根據(jù)標(biāo)點符號前后相鄰的兩個詞,預(yù)測出描述同一主題的整句的開頭和結(jié)尾,根據(jù)預(yù)測結(jié)果將多個子句合并,作為備選摘要。后續(xù)地,可根據(jù)不同業(yè)務(wù)需求,在多個備選摘要中選擇出一個合適的備選摘要作為原始UGC的摘要展示出來。
但是,上述方法在確定備選摘要時,只是依賴了與標(biāo)點符號相鄰的前后兩個詞,并未考慮到每個子句對應(yīng)的上下句的實際語義,從而容易導(dǎo)致根據(jù)各個子句生成的備選摘要的語義與上下句的語義不相符,最終生成的摘要的語義也會跟原始UGC的語義大相徑庭。
由此可見,備選摘要決定著最終展示出來的摘要的準(zhǔn)確性,因此,如何生成準(zhǔn)確的備選摘要是個亟待解決的問題。
發(fā)明內(nèi)容
本說明書提供一種文本處理方法及裝置,以部分的解決現(xiàn)有技術(shù)存在的上述問題。
本說明書采用下述技術(shù)方案:
本說明書提供了一種文本處理方法,包括:
根據(jù)預(yù)設(shè)的分句規(guī)則,對原始文本進行處理,得到所述原始文本中包含的子句;
針對任意兩個子句,將該兩個子句輸入預(yù)測模型,得到所述預(yù)測模型的輸出的該兩個子句之間的句間關(guān)系緊密程度表征值;
根據(jù)各子句之間的句間關(guān)系緊密程度表征值,對各子句進行合并;
根據(jù)合并結(jié)果,得到至少一個備選摘要。
可選地,將該兩個子句輸入預(yù)測模型,具體包括:
將該兩個子句以及該兩個子句在所述原始文本中的順序輸入預(yù)測模型。
可選地,根據(jù)各子句之間的句間關(guān)系緊密程度表征值,對各子句進行合并之前,所述方法還包括:
針對任意兩個子句,確定該兩個子句之間的句法特征;
將具有指定句法特征的兩個子句進行合并,并重新作為一個子句。
可選地,根據(jù)各子句之間的句間關(guān)系緊密程度表征值,對各子句進行合并,具體包括:
根據(jù)各個子句之間的句間關(guān)系緊密程度表征值,對所述原始文本中相鄰的各子句進行合并。
可選地,根據(jù)各個子句之間的句間關(guān)系緊密程度表征值,對所述原始文本中相鄰的各子句進行合并,具體包括:
根據(jù)各個子句在所述原始文本中的先后順序,確定第一個子句為指定子句;
確定所述指定子句的下一個子句作為待合并子句;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京三快在線科技有限公司,未經(jīng)北京三快在線科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110392521.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





