[發明專利]文檔分章方法及裝置、終端和計算機可讀存儲介質有效
| 申請號: | 201910989926.0 | 申請日: | 2019-10-17 |
| 公開(公告)號: | CN110717323B | 公開(公告)日: | 2020-07-31 |
| 發明(設計)人: | 張云帆;李紅;何健秋 | 申請(專利權)人: | 北京幻想縱橫網絡技術有限公司 |
| 主分類號: | G06F40/186 | 分類號: | G06F40/186;G06F40/103;G06F16/31;G06F9/451 |
| 代理公司: | 北京樂知新創知識產權代理事務所(普通合伙) 11734 | 代理人: | 江宇 |
| 地址: | 100000 北京市海淀區農*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 方法 裝置 終端 計算機 可讀 存儲 介質 | ||
本發明公開了一種文檔分章方法及裝置、終端和計算機可讀存儲介質,該方法包括:獲取針對目標文檔的文檔讀取指令;基于所述文檔讀取指令,啟動閱讀線程和分章線程;在所述閱讀線程中,讀取所述目標文檔的第一部分;在所述分章線程中,通過文檔分章模型對所述目標文檔中所述第一部分后的第二部分進行分章。通過本發明的技術方案,在準確分章的基礎上,避免了分章過程影響用戶閱讀,提升了用戶的閱讀體驗。
技術領域
本發明涉及計算機技術領域,尤其涉及一種文檔分章方法及裝置、終端和計算機可讀存儲介質。
背景技術
txt源文件內是沒有分章節的,因此,為提升用戶閱讀體驗,可對txt源文件進行分章。相關技術主要通過以下幾種方式進行分章:
1、全文匹配有多少換行符“/n”、回車符“/r”或兩者結合,就認為全文具有多少章。
2、在全文進行串行搜索,根據關鍵字“章”、“卷”、“部”等,來提取章節。
然而,這些分章方式過于簡略。同一章內也可出現換行符“/n”、回車符“/r”等內容,以此為依據分章很容易造成章節錯亂;而串行搜索雖更具準確性,但其搜索過程耗時久,導致打開txt文檔緩慢,影響用戶的閱讀體驗。
因此,如何在準確分章的基礎上不影響用戶的閱讀體驗,成為目前亟待解決的技術問題。
發明內容
本發明提供一種文檔分章方法及裝置、終端和計算機可讀存儲介質,針對相關技術中如何在準確分章的基礎上不影響用戶的閱讀體驗的技術問題,在閱讀線程之外單獨啟動了分章線程,可在用戶閱讀的同時進行后續內容的分章。
本發明第一方面提供一種文檔分章方法,包括:獲取針對目標文檔的文檔讀取指令;基于所述文檔讀取指令,啟動閱讀線程和分章線程;在所述閱讀線程中,讀取所述目標文檔的第一部分;在所述分章線程中,通過文檔分章模型對所述目標文檔中所述第一部分后的第二部分進行分章。
在本發明上述實施例中,可選地,所述讀取所述目標文檔的第一部分的步驟,具體包括:經歷史訪問路徑獲取所述目標文檔;對所述目標文檔中位于歷史閱讀進度位置后的未閱讀內容提取文本字符串;基于所述文本字符串和預定顯示規則,在人機交互界面顯示位于所述未閱讀內容內的所述第一部分。
在本發明上述實施例中,可選地,在所述通過文檔分章模型對所述目標文檔中所述第一部分后的第二部分進行分章的步驟之前,還包括:基于預定的分章字符提取規則,在所述目標文檔的所述第二部分中提取待驗證分章字符集合;則所述通過文檔分章模型對所述目標文檔中所述第一部分后的第二部分進行分章的步驟,具體包括:將所述第二部分對應的文本字符串、預定分章字符集合和所述待驗證分章字符集合輸入所述文檔分章模型,并通過所述文檔分章模型輸出分章結果集合;存儲所述分章結果集合;根據所述分章結果集合,刷新人機交互界面中的章節顯示區域。
在本發明上述實施例中,可選地,還包括:在滿足第一預定條件的情況下,對所述分章結果集合進行更改;在滿足第二預定條件的情況下,重啟所述分章線程。
在本發明上述實施例中,可選地,建立所述文檔分章模型的方式包括:根據接收到的分章規則設置信息,設置所述文檔分章模型;或者獲取訓練樣本集合,所述訓練樣本集合中的每個訓練樣本包括樣本文檔文本字符串、樣本預定分章字符集合、從所述樣本文檔文本字符串中提取的樣本待驗證分章字符集合以及對應的分章結果集合預測值;初始化初始文檔分章模型的模型參數;將所述每個訓練樣本的所述樣本文檔文本字符串、所述樣本預定分章字符集合、從所述樣本文檔文本字符串中提取的所述樣本待驗證分章字符集合輸入所述初始文檔分章模型,得到所述每個訓練樣本對應的分章結果集合有效值;基于所述每個訓練樣本的所述分章結果集合有效值和所述分章結果集合預測值的差異,對所述初始文檔分章模型的模型參數進行調整,得到所述文檔分章模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京幻想縱橫網絡技術有限公司,未經北京幻想縱橫網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910989926.0/2.html,轉載請聲明來源鉆瓜專利網。





