[發明專利]基于歸類分析的文字處理系統在審
| 申請號: | 201710860278.X | 申請日: | 2017-09-21 |
| 公開(公告)號: | CN107657003A | 公開(公告)日: | 2018-02-02 |
| 發明(設計)人: | 曾傳德 | 申請(專利權)人: | 曾傳德 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/25 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610000 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 歸類 分析 文字處理 系統 | ||
技術領域
本發明涉及計算機技術領域,具體涉及基于歸類分析的文字處理系統。
背景技術
軟件文檔或者源代碼文檔是指與軟件系統及其軟件工程過程有關聯的文本實體。文檔的類型包括軟件需求文檔,設計文檔,測試文檔,用戶手冊等。其中的需求文檔,設計文檔和測試文檔一般是在軟件開發過程中由開發者寫就的,而用戶手冊等非過程類文檔是由專門的非技術類寫作人員寫就的。文檔能提高軟件開發的效率,保證軟件的質量,而且在軟件的使用過程中有指導、幫助、解惑的作用,尤其在維護工作中,文檔是不可或缺的資料。
然而現有的文檔,尤其是開發類的用戶手冊由于篇幅巨大且需要不同的部門分開編寫,所以在排版時花費的時間過長,大幅提高了產品的時間成本。
發明內容
本發明所要解決的技術問題是現有的開發類用戶手冊由于篇幅巨大且需要不同的部門分開編寫,所以在排版時花費的時間過長,大幅提高了產品的時間成本,目的在于提供基于歸類分析的文字處理系統,解決上述問題。
本發明通過下述技術方案實現:
基于歸類分析的文字處理系統,包括:用于讀取文本文件的讀取模塊;用于將文本文件中的文本塊進行賦值的賦值模塊,賦值采用文本塊所對應的左上角坐標值;用于將任意選擇一個不是核心對象的文本塊作為核心對象,并選擇文本塊密度P和邊界半徑R的聚類模塊;所述邊界半徑R采用幾何距離;所述聚類模塊還用于當核心對象的半徑R范圍之內的文本塊數量超過文本塊密度P,則將該范圍內所有的文本塊視為核心對象,并劃入同一類然后再次聚類;所述聚類模塊還用于當核心對象的半徑R范圍之內的文本塊數量未超過文本塊密度P,將該文本塊取消核心對象。
現有技術中,文檔,尤其是開發類的用戶手冊由于篇幅巨大,普遍篇幅在兩千頁以上,而且不同的內容需要不同的部門分開編寫,將這些內容進行排版時,會花費大量的人力和時間,大幅提高了產品的成本。本發明應用時,先將每一個文本塊進行賦值,賦值采用文本塊所對應的左上角坐標值,再任意選擇一個不是核心對象的文本塊作為核心對象;選擇文本塊密度P和邊界半徑R;所述邊界半徑R采用幾何距離,這里所說的幾何距離,是指一個平面上的兩個點的直線距離,再然后當核心對象的半徑R范圍之內的文本塊數量超過文本塊密度P,則將該范圍內所有的文本塊視為核心對象,并劃入一類,這樣子就可以自動的將相似的文檔分類到一起,如此循環,而當當核心對象的半徑R范圍之內的文本塊數量未超過文本塊密度P,將該文本塊取消核心對象,而重新選擇核心對象,從而保證了一個類中的相似度非常高,排除了不同的文本塊分到同一類的情況。本發明通過上述步驟,實現了對文本文檔中文本塊的快速分類,從而節省了產品的成本。
進一步的,本發明還包括:用于當所有的文本塊都執行過聚類后,將不是核心對象的所有文本塊視為噪音文本塊的判斷模塊。
進一步的,本發明還包括:用于將劃分好的類按照規則重新進行排版的排版模塊。
進一步的,所述文本塊密度P正比于邊界半徑R的平方。
本發明應用時,由于文本塊密度P正比于邊界半徑R的平方,所以保障了在分類的過程中,誤差值產生很低。
進一步的,所述取消核心對象僅限于聚類模塊任意選擇得到的核心對象。
本發明與現有技術相比,具有如下的優點和有益效果:
本發明基于歸類分析的文字處理系統,通過上述模塊,實現了對文本文檔中文本塊的快速分類,從而節省了產品的成本。
附圖說明
此處所說明的附圖用來提供對本發明實施例的進一步理解,構成本申請的一部分,并不構成對本發明實施例的限定。在附圖中:
圖1為本發明結系統構示意圖。
具體實施方式
為使本發明的目的、技術方案和優點更加清楚明白,下面結合實施例,對本發明作進一步的詳細說明,本發明的示意性實施方式及其說明僅用于解釋本發明,并不作為對本發明的限定。
實施例
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于曾傳德,未經曾傳德許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710860278.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:文件同步方法及裝置
- 下一篇:視頻推薦方法、系統及設備





