[發明專利]一種古詩詞收集和數據分析方法在審
| 申請號: | 201711280142.8 | 申請日: | 2017-12-06 |
| 公開(公告)號: | CN107944003A | 公開(公告)日: | 2018-04-20 |
| 發明(設計)人: | 鄭銳韜;季統凱 | 申請(專利權)人: | 國云科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06Q10/10 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙)11350 | 代理人: | 湯東鳳 |
| 地址: | 523808 廣東省東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 古詩詞 收集 數據 分析 方法 | ||
技術領域
本發明涉及數據分析應用技術領域,特別是一種古詩詞收集和數據分析方法。
背景技術
隨著大數據分析的普及,相關人員對于各領域的分析越來越多。對特定領域的大數據分析,可使各領域的人員對其領域的具體情況的了解更加深入,具體的情況具體分析;從而實現總體上的分析。對于古詩詞的分析,如果對于某個詩人的相關作品進行分析,可得出其使用的詞語的頻率,其作品的主要產出時間等;從而可分析出詩人的人生情況及人生軌跡;但是要對古詩詞進行分析,主要的難點在于:
1.古詩詞的收集:古詩詞的數量多,范圍廣,完整、正確的收集是一個很大的問題,特別是對于作者、古詩詞、年代等關聯關系的設計,需要有專門的人員進行錄入及數據關聯關系的維護,需通過一定的機制實現多人參與。
2.數據分析算法應用:大數據分析的算法,涉及主要的有分詞算法、關聯算法、時序算法等,其各算法的應用涉及專業的計算機知識、高等數學等門檻比較高,對于普通的人員來說進行相關的數據分析有較大的難度。但對于古詩詞的數據分析,我們可以通過基于已定的數據格式,定式編寫具體的分析過程,從而實現在特定的古詩詞領域,定向開發具體的相關分析。
基于以上的兩個難點,各領域的相關人員,沒有大數據分析的專業人員的協助,無法實現相關數據的收集及分析算法的應用,同時古詩詞的范圍廣,內容多,關聯關系復雜,要保證數據的準確獲取,需要有相應的獎勵機制,發動廣大的用戶來實現數據的錄入與校正。
發明內容
本發明解決的技術問題在于提供一種古詩詞收集和數據分析方法;形成完整的古詩詞收集方法,對按照作者情況、創作情況、時間分布、關鍵詞分析、與著名景點關聯等相關細節進行分析。
本發明解決上述技術問題的技術方案是:
所述的方法包括以下幾個步驟:
步驟1:建立一個古詩詞特點的數據存儲保存系統,用于古詩詞數據的錄入保存;
步驟2:從網上抓取古詩詞數據,并錄入到系統上;或是由相關的用戶錄入沒有抓取錄入的古詩詞,錄入新的古詩詞的用戶獲取相應的積分獎勵;
步驟3:對存在錯誤或對應關系不明確的錄入的古詩詞,用戶可提出修改或指定其對應關系;相關審核通過后,獲得相應的積分;
步驟4:在錄入的古詩詞的基礎上,建立相關的業務邏輯的分析維度,包括:整體上的分析、個體詩人的分析、某個時期的分析、多個詩人的分析等,分析的維度可在后續的實現過程不斷完善;
步驟5:在各分析維度上,建立起多種分析算法,包括:時間軸的分析、分詞分析、關鍵詞分析、詞語關聯分析等,各分析算法用于各種分析維度的調用;
步驟6:需要使用古詩詞分析的用戶,支付相應的費用后,在系統上依賴于建立的分析維度、分析算法,對選定的分析范圍進行分析,形成分析報告和報表;
步驟7、對同一個詩人或是同一個時期的內容可以進行多次的分析,通過多個分析報告的內容,最終形成一個完整的對一個某個維度的分析結果,用于專業的應用支撐。
所述的方法由古詩詞數據收集模塊和古詩詞數據分析模塊實現;
所述古詩詞數據收集模塊通過數據抓取等方式收集古詩詞;對于其中存在的錯誤、對應關系不明確;可以由用戶進行修改;
所述古詩詞數據分析模塊實現各維度、多種算法的分析。
所述的方法中,對抓取或用戶輸入的古詩詞進行差別數據核對、正確性校對,避免重復數據錄入或錯誤。
所述的時間軸的分析:包括分析個體詩人在一生上的創作分布,整體分析查看歷史時間軸的古詩詞創作分析;
所述的分詞分析:包括個體詩人喜歡使用的詞語分布,歷史各時間分布喜歡使用的詞語統計等;
所述的關鍵詞分析:包括輸入相關的著名景點,分析在古詩詞中出現的頻率,出現的歷史分布等;
所述的詞語關聯分析:通過分詞統計后,分析各類詞語關聯出現的頻率,統計出相關性等。
所述的方法中,對獲取的古詩詞進行結構化處理;包括依照作者、產生時間、產生地點等因數進行定義。
本發明的有益效果是:
通過分析古詩詞的特點及其收集、校正過程中可能出現的問題,設計出一個通用的方法,通過獎勵用戶的錄入與校正、收取分析用戶的相關費用,從而實現對古詩詞的收集與分析的完整過程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國云科技股份有限公司,未經國云科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711280142.8/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





