[發明專利]一種用于脈沖星搜尋中候選體信號挖掘的并行的混合聚類方法在審
| 申請號: | 202210036692.X | 申請日: | 2022-01-13 |
| 公開(公告)號: | CN114386466A | 公開(公告)日: | 2022-04-22 |
| 發明(設計)人: | 游子毅;劉瑩;馬智;李思瑤;王培;童超 | 申請(專利權)人: | 貴州師范大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06F17/16 |
| 代理公司: | 貴陽東圣專利商標事務有限公司 52002 | 代理人: | 袁慶云 |
| 地址: | 550025 貴*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 脈沖 搜尋 候選 信號 挖掘 并行 混合 方法 | ||
本發明公開了一種用于脈沖星搜尋中候選體信號挖掘的并行的混合聚類方法,包括:脈沖星候選體信號的聚類分析;基于滑動窗口的分組策略對數據集進行分組,按照特定的窗口值Batchsize=1160進行劃分,設置滑動窗口尺寸為w=2;擬通過從真實樣本中挑選較完備的各類脈沖星候選體特征數據1600顆作為一組樣本,并分別加入到每輪滑動窗口所對應的待檢測數據形成1個數據塊,將數據集分為多個大小相同的并行數據塊;用基于MapReduce/Spark計算模型的數據塊并行化實現該聚類。本發明能提高聚類性能、提升篩選召回率并減少執行時間。
技術領域
本發明屬于天文學技術領域,具體來說涉及一種用于脈沖星搜尋中候選體信號挖掘的并行的混合聚類方法。
背景技術
脈沖星領域的發現有利地推動了天文學、物理學及導航等相關領域的發展,隨著500米口徑球面射電望遠鏡FAST的建成和19波束接收機巡天探測,其高靈敏度且更大天區覆蓋面的特點,在帶來脈沖星信號搜尋范圍的優勢同時也伴隨著觀測數據的巨大增長,如何有效地從海量數據中篩選出脈沖星候選體成為脈沖星搜尋的關鍵;
基本的脈沖星搜尋中所需完成的工作為在P(周期)-DM(色散量)組成的兩維空間中搜索穩定周期性脈沖信號;目前,圖形工具輔助或基于統計的傳統方法已無法滿足如此龐大數據量處理的需要;人工智能技術運用于脈沖星的候選體篩選根據方法原理主要分為三類;第一類是基于經驗公式的候選體排序算法;這類算法依賴于一些假設,如信噪比、脈沖輪廓形狀等,實際中很多都不能很好擬合從而可能導致一些有特殊形狀脈沖,如寬脈沖、偏DM曲線或者低流量的脈沖星被遺漏;第二類是直接利用候選體診斷圖自動提取特征的神經網絡圖像識別模型;這類算法相比傳統機器學習方法泛化性更好,但需要手動標記每個訓練數據的子圖且樣本訓練需求量較大,導致大量額外勞動的投入;第三類是基于機器學習的分類算法;依靠人類經驗篩選的特征選擇是影響脈沖星篩選的二值分類結果的關鍵,不全面的特征設計方案可能會弱化模型的性能,所以特征設計問題尤為關鍵;此外,一些多方法集成的混合模型也取得顯著效果;
在實際的大規模脈沖星數據計算和搜索中,由于輸入數據集中大部分都是無標簽數據,而且存在脈沖星與非脈沖星樣本數據比例極不均衡問題,導致使用有監督學習分類方法來識別脈沖星候選體的時間代價和工作量都相當大;
實驗數據集HTRU2來自澳大利亞Parkes望遠鏡的多波束(13個波束)的觀測,所用脈沖星信號搜尋管道的DM值設定為0到2000cm-3pc,描述了在高時間分辨率宇宙勘測期間收集的基于PRESTO(Pulsar Exploration and Search Toolkit)軟件處理的脈沖星候選樣本數據;PRESTO美國NRAO射電天文臺開發的脈沖星搜索和分析套件,現已用于多次巡天,處理短積分時間數據和X射線數據;HTRU2數據集共包含17898個數據樣本,其中16259個由RFI或噪聲產生的虛假示例和1639個真實脈沖星示例;特征值包含脈沖輪廓的均值、脈沖輪廓的標準差、脈沖輪廓的超額峰度、脈沖輪廓的偏度、DM-S/N曲線的均值、DM-S/N曲線的標準差、DM-S/N曲線的超峰額度和DM-S/N曲線的偏度8個屬性;HTRU2是一個開放的、樣本相對豐富的數據集,認可度較高,因此被廣泛用于評估脈沖星候選體分類算法的性能;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州師范大學,未經貴州師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210036692.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種莓茶咖啡的生產方法
- 下一篇:一種放射介入用動脈灌注裝置





