[發明專利]基于web網頁資源的程序代碼縮略詞的自動擴充方法有效
| 申請號: | 201410543730.6 | 申請日: | 2014-10-15 |
| 公開(公告)號: | CN104298752B | 公開(公告)日: | 2017-08-08 |
| 發明(設計)人: | 孫小兵;趙晗 | 申請(專利權)人: | 揚州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/45 |
| 代理公司: | 南京蘇科專利代理有限責任公司32102 | 代理人: | 董旭東 |
| 地址: | 225009 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 web 網頁 資源 程序代碼 縮略 自動 擴充 方法 | ||
技術領域
本發明涉及一種詞語擴充技術,特別涉及一種縮略詞擴充方法。
背景技術
當開發人員需要對給定的某個程序進行理解時,如果編程風格較好,則開發人員可以根據定義的標識符很容易地去理解程序。在程序中,除了定義較好的標識符外,還存在很多的縮略詞,而開發人員在理解這些縮略詞時,并不是很容易,很難猜測這些縮略詞他們的全稱是什么。因此在理解程序時,如果能夠有技術對這些縮略詞進行分析,輔助開發人員去理解程序時,開發人員理解程序的效率會得到較大提高。
而隨著web2.0更加普遍的應用,越來越多的用戶喜歡在web2.0平臺上去交流問題,意見以及看法。通常來說,不同專業的專業人員都比較自己了解自己領域的縮略詞,同樣,對于開發人員,他們也喜歡通過Web2.0去交流他們的開發信息,這些信息中會存在大量的關于開發人員開發代碼的信息,其中也包括一些縮略詞的信息。因此,web2.0為程序代碼中縮略詞的自動的擴充提供了較好的數據來源。本發明就是通過Web2.0中數據建立擴充詞庫,然后根據庫中信息去推薦代碼中可能的縮略詞的擴充;另外,該技術可以為用戶在截短詞,拼綴詞以及首字母縮略詞三種縮略詞為用戶提供擴展或解釋,方便,快捷;并結合一定的語境盡力為用戶提供最合適的擴展給用戶參考。
發明內容
本發明的目的是提供一種基于web網頁資源的程序代碼縮略詞的自動擴充方法,提高對縮略詞理解的準確度和效率。
本發明的目的是這樣實現的:一種基于web網頁資源的程序代碼縮略詞的自動擴充方法,包括以下步驟:
1)收集縮略詞:利用正則表達式提取程序源代碼中的縮略詞和完整詞;
2)縮略詞分類:去除上述完整詞,并將提取出的縮略詞分為三類,首字母縮略、拼綴詞縮略、截短詞縮略;
3)建立擴展詞庫:利用火車頭采集器根據步驟2)中的縮略詞從相關web2.0網頁提取其對應的擴展詞,并按照不同類別建立擴展詞庫;
4)生成縮略詞推薦:建立表格,獲得縮略詞相關擴展詞的注釋。
與現有技術相比,本發明的有益效果在于,本發明通過對縮略詞進行分類,并按照不同類別將所需理解的縮略詞與從web2.0網頁中提取的縮略詞進行匹配,得到該縮略詞相關的注釋,使得程序員對程序中縮略詞的理解更加便捷,且準確度更高,提高了程序員理解程序的效率。本發明可用于軟件開發維護中。
作為本發明的改進,步驟2)中去除完整詞的方法為:將步驟1)中提取的縮略詞、完整詞與英文詞庫進行匹配,將匹配成功的單詞去除。英文詞庫中均為完整單詞,將提取出的單詞與英文詞庫進行匹配即可找出完整詞,將完整詞去除即獲得縮略詞,該方法操作簡便。
作為本發明的改進,步驟2)中縮略詞分類的具體方法為:對剩余的縮略詞進行識別,若該縮略詞全由大寫字母組成,則判定該縮略詞為首字母縮略詞;若該縮略詞內包含下劃線或至少兩個大寫字母,則判定該縮略詞為拼綴縮略詞,拼綴縮略詞由多個截短縮略詞組成;剩余情況均為截短縮略詞。根據縮略詞詞性的組成方式,通過掃描識別每個單詞中的每個字母的大小寫判定該單詞的詞性,使得詞性分類便捷,且準確率高,進一步提高縮略詞理解的精度。
作為本發明的改進,步驟3)中提取擴展詞的具體方法為:
首字母縮略詞:用正則表達式在web2.0網頁上模糊匹配該縮略詞的擴展詞;
拼綴縮略詞:先劃分該縮略詞,使其成為多個截短縮略詞,再分別對單個截短縮略詞通過正則表達式在web2.0網頁上進行模糊匹配;
截短縮略詞:對截短縮略詞通過正則表達式在web2.0網頁上進行模糊匹配。利用模糊匹配法將縮略詞與web2.0網頁進行匹配,進而得到該縮略詞在web2.0網頁上的相關擴展及注釋,方便程序員對縮略詞詞意的理解。
作為本發明的進一步限定,劃分縮略詞的具體方法為:按順序掃描要處理的縮略詞,截取大寫字母或下劃線前的字符串成為單個截短縮略詞。根據拼綴縮略詞的組成特征,掃描拼綴縮略詞的每個單詞,從而的出組成該拼綴縮略詞的兩個或多個截短縮略詞,再多這些截短縮略詞進行模糊匹配,提高了縮略詞的匹配進度,有利于程序員對程序的理解。
附圖說明
圖1是本發明操作流程圖。
圖2是本發明提取源程序中縮略詞的過程。
圖3是使用本發明來提取縮略詞的一段源代碼。
圖4是本發明中利用正則表達式提取到的的縮略詞。
圖5是本發明中對所有提取到的縮略詞進行分類后的結果。
圖6是本發明中模糊匹配法通過web2.0網頁提取出的擴展詞結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于揚州大學,未經揚州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410543730.6/2.html,轉載請聲明來源鉆瓜專利網。





