[發明專利]一種基于詞向量的多平臺控件對應方法有效
| 申請號: | 201710012347.1 | 申請日: | 2017-01-09 |
| 公開(公告)號: | CN106844339B | 公開(公告)日: | 2020-04-28 |
| 發明(設計)人: | 張天;潘敏學;裴俊宇;李宣東 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/211;G06F40/205;G06K9/62 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 唐紹焜 |
| 地址: | 210093 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 向量 平臺 控件 對應 方法 | ||
本發明公開了一種基于詞向量的多平臺控件對應方法,包括如下步驟:尋找與控件、UI設計、頁面布局文件相關的英文文檔組成詞向量的訓練集;使用stanford工具對英文文檔進行分詞得到單詞序列;對得到的單詞序列使用word2vec進行詞向量訓練,得到每個單詞的向量表示;找到平臺網站上的控件描述文本;將這些描述文本分詞之后訓練得到詞向量,進而轉化為句向量;計算每兩個向量之間的距離,選出相似控件。本發明根據官方的空間描述找到的多平臺控件對應關系可以減少同一平臺上版本更替所需要修改的代碼,并且會在跨平臺代碼轉化中的UI部分起到相當大的推薦作用。還有,本發明的思路會對其他的工程設計尤其是API對應有著借鑒意義。
技術領域
本發明涉及計算機編程領域中的多平臺代碼轉化,具體涉及一種基于詞向量的多平臺控件對應方法。
背景技術
隨著移動平臺版本演化越來越快,平臺App工程開發周期不斷增加,移動跨平臺開發的課題重新歸回人們的視野。最新的React Native軟件似乎再次讓我們看到了工程完美轉化的希望,不過UI始終是困擾研究學者的一個難題,平臺的設計的差異始終難以解決。
一般來講,用法和語言上的差異我們都可以使用底層的接口來解決。所以本文就撇開UI控件的用法,單單尋找控件的對應關系。也許,從工程方法的角度思考更容易讓我們理解控件、尋找控件的特點,對文檔的挖掘才是找到對應關系的一劑良方。因此本文使用詞向量、句向量與歐氏距離這個目前最適合短文本處理的思路對平臺的控件描述文本進行計算,盡量保持了文本在句法理解控件上的信息,減少人工干預的程度,得到控件的對應關系。
發明內容
發明目的:本發明所要解決的問題是提供一種自動化的多平臺多版本控件對應方法。
技術方案:
一種基于詞向量的多平臺控件對應方法,包括如下步驟:
步驟1:尋找與控件、UI設計、頁面布局文件相關的英文文檔組成詞向量的訓練集;
步驟2:使用stanford工具對步驟1所得的英文文檔進行分詞得到單詞序列;
步驟3:對步驟2所得到的單詞序列使用word2vec進行詞向量訓練,得到每個單詞的向量表示;
步驟4:找到平臺網站上的控件描述文本;
步驟5:將步驟4得到的控件描述文本使用stanford工具分詞之后得到每個控件的單詞序列;在步驟3中的向量表示中找到每個單詞獲取這個單詞的詞向量,對一個句子中的所有詞向量求均值得到句向量;
步驟6:對于每一個控件,計算其句向量與另一個平臺上所有控件句向量的距離,并對計算得到的距離進行排序,得到該控件的最相似控件。
所述步驟1中英文文檔的來源包括(1)平臺官網上的所有介紹;(2)各大網站上的定義;(3)從各種渠道搜索得到的對某個控件的整理資料;(4)在國外網站上搜索博客或者論壇,獲取與控件相關的網頁的內容。
所述步驟2具體為:
(1)通過stanford工具中的Analyzer工具去除停止詞;
(2)通過stanford工具中的StanfordCoreNLP工具對經步驟(1)去除停止詞的英文文檔分別進行分詞、詞性標注、斷句以及詞元化,得到各個單詞的原型和詞性;(2))各個單詞的原型序列即為得到的單詞序列。
所述步驟5中的句向量計算方法為計算詞向量的平均值:將每個單詞所對應的詞向量直接相加,再除以單詞的長度即為所求的句向量。
所述步驟6中計算兩控件句向量之間的距離使用的是歐式距離:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710012347.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種小圓柱狀化妝品的端面高精度送料貼標機構
- 下一篇:一種條煙貼標裝置





