[發明專利]一種基于支持向量機的對話語句正確性評價方法在審
| 申請號: | 202010792210.4 | 申請日: | 2020-08-08 |
| 公開(公告)號: | CN111783441A | 公開(公告)日: | 2020-10-16 |
| 發明(設計)人: | 李姍姍;毛曉光;董威;劉浩然;陳振邦;陳立前;尹良澤;文艷軍;劉萬偉;賈周陽 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/30;G06F40/35;G06K9/62 |
| 代理公司: | 國防科技大學專利服務中心 43202 | 代理人: | 文玲 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 支持 向量 對話 語句 正確性 評價 方法 | ||
本發明公布了一種基于支持向量機的對話語句正確性評價方法,包括以下步驟:步驟一、獲取訓練數據;步驟二、從待標注數據進行人工標注;步驟三、對訓練數據進行標準化,構建支持向量機的訓練集;步驟四、通過調節參數和利用所獲得的訓練數據,訓練支持向量機;步驟五、根據對話中明確的引用關系和關鍵詞共享,獲取對話歷史中的評價關系,明確評論者語句和被評價語句;步驟六、根據評價者語句的觀點分數,以及評價者語句的正確性得分,對被評價的語句正確性進行評估。本發明充分挖掘對話歷史中的結構特點和語義關系在保證準確度的前提下盡可能完整的獲得了對話中的評論關系;通過設定遞歸的評價方法,魯棒性更強。
技術領域
本發明涉及開發者對話內容中語句正確性的評價方法,尤其針對大型軟件在演化過程中,開發者的討論與交流歷史中語句的正確性,提出的一種基于支持向量機的對話語句正確性評價方法。
背景技術
隨著當今信息技術的不斷發展,軟件的規模在不斷擴大,軟件的演化需求也在不斷提速。大規模軟件的頻繁演化使得協同開發成為了當前軟件開發的主要形式。開發人員需要經常通過頻繁的溝通和討論來完成協同開發,長期運營的軟件團隊會將這些溝通和討論進行記錄,從而為之后軟件的維護和開發提供參考。Ubuntu開發者經常使用的Lanuchpad網站,Apache相關軟件團隊維護的錯誤報告管理網站Jira,以及大多數軟件開發團隊維護的MailList,都記錄了開發人員在軟件演化過程中,以對話形式開展的,針對各種問題的討論。這些開發者的對話歷史可以幫助開發人員減少在處理類似問題時的時間與開銷,同時也可以作為大量學術科研領域的數據資料。Raymond PL Buse等人的工作《Automaticallydocumenting program changes》以及Eirini Kalliamvakou等人的工作《Open source-style collaborative development practices in commercial projects usingGitHub》指出,諸如錯誤報告管理系統,以及MailList這樣的開發者對話歷史做為軟件的重要數據資料之一,為軟件的開發維護,開發人員的協同和調度提供了非常大的幫助。但是,由于這些對話歷史存在著數量眾多,并且結構復雜的特點,開發者在如何準確高效的利用這些對話歷史上,面臨著極大的挑戰。
開發者的對話歷史的數量眾多。在大規模軟件頻繁演化的背景下,開發人員需要頻繁的進行對話討論,從而適應軟件演化的需求,這樣的過程中產生了大量的對話歷史。根據Launchpad網站上的統計,在過去的三年里,網站中的新增的對話討論內容達到了上百萬,包括了數十億的對話語句。每個對話歷史中都平均包含超過50條語句。同時,每個對話歷史涉及的主題,都會有數十條與之類似或者相關的對話歷史。這使得開發者在搜索一個主題內容時,都被迫需要去瀏覽大量的對話歷史。這為開發者帶來了極大的時間損耗。
開發者的對話結構十分復雜。由于開發者的討論過程是一個信息被提出和驗證的過程,一個信息被某位開發者提出后,會被后繼的開發者討論和評價。而這些信息中,一些信息經過一系列的討論后,被證明是錯誤的。這些錯誤的語句很容易為讀者帶來誤導。同時,對話歷史中,信息的討論和評價并不是連續的,而是相互穿插,互相評價的。一個語句在評價其他語句的同時,可能也被其他語句評價。這樣多層且復雜的結構使得人工判斷語句的正確性不僅耗時巨大,同時容易產生遺漏甚至錯誤。在瀏覽過程中,為了判斷一個語句的正確性,讀者需要人工的瀏覽和閱讀幾乎全部的上下文,來推斷某個語句的正確性。開發者對話歷史龐大的數量以及其復雜的結構使得語句正確性的判斷面臨嚴峻的挑戰。與被被否定的信息相關的對話語句往往會為開發者帶來誤導,導致時間的浪費甚至錯誤,進而降低對話歷史對軟件維護的幫助。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010792210.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于故障注入的軟件反應缺陷分析方法
- 下一篇:一種移栽機用電動植苗部件





