[發(fā)明專利]一種面向英文寫作輔助的語義匹配方法及裝置在審
| 申請?zhí)枺?/td> | 201911063163.3 | 申請日: | 2019-10-31 |
| 公開(公告)號: | CN112749566A | 公開(公告)日: | 2021-05-04 |
| 發(fā)明(設(shè)計(jì))人: | 蘭雨晴;廉照鵬 | 申請(專利權(quán))人: | 蘭雨晴 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京匯智英財(cái)專利代理事務(wù)所(普通合伙) 11301 | 代理人: | 張瑋瑋 |
| 地址: | 100084 北京市海淀區(qū)圓*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 英文 寫作 輔助 語義 匹配 方法 裝置 | ||
本發(fā)明涉及一種面向英文寫作輔助的語義匹配方法及裝置,所述匹配方法包括如下步驟:步驟S1:構(gòu)建例句語料庫;步驟S2:構(gòu)建語義匹配模型訓(xùn)練數(shù)據(jù)集;步驟S3:構(gòu)建多視角注意力機(jī)制的語義匹配模型;步驟S4:訓(xùn)練語義匹配模型。本發(fā)明提供的面向英文寫作輔助的語義匹配方法及裝置,在幾個公開語義匹配數(shù)據(jù)集上均取得顯著效果,能夠提取更豐富交互匹配信息,更好的捕捉句子對之間聯(lián)系與區(qū)別,更好地得到全局匹配信息,在文本匹配相關(guān)領(lǐng)域有很大的應(yīng)用前景。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,具體地說是一種面向英文寫作輔助的語義匹配方法及裝置。
背景技術(shù)
作為世界使用范圍最廣的語言,英語在日常的學(xué)術(shù)交流和商貿(mào)往來中扮演著重要的角色。而作為正式溝通的一種重要的渠道,寫作成為僅次于口語、橫亙于許多非外語工作者和國外世界的一道屏障。寫作者的寫作水平可以凸顯其掌握語言的熟練程度,要想寫出高質(zhì)量的文章,必須擁有大量的閱讀經(jīng)歷及知識儲備。然而,對大多數(shù)以非英語為母語的學(xué)生來說,由于英語閱讀經(jīng)歷和知識儲備的缺乏,寫出高質(zhì)量的英語文章絕非是一件容易的事。在寫作的過程中,他們往往先用自己的母語組織文章內(nèi)容,然后再將其翻譯成相對應(yīng)的英語。這種翻譯式的寫作方法,很難寫出原汁原味的英語文章。
隨著互聯(lián)網(wǎng)的高速發(fā)展與電腦的大量普及,很多人在寫作的時(shí)候都會利用大量的網(wǎng)絡(luò)資源來幫助自己完成任務(wù)。網(wǎng)絡(luò)資源包括兩大塊:一塊是大量的英文網(wǎng)頁,通過搜索引擎,寫作者可以很快的定位到和自己寫作相關(guān)的材料,寫作者可以依據(jù)這些網(wǎng)絡(luò)資源,一方面提供寫作語句的參考,另一方面亦可以給自己的寫作思路提供很好的模型;另一塊是網(wǎng)絡(luò)在線翻譯資源,包括網(wǎng)絡(luò)詞典和在線翻譯。在寫作過程中遇到困難的人雖然可以通過互聯(lián)網(wǎng)來獲得幫助,但是這種方式既費(fèi)時(shí)費(fèi)力又效率低下,不能有效地提高用戶的寫作水平,幫助用戶寫出高質(zhì)量的英語文章。如何更加有效地幫助用戶提高英語寫作水平,依然是研究者需要面對的問題。
針對上述問題,國內(nèi)外學(xué)者開發(fā)了許多輔助寫作系統(tǒng)。這些輔助寫作系統(tǒng)不僅提供了文字編輯區(qū),而且提供了詞搭配、相似內(nèi)容推薦等相關(guān)功能。這些系統(tǒng)的出現(xiàn),在一定程度上提高了用戶的寫作質(zhì)量。但是通過對現(xiàn)有輔助寫作系統(tǒng)的分析與研究,不難發(fā)現(xiàn)其大多數(shù)使用的仍然是非常傳統(tǒng)的方法,效果比較有限。傳統(tǒng)統(tǒng)計(jì)機(jī)器學(xué)習(xí)階段需要大量的人工經(jīng)驗(yàn)和時(shí)間進(jìn)行早期的數(shù)據(jù)標(biāo)注和中期的特征抽取,而且對于復(fù)雜任務(wù)實(shí)驗(yàn)效果并不理想,并不能很好地進(jìn)行文本表示,理解語義信息。而且傳統(tǒng)文本表示方法導(dǎo)致的維度災(zāi)難、數(shù)據(jù)稀疏等問題等已經(jīng)影響自然語言處理領(lǐng)域的發(fā)展。近年來由于深度神經(jīng)網(wǎng)絡(luò)和文本詞向量技術(shù)的迅猛發(fā)展,將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到文本匹配領(lǐng)域逐漸成為一個新的研究方向。
綜上所述,如何構(gòu)建有效的深度文本語義匹配方法,以及將方法應(yīng)用到寫作輔助是個很重要,非常值得研究的問題。因此本文提出一種面向?qū)懽鬏o助的文本匹配方法及裝置。
發(fā)明內(nèi)容
本發(fā)明提供了一種面向英文寫作輔助的語義匹配方法,包括如下步驟:
步驟S1:構(gòu)建例句語料庫;
步驟S2:構(gòu)建語義匹配模型訓(xùn)練數(shù)據(jù)集;
步驟S3:構(gòu)建多視角注意力機(jī)制的語義匹配模型;
步驟S4:訓(xùn)練語義匹配模型。
其中,所述步驟S1包括:
步驟S11:對英文寫作網(wǎng)站數(shù)據(jù)進(jìn)行爬取解析,并將內(nèi)容按文章的形式進(jìn)行存儲,構(gòu)建語料庫;
步驟S12:對語料庫內(nèi)容進(jìn)行一些基本的預(yù)處理,以語句的形式進(jìn)行保存構(gòu)建例句語料庫。
其中,所述步驟S2包括:
步驟S21:對構(gòu)建的例句語料庫中語料進(jìn)行部分標(biāo)注;
步驟S22:利用加權(quán)的詞向量作為無監(jiān)督的句向量表示,利用余弦距離得到一些候選的語義相似句子對;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘭雨晴,未經(jīng)蘭雨晴許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911063163.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





