[發明專利]基于模板的語料自動化擴充方法、裝置、設備及介質有效

申請號：	202011564948.1	申請日：	2020-12-25
公開（公告）號：	CN112668281B	公開（公告）日：	2023-09-22
發明（設計）人：	梁子敬;張捷;梁方殷	申請（專利權）人：	平安科技（深圳）有限公司
主分類號：	G06F40/151	分類號：	G06F40/151;G06F40/186;G06F40/289
代理公司：	北京鴻元知識產權代理有限公司 11327	代理人：	張超艷;董永輝
地址：	518033 廣東省深圳市福田區福***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于模板語料自動化擴充方法裝置設備介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于模板的語料自動化擴充方法，其特征在于，所述方法包括：

根據句式和句子成分構建語意句式模板，所述語意句式模板包括句子成分和需采集字符；

采用語意句式模板通過擴充方式擴充語料，所述擴充方式包括第一擴充方式和第二擴充方式，所述第一擴充方式是對語意句式模板匹配出的語料進行擴充，所述第二擴充方式是對語意句式模板擴充，通過擴充后的語意句式模板匹配語料，實現語料擴充；

其中，所述第一擴充方式的實現步驟包括:

通過語意句式模板在語料中匹配獲得不同語意句式；

通過擴充規則擴充語意句式；

判斷擴充后語意句式是否符合自然規律的步驟，包括：

通過下式構建語言模型

其中，表示語言的生成過程，即字符i從1到字符整個過程形成的連乘，所有的乘積作為一個整體，從而使得語言模型，進行最大概率P(S)的優化，P(S)為一個替換詞的完成概率，表示詞語w_i的完成概率取決于前n個詞語的概率；

將一個語意句式的多個替換詞依次輸入語言模型，獲得不同替換詞語的完成概率；

按照下式獲得擴充的語料的總平均概率

其中，P(S₁)表示第1個替換詞生成時的完成概率，j表示整個語意句子替換完成，需要的替換詞個數，P(S_total)為整個語意句子替換的總平均概率；

判斷語意句子的總平均概率是否超過設定閾值；

如果超過設定閾值，認為擴充后語意句式符合自然語言規律，存儲擴充后語意句式；

如果不超過設定閾值，認為擴充后語意句式不符合自然語言規律，刪除擴充后語意句式；

其中，所述第二擴充方式的實現步驟包括：

選擇擴充規則擴充語意句式模板；

通過擴充后的語意句式模板在語料中匹配，獲得多個語意句式；

其中，所述擴充規則包括詞語替換、變式替換和中介語轉換中的一種或多種，所述詞語替換包括采用詞語替換語意句式模板或語意句式中的詞語，所述變式替換包括語意句式模板或語意句式的句子結構的順序調整或/和句子結構的長度調整，所述中介語轉換包括采用中介語將包括中介語的兩個語意句式模板或語意句式轉換成一個語意句式模板或語意句式。

2.如權利要求1所述的基于模板的語料自動化擴充方法，其特征在于，所述根據句式和句子成分構建語意句式模板的步驟包括：

按照語氣補充詞、輔助提問詞、輔助回答詞、常用副詞、常用動詞、常用主語、常用謂詞、常用助詞、狀態表示詞、常用數量詞和常用代詞作為詞語單元構建不同句式的語意句式模板，所述語意句式模板由構成句式的詞語單元及其對應的需采集的字符構成。

3.如權利要求2所述的基于模板的語料自動化擴充方法，其特征在于，所述通過擴充規則擴充語意句式的步驟還包括：

構建數據詞表，所述數據詞表包括各金融領域對應字段，所述字段包括標注字段和未標注字段，所述標注字段為需要捕獲的槽位信息；

其中，所述通過詞語替換擴充語意句式的步驟包括：

對每個語意句式模板從語料匹配出的語意句式的需采集字符進行分詞，形成多個語意分詞；

將語意分詞標注成數據詞表中對應的字段；

將語意分詞中已標注的或者未標注但已明確的數據進行短語對、相似詞語或/和一組關聯詞語替換，所述相似詞語包括詞向量相近的詞語和數據詞表中相近字段的枚舉值。

4.如權利要求1所述的基于模板的語料自動化擴充方法，其特征在于，所述通過擴充規則擴充語意句式的步驟包括：

采集金融大數據中的枚舉字典，用短語對、相似詞語、或/和關聯詞語對語意句式數據進行替換。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載