[發明專利]快速生成標準語料的方法和系統有效
| 申請號: | 201910768046.0 | 申請日: | 2019-08-20 |
| 公開(公告)號: | CN110489754B | 公開(公告)日: | 2023-01-03 |
| 發明(設計)人: | 劉云芳;江敏 | 申請(專利權)人: | 杭州數瀾科技有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06N20/00 |
| 代理公司: | 北京市聯德律師事務所 11361 | 代理人: | 黃大正 |
| 地址: | 311121 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 快速 生成 標準 語料 方法 系統 | ||
本發明涉及一種快速生成標準語料的方法和系統。本發明利用計算機在語句中自動化地查找與規范信息對應的信息,以能更有效地生成標準語料。
技術領域
本發明涉及計算機自然語言處理技術,更具體地,涉及快速生成標準語料的方法和系統。
背景技術
針對語句中詞語(尤其是不規范的或錯誤的詞語)的識別及抽取問題,通常會使用機器學習領域中的有監督學習方法,如BiLSTM+CRF模型。在本領域中,有監督學習方法是指將具有標注的語料(即標準語料)輸入計算機,以訓練機器學習模型;當在計算機中輸入無標注的語句時,可以通過該機器學習模型得到該語句的標注。在將有監督學習方法用于識別或抽取不規范詞語之前,需要使用大量的標準語料來訓練機器學習模型。
現有的生成標準語料的方法需要使用大量的人工勞動。例如,環保局收到群眾反饋信息“來電人反映洗護景區旁邊有人亂扔垃圾,破壞景區環境”。環保局的工作人員針對地名進行人為的判斷,并人工選擇規范的地名信息(簡稱“規范信息”)為“西湖景區”。雖然此例中的規范信息是相對于地名而被描述,規范信息也可以相對于其他詞性或類別的詞語來描述;例如不規范的動詞“學席”對應的規范信息是“學習”。在本公開中,規范信息指的是符合通常語法和用語習慣的詞語或短語。在前例中,在選擇規范信息之后,按照現有的生成標準語料的方法,還需要工作人員根據規范信息“西湖景區”而返回去在反饋信息中的“洗護景區”后進行標注,以便生成標準語料。例如,從前述反饋信息生成的標準語料可以為“來/O電/O人/O反/O映/O洗/P護/P景/P區/P旁/O邊/O有/O人/O亂/O扔/O垃/O圾/O,/O破/O壞/O景/O區/O環/O境/O”,其中標注為“/O”的文字表示其屬于其他文字,而標注為“/P”的文字表示其屬于需要機器學習模型的識別的文字(本例中的符號“0”和“P”僅為示例,可以根據需要或習慣使用其他符號,只要二者不相同)。
為了減少在生成標準語料的過程中的人工參與,需要新的生成標準語料的方法。
發明內容
本發明的一個方面是一種利用計算機在語句中查找與規范信息對應的信息的方法,包括:(1)利用所述計算機將所述語句的首個文字的位置設置為起始位置;(2)利用所述計算機從所述起始位置開始,按照預定規則并且根據文字間的相似度計算規則,確定所述語句中是否存在與所述規范信息對應的信息;并且(3)利用所述計算機,如果確定所述語句中存在與所述規范信息對應的信息,則結束所述查找操作,否則在所述語句中將所述起始位置后移一個文字,然后執行步驟(2)。
根據本發明的實施例,在語句中查找與規范信息對應的信息的過程中所使用的所述預定規則是:如果所述語句從所述起始位置開始的剩余長度大于或等于所述規范信息的長度,并且所述語句從所述起始位置開始的每個文字與所述規范信息從頭開始的每個文字都相同或具有或超過預定的相似度,則確定所述語句從所述起始位置起存在與所述規范信息對應的信息。
根據本發明的實施例,在語句中查找與規范信息對應的信息的過程中所使用的所述預定規則是:如果所述語句從所述起始位置開始的剩余長度大于或等于所述規范信息的長度,并且所述語句從所述起始位置開始的每個文字與所述規范信息從頭開始并且在所述規范信息的全長的預定比例內的每個文字都相同或具有或超過預定的相似度,則確定所述語句從所述起始位置起存在與所述規范信息對應的信息。
根據本發明的實施例,在語句中查找與規范信息對應的信息的過程中所使用的所述預定規則是:如果所述語句從所述起始位置開始的剩余長度大于或等于所述規范信息的長度,并且所述語句從所述起始位置開始的每個文字與所述規范信息從頭開始的每個文字彼此之間連續低于預定的相似度的文字的數量低于預定數量,則確定所述語句從所述起始位置起存在與所述規范信息對應的信息。
根據本發明的實施例,在語句中查找與規范信息對應的信息的過程中所使用的所述預定規則是:如果所述語句從所述起始位置開始的剩余長度小于所述規范信息的長度,則確定所述語句中不存在與所述規范信息對應的信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州數瀾科技有限公司,未經杭州數瀾科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910768046.0/2.html,轉載請聲明來源鉆瓜專利網。





