[發明專利]一種詞典格式生成方法及電子設備有效

申請號：	201710676588.6	申請日：	2017-08-09
公開（公告）號：	CN107633006B	公開（公告）日：	2020-10-13
發明（設計）人：	張惠亮;趙曉慶;劉勝;吳鋒海	申請（專利權）人：	聯動優勢科技有限公司
主分類號：	G06F16/36	分類號：	G06F16/36
代理公司：	北京同達信恒知識產權代理有限公司 11291	代理人：	黃志華
地址：	100082 北京市海淀***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種詞典格式生成方法電子設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明實施例提供一種詞典格式生成方法及電子設備，用于實現對文本中特殊字符的處理，提高文本解析中對包含特殊字符串的字段的切分的準確性。該方法包括：獲取來自至少一個數據源的多個文本信息，所述多個文本信息中每個文本信息包括特殊字符，所述特殊字符包括數字和/或字母；提取所述多個文本信息中與所述特殊字符相關的至少一個語義段；其中，所述至少一個語義段中每個語義段包括所述特殊字符及與所述特殊字符相鄰的關聯字符，所述關聯字符的字符數量小于等于預設數量；根據所述至少一個語義段確定至少一個詞典格式，所述至少一個詞典格式用于表征特殊字符在相應語義段中的分布規則。

技術領域

本發明涉及計算機技術領域，特別涉及一種詞典格式生成方法及電子設備。

背景技術

在隨著移動互聯網的迅猛發展，其產生的信息量正在飛速增加，如何從這些信息中提取我們感興趣的部分，正是自然語言處理(Neuro-Linguistic Programming，NLP)需要研究的內容。特別是對于移動互聯網的入口——手機，已經成為眾多互聯網公司必爭之地。因此，通過對這些應用類文本進行正確解析，可為用戶提供更為優質的服務。

文本解析包括文本切分和語義分析兩個階段，對于手機上各類公司企業的應用文本信息，一般結構都較為規整，文字信息量充分，模板變化頻度比較小，很適合在第一步文本切分階段采用字典法。傳統字典法都是采用固定詞匯的方式定義屬性，但是在公司應用信息中，會包含很多數字，英文、特殊含義標示等，傳統字典無法完整覆蓋這些信息并且準確對原文進行切分。

傳統的詞典設計的方法主要是采取盡可能窮盡所有可能出現的固定詞匯或者只選取必要的字符串然后后期再處理。兩種設計方式存在如下問題：

第一種方式是需要建設一個巨大的字典庫，這從技術上和業務上都比較難以實現，需要花費巨大的時間和人力，并且不能預判未來出現的符合同樣格式只是部分內容稍加修改的新詞語的出現。此外，詞典的規模過大也會導致文本切分階段耗費資源增加，同時運行速度、執行效率顯著降低；

對于后一種只選取必要固定詞匯的處理方式，會導致整個語句被切分的非常瑣碎，信息的完整性被一定程度的破壞，同時也不利于后期語義分析階段的處理。

綜上可知，現有技術中還沒針對文本中特殊字符較好的處理方式。

發明內容

本發明實施例提供一種詞典格式生成方法和電子設備，用于實現對文本中特殊字符的處理，提高文本解析中對包含特殊字符串的字段的切分的準確性。

第一方面，本發明實施例提供一種詞典格式生成方法，包括以下步驟：

獲取來自至少一個數據源的多個文本信息，所述多個文本信息中每個文本信息包括特殊字符，所述特殊字符包括數字和/或字母；

提取所述多個文本信息中與所述特殊字符相關的至少一個語義段；其中，所述至少一個語義段中每個語義段包括所述特殊字符及與所述特殊字符相鄰的關聯字符，所述關聯字符的字符數量小于等于預設數量；

根據所述至少一個語義段確定至少一個詞典格式，所述至少一個詞典格式用于表征特殊字符在相應語義段中的分布規則。

可選的，提取所述多個文本信息中與所述特殊字符相關的至少一個語義段，包括：

根據所述特殊字符的字符類型，對所述多個文本信息進行歸一化處理，獲得歸一化的文本信息；