[發明專利]一種根據中文語言模型構建輸入法詞庫的方法在審
| 申請號: | 201610066190.6 | 申請日: | 2016-01-24 |
| 公開(公告)號: | CN106997245A | 公開(公告)日: | 2017-08-01 |
| 發明(設計)人: | 楊文韜;楊景玉 | 申請(專利權)人: | 楊文韜;楊景玉 |
| 主分類號: | G06F3/023 | 分類號: | G06F3/023 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 116621 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 根據 中文 語言 模型 構建 輸入法 詞庫 方法 | ||
1.一種根據中文語言模型構建輸入法詞庫的方法,其特征是:包括中文語言模型模塊和造詞模塊,其中,
所述中文語言模型模塊,用于為造詞模塊批量生成詞語時提供構詞信息以及為最終生成的詞庫提供詞庫管理信息;
所述造詞模塊用于根據中文語言模型模塊提供的構詞信息自動批量生成詞語。
2.根據權利要求1所述的一種根據中文語言模型構建輸入法詞庫的方法,其特征是,所述的中文語言模型模塊由模型標識子模塊和模型構詞信息子模塊組成,
模型標識子模塊收錄中文語言模型,中文語言模型由代表造詞主體的字符串標識、前綴、插入成分和后綴組成,附加在造詞主體前面的為前綴,附加在造詞主體后面的為后綴,插入造詞主體中間的為插入成分,前綴、插入成分和后綴可以只出現其一,也可以共現,另外,插入成分可以包含一個或多個;所述的造詞主體指的是造詞模塊中的造詞主體子模塊所收錄的用于造詞用的基礎詞語;
模型構詞信息子模塊主要由按照口語、書面語、專業用語等進行分類的語言性質信息數據表,及按照主謂、動賓、定心等進行分類的詞語結構類型信息數據表,及按照表時間、空間、數量、程度等進行分類的語義范疇信息數據表,及按照疑問、陳述、祈使、感嘆進行分類的語氣類型信息數據表,及按照主動、被動、使動等進行分類的語態類型信息數據表,以及修飾層級、排序權重信息數據表等組成;
所述的中文語言模型根據中文語音停頓特點和語義完整性要求進行開發。
3.根據權利要求1所述的一種根據中文語言模型構建輸入法詞庫的方法,其特征是,所述的造詞模塊由造詞主體子模塊、詞類標注子模塊和詞語結構標注子模塊組成,
造詞主體子模塊收錄供造詞用的基礎詞語,這些基礎詞語稱為造詞主體;
詞類標注子模塊將造詞主體子模塊中的基礎詞語進行詞類標注,劃分為名詞、動詞、形容詞、代詞、副詞、數詞、量詞、介詞、連詞、助詞、嘆詞、擬聲詞等具體數據表;
詞語結構標注子模塊將造詞主體子模塊中的基礎詞語進行詞語結構標注,劃分為主謂、述賓、述補、定心、狀心、量心、數量、并列、反序、重疊、順遞、復指、雜糅、介詞短語以及同義詞、反義詞、平行詞等具體數據表。
4.根據權利要求1所述的一種根據中文語言模型構建輸入法詞庫的方法,其特征是,所述的造詞模塊中的詞類標注子模塊和詞語結構標注子模塊中的數據表均為造詞主體設置斷點信息,用于造詞時對造詞主體執行插入操作以及對造詞主體前后兩部分分別加以處理。
5.一種如權利要求1所述的根據中文語言模型構建輸入法詞庫的方法,其特征在于,包括以下步驟:
步驟1:提煉中文語言模型,并以此為基礎構建模型標識子模塊和模型構詞信息子模塊;
步驟2:通過《現代漢語詞典》等工具書及人工收集方式,選取基礎性、通用性的造詞素材,并以此為基礎構建造詞主體子模塊、詞類標注子模塊和詞語結構標注子模塊;
步驟3:利用數據庫處理軟件,將中文語言模型模塊中的模型構詞信息子模塊和造詞模塊中相應數據表的信息相關聯,利用數據庫查詢語句批量生成輸入法詞庫詞語。
6.一種如權利要求1所述的根據中文語言模型構建輸入法專業詞庫的方法,其特征在于,包括以下步驟:
步驟1:提煉中文語言模型,并以此為基礎構建模型標識子模塊和模型構詞信息子模塊;
步驟2:建立專業詞語造詞素材庫;
步驟3:以上述專業詞語造詞素材庫為基礎,構建造詞主體子模塊、詞類標注子模塊和詞語結構標注子模塊;
步驟4:利用數據庫處理軟件,將中文語言模型模塊中的模型構詞信息子模塊和造詞模 塊中相應數據表的信息相關聯,利用數據庫查詢語句批量生成輸入法專業詞語。
7.一種如權利要求1所述的根據中文語言模型構建輸入法詞庫的管理方法,其特征是:包括語料模塊和詞庫信息模塊,其中,
所述的語料模塊收錄權利要求1所述的造詞模塊生成的全部詞語;
所述的詞庫信息模塊的構成與權利要求1所述的中文語言模型模塊中的模型構詞信息子模塊完全相同,并由其傳遞數據信息。
8.一種如權利要求1所述的基于中文語言模型構建輸入法詞庫的輸入法的開發方法,其特征在于,用輸入法提示框提示模型詞語,包括以下步驟:
步驟1:在輸入法碼表中,增加中文語言模型信息,使碼表中的每條詞語和中文語言模型形成一一對應關系;
步驟2:在輸入法引擎中增加搜索碼表時,按照中文語言模型查找所對應的詞語的功能;
步驟3:在輸入法提示框中增加查看模型詞語的圖標或按鈕,或其他類似的提示性標志,當正在輸入的編碼對應的是一組模型詞語時,激活該標志,當把鼠標光標移動到該標志上面時,顯示中文語言模型,當用鼠標單擊或按下預先定義的鍵盤按鍵時,顯示該中文語言模型對應的全部詞語。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于楊文韜;楊景玉,未經楊文韜;楊景玉許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610066190.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:新型掛面烘干機雙輸送水暖烘干及落面收集系統
- 下一篇:新型掛面自動切齊機構





