[發明專利]詞性標注模型訓練裝置、詞性標注系統及其方法有效
| 申請號: | 200810085463.7 | 申請日: | 2008-03-19 |
| 公開(公告)號: | CN101539907A | 公開(公告)日: | 2009-09-23 |
| 發明(設計)人: | 胡長建;趙凱;邱立坤 | 申請(專利權)人: | 日電(中國)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 中科專利商標代理有限責任公司 | 代理人: | 羅松梅 |
| 地址: | 100007北京市東城區東四十*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞性 標注 模型 訓練 裝置 系統 及其 方法 | ||
1.一種詞性標注模型訓練裝置,包括:
直接成分分析單元,用于對詞進行直接成分分析,以獲得直接成分、 其屬性以及位置關系,其中直接成分分析單元將m個字構成的詞切分為 與所述詞有關的下一級詞和/或語素,以獲得直接成分,其中m≥2;
轉換單元,用于將直接成分分析的結果轉換為訓練數據;
機器學習單元,用于對轉換的訓練數據進行機器學習,從而生成詞 性標注模型。
2.如權利要求1所述的詞性標注模型訓練裝置,其中還包括詞典語 義擴展單元,用于對詞典進行語義擴展,生成擴充詞表,其中詞典和擴 充詞表中的詞用于直接成分分析。
3.如權利要求1所述的詞性標注模型訓練裝置,其中轉換單元通過 使用特征模板執行所述轉換。
4.一種詞性標注模型訓練方法,包括:
直接成分分析步驟,對詞進行直接成分分析,以獲得直接成分、其 屬性以及位置關系,其中直接成分分析步驟包括將m個字構成的詞切分 為與所述詞有關的下一級詞和/或語素,以獲得直接成分,其中m≥2;
轉換步驟,將直接成分分析的結果轉換為訓練數據;
機器學習步驟,對轉換的訓練數據進行機器學習,從而生成詞性標 注模型。
5.如權利要求4所述的詞性標注模型訓練方法,其中還包括詞典語 義擴展步驟,對詞典進行語義擴展,生成擴充詞表,其中詞典和擴充詞 表中的詞用于直接成分分析。
6.如權利要求4所述的詞性標注模型訓練方法,其中轉換步驟包括 通過使用特征模板執行所述轉換的步驟。
7.一種詞性標注系統,包括:
詞性標注模型訓練裝置,用于對詞執行直接成分分析以訓練生成詞 性標注模型,其中詞性標注模型訓練裝置包括直接成分分析單元,用于 對詞進行直接成分分析,以獲得直接成分、其屬性以及位置關系,其中 直接成分分析單元用于將m個字構成的詞切分為與所述詞有關的下一級 詞和/或語素,以獲得直接成分,其中m≥2;
基于模型的詞性標注裝置,用于利用詞性標注模型對未登錄詞進行 詞性標注。
8.如權利要求7所述的詞性標注系統,其中詞性標注模型訓練裝置 還包括:
轉換單元,用于將直接成分分析的結果轉換為訓練數據;
機器學習單元,用于對轉換的訓練數據進行機器學習,從而生成詞 性標注模型。
9.如權利要求7所述的詞性標注系統,其中詞性標注模型訓練裝置 還包括詞典語義擴展單元,用于對詞典進行語義擴展,生成擴充詞表, 其中詞典和擴充詞表中的詞用于直接成分分析。
10.如權利要求8所述的詞性標注系統,其中轉換單元通過使用特征 模板執行所述轉換。
11.一種詞性標注方法,包括:
詞性標注模型訓練步驟,對詞執行直接成分分析以訓練生成詞性標 注模型,其中詞性標注模型訓練步驟包括直接成分分析步驟,對詞進行 直接成分分析,以獲得直接成分、其屬性以及位置關系,其中直接成分 分析步驟包括將m個字構成的詞切分為與所述詞有關的下一級詞和/或 語素,以獲得直接成分,其中m≥2;
基于模型的詞性標注步驟,利用詞性標注模型對未登錄詞進行詞性 標注。
12.如權利要求11所述的詞性標注方法,其中詞性標注模型訓練步 驟還包括:
轉換步驟,將直接成分分析的結果轉換為訓練數據;
機器學習步驟,對轉換的訓練數據進行機器學習,從而生成詞性標 注模型。
13.如權利要求11所述的詞性標注方法,其中詞性標注模型訓練步 驟還包括詞典語義擴展步驟,對詞典進行語義擴展,生成擴充詞表,其 中詞典和擴充詞表中的詞用于直接成分分析。
14.如權利要求12所述的詞性標注方法,其中轉換步驟包括通過使 用特征模板執行所述轉換的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于日電(中國)有限公司,未經日電(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810085463.7/1.html,轉載請聲明來源鉆瓜專利網。





