[發明專利]基于半指導策略的漢語多詞表達語料構建方法無效
| 申請號: | 201310205699.0 | 申請日: | 2013-05-29 |
| 公開(公告)號: | CN103336779A | 公開(公告)日: | 2013-10-02 |
| 發明(設計)人: | 梁穎紅 | 申請(專利權)人: | 蘇州市職業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 蘇州銘浩知識產權代理事務所(普通合伙) 32246 | 代理人: | 張一鳴 |
| 地址: | 215104 江蘇省蘇州市國際教育*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 指導 策略 漢語 詞表 語料 構建 方法 | ||
1.一種基于半指導策略的漢語多詞表達語料構建方法,其特征在于:其方法包括以下步驟:
A、基于中心詞擴展的初始聚類中心確定方法,依據從語料庫中統計的少量特征數據來確定每個類的初始中心;
B、基于有指導信息的一致性協同學習數據凈化策略,在原來的DE-Tri-training算法中,對新標注的數據在聚類中尋找它的三個最近鄰,如果這三個近鄰中至少兩個和它本身的標注結果一致,就認為該標注結果是對的,則放入到已標注語料中。
2.根據權利要求1所述的基于半指導策略的漢語多詞表達語料構建方法,其特征在于:所述步驟A中基于中心詞擴展的初始聚類中心確定方法包括以下步驟:
a、基于中心詞擴展的方法;
b、K-均值聚類算法。
3.根據權利要求1所述的基于半指導策略的漢語多詞表達語料構建方法,其特征在于:所述步驟B中基于有指導信息的一致性協同學習數據凈化策略是在原來的DE-Tri-training算法中,對新標注的數據在聚類中尋找它的三個最近鄰,如果這三個近鄰中至少兩個和它本身的標注結果一致,就認為該標注結果是對的,則放入到已標注語料中,原算法中,以上過程是在聚類過程中進行的,缺少有指導標注信息的借鑒,我們將充分利用已標注信息,使用事先確定的三個分類器,把經過聚類的標注結果分別放入三個分類器中,如果至少兩個的標注結果與原來一致,才認為該結果是真的,再放入到已標注語料中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州市職業大學,未經蘇州市職業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310205699.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種低速無線中繼通信系統
- 下一篇:推挽式芯片翻轉半橋磁阻開關





