[發明專利]一種面向海量互聯網信息的文本語義建模方法在審
| 申請號: | 201610075760.8 | 申請日: | 2016-02-03 |
| 公開(公告)號: | CN107038163A | 公開(公告)日: | 2017-08-11 |
| 發明(設計)人: | 李華康;鐘鑫;楊天楚;楊天若 | 申請(專利權)人: | 常州普適信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 213014 江蘇省常州市新北區*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 海量 互聯網 信息 文本 語義 建模 方法 | ||
1.一個原始海量語料庫,存儲從互聯網上抓取的海量文本信息。
2.一個分詞詞庫,用以對中文句子的分詞。
3.一個詞性詞庫,用以對分詞后的詞匯或者短語進行詞性標注。
4.一個句式庫,用以生成詞性路徑,并構建句式庫的自動增補。
5.分句模塊,根據標點對原始語料進行句子分割,為后續的分詞、詞性路徑生成等功能構建基礎的結構分片。
6.分詞模塊,參照分詞詞典對切分后的子句進行分詞,獲得最小分詞單元,并采用詞的鏈接、似然等算法獲得最終的詞匯集合。
7.詞性判斷模塊,參照詞性詞庫,對獲得的分詞集合的每個詞或短語進行詞性標注,對具有多詞性的詞匯進行統計分析,給出詞性概率,克服互聯網文本信息的口語化、多義性所帶來的問題。
8.詞性路徑生成模塊,參照句式庫對每個短句內的詞匯集合的詞性序列進行比對,提取詞性路徑結果,對句式庫內無法匹配到的短句,采用空值替換或者短句窗位移的方法,生成最大覆蓋度和最高精準度的詞性路徑模型。
9.三元組生成模型,按照三元組文本語義基礎模型從詞性路徑模型中分離出特征、觀點和程度詞構建三元組模塊,結合海量數據分析的自反饋模型,實現三元組語義基礎模型的自我修改和增刪功能,同時對三元組進行結構化編碼,對其他上層應用提供簡易接口。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于常州普適信息科技有限公司,未經常州普適信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610075760.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:紗線導向器
- 下一篇:一種可防盜便捷VR線收納裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





