[發明專利]面向人物傳記的事件分類方法無效
| 申請號: | 201110095809.3 | 申請日: | 2011-04-18 |
| 公開(公告)號: | CN102200997A | 公開(公告)日: | 2011-09-28 |
| 發明(設計)人: | 周文;葛晶 | 申請(專利權)人: | 上海大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海上大專利事務所(普通合伙) 31205 | 代理人: | 何文欣 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 人物傳記 事件 分類 方法 | ||
技術領域
本發明屬于智能信息處理技術,更進一步是關于文本的分類處理的技術,具體涉及一種面向人物傳記的事件分類方法。
背景技術
隨著網絡、信息化技術的快速發展,數字化文檔信息的極大豐富,對文本,資料,網頁等的分類處理已成為信息處理的重要技術手段。文本分類的方法有很多,典型的方法有:
(1)樸素貝葉斯分類器?(Lewis?D..?Naive?bayes?at?forty:?The?independence?assumption?in?information?retrieval.?In:?Proceeding?of?the?10th?European?Conference?on?Machine?Learning,Chemnitz,Germany,1998,4~5)?樸素貝葉斯分類器是一種廣泛使用的分類算法,其計算效率和分類效果均十分理想。樸素貝葉斯分類器與其他方法相比最大的優勢或許就在于,它在接受大數據量訓練和查詢時所具備的高速度。樸素貝葉斯分類器的最大缺陷就是,它無法處理基于特征組合所產生的變化結果。
(2)基于向量空間模型的分類器?(Salton?G..?Automatic?Text?Processing:?The?Transformation,?Analysis,?and?Retrieval?of?Information?by?Computer.?Reading,?MA:?Addison-Wesley,1989)?向量空間模型是自動文本分類中成熟的文本表示模型,通常以詞語或短語作為特征項,但這些特征項通常只能提供較少的局部語義信息。為實現基于內容的文本分類,該文用HNC理論中的句類作為特征項,通過混合句類分解等技術對句類向量空間降維,使用tfc算法對特征項進行權重計算,用KNN算法進行分類。該分類器的平均準確率和召回率都是可接受的,對類別的抽象程度無要求,即抽象度較高和較低的類別可以同時分類。通過使用更好的機器學習算法和其他的HNC語言理解技術,性能可以進一步提高。
(3)用支持向量機的分類器?(Joachims?T..?Text?Categorization?with?support?vector?machines:?Learning?with?many?relevant?features.?In:?Proceedings?of?the?10th?European?Conference?on?Machine?Learning,?Chemnitz,?Germany,?1998,??137~142)
它是一種監督式學習的方法,它廣泛的應用于統計分類以及回歸分析中。支持向量機屬于一般化線性分類器。他們也可以認為是提克洛夫規范化(Tikhonov?Regularization)方法的一個特例。這族分類器的特點是他們能夠同時最小化經驗誤差與最大化幾何邊緣區。因此支持向量機也被稱為最大邊緣區分類器。
這些技術是對于所有文本類別的分類,分類的粒度較大,而人物傳記需要的與人物相關的事件信息往往只涉及到一個語句,如果直接用上述分類器進行分類,將無法達到對事件分類的效果。以上的這些方法嚴重依賴于外部知識,尤其是領域知識。受知識獲取的瓶頸限制,這些方法只在受限領域得到成功應用。
本發明突破了這些傳統的分類技術,不再把文本作為分類的對象,而是將文本中所涉及的與人物相關的事件進行分類,分類的對象粒度更細,分類的目標是為了進一步用于人物傳記的生成。本發明還擺脫了知識獲取的束縛,在訓練分類事件后還能根據當前已分類事件特征形成新的語料。
發明目的
本發明的目的在于針對已有技術存在的缺陷,提供一種面向人物傳記的事件分類方法。
發明內容
鑒于以上所述現有技術存在的問題和不足,本發明的目的在于解決已有技術問題是提供一種面向人物傳記的事件分類方法,提高人物事件識別準確率。一種面向人物傳記的時間分類方法,其特征在于操作步驟如下:
A.?構建訓練語料庫;
B.?詞庫的訓練;
C.?人物事件分類。
上述步驟A訓練語料庫的構建具體步驟如下:
A1.從互聯網或其他信息源獲取人物描述語言的文本;
A2.標注語句的類型,語料標注的類別有:性別、民族、出生時間、出生地、黨派、現任職務、學習經歷,若所標注的人物為科學家,則標注的類別還有:發表文章、參與項目;
A3.如果一句語句有多個類型,則標注多個類型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海大學,未經上海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110095809.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電動壓縮機
- 下一篇:一種版面信息提取和加工的方法





