1.一種網站敏感詞屏蔽方法,其特征在于,所述方法包括:
抓取網站文字信息,對所述文字信息進行分組,并將分組后得到的各個分詞認定為第一詞語;獲取預設敏感詞數據庫中的分詞,將敏感詞數據庫中存儲的各個分詞認定為第二詞語;
依次對各個所述第一詞語進行概念拆分得到包含若干個概念的第一概念集合,同時,依次對各個所述第二詞語進行概念拆分得到包含若干個概念的第二概念集合;
逐個計算所述第一概念集合中的第一概念與所述第二概念集合中的第二概念之間的概念相似度,所述第一概念為所述第一概念集合中的任一概念,所述第二概念為所述第二概念集合中的任一概念;
將計算得到的各概念相似度中的最大值作為所述第一詞語與所述第二詞語之間的詞語相似度,并根據所述詞語相似度判斷所述第一詞語與所述第二詞語是否匹配成功;
若匹配成功,則對網站上匹配成功的所述第一詞語進行屏蔽處理。
2.根據權利要求1所述的網站敏感詞屏蔽方法,其特征在于,所述計算所述第一概念集合中的第一概念與所述第二概念集合中的第二概念之間的概念相似度包括:
計算所述第一概念的第一獨立義原與第二概念的第一獨立義原之間的第一相似度;
計算所述第一概念的第二獨立義原與第二概念的第二獨立義原之間的第二相似度,所述第二獨立義原為語義表達式中除所述第一獨立義原以外的所有其他獨立義原;
計算所述第一概念的關系義原與第二概念的關系義原之間的第三相似度;
計算所述第一概念的符號義原與第二概念的符號義原之間的第四相似度;
根據所述第一相似度、第二相似度、第三相似度、第四相似度計算所述第一概念與所述第二概念之間的概念相似度。
3.根據權利要求2所述的網站敏感詞屏蔽方法,其特征在于,所述計算所述第一概念的第一獨立義原與第二概念的第一獨立義原之間的第一相似度包括:
按照如下公式計算所述第一相似度Sim1(V1,V2):
Sim1(V1,V2)=αd+α;]]>
其中,所述(d+α)表示兩個義原,d是和在義原層次體系中的路徑長度,α為常數參數。
4.根據權利要求3所述的網站敏感詞屏蔽方法,其特征在于,計算所述第一概念的第二獨立義原與第二概念的第二獨立義原之間的第二相似度包括:
1)將第一概念與第二概念的語義表達式的所有獨立義原任意配對,計算兩兩獨立義原相似度;
2)將相似度取值最大的一對歸為一組;
3)對剩余的獨立義原兩兩執行步驟2),直至所有獨立義原都完成分組;
4)對各組的相似度計算平均值作為所述第二相似度。