CSDN敏感词检测算法

2019-04-14 08:38发布

           今天发一篇技术文章被提示包含敏感词汇,我百思不得其解,怎么可能有敏感词汇,仔细看了几遍都觉得不可能有敏感词汇。最后没办法,还是用工科生的逻辑思维把它找出来,就是一步步缩小范围,最后锁定目标,有点像递归的方法。            一. 剪切第N(N=1,2,3,...)段,然后保存。如果提示“保存成功”,转到二,否则转到三            二. 将剪切的粘贴回去。N=N+1; 转到一            三. 这里已经锁定敏感词所在的段。N=1,并将一中的“段”改为“句”,则回到这里时,即已经锁定敏感词所在的句子。如果是编程的话,那就N=1,并将“句”改为“词”,那回到这里就是敏感词啦。            我今天就是这样做的,最后发现有一段话的其中一句话“其分块是在一定的空间中进行的,而且应用和驱动的分块空间是独立的“含有敏感词。大家猜猜是那个词?竟然是”独立“,CSDN过滤也够严谨,无论你在独和立之间加什么符合,如*,_ --都不行。最后我只好改成“分开”这个词,意思也差不多。          仔细考虑一下这个算法只适合含有一个敏感词的场景。我们发技术贴,除非刻意,按理也不会出现敏感词。