最近刚回北京来找工作,被百度面试官问到这么一个问题:
有五亿个文件文档,另外还有10万个敏感词,怎么判断这五亿个文件里是否有包含敏感词?.......这个我第一念头真不知道怎么办,最后还是问了面试官,面试官告诉我涉及到了一个算法。那就是AC自动机,我通过百度了一批AC自动机的文章,也大概了解到了它的进化历程......关于这方面的文章原理描述这里就不搬了,就当了解有这么一个算法能应对一些类似开发中的需求就好了,这里就复制了别人的代码备用。有五亿个文件文档,另外还有10万个敏感
最近刚回北京来找工作,被百度面试官问到这么一个问题:
有五亿个文件文档,另外还有10万个敏感词,怎么判断这五亿个文件里是否有包含敏感词?.......这个我第一念头真不知道怎么办,最后还是问了面试官,面试官告诉我涉及到了一个算法。那就是AC自动机,我通过百度了一批AC自动机的文章,也大概了解到了它的进化历程......关于这方面的文章原理描述这里就不搬了,就当了解有这么一个算法能应对一些类似开发中的需求就好了,这里就复制了别人的代码备用。有五亿个文件文档,另外还有10万个敏感