A-A+

申永SEO:基于TFIDF的SEO系统底层设想

2020年07月02日 站长资讯 暂无评论

最近搞的一套系统里面用到了一套基于TFIDF算法的东西,打算把流程设想一下,整理开发成一套系统化的工具。

首先要使用TFIDF得明白它需要的几个东西

1是要处理的文章,得分词之后,2是核心计算。

尝试了10万个简单的文章处理之后,发觉这块并不是想像中的那么简单。

光是计算TFIDF这块,就把8个G的内存全部占满了。

目前想到的方案大概是:

1、使用盘古分词,清理标点符号做为停用词进行过滤,生成切词之后的结果。

必要时可以加一些自定义词库到词库中备用,外开二元分词功能保证结果的准确性。

越大量的文章越要使用多线程进行处理。这块还要研究一下。

2、使用TFIDF进行词频计算,传入分词之后的文章,计算所有词,所在词在某个文章中的TF和IDF。越大量的数据越难以处理。

标签:

给我留言