<nobr id="9h77v"><dl id="9h77v"></dl></nobr>
<del id="9h77v"></del>

        <b id="9h77v"></b>

                  <output id="9h77v"></output>
                  <delect id="9h77v"><ins id="9h77v"><address id="9h77v"></address></ins></delect>

                  ?

                  31 08月

                  搜索引擎的数据预处理

                  当前位置: 蔡江seo > 优化边际 > 搜索引擎的数据预处理
                  分类: 优化边际 作者:蔡江SEO 围观

                    成都seo蔡江博客和大家一起关注今日seo话题。我们先来看一下搜索引擎的工作原理。在搜索引擎原理中,搜索引擎工作流程大致有三点:数据采集、数据预处理、查询服务,今天成都seo在这里和大家分享一下数据预处理,值得注意的是,在我们所述的“数据预处理”就是主要包含四个方面:关键词提取,“镜像网页”以及“转载网页”的消除,链接分析和网页重要程度的计算。

                    

                  成都seo.jpg

                   

                    一、关键词提取

                    首先要先会提取关键词。在每一章网页,包含了大量的和主题内容无关的内容,关键词提取的任务,就是要提取出网页源文件的内容部分所含的关键词。提取的方法:根据百度分词技术,将内容切成多个词组成的数组,再取出“在”“的”等无意义的词组,确定最终的关键词。

                    二、重复网页的消除

                    天网的2003统计发现:网页的平均重复率为4,到目前的2015年,这个数字肯定已经破10。对于网名来说,拥有了更多访问有用信息的机会,对搜索引擎来说,浪费了大量的搜集网页的时间,以及网络宽带资源。蔡江seo在这里只是和大家了解一下,不过多讲解。

                    三、链接分析

                    1)链接分析中有提到两个概念,词频(TF):该关键词在关键词提取之后的关键词集合中的出现频率

                    2)文件频率(DF):该关键词在所有文件中的出现频率,在所有文件中,该关键词在多少文件中出现

                    3)搜索引擎可以通过HTML文本标签,来确定关键词的重要性

                    成都seo蔡江认为搜索引擎的数据预处理大致可以从以上几方面来进行。

                  文章作者:蔡江SEO
                  文章标题:搜索引擎的数据预处理
                  本文地址:http://www.592app.com/bianji/101.html + 复制链接

                  相关文章:

                  Comments

                  精彩评论

                  ?
                  返回顶部
                  俺去也俺去啦一本道综合久久激情综合网一本道久久综合久久爱_黑鲍鱼影院_香港三级片