有收录的域名,有历史建站记录域名,搜狗pr域名,搜狗权重域名,搜狗权重域名,高收录域名,百度权重域名,外链反链域名,景德镇网站建设
热门搜索: 网站 SEO 网站建设 建设
欢迎您,高收录域名 的忠实网友, , 希望你在本站能找到对您有用的东西。
0
2014-08-16地方分类信息网站如何避免重复信息

 零、为什么要进行地方分类信息网站的重复信息判断?
答案很简单,大量的重复的垃圾信息页面会降低你的网站权重。
由于目前绝大多数地方分类信息网站的信息排序方式,都是采用ID倒序,即按照时间顺序排列,新信息在前,旧信息在后。这就无形中让一些垃圾信息发布者为了获得较好的排名,而每天甚至每个小时都不停的发布自己的信息,他们才不会管到底这样会不会制造大量的重复垃圾信息,他们只想着,如果能上了你的网站首页(因为很多网站都在首页调用了某栏目的最新信息)或者排在其他同行的前面,累点无所谓。
虽然这样可以增加网站的人气,也能够提高数据量,但是对于SEO方面来说,无疑是致命的。廊坊卡卡在初期,为了尽量满足广大信息发布者的要求,并没有进行这方面信息的判断,随着信息量的上升,重复信息也越来越多,而且趋势也越来越严重,直到有一天,发现从店铺、促销频道为入口的流量,骤降50%以上,才发现事情的严重性:因为充斥着大量重复、垃圾信息(这些信息发布者往往会同时在很多分类信息网站发布完全相同的内容),店铺、促销频道被降权。
根据关键词排行榜的统计,很多以前排名很好的关键词,排到了第二页、第三页甚至完全消失。
一、避免重复信息的几种方式
于是经过廊坊卡卡团队的研究,制定出了一套专门针对分类信息网站的重复信息判断规则和方案,拿出来,与广大站长共享,也期待着能够得到大家的批评指正,从而提高方案的可行性和效率。
方法一:改变排序规则
从信息发布者的目的来看,很明确,就是要让自己排在前面、排在首页,在网站现有的规则下,他只有通过重新发布信息来获得好的排名。因此,网站可以更改排序规则,规定店铺信息按照用户好评度排序,或按照浏览量排序,或者在首页只调用推荐的信息,而不是最新信息,那么新发布的店铺,是很难马上排到前边的,这样自然会打击很多信息发布者的积极性,因为不能看到效果,他们也就不会使劲的发新信息了。同时,信息发布者为了能够获得好的排名,反而会去推广自己的链接,让别人来顶或者浏览。缺点:新店铺难有出头之日,而信息发布者为了获得更高的浏览量而去推广链接,万一推广过度,被QQ、百度贴吧、百度知道等封了域名,可就得不偿失了。
方法二:增加更新功能
该操作方法简单易行,只需要在用户的个人中心,发布信息的后面增加一个“更新”按钮,则用户点击该按钮,信息自动更新为当天发布,排到最前面,这样方便了信息发布者,也避免了制造重复页面。当然会有一些人一天到晚不停的在那点,排在前边全是他的信息,怎么办?那我们可以设置更新次数限制,一天只能更新N次,超过N次,不允许更新。当然,如果你的网站人气很旺,你甚至可以通过这个功能来收费!不过信息发布者想想就知道了,为了能够手工的排在最前边,还不如直接买你的广告位划算呢。
方法三:禁止重复信息的发布
这是截流,从根源上禁止重复信息发布,并且不提供任何的解决方案,就是告诉信息发布者,你已经发过了,不用再发了。这样做的缺点也很明显:影响信息发布者的情绪。但这样做也可能会导致你的广告位销量上升。
二、重复信息判断规则
廊坊卡卡在经过多重分析论证的基础上,决定对不同频道采取不同的解决方法,例如针对房产频道,因为房产信息本身的内容差异率就极低,如果信息再重复,那么必然会造成更大的重复,对SEO极为不利。所以,禁止重复信息发布是首要任务。
以房产频道的房屋出售信息为例,通过分析,我们发现,该类信息具有以下值得作为判断依据的字段:
(1) 联系电话
(2) 小区/楼盘名称
(3) 地址
(4) 面积
(5) 户型
(6) 售价
(7) 详细介绍
(8) 标题
(9) 所在楼层
(10) 总楼层
但是,如果我们仅仅是根据这些字段是否相同来决定一条信息是否重复,那么信息发布者肯定会通过修改详情中的文字、标题上加个空格之类的方法,来绕过重复判断机制,成功发布出去。
因此,我们要把容易被修改的和不容易被修改的数据分开对待,姑且称之为必比条件和辅助条件。其中必比条件,表示不容易被修改的信息,只要有稍微的改动,该信息就不再真实。而辅助条件,是可以被修改,进行小范围的修改不影响信息真实性的条件。
必比条件:联系电话、小区/楼盘名称(廊坊卡卡已经搜集了廊坊地区近400个小区及其别名并记录在数据库中,因此小区/楼盘名称的格式基本固定)、户型、所在楼层、总楼层
辅助条件:地址、面积(用户很可能通过修改小数点来绕过重复判断机制)、售价(理由同面积)、详细介绍、标题
我们知道,在信息真实性的前提下,当他的必比条件有任何一个不同的时候,该信息肯定是不同的。(关于信息真实性判断,我们另文详述)
所以,我们在判断重复时,首先去判断必比条件,当必比条件有任何一条不同时,将信息视为非重复信息;当必比条件完全相同时,则去判断辅助条件,由辅助条件决定信息是否重复。
由于辅助条件比较容易通过微小的修改造假,因此,无法通过完全比较来作为判断依据,这时候要采用模糊判断法(模糊判断必然会造成误差,但我们只能尽量避免)。
首先,我们判断辅助条件中的五个条件的相似度,各个条件的判断方法不同,对于面积和售价,我们要判断他的一个范围而非绝对数值或单纯的去掉小数点,比如,100平米的房子,我们要去跟所有101>N>90之间的房子去比较,根据差值,计算相似度。而对于地址、标题、详情,我们要随机的去截取足够长的一段文字,在去除标点符号和空格的情况下,比较其相似程度,并计算相似度。

分类:seo教程 | 超过 人围观 | 本文标签:地方分类信息  网站  如何避免重复信息  
关于我
关于我

长期出售各种各样的域名
重点出售下面的类型:
1、5~15年的老域名。
2、各种类型的备案域名。
3、历史建站记录的老域名、权重域名。

在线QQ 新浪微博 我的邮箱
日历
控制面板
您好,欢迎到访网站!
  [查看权限]
最近发表
网站分类
网站收藏
图标汇集
  • 订阅本站的 RSS 2.0 新闻聚合
Tags列表
友情链接