最近帮一哥们搞个行业性的爬虫,大概是最近太无聊了,就想着自己也干点什么。

于是注册个域名,准备做个新闻站,英文的。

然而域名拿下以后发现自己其实没什么时间,所以先放放,过了两天事情不太多了,就把网站程序弄上,然后又因为那两天太冷,不想动,就继续放着吧……

周日晚上,天气不冷了,也没别的事,动手。

干技术出身的,捣鼓点新闻内容还是很轻松的,把爬虫全部重写+调试了一遍,耗时大概15到20分钟,选择目标内容用了半小时,因为很多我不想要的。选择主题+微调+修改,耗时大概5到10分钟,第一批插件设置大概用了3分钟吧,收集第一批内容,用了大概20分钟,因为收集的目标其实是国内几个半官方的媒体,而网站自身运行在国外,比较慢,这个只是估算的,因为这段时间我还打了两盘游戏……接着根据实际效果再进行页面调整、细节调整,大概10分钟。

至此,网站已经成型,设置成定时任务,隔几分钟自动更新一次。到这一步,除了我之外没人知道有这个网站存在,时间是周一凌晨,然后去google提交了站点地图。

周一上午,看股票的闲暇去观察了一下,没什么反应,接近中午的时候又看了一眼,收录了。从cdn的数据和服务器日志来看,已经有流量了,但google那里一直是待更新的状态,看不到数据。

周一下午,google那里仍然是待更新,但是具体的站点地图里面已经有一部分统计了,已经给了十几个点击。

于是,严格的说开站其实是周一凌晨,因为之前都没管它。所以从开站到收录到有流量,不到24小时

 

===================

 

这个网站其实没什么用,纯属打发时间的,但是最近跟哥们交流中我发现很多人给他灌输的观点有问题,但我自己已经很多年不做网站了,也不排除是我的想法过时了?所以试一下而已。

由这个结果可以推断出我的观点一直都是正确的,也许将永远正确下去,哈哈哈

做网站的,首先要明白网站是什么。抽象的说,网站其实就是信息和数据的载体,优点是只要摆在那里,这些数据随时可见。

然后要明白网站和搜索引擎之间的关系。网站是数据载体,搜索引擎是检索数据的,所以网站其实是搜索引擎的爹,一把屎一把尿喂着搜索引擎:),之所以很多站长以及很多卖SEO培训的人都把搜索引擎看成领域内的上帝而玩命的去讨好,因为他们想要钱而已,哈哈。也正因如此,过于迎合搜索引擎所谓的规则,才更容易失败。所以我跟朋友都会反复提醒:别刻意优化。

我这几句话很难理解?我觉得很容易吧,也就是道和术之间的区别而已。不论做人还是做事,不论做什么事,都应该首先搞明白自己目标是什么。网站虽然不至于当成儿子,但是当成干女儿还是可以的吧(嘿嘿),你养个女儿希望她长成什么样?当然是秀外慧中,上可九天揽月,下可五洋捉鳖,对吧?然后要嫁女儿了,这么好的姑娘,肯定候选人排长队,然后就是双向选择,这样才有美满的人生,不是吗?哈哈哈哈

对应到网站上,什么是秀外慧中九天揽月?你这女儿的页面布局不能太蠢吧?你要是自己都看不下去,你凭什么跟人提几个亿的彩礼?自己心里没点B数?你这女儿的页面代码不能太渣渣吧?要是连家务都做不好,有什么资格要求半边天?你这女儿总要培养一些优点或者特长吧?博和滥的区别其实只在于有没有一两项突出亮点,一个射击冠军就算做家务水平一般,那也是她多技能的体现,而大多数剩女则是“干啥啥不行”。你这女儿总不能慢吞吞懒洋洋的样子吧?把网站服务器放在目标用户群较近的地方,这才是干练的姑娘。

好了,有以上卖(嫁)相的姑娘一定能卖(嫁)个好价钱,也一定能卖(嫁)个好人家,卖(嫁)了以后也一定会过上幸福美满的生活? :)

瞎扯的有点多,说一下为什么别刻意优化,以及该如何优化。

上面说过,网站是数据的载体,那你总要知道自己女儿是个什么性格类型,以及有什么特长吧?(分类)上面也说过,要有突出亮点才有卖点(标签)。分类和标签都是组织数据的途径,可以把相关度较高的数据通过这两个组织在一起,这样让搜索引擎更容易搞明白你女儿的性格和特长,也就是你网站的重点是什么。这方面相当于seoer给你瞎b吹的“关键词”。但是分类和标签不能太多,因为多了就变成滥,没有数据支撑的单纯关键词堆砌,这就很明显是骗流量的垃圾站,一定会被屏蔽。

上面也说过页面代码的事,这个可能非本专业的人办不到,更可能的是你付钱找人帮忙,别人出去抽根烟然后回来跟你说办好了,收钱。这个事还是要找靠谱的人吧,毕竟你判断不出结果就很难办。。。而很遗憾的是,其实内行看一眼代码就知道这站长有没有用心,功夫如何,我觉得肉眼可见的事情,用程序分析也很容易,所以我从不相信一个没有技术支持的网站能走的很远。

服务器地域选择。我那个网站目标是欧洲,所以我放德国,位于欧洲中心,关键词重点分布也主要是欧洲。这个主要考虑是中欧投资谈判这几天就完事了,以后呢,欧洲会有了解中国的增量需求,所以我去填补这一块,内容选择上也着重考虑中国的文化、商业、旅游、官方态度等。而为了规避一些目前无法预知的政策性风险,用cdn是有意义的,这样谁也不知道我网站在哪,我也没明说我就是针对欧洲提供服务。

至于伪原创什么的,有用,但作用不大,没必要刻意为之。我这里的做法是,收集数据的时候,尽量把格式、样式、链接什么的给除掉,就是尽可能接近文章最原始的状态,然后匹配到我自己的模板里,接着图片改名、加水印,最后再对某些特殊的字词进行微调。这样一来呢,单从内容来说,人工也无法判断到底谁是原创,搜索引擎就更不能了。而这些并不是所谓的“采集”能做到的。所以很多人做采集站没什么好结果,主要就是很明显你抄别人的,那不论市场还是搜索引擎都会尊重原创,所以没你什么事。

还有不少细节一时想不起了,主要是有点饿了……更重要的是,也没有白吃白拿的道理,哈哈哈。

我说的不要刻意优化,意思是说不要针对某些搜索引擎的阶段性规则进行过度调整,这样一定会适得其反。而正经的网站优化,就是养女儿,大致需要注意的这里都说了,其他的也不好就这么直接写出来,哈哈。简单的说呢,哪怕你目标就是做流量,也不要抱着为了流量而做网站的态度,要为了把网站做好而下功夫,这样的网站才是靠谱的,也才会有访问量。明星偶像能红几年就不错了,经久不衰的一定是演员,这两者的区别,相信都能想明白。

随意买个什么采集器,就能采集一个亿的内容,然后一天访问量几千万,然后几个月时间就发家致富,这种屁话就相当于:我持有封神榜,你给我一个亿,我让你做神仙,啥?没钱?那250块就行。呵呵,谁信谁傻x

作者 听涛

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注