手机浏览器扫描二维码访问
陆道升总算赶在出发去北京之前完成了对ha123爬虫系统的改造。在原有流程上做了一些优化,以及新增了一个在线的评审系统。
前世ha123创始人李兴平是通过个人的全身心投入来保持ha123的不断更新和迭代,每天要花十多小时在人力检查链接是否失效或者被移花接木的问题上。
失效的问题对陆道升来说很好解决,就是网站打不开了而已,可能是暂时的网络问题,也可能是确实网站停止服务了。
总之就是写程序通过网址来请求网站内容,分时段多试几次,如果都请求不成功,那就是失效了。
最多再加一个每个时间段内失效网址数量的监控,占比不超阈值,那么就确认这是失效网址,如果超过阈值,可能是网络问题造成网站集体访问失败,发送报警到陆道升邮箱但不做处理,等过段时间再次检测即可。
网址被移花接木就很麻烦了,想通过技术手段对比会很费事,投入产出严重不值得,大头还是靠人工。
有很多网站运营一段时间后难以为继,就会关张大吉,其拥有的网址往往会被其他人买走另作他用。
这个另做他用对陆道升来说就很头疼。
比如之前做游戏的网址被换成做娱乐,那就应该从游戏分栏里转移到娱乐分栏。更头疼的是还有的网址直接被买走搞成了涉黄网站,这就根本不能留了,得直接干掉。
而要做以上判断,就需要人工审阅。
为了减少审阅工作量,陆道升特意写过一个对比过滤的流程,即把网站上一次的文本内容缓存下来,下一次爬取时进行一个对比,如果网页结构和内容变化比例没超过阈值,则直接略过,认为可以保持原有判断,如果超过阈值,那就整理起来输出为列表,再由人工来一条条对比审核。
陆道升本以为针对不同的网址分类,可以通过设置不同的差异度阈值来进一步减少需要人工审核的数据量,结果发现同网址分类下各个网址的更新强度天差地别,很难得到一个大分类适用的数值,只得作罢。
另一个雪上加霜的情况就是新网站越来越多,新网站的加入都需要人工处理以确定是否有收录的价值,以及如何分类、排序。
虽然通过技术手段已经压缩了绝大部分的工作,但是ha123带来的时间开销在不断攀升,陆道升有些担心自己哪怕加上左文杏的时间精力都不足以在保障好网吧管理系统开发的同时做好ha123的维护工作。
而在ha123带来正向的广告收入之前,这段时间股市的收益也没有兑现,陆道升手里的可用资金并不多,招不起人。
也不是说招不起几个临时工,或者找几个网管就当给他们个机会赚赚外快,但是这样的人的责任心很难保障,钱不怕多花,事儿不能做岔了,宁可等手头充裕了挑几个合用的。
现阶段,就只能依靠技术优势暂时压住增长的运营人力开销了。
另一个在线的评审系统,则是陆道升在浦外听到人议论自己时临时想到的,那就是能不能把ha123的审核工作给改造一下,然后变成可以分发的小块任务,通过邮件分发给不同的人来处理,处理完成后进行结果的集中处理。
联想的过程大概如下,听到有人议论自己,觉得自己好厉害,心中先暗爽一会儿。
接着想到议论自己的可都是素质极高的大学生,个人素质过硬,这要是能凭自己现在的校内名气给请来帮自己分担一些ha123的人工审核工作,自己可能就不用天天担心对ha123的精力投入不足,有一天会被竞争对手干掉了。
而想到这种多人分担工作任务的情景,陆道升立马回想起前世出现的一种人工标注平台的业务模式(比如)。
在大数据时代,为了使一些机器学习算法取得良好的效果,就需要大量的样本数据供算法进行模型训练。但有时候搜集不到那么多的有效样本数据,就需要人工进行诸如文章分类、图片标注等工作,来人力产生足够多的样本数据。
也有一些靠机器学习算法解决不了的问题,比如色情图片,恶意评论等等,也需要人力审核来进行捕获。
以上这些事情,大大小小的互联网公司都有需求,但是绝大多数公司都不会亲自雇人来做这个事情,而是会转交给专门从事标注工作的第三方公司来完成。
标注工作在参与人员上也有讲究,那就是不能人员数量太少且固定。如果就是雇佣几十上百个人,然后去标注百千万的数据,那么很可能会出现认知偏见。最好是能有更多的不相关的人来参与标注,这样累积出来的数据才不会出现明显的偏向性,才能让机器学习算法训练出适用性最强的预估模型。
为此,这些标注公司演化出了一种分派式的业务模式。
即先从需要对数据进行标注的公司那里获取待标注的数据合集,然后将数据合集分割成一个个数量很少适用于单人的问卷,再将这些问卷通过自己构建的平台分发给平台上的答题人。
一份问卷会多次分配给不同的答题人,以降低回答结果因为个人偏见而离实际太远的概率。
这些答题人可能是在校学生、可能是家庭主妇、可能是待业青年、可能是公司白领等等等等,总之只要在平台上注册了答题人账户,且通过了一些很基本的测试,就可以获取分派的标注问卷,通过回答问卷来获取一定的金钱报酬。
虽说这种在大数据时代兴起的标注平台需要互联网普及带来的上网便利,加上电子支付的发展带来的支付便利,此时不能直接照搬,但是这种思想还是可以借鉴的。
ha123的日常维护工作并没什么特别的技术含量,主要就是耗时耗力,完全可以采取类似的方案进行工作切分和派发。
不仅能解放自己,更重要的是可以集众人之偏好综合评断,就算出现李兴平这样对用户需求具备深刻洞察的竞争者,在陆道升这种直接聆听大众用户反馈的方法面前,也占不到太多便宜了。
系统开发暂告一段落,陆道升给芮青打了通电话告知行程后,收拾好行装就坐上火车开始一路向北。
火车上,陆道升皱着眉头回想着和芮青的通话。
电话是拨给芮青在北京的住处,也就是自己帮芮青找的地方。
只是在互道再见准备放下电话时,陆道升似乎还听到了另一个女人的声音。
……
。看小说,来小燕文学,关闭阅读模式,体验高速阅读!
焰焰如我 瞄准你的心 耳畔呢喃 带着仓库当队长 这个恶毒女配我当定了[快穿] 作死女配掉线了 逆天双宝:神医娘亲又掉马了月轻尘龙司绝 重生小画师 宠妻如命(重生) 拥抱小仙女 甜蜜双排[绝地求生] 只对你撒娇 美漫之融合 我真没养龙啊 还债 海贼之黑暗主宰 总裁大叔心尖宠 斗罗:开局获得亚瑟王 我成为了魔帝铠甲 我有神级修改器秦昊
轮回战帝秦峰,渡天劫时遭人偷袭,带神器重生少年时代,不用修炼,读秒提升,以战养战,八方惊动!弥补前世缺憾,踏平仙界九重,终成一世神皇,横亘万古永生!...
京城地铁中经常会出现灵异新闻雍和宫车站隧道里抬轿子的人半夜十一点半不开灯的地铁末班车莫名其妙卧轨身亡的乘客,在看到他最后的监控录像时,却发现他是被一双无形的手推下站台这些传言究竟是谣传?还是真实存在的?我最开始也是不相信的,但是直到有一次我半夜不小心钻进了地铁之中,亲眼看到了一些灵异的事情之后,我才发现,...
昔有乔木,可与休思你入了谁的眼,又乱了谁的心你唤做,展却眉头便是达者,也则恐未你有你的坚守,我,亦有我的那,就是你!楚远乔留洋海外,三年后学成归来夏轻妤远乔哥,就读美国哪所名校?楚远乔哥伦比亚大学。夏轻妤白他一眼哥大?我在哥大两年,找遍校园没见过你。楚远乔惊愕你?哦,哥大两月,后,去了纽约夏轻妤编,接着编!你压根没去美国!楚远乔瞪着她轻轻!要干啥?...
高冷不食人间烟火的萧阎王对所有女人免疫,却偏偏对一个小编剧情有独钟。某颁奖典礼上,媒体采访他。请问墨凉小姐喜欢您这个消息,是否属实?不!事实上,是我喜欢她!那请问,您和墨凉小姐是什么关系?上下关系!电视机前,正在吃薯片的某女一脸疑惑,萧景琛,你怎么骗人呢?我们什么时候是上下关系了?某男邪魅一笑,我们什么时候不是了?。...
龙与剑与魔法五周目通关的夏左,获得了「自动闪避并反击」成就奖励,给本就熟练的游戏大幅降低战斗难度amphellipamphellip打算放弃奖励的他,猝不及防以Lv1角色身份穿越进游戏世界,视野角落充斥条条框框的UI图标,周围一切都变得如此真实随机生成的新大陆,新的NPC,夏左也展开了他新的冒险。没想踏出第一步,便遭遇Lv27的高级怪ampmdashampmdash哥布林骑士,心觉这下必死无疑,在这里的死亡,是真实的死亡吗?焦虑时敌人重剑挥下,Lv1的夏佐根本没有太强身体素质能够躲过,可眨眼的下一秒,他竟闪避成功,仿佛身体自己动了起来,不,它就是自己在动!紧接的,空着手,不自觉往哥布林脑袋上头盔拍了一下,清脆的金属声回荡林中。「自动闪避并反击」夏左忽然意识到,自己是带着成就奖励穿越到游戏里的,不过不装备点武器,是没法给敌人造成伤害了。怒不可遏的哥布林骑士回眸,眼里充满血丝,刚才那一下,仿佛是对它的侮辱各位书友要是觉得自动闪避并反击还不错的话请不要忘记向您QQ群和微博里的朋友推荐哦!自动闪避并反击最新章节自动闪避并反击无弹窗自动闪避并反击全文阅读各位书友要是觉得自动闪避并反击还不错的话请不要忘记向您QQ群和微博里的朋友推荐哦!...
他是人和树结合的另类宅男。他是低调的管理员。且看他一步步雄起,嬉笑人生,纵意花丛中。书友交流超级群45912266...