网易首页 > 新闻中心 > 正文

一点资讯田超出席WOT:深度透析兴趣引擎背后的点击反馈平台

0
分享至

(原标题:一点资讯田超出席WOT:深度透析兴趣引擎背后的点击反馈平台)

日前,由51CTO传媒精心打造的WOT2016大数据峰会在北京盛大开幕。本次大会议题涵盖实时计算、机器学习、等九大数据领域前沿技术专场,百度大数据平台架构师侯珏、HBase核心贡献者 Ted Yu、一点资讯大数据平台研发总监田超等应邀出席并发表演讲。

一点资讯大数据平台研发总监田超发表演讲

在大会现场,一点资讯大数据总监田超深度透析用户点击反馈背后的系统设计,并以一点资讯实时反馈平台为例,分享了支撑一点资讯亿级别用户实时计算系统的设计理念和心得。

他表示,实时的数据处理能力对于一个现代互联网公司来说是必要的组成部分,一点资讯作为一家融合了“搜索”和“推荐”的兴趣引擎平台,根据不同场景、频道下的点击反馈形成数据矩阵,对数据进行深层次挖掘,并通过大规模实时点击反馈系统和大规模机器学习进行智能推荐,从而为用户提供兼具共性与个性的移动价值阅读,实现了用户体验的提升。

以下是演讲节选:

大家好,很高兴今天与大家分享一点资讯关于大数据技术的一些心得。作为近两年来在移动资讯领域发展最快的公司之一,目前,一点资讯的日活达4800万。此外,我想在这里特别强调的是,一点资讯主动订阅用户数已达4700万。作为一家融合了搜索和推荐的技术驱动资讯平台,与单纯被动根据用户历史记录进行推荐不同,我们更注重自由订阅来给予用户主动表达的出口,通过全网化的智能客户端,不仅为大家带来有趣、有料的新闻,也更提供有用、有品的资讯。

实时点击反馈平台打造最佳推荐服务

上图是今天我们主要讲的,点击反馈相关推荐的部分。主要包括两个,左手边叫Neo的系统是今天的主题,也就是点击反馈计算平台。

因为这次论坛的主题是实时计算,所以我们也回顾一下整个推荐系统里面实时计算所涉及的三个方面的应用场景:第一部分是实时画像中的后验指标,包括了用户画像,内容画像和频道画像等。第二部分,应用场景是我们实时的数据分析,让我们在做不同实验时,了解到不同人群、文章点击率的变化。第三部就是在线的机器学习,后面我会详细介绍。

值得注意的是,虽然推荐服务系统为我们带来很多便利,但同时也面临不少问题和挑战,下面我将从一点资讯的平台为例,为大家分别阐述五个方面的主要问题以及解决方式。

问题1:如何统一各种近似的实时Pipeline

第一个问题就是近似的pipeline大家怎么样去统一?做实时计算时,大家常常发现你的Storm、spark跑着各种各样相近但又不同的作业,这些作业中80%运算是相同的。

在一点资讯内部,我们设计了一套叫Neo的点击反馈平台系统,统一了主要的实时点击反馈计算逻辑。Neo系统的核心数据结构是一个Multi-Dimensional Matrix,用以描述用户在各个维度和粒度的兴趣属性和基础属性两部分,可以在不同维度和数据粒度上进行各种聚合运算。其次,我们围绕着核心数据结构构造了整个运行时的framwork,可以支持用户自定义自己的算子。

问题2:实时计算和离线计算的统一

第二个问题说实时计算和离线计算怎么样统一?

实时计算与离线计算的统计是流式计算领域里的研究热点之一,对于我们的生产工作来说也有着比较重要的实际意义,市面上有一些开源和技术和论文包括Spark、SummingBird、Google DataFlow等都对如何实现有自己的解决方案。一点资讯采用的是Lambda architecture,对于核心计算逻辑有一套统一的数据结构抽象和计算算子抽象。我们本质上处理的是事件流在不同矩阵上以不同粒度聚合的问题,这里尤其是对于矩阵的Delta和Base之间的计算,我们给出了一套比较完整的抽象。这一套核心代码可以同时跑在Storm/JStorm, Spark、Mapeduce上。

问题3:数据变化如何追踪与Debug

我们的平台除了考虑到了上面所述的数据结构和计算模型外,还考虑到了时间的因素。时间是一个非常重要的维度,对于我们的计算引擎也是一个挑战。总结来说,包括这几个问题:不同类型的Feature需要不同的淘汰策略,需要能够计算各种时间周期上的feature、需要能够知道数据历史变化的状态、数据分析需要追踪指标变化曲线。

对于这些问题,我们构建了比较完整的windowing modol的实时计算模型:在hbase上存储细粒度的delta数据,这一部分的数据是实时更新的,每次更新时计算pipeline会通过kafka写入一个WAL,有一个Pusher组件会监听这个WAL,并可以根据自定义的策略对不同的数据表采用不同的window计算模型;在pusher层面,支持各种时间窗口淘汰策略,包括Fixed window,session window,sliding window,decay,last value win等,

问题4:高性能存储引擎

一点资讯在高峰期产生的2M+QPS的读请求,和200K+的更新量,因此对我们线上的分布式存储系统会有比较高的性能要求,市面上线程的分布式存储方案都不能解决我们面临的问题。

因此我们开发了自己的分布式存储系统NeoDB,底层基于Rocksdb,上层使用ThriftRPC,我们对系统层次做了很多的优化,,包括把一些部分计算可以推到最底下节点上、减少Compaction的层次,控制Compaction对于读请求的影响、控制写放大,优化缓存命中率等。

问题5:如何监控和维护整个系统

最后一个问题怎么样做监控和维护整个系统。这里面涉及到一些问题,主要包括怎么对数据流lag做监控报警。对流式计算如何做profiling,线上如何做负载均衡等。我们针对这些问题开发了两个系统,一个是监控我们做了YMetric的监控系统。客户端兼容codahale metrics库,会将metric汇总发送到Kafka中,并由我们统一的Storm Pipeline进行聚合计算,结果存储在openTSDB之中。我们的这套系统支持多Metric的自定义计算、报警、Trending预测等。

另外一个系统是ycluster服务,她有点像Apache Helix,但是我们做的更为简单易用,YCluster是一套基于Zookeeper的分布式负载均衡和机群管理系统,支持Multiple Service Namespace、Hash Sharding、Multiple Replica。同时我们基于YCluster做了Neo系统的Smart Client,通过这套Smart Client完成路由和负载均衡的工作,我们支持多种不同负载均衡的算法,包括简单的Random和Round-Robin、,同时我们做了一个叫做link Scheduler的负载均衡的算法,可以支持多数据中心中的本地优先调度,并支持相同副本的优先调度,从而大幅度提升了缓存命中率。

我们这套东西大概线上跑了一年多了不到两年,目前承担了一点资讯一直以来快速服务的增长,这里面就是今天我跟大家介绍的东西,另外补充一点是说,我们也欢迎对一点资讯感兴趣的同学加入进来。

(原标题:一点资讯田超出席WOT:深度透析兴趣引擎背后的点击反馈平台)

相关推荐
热点推荐
章泽天突然患怪病!全网哗然:年纪轻轻,可惜了...

章泽天突然患怪病!全网哗然:年纪轻轻,可惜了...

天津人
2024-04-18 14:07:14
官方认证?F1车手阿隆索在活动现场被赠“头哥”锦旗

官方认证?F1车手阿隆索在活动现场被赠“头哥”锦旗

直播吧
2024-04-18 18:06:31
印尼总统佐科会见王毅

印尼总统佐科会见王毅

财联社
2024-04-18 18:14:07
3.83亿美元!科尔:你不能在一支进不了季后赛的球队身上花这么多

3.83亿美元!科尔:你不能在一支进不了季后赛的球队身上花这么多

直播吧
2024-04-18 11:20:26
CBA快讯,朱彦西告别北京首钢,郭艾伦放弃复出,翟晓川留队成功

CBA快讯,朱彦西告别北京首钢,郭艾伦放弃复出,翟晓川留队成功

最爱生活汇
2024-04-19 10:52:41
我们打一架!热火公布巴特勒伤势,巴特勒评论区约架乌布雷

我们打一架!热火公布巴特勒伤势,巴特勒评论区约架乌布雷

懂球帝
2024-04-19 08:46:10
有视频称雅万高铁车厢漏水,印尼媒体网民质疑中国品质遭中企反驳

有视频称雅万高铁车厢漏水,印尼媒体网民质疑中国品质遭中企反驳

娱乐的硬糖吖
2024-04-18 14:18:27
错失5个赛点WTA500斯图加特站:郑钦文不敌科斯秋克,无缘8强

错失5个赛点WTA500斯图加特站:郑钦文不敌科斯秋克,无缘8强

直播吧
2024-04-19 05:55:28
大S放闪具俊晔「酷吧!我老公」!小S挺:永不改变的原则

大S放闪具俊晔「酷吧!我老公」!小S挺:永不改变的原则

ETtoday星光云
2024-04-18 10:56:06
女性生殖器(二) | 你看不到的内生殖器到底是怎样的呢?

女性生殖器(二) | 你看不到的内生殖器到底是怎样的呢?

今日养生之道
2024-04-17 07:50:05
湖人能复仇掘金吗?苏群和奥尼尔给出了一致的答案

湖人能复仇掘金吗?苏群和奥尼尔给出了一致的答案

刺头体育
2024-04-18 14:27:22
青云之志!爱德华兹:两三年后我会成为联盟最优秀的球员

青云之志!爱德华兹:两三年后我会成为联盟最优秀的球员

懂球帝
2024-04-19 10:43:13
江青与毛主席的罕见合影,年过三十仍青春靓丽,风韵犹存气质过人

江青与毛主席的罕见合影,年过三十仍青春靓丽,风韵犹存气质过人

历史龙元阁
2024-04-15 15:00:21
广东男篮大胜广厦后续:知情人透露内幕,原因曝光,杜锋提出要求

广东男篮大胜广厦后续:知情人透露内幕,原因曝光,杜锋提出要求

开心体育站
2024-04-19 07:39:18
河南儿媳煮韭菜叶给婆婆吃,晒圈火了,网友:真鲜美,儿媳真孝顺

河南儿媳煮韭菜叶给婆婆吃,晒圈火了,网友:真鲜美,儿媳真孝顺

兴宝侃侃
2024-04-18 10:09:48
出场就拿金牌,退役张国伟一跳秒杀全国冠军,当初为何退出国家队

出场就拿金牌,退役张国伟一跳秒杀全国冠军,当初为何退出国家队

林子说事
2024-04-19 01:28:21
华子:常规赛太阳把我们打得很惨 季后赛里球队要展现出身体对抗

华子:常规赛太阳把我们打得很惨 季后赛里球队要展现出身体对抗

法制社会报
2024-04-19 10:47:01
香港太古集团已在沪投资465亿元,近期又完成新收购,龚正市长会见集团主席

香港太古集团已在沪投资465亿元,近期又完成新收购,龚正市长会见集团主席

澎湃新闻
2024-04-18 21:14:28
小米智能门锁斩获Q1第一 销量断层式领先

小米智能门锁斩获Q1第一 销量断层式领先

快科技
2024-04-18 08:10:09
沈阳一大众4S店起火,官方通报:无人员伤亡

沈阳一大众4S店起火,官方通报:无人员伤亡

界面新闻
2024-04-18 18:43:44
2024-04-19 11:16:49

头条要闻

吉林高速去年净赚5亿元却不分红 被问询后终于改口了

头条要闻

吉林高速去年净赚5亿元却不分红 被问询后终于改口了

体育要闻

不会再有另一个布雷克-格里芬

娱乐要闻

北影节开幕之夜,内娱女星千娇百媚

财经要闻

围猎三丰智能的神秘基金设骗局转移资产

科技要闻

Pura 70卖爆,华为要夺回苹果拿走的一切

汽车要闻

风神L7预售 东风汽车北京车展阵容公布

态度原创

亲子
游戏
时尚
房产
数码

亲子要闻

孩子突然讲脏话,妈妈快准狠直接一巴掌

《Dota2》“倾天之战”更新上线:天怒、VS至宝推出

没想到,这才是中年女人保持年轻的搭配“秘籍”,真是不简单

房产要闻

广州房价,再次领跌一线

数码要闻

消息称台积电下半年量产 AMD 的锐龙 PRO 8040/8000 系列AI处理器

无障碍浏览 进入关怀版
×