应对精细化运营要求,京东数据平台有哪些优化经验?

作者 : 创业者 发布时间: 2022-06-13 共506人阅读

导语

一个优秀成功的品牌、店铺离不开经营者每日研究各项运营数据、挖掘可增长的价值点,做出合适运营决策。但当纷繁复杂的数据交织在一起,如何实现统一的数据口径和统计模型,让数据最终的呈现更好地为商家所用,这对京东电商平台的数据能力提出了更高的要求。

2018年,京东官方唯一数据平台的京东商智完成全面升级,主要从以下三个方向引入新技术和优化方案,为商家带来更为有效、及时的运营数据。

离线OLAP

升级后的京东商智整合了京东内其他数据产品,全面打通底层数据,实现采销、供应商、POP多方数据口径的统一,涵盖销量、流量、用户、商品、行业、竞品六个维度。针对具有较为复杂的数据分析业务的需求,平台引入OLAP数据引擎技术,分离复杂业务,灵活处理多维数据。

1、应用场景

OLAP可以灵活的改变数据查询条件(比如改变任意时间维度),使产品用户能够迅速、一致、灵活地从各个维度查看各类指标,以达到更深入的理解数据的目的。

OLAP:ClickHouse+ SparkCore + Scala,ClickHouse主要用作数据的存储及在线计算,SparkCore用以数据载入。

2、难点优化

1)去重指标小时增量

一般情况,在统计每个小时在该小时出现、而不在之前小时出现的记录去重指标,这样的操作,会调用多次查询(每小时一次),使得RPC增加,并发增加,致使资源过多使用。利用ClickHouse的ArrayJoin及子查询的特性只用一次RPC就可解决去重指标小时增量的难点。

2)海量数据指标去重

一般情况,海量精准去重(基数较大),会消耗大量的内存资源及时间,这样无法满足线上业务响应需求。通过利用物化视图对数据提前进行降维Rollup,通过空间换时间,并利用基数估计模糊去重,用极少的数据精度的损失换取大量的时间及内存损耗,满足了线上业务的响应需求。

OLAP方案通过更新技术满足业务灵活性,使得用户从多维度观察数据、分析数据,最终得到较为满意的结论。后续将从OLAP + Streaming满足实时数据,提供更加灵活的、多维的查询及分析服务。

时效性

为满足商智商家版用户在早晨八点就可以获取相关业务数据的需求,团队分析离线计算任务的数据流向,依赖关系,运行时长,以及增量/全量更新方式,处理的数据量大小。分别采用了技术架构升级与业务拆解,数据模型优化等方式极大幅度的降低了任务计算量与计算复杂度,大幅减少了计算时间,同时也降低了数据集市的存储资源。

1、方案

针对不同统计周期的去重指标,将去重的中间数据增量处理预保留,计算结果的步骤置后,最大限度的减少重复数据的计算;任务链条缩短,将大量计算任务进行整合,相同口径指标不再复算,一处计算,多处调用;极大数据量无法做业务拆解的部分使用SparkSQL代替HiveSQL,对参数进行优化调整,满足计算要求的场景下最优化资源的占用;同时推动交易平台、平台生态、大数据部共同对商品表进行裁剪,只计算活跃商品数据,减少公共模型基础数据量,并对每日新增SKU数据进行限制,从源头基础数据解决计算性能问题。

优化整体减少了174个计算任务,串行减少约390小时的执行时间,整体时效性从优化前的12点左右提前到7点左右;提出商品活跃模型概念,联合大数据部、商城交易平台、平台生态部对商品表裁剪掉约74.5亿左右不活跃的SKU,精细每日新增SKU数量,大幅度节约了商智侧服务器成本。

数据产品可视化方案

针对京东POP/自营商家、供应商、品牌商的数据获取及分析需求,团队内部形成通用的前端可视化组件库+皮肤库,可以为用户提供统一风格的页面布局及产品交互,提升商业数据产品的用户体验,使数据分析化繁为简。针对产品数据的时效性,团队内部产出了时效性组件,提供离线/实时的时效性分析功能,可以快速定位问题痛点并做针对性的时效性提升和优化。

1、应用场景

基于大数据的可视化数据产品,团队内形成的通用前端组件库可以支持其他数据类应用产品的快速接入,提升研发效率,统一同一类产品的交互及用户体验。时效性组件亦可作为通用化组件被其他数据产品快速接入以提升数据时效性分析效率和日常监控。

2、方案

可视化组件库:基于React开发的可适配多终端的高性能、通用的前端组件库。

时效性组件: 基于BDP大数据平台,集数据采集、数据分析、时效性分析、报表分析以及预警等功能为一体的通用组件。

前端通用组件用于不同的数据产品,内容、样式都不尽相同,对组件的通用性是个很大的考验。团队基于对组件功能的合理设计,增加皮肤库。采用模块化的方式将业务功能、组件功能、UI外观做好解耦合。时效性组件应用于不同的数据应用产品,面临不同的底层数据,如何产出一套统一的时效性分析和监控方案是一大难点。基于大数据平台,结合通用的底层数据模型做数据采集和实时/离线分析最终形成通用的时效性组件。

通过团队内组件化的积累,团队已形成一套通用成熟的数据产品可视化方案,具备快速搭建数据可视化系统的能力。后续会不断对其完善,最终形成大数据可视化产品的最佳实践。

声明:
1. 本站所有资源来源于用户上传或收集于网络,仅用于试学及购买课程之参考,切勿用于其他用途,请支持购买正版资源!如若侵权,请邮件联系站长!发送具体网址留言告知删除,谢谢!
2.本站提供的所有内容仅供方便学习与交流起到分享作用非商用,通过使用本站内容随之而来的风险以及法律责任与本站无关,所承担的法律责任由使用者承担。本站提供资源不得使用于非法商业用途,不得违反国家法律。否则后果自负!
3. 本站收取的会员费和下载费用仅支持用于免费分享学习和服务器的费用「非资源商用」,资源售价只是赞助,收取费用仅维持本站的日常运营所需。
吉利商务资源网 » 应对精细化运营要求,京东数据平台有哪些优化经验?

常见问题FAQ

免费下载或者VIP会员专享资源能否直接商用?
本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。

提供最优质的资源集合

立即查看 网站地图