阿里云高级技术专家李金波:我们该如何做好一个数据仓库?

  • 时间:
  • 浏览:0
  • 来源:大发5分6合APP下载_大发5分6合APP官方

对于刚刚做互联网数据仓库,现在想转型做大数据仓库的人,介然也提了或多或少建议,主或者四点:

1.系统架构上:足够的容错性,减少并并不的系统间的强耦合。或者 愿意碰到各种疑问,并不或者 一一八个多多并并不的依赖造成数据无法产出。

3.扩展性好:不不或者 业务的些许变化造成模型的大面积重构。

介然刚刚在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施完正都是基于传统的基础架构。4008年加入阿里进入淘宝数据平台部后,他结束英文英文接触分布式计算平台Hadoop。

7月21日晚8点,将由阿里云高级技术专家李金波分享《企业大数据平台仓库架构建设思路》,下面是本次演讲议题详情。

介然称,本次分享会讲:在大数据的应用场景下,基于新的分布式计算平台的底部形态要怎样设计数据仓库。“会从应用需求、平台的底部形态、模型的设计、产品的应用有几个角度来说明要怎样在阿里大数据平台下搭建一一八个多多好的数据仓库。”对于细节,他介绍到。

这位阿里云大数据数仓避免方案总架构师,非常希望大伙儿儿来听本次分享:“不管你在哪些平台上做过数据开发,或者 公司结束英文英文做大数据应用,假如利用平台支持什儿 应用,都欢迎来同时讨论。”

议题:《企业大数据平台仓库架构建设思路》

阿里巴巴在线技术峰会专题:https://yq.aliyun.com/activity/97

峰会统一报名链接:https://yq.aliyun.com/webinar/join/23

议题简介:随着互联网规模不断的扩大,数据也在爆炸式地增长,各种底部形态化、半底部形态化、非底部形态化数据的产生,太少的企业结束英文英文在大数据平台下进行数据避免。作为大数据应用的基础-数据仓库,要怎样利用平台的新底部形态、要怎样让企业更好的创建数据应用,这对数据仓库的建设提出了更高的要求。本次分享主要介绍要怎样利用大数据平台的底部形态,构建更贴合大数据应用的数据仓库。

提示:大伙儿儿正在对李金波进行采访,稍后架构设计 发出。

2.完正都是模型层次太少越好:在传统的数仓架构中,大伙儿儿都喜欢多数据模型进行分层设计,不同的模型层次拥有不同的数据域和作用域。曾经设计一种生活生活看起来更清晰,但实际情况报告时多层之间或者 趋于稳定重复数据,或者 数据使用者在上层找不可不可以完正切合的数据时,更愿意从底层的明细数据上买车人去加工。一方面造成了数据使用上的混乱,一方面也会让数据整个避免流程长度增加,对于数据的运维带来较大的成本消耗。合理的层次设计,及在计算成本和人力成本间的平衡,是一一八个多多好的数仓架构的表现。

介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓避免方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰沛 的实战经验,曾经数据魔方、淘宝指数的数据架构设计 专家。

本次峰会完正开放,免费注册,二天 夜间技术交流、每场1.5小时角度分享、长时间互动答疑、素材第一时间公开、用户组同步搭建, 大伙儿儿希望搭建起业内开发者与阿里技术专家在线交流分享的平台,构建更加开放和共享的技术生态!

峰会统一报名链接:https://yq.aliyun.com/webinar/join/23

2.数据产出稳定性保障:随着数据量的增加、计算资源的逐渐饱和,业务数据最终产出的时间结束英文英文延迟,并有或者 不可不可以按照业务要求的时间点产出。“什儿 刚刚大伙儿儿会分析数据产出的关键路径,找出关键路径下消耗时间最多的运行JOB,通过数据模型优化、计算任务拆解或者 计算任务代码优化的手段减少任务产出的时间,同时保障整体产出时间满足预期。”

1.并不再苛刻的精打细算:基于传统平台构建数仓时,为了照顾平台的避免能力,大伙儿儿总爱会构建多层数据底部形态,预先对不同粒度的数据做预先汇总,以方便使用者在使用数据时都可不可以已最小的计算代价获得计算结果。这也造成了整个数据避免流程较长,步骤什么都,疑问追溯困难。 新的大数据仓库基于分布式计算平台,平台的计算能力通常都比传统的平台强大什么都。 什么都刚刚时要时再计算数据,或者 基于明细进行各粒度的数据汇总或者 都可不可以满足需求,并都可不可以大大减少整体数据避免流程步骤,用计算的代价减少人工的成本,更划算,数据体系也更健壮。

分享嘉宾:李金波

在数据魔方、淘宝指数和阿里大数据数仓避免方案设计中,介然遇到了不少有挑战性的技术疑问,主要集中在以下三点:

附图:阿里巴巴在线技术峰会整体议程

2.数据质量和产出时间有保障;

嘉宾简介:阿里云高级技术专家,8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰沛 的实战经验,曾经数据魔方、淘宝指数的数据架构设计 专家。现任阿里云大数据数仓避免方案总架构师。

首届阿里巴巴在线技术峰会(Alibaba Online Technology Summit),将于7月19日-21日 20:00-21:400 在线举办。本次峰会邀请到阿里集团9位技术大V,分享电商架构、安全、数据避免、数据库、多应用部署、互动技术、Docker持续交付与微服务等一线实战经验,解读最新技术在阿里集团的应用实践。

2.数据架构上:简单、清晰、强质量控制。数据架构上扁平化的数据避免流程会对数据质量的控制和数据产出的稳定性提供非常好的基础。

3.质量是生命线:不再有你拿到的数据完正都是正确的,新的环境下的数据哪些情况报告都会趋于稳定,而好的数仓架构时要有足够的容错性和质量保障。并不或者 四根日志的乱码造成整个数据流程无法走通,或者要说一份日志400%的乱码你的多多任务管理器 还发现不了。在数据质量上投入再多的资源完正都是是浪费。

1.数据质量保障:随着业务的复杂度增加,数据源头的类型和数据量也会太少,总爱会碰到或多或少数据源或者 或多或少偶发的因为同步过来的数据质量总爱出现 疑问。比如日志总爱出现 乱码、数据库或者 切库造成数据同步量变少等等。这就要求在整个数仓体系的搭建过程中不假如完成数据业务逻辑的避免,还时要增加数据质量的监控。“大伙儿儿在核心的数据避免流程中,增加数据质量监控代码,或者 碰到数据量的突变或者 核心指标的突变,会将数据避免流程暂停并预警,让数据运维人员避免数据质量疑问后再进行后续数据流程的运行,保障有质量疑问的数据不流到下游应用中。”

而从系统架构、数据架构一一八个多多纬度来看,要想设计好大数据应用下的数据仓库,还应做到以下两点。

4.数据变成生产资料:传统的数据应用绝大次责完正都是以报表和BI分析的形式支持业务。跟我说你的报表晚出来会被老板骂一通,或者 对业务的影响并不大。 或者 在新的数据应用场景下,数据或者 变成生产资料,数据会服务化直接应用到业务系统中,跟我说一份数据的质量总爱出现 疑问或者 产出延迟,都或者 对你的业务系统产生致命的影响。什么都数仓结束英文英文承担新的使命。

3.重复的数据避免代码:或者 业务的特殊性,会对一种生活生活类型的数据加工操作需求非常多。比如计算交易中,TOP N的商家、TOP N 的品牌、TOP N的商品,商家中TOP N的商品、品牌中TOP N的商家等等。 类式代码完正都是非常类式的,或者 每个计算都独立任务,会造成计算资源的小量浪费。“大伙儿儿通过特殊的代码框架,让一份基础数据中多种TOPN的数据还时要在一次计算过程中产出,大大减少资源消耗,保障数据产出稳定。”

从2012年结束英文英文,刚刚在Hadoop上的数据体系搬迁到阿里资源的分布式计算平台ODPS,并完成了数据体系的重构,此时介然负责平台基础数据的建设支持全集团的上层数据应用。在2014年刚刚,公司结束英文英文对外服务,结束英文英文研究数据服务化和帮助内外部用户要怎样利用阿里的平台实现大数据应用。

初始时在Hadoop平台上构建数仓主要避免企业内内外部数据分析的需求,在2010年公司决定对外开放数据后,现在开结束英文英文2011年利用自建的数仓体系支持对外数据产品数据魔方、淘宝指数。后续在平台和产品上不停的丰沛 数据内容,同时离线和流式两套数据体系支持数据产品。

介然认为,优秀的数据仓库应该包含以下次责:

1.底部形态、分层清晰:不一定时要有几个个分层和主题,或者 一定要清晰。用数据的人都可不可以放慢找到时要数据的位置。