大数据平台
大数据平台
大数据平台是将互联网产品和后台的大数据系统整合起来,将应用系统产生的数据导入大数据平台,经过计算后导出给应用系统使用。大数据平台将互联网应用和大数据产品整合起来,将实时数据和离线数据打通,使数据可以实现更大规模的关联计算,挖掘出数据更大的价值,从而实现数据驱动业务。大数据平台使得大数据技术产品可以落地应用,实现了自身价值。
总体来说:大数据平台可以分为四个部分:数据采集、数据处理、数据输出和任务调度管理。

数据采集
数据库数据
目前比较常用的数据库导入工具有
日志数据
日志是大数据平台重要数据来源之一,应用程序日志一方面记录各种程序执行状况,一方面记录用户的操作轨迹。
前端程序埋点
所谓前端埋点,是应用前端为了进行数据统计和分析采集数据。
用户的某些前端行为并不会产生后端请求,比如用户页面停留时间、用户浏览速度、用户点选又取消等等。这些信息对于分析用户行为等都很有价值。但是这些数据必须通过前端埋点获得,有些互联网公司会将前端埋点数据当作最主要的大数据来源,用户所有前端行为,都会埋点采集,再辅助结合其他的数据源,构建自己的大数据仓库,进而进行数据分析和挖掘。
对于一个互联网应用,当我们提到前端的时候,可能指的是如下几类:
-
App 程序,比如一个iOS 应用或者Android 应用,安装在用户的手机或者平板上; -
PC Web 前端,使用PC 浏览器打开; -
H5 前端,由移动设备浏览器打开; -
微信小程序,在微信内打开。
这些不同的前端使用不同的开发语言开发,运行在不同的设备上,每一类前端都需要解决自己的埋点问题。埋点的方式主要有手工埋点、自动化埋点和可视化埋点。
-
手工埋点就是前端开发者手动编程将需要采集的前端数据发送到后端的数据采集系统。通常公司会开发一些前端数据上报的
SDK ,前端工程师在需要埋点的地方,调用SDK ,按照接口规范传入相关参数,比如ID 、名称、页面、控件等通用参数,还有业务逻辑数据等,SDK 将这些数据通过HTTP 的方式发送到后端服务器。 -
自动化埋点则是通过一个前端程序
SDK ,自动收集全部用户操作事件,然后全量上传到后端服器。自动化埋点有时候也被称作无埋点,意思是无需埋点,实际上是全埋点,即全部用户操作都埋点采集。自动化埋点的好处是开发工作量小,数据规范统一。缺点是采集的数据量大,很多数据采集来也不知道有什么用,白白浪费了计算资源,特别是对于流量敏感的移动端用户而言,因为自动化埋点采集上传花费了大量的流量,可能因此成为卸载应用的理由,这样就得不偿失了。在实践中,有时候只是针对部分用户做自动埋点,抽样一部分数据做统计分析。 -
介于手工埋点和自动化埋点之间的,还有一种方案是可视化埋点。通过可视化的方式配置哪些前端操作需要埋点,根据配置采集数据。可视化埋点实际上是可以人工干预的自动化埋点。
爬虫系统
通过网络爬虫获取外部数据用于行业数据支撑,管理决策等。由于涉及到敏感内容,不做更多的展开。
数据处理
大数据平台的核心,分为离线计算和实时计算两类。
-
离线计算:由
MapReduce 、Hive、Spark 等进行的计算处理。 -
实时计算:由
Storm 、SparkSteaming 等流式大数据引擎完成,可以在秒级甚至毫秒级时间内完成计算。
数据输出
大数据处理与计算产生的数据写入到
任务调度
将上面三个部分有效整合和运转起来的是任务调度管理系统,它的主要作用是:
-
合理调度各种
MapReduce 、Spark 任务使资源利用最合理 -
尽快执行临时的重要任务
-
对作业提交、进度跟踪、数据查看等功能
简单的大数据平台任务调度管理系统其实就是一个类似
Hadoop 不足
虽然
此外,久而久之,许多公司开始发现大数据难题越来越与此有关:支持一系列广泛的数据源,并迅速调整数据模式、查询、定义和上下文,新的应用程序、平台和云基础设施供应商就体现了这一点。为了克服这个挑战,分析、集成和复制就必须变得更敏捷更快速。许多供应商纷纷创办就体现了这个挑战,包括:
-
分析解决方案:比如
ClearStory Data 、Domo、Incorta、Looker、FineBI、Microsoft Power BI、Qlik、Sisense、Tableau 和ThoughtSpot -
数据管道供应商:比如
Alooma 、Attunity、Alteryx、Fivetran 和Matillion -
数据集成供应商:包括
Informatica 、MuleSoft、SnapLogic、Talend 和TIBCO (后者还凭借其Spotfire 产品组合角逐分析领域) 。