数据技术前瞻

数据技术前瞻

流批一体成为主流开发模式

从单机OLAPLambdaKappa的演进,数据链路上的问题、数据计算层面的问题得到了很好解决。

  • “远古”时代,通过写SQL脚本抽取OLTP数据库中数据进行分析和统计,大量查询有可能把数据库拖挂;
  • OLAP分析成为数据库的一项重要能力,这个时候,可以写SQL,也可以写Python代码等来进行数据分析和统计,但面对不断增长的数据量,数据库性能遇到挑战;
  • Hadoop技术的引入和不断成熟,海量数据的离线存储、计算和调度问题得到解决;
  • Storm让海量数据的实时计算成为可能,促进了一大批实时数据产品的出现,也促进了Lambda数据架构的出现和流行;
  • Kafka、Spark、Flink等技术的流行,整个数据链路的全流式计算成为可能,Kappa架构出现和流行。

那未来一切皆流式,一切皆实时是否可行?是否经济?我们的数据架构还存在什么问题?列举几个数据领域常见的问题:

Links