甲骨文认证体系
Vmware认证体系
AWS亚马逊
阿里云认证体系
红帽认证体系
ZStack云计算认证体系
思科认证体系
华为认证体系
CDA数据分析师认证
达梦认证体系
麒麟
定制化课程
上海腾科告诉你之大数据基础
发布日期:2020-04-14 14:27:26阅读次数:

一. 大数据的概念
大数据是指利用常用软件工具捕获,管理和处理数据所耗时间超过可容忍时间的数据集。(来源:维基百科)
二. 大数据4V特征
Volume:体量巨大
Velocity:处理速度快
Variety:类型繁多(结构化,半结构化,非结构化)
Value:价值密度低
三. 大数据主流技术
◇数据采集预处理
flume可以进行流式日志数据的收集
sqoop可以交互关系型数据库,进行导入导出数据
使用爬虫技术,可以在网上爬取海量网页数据
◇数据存储与管理
大数据利用分布式文件系统HDFS、HBase、Hive,实现对结构化、半结构化和非结构化数据的存储和管理。
◇数据处理与分析
利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析。
四. 大数据应用
 
五. 场景化解决方案:
1. 离线批处理
1.1 概念:
离线批处理,是指对海量历史数据进处理和分析,生成结果数据,供下一步数据应用使用的过程。离线批处理对数据处理的时延要求不高,但是处理的数据量较大,占用的计算存储资源较多,通常通过MR作业、Spark作业或者HQL作业实现。
1.2 特点:
处理时间要求不高;
处理数据量巨大;
处理数据格式多样;
占用计算存储资源多。
1.3 流程图
 

2. 实时检索
2.1 概念:
实时检索简而言之就是对系统内的一些信息根据关键词进行即时、快速搜索,实现即搜即得的效果。强调的是实时低延迟。

2.2 核心诉求
检索性能要求高
高并发查询
数据量大
支持结构化和非结构化
高效的数据加载
支持图检索
2.3流程图
 


3. 实时流处理
3.1 概念:
实时流处理,通常是指对实时数据源进行快速分析,迅速触发下一步动作的场景。实时数据对分析处理速度要求极高,数据处理规模巨大,对CPU和内存要求很高,但是通常数据不落地,对存储量要求不高。实时处理,通常通过Structured Streaming或者Flink任务实现。

3.2 诉求:
处理数据快
高吞吐量
抗震性强
可靠性高
水平扩展
多数据源支持
数据权限和资源隔离
第三方工具对接
3.3 流程图
 

4.融合数仓
4.1概念:
在数据慢慢呈现数据处理量大、数据处理时延低、数据处理格式多样的要求下,基于模块化存储的数据仓库重要性日益增加,但同时也带来了新的问题。随着精准营销、客户画像、互联网平台等业务的上线,需要引入非结构化数据,以及提升对实时数据的计算处理能力,需要建立大数据平台满足上述业务需求。

4.2诉求
数据统一存储
减少数据孤岛和冗余
一集成(旧业务和新业务可以无缝集成)
大集群
4.3流程图