五分钟看懂大数据技术

不能說愛 1个月前已收到1个回答举报

酷情侣 2星

共回答了207个问题采纳率：90.3% 评论

大数据技术涉及：数据的采集、预处理、和分布式存储、以及数据仓库、机器学习、并行计算和可视化等方面。

对于大数据技术，应用广泛的是以hadoop和spark为核心的生态系统。hadoop提供一个稳定的共享存储和分析系统，存储由hdfs实现，分析由mapreduce实现，

1、hdfs：Hadoop分布式文件系统，运行与大型商用机集群

hdfs是gfs的开源实现，提供了在廉价服务器集群中进行大规模分布式文件存储的能力。

2、hbase：分布式的列存储数据库。hbase将hdfs作为底层存储，同时支持mapreduce的批量计算和点查询（随机读取）

hbase是一个建立在hdfs之上，面向列的nosql数据库。它可用于快速读写大量数据，是一个高可靠、高并发读写、高性能、面向列、可伸缩和易构建的分布式存储系统。hbase具有海量数据存储、快速随机访问和大量写操作等特点。

在kudu出现之前，hadoop生态环境的存储主要依赖hdfs和hbase。在追求高吞吐、批处理的场景中，使用hdfs,在追求低延时且随机读取的场景中，使用hbase,而kudu正好能兼容这两者。

3、批处理计算的基石：mapreduce

批处理计算主要解决大规模数据的批量处理问题，是日常数据分析中常见的一类数据处理需求。业界常用的大数据批处理框架有mapreduce\spark\tez\pig等。其中mapdeduce是比较有影响力和代表性的大数据批处理计算框架。它可以并发执行大规模数据处理任务，即用于大规模数据集（大于1tb）的并行计算。mapreduce的核心思想：将一个大数据集拆分成多个小数据集，然后在多台机器上并行处理。

4、hive:分布式数据仓库，管理hdfs中存储的数据，并提供基于sql的查询语言用于查询数据

13小时前

可能相似的问题

猜你喜欢的问题

热门问题推荐

要学好书法必须把握每个字的特点和运笔

3个月前1个回答
顺酐和苯酐的区别

3个月前1个回答
激励运动员的话语

1个月前2个回答
比邻星有多少行星

1个月前1个回答
汽车修理有几个工种

1个月前2个回答
vivo怎样解除远程控制

1个月前1个回答
人生全靠浪的句子

1个月前1个回答
坏爱情黄妍秀大结局

5个月前1个回答
创城宣誓词

3个月前1个回答