博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
大数据概念
阅读量:516 次
发布时间:2019-03-07

本文共 1185 字,大约阅读时间需要 3 分钟。

大数据计算技术

 大数据概念

 大数据计算体系

 数据采集与建模

 大数据分析算法

 大数据处理技术

 数据可视化

 Hadoop计算体系

 HDFS/HBase存储架构

 MapReduce计算模型

 图并行计算框架

 流计算

 内存计算


大数据概念

 数据是什么?

 数据科学是什么?

 大数据基本属性是什么?


什么是大数据(Big Data)?   4V

Volume:   数据量异常庞大,一般达到PB量级

Variety:  数据呈异构化,数据来源呈多样性

Velocity: 数据处理要求时效性

Value:    单个数据无价值,但大规模数据拥有巨大价值


什么是大数据?

数据种类的多样性:文字、语音、图片、视频、信息等

数据对象的多样性:个人信息、个人数据、商业服务数据、社会公共数据、自然界数据、物质世界的数据

数据来源的多样性:在数据层面打破现实世界的界限,多家公司的共享替代一家公司的数据


大数据概念——数据的定义

数据的定义

数据的基本定义

计算机学科中数据的定义

数据的多样化

数据的形式多样化

数据的来源多样化

数据的范围多样化

数据转换过程

数据-信息-知识-价值转换模型


大数据概念——基本属性

Volume:大数据的超大规模

规模体现

    带来的影响:

    数据存储架构:

基于行-键表格存储格式的关系型数据库

基于分布式文件系统的分布式数据库

     计算模型:

离线批处理计算框架( MapReduce)

BSP图并行计算框架(Pregel、Hama)

交互式计算模型

大内存计算系统


Variety:大数据来源多样性与异构性

大数据类型划分:

依结构特征划分

依时效性划分

依关联特性划分

依数据类型划分

依数据来源划分

带来影响:

数据存储、管理和快速查询异常困难


Value:价值低密度特性

区别于传统数学统计学方法的关键之处 

 

传统数学统计学

大数据分析计算方法

处理对象

局部数据或数据子集

以数据整体或完整数据集作为处理对象

处理方法

基于抽样调查的随机分析方法

机器学习方法

通过数据的积累来训练和改进算法和计算程序

结果正确性

取决于随机抽样模型产生的数据集的代表性

处理数据量越大,

计算结果越越优化

大数据技术特征

大数据算法特性

大数据计算系统特性

大数据开发技术特性


大数据算法特性

 

 

大数据计算

传统统计学

样本空间

整个数据集

基于独立同分布原理抽取样本集

计算方法

机器学习方法

按照固定数学模型进行预测

优势

避免样本失真

预测结果的精度改进是一个动态

 

大数据计算系统特性

 

大数据计算系统

传统数据库系统

优势

基础模型

分布式文件系统

NoSQL非关系型数据库

关系型模型

支持非结构化或异构数据的存储和处理

支持分布式系统部署

支持超大规模数据集完成快速查询操作

存储格式

基于键值对的列存储格式

基于主键的行存储格式

更优的查询效率

更好的对计算模型的支持

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

转载地址:http://meznz.baihongyu.com/

你可能感兴趣的文章