Hadoop教程
HBase
Hive
Pig
Sqoop
Spark

大数据特征

大数据包含大量未由传统数据存储或处理单元处理的数据。许多跨国公司使用它来处理许多组织的数据和业务。复制之前每天的数据流将超过 150 EB 。
有五个v的大数据可以解释这些特征。

5 V的大数据

Volume Veracity Variety Value Velocity 大数据特征

Volume

Volume大数据本身与巨大的规模有关。大数据是每天从许多来源(例如业务流程,机器,社交媒体平台,网络,人机交互等)产生的海量"数据"。
Facebook 可以生成大约十亿条消息,是记录" Like "按钮的 45亿次,等等每天上传的 3.5亿个新帖子。大数据技术可以处理大量数据。
大数据特征

Variety

大数据可以是结构化,非结构化和半结构化,它们可以从不同来源收集。过去只会从数据库和工作表中收集数据,但如今,数据将以数组形式出现,即 PDF,电子邮件,音频,SM帖子,照片,视频等。
大数据特征
数据分类如下:
结构化数据: 在结构化架构中,以及所有必需的列。它是表格形式。结构化数据存储在关系数据库管理系统中。 半结构化: : 在半结构化中,未正确定义架构,例如, JSON,XML,CSV,TSV 和电子邮件。 OLTP(在线交易处理)系统旨在处理半结构化数据。它存储在关系中,即表。 非结构化数据: 所有非结构化文件,日志文件,音频文件和图像文件都包含在非结构化数据中。一些组织拥有大量可用数据,但由于数据是原始数据,因此他们不知道如何推导数据的价值。 准结构化数据: 该数据格式包含文本数据,这些文本数据的格式不一致,并且使用某些工具会费时费力。
示例: Web服务器日志,即,日志文件是由包含活动列表的某些服务器创建和维护的。

Veracity

准确性表示多少数据是可靠的。它有很多方法可以过滤或转换数据。准确性是能够有效处理和管理数据的过程。大数据在业务发展中也至关重要。
例如,带有标签的 Facebook帖子。

Value

Value是大数据的基本特征。这不是我们处理或存储的数据。我们存储,处理以及分析的这些数据是有价值的和可靠的数据。
大数据特征

Velocity

与其他速度相比,Velocity起着重要作用。速度可创建实时的数据创建速度。它包含传入的数据集速度,变化率和活动爆发的链接。大数据的主要方面是快速提供需求数据。
大数据速度处理来自应用程序日志,业务流程,网络,社交媒体网站,传感器,移动设备等。
大数据特征
昵称: 邮箱:
Copyright © 2022 立地货 All Rights Reserved.
备案号:京ICP备14037608号-4