大数据名词术语
2024-09-16
分类:小程序
编辑:
阅读(209)
大数据的出现带来了许多新的术语,但这些术语往往比较难以理解。因此,我们通过本文给出一个常用的大数据术语表,抛砖引玉,供大家深入了解,部分定义参考了相应的文章。
1. 上卷下钻
下钻,是指将特定分组的数据按第二维度继续向下细分显示。
上卷,是下钻的逆过程,即收起细节数据,显示上一层级的汇总数据。
2. 颗粒度
颗粒度是指具体的详细和清晰程度;颗粒度越细,表示细节越详尽,越有助于了解事情的全貌;颗粒度越粗,表示细节越少,更多的是抽象概括。
3. 维度(字段)与度量
维度,包含定量值(例如名称、日期或地理数据)。您可以使用维度进行分类、分段以及揭示数据中的详细信息。维度影响视图中的详细级别。
度量,包含可以测量的数字定量值。度量可以聚合。将度量拖到视图中时,Tableau(默认情况下)会向该度量应用一个聚合。
4. 聚合
搜索、合并、显示数据的过程
5. 算法
可以完成某种数据分析的数学公式
6. 仪表板
使用算法分析数据,并将结果用图表方式显示于仪表板中
7. 数据库
一个以某种特定的技术来存储数据集合的仓库
8. 数据清洗
对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性
9. 数据挖掘
从数据集中发掘特定模式或信息的过程
10. 数据建模
使用数据建模技术来分析数据对象,以此洞悉数据的内在涵义
11. 提取-转换-加载 (ETL)
(ETL: Extract, Transform and Load) – 是一种用于数据库或者数据仓库的处理过程,天善学院有国内唯一的最全的 ETL 学习课程。即从各种不同的数据源提取(E)数据,并转换(T)成能满足业务需要的数据,最后将其加载(L)到数据库
12. 元数据
被称为描述数据的数据,即描述数据数据属性(数据是什么)的信息。
13. MongoDB
一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。
14. 多维数据库
用于优化数据联机分析处理(OLAP)程序,优化数据仓库的一种数据库。
15. 多值数据库
是一种非关系型数据库(NoSQL), 一种特殊的多维数据库:能处理3个维度的数据。主要针对非常长的字符串,能够完美地处理HTML和XML中的字串。
16. 预测分析
大数据分析方法中最有价值的一种分析方法,这种方法有助于预测个人未来(近期)的行为,例如某人很可能会买某些商品,可能会访问某些网站,做某些事情或者产生某种行为。通过使用各种不同的数据集,例如历史数据,事务数据,社交数据,或者客户的个人信息数据,来识别风险和机遇
17. 抽样
抽样是总体中的一组数据,带有指定的信息。理想情况下,需要经常分析较大的样本以获取最精确的估计和最新的信息。样本越大,就能越轻松地检测到较小的变化,并使控制图在检测变动时能够更敏感,同时不会增大误报率。
18. 中位数
将一组数从小到大排列,若个数为奇数,则中位数就是中间那个数;若个数为偶数,则中间两个数的平均数就是中位数。
19. 云计算
云计算是必不可少的大数据术语之一。它是一个新的范式计算系统,它提供可视化的计算资源,以运行在用于存储数据的标准远程服务器上,并提供IaaS,PaaS和SaaS。云计算提供IT资源,例如基础架构,软件,平台,数据库,存储等作为服务。它的一些服务包括灵活的扩展,快速的弹性,资源池,按需自助服务。
20. IaaS
IaaS(Infrastructure as a Service),即基础设施即服务。指把IT基础设施作为一种服务通过网络对外提供,并根据用户对资源的实际使用量或占用量进行计费的一种服务模式。
在这种服务模型中,普通用户不用自己构建一个数据中心等硬件设施,而是通过租用的方式,利用 Internet从IaaS服务提供商获得计算机基础设施服务,包括服务器、存储和网络等服务。
21. PaaS
PaaS是(Platform as a Service)的缩写,是指平台即服务。把服务器平台作为一种服务提供的商业模式,通过网络进行程序提供的服务称之为SaaS(Software as a Service),是云计算三种服务模式之一,而云计算时代相应的服务器平台或者开发环境作为服务进行提供就成为了PaaS(Platform as a Service)。
所谓PaaS实际上是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。因此,PaaS也是SaaS模式的一种应用。但是,PaaS的出现可以加快SaaS的发展,尤其是加快SaaS应用的开发速度。在2007年国内外SaaS厂商先后推出自己的PAAS平台。
22. SaaS
SaaS,是Software-as-a-Service的缩写名称,意思为软件即服务,即通过网络提供软件服务。
SaaS平台供应商将应用软件统一部署在自己的服务器上,客户可以根据工作实际需求,通过互联网向厂商定购所需的应用软件服务,按定购的服务多少和时间长短向厂商支付费用,并通过互联网获得Saas平台供应商提供的服务。
SaaS 应用软件有免费、付费和增值三种模式。付费通常为“全包”费用,囊括了通常的应用软件许可证费、软件维护费以及技术支持费,将其统一为每个用户的月度租用费。
23. 数据架构与设计
在IT行业中,数据体系结构由模型,策略标准或规则组成,这些模型,策略标准或规则控制聚合哪些数据以及如何在数据系统中安排,存储,集成和使用这些数据。
它分为三个阶段:
业务实体的概念表示
业务实体之间关系的逻辑表示
功能支持系统的物理构建
24. 在线分析处理(OLAP)
在此过程中,使用三个运算符(向下钻取,合并以及切片和切块)对多维数据进行分析。
向下钻取是提供给用户查看底层详细信息的功能
合并是可用的汇总
切片和切块是为用户提供的选择子集并从各种上下文中查看它们的功能
25. 实时数据
可以立即(即以毫秒为单位)创建,存储,处理,分析和可视化的数据称为实时数据。
26. 非结构化数据
无法定义结构的数据称为非结构化数据。处理和管理非结构化数据变得困难。非结构化数据的常见示例是在电子邮件消息中输入的文本以及带有文本,图像和视频的数据源。
未经允许不得转载,或转载时需注明出处:
新商务互联 »
大数据名词术语
标签: