大数据知识点之什么是大数据

2023-09-18 17:31:28

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

简单理解就是:那些数据量很大、增长速度很快,数据结构和样式复杂,传统数据库很难存储、处理,传统方法很难分析的信息。

大数据是信息资产、是发展方向、是一门技术、也是大数据从业者的饭碗。

感兴趣的同学可以了解下大数据的发展史。

“大数据”这一概念最早公开出现于1998年,美国高性能计算公司SGI的首席科学家约翰马西(John Mashey)在一个国际会议报告中指出:随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织等四个难题,并用“Big Data”来描述这一挑战,在计算领域引发思考。

萌芽阶段:

20世纪90年代到21世纪的样子,数据库技术成熟,数据挖掘理论成熟,也称数据挖掘阶段。

突破阶段:

2003——2006年,非结构化的数据大量出现,传统的数据库处理难以应对,也称非结构化数据阶段。

成熟阶段:

2006——2009年,谷歌公开发表两篇论文《谷歌文件系统》和《基于集群的简单数据处理:MapReduce》,其核心的技术包括分布式文件系统GFS,分布式计算系统框架MapReduce,分布式锁Chubby,及分布式数据库BigTable,这期间大数据研究的焦点是性能,云计算,大规模的数据集并行运算算法,以及开源分布式架构(Hadoop)

应用阶段:

2009年至今,大数据基础技术成熟之后,学术界及及企业界纷纷开始转向应用研究,2013年大数据技术开始向商业、科技、医疗、政府、教育、经济、交通、物流及社会的各个领域渗透,因此2013年也被称为大数据元年。

大数据存储和处理技术的发展同时也带动了数据分析、机器学习的蓬勃发展,也促使了新兴产业的不断涌现。

更多推荐

leetcode:118. 杨辉三角

一、题目函数原型:int**generate(intnumRows,int*returnSize,int**returnColumnSizes)参数解析:numRows是指明要求前几行杨辉三角returnSize是返回指针数组的元素个数returnColumnSizes是指明杨辉三角每一行有几个元素二、思路既然需要函数

Go 文件操作

创建文件将数据存储到文件之前,先要创建文件。GO语言中提供了一个Create()函数专门创建文件。该函数在创建文件时,首先会判断要创建的文件是否存在,如果不存在,则创建,如果存在,会先将文件中已有的数据清空。同时,当文件创建成功后,该文件会默认的打开,所以不用在执行打开操作,可以直接向该文件中写入数据。创建文件的步骤:

使用vue-cli搭建spa项目

目录什么是vue-cli安装vue-cli使用脚手架vue-cli(来构建项目)vue项目结构的说明基于spa项目完成路由基于spa项目完成嵌套路由什么是vue-cliVueCLI是一个官方发布的用于快速搭建Vue.js项目的命令行工具。它提供了一套交互式的脚手架,可以帮助开发者初始化项目、配置构建工具、管理依赖等。安

【GitLab私有仓库】在Linux上用Gitlab搭建自己的私有库并配置cpolar内网穿透

文章目录前言1.下载Gitlab2.安装Gitlab3.启动Gitlab4.安装cpolar5.创建隧道配置访问地址6.固定GitLab访问地址6.1保留二级子域名6.2配置二级子域名7.测试访问二级子域名前言GitLab是一个用于仓库管理系统的开源项目,使用Git作为代码管理工具,并在此基础上搭建起来的Web服务。G

数据库-理论基础

目录1.什么是数据库?2.数据库与文件系统的区别?3.常见的数据库由那些?4.关系型数据库(MySQL)的特征及组成结构介绍1.什么是数据库?数据:描述事物的符号记录,可以是数字,文字,图形,声音,语言等多种形式,他们都可以经过数字化后存入计算机数据库:存储数据的仓库,是长期存放在计算机内,有组织,可共享的大量数据集合

Flutter热更新技术探索

一,需求背景:APP发布到市场后,难免会遇到严重的BUG阻碍用户使用,因此有在不发布新版本APP的情况下使用热更新技术立即修复BUG需求。原生APP(例如:Android&IOS)的热更新需求已经比较成熟,但Flutter技术栈目前还缺少类似的技术方案,因此Flutter研发团队,也需要类似的热更新技术。二,Flutt

南大通用数据库-Gbase-8a-学习-39-show命令汇总(持续更新)

目录一、环境信息二、show功能参数三、show命令示例1、SHOWLOADLOGS(加载日志报错)2、SHOWCOLUMNS(列信息)3、SHOWCREATEDATABASE(建库信息)4、SHOWCREATEPROCEDURE(存储过程信息)5、SHOWCREATETABLE(建表信息)6、SHOWTABLELOC

中国核动力研究设计院使用 DolphinDB 替换 MySQL 实时监控仪表

随着仪表测点的大幅增多和采样频率的增加,中国核动力研究设计院仪控团队原本基于MySQL搭建的旧系统已经无法满足大量数据并发写入、实时查询和聚合计算的需求。他们在研究DB-Engines时序数据库榜单时了解到国内排名第一的DolphinDB。经过测试,发现其非常符合业务需求,并且在2022年1月正式选择了DolphinD

2023年全国研究生数学建模竞赛华为杯C题大规模创新类竞赛评审方案研究

2023年全国研究生数学建模竞赛华为杯C题大规模创新类竞赛评审方案研究原题再现:现在创新类竞赛很多,其中规模较大的竞赛,一般采用两阶段(网评、现场评审)或三阶段(网评、现场评审和答辩)评审。创新类竞赛的特点是没有标准答案,需要评审专家根据命题人(组)提出的评审框架(建议)独立评审。所以,对同一份作品,不同评委的评分可能

MySQL 开源证书真比 Postgres 更能带动社区吗?

笔者之前写的「全方位对比Postgres和MySQL」还在持续发酵,最近腾讯的公众号也发布了一篇「MySQLVSPostgreSQL,谁是世界上最成功的数据库?」,其中在对比两者使用的开源证书时写到:PostgreSQLLicense是一个宽松的开源许可证,类似于MIT许可证。它允许用户自由使用、修改和分发,无需公开源

go迷之切片截取分析

切片截取,有没有很迷?目录典型截取(两参数、三参数)及分析迷之append参与截取及细节分析关于截取时的初始索引是否从第一个位置开始的影响修改原切片细节分析典型截取(两参数、三参数)及分析先看一个例子来表示一下切片截取(仅截取,无append):a:=[]int{1,2}a0:=a[0:1]fmt.Printf("a0

热文推荐