大数据(IT行业术语)_百度百科

大数据

IT行业术语
展开10个同名词条
收藏
0有用+1
0
本词条由TE智库 提供内容,经科普中国·科学百科认证 。
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 [17]
维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代 [1]中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 [2]
“大数据”一词列出了商务印书馆推出的《汉语新词语词典(2000—2020)》中国这20年生命活力指数最高的十大“时代新词”。 [18]
中文名
大数据
外文名
big data,mega data
提出者
维克托·迈尔-舍恩伯格及肯尼斯·库克耶
提出时间
2008年8月中旬
适用领域
BI工业4.0云计算物联网互联网+
5V特点
大量、高速、多样、价值、真实性

定义

播报
编辑
大数据与云计算的关系 [1]
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。 [3]
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 [4]
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。 [1]
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统分布式数据库、云计算平台、互联网和可扩展的存储系统
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它们按照进率1024(2的十次方)来计算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB

特征

播报
编辑
特征
介绍
容量(Volume)
数据的大小决定所考虑的数据的价值和潜在的信息;
种类(Variety)
数据类型的多样性;
速度(Velocity)
指获得数据的速度;
可变性(Variability)
妨碍了处理和有效地管理数据的过程。
真实性(Veracity)
数据的质量。
复杂性(Complexity)
数据量巨大,来源多渠道。
价值(value)
合理运用大数据,以低成本创造高价值。
参考资料 [5]

结构

播报
编辑
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。 [6]大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。 [7]
其次,想要系统的认知大数据,必须要全面而细致的分解它,着手从三个层面来展开:
第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。 [7]

数据要素

播报
编辑

概念

数据技术的发展伴随着数据应用需求的演变,影响着数据投入生产的方式和规模,数据在相应技术和产业背景的演变中逐渐成为促进生产的关键要素。因此,“数据要素”一词是面向数字经济,在讨论生产力和生产关系的语境中对“数据”的指代,是对数据促进生产价值的强调。即数据要素指的是根据特定生产需求汇聚、整理、加工而成的计算机数据及其衍生形态,投入于生产的原始数据集、标准化数据集、各类数据产品及以数据为基础产生的系统、信息和知识均可纳入数据要素讨论的范畴。 [24]

数据产品

1.数据库商品
(1)概念/定义
数据库是结构化信息或数据的有序集合,一般以电子形式存储在计算机系统中。通常由数据库管理系统 (DBMS) 来控制。在现实中,数据、DBMS 及关联应用一起被称为数据库系统,通常简称为数据库。 [25]
(2)数据库分类
关系数据库:关系数据库在 20 世纪 80 年代成为了主流。在关系数据库中,项被组织为一组具有列和行的表。这为访问结构化信息提供了一种有效、灵活的方法。
面向对象数据库:面向对象数据库中的信息以对象的形式表示,这与面向对象的编程相类似。
分布式数据库:分布式数据库由位于不同站点的两个或多个文件组成。数据库可以存储在多台计算机上,位于同一个物理位置,或分散在不同的网络上。
数据仓库:数据仓库是数据的中央存储库,是专为快速查询和分析而设计的数据库。
NoSQL 数据库:NoSQL 或非关系数据库,支持存储和操作非结构化及半结构化数据(与关系数据库相反,关系数据库定义了应如何组合插入数据库的数据)。随着 Web 应用的日益普及和复杂化,NoSQL 数据库得到了越来越广泛的应用。
图形数据库:图形数据库根据实体和实体之间的关系来存储数据。
OLTP 数据库:OLTP 数据库是一种高速分析数据库,专为多个用户执行大量事务而设计。
云数据库:云数据库指基于私有云、公有云或混合云计算平台的结构化或非结构化数据集合,可分为传统云数据库和数据库即服务 (DBaaS) 两种类型。在 DBaaS 中,管理和维护工作均由服务提供商负责。
多模型数据库:多模型数据库指的是将不同类型的数据库模型整合到一个集成的后端中,以此来满足各种不同的数据类型的需求。
文档/JSON 数据库:文档数据库专为存储、检索和管理面向文档的信息而设计,它是一种以 JSON 格式(而不是采用行和列)存储数据的现代方法。
自治驾驶数据库:基于云的自治驾驶数据库(也称作自治数据库)是一种全新的极具革新性的数据库,它利用机器学习技术自动执行数据库调优、保护、备份、更新,以及传统上由数据库管理员 (DBA) 执行的其他常规管理任务。 [25]
向量数据库(Vector Database):向量数据库是专门用来存储和查询向量的数据库。这些向量通常来自于对文本、语音、图像、视频等的向量化。与传统数据库相比,向量数据库可以处理更多非结构化数据。在机器学习和深度学习中,数据通常以向量形式表示,因此向量数据库在这些领域中非常有用。
2.核验接口
(1)概念/定义
核验接口是指通过网络或其他方式,将需要核验的信息传输到指定的接口,进行核验并返回核验结果的一种接口。在实名认证、身份验证、数据安全等方面,核验接口都有着广泛的应用。
(2)常见的核验接口
身份信息核验接口:用于核验身份证号码和姓名是否一致,可以包括身份证二要素核验(核验姓名、身份证号是否一致)和身份证四要素核验(核验姓名、身份证号、有效期始、有效期止是否一致)。
个人实名认证接口:用于进行个人实名认证,验证个人身份信息的真实性和合法性。
企业四要素核验接口:用于核验企业的组织机构代码、营业执照号码、纳税人识别号码等信息是否一致。
银行卡信息核验接口:用于银行卡类型查询、银行卡真伪核验,校验银行卡四要素(姓名、手机号码、身份证号码和银行卡号)信息是否一致。
3.查询接口
(1)概念/定义
查询接口是指通过网络或其他方式,将查询请求传输到指定的接口,进行查询并返回查询结果的一种接口。在数据库中,查询接口可以用于查询数据表中的数据。
(2)常见的查询接口
公共信息查询接口:天气查询、国内油价查询、交通违章代码查询和空气质量查询等数据查询接口。
常识类信息查询接口:如星座查询、垃圾分类识别查询、节假日信息查询和邮编查询等数据查询接口。
企业信息查询接口:包括企业简介信息查询、企业工商信息变更查询、企业LOGO、企业专利信息等数据查询接口。
4.数据模型结果
(1)概念/定义
数据模型结果是指数据建模过程的输出结果,它是对数据对象及其之间关系的结构化表示。在数据产品中,数据模型结果可以包括表格、图表、图形等可视化形式,帮助用户理解数据及其关联关系。
(2)常见的数据模型结果应用
在金融业中,数据模型结果可以用于分析市场趋势和客户需求,从而实现精准营销和风险管理。
在零售业中,数据模型结果可以用于分析商品销售情况、顾客行为和偏好,进行优化库存管理、改善定价策略并提供个性化推荐服务等应用。
在电信行业中,数据模型结果可以用于分析网络流量分析从而提升网络质量和网络利用率、用于用户行为和偏好分析管理客户关系以及精准营销等应用。
在医疗行业中,数据模型结果可以分析患者病历数据,实现疾病预测,以及发展个性化治疗,考虑个人的遗传变异因素,改善医疗保健效果,减少副作用,降低医疗成本。

国内大数据产业链分布结构

播报
编辑

数据采集与处理

(1)概念/定义
数据采集与处理是大数据的关键技术之一,它从互联网、传感器和信息系统等来源获取的大量带有噪声的数据进行预处理,包括数据清洗、填补和规范化等流程,使无序的数据更加有序,便于处理,以达到快速分析处理的目的。
(2)常见应用场景
金融行业:大数据采集与处理在金融行业中的应用非常广泛。例如,银行可以通过采集和处理大量的交易数据来进行风险评估和欺诈检测。
零售业:大数据采集与处理是零售商了解消费者的购买行为和偏好,从而进行精准的市场定位和个性化营销的重要支撑。通过采集和分析大量的销售数据和顾客反馈,零售商可以优化库存管理、供应链和销售策略。
医疗行业:大数据采集与处理在健康医疗领域中有着重要的应用。医疗机构可以通过采集和分析患者的医疗记录、生物传感器数据和基因组数据来进行疾病预测、诊断和治疗。此外,大数据还可以用于监测公共卫生事件和流行病爆发。
物联网:物联网设备产生的海量数据需要进行采集和处理。大数据采集与处理可以帮助物联网应用实现实时监测、远程控制和智能决策。例如,智能家居可以通过采集和分析家庭设备的数据来实现自动化控制和能源管理。
社交媒体:社交媒体平台产生了大量的用户生成内容和社交数据。通过采集和处理这些数据,社交媒体平台可以提供个性化的推荐、广告定向和舆情分析等功能。
城市管理:大数据采集与处理可以帮助城市管理者实现智慧城市的建设。通过采集和分析城市交通、环境、能源等方面的数据,城市管理者可以优化交通流量、改善环境质量和提高能源利用效率。

数据存储与管理

(1)概念/定义
数据存储与管理是指将处理前或处理后的数据以特定格式记录在计算机内部或外部存储介质上,并对数据进行管理和调用的过程。此过程有助于减少数据孤岛现象,并确保数据的可靠性、安全性、可用性和可扩展性。
(2)常见的应用场景
金融行业:金融机构需要存储和管理大量的交易数据、客户数据和市场数据。数据存储和管理可以帮助金融机构进行风险管理、反欺诈分析、客户关系管理等。
零售业:零售商需要存储和管理大量的销售数据、库存数据和顾客数据。数据存储和管理可以辅助零售商进行销售分析、库存管理、个性化营销等工作。
健康医疗:医疗机构需要存储和管理患者的医疗记录、病历数据和医学影像数据。数据存储和管理可以帮助医疗机构进行疾病诊断、治疗计划制定、医学研究等。
物联网:物联网设备产生的数据需要进行存储和管理。例如对采集的农田土壤、气象、水质等数据进行数据存储和管理,为实现智能农业的精准灌溉和农作物生长监测提供支持。
社交媒体:社交媒体平台需要存储和管理用户生成的内容、社交关系数据和用户行为数据。数据存储和管理可以帮助社交媒体平台进行用户推荐、内容分发、广告定向等。
城市管理:城市管理部门需要存储和管理城市交通数据、环境监测数据和公共服务数据。数据存储和管理可以帮助城市管理部门进行交通优化、环境保护、智慧城市建设等。
电信行业:电信运营商需要存储和管理大量的通信数据、用户数据和网络数据。数据存储和管理可以帮助电信运营商进行网络优化、用户分析、故障排查等。

数据挖掘/分析

(1)概念/定义
数据挖掘:数据挖掘是一种计算机辅助技术,用于分析以处理和探索大型数据集。借助数据挖掘工具和方法,组织可以发现其数据中隐藏的模式和关系。数据挖掘将原始数据转化为实用的知识。其目标不是提取或挖掘数据本身,而是对已有的大量数据,提取有意义或有价值的知识。 [19]
数据分析:数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。
因此,狭义上的数据分析与数据挖掘的本质一样,都是从数据里面发现关于业务的知识(有价值的信息),从而帮助业务运营、改进产品以及帮助企业做更好的决策,所以侠义的数据分析与数据挖掘构成广义的数据分析。
(2)常见应用场景
金融行业:在金融服务中利用数据挖掘应用程序来解决复杂的欺诈、合规、风险管理和客户流失问题,同时,大数据分析可以帮助金融机构进行市场趋势分析、投资组合优化和个性化推荐。
医疗行业:医疗机构可以利用大数据分析患者的病历数据、医学影像和基因组数据,以辅助疾病诊断、药物研发和个性化治疗。例如在疾病诊断上,通过对大量的医疗数据进行挖掘和分析,可以发现潜在的疾病模式和风险因素,实现疾病的早期预测。
零售业:大数据挖掘和分析可以帮助零售商了解消费者的购买行为和偏好,从而进行精准的市场定位和个性化营销。通过分析大量的销售数据和顾客反馈,零售商可以优化库存管理、供应链和销售策略。
物联网:物联网设备产生的海量数据需要进行数据挖掘和分析。大数据分析可以帮助物联网应用实现实时监测、远程控制和智能决策。例如,智能家居可以通过分析家庭设备的数据来实现自动化控制和能源管理。
电信行业:例如通过对网络数据进行挖掘和分析,公司可以根据带宽使用模式并提供定制的服务升级或建议,通过对用户通话数据的挖掘分析,可以帮助电信运营商发现异常行为和欺诈行为。

数据可视化/呈现

(1)概念/定义
数据可视化是使用图表、图形或地图等可视元素来表示数据的过程。该过程将难以理解和运用的数据转化为更易于处理的可视化表示。数据可视化工具可自动提高视觉交流过程的准确性并提供详细信息,以便决策者可以确定数据之间的关系并发现隐藏的模式或趋势。 [20]
(2)常见应用场景
商业决策:通过数据可视化,企业可以更直观地了解业务数据和市场趋势,从而做出更准确的商业决策。例如,通过数据可视化展示销售数据和客户反馈,企业可以了解产品的销售情况和客户需求,从而优化产品设计和市场推广。
智慧城市:通过数据可视化,城市管理部门可以更直观地了解城市的交通、环境、能源等方面的数据,从而实现智慧城市的建设。例如,通过数据可视化展示交通流量和路况,城市管理部门可以实现交通优化和拥堵缓解。
医疗健康:通过数据可视化,医疗机构可以更直观地了解患者的病历数据和医学影像,从而实现疾病的诊断和治疗。例如,通过数据可视化展示医学影像和基因组数据,医生可以更准确地诊断疾病和制定治疗方案。
金融服务:通过数据可视化,金融机构可以更直观地了解市场趋势和客户需求,从而实现精准营销和风险管理。例如,通过数据可视化展示市场数据和客户反馈,金融机构可以了解客户需求和市场趋势,从而制定个性化的产品和服务。
物联网:通过数据可视化,物联网应用可以更直观地了解设备的运行状态和数据流量,从而实现实时监测和远程控制。例如,通过数据可视化展示设备的运行数据和传感器数据,物联网应用可以实现设备的远程控制和智能决策,如图。
车间可视化

数据治理/应用(解决方案)

1.大数据在金融行业的应用
交易欺诈识别:通过大数据分析,可以识别出交易欺诈行为,帮助金融机构减少损失,如中国交通银行信用卡中心电子渠道实时反欺诈监控交易系统。
精准营销:通过分析客户的消费行为和偏好,可以实现精准营销,提高营销效果,如京东金融基于大数据的行为分析系统、恒丰银行基于大数据的客户关系管理系统。
信贷风险评估:通过分析客户的信用记录、收入和支出等信息,可以评估客户的信贷风险,帮助金融机构做出更好的决策,如恒丰银行全面风险预警系统、人人贷风控体系。
智能投顾:通过大数据分析客户的投资偏好和风险承受能力,可以为客户提供个性化的投资建议,如通联浙商大数据智选消费基金,通联支付通过对自有的消费类支付相关数据,可以实时了解行业(尤其是消费行业)销售需求的情况,按行业汇总各商户的刷卡支付情况,获得行业最新的景气边际变化,进而将资金更多的配置在景气向好的行业上,然后利用经典量化模型,精选相应行业内的上市公司,并基于此发行了一支名为“浙商大数据智选消费”的偏股混合型基金。 [21]
2.大数据在医疗行业的应用
分析电子病历:医生共享电子病历可以收集和分析数据,寻找能够降低医疗成本的方法。医生和医疗服务提供商之间共享患者数据,能够减少重复检查,改善患者体验,如百度智能医疗平台实现电子病历规范化和结构化。
健康风险预测:通过分析大量的健康数据,可以预测人群的慢性病风险,帮助医疗机构和个人采取相应的预防和干预措施,提高健康管理的效果,如平安云的智能医疗解决方案具有智能健康风险预测功能。
辅助诊断决策:通过学习海量教材、临床指南、药典及三甲医院优质病历,打造遵循循证医学的临床辅助决策系统,用以提升医疗质量,降低医疗风险。如百度智能医疗平台的临床辅助决策系统。
互联网医院:互联网医院是指利用互联网技术,为患者提供在线咨询、预约挂号、远程诊疗等医疗服务。互联网医院可以通过大数据分析,为患者提供个性化的医疗建议和服务,如丁香医生。
3.大数据在零售行业的应用
个性化推荐:通过分析顾客的购买历史、浏览行为和偏好,利用大数据技术进行个性化推荐,提高销售转化率和顾客满意度。
库存管理:通过分析销售数据和供应链数据,预测产品需求和库存水平,帮助零售商优化库存管理,减少过剩和缺货情况。
客户细分:通过分析顾客的购买行为和消费习惯,将顾客分为不同的细分群体,为每个群体提供个性化的营销策略和服务。
价格优化:通过分析市场竞争和顾客需求,优化定价策略,实现最佳的价格和利润平衡。
供应链优化:通过分析供应链数据,优化供应链流程和物流配送,提高供应链的效率和可靠性。

数据安全与合规

1.概念/定义
根据《中华人民共和国数据安全法》,数据是指任何以电子或者其他方式对信息的记录。数据安全是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。各地区、各部门对本地区、本部门工作中收集和产生的数据及数据安全负责。 [22]
2.数据全生命周期安全
(1)数据采集安全:指为确保在组织系统中生成新数据,或者从外部收集数据过程的合法、合规及安全性,而采取的一系列措施。
(2)数据传输安全:指为防止传输过程中的数据泄漏,而采取的一系列数据加密保护策略和安全防护措施。
(3)存储安全:指为确保存储介质上的数据安全性,而采取的一系列措施,如在数据分类分级的基础上,结合业务场景,明确不同类别和级别数据的加密存储要求。
(4)数据备份与恢复:指通过规范数据存储的冗余管理工作机制,保障数据的高可用性,如建立数据备份与恢复平台,按照备份清单定期执行备份,并对备份数据完整性和可用性进行验证。
(5)使用安全:指为保障在组织内部对数据进行计算、分析、可视化等操作过程的安全性,而采取的一些列措施,如采取对不同类型不同级别的数据进行脱敏处理,对数据处理活动进行监控等操作。
(6)数据处理环境安全:指为确保组织的数据处理系统、终端、平台等环境的安全性,而采取的一系列措施。
(7)数据内部共享安全:指为确保组织内部之间的数据交互过程安全而采取的一系列措施。
(8)数据外部共享安全:指为确保不同组织之间的数据交互过程安全而采取的一系列措施。
(9)数据销毁安全:指通过对数据及其存储介质实施相应的操作手段,使得数据彻底消除且无法通过任何手段恢复。 [23]
3.企业数据安全治理实践
(1)中国联通集团数据安全治理实践
该方案以防止数据泄漏与数据滥用为目标,以零信任安全为理念将自主研发的数据追踪溯源系统、数据安全网关系统等数据安全产品实际应用到具体的数据生产场景中,以解决数据安全问题,保障公司大数据业务的快速发展,保护用户个人隐私,维护社会稳定,保障国家安全。总体框架如图所示,目前,该方案已在浙江省大数据发展管理局、广东省政务服务数据管理局等多个政府部门落地实施,运行效果良好,降低了政务信息共享交换环节数据泄露、数据篡改、数据滥用等问题的风险。 [23]
中国联通数据安全体系总体框架
(2)蚂蚁集团数据安全治理实践
蚂蚁集团在过去几年的数据安全实践中,持续加大对数据、算法、产品的建设力度,不断强化流程规范的制定和实际落地,同时大幅提升数据安全基线、度量、审计、心智等重要环节工作,总结出一套行之有效、覆盖数据处理全生命周期的数据安全复合治理管理模式。蚂蚁数据安全复合治理管理模式如图所示。 [23]
蚂蚁数据安全复合治理管理模式
(3)百度数据安全治理实践
百度基于现有的数据安全策略及相关规范要求集成多维安全检测和防护能力,建立了覆盖数据全生命周期的数据安全与隐私保护解决方案,可实现“事前主动识别,事中灵活控制,事后全维追踪”的目标,百度数据安全治理实践路线如图所示,可为高价值数据、敏感数据和私有化部署数据等数据提供安全评估和保障。 [23]
百度数据安全治理实践路线

意义

播报
编辑
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。 [8]阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,显示大数据对于阿里巴巴集团来说举足轻重 [9]
有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。 [10]
大数据的价值体现在以下几个方面:
(1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;
(2)做小而美模式的中小微企业可以利用大数据做服务转型;
(3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。
不过,“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。”这确实是需要警惕的。
在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。例如,通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生:
(1)及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。
(2)为成千上万的快递车辆规划实时交通路线,躲避拥堵。
(3)分析所有SKU,以利润最大化为目标来定价和清理库存。
(4)根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。
(5)从大量客户中快速识别出金牌客户。
(6)使用点击流分析和数据挖掘来规避欺诈行为。 [11]

趋势

播报
编辑
趋势一:数据的资源化
何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。
趋势二:与云计算的深度结合
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。
趋势三:科学理论的突破
随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
趋势四:数据科学和数据联盟的成立
未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。
趋势五:数据泄露泛滥
未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。
趋势六:数据管理成为核心竞争力
数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。
趋势七:数据质量是BI(商业智能)成功的关键
采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。
趋势八:数据生态系统复合化程度加强
大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今,这样一套数据生态系统的基本雏形已然形成,接下来的发展将趋向于系统内部角色的细分,也就是市场的细分;系统机制的调整,也就是商业模式的创新;系统结构的调整,也就是竞争环境的调整等等,从而使得数据生态系统复合化程度逐渐增强。 [12]

IT分析工具

播报
编辑
大数据概念应用到IT操作工具产生的数据中,大数据可以使IT管理软件供应商解决大广泛的业务决策。IT系统、应用和技术基础设施每天每秒都在产生数据。大数据非结构化或者结构数据都代表了“所有用户的行为、服务级别、安全、风险、欺诈行为等更多操作”的绝对记录。
大数据分析的产生旨在于IT管理,企业可以将实时数据流分析和历史相关数据相结合,然后大数据分析并发现它们所需的模型。反过来,帮助预测和预防未来运行中断和性能问题。进一步来讲,他们可以利用大数据了解使用模型以及地理趋势,进而加深大数据对重要用户的洞察力。他们也可以追踪和记录网络行为,大数据轻松地识别业务影响;随着对服务利用的深刻理解加快利润增长;同时跨多系统收集数据发展IT服务目录。
大数据分析的想法,尤其在IT操作方面,大数据对于我们发明并没有什么作用,但是我们一直在其中。Gartner已经关注这个话题很多年了,基本上他们已经强调,如果IT正在引进新鲜灵感,他们将会扔掉大数据老式方法开发一个新的IT操作分析平台。 [13]

促进发展

播报
编辑
经李克强总理签批,2015年9月,国务院印发《促进大数据发展行动纲要》(以下简称《纲要》),系统部署大数据发展工作。
《纲要》明确,推动大数据发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。
《纲要》部署三方面主要任务。一要加快政府数据开放共享,推动资源整合,提升治理能力。大力推动政府部门数据共享,稳步推动公共数据资源开放,统筹规划大数据基础设施建设,支持宏观调控科学化,推动政府治理精准化,推进商事服务便捷化,促进安全保障高效化,加快民生服务普惠化。二要推动产业创新发展,培育新兴业态,助力经济转型。发展大数据在工业、新兴产业、农业农村等行业领域应用,推动大数据发展与科研创新有机结合,推进基础研究和核心技术攻关,形成大数据产品体系,完善大数据产业链。三要强化安全保障,提高管理水平,促进健康发展。健全大数据安全保障体系,强化安全支撑。 [14]
2015年9月18日贵州省启动我国首个大数据综合试验区的建设工作,力争通过3至5年的努力,将贵州大数据综合试验区建设成为全国数据汇聚应用新高地、综合治理示范区、产业发展聚集区、创业创新首选地、政策创新先行区。
围绕这一目标,贵州省将重点构建“三大体系”,重点打造“七大平台”,实施“十大工程”。
“三大体系”是指构建先行先试的政策法规体系、跨界融合的产业生态体系、防控一体的安全保障体系;“七大平台”则是指打造大数据示范平台、大数据集聚平台、大数据应用平台、大数据交易平台、大数据金融服务平台、大数据交流合作平台和大数据创业创新平台;“十大工程”即实施数据资源汇聚工程、政府数据共享开放工程、综合治理示范提升工程、大数据便民惠民工程、大数据三大业态培育工程、传统产业改造升级工程、信息基础设施提升工程、人才培养引进工程、大数据安全保障工程和大数据区域试点统筹发展工程。
此外,贵州省将计划通过综合试验区建设,探索大数据应用的创新模式,培育大数据交易新的做法,开展数据交易的市场试点,鼓励产业链上下游之间的数据交换,规范数据资源的交易行为,促进形成新的业态。
国家发展改革委有关专家表示,大数据综合试验区建设不是简单的建产业园、建数据中心、建云平台等,而是要充分依托已有的设施资源,把现有的利用好,把新建的规划好,避免造成空间资源的浪费和损失。探索大数据应用新的模式,围绕有数据、用数据、管数据,开展先行先试,更好地服务国家大数据发展战略。 [15]
2016年3月17日,《中华人民共和国国民经济和社会发展第十三个五年规划纲要》发布,其中第二十七章“实施国家大数据战略”提出:把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新;具体包括:加快政府数据开放共享、促进大数据产业健康发展。 [16]