大数据的“十五大核心技术”总结

来源:http://www.gdhfd.com 作者:澳门太阳娱乐集团官网 人气:181 发布时间:2019-05-04
摘要:洗干净、切成块、冷冻好的红烧肉,啊,不是,存储好的工业数据如此之海量,怎么推送给用户就成为数据可视化层要干的事情了。数据可视化最近也比较火,原先做报表的,现在都号

洗干净、切成块、冷冻好的红烧肉,啊,不是,存储好的工业数据如此之海量,怎么推送给用户就成为数据可视化层要干的事情了。数据可视化最近也比较火,原先做报表的,现在都号称大数据可视化公司了,其实,单纯的大数据可视化是没有意义的,没有对工业业务的深入理解,很难做出让客户的满意的可视化结果。可视化包括许多方式,如报表、二维地图、三维地图、三维模型、短信、手机APP、微信、大屏等等,总之,通过一切手段让用户看到自己想看的数据即可。

B.数据集成

数据集成,指将不同数据源中的数据,合并存放到统一数据库的,存储方法。

该过程着重解决三个问题:模式匹配、数据冗余、数据值冲突检测与处理。

实体识别问题处理方法:针对“不同集合来源的数据,因命名差异导致的实体名称不一致”的问题,通过“利用元数据,匹配不同来源实体”的方法,进行实体识别。

数据冗余处理方法:对于因“不同来源数据,属性命名方式不一致”所导致的数据冗余问题,利用皮尔逊积矩Ra,b,结合绝对值比较的方法,确定数据间的相关性。

数据值冲突问题处理方法:对具有不同数值的各来源实体,进行数据值冲突检测与处理。

图1 工业大数据应用通用参考架构

C.数据转换

数据转换,指对所抽取出来的数据中存在的不一致,进行处理的过程。它同时包含了数据清洗的工作,即根据业务规则对异常数据进行清洗,以保证后续分析结果准确性。

数据名称及格式统一处理:即数据粒度转换、商务规则计算以及统一的命名、数据格式、计量单位等;

数据仓库中较源数据库多出数据的处理:字段的组合、分割、计算。

工业大数据系统非常重要的,也是基础的层次是数据采集。没有数据采集,所有的强大的、华丽的、技术非常NB的各种东东只能躲在黑暗里哭泣,英雄无用武之地。在这一层,也是工业大数据与互联网大数据差异非常大的一层,互联网大数据的数据采集主要靠用户的各种操作,例如网页浏览、系统登录、信息的互动、鼠标的点击等,而工业大数据的数据来源更加多种多样,最基本的是用于采集各类工业信号的传感器,通过传感器的采集,可以获得机器设备的运行状态、环境的指标、操作人的操作行为等各类信息。除通过传感器采集的信息,还包括现场的视频信息,各类图像设备拍摄的图片(例如,巡检人员用手持设备拍摄的设备、环境信息图片),语音及声音信息(例如,操作人员的通话、设备运转的音量等),遥感遥测信息等等,这些信息都是通过各类设备传输的。除此之外,还有操作人员手工录入的各类信息,采集软件抓取的企业内网的信息、互联网上与企业相关的信息等等。这些信息共同构成了数据采集的来源。

三. 大数据存储

大数据存储,指用存储器,以数据库的形式,存储采集到的数据的过程。大数据存储技术的三种典型路线:

A. 基于MPP架构的新型数据库集群

采用Shared Nothing架构,结合MPP架构的高效分布式计算模式,通过列存储、粗粒度索引等多项大数据处理技术,重点面向行业大数据所展开的数据存储方式。具有低成本、高性能、高扩展性等特点,在企业分析类应用领域有着广泛的应用。

较之传统数据库,其基于MPP产品的PB级数据分析能力,有着显著的优越性。自然,MPP数据库,也成为了企业新一代数据仓库的最佳选择。

B. 基于Hadoop的技术扩展和封装

基于Hadoop的技术扩展和封装,是针对传统关系型数据库难以处理的数据和场景(针对非结构化数据的存储和计算等),利用Hadoop开源优势及相关特性(善于处理非结构、半结构化数据、复杂的ETL流程、复杂的数据挖掘和计算模型等),衍生出相关大数据技术的过程。

伴随着技术进步,其应用场景也将逐步扩大,目前最为典型的应用场景:通过扩展和封装 Hadoop来实现对互联网大数据存储、分析的支撑,其中涉及了几十种NoSQL技术。

C. 大数据一体机

这是一种专为大数据的分析处理而设计的软、硬件结合的产品。它由一组集成的服务器、存储设备、操作系统、数据库管理系统,以及为数据查询、处理、分析而预安装和优化的软件组成,具有良好的稳定性和纵向扩展性。

图片 1

A. 数据清理

数据清理,指利用ETL(Extraction/Transformation/Loading)和Potter’s Wheel等清洗工具,对有遗漏数据(缺少感兴趣的属性)、噪音数据(数据中存在着错误、或偏离期望值的数据)、不一致数据进行处理。

遗漏数据处理方法:用全局常量、属性均值、可能值填充;或直接忽略该数据;

噪音数据处理方法:用分箱(分组原始数据,并分别对各组数据平滑处理)、聚类、计算机人工检查、回归等方法,去除噪音处理;

不一致数据处理方法:手动更正。

工业大数据在业务逻辑大的分层上和互联网大数据类似,一般都分为三部分,数据采集层、数据处理层和数据展现层,当然,具体到一个实际案例中,或者说根据不同的应用场景,可以划分为更多的层次,比如数据处理可以分为元数据管理层、数据交互层、数据分析层等等,如果你有兴趣,可以把大数据划分为N层。在分层的同时,还有许多同等重要的事情,例如安全保障、运维服务、测试规范等等,要都说清楚,基本也就搞不清楚工业大数据是怎么回事了。所以我们今天只讨论通用的、简化的、适用于一般场景的架构,而且仅仅是业务和逻辑层面的,技术层面的我们后面再详细说明。

一. 大数据采集

大数据采集,即对各种来源(如RFID射频数据、传感器数据、移动互联网数据、社交网络数据等)的结构化和非结构化海量数据,所进行的采集。

之所以称其为“大”,是因为数据采集过程中,常需要处理“成千上万用户并发访问和操作”的难题。这里我们列举出三个大数据采集的常用方法:

A. 数据库采集

关注大数据技术的小伙伴,想必都对Sqoop和ETL工具比较熟悉。实际上,传统的关系型数据库MySQL和Oracle 依然充当着许多企业的数据存储方式。当然了,目前对于开源的Kettle和Talend本身,也集成了大数据集成内容,可实现hdfs,hbase和主流Nosq数据库之间的数据同步和集成。

B. 网络数据采集

一种借助网络爬虫或网站公开API,从网页获取非结构化或半结构化数据,并将其统一结构化为本地数据的,数据采集方式。

C. 文件采集

场被谈起的flume实时文件采集和处理,就是一种典型的文件采集形式。除此之外,基于ELK(Elasticsearch、Logstash、Kibana)的日志采集和增量采集,也涉及到“文件采集”这一数据采集形式。

本文由澳门太阳娱乐集团官网发布于澳门太阳娱乐集团官网,转载请注明出处:大数据的“十五大核心技术”总结

关键词:

上一篇:作品的构成要件应当是什么?

下一篇:没有了

最火资讯