大数据技术是一系列技术的总称。它是一个集数据采集与传输、数据存储、数据处理与分析、数据挖掘、数据可视化等技术于一体的庞大而复杂的技术系统。
按照大数据从源头到应用的传输过程,大数据架构设计可以分为数据采集层、数据存储层、数据处理层、数据治理与建模层、数据应用层.
?
?
1.数据采集??层
大数据采集层主要采用大数据采集技术,实现数据的ETL操作。 ETL是英文Extract-Transform-Load的缩写。数据源端被提取、转换并加载到目的端。
?
二、数据存储层
当收集到大量数据时,我们需要存储大数据。数据存储分为持久化存储和非持久化存储。持久化存储是指数据存储在磁盘中,即使关机或断电,数据也不会丢失。非持久化存储是指数据存储在内存中,读写速度快,但关机或断电后数据会丢失。
?
三个。数据处理层
我们收集数据的时候,没有数据的存储和读写。问题,我们手里的这一堆数据怎么办?除了保留原始数据,做好数据备份之外,我们还需要考虑利用它们来产生更大的价值。所以首先我们需要处理这些数据。大数据处理分为批处理和实时处理两大类。
?
四个。数据治理和建模层
数据架构设计和数据治理紧密相连,数据采集、数据存储和数据处理是大数据架构的基本设置。总的来说,完成以上三个层次的数据工作后,数据已经转化为基础数据,为上层业务应用提供支持。然而,在大数据时代,数据类型多样、单位值稀疏的特点需要数据治理和融合建模。通过使用R语言、Python等对数据进行ETL预处理,然后基于算法模型和业务模型进行融合建模,从而更好地为业务应用提供优质的底层数据。
?
5.数据应用层
数据应用层是大数据技术和应用的目标。它通常包括信息检索和关联分析等功能。 Lucene、Solr、Elasticsearch等开源项目为信息检索的实现提供了可能。
大数据架构为大数据业务应用提供了通用架构。还需要根据行业领域、公司技术积累和业务场景,从业务需求、产品设计、技术选型到实施方案具体分析过程中的具体问题,并利用大数据可视化技术进一步深入深入形成更具体的应用,包括大数据交易与共享、基于开发平台的大数据应用、基于大数据的工具应用。
?
这是一个理论上的数据架构设计。你可能要问了,在具体的应用中,有没有什么好的数据架构设计软件?在这里,我将向您展示Smartbi的数据架构设计系统。
?
1.业务应用:其实就是指数据采集。你如何收集数据?在互联网上收集数据相对简单。可以通过网页和应用程序收集数据。例如,许多银行现在都有自己的应用程序。
更深层次还可以收集用户行为数据,可以分为多个维度进行详细分析。但对于线下行业,数据采集需要借助各种业务系统来完成。
?
2.数据整合:其实就是ETL,指的是用户从数据源中提取出需要的数据,经过数据清洗,最后根据预先定义的数据仓库模型,将数据加载到数据仓库中。这里的 Kettle 只是 ETL 的一种。
?
3.数据存储:指构建数据仓库。简单来说,可以分为业务数据层(DW)、指标层、维度层、汇总层(DWA)。
?
?
四个。数据共享层:提供数据仓库和业务系统之间的数据共享服务。 Web Service和Web API代表了一种数据之间的连接方式,还有一些其他的连接方式,可以根据自己的情况来确定。
?
5.数据分析层:分析函数比较容易理解,就是各种数学函数,如K-means分析、聚类、RMF模型等。列存储允许磁盘中的每个Page只存储单列的值,而不是整行的值。这种压缩算法会更有效率。此外,这可以减少磁盘 I/O 并提高缓存利用率。因此,将更有效地使用磁盘存储。
?
6.数据呈现:结果以什么形式呈现,其实就是数据可视化。这里推荐使用敏捷BI。与传统BI不同,它可以通过简单的拖拽生成报表,学习成本低。国内敏捷BI中,个人用户推荐Tableau,银行等企业级需求推荐永宏BI。
?
7.数据访问:这个比较简单。这取决于您如何查看数据。图中的例子是因为B/S架构。通过浏览器访问最终的可视化结果。
文章来源:《大数据》 网址: http://www.dsjzz.cn/zonghexinwen/2021/0625/2544.html