让我们列出主要的大数据存储库:
DWH(数据仓库)。公司日常工。数据按照专业领域分类,并按时间顺序排列。例如,市场 DWH 包含有关产品、客户、订单等的信息。信息数组的形成是根据 ETL 原则(来自英文提取、转换、加载)进行的,其含义是提取、组织(处理)并以单一格式保存数据。
数据湖
由不具有统一格式的不同信息组成的数组。数据被提取出来然后放入数据库并进行转换。该方法类似于包含有序 电话号码列表 图形、文本和视频文件的虚拟磁盘。标记表起到了数据库的作用,指明了存储某些信息的单元格的地址。
数据库管理系统。数据库管理系统分为常规数据库管理系统和关系数据库管理系统。在处理大数据时,第二种方法使用得更频 它是一种稳健且不太复杂的算法 繁。数据以表格形式构建,并通过键相互链接。 SQL(一种特殊的算法语言)用于调用命令进行查询。这些表的行是事件,列是其属性。由于相邻单元格中的数 联合王国数据 据会被处理,因此这种方法可以让您非常快速地生成报告。
一些公司实践使用传统(非关系型)DBMS。在这样的系统中,表格之间没有相互链接,数据按照预先创建的方案存储。这种组织方法确保了所需片段的高速提取和高负载程序的启动。一个典型的例子是亚马逊的 DynamoDB。它是一个无服务器的 NoSQL DBMS,支持各种语言的查询。应用领域:智能家居系统、数字广告、在线游戏行业。
表壳:VT-metall
了解我们如何将莫斯科一家金属加工公司的 招聘成本降低 13 倍
数据处理
信息量越大,分析所需的时间就越长。大数据技术涉及使用按照 MapReduce 原理运行的专门程序。
应用程序根据指定的标准选择片段,然后将数据分布在不同的对象(服务器、计算机等)之间。然后直接处理所有这些片段,并且该过程并行进行。