数据仓库建模(数据仓库建模的流程有几个,分别是什么)

本篇文章给大家谈谈数据仓库建模,以及数据仓库建模的流程有几个,分别是什么对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。

本文目录一览:

数据仓库数据建模的几种思路

数据仓库接典型的两种数据仓库建模的理论是维度建模和基于主题域的实体关系建模,这两种方式分别以Kimball和Immon两位大师为代表。维度建模以数据分析需求为驱动,倡导总线架构:一致的事实和一致的维度,这种数据模型易于用户理解和数据分析操作。基于主题域的实体关系建模以源系统数据为驱动,整合企业的所有数据,站在企业级的高度对数据进行抽象,整合,采用3NF的实体关系理论建模,这种数据建模方式以更为抽象的方式尝试建立一个相对稳定的数据模型,并能描述企业级的数据关系。在工业界往往把两种方式结合起来运用数据仓库的不同数据层次结构中。 我们上周主要是针对采用基于主题域的败兆实体关系建模中数据整合的方式进行较为深入的讨论,讨论了以下三种思路: 以属性聚集的方式同一主题域中不同实体的属性。比如对于会员、公司、客户等等实体对象我们都有地址属性信息、名称标识属性信息等等,这种思路就是把属性内聚性高的字段整合在一起,并把不同的属性打上类型标识以树表的形式存放。它的优点是:第一,模型稳定性好,外围系统变化了字段,只需要添加不同的类型,不需要进行表结构的变更;第二,减少大量冗余记历史数据。它的缺点是:第一,丢失了察春租很多实体的属性标识信息,我们从模型上将看不到一个会员究竟有哪些地址属性,只能通过查询类型代码才能获取这些信息;第二,它极度的膨胀数据表的记录数,因为它采用竖表的形式存放;第三,应用起来森慎很难,效率是一个大问题,因为我们往往要使用一个实体的多个字段,就会有很多join操作和竖转横的操作。第四:属性聚集也是一件比较难操作的过程,应为这是一个抽象的过程,对建模人员的业务背景知识和抽象能力都提出了很高的要求;第五:虽然减少了冗余的记历史数据,但是记历史的操作也较为复杂。 采用面向对象建模的方式,抽象不同实体的共同属性,然后再一步步采用继承、组合等面向对象的思想具体化实体。他的优点是模型模型概念比较清晰,缺点也是模型相对不是很稳定,整合后的数据的后续应该也面临重新组合的问题。 贴源的建模方式: 采用基本保持源系统的方式进行建模,重点放在数据的标准化,一致化,和数据业务意义的梳理。这种做法和我们目前数据仓库的做法比较类似。它具有实施比较容易,快速实现,前台可以直接使用数据;缺点是整合度不高,模型不稳定。 模型终究是为数据分析应用服务的,具体采用什么方式建模需要根据实际业务特点和源系统的特点决定。阿里巴巴的源系统具有变化快,数据分析应该变化快的特点,响应速度也要快的特点,而且我们要求不同系统之间整合的需求并不是很大,往往深度的数据整合带来的是应用上的不方便。因此,我个人觉得采用贴源的方式是当前更优的方案。

请问数据仓库都用什么建立?

1、首先你得搞清楚建设数仓的目的是什么

是偏向于整合各系统数据,为数据分析决策服务,还是偏向于快速的完成分析决策需求?

如果是前者,那么在数据仓库建模的时候一般会选择ER建模方法;

如果是后者,一般会选择维度建模方法。

ER建模:即实体关系建模,由数据仓库之父BIll Inmon提出,核心思想是从全企业的高度去设计三范式模型,用实体关系描述企业服务。主张的是自上而下的架构,将不同的OLTP数据集中到面向主题的数据仓库中。

维度建模:由Kimball提出,核心思想是从分析决策的需求出发构建模型。这种模型由事实表和维表组成败罩携,即星型模型和雪花模型。Kimball倡导自下而上的架构,可以针对独立部门建立数据集市,再递增的构建,汇总成数据仓库。

2、其次你得进行深入的业务调研和数据调研

业务调研:深入的业务调研能使你更加明确数仓建设的目的;同时也利于后续的建模设计,随着调研的开展,如何将实体业务抽象为数仓模型会更加明朗。

数据调研:各部门或各科室的数据现状了解,包括数据分类、数据存储方式、数据量、具体的数据内容等等。这对后续的主数据串联或者维度一致性处理等等都是必须的基础。

3、然后是数据仓库工具选型

传统型数据仓库:一般会选择第三方厂家的数据库和配套ETL工具。因为有第三方支持,相对有保障;但缺点也很明显,受约束以及成本较高。

NoSQL型数据仓库:一般是基于hadoop生态的数据仓库。hadoop生态已经非常强大,可以找到各种开源组件去支持数据仓库。缺点是需要招聘专门人士去摸索,并且相对会存在一些未知隐患。

4、最后是设计与实施

设计:包括数据架构中的数据层次划分以及具体的模型设计;也包括程序架构中的数据质量管理、元数据管理、调度管理等闷丛;

实施:规范化的项目管理实施,但同时也需记住一点,数据仓库察伏不是一个项目,它是一个过程。

数据仓库有哪些模型?举例说明

1、星型模型

星型模型是一种由一点向外辐射的建模范例,中间有一单一对象沿半径向外连接到多个对象。星型模型反映了最终用户对商务查询的看法:销售事实、赔偿、付款和货物的托运都用一维或多维描述(按月、产品、地理位置)。星型模型中心的对象称为“事实表”,与之相连的对象称为“维表”。对事实表的查询就是获取指向维表的指针表,当对事实表的查询与对维表的查询结合在一起时,就可以检索大量的信息。通过联合,维表可以对查找标准细剖和聚集。

2、雪花模型

雪花模型是对星型模型的扩展,每一个点都沿半径向外连接到多个点.雪花模型对星型的维表进一步标准化,它的优点是通过最大限度的减少数据存储量以及把较小的标准化表(而不是大的非标准化表)联合在一起来改善查询性能。化及维的较低的粒度,雪花模型增加了应用程序的灵活性。

3、混合模型

混合模型是星型模型和雪花模型的一带燃种折衷模式,其含行山中星型模型由谈中事实表和标准化的维表组成,雪花模型的所有维表都进行了标准化。在混合模型中,只有最大的维表才进行标准化,这些表一般包含一列列完全标准化的(重复的)数据。

[img]

数据仓库建模概念

总线矩阵是一个二维表格,每一行对应一个 业务线 ,每一列对应一个 维度 ,每一个交叉点对应了业务和维度的联系

我们在业务分析时使用雪花模型,最终存储到数据仓库中的是星型模型。

事实表由度量值和维度值组成,度好樱笑量值反应了该业务过程涉及的数字指标,维度值反应了该业务过程的维度信息。

原子粒度,聚集事实表。

一定要颂扒从原子粒度开始设计。

存储外键关联维度

退化维度(DD, Degradation dimension)

Operational Data Store,数据运营层。从其他业务系统抽取的数据,直接存储。

Data Warehouse,数据仓库层,内部又划分为3层。

维度表

服务特定的应用,友含复用性不强,存储在响应速度较快的存储引擎。例如报表数据。

关于数据仓库建模和数据仓库建模的流程有几个,分别是什么的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。

相关阅读

  • 物联网传感(物联网传感技术)

    物联网传感(物联网传感技术)

    物联网传感技术是指通过传感器设备和网络连接技术,将各种物理设备和环境数据实现互联互通和数据传输交换的技术。通过物联网传感技术,可以实现设备的智能化监测、数据的实时采集和传输,为人们的生活和工作带来便利和效率提升。# 传感技术的基本原理传感技...

    2024.04.22 22:33:30作者:intanet.cnTags:物联网传感
  • 什么模式将是物联网发展的最高阶段(目前物联网的主要模式)

    什么模式将是物联网发展的最高阶段(目前物联网的主要模式)

    **物联网发展的最高阶段****简介**物联网是近年来飞速发展的一个领域,通过连接各种物体和设备,实现信息的传输和数据的交换。在不断技术进步的推动下,物联网的发展也不断向前迈进,那么什么模式将是物联网发展的最高阶段呢?**云计算和大数据驱动...

    2024.04.22 22:31:00作者:intanet.cnTags:什么模式将是物联网发展的最高阶段
  • 二本物联网就业工资多少(二本院校物联网专业前景)

    二本物联网就业工资多少(二本院校物联网专业前景)

    标题:二本物联网就业工资多少简介:物联网是当今IT技术中一个发展迅速的领域,那么二本物联网专业毕业生就业后的工资水平如何呢?本文将详细说明此问题。一、毕业生就业现状二本物联网专业的毕业生在就业市场上的需求越来越大,各大企业纷纷招聘物联网专业...

    2024.04.22 22:29:00作者:intanet.cnTags:二本物联网就业工资多少
  • 云计算应用举例(云计算应用领域举例说明)

    云计算应用举例(云计算应用领域举例说明)

    标题:云计算应用举例简介:云计算作为一种新型的计算方式,已经在各行各业得到广泛应用。本文将通过几个具体的案例来说明云计算在各领域的应用情况。一、企业数据存储与备份许多企业选择将数据存储和备份转移到云端,以实现数据的安全共享和便捷备份。通过云...

    2024.04.22 22:26:00作者:intanet.cnTags:云计算应用举例
  • 浦口人工智能产业园(浦口人工智能产业园地址)

    浦口人工智能产业园(浦口人工智能产业园地址)

    浦口人工智能产业园是江苏省南京市浦口区重点打造的人工智能产业基地,致力于推动人工智能技术在各个领域的创新和应用。该产业园汇聚了众多优秀的人才和企业,为人工智能技术在浦口地区的发展注入了新的活力和动力。**一、产业园概况**浦口人工智能产业园...

    2024.04.22 22:25:30作者:intanet.cnTags:浦口人工智能产业园
  • 包含tomtomspark的词条

    包含tomtomspark的词条

    **简介**TomTom Spark 是一款智能穿戴设备,集合了多种功能,使用户可以更好地管理运动和健康。它不仅可以追踪用户的运动数据,还可以播放音乐和提供GPS导航功能。**功能介绍**1. **运动数据追踪**:TomTom Spark...

    2024.04.22 22:25:00作者:intanet.cnTags:tomtomspark
  • 什么是云计算大数据(什么是云计算大数据人工智能)

    什么是云计算大数据(什么是云计算大数据人工智能)

    简介:云计算大数据是近年来备受瞩目的技术概念,它将云计算和大数据两大技术结合起来,为企业和个人提供了更加灵活、强大和高效的数据处理与存储解决方案。在当今数字化时代,云计算大数据已经成为企业数据管理和分析的重要工具。多级标题:一、云计算的概念...

    2024.04.22 22:19:00作者:intanet.cnTags:什么是云计算大数据
  • 网络安全警句(网络安全警句100句)

    网络安全警句(网络安全警句100句)

    网络安全是当今信息时代中至关重要的问题之一,随着互联网技术的快速发展,网络安全问题也日益凸显。保护个人信息免受黑客攻击、防止数据泄露等问题已成为社会各界广泛关注的焦点。在这个背景下,我们不得不引起更加注意和警惕。本文将介绍一些关于网络安全的...

    2024.04.22 22:17:00作者:intanet.cnTags:网络安全警句