即使你无需知道所有成千上万的语言和工具来处理各种程序,但是你应该知道当需要它们的时候如何选择它们。现在让我们看看微软件SQL Server分析服务支持的多维表达语言(MDX),虽然我不可能在一篇简短的文章介绍所有的语言,但我可以为你提供一个大致的轮廓,以便让你在需要的时候如何去选择。
OLTP vs. OLAP 理解数据库两个类之间的定义是非常重要的。诸如SQL Server的关系数据库有时候也被称为在线处理过程(OLTP)数据库。这样的数据库已经被优化而可以高效率地存储和获取简单的各种信息。例如,你可以知道公司仓库的Colony Bagels的销售情况,或者,1997的七月份的销售情况。为了获取这样的信息,你可以编写如下的SQL查询语句:
SELECT SUM(Sales.[Unit Sales])
FROM (Sales INNER JOIN Stores
ON Sales.StoreID = Stores.StoreID)
INNER JOIN Products
ON Sales.ProductID = Products.ProductID
WHERE Stores.StoreCity = 'Corvallis'
AND Products.ProductName = 'Colony Bagels'
AND Sales.SaleDate BETWEEN '07-01-1997' AND '07-31-1997'
对于获取特定信息,这样的查询是相当出色的。但是OLTP数据库和SQL查询发生异常通常是在数据量很大的时候。你如何知道以不同状态存储的产品之间的区别呢?当然,你可以编写一个SQL查询来获取这样的信息,但因为它要涉及到所有的源数据,所以这样的查询会变得相当的缓慢,连接与联合也会变得很狭窄。
使用在线处理过程(OLAP)会避免这样的窘境。OLAP数据库可以从OLTP数据库(或其他数据库)中得到它们的源数据,但它们以多维形式存储。一个OLAP数据库可以以不同状态和不同产品而预先计算所有的数据。
简化信息的不同类型被称为维数(dimensions),通过多维简化大量数据的数据结构被称为一个立体(cube),简化信息被称为量度(measure)。任何一个立体都有一个或多个维数和量度。
建立一个立体需要花时间和计算“马力(horsepower)”,通常这样过程可以以固定的时间间隔进行。这一方法的好处是一个立体建立之后, 浏览时无需要涉及到原始数据。
图A显示了关于Microsoft SQL Server 分析服务的Sales立体总貌。
图 A 在一个立体中浏览数据
使用MDX MDX在语法上与SQL很相似,但它却具备处理一个OLAP立体中多维数据的更好功能。对于绝大多数的通用任务,你都可以使用MDX来获取一个立体中的信息。毕竟,OLAP数据库的主要作用就是更容易地得到简化信息。具体实现这一功能即MDX SELECT语句,这与SQL SELECT语句有很大的区别。
一个MDX SELECT语句可以表达如下:
SELECT [, …]
FROM
WHERE
axis语句指明了要返回的简化信息,通常它们都是一些维数。Cube语句指定包含数据的OLAP立体。Slicer语句指定要返回的相关数据,通常是量度。以下的MDX查询将获得需要的信息:
SELECT
[Store].[Store Country].[USA].Children ON COLUMNS,
[Product].[All Products].[Food].Children ON ROWS
FROM [Sales]
WHERE ([Measures].[Unit Sales])
在这种情况下,有两种axis规则,其中一个为输出的纵数,另一个为输出的行数。每一种规则都指定了维数的一部分。图B显示了运行MDX范例程序的结果。
图 B
运行一个MDX查询
MDX的深度
还有更多的MDX,我无法在一个简单的查询为你提供所有内容。当然,以下给出了可以使用MDX来处理高级任务的列表:
可以返回多达128维数的结果(虽然你无法找到显示这些维数的工具)。
查找最大或最小数值。
灵活的排列结果。
结合现有的量度计算新的成员。
返回单个量度的属性。
格式结果。
对比不同的时间间隔。
在外部类库中定义常用功能。
MDX的目标非常明确,那就是联合分析服务来提供获取大批数据的有效机制。任何时候每一步工作都围绕大规模数据库而开展,你应该把MDX当成解决问题的一种工具。