Серая мышь голубых кровей. Об одной математической интерпретации OLAP-кубов::Журнал СА 09.2016
www.samag.ru
     
Поиск   
              
 www.samag.ru    Web  0 товаров , сумма 0 руб.
E-mail
Пароль  
 Запомнить меня
Регистрация | Забыли пароль?
Журнал "Системный администратор"
Журнал «БИТ»
Подписка
Архив номеров
Где купить
Наука и технологии
Авторам
Рекламодателям
Контакты
   

  Опросы
  Статьи

Событие  

В банке рассола ждет сисадмина с полей фрактал-кукумбер

Читайте впечатления о слете ДСА 2024, рассказанные волонтером и участником слета

 Читать далее...

Организация бесперебойной работы  

Бесперебойная работа ИТ-инфраструктуры в режиме 24/7 Как обеспечить ее в нынешних условиях?

Год назад ИТ-компания «Крок» провела исследование «Ключевые тренды сервисного рынка 2023». Результаты

 Читать далее...

Книжная полка  

Читайте и познавайте мир технологий!

Издательство «БХВ» продолжает радовать выпуском интересных и полезных, к тому же прекрасно

 Читать далее...

СУБД PostgreSQL  

СУБД Postgres Pro

Сертификация по новым требованиям ФСТЭК и роль администратора без доступа к данным

 Читать далее...

Критическая инфраструктура  

КИИ для оператора связи. Готовы ли компании к повышению уровня кибербезопасности?

Похоже, что провайдеры и операторы связи начали забывать о требованиях законодательства

 Читать далее...

Архитектура ПО  

Архитектурные метрики. Качество архитектуры и способность системы к эволюционированию

Обычно соответствие программного продукта требованиям мы проверяем через скоуп вполне себе понятных

 Читать далее...

Как хорошо вы это знаете  

Что вам известно о разработках компании ARinteg?

Компания ARinteg (ООО «АРинтег») – системный интегратор на российском рынке ИБ –

 Читать далее...

Графические редакторы  

Рисование абстрактных гор в стиле Paper Cut

Векторный графический редактор Inkscape – яркий представитель той прослойки open source, с

 Читать далее...

День сисадмина  

Учите матчасть! Или как стать системным администратором

Лето – время не только отпусков, но и хорошая возможность определиться с профессией

 Читать далее...

День сисадмина  

Живой айтишник – это всегда движение. Остановка смерти подобна

Наши авторы рассказывают о своем опыте и дают советы начинающим системным администраторам.

 Читать далее...

Виртуализация  

Рынок решений для виртуализации

По данным «Обзора российского рынка инфраструктурного ПО и перспектив его развития», сделанного

 Читать далее...

Книжная полка  

Как стать креативным и востребованным

Издательский дом «Питер» предлагает новинки компьютерной литературы, а также книги по бизнесу

 Читать далее...

Книжная полка  

От создания сайтов до разработки и реализации API

В издательстве «БХВ» недавно вышли книги, которые будут интересны системным администраторам, создателям

 Читать далее...

Разбор полетов  

Ошибок опыт трудный

Как часто мы легко повторяем, что не надо бояться совершать ошибки, мол,

 Читать далее...

1001 и 1 книга  
19.03.2018г.
Просмотров: 6212
Комментарии: 0
Машинное обучение с использованием библиотеки Н2О

 Читать далее...

12.03.2018г.
Просмотров: 6920
Комментарии: 0
Особенности киберпреступлений в России: инструменты нападения и защита информации

 Читать далее...

12.03.2018г.
Просмотров: 4204
Комментарии: 0
Глубокое обучение с точки зрения практика

 Читать далее...

12.03.2018г.
Просмотров: 3003
Комментарии: 0
Изучаем pandas

 Читать далее...

12.03.2018г.
Просмотров: 3804
Комментарии: 0
Программирование на языке Rust (Цветное издание)

 Читать далее...

19.12.2017г.
Просмотров: 3815
Комментарии: 0
Глубокое обучение

 Читать далее...

19.12.2017г.
Просмотров: 6309
Комментарии: 0
Анализ социальных медиа на Python

 Читать далее...

19.12.2017г.
Просмотров: 3161
Комментарии: 0
Основы блокчейна

 Читать далее...

19.12.2017г.
Просмотров: 3454
Комментарии: 0
Java 9. Полный обзор нововведений

 Читать далее...

16.02.2017г.
Просмотров: 7273
Комментарии: 0
Опоздавших не бывает, или книга о стеке

 Читать далее...

17.05.2016г.
Просмотров: 10637
Комментарии: 0
Теория вычислений для программистов

 Читать далее...

30.03.2015г.
Просмотров: 12360
Комментарии: 0
От математики к обобщенному программированию

 Читать далее...

18.02.2014г.
Просмотров: 13995
Комментарии: 0
Рецензия на книгу «Читаем Тьюринга»

 Читать далее...

13.02.2014г.
Просмотров: 9120
Комментарии: 0
Читайте, размышляйте, действуйте

 Читать далее...

12.02.2014г.
Просмотров: 7073
Комментарии: 0
Рисуем наши мысли

 Читать далее...

10.02.2014г.
Просмотров: 5384
Комментарии: 3
Страна в цифрах

 Читать далее...

18.12.2013г.
Просмотров: 4613
Комментарии: 0
Большие данные меняют нашу жизнь

 Читать далее...

18.12.2013г.
Просмотров: 3424
Комментарии: 0
Компьютерные технологии – корень зла для точки роста

 Читать далее...

04.12.2013г.
Просмотров: 3153
Комментарии: 0
Паутина в облаках

 Читать далее...

03.12.2013г.
Просмотров: 3399
Комментарии: 0
Рецензия на книгу «MongoDB в действии»

 Читать далее...

02.12.2013г.
Просмотров: 3022
Комментарии: 0
Не думай о минутах свысока

 Читать далее...

Друзья сайта  

 Серая мышь голубых кровей. Об одной математической интерпретации OLAP-кубов

Архив номеров / 2016 / Выпуск №09 (166) / Серая мышь голубых кровей. Об одной математической интерпретации OLAP-кубов

Рубрика: Базы данных /  Аналитика

Константин Токмачев КОНСТАНТИН ТОКМАЧЕВ, ЗАО «Русское море», системный аналитик, ciril2@proc.ru

Серая мышь голубых кровей
Об одной математической интерпретации OLAP-кубов

У скромной утилиты SSAS – серой мыши программного обеспечения SQL-сервера – обнаруживаются замечательная история и глубокая математическая подоплека

Зачем все это нужно, искать отцов-основателей, идеи, лежащие в основе? Как говорится, «работает – и работает», что еще?

Причин – две. Во-первых, аналитик или программист, который не понимает, как работает его средство, похож на известного пленника «китайской комнаты», придуманной американским философом Дж. Серлом. Пользуясь косвенными указаниями, этот пленник выполняет задания на китайском, не зная языка. Китайцы в восторге, принимают его за своего. Сам же он не понимает, что делает. По Серлу, этот пленник подобен вычислительной машине, имеющей сознание…

Во-вторых, забыв о корнях, мы можем ненароком засушить дерево. Или вырастить декоративный бонсай на месте могучего дуба. Но от довольно витиеватых «вокруг да около» перейдем к делу.

Работая несколько лет с OLAP-кубами (утилита MS SQL Server Analysis Services, SSAS), я часто задумывался, какую известную математическую идею они выражают? То, что такая идея есть, я не сомневался. Конструкции языка MDX, calculations из стандартного интерфейса SSAS, напоминали объекты теории меры и теории вероятностей: множества, меры, интегралы Лебега, условные математические ожидания и даже мартингалы, но все это в каком-то стертом илизамаскированном виде. Фигура загадочного Мойши Пасуманского, якобы создателя языка MDX, только накаляла интригу. Но пока работаешь, некогда «удовлетворять свое любопытство за счет работодателя», поэтому мои догадки копились, но не разрешались. Наконец, уйдя с работы, я получил досуг и возможность во всем разобраться.

Преимущества OLAP

Чем замечательны OLAP-кубы? Простотой в формулировке и скоростью в расчете аналитических показателей работы фирмы. Разумеется, любой конкретный показатель, рассчитанный методом OLAP, может быть получен другими способами: SQL-запросами к базе данных, содержащими агрегатные функции (типа sum), предложения group by, конструкции pivot table и т.д. На универсальных языках могут быть написаны прикладные программы или даже параметрические генераторы отчетов, обращающиеся к базе данных с SQL-запросами. Для ускорения аналитических расчетов в рамках учетных ERP-систем (Enterprise Resource Planning) могут создаваться промежуточные накопители данных (типа регистров в 1С). Кроме того, для задач формата desktop могут быть применены функционально близкие к OLAP-кубам «сводные таблицы» MS Excel.

И все-таки, когда речь идет о больших объемах данных (миллионы записей), комплексных показателях и многоуровневых разрезах, десятках и сотнях пользователей, динамичном и вариативном стиле работы корпорации, все эти методы безнадежно проигрывают OLAP-кубам.

С технической точки зрения, что означает «создать аналитику»? Как минимум написать SQL-запрос и выполнить его. Чтобы заказчик в дальнейшем мог самостоятельно запускать этот запрос, придется написать программу спользовательским интерфейсом и обращением к SQL-серверу. В программе можно предусмотреть параметризацию запроса и несколько форматов ответа. Думаю, никто не будет спорить, что компьютерные системы крупных фирм буквально забиты сотнями и тысячами таких программ. Эта программная свалка характеризуется дублированием программ, отсутствием преемственности, многократными перерасчетами одних и тех же показателей, наконец, постоянной загрузкой программистов и постановщиков повторной работой, расточительной для корпорации.

Кстати, качество программ (в т.ч. SQL-запросов) будет не очень высоким. Ведь их пишут прикладные программисты, нанятые не для разработки аналитики, а для сопровождения учетных ERP-систем. (Примеры крайне неудачных алгоритмов работы с базами данных можно встретить и среди обработок 1С, и среди приложений MS Dynamics AX, когда программный код, написанный в технике обработки данных 90-х годов «файл-сервер», применяется вместо более эффективной техники «клиент-сервер» [1].)

Напротив, в методологии OLAP-куба не нужно писать ни SQL-запросов, ни программ. Новые показатели и разрезы либо создаются в стандартном интерфейсе SSAS на стадии дизайна OLAP-куба, либо формулируются на языке MDX в виде выражений calculations на стадии эксплуатации. Все существующие в OLAP-кубе аналитики полностью интегрированы и произвольно сочетаются друг с другом в отчетах. Это обеспечивает операция Deploy, запускаемая после создания новых аналитик. Операция Process, запускаемая периодически, обновляет данные куба, в частности, пересчитывает все показатели во всех разрезах (и их сочетаниях). Отметим, что матобеспечение SSAS написано разработчиком (MS) навысоком профессиональном уровне, так что головоломно сложные операции Deploy и Process выполняются достаточно быстро. После операций Deploy и Process все показатели и разрезы OLAP доступны пользователям корпорации (всоответствии с их правами), причем уже без повторных перерасчетов.

Какие же конструктивные особенности позволяют OLAP-кубам избежать указанных выше недостатков? Наверное, это два главных свойства. Во-первых, в рамках OLAP-куба все возможные SQL-запросы уже написаны (на стадии дизайна) и, во-вторых, они уже вычислены (после операции Process). Поэтому пользователю остается только вытянуть мышью из списка нужные показатели и нужные разрезы – и на экране появится соответствующая таблица с данными. Нам представляется, что задача корпоративной аналитики (в плане техники расчета) решена методом OLAP в наиболее общем виде, так что все прочие решения являются как бы ее частными случаями. Иначе говоря, функциональность OLAP влюбом случае с необходимостью выполняется в корпорации. Но, если не используется OLAP (SSAS) – специализированное программное средство, – значит, выполнение функциональности OLAP берут на себя прикладные программы и ихразработчики, по сути, «изобретая велосипед» и не эффективно расходуя ресурсы корпорации.

Посвятим абзац пользовательским интерфейсам OLAP. Это вообще не тема статьи, поэтому просто укажем для определенности, что можно представить себе два интерфейса. Во-первых, стандартный интерфейс разработчика SSAS, наиболее полный и гибкий, позволяющий работать с кубом на языке MDX. Во-вторых, интерфейс между Excel и OLAP, простой и эффективный, работающий на чтение, внешне похожий на Excel Pivot Table, предназначенный для конечных пользователей.

В англоязычной литературе с OLAP-кубами связаны две группы сущностей, называемые dimensions и measures и переводимые по-русски соответственно как «измерения» и «меры». Этот перевод, несомненно, корректен, но не очень хорош исемантически, и синтаксически. Русские слова «измерение» и «мера» в отличие от оригинальных английских терминов dimension и measure близки по смыслу и написанию, что не редко приводит к путанице в русских текстах по OLAP. Между тем в русской статистической литературе существуют наглядные и выразительные термины, релевантные понятиям measure и dimension. Это слова «показатель» и «разрез». Скажем, «показатель суммы отгрузки в разрезе поконтрагентам и по датам». В данной статье мы будем использовать и русские, и английские термины.

Ниже мы покажем, что OLAP-куб с точки зрения высшей математики представляет собой «измеримое пространство» – особый объект теории меры, при этом «разрезы» dimensions задают «пространство элементарных исходов», имеющее топологию многомерного «куба». А «показатели» и в самом деле порождают меры measures (аддитивные и не только), определенные на алгебре подмножеств многомерного «куба». Мы рассмотрим также вероятностную трактовку OLAP-куба, в которой показатель может быть случайной величиной с.в.; показатель в разрезе – условным математическим ожиданием с.в.; показатель в последовательности разрезов – мартингалом (случайным процессом особого вида). Кроме того, мы покажем, что OLAP-куб – это не просто некий стихийно сложившийся инструментарий, оказавшийся полезным при расчете аналитики, но что OLAP – это математическая теория аналитики, формализация интуитивных представлений о ней.

Статью целиком читайте в журнале «Системный администратор», №09 за 2016 г. на страницах 70-74.

PDF-версию данного номера можно приобрести в нашем магазине.


  1. Минин А., Токмачев К. Об альтернативном программировании SQL-сервера в DYNAMICS AX. 15.01.2007. // Работа на результат! http://axapta.mazzy.ru/lib/direct_sql.
  2. Мартин Дж. Организация баз данных в вычислительных системах. – М.: «Мир», 1980.
  3. Codd E., Relational Completeness of Data Base Sublanguages, Data Base Systems, Courant Computer Science Sumposia Series 1972, v. 6, Englwood cliffs, N.Y. , Prentice – Hall.
  4. Шенфилд Дж. Математическая логика. – М.: «Наука», 1975
  5. Озкарахан Э. Машины баз данных и управление базами данных. – М.: «Мир», 1989. – С.69.
  6. Ларсон Брайан. Разработка бизнес-аналитики в Microsoft SQL Server 2005. – СПб.: «Питер», 2008.

Комментарии отсутствуют

Добавить комментарий

Комментарии могут оставлять только зарегистрированные пользователи

               Copyright © Системный администратор

Яндекс.Метрика
Tel.: (499) 277-12-45
E-mail: sa@samag.ru