1970 — Data marts independentes: ou como ficar isolado em ilhas de informação. Por David Marco, Enterprise Warehousing Solutions

Apr 19, 2003 | Conteúdos Em Português

Há uma doença grave que assumiu proporções epidémicas no meio empresarial. A doença é particularmente perigosa e os efeitos não são imediatamente detectáveis na altura do contágio. No entanto, se não for tratada a tempo pode ser letal. Esta doença não se chama hepatite mas sim o síndrome dos data marts independentes. Esta metáfora pode parecer exagerada, mas infelizmente é exactamente isto que se passa em muitas empresas norte-americanas.

Na empresa para a qual trabalho, a Enterprise Warehousing Solutions, temos um cliente que possui datawarehouses gigantescos. Calculamos que esse cliente possua entre 75 a 200 data marts independentes. Esta empresa tem um custo anual em datawarehousing superior a 450 milhões de euros. Infelizmente, esta situação não é única. Se olharmos para as agências governamentais norte-americanas ou para empresas da Global 2000 é muito provável que encontremos situações similares.

Os data marts independentes têm um conjunto de características distintivas. Em primeiro lugar, cada data mart é alimentado directamente a partir dos sistemas operacionais sem a estrutura de um datawarehouse que forneça a arquitectura necessária à manutenção dos data marts . Em segundo lugar, geralmente estes data marts são construídos, sem qualquer relação entre si, por equipas autónomas que utilizam tecnologia e procedimentos diversos.

Possivelmente, o traço mais conspícuo de uma empresa que tenha construído data marts independentes é o de que assim que conseguir mapear a estrutura dos mesmos, esta irá assemelhar-se a um prato de spaghetti (Fig.1). O que é preocupante a meu ver é o facto de muitas empresas norte-americanas terem assumido que este gráfico representa exactamente a sua arquitectura de datawarehousing.

A “arquitectura” da Fig. 1 é uma não-arquitectura, na medida em que representa uma miscelânea confusa de data marts. Isto situa-se nos antípodas de um datawarehouse arquitectado que podemos ver na Fig.2.

Os inconvenientes dos data marts independentes

Redundância de dados: À medida que o número de data marts independentes aumenta, a quantidade de dados redundantes cresce também de uma forma descontrolada em toda a empresa. Esta redundância ocorre porque cada data mart independente requer uma cópia de dados corporativos detalhados.

Seria interessante que fosse feito um estudo que calculasse os custos de manutenção de dados redundantes desnecessários nas empresas da Fortune 1000. O resultado seria certamente uma soma astronómica em despesas e em oportunidades perdidas.

A minha experiência de trabalho com grandes agências governamentais e companhias da Global 2000 mostrou-me o quão propagado está este processo de duplicação desnecessária de dados. Não há orçamento que resista…

Redundância de processos: Um datawarehouse independente fornece uma arquitectura que centraliza a integração e manutenção de dados e que é comum a todos os data marts de uma empresa. Sem um datawarehouse, todo este processo de integração e manutenção de dados necessita de ser duplicado para cada um dos data marts independentes. Isto aumenta, e de que maneira, o número de pessoas necessárias e o custo de manutenção do sistema.

Equipas diferentes irão criar cada data mart de uma forma isolada. Deste modo, não será nunca possível a parametrização de standards , de processos ou do conhecimento. Isto desemboca sobretudo num grande esforço de reengenharia e de reanálise de procedimentos.

Estas equipas autónomas irão, em princípio, escolher hardware e software diferentes e adoptar procedimentos distintos. Isto obriga a que as empresas retenham pessoas qualificado para dar apoio a cada uma destas tecnologias. Para além disso, perdem-se oportunidades de poupar dinheiro já que não há qualquer estandardização destas ferramentas de trabalho.

Escalabilidade: Os data marts independentes alimentam-se directamente de ficheiros ou tabelas oriundos do sistema operacional, o que tem um impacto bastante negativo na escalabilidade.

Por exemplo, se uma empresa tiver cinco data marts independentes, é provável que cada um deles requeira informação relativa aos clientes. Isto significa que irão existir cinco registos separados extraídos do mesmo ficheiro do sistema operacional.

Grande parte dos sistemas operacionais têm um batch limitado e não consegue suportar este número de extracções. Pelo contrário, com um datawarehouse apenas é necessária uma extracção a partir do sistema operacional de registo.

Não-Integração: Como foi dito anteriormente, cada data mart independente é construído por equipas autónomas, normalmente a trabalhar para departamentos diferentes. Consequentemente, estes data marts não estão integrados e nenhum deles possui uma visão corporativa global.

Por isso, se o CEO pedir ao departamento de TI que lhe forneça um relatório com os clientes mais rentáveis, cada data mart lhe irá dar uma resposta diferente. Tendo trabalhado com uma empresa que viveu esta situação, posso confirmar que o CIO encontrou sempre muitas dificuldades em explicar porque é que o seu departamento não conseguiu responder a esta simples questão. Nesta empresa em concreto, quer o CIO quer os seus directores foram posteriormente despedidos.

Porque existem data marts independentes?

Com todas estas deficiências arquitecturais, urge perguntar porque é que tantas empresas adoptaram os data marts independentes. Há várias razões que explicam esta aberração:

Complexidade: Quando a ‘moda’ de ter sistemas de suporte à decisão pegou, muitas empresas quiseram construir o seu próprio datawarehouse. Infelizmente, a tarefa de construir um sistema de business intelligence bem arquitectado e escalável é complicada, requerendo hardware dispendioso e uma equipa altamente qualificada.

Encontrar arquitectos em datawarehouse e directores de projecto que tenham experiência em implementação não é tarefa fácil. A fim de construir um datawarehouse , uma empresa tem, em primeiro lugar, de estabelecer os processos de negócio associados aos dados. Este é um passo difícil mas essencial ao sucesso de qualquer implementação.

Escolher o caminho mais fácil: A construção de data marts independentes é menos dispendiosa do que a de um datawarehouse arquitectado. Para além disso, os data marts podem ser implementados num curto espaço de tempo e não requerem um processo que extravase o nível departamental (como acontece com um datawarehouse). Estes argumentos são frequentemente utilizados para vender o conceito dos data marts independentes.

Infelizmente, é esta total desconsideração por uma análise minuciosa e por um planeamento a longo prazo que inviabilizam os data marts independentes como uma solução eficaz de business intelligence .

Publicidade enganosa: Muitos fornecedores de software e empresas de consultadoria desenvolveram um conjunto de ferramentas e metodologias que são eficazes na implementação de data marts departamentais. Com o desígnio de facturar o mais possível com estas ferramentas, estas companhias tentaram a todo custo vender o conceito do data mart independente (obviamente nunca nomeado enquanto tal).

As razões são óbvias: estas companhias podem assim reduzir significativamente os seus ciclos de vendas porque apenas um departamento está envolvido na aquisição do software. Para além disso, o seu software requer um grau de sofisticação menor porque apenas tem de servir um data store isolado.

2003-04-21

Traduzido e adaptado de DM Review

David Marco é um especialista norte-americano nos campos do datawarehousing, business intelligence e meta data. David Marco é fundador e presidente da Enterprise Warehousing Solutions e lecciona na Universidade de Chicago. Da sua autoria é a obra Building and Managing the Meta Data Repository: A Full Life-Cycle Guide (Wiley, 2000)

Centro de Informação-DATABASE & BUSINESS INTELLIGE