Almacén de datos

De Wikipedia
Ficha de softwareAlmacén de datos
Parte de sistema de información gerencial (es) Traducir
Cambiar los datos en Wikidata

Nel contestu de la informática, un almacén de datos (del inglés data warehouse) ye una coleición de datos empobinada a un determináu ámbitu (empresa, organización, etc.), integráu, non volátil y variable nel tiempu, qu'ayuda a tomar de decisiones na entidá na que s'utiliza. Usar por reportaxes y analís de datos[1] y considérase un componente megollu de la intelixencia empresarial.[2] Trátase, sobremanera, d'un espediente completu d'una organización, más allá de la información transaccional y operacional, almacenáu nuna base de datos diseñada pa favorecer l'analís y la divulgación eficiente de datos (especialmente OLAP, procesamientu analíticu en llinia). L'almacenamientu de los datos nun tien d'usar se con datos d'usu actual. Los almacenes de datos contienen de cutiu grandes cantidaes d'información que se subdividen dacuando n'unidaes lóxiques más pequeñes dependiendo del subsistema de la entidá del que procedan o pal que sían necesariu.

Definiciones d'almacén de datos[editar | editar la fonte]

Definición de Bill Inmon[editar | editar la fonte]

Bill Inmon foi unu de los primeros autores n'escribir sobre la tema de los almacenes de datos, define un data warehouse (almacén de datos) en términos de les carauterístiques del repositorio de datos:

  • Empobináu a temes.- Los datos na base de datos tán entamaos de manera que tolos elementos de datos relativos al mesmu eventu o oxetu del mundu real queden xuníos ente sigo.
  • Variante nel tiempu.- Los cambeos producíos nos datos a lo llargo del tiempu queden rexistraos por que los informes que puedan xenerase reflexen eses variaciones.
  • Non volátil.- La información nun se modificar nin s'esanicia, una vegada almacenáu un datu, ésti conviértese n'información de namái llectura, y caltiénse pa futures consultes.
  • Integráu.- La base de datos contién los datos de tolos sistemes operacionales de la organización, y dichos datos tienen de ser consistentes.

Inmon defende una metodoloxía descendente (top-down) a la de diseñar un almacén de datos, yá que d'esta forma van considerase meyor tolos datos corporativos. Nesta metodoloxía los Data marts van crease dempués de terminar el data warehouse completu de la organización.

Definición de Ralph Kimball[editar | editar la fonte]

Ralph Kimball ye otru conocíu autor na tema de datar warehouse, define un almacén de datos como: "Ye una almacén de datos qu'estrayi, llimpia, conforma y apurre una fonte de datos dimensional pa la consulta y l'analís".[3] Tamién foi Kimball quien determinó qu'un data warehouse nun yera más que: "la unión de tolos Data marts d'una entidá". Defende por tanto una metodoloxía ascendente (bottom-up) a la de diseñar un almacén de datos.

Una definición más amplia[editar | editar la fonte]

Les definiciones anteriores centrar nos datos en sí mesmos. Sicasí, los medios pa llograr esos datos, pa estrayelos, tresformalos y cargalos, les téuniques p'analizalos y xenerar información, según les distintes formes pa realizar la xestión de datos son componentes esenciales d'un almacén de datos. Munches referencies a un almacén de datos utilicen esta definición más amplia. Poro, nesta definición inclúyense ferramientes pa estrayer, tresformar y cargar datos, ferramientes pal analís (intelixencia empresarial) y ferramientes pa xestionar y recuperar los metadatos.

Función d'un almacén de datos[editar | editar la fonte]

Nun almacén de datos lo que se quier ye contener datos que son necesarios o preseos pa una organización, esto ye, que s'utiliza como un repositorio de datos pa darréu tresformalos n'información útil pal usuariu. Un almacén de datos tien d'apurrir la información correuta a la xente indicao nel momentu óptimo y nel formatu fayadizu. L'almacén de datos da respuesta a les necesidaes d'usuarios espertos, utilizando Sistemes de Soporte a Decisiones (DSS), Sistemes d'información executiva (EIS) o ferramientes pa faer consultes o informes. Los usuarios finales pueden faer fácilmente consultes sobre los sos almacenes de datos ensin tocar o afectar la operación del sistema.

Nel funcionamientu d'un almacén de datos son bien importantes les siguientes idees:

  • Integración de los datos provenientes de bases de datos distribuyíes poles distintes unidaes de la organización y que con frecuencia van tener distintes estructures (fontes heteroxénees). Tien de facilitase una descripción global y un analís comprensivu de tola organización nel almacén de datos.
  • Separación de los datos usaos n'operaciones diaries de los datos usaos nel almacén de datos pa los propósitos de divulgación, d'ayuda en tomar de decisiones, pal analís y p'operaciones de control. Dambos tipos de datos nun tienen de coincidir na mesma base de datos, yá que obedecen a oxetivos bien distintos y podríen entorpecerse ente sigo.

Dacuando, impórtense datos al almacén de datos de los distintos sistemes de planiamientu de recursos de la entidá (ERP) y d'otros sistemes de software rellacionaos col negociu pal tresformamientu posterior. Ye práutica común normalizar los datos antes de combinalos nel almacén de datos por aciu ferramientes d'estraición, tresformamientu y carga (ETL). Estes ferramientes lleen los datos primarios (de cutiu bases de datos OLTP d'un negociu), realicen el procesu de tresformamientu al almacén de datos (filtración, adautación, cambeos de formatu, etc.) y escriben nel almacén.

Data marts[editar | editar la fonte]

Los Data marts son subconxuntos de datos d'un data warehouse pa árees específiques.

Ente les carauterístiques d'un data mart destaquen:

  • Usuarios llindaos.
  • Área específica.
  • Tien un propósitu específicu.
  • Tien una función de sofitu.

Cubos d'información[editar | editar la fonte]

Los cubos d'información o cubos OLAP funcionen como los cubos de ruempecabeces nos xuegos, nel xuegu tratar d'armar los colores y nel data warehouse tratar d'entamar los datos por tables o rellaciones; los primeres (el xuegu) tienen 3 dimensiones, los cubos OLAP tienen un númberu indefiníu de dimensiones, razón pola cual tamién reciben el nome de hipercubos. Un cubu OLAP va contener datos d'una determinada variable que se desea analizar, apurriendo una vista lóxica de los datos provistos pol sistema d'información escontra'l data warehouse, esta vista va tar dispuesta según unes dimensiones y va poder contener información calculada. L'analís de los datos ta basáu nes dimensiones del hipercubo, poro, trátase d'un analís multidimensional.

A la información d'un cubu puede aportar l'executivu por aciu "tables dinámiques" nuna fueya de cálculu o al traviés de programes personalizaos. Les tables dinámiques déxen-y manipoliar les vistes (cruces, peneraos, organización, totales) de la información con muncha facilidá. Les distintes operaciones que pueden realizase con cubos d'información producir con muncha rapidez. Llevando estos conceutos a un data warehouse, ésti ye una coleición de datos que ta formada por dimensiones» y «variables», entendiendo como dimensiones a aquellos elementos que participen nel analís y variables a los valores que se deseyen analizar.

Dimensiones[editar | editar la fonte]

Les dimensiones d'un cubu son atributos relativos a les variables, son les perspeutives d'analises de les variables (formen parte de la tabla de dimensiones). Son catálogos d'información complementaria necesaria pa la presentación de los datos a los usuarios, como por casu: descripciones, nomes, zones, rangos de tiempu, etc. Esto ye, la información xeneral complementaria a cada unu de los rexistros de la tabla de fechos.

Variables[editar | editar la fonte]

Tamién llamaes “indicadores de xestión”, son los datos que tán siendo analizaos. Formen parte de la tabla de fechos. Más formalmente, les variables representen dalgún aspeutu cuantificable o medible de los oxetos o eventos a analizar. De normal, les variables son representaes por valores detallaos y numbéricos pa cada instancia del oxetu o eventu midíu. En forma contraria, les dimensiones son atributos relativos a les variables, y son utilizaes pa indexar, ordenar, arrexuntar o embrivir los valores de les mesmes. Les dimensiones tienen una granularidad menor, tomando como valores un conxuntu d'elementos menor que'l de les variables; exemplos de dimensiones podríen ser: “productos”, “llocalidaes” (o zones), “el tiempu” (midíu en díes, hores, selmanes, etc.), ...

Exemplos[editar | editar la fonte]

Exemplos de variables podríen ser:

  • Beneficios
  • Gastos
  • Ventes

Ejemplo de dimensiones podríen ser:

  • productu distintos tipos o denominaciones de producto *

llocalidá o provincia, o rexones, o zones xeográfiques

  • tiempu midíu de distintes maneres, per hores, per díes, per meses, per años
  • tipu de veceru casáu/solteru, nuevu/adultu/vieyu *

colores d'una pieza coloráu, azul, blancu Según

lo anterior, podríamos construyir un cubu d'información sobre l'índiz de ventes (variable a estudiar) en función del productu vendíu, la provincia, el mes del añu y si el veceru ta casáu o solteru (dimensiones). Tendríamos un cubu de 4 dimensiones.

Elementos qu'integren un almacén de datos[editar | editar la fonte]

Metadatos[editar | editar la fonte]

Unu de los componentes más importantes de l'arquiteutura d'un almacén de datos son los metadatos. Defínese comúnmente como "datos alrodiu de los datos", nel sentíu de que se trata de datos que describen cuál ye la estructura de los datos que se van a almacenar y cómo se rellacionen.

El metadato documenta, ente otres coses, qué tables esisten nuna base de datos, qué columnes tien caúna de les tables y qué tipu de datos pueden almacenase. Los datos son d'interés pal usuariu final, el metadato ye d'interés pa los programes que tienen que remanar estos datos. Sicasí, el rol que cumple'l metadato nuna redolada d'almacén de datos ye bien distintu al rol que cumple nos ambientes operacionales. Nel ámbitu de datar warehouse el metadato xuega un papel fundamental, la so función consiste en recoyer toles definiciones de la organización y el conceutu de los datos nel almacén de datos, tien de contener tola información tocante a:

  • Tables
  • Columnes de tables
  • Rellaciones ente tables
  • Xerarquíes y Dimensiones de dato *

Entidá y Rellaciones

Funciones ETL[editar | editar la fonte]

Los procesos d'Extract, transform and aponderái (ETL)[4] son importantes yá que son la forma en que los datos guardar nun almacén de datos (o en cualquier base de datos). Impliquen les siguientes operaciones:

  • Estraición. Aición de llograr la información deseyada a partir de los datos almacenaos en fontes esternes.
  • Tresformamientu. Cualquier operación realizada sobre los datos por que puedan ser cargaos nel data warehouse o puedan migrase d'ésti a otra base de datos.
  • Carga. Consiste n'almacenar los datos na base de datos final, por casu l'almacén de datos oxetivu normal.

Middleware[editar | editar la fonte]

Middleware ye un términu xenéricu que s'utiliza pa referise a tou tipu de software de conectividad qu'ufierta servicios o operaciones que faen posible'l funcionamientu d'aplicaciones distribuyíes sobre plataformes heteroxénees. Estos servicios funcionen como una capa d'astraición de software distribuyida, que s'asitia ente les capes d'aplicaciones y les capes inferiores (sistema operativu y rede). El middleware puede trate como una capa API, que sirve como base a los programadores por que puedan desenvolver aplicaciones que trabayen en distintes redolaes ensin esmolecese de los protocolos de rede y comunicaciones en que se van executar. D'esta manera ufiértase una meyor rellación costo/rendimientu que pasa pol desarrollu d'aplicaciones más complexes, en menos tiempu.

La función del middleware nel contestu de datar warehouse ye la d'asegurar la conectividad ente tolos componentes de l'arquiteutura d'un almacén de datos.

Diseñu d'un almacén de datos[editar | editar la fonte]

Pa construyir un Data Warehouse precísense ferramientes p'ayudar a la migración y al tresformamientu de los datos escontra l'almacén. Una vegada construyíu, ríquense medios pa remanar grandes volúmenes d'información. Diséñase la so arquiteutura dependiendo de la estructura interna de los datos del almacén y especialmente del tipu de consultes a realizar. Con esti criteriu los datos tienen de ser partíos ente numberosos data marts. Pa encetar un proyeutu de data warehouse ye necesariu faer un estudiu de delles temes xenerales de la organización o empresa, que descríbense de siguío:

  • Situación actual de partida - Cualquier solución propuesta de data warehouse ten de tar bien empobinada poles necesidaes del negociu y tien de ser compatible cola arquiteutura téunica esistente y entamada de la compañía.
  • Tipu y carauterístiques del negociu - Ye indispensable tener la conocencia exacta sobre'l tipu de negocios de la organización y el soporte que representa la información dientro de tol so procesu de toma de decisiones.
  • Redolada téunica - Tien d'incluyise tantu l'aspeutu del hardware (mainframes, servidores, redes) según aplicaciones y ferramientes. va dase énfasis a los Sistemes de soporte a decisiones (DSS), si esisten anguaño, cómo operen, etc.
  • Mires de los usuarios - Un proyeutu de data warehouse nun ye namái un proyeutu teunolóxicu, ye una forma de vida de les organizaciones y como tal, tien que cuntar col sofitu de tolos usuarios y el so convencimiento sobre la so bondá.
  • Etapes de desarrollu - Cola conocencia previa, yá s'entra nel desarrollu d'un modelo conceptual pa la construcción del data warehouse.
  • Prototipu - Un prototipu ye un esfuerciu designáu a asemeyar tanto como seya posible'l productu final que va ser apurríu a los usuarios.
  • Piloto - El pilotu d'un data warehouse ye'l primeru, o cada unu de les primeres resultaos xeneraes de forma iterativa que se van faer pa llegar a la construcción del productu final deseyáu.
  • Prueba del conceutu teunolóxicu< - Ye un pasu opcional que puede precisase pa determinar si l'arquiteutura especificada del data warehouse va funcionar finalmente como s'espera.

Almacén de datos espacial[editar | editar la fonte]

Almacén de datos espacial ye una coleición de datos empobinaos a la tema, integraos, non volátiles, variantes nel tiempu y qu'añaden la xeografía de los datos, pa tomar de decisiones. Sicasí la componente xeográfica nun ye un datu agregáu, sinón que ye una dimensión o variable na teunoloxía de la información, de tal manera que dexe modelar tol negociu como un ente holístico, y qu'al traviés de ferramientes de procesamientu analíticu en llinia (OLAP), non solamente téngase un altu desempeñu en consultes multidimensionales sinón qu'adicionalmente puedan visualizase espacialmente los resultaos.

L'almacén de datos espacial forma parte d'un estensivu Sistema d'Información Xeográfica pa la toma de decisiones, ésti al igual que los SIG, dexen qu'un gran númberu d'usuarios apuerten a información integrada, a diferencia d'un simple almacén de datos que ta empobináu a la tema, el Data warehouse espacial adicionalmente ye Geo-Relacional, ye dicir que n'estructures relacionales combina ya integra los datos espaciales colos datos descriptivos. Anguaño ye geo-oxetos, esto ye que los elementos xeográficos manifiéstense como oxetos con toles sos propiedaes y comportamientos, y qu'adicionalmente tán almacenaos nuna única base de datos Oxeto-Relacional.

Datar Warehouse Espaciales son aplicaciones basaes nun altu desempeñu de les bases de datos, qu'utilicen arquitectures Vecera-Servidor pa integrar diversos datos en tiempu real. Mientres los almacenes de datos trabayen con munchos tipos y dimensiones de datos, munchos de los cualos nun referencien allugamientu espacial, a pesar de tener intrínsecamente, y sabiendo qu'un 80% de los datos tienen representación y allugamientu nel espaciu, nos Data warehouse espaciales, la variable xeográfica desempeña un papel importante na base d'información pa la construcción del analís, y d'igual manera que pa un Data warehouse, la variable tiempu ye imprescindible nos analises, pa Datar warehouse espaciales la variable xeográfica ten de ser almacenada direutamente nella.

Ventayes ya inconvenientes de los almacenes de datos[editar | editar la fonte]

Ventayes[editar | editar la fonte]

Hai munches ventayes poles que ye recomendable usar un almacén de datos. Dalgunes d'elles son:

  • Los almacenes de datos faen más fácil l'accesu a una gran variedá de datos a los usuarios finales
  • Faciliten el funcionamientu de les aplicaciones de los sistemes de sofitu a la decisión tales como informes d'enclín, por casu: llograr los ítems cola mayoría de les ventes nun área en particular dientro de los últimos dos años; informes d'esceición, informes qu'amuesen los resultaos reales frente a los oxetivos plantegaos a priori.
  • Los almacenes de datos pueden trabayar en xunto y, poro, aumentar el valor operacional de les aplicaciones empresariales, cuantimás la xestión de rellaciones con veceros.

Inconvenientes[editar | editar la fonte]

Utilizar almacenes de datos tamién plantega dellos inconvenientes, dalgunos d'ellos son:

  • A lo llargo de la so vida los almacenes de datos pueden suponer altos costos. L'almacén de datos nun suel ser estáticu. Los costos de caltenimientu son elevaos.
  • Los almacenes de datos pueden quedase obsoletos relativamente llueu.
  • Dacuando, ante un pidimientu d'información estos devuelven una información subóptima, que tamién supón una perda pa la organización.
  • De cutiu esiste una delgada llinia ente los almacenes de datos y los sistemes operacionales. Hai que determinar qué funcionalidades d'estos puédense aprovechar y cuál débense implementar nel data warehouse, resultaría costosu implementar operaciones non necesaries o dexar d'implementar dalguna que sigo vaya a precisase.

Ver tamién[editar | editar la fonte]

Notes y referencies[editar | editar la fonte]

  1. Exploring Data Warehouses and Data Quality spotlessdata.com
  2. Dedić, N. and Stanier C., 2016., "An Evaluation of the Challenges of Multilingualism in Data Warehouse Development" in 18th International Conference on Enterprise Information Systems - ICEIS 2016, p. 196.
  3. Kimball, Ralph (2004). «1», The Data Warehouse ETL Toolkit (n'Inglés). Wiley, páx. 23. ISBN 0-764-57923-1.
  4. What is Big Data?