Môžeme tomu hovoriť aj Manažérsky informačný systém, Data Ware House (DWH), Business Intelligence (BI) alebo akokoľvek inak; v každom prípade je to systém podpory manažérskeho rozhodovania. Pre lepšie porozumenie – ide o systém poskytujúci informácie o stave spoločnosti – finančné, materiálne, operatívne, teda také, ktoré sú potrebné na správne rozhodnutia manažmentu v danom čase.
Firma v rámci svojej dennej prevádzky používa obchodno-transakčný, ERP systém – napr. Billien a ďalšie. Transakčný systém zabezpečuje denný chod spoločnosti a pokrýva jej kľúčové procesy – zmluvné vzťahy, fakturáciu, skladové hospodárstvo, odpočty odberných miest (OM), riadenie zákaziek napr. na výmenu meradiel a podobne.
DWH nie je transakčný systém. Takže ČO to teda vlastne je? Pozrime sa teda na DWH trochu bližšie…
Je dôležité rozlišovať medzi dátami, informáciami a poznatkami. Dáta sú jednotlivé fakty zaznamenané v databáze – muž, Jozef, 190, 95, 43, modrá, čierna, stredoškolské. Dáta jednoducho existujú samé o sebe a neposkytujú žiadnu relevantnú informáciu. Ak dáta uvedieme do kontextu – pohlavie, meno, výška, váha, vek, farba očí, farba vlasov, dosiahnuté vzdelanie – dostávame informáciu o osobe. Vidíme, že ide o muža stredného veku, pomerne vysokého so zodpovedajúcou váhou. Takáto informácia je v určitých situáciách pre niekoho dôležitá, povedzme pre vedúceho personálneho oddelenia v procese prijímania nového zamestnanca.
Môžeme si všimnúť, že nie všetky dáta, ktoré sú k dispozícii tvoria potrebnú informáciu. Farba očí a vlasov zrejme pri prijímaní nového človeka do firmy nie je dôležitá. Informácia a o veku a váhe môže byť dôležitá vo fyzicky náročných povolaniach, informácia o dosiahnutom vzdelaní je dôležitá takmer vždy. Je teda jasné, že jeden zdroj dát vytvára rôzne informácie potrebné v rozličných situáciách. Ak ďalej vyskladáme informácie v potrebnej štruktúre, dostávame poznatky (knowledge). Poznatky (znalosti) teda sú tvorené informáciami v súvislostiach – napríklad na základe informácií o veku a váhe viacerých osôb si môžeme všimnúť (získavame poznatok), že váha s vekom u väčšiny osôb rastie – samozrejme, môžu byť aj výnimky J. A na základe poznatkov je možné urobiť rozhodnutie – hoci len také samozrejmé, ako je upraviť stravovanie a začať cvičiť.
Alebo na základe určitých poznatkov o vývoji finančnej situácie firmy v čase môžeme zobrať úver v banke, prijať alebo prepustiť ďalších ľudí, spustiť investičný projekt a pod., čiže vykonať celú sériu rozhodnutí. Je jasné, že ak sa rozhodnutia robia bez potrebných poznatkov, či aspoň informácií, následky môžu byť dosť zlé.
Uveďme ešte jeden príklad – na základe informácii o spotrebe plynu odberných miest určitého typu v priebehu určitého obdobia – napríklad niekoľkých rokov – môžeme získať poznatok, že existuje jednoznačná závislosť medzi vonkajšou teplotou a veľkosťou spotreby. Takýto poznatok môžeme ďalej využiť pri predikcii spotreby na základe predpokladanej teploty. A ak vieme – pomerne presne – odhadnúť, ako sa bude vyvíjať spotreba veľkej skupiny odberných miest, môžeme tomu vopred prispôsobiť pomery na distribučnej sieti – napríklad stavy regulačných staníc a výkony zásobníkov plynu.
Čiže na základe poznatkov (teplota vs. spotreba, predikcie) vykonáme určité rozhodnutie (nastavenie pomerov na sieti).
Ale informácia o veľkosti spotreby niekedy nemusí stačiť, potrebujeme podrobnejšie informácie – aká je spotreba podľa typu odberného miesta, t.j. domácnosti, maloodber, stredný a veľkoodber.
Uvedený graf je vyskladaný na základe dát o spotrebe daného typu odberných miest. Na základe uvedeného grafu/reportu – čiže informácie – môžeme odvodiť poznatok o sezónnosti spotreby na základe ročného obdobia, teda teploty. Na prvý pohľad je tiež zrejmé, že spotreba domácností podlieha sezónnym vplyvom oveľa viac ako napr. spotreba odberných miest v kategórii veľkoodber, čo vyplýva zo samozrejmého faktu, že plyn sa využíva v domácnostiach na vykurovanie.
Transakčné on-line systémy, napr. Billien, ktoré spoločnosť denne používa v rámci prevádzky – konkrétne sklady, zmluvy, zákazky, odpočty, fakturácia, denné zložité výpočtové operácie vykonávané v rámci operátora trhu – produkujú každú hodinu a minútu veľké množstvá údajov v najrôznejšej forme (čísla, texty, obrázky, binárne súbory a pod.) a vo vzájomných vzťahoch. Dáta, z ktorých je možné vyťažiť potrebné informácie.
Otázkou samozrejme je, akým spôsobom získať informácie z gigantického množstva dát. Príklad – manažér z oddelenia merania potrebuje súhrnnú informáciu o spotrebe elektrickej energie v regióne Banská Bystrica za marec roku 2016 pre odberné miesta v kategórii veľkoodber, teda OM s ročnou spotrebou väčšou ako 400 MWh ročne – čo je konkrétna požiadavka na vyťaženie informácie z množstva dát. Alebo – áno – môžeme povedať, že ide o klasický report.
Takže stačí dokonale poznať dátový model transakčnej aplikácie, stačí veľmi dobre poznať jazyk SQL, mať prístupy do produkčnej databázy, napísať vhodný databázový dotaz a spustiť ho vo vhodnom čase tak, aby sme neovplyvnili prevádzku transakčného systému.
Alebo môžeme použiť DWH, resp. BI, párkrát kliknúť a report zobraziť behom niekoľkých sekúnd.
Základnou funkciou DWH a BI je teda poskytnutie rôznych pohľadov na dáta – podľa toho, akú informáciu potrebujeme získať.
Uvedené príklady majú jedno spoločné – pozerajú sa na jeden typ dát (spotreba) z rôznych strán – z hľadiska času, z hľadiska regiónu alebo podľa typu odberného miesta (domácnosť, veľkoodber) – čiže poskytujú rôzne informácie odvodené z tých istých faktov. V rámci DWH máme uložený konkrétny fakt, na ktorý sa viaže viacero dimenzií – totiž spotreba (fakt) je jednoznačne spojená s odberným miestom daného typu a to sa nachádza na určitej adrese v danom regióne. Spotrebu samozrejme meriame v čase, resp. v určitom časovom intervale (dni, roky a pod.). Čas, adresa/región, typ odberného miesta sú dimenzie, cez ktoré sa na daný fakt (spotrebu) pozeráme. Dimenzie teda vytvárajú kontext, ktorý nám z faktov/dát poskytne konkrétnu informáciu.
Dátová štruktúra DWH je teda tvorená faktami, resp. faktovými tabuľkami, spojenými s tabuľkami dimenzií. Faktové tabuľky a tabuľky dimenzií spolu vytvárajú tzv. STAR schému a tá predstavuje jadro celého systému.
Častokrát sa vyskytuje požiadavka na agregovanie výstupov napr. podľa času. Chceme vedieť, aká je celková sumárna spotreba všetkých OM za celý rok podľa regiónov. Bolo by tiež celkom rozumné rozdeliť sumárnu ročnú spotrebu podľa regiónov na jednotlivé kvartály, prípadne mesiace. A potom sa vrátiť späť k sumárnej ročnej spotrebe. Či chceme radšej vidieť ročnú/kvartálnu/mesačnú spotrebu podľa typu OM? Alebo si z celkovej sumy chceme vybrať len konkrétny región a celkovú spotrebu potom rozdeliť v rámci vybraného regiónu na jednotlivé okresy, obce, či dokonca ulice?
Generovať reporty na počkanie podľa týchto požiadaviek priamo z databázy transakčného systému, či dokonca z viacerých zdrojových systémov, je takmer nemožné. Každá jedna požiadavka by si vyžiadala úpravu príslušných výberových kritérií v SQL príkaze a samozrejme zdatného človeka/ľudí, ktorí tomu celému rozumejú. A ktorých môže firma využiť inde a rozhodne efektívnejšie.
DWH je natívne prispôsobené na tvorbu reportov podľa rôznych kritérií – odpoveď dostávame behom niekoľkých sekúnd. Princíp tzv. OLAP kociek umožňuje vopred vykonať potrebné agregácie napr. v časovej dimenzii – ak povedzme máme k dispozícii denné spotreby za OM v rôznych regiónoch, DWH si automaticky predpočíta a uloží týždenné, mesačné a ročné sumy spotrieb podľa regiónov a pri požiadavke na generovanie reportu ich len „vytiahne“ do reportu, čím sa rádovo zvyšuje rýchlosť.
DWH, resp. BI poskytuje užívateľovi množstvo nástrojov na tvorbu reportov. Pokiaľ sú dáta bezpečne uložené v STAR schémach, prípadne iných podobných štruktúrach, môžeme z nich vyskladať reporty podľa potreby prostredníctvom nástrojov používateľského rozhrania. Je možné nastaviť viaceré prístupové úrovne k rôznym typom dát a takisto nastaviť bezpečnosť prístupu.
Reporty môžu byť preddefinované, alebo voliteľné. Tie prvé používateľ DWH môže spúšťať priamo, tie druhé si môže vytvoriť podľa potreby. Dimenzie a fakty spolu vytvárajú veľké množstvo kombinácií, pričom pre každú jednotlivú kombináciu dimenzií je možné zostaviť report.
Osobitnou formou reportov sú tzv. dashboardy – ide o minimalistické reporty zobrazujúce aktuálny stav určitej veličiny voči nastaveným kritériám, tzv. KPI (Key Performance Indicators). Ako príklad môžeme uviesť vývoj tržieb v čase. Manažment firmy pre jednotlivé obdobia roka nastaví očakávania, ktoré sa následne porovnajú so skutočným stavom a zobrazia sa v prehľadnej forme v rámci dashboardu. Týmto spôsobom má konkrétny zodpovedný manažér k dispozícii okamžitú informáciu v reálnom čase, na základe ktorej môže operatívne rozhodovať.
Jednoducho – cez proces ETL, čiže cez proces extrakcie (Extract), transformácie (Transform) a uloženia dát (Load). Dáta sa nahrajú z viacerých rôznych zdrojových systémov (Extract), zmenia a prispôsobia sa v prípade potreby (Transform) a následne sa finálne uložia v STAR schémach DWH (Load). Transformácia dát je typicky potrebná v prípadoch, kedy jedna entita – napríklad faktúra – je reprezentovaná rôznym spôsobom vo viacerých systémoch.
V rámci prípravy DWH je nutné definovať požiadavky na informácie/reporty/dashboardy a identifikovať zdroje dát, ktoré dané informácie tvoria. Prostredníctvom konkrétnych nástrojov sa požadované dáta zo zdrojových systémov extrahujú, prečistia, transformujú a uložia do pripravených štruktúr DWH. Proces tvorby nástrojov pre extrakciu, čistenie, transformáciu a uloženie dát je pre každý projekt jedinečný a pomerne zložitý a predstavuje veľkú časť projektu tvorby DWH.
Plnenie databázy DWH prostredníctvom ETL procesov má vo väčšine prípadov 2 fázy – najskôr sa pri zavádzaní DWH vykoná tzv. initial load, kedy sa do DWH nahrajú historické dáta z jedného alebo viacerých systémov za obdobie požadovanej histórie. Initial load je jednorazový náročný proces, ktorý sa nevykonáva opakovane.
Počas prevádzky DWH sa opakovane a denne v definovanom čase (zvyčajne v noci) nahrávajú nové dáta, ktoré vznikli v zdrojových systémoch počas predchádzajúceho dňa. Historické dáta sa v tomto prípade nemenia.
Takto je zaručené, že dáta v DWH sú vždy aktuálne a presné a verne reprezentujú skutočný stav firmy.
DWH zhromažďuje dáta z viacerých zdrojov a poskytuje ucelené informácie každému, kto ich potrebuje a využíva. Transakčné systémy potrebné pre chod firmy – CRM, fakturácia a účtovníctvo, sklady, personalistika atď. žijú svojim životom a jediné, čo sa od nich požaduje je, aby v pravidelných intervaloch, napr. 1x denne odovzdali nové dáta do DWH. DWH tak predstavuje zdroj jedinej pravdy potrebnej pre zodpovedné rozhodnutia na všetkých úrovniach riadenia firmy.
Autor: Peter Melich