Docsity
Docsity

Prepare for your exams
Prepare for your exams

Study with the several resources on Docsity


Earn points to download
Earn points to download

Earn points by helping other students or get them with a premium plan


Guidelines and tips
Guidelines and tips

Business intelligence, Cheat Sheet of Computer Science

A short course of BI, it is a very good introduction to the Field of BI.

Typology: Cheat Sheet

2020/2021

Uploaded on 03/24/2021

oussama-abouzid
oussama-abouzid 🇲🇦

1 document

Partial preview of the text

Download Business intelligence and more Cheat Sheet Computer Science in PDF only on Docsity! ED JFD 1 Entrepôt de Données Jean-François Desnos Jean-Francois.Desnos@grenet.fr ED JFD 2 Définition (Bill Inmon 1990) Un entrepôt de données (data warehouse) est une collection de données thématiques, intégrées, non volatiles et historisées pour la prise de décisions ED JFD 5 Les données sont historisées et non volatiles • historisation : suivre dans le temps l'évolution des différentes valeurs des indicateurs. couches de données • non volatiles : traçabilité non suppression ED JFD 6 La pyramide du système d’information Pilotage In di ca teurs Administratif Métier Paye Comptabilité GRH Produits clients procédés Décisionnel NB : Un système d’information réellement complet intègre des informations et des contraintes extérieures. ED JFD 7 Intérêt de l’entrepôt de données • Vision transversale de l’entreprise • Intégration des différents bases • Données non volatiles (pas de suppression) • Historisation • Organisation vers prise de décision ED JFD 10 Schéma de principe d’un ED Données Bases sources Logiciel Extraction Transformation Chargement (ETL) Couche n couche 1 Logiciel Recherche Analyse Mise en forme des données Données Base cible Edition Papier Web I DXoynalerenmeyeroeclaleyniie les vs décisionnelles Données opérationnelles Données décisionnelles Orientées application, détaillées, précises au moment de |l’accés Orientées activité (theme, sujet), condensées, représentent des données historiques Mise a jour interactive possible Pas de mise a jour interactive Accés par une personne a la fois Utilisées par l'ensemble des analystes Haute disponibilité en continu Haute disponibilité ponctuelle Uniques(pas de redondance en théorie) Peuvent étre redondantes Petite quantité de données utilisées par un traitement Grande quantité de données utilisée joy lam Kessma aU) ta Va nes) Réalisation des opérations au jour oMelelg Cycle de vie différent Forte probabilité d’accés Faible probabilité d’accés Utilisées de facgon répétitive Utilisées de fagon aléatoire ED JFD ED JFD 12 Classes de données d’un ED • Métadonnées (« données sur les données ») • Données détaillées : données intégrées dans l’ED • Données agrégées : sommation de données détaillées (tables d’agrégat) • Couches de données : historisation ED JFD 15 Le modèle dimensionnel • Une table contenant une clé multiple, la table de faits, • un ensemble de tables secondaires, les tables de dimension (chacune possède une clé primaire unique correspondant à l’un des composants de la clé multiple de la table de faits). • jointures schéma en étoile ED JFD 16 Schéma en étoile de l’exemple Table de faits VENTE code produit code client code vendeur date prix de vente code produit code famille libellé code vendeur nom code service date semaine mois année code client type client 4 tables de dimensions ED JFD 17 Table de faits • Contient des faits numériques • Les faits les plus utiles sont numériques et additifs. • les agrégats, ou tables d’agrégat, sont des enregistrements récapitulatifs. ED JFD 20 Le « cube » de données produit mois ski de piste raquette surf luge ski de fond jan fev mars Antoine Brigitte Laurence Vendeur Chiffre d’affaires ED JFD 21 Volumétrie L’information de synthèse peut être plus volumineuse que l’information de détail 2D 3D ED JFD 22 Exemple de volume Tableau 3x3 9 éléments de détail 7 éléments de totalisation Tableau 3x3x3 27 éléments de détail éléments de totalisation : 3 « tranches » 3x3 = 3x7 = 21 + la face avant 4x4 = 16 Total = 37 ED JFD 25 Additivité des indicateurs • indicateurs : de préférence numériques et additifs. • Certains sont semi additifs (additifs pour certaines dimensions). • Non additifs : fonctions d'agrégations : moyenne, ratios, comptage de lignes. ED JFD 26 Exemple d’additivité Table de faits VENTE code produit code client code vendeur prix de vente ristourne client (type client) commission vendeur (CA vendeur) retour oui/non ED JFD 27 Cas général : Hypercube • Indicateur associé à n dimensions (n > 3) • Le « cube » est alors appelé hypercube. • On fixe n-2 dimensions. • En général, plusieurs indicateurs. • Ici, un deuxième indicateur pourrait être le bénéfice. ED JFD 30 Quelques définitions (1) Entrepôt de données (ED) ou Datawarehouse : Système d’information agrégeant des données non volatiles et historisées, dans un but d’aide à la décision. Datamart : ED spécialisé « métier », ou ED partiel Datamining : Recherche et analyse d’information dans une base de données. ED JFD 31 Quelques définitions (2) Analyse ascendante/descendante (Drill up, drill down) : Action d’obtention d’un niveau de détail plus global (ascendant - up) ou plus fin (descendant - down) sur un axe d’analyse multidimensionnel. Decision Support System (DSS) : Système informatique conçu pour l’aide à la décision plutôt que pour la gestion. Hypercube : Espace d’analyse à n dimensions (par ex. temps, lieu, produit, vendeur, prix,...). ED JFD 32 Quelques définitions (3) Métadonnées ou données sur les données : Structure, contenu, localisation, règles d’agrégation et de transformation des données. On line analytical process (OLAP) : Requêtage, analyse et présentation des données d’un ED. Basé sur le « cube ». Modèle dimensionnel : modélisation faits – dimensions alternative à la modélisation entité / relation ED JFD 35 • La modélisation dimensionnelle souvent appelée modélisation OLAP (Codd 1993) se présente comme une alternative au modèle relationnel. Il correspond mieux aux besoins du décideur tout en intégrant la modélisation par sujet. • C’est une méthode de conception logique qui vise à présenter les données sous une forme standardisée intuitive et qui permet des accès hautement performants. Elle aboutit à présenter les données non plus sous forme de tables mais de cube centré sur une activité. ED JFD 36 Modélisation entité-relation • Éliminer la redondance des données • Adaptée aux transactions (ex : mise à jour d’une adresse client), mais pas aux interrogations • Modèle complexe : des milliers de tables • Pas de compréhension pour l’utilisateur • Nécessité de performances ED JFD 37 Modélisation dimensionnelle • Une table de faits (clé multiple) • Tables de dimensions : clé primaire unique qui correspond à l’un des composants de la clé multiple de la table de faits jointure en étoile ED JFD 40 Un schéma entité-relation = plusieurs tables de faits • Détecter les « processus métier » et les modéliser l’un après l’autre • Sélectionner les relations n,n contenant des faits numériques et additifs. En faire autant de tables de faits • Les tables dimensionnelles reliées à plusieurs schémas sont dites conformes (partagées) ED JFD 41 Avantages de la modélisation dimensionnelle • Structure prévisible • Structure standardisée Requêteur simple et optimisé • Toutes les dimensions sont équivalentes Symétrie ED JFD 42 Evolutions du modèle • Ajout de faits nouveaux possible (si compatible avec grain) • Ajout d’une dimension nouvelle (si une seule valeur par enregistrement de la table de faits) • Ajout d’attributs dimensionnels • Outils d’agrégat (enreg. récapitulatifs) ED JFD 45 Fait conforme • Fait ayant la même définition dans tous les datamarts, même unité de mesure, même contexte dimensionnel. • Ex pour le fait « recettes » : périodes, régions de ventes cohérentes • Ex : conditionnement en unités et boîtes • Fait non conforme : noms distincts ED JFD 46 Exemple de l’agence de voyage 1 - voyages aériens Quel est le chiffre d’affaires (CA) par client, par date de voyage (et par mois, trimestre et année), par compagnie aérienne, par ville de destination ? Les tableaux de bord doivent pouvoir présenter les totaux et sous totaux de CA : tous clients confondus, et/ou toutes dates, et/ou toutes compagnies, et/ou toutes destinations. ED JFD 47 Schéma dimensionnel 1 - voyages aériens Code client Compagnie aérienne Ville d’arrivée Date du vol Prix payé Dimension client Dimension compagnie aérienne Dimension ville Dimension Date ED JFD 50 Exemple de l’agence de voyage 3 - hôtel Dans le cas de l’hôtellerie, on veut des tableaux de bord par client, hôtel, ville, date de début de séjour, faisant apparaître le nombre de nuitées et le prix total payé . ED JFD 51 Schéma dimensionnel 3 - hôtel Code client Hôtelier Ville de séjour Date de début Nombre de nuitées Prix payé Dimension client Dimension Hôtelier Dimension ville Dimension Date ED JFD 52 Exemple de l’agence de voyage regroupement On veut maintenant regrouper ces trois ED en un seul, afin de répondre aux questions supplémentaires suivantes : Quel est le CA total induit par un déplacement en avion ? Quelle est la durée du séjour ? Quel est le CA en location de voiture ? En hôtellerie ? On veut pouvoir éditer les détails de CA par période de temps et par client, ville, compagnie aérienne, loueur et hôtelier, et faire tous les regroupements utiles. Figurer le modèle dimensionnel d’un tel ED, en montrant en particulier comment l’on peut retrouver location de voiture et/ou hôtellerie, si elles existent, à partir d’un déplacement en avion. Un voyage en avion n’implique pas forcément location de voiture et/ou hôtellerie, et inversement. ED JFD 55 Multisources • Commencer par un datamart monosource • Réparer les tuyaux de poêle : chercher à créer des dimensions conformes • Bus décisionnel : dimensions et faits conformes ED JFD 56 Dimensions, faits et attributs • Plausible : 10 dimensions pour un datamart – Si 2 ou 3 dimensions : le concepteur en a-t-il oubliées ? – Si 20 dimensions : devient trop complexe • Un fait est une « observation du marché », la plupart du temps un champ numérique de la source • L’attribut est un champ textuel (apparaît dans les dimensions) on Calendaire Table des faits des ventes clé_heure (C?) date SQL jour_semaine numéro_semaine mois. Dimension Point de vente clé_heure (CE) clé_produit (CE) clé_painivente (GP) numéro_poinivente nom_painlvente adrasse départament pays lisse- Département Marque Loire-Atlantique Lave Vit Loire-Atlantique Lave Plus Loire-Atiantiqua Exira Creuse Lave Vit Creuse Lave Plus Creuse Extra Figure 5.3 clé_pointvente (CE) glisser- deuoser Total Francs Coil total F § 422,00 F 4891.00 F 12 323.00 F 11 422.00 Fo 4170,00 F 4646.90 F 10 956,00 F 3520,00 Relations enire un schéme de modélisation en étoile et un 3 648,00 3 861,00 3.633,00 2 990,00 Dimension Produit clé_produit (CP) article_stock descristion gamme categorie type-consitionnement taille version Dimension Promction clé_promation (GP) nom_pramotion type_promation trailernent_prix traiterment_pub traiternent_PLV 19 Wp calcule, Marge brute F 601,00 901,00 462,00 785,00 1 323,00 530,00 ED JFD 60 Exemple de floconnnage Table de faits Table de dimension Flocon contient clé_produit comme clé extérieure Clé_produit …… Clé_conditionnement …… Nombre_boîtes Clé_conditionnement …… Type_conditionnement ED JFD 61 Attributs des tables de dimensions • Pas de codes … • Littéraux (mots complets) • Descriptifs • Soignés (orthographe, valeurs) • Indexés • Documentés (métadonnées) ED JFD 62 Métadonnées • Ensemble d’informations nécessaires à l’accès, à la compréhension et à l’exploitation des données du data warehouse. • Le référentiel de l’entrepôt de données = métadonnées + outils d’administration Il collecte l’ensemble des modèles de données nécessaires à la construction et à l’exploitation du data warehouse. ED JFD 65 Dimensions changeantes • Clé_produit ou clé_client ne changent pas, mais les attributs évoluent. • On peut : 1. Réécrire sur l’enregistrement (historique perdu) 2. Ajouter un enreg. Avec nouvelle valeur de clé 3. Créer un nouveau champ « ancien » dans l’enreg et y stocker l’ancienne valeur d’attribut ED JFD 66 Dimensions dégénérées • N° bon de commande, n° de facture ? • Souvent à conserver dans la base de faits, mais pas d’attributs associés pas de table de dimension associée ED JFD 67 Clés • Toutes les clés : clés « de substitution » dépourvues de signification, et sans rapport avec les bases sources. ED JFD 70 Conception d’une table de faits (suite) 3. Choisir les dimensions : descripteurs à valeur unique (de préférence) 4. Choisir les faits : les faits (indicateurs) doivent correpondre à la granularité de la table de faits ED JFD 71 Agrégat • Table récapitulative (sommations) destinée à améliorer les performances du requêtage. • Il s’agit d’une table de faits qui possède des tables dimensionnelles. ED JFD 72 Table de faits sans fait exemple 1 ED JFD 75 Interrogations sur l’exemple 2 Quels sont les produits qui étaient en promotion et ne se sont pas vendus ? 1. Consultation de la table « de couverture » : liste des produits en promotion tel jour dans tel point de vente 2. Consultation de la table des ventes pour recenser les produits qui se sont vendus Table des ventes de I’exemple Dimension Calendaire Table des faits des venles Dimension Produit cl_heure (CP) clé heure (CE) cP) date SOL clé orocut (CE) bl | kK cé geintvente (CE) descrintion clé_promo (CE) gamme mais francs eatégaric unités type-concitionne nent coll taille version Lt Dimension Poixt de verte nlori_pointvanta Dimension Promotion adresse département pays promotion (CP) nem_promation type _prometicn ‘reitemont_prix traitement_oub traitement_PLV type_coupon glisser- glisser gis glisse déposer déposer spose: déposer | calcule. Département Marque Total Francs Coit total Marge brute Loire-Atlantique Lave Vit F 5422.00 F 4821,00 F 601,00 Loire-Avlantique: Lave Plus. F 12 323,00 i F $01,006 Leire-Atlantique Extra F 4110.99 64 F 462,00 Creuse Lave Vir F 785,00 Creuse Lave Plus F710 956,00 9 633,00 1 323,00 Creuse Extra F 3520,00 2 990,00 F 530,00 Figure 5.3 Relations entre m schéma de modélisation en Gtoile et un état. ED JFD 77 Analyse des données de l’ED : Exemple de B.O. ED JFD 80 Univers BO Le designer d’univers : Informaticien Compétences » SQL » BD de l’entreprise ED JFD 81 Développement d’un univers • Planification – découper le SI en domaines • Analyse – Analyser les besoins des utilisateurs • Conception – Faire le schéma conceptuel; spécifier l’univers • Application – Créer l’univers • Maintenance ED JFD 82 Les objets dans BO • Indicateur : nombre • Dimension : entité (une variable) Exemple UFR Ens. Chimie Prof Univ 5 ED JFD 85 Exemple de hiérarchie • Exemple Hiérarchie dans l’organisation de la scolarité. Composante (UFR) Sciences Cycle 1er cycle Diplôme Deug Etape 1ère année ED JFD 86 Analyse dimensionnelle • Elle est possible si les dimensions de l’univers sont hiérarchisées • Exemple : nombre d’étudiants par composante,.........., étape • changement du niveau d’analyse ED JFD 87 Création d’un univers • La structure d’un univers doit s’adapter à la logique de l’utilisateur, et non à la structure des tables de la BD. • Autant que possible, les dimensions doivent être définies dans des hiérarchies. ED JFD 90 La dimension historique • Elle est sous-jacente dans tous les faits : date, trimestre, année selon les faits mesurés : nb d’inscriptions, budget, appartenance à un groupe. • La date d’extraction est également importante. 2 dimensions historiques : les faits, l’extraction ED JFD 91 Création des tables de faits • Si les dimensions sont dans des hiérarchies différentes, on peut avoir intérêt à créer plusieurs tables de faits. ED JFD 92 Structure des tables de dimension • Il peut y avoir une hiérarchie liée à la dimension. Ex. : Nationalité code-nat Lib-nat code-groupe de pays Lib-groupe Schéma en flocon ED JFD 95 Agrégats • Deux solutions : 1. Tables d’agrégats = calculs pré-établis optimisant les performances 2. Fonction aggregate aware de BO =10) x! Fichier Edition Affichage Insertion Outils Fenétre Aide Dice} SIC) By) Biss! Eee] 22] sail otf yor] ofS ea| Sul ler 2/ae) 8] % |v | | |UIB_GRADE.DATE_DE_CHARGEMENT =/5) | LIB_EQ_CORPS_ED ODE EQ CORPS ED DATE DE CHARGEMENT LIBELLE EQ CORPS ED POSTE_AFFECTE IDENTITE_PERSONNEL CODE GRADE CODE PERS CODE STRUCTURE AFFECTATION CODE STRUCTURE E OU C LIB_GRADE CODE GRADE DATE DE CHARGEMENT IBELLE GRADE IDATE FIN AFFECTATION. ai | - e@cv lal ofl ee Cece ED JFD 97 ED cours 4 Eléments d’architecture Administration Stratégie Construction
Docsity logo



Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved