Power BI - Gegevens optimaliseren
woensdag 12 januari 2022
Heb je het vorige blog al gelezen over het ophalen en relateren van data? Hier gaan we nu op verder. In dit artikel ga ik in op de laatste stappen die je moet zetten voor je gegevens gaat visualiseren. Ik behandel een aantal mogelijkheden die je hebt om de gegevens te optimaliseren. Waarom is dit nodig? Behalve het leggen van relaties zijn er nog veel meer stappen die je kan zetten om het model meer geschikt te maken voor analyse. Denk hierbij aan het volledig maken van gegevens door lege regels te vullen of fouten op te lossen. Het overslaan van deze stap kan de mogelijkheden in de visualisatiefase flink beperken
Binnen Power BI optimaliseer je gegevens met behulp van de Power Query Editor. Voor lezers met een achtergrond in Excel is dit een bekend gebied. De Power Query Editor stelt jou in staat om jouw data vorm te geven zoals jij wilt. In dit artikel geef ik jou een checklist met uitleg over de stappen die je moet doorlopen om tot een goed gegevensmodel te komen.
Maar allereerst... Hoe en waar doe ik dit?
Binnen de Startpagina van Power BI Desktop navigeer je naar Gegevens transformeren.
Als je hierop klikt opent Power BI een nieuw scherm met daarin de Power Query Editor. Laat je niet intimideren door de hoeveelheid elementen die nu verschijnen. Ik zal ze één voor één uitleggen.
- Dit lint bevat vijf tabbladen (Home, Transform, Add Column, View en Help) met de functionaliteiten die je in de Power Query Editor kunt gebruiken. Het Start tabblad bevat veel voorkomende functionaliteit die je nodig gaat hebben in de eerste stappen van het optimalisatieproces. Denk hierbij aan het kiezen welke kolommen je wilt gebruiken (of juist niet) of rijen met foutieve waarden verwijderen. Het tabblad Transformeren bevat functionaliteiten om de geselecteerde tabel te wijzigen. Hierbij kun je denken aan bijvoorbeeld het splitsen van kolommen of het wijzigen van een gegevenstype. Op dit laatste element kom ik nog terug. Kolom toevoegen kun je waarschijnlijk al raden. Dit tabblad geeft je functionaliteiten om je tabel te verrijken met gegevens op basis van de bestaande tabel. Weergeven geeft je extra opties om de kwaliteit van de gegevens per kolom te analyseren. Het geeft je snel inzicht in de volledigheid (is alles gevuld) of het aantal fouten per kolom. Help bevat links naar relevante documentatie en video’s die je verder op weg kunnen helpen binnen de Query Editor. De Query Editor bevat ontzettend veel mogelijkheden om jou te ondersteunen in het optimaliseren van het gegevensmodel. Microsoft heeft een grote hoeveelheid documentatie beschikbaar waar je in kunt duiken. Ik raad je aan om hier veelvuldig gebruik van te maken.
- Het Querypaneel toont de tabellen die je gegevensmodel bevat. Houd er rekening mee dat als je bewerkingen wil doorvoeren op een specifieke tabel, dat je de betreffende tabel eerst selecteert.
- Het Gegevenspaneel bevat de gegevens van de geselecteerde tabel. Hierin kun je zien wat het effect is op de gegevens als je de querytaken toepast.
- Als laatste hebben we het paneel met toegepaste stappen die van boven naar beneden worden uitgevoerd. Iedere keer als je een functionaliteit uit de Query Editor toepast op de geselecteerde tabel, verschijnt hier een nieuwe stap. De stap wordt opgeslagen en wordt vanaf dat moment altijd doorlopen (dus ook als je de gegevens wilt verversen). Deze stappen kun je verplaatsen qua volgorde, wijzigen of verwijderen. Mocht een bewerking dus niet het gewenste effect hebben, dan kun je altijd terug. Vooral dit laatste geeft je de mogelijkheid om al ‘spelenderwijs’ de functionaliteiten van de Query Editor te verkennen. Probeer het een en ander uit en zie wat het effect is. Heeft een stap niet het gewenste effect? Verwijder dan de stap en probeer iets anders.
Stappenplan
Nu je doorhebt hoe de Power Query Editor is opgebouwd, wil ik je een stappenplan meegeven. Met dit stappenplan kun je je eerste gegevensset verder optimaliseren en afronden.
Stap 1: Naamgeving
Naamgeving is enorm belangrijk voor de leesbaarheid van het model. Het stelt de gebruiker (maar ook de ontwikkelaar) in staat om te begrijpen welke gegevens in de tabellen en kolommen staan. Je hebt in Power BI de mogelijkheid om de tabel- en kolomnamen te wijzigen. Maak hier gebruik van en verander de naam in iets waarvan jij (maar ook andere betrokkenen) weten wat voor gegevens in de tabel of kolom staan. Hou de naam kort maar krachtig.
Stap 2: Gegevenstypen
Vanuit database-oogpunt moet een kolom altijd een gegevenstype hebben. Dit type vertelt iets over het soort gegevens dat in de betreffende kolom staat. Hierbij kun je denken aan de volgende typen: tekst, decimale getallen, gehele getallen, waar/onwaar etc. In de kolomnamen van de Query Editor kan je zien welk gegevenstype iedere kolom heeft. Het correct instellen van deze gegevens is van groot belang als je de gegevens gaat visualiseren, of er berekeningen mee wilt maken. Even een voorbeeld: stel je wilt de bedragen van verschillende orders op gaan tellen. Dan zul je ervoor moeten zorgen dat dit veld een gegevenstype Decimaal getal heeft. Stel dat dit het gegevenstype Tekst zou hebben, dan kun je hiermee niet aggregeren.
Stap 3: Fouten oplossen
Het toewijzen van een gegevenstype kan fouten veroorzaken. Dit komt voor wanneer een waarde niet het formaat heeft wat het volgens het gegevenstype zou moeten hebben. Zo kun je geen tekstwaarde toewijzen aan een gegevenstype Getal. Deze fouten kun je oplossen of eventueel verwijderen (de keuze is aan jou).
Stap 4: Gegevens transformeren
Gegevens transformeren om de bestaande gegevens in het gewenste formaat te krijgen. De bestaande kolommen kun je op allerlei manieren bewerken. Denk hierbij aan het splitsen van kolommen, groeperen van rijen of het samenvoegen van tabellen.
Stap 5: Gegevensmodel verrijken
Behalve het model verbeteren en volledig maken, kunnen we het ook verrijken. Via het tabblad Kolom toevoegen kom je bij de functionaliteiten om nieuwe waarden te genereren op basis van de tabel. Zo heb je bijvoorbeeld de mogelijkheid om berekeningen toe te voegen en een nieuwe waarde te genereren op basis van bepaalde condities.
Stap 6: Opslaan
Na het toevoegen van nieuwe stappen zul je de stappen definitief moeten toepassen op de query. Dit doe je door op Opslaan te klikken waarna Power BI voor je aan de slag gaat om het datamodel naar jouw wensen om te zetten. Power BI bewerkt de gegevens in de bron (bijvoorbeeld het Excel bestand) niet. De stappen worden toegepast op kopie van de gegevens uit de bron dus wees niet nerveus om de functionaliteiten uit te proberen.
Veel succes met het optimaliseren en afronden van het gegevensmodel! Het inladen en optimaliseren van de data is nu achter de rug, nu kunnen we gaan visualiseren! Dit ga ik behandelen in mijn volgende blog.
Heb je na het lezen van dit artikel vragen gekregen of zou je graag met ons willen sparren? Laat het mij weten en dan kom ik graag met je in contact.
De afbeeldingen die gebruikt zijn in dit artikel zijn afkomstig van Microsoft