17 december 2019
Ta kontroll över ditt verksamhetsdata med regressionsanalys
Regressionsanalys är en samling mycket kraftfulla metoder för att analysera data med syfte att förstå hur datats parametrar korrelerar, samt att kunna dra nytta av denna kunskap för att göra förutsägelser och prognoser.
Varför är regressionsanalys intressant för mig?
De flesta verksamheter är bra på att samla in och lagra data, vilket ger goda möjligheter att också analysera datat. Om din verksamhet har samlat in data men ännu inte börjat använda analysmetoder för att utnyttja datats fulla potential så är regressionsanalys ett verktyg som kan hjälpa till att kickstarta ett datadrivet förhållningssätt både i linjearbetet och verksamhetsutvecklingen i din organisation. Det finns (åtminstone) två goda skäl att känna till hur regressionsanalys fungerar och fundera på hur du kan använda det i din verksamhet. Med regressionsanalys kan vi:
- Upptäcka korrelation i data
- Förutsäg och prognostisera
Normalt sett vill man göra dessa två steg i tur och ordning, dvs. man undersöker först om det finns någon korrelation mellan förklarande variabler och beroende variabler (indata och utdata) för att därefter använda resultatet från analysen för att kunna göra prognoser.
Ett enkelt exempel med regressionsanalys
Ett enkelt sätt att komma igång med att upptäcka eventuella korrelationer i sitt data är att försöka visualisera det. Ett exempel på hur det första steget kan gå till ser vi i figur 1. Där har vi plottat 20 personers längd och vikt med syfte att undersöka om det finns något tydligt samband mellan dessa två parametrar.
Figur 1. Längd och vikt för 20 personer.
Ur grafen kan vi se att det finns en ganska tydlig korrelation mellan längd och vikt som vi kanske kan modellera med en rät linje. Frågan är då hur vi kan hitta en så bra rät linje som möjligt. Vi kan mäta hur bra en linje är genom att summera ”felet”, det vill säga hur långt linjen ligger från varje datapunkt. En bra linje ligger nära punkterna och har ett litet fel. Detta illustreras i figur 2.
Figur 2. Summan av längden av de gröna linjerna ska minimeras för att hitta den bästa linje som passar datapunkterna. (För att undvika att grafen blir för plottrig är avståndet mellan punkter och linje endast markerat för fyra av de 20 punkterna.)
Nu kan vi gå vidare med steg två, nämligen att använda vår kunskap om sambandet mellan längd och vikt för att göra förutsägelser om personers vikt utifrån deras längd. Förutsägelserna kommer naturligtvis inte vara exakt rätt, men givet att korrelationen vi har modellerat med vår räta linje stämmer generellt, så bör vi kunna göra riktigt skapliga förutsägelser. Om en persons vikt är okänd, men vi vet att personens längd är 172,5 cm så ger vår modell en uppskattning av vikten till 77 kg.
Avancerade varianter av regressionsanalys
Det är inte alltid ett samband mellan parametrar bäst beskrivs av en rät linje. Det är inte heller alltid vi är intresserade av ett samband mellan endast två parametrar. Faktum är att den riktiga styrkan i regressionsanalys är att metoden lämpar sig för komplexa samband där en beroende variabel kan bero på mer än en förklarande variabel, och där sambandet kan beskrivas av någon form av kurva (inte bara räta linjer). Figur 3 visar en anpassad kurva där kurvan beskrivs av ett andragradspolynom som är framtagen med linjär regressionsanalys.
Figur 3. I vissa fall kan en kurva beskriva datapunkterna bättre än en rät linje. I den här figuren är den anpassade kurvan ett andragradspolynom.
I de fall man har parametrar i sitt dataset som är korrelerade, men där nivån av korrelationen varierar, så kan det vara värt att dela upp sitt ursprungliga data i flera mindre dataset och genomföra en segmenterad regressionsanalys, dvs. en regressionsanalys på varje separat dataset (se figur 4).
Figur 4. Ett exempel på segmenterad regressionsanalys där datapunkterna är indelade i två delmängder med varsin anpassad rät linje.
När kan det vara aktuellt att göra en regressionsanalys
Här följer några exempel på när regressionsanalys kan vara ett bra verktyg i olika typer av system:
- Ärendehantering
- Förväntad handläggningstid
- Orderhantering
- Förväntad leveranstid
- Fakturering
- Förväntat antal krediteringar
- Förväntat totalbelopp krediteringar
- Insamlingssystem
- Förväntat antal gåvor från nyregistrerad givare
- Förväntat totalbelopp gåvor från nyregistrerad givare
Sammanfattning och nästa steg
I den här artikeln har vi tittat på hur vi kan analysera vårt verksamhetsdata och skapa oss en bild av sambanden mellan datats olika parametrar. Detta ger oss möjlighet att göra förutsägelser och prognoser utifrån kunskapen om dessa samband. Vi på Multisoft hjälper dig gärna med att komma igång vare sig det gäller ett specifikt fall, eller rent allmänt för att göra en genomlysning av verksamhetens data inom olika områden inom just din verksamhet. Läs även de sex första delarna av bloggserien: Del 1: Kom igång med maskininlärning Del 2: Så kan du tillämpa maskininlärning i din verksamhet Del 3: En första tillämpning av maskininlärning Del 4: Hur kan vi automatiskt preparera ett dataset Del 5: Beslutsträd – kategorisera ditt data och förstå varför Del 6: Förstå och förutsäg ditt transaktionsdata Vi på Multisoft hjälper dig gärna med att komma igång vare sig det gäller ett specifikt fall, eller rent allmänt för att göra en genomlysning av verksamhetens data inom olika områden inom just din verksamhet. Läs mer om hur vi jobbar med AI.