Artificiële intelligentie maakt voorraadbeheer efficiënter

Belangrijkste inzichten

  • Gebruik van deep reinforcement learning is een primeur voor logistieke toepassingen
  • Machinale leeralgoritmes kunnen worden gebruikt om logistiek goedkoper én duurzamer te maken
  • Multimodaal transport en dual sourcing worden praktisch haalbaar 

Wat hebben AlphaGo, een robot die tafeltennis speelt, een programma dat emoties herkent en zelfrijdende auto’s met elkaar gemeen, behalve dat ze tot de verbeelding spreken en gegarandeerd de media halen? Het zijn allemaal toepassingen van deep reinforcement learning (DRL). En sinds kort kunnen we ook intelligent voorraadbeheer aan dat lijstje toevoegen. Samen met twee collega’s toonden doctoraal onderzoeker Joren Gijsbrechts en professor Robert Boute aan dat DRL met succes kan worden toegepast op problemen die tot dusver nagenoeg onoplosbaar waren. Een primeur!

Praktische limieten

“We kregen de vraag van een grote speler in de FMCG-sector”, vertelt Robert. “Om zijn CO2-voetafdruk te verkleinen wil hij zo veel mogelijk vrachten van de weg halen om ze via het spoor te vervoeren. Spoorwegvervoer heeft een lagere CO2-impact, maar is trager en minder flexibel. Als je erin slaagt om die twee transportkanalen slim te combineren heb je echter én de ecologisch voordelen van het spoor én de flexibiliteit van de weg, zodat je snel kunt inspelen op schommelingen in de vraag. Zo’n modal shift lijkt eenvoudig, maar is het niet. Hetzelfde geldt voor dual sourcing of bevoorrading door twee leveranciers – een lokale duurdere met korte levertijden en een goedkopere buitenlandse met langere levertijden. Nu zijn er allerlei wiskundige modellen ontwikkeld om dergelijke bevoorradingsvraagstukken op te lossen, maar hoe nuttig die ook zijn, ze blijven academisch. Zodra je met reële data aan de slag wilt, bots je op hun limieten. Kostenfuncties, bijvoorbeeld, zijn in de praktijk niet altijd lineair, maar complex – te complex om in een wiskundige formule te gieten.”

Leren op basis van feedback

“De Supply Chain Optimization Faculty Summit georganiseerd door Amazon was een eurekamoment”, herinnert Robert zich. “30 academici van over de hele wereld kwamen er samen om te discussiëren over optimalisatie van de logistieke keten. En daar merkten we dat Amazon steeds meer inzet op machine learning of machinaal leren, meer bepaald op reinforcement learning (RL) of leren op basis van feedback uit de omgeving.”

Bij DRL wordt een diep neuraal netwerk (zie kader) gebruikt om een RL-algoritme te trainen. Het bekendste DRL-algoritme is dat gebruikt voor AlphaGo, het programma dat de menselijke wereldkampioen in het bordspel Go versloeg. RL is een van de categorieën van machinaal leren, naast gesuperviseerd en niet-gesuperviseerd leren, die typisch wordt toegepast in de robotica. In plaats van een bepaalde handeling of reeks handelingen van a tot z tot in de kleinste details te programmeren, ga je de robot zelf laten leren door goed gedrag te belonen. Dat is trouwens de beste optie als zo’n robot moet kunnen interageren met een omgeving die hij niet kent en als er zich zoveel verschillende situaties kunnen voordoen dat je de hele beslisboom met de voor elke situatie of toestand gepaste handeling onmogelijk nog kunt programmeren. Dan is het zaak om de robot, of algemener, een systeem, te laten ontdekken, door trial-and-error en gestuurd door feedback, welke handeling in welke situatie de beste is om het vooropgestelde doel te bereiken, nl. welke handeling de grootste beloning, uitgedrukt in een numerieke waarde, oplevert. 

Neurale netwerken

Artificiële neurale netwerken (ANN) zijn wiskundige modellen, losjes geïnspireerd op de structuur en de werking van het menselijk brein. Het doel van een ANN is hetzelfde als dat van een biologisch brein: een probleem oplossen en leren uit gemaakte fouten. Zoals ons brein is opgebouwd uit neuronen die via synapsen elektrochemische signalen uitwisselen, zo bestaat een ANN uit neuronen of ‘knopen’ die met elkaar verbonden zijn.


Een neuraal netwerk bestaat uit meerder lagen. Elke laag verwerkt (een deel van de) informatie en stuurt het resultaat van die verwerking naar de volgende laag om ten slotte een bepaalde output te produceren.

Er bestaan verschillende netwerkarchitecturen. Typisch is er een inputlaag en een outputlaag van neuronen met daartussen een of meerdere verborgen lagen. Diepe neurale netwerken hebben meerdere verborgen lagen. 

Het voordeel van een ANN? Elke knoop kan slechts enkele eenvoudige bewerkingen uitvoeren (optellen, vermenigvuldigen, afbreken), maar door heel veel van die knopen in een netwerk te combineren, kan een ANN erg ingewikkelde functies benaderen, en zo tot veel complexere inzichten komen dan met klassieke algoritmes mogelijk is.

Steeds betere beslissingen

“Laten we dat toepassen op ons concrete vraagstuk waarbij een bedrijf zijn bevoorrading wil optimaliseren door spoor- en wegvervoer zo goed mogelijk te combineren, dit wil zeggen tegen minimale kosten, met een zo klein mogelijke ecologische voetafdruk en zonder in te boeten aan klanttevredenheid”, zegt Robert. “Extra complicerende factor: er wordt gewerkt met containertransport, wat aanleiding geeft tot ingewikkelde kostenfuncties. Er zijn ontzettend veel mogelijke combinaties van voorraadniveaus en voor elke combinatie of situatie zijn andere keuzes aangewezen. Het systeem kent op elk moment de toestand van de omgeving, nl. de voorraad ter plaatse en de voorraad in transit, en het algoritme zal op basis daarvan beslissen hoeveel er via de weg en hoeveel via het spoor moet worden aangevoerd. Die beslissing heeft op haar beurt een impact op de omgeving – de voorraden – en de kosten die je wilt minimaliseren, de ecologische voetafdruk en het serviceniveau en beïnvloedt op die manier de beslissing op een volgend tijdstip. Voor elke beslissing worden de kosten berekend. Tijdens de training van het algoritme (en het neurale netwerk) leert het systeem om steeds beter te doen, nl. een beslissing te nemen die minder kost dan de vorige.”

Intuïtie en uitgestelde beloningen

“In se is ons logistieke optimalisatieprobleem niet anders dan de optimalisatieproblemen opgelost door AlphaGo of nog, door zelfrijdende auto’s”, vult Joren aan. “Die laatsten moeten zo snel mogelijk van A naar B rijden zonder ongevallen. RL is ook hier bijzonder geschikt, want de omgeving waarin die auto’s bewegen is a priori onbekend. Er kunnen zich oneindig veel verschillende situaties voordoen. De auto’s moeten een bepaalde intuïtie verwerven voor veilige en onveilige situaties, voor situaties waarin ze moeten remmen of uitwijken enz. Die intuïtie wordt opgebouwd door het algoritme te trainen, zodat die auto’s ook in een situatie die zich tijdens de training niet heeft voorgedaan, goed reageren.”

Ook stipt hij nog aan dat er bij RL sprake kan zijn van uitgestelde beloningen: “Een bepaalde handeling in een bepaalde situatie beïnvloedt niet alleen de onmiddellijke beloning, maar heeft ook een impact op de situatie die uit die handeling voortvloeit, en daardoor ook op toekomstige beloningen. Bij AlphaGo kan een slechte zet op tijdstip t betekenen dat het spel vijf zetten later verloren wordt. Bij ons voorraadprobleem kunnen bepaalde beslissingen toekomstige kosten genereren. Het is dus de actuele waarde van de kosten die geminimaliseerd moet worden. Het algoritme leert het systeem daar rekening mee te houden.” 

In samenwerking met Google

Er zijn verschillende DRL-algoritmes en netwerkarchitecturen. “Wij hebben gebruikgemaakt van een volledig geconnecteerd neuraal netwerk en het geavanceerde Asynchronous Advantage Actor-Critic of A3C-algoritme, een van de meest populaire recent ontwikkelde DRL-algoritmes, om dit probleem op te lossen”, legt Joren uit. “De rekenkracht werd geleverd door het Google Cloud Platform. Om zo’n algoritme (en het neuraal netwerk) te trainen, moet je het honderden keren laten draaien en dat lukt je niet op een gewone pc, daar heb je een supercomputer voor nodig. Dat we DRL tegenwoordig met succes kunnen gebruiken, is niet alleen dankzij de almaar betere algoritmes, maar ook, en vooral, omdat er veel meer rekenkracht beschikbaar is gekomen.”

Het team vond dat het A3C-algoritme erin slaagt om voor een reëel probleem met échte data en realistische kostenfuncties een goede bevoorradingsstrategie uit te werken die beantwoordt aan de vooropgestelde doelen. De vraag is dan natuurlijk hóe goed de door het algoritme geleerde strategie is. Hoe ver zit deze oplossing van het optimum? “Om dat te kunnen inschatten hebben we het algoritme niet alleen losgelaten op de reële case, maar ook op enkele eenvoudige bevoorradingsvraagstukken waarvoor we de uitkomst exact konden berekenen. Wat bleek? Voor eenvoudige situaties waarvoor robuuste academische modellen ontwikkeld zijn, presteert A3C niet altijd beter”, vertelt Robert. “Dat is enigszins geruststellend”, lacht hij. “Al dat academische werk is dus niet zinloos geweest. Maar zodra je te maken hebt met een realistisch probleem presteert A3C even goed of zelfs beter.”

Beter dan state-of-the-art

Robert is enthousiast: “Dit is de eerste studie die onomstotelijk aantoont dat DRL-algoritmes kunnen worden gebruikt om complexe logistieke vraagstukken op te lossen die te moeilijk zijn om te modelleren. Het probleem dat we hier behandeld hebben is al jaren bekend, maar de bestaande academische modellen schieten tekort. Dat is ook de reden waarom vele bedrijven nog niet zijn overgestapt op multimodaal vervoer of dual sourcing, omdat de praktische tools ontbraken.”

“Het mooie aan DRL is dat je kunt starten van scratch af aan”, valt Joren hem bij. “Als academici focusten we tot dusver op gestileerde modellen en regels en als een bedrijf dan een oplossing zocht voor een reëel probleem moesten we er nieuwe proberen te ontwikkelen. DRL-algoritmes leren echter zelf om goede bevoorradingsregels te vinden. Het feit dat je met DRL kunt generaliseren naar eender welke bedrijfsspecifieke situatie is ontzettend waardevol.”

“Met het A3C-algoritme doen bedrijven beter dan met de academische state-of-the-art-modellen. Ze kunnen het optimum dichter benaderen zodat ze betere beslissingen kunnen nemen om hun logistiek efficiënter te maken”, besluit Robert.

Bron: De paper ‘Can Deep Reinforcement Learning Improve Inventory Management? Performance and Implementation of Dual Sourcing-Mode Problems’ is gepubliceerd op de SSRN-website. Je kan hem ook opvragen bij de auteurs.

Over de auteurs
Joren Gijsbrechts is doctoraal onderzoeker aan de faculteit Economie en Bedrijfswetenschappen van de KU Leuven. Robert Boute is Full Professor in Operations Management aan de Vlerick Business School en aan de faculteit Economie en Bedrijfswetenschappen van de KU Leuven. Jan A. Van Mieghem is Harold L. Stuart Distinguished Professor in Managerial Economics en Professor in Operations Management aan de Kellogg School of Management van de Northwestern University (VSA). Dennis J. Zhang is Assistant Professor of Operations and Manufacturing Management aan de Olin Business School van de Washington University in St. Louis (VSA).

Accreditaties
& rankings

Equis Association of MBAs AACSB Financial Times