Criteo geeft grote dataset voor machine learning aan wetenschap

Vrijgeven van de dataset is nodig om beter onderzoek te kunnen doen naar (advertising) dataproblemen.

Helaas hebben we niet meer de rechten op de originele afbeelding
adformatie

Performance marketingtechnologiebedrijf Criteo  geeft de grootste publieke dataset ooit vrij voor machine learning. De dataset wordt op deze manier beschikbaar voor de open source community. 

Hiermee wil Criteo academisch onderzoek en innovatie binnen de gedistribueerde machine learning algoritmen ondersteunen.

Met het toenemende overwicht van grote dataproblemen in verschillende branches, ook performance advertising,  is het vrijgeven van datasets zoals deze nodig om academisch onderzoek en voortgang in branche zelf te stimuleren.

Geanonimiseerde datasets met informatie van echte applicaties geven onderzoekers de kans om de machine learningplatforms, waar zoveel bedrijven afhankelijk van zijn, te testen, verfijnen en te verbeteren. Criteo bijvoorbeeld is afhankelijk van een gepatenteerd en gedistribueerd leer-algoritme, om zo nauwkeurig te kunnen voorspellen wanneer een consument zal klikken op een bepaalde advertentie. Dit algoritme wordt gebruikt om de ROI van een adverteerder op de advertentie te verbeteren.

‘Nauwkeurigheid en snelheid van machine learning-algoritmen zijn essentieel voor het succes van ons bedrijf, en dat van vele anderen. Dit is echter heel moeilijk te bereiken zonder datasets die publiekelijk beschikbaar zijn’, aldus Olivier Chapelle, Principle Research Scientist bij Criteo.

Meer dan 1 terabyte
Het bedrijf krijgt 30 miljard HTTP verzoeken per dag (inclusief twee miljoen verzoeken per seconde), levert drie miljoen unieke banner advertenties per dag en slaat dagelijks meer dan 20 terabyte nieuwe data op, met een capaciteit van 37 petabytes ruwe opslag. Met meer dan vier miljoen regels en meer dan een terabyte qua grootte in totaal, bouwt de nieuw uitgebrachte dataset voort op Criteo’s ‘click prediction’ dataset, eerder uitgebracht als deel van de , uitgevoerd met Kaggle. Deze dataset werd door de onderzoekers van Carnegie Mellon University.

Criteo’s terabyte dataset wordt gehost op Microsoft Azure, verdere details kunnen worden gevonden worden op .

 

Plaats als eerste een reactie

Ook een reactie plaatsen? Word lid van Adformatie!

Word lid van Adformatie → Login →
Advertentie