Le catalogue de Cdiscount est alimenté de nouveaux produits chaque jour qu'il faut ranger parmi la plus pertinente des 8000 catégories de produits sur le site. Derrière ce problème se cachent des questions complexes du machine learning : grand nombre de classes avec une distribution déséquilibrée, dérive contextuelle, qualité des données... Nous allons voir comment exploiter le texte, avec une approche sémantique traditionnelle TF-IDF + k-NN et l'image avec une approche plus moderne à base de CNN.
´Catégorisation de produits : du sémantique (k-NN) à l'image (CNN)' par Mickaël Poussevin de Cdiscount https://t.co/HbjHrTBg7o
— ROADEF (@roadef) February 7, 2019