Nous avons développé une méthode d'analyse permettant de comparer différents LLMs et serveurs d'inférence au regard de leur consommation des ressources de calcul, latences serveur & utilisateur et consommation d'énergie & empreinte carbone. Nous présenterons les résultats obtenus avec vLLM et Llama.cpp sur le cluster de calcul du CNES et donnerons des clés essentielles pour optimiser et déployer efficacement ses propres serveurs d'inférence on-premise.