L’intelligence artificielle ne rend pas toujours les développeurs plus efficaces. Une nouvelle étude démontre que, dans certains contextes complexes, elle peut même les ralentir.

L'IA a révolutionné le domaine du code. ©thinkhubstudio / Shutterstock
L'IA a révolutionné le domaine du code. ©thinkhubstudio / Shutterstock
L'info en 3 points
  • Une étude révèle que l'IA peut ralentir les développeurs sur des projets complexes, malgré les promesses d'efficacité.
  • Les développeurs ont constaté un temps de réalisation 19 % plus long avec l'IA, dû aux corrections nécessaires.
  • L'IA peine à s'adapter aux contextes complexes, soulignant l'importance de l'expertise humaine dans le codage avancé.

L'étude, menée par l'ONG Model Evaluation & Threat Research (METR), a évalué l’efficacité des outils d’IA d’aide au codage dans un contexte professionnel réel. Objectif : déterminer si les promesses des entreprises fournissant des IA sont bel et bien fondées, le codage étant considéré comme l'un des domaines les plus chamboulés par cette technologie.

Des développeurs plus efficaces sans IA

Pour la mener à bien, l'organisme, spécialisé dans l’évaluation des risques liés à l’IA, a mobilisé 16 développeurs expérimentés, chacun travaillant sur un dépôt open source qu’il connaissait bien. Au total, 246 tâches concrètes ont été réalisées : correction de bugs, nouvelles fonctionnalités, remaniement…

Pour la moitié d'entre elles, les participants ont dû utiliser des outils d’IA comme Claude ou Cursor Pro ; pour l’autre, ils ont travaillé sans aucune assistance. À noter que le niveau de difficulté des tâches a été équilibré à l’aide d’estimations préalables, et que le temps total inclut aussi les modifications demandées après relecture du code.

Les résultats sont pour le moins surprenants. Les développeurs étaient convaincus d'avoir gagné 24 % de temps grâce à l’IA, et d'avoir été 20 % plus rapides une fois leurs tâches terminées. En réalité, celles qui ont été réalisées avec l’aide de l’IA ont mis 19 % de temps en plus.

Des lignes de code. ©Shutterstock
Des lignes de code. ©Shutterstock

L'IA peine encore pour les tâches complexes

Pourquoi un tel décalage ? Il faut d'abord savoir que seulement 44 % du code généré par l’IA a été accepté tel quel : le reste a dû être revu et corrigé, soit environ 9 % du temps total dans les tâches assistées. Même si l’IA a permis de coder plus vite, ce gain a été effacé par le temps passé à rédiger les requêtes, attendre les réponses, et surtout à corriger le code généré pour être sûr qu'il n'y avait aucune erreur.

« Les benchmarks peuvent surestimer les capacités des modèles en ne mesurant que les performances sur des tâches bien délimitées et algorithmiquement scorables. De plus, nous disposons aujourd'hui de preuves solides que les rapports anecdotiques/estimations de la vitesse peuvent être très inexacts », commente le METR.

Car en général, ces tests évaluent la productivité en comptant le nombre de lignes de code sur des tâches artificielles, tandis que cette étude s’est appuyée sur des projets réels, anciens et complexes. Résultat, l’IA a peiné à s’adapter au contexte, à la documentation implicite ou aux conventions internes que les développeurs humains, eux, maîtrisaient parfaitement.

La leçon à en tirer : les générateurs de code actuels peuvent ralentir les développeurs expérimentés lorsqu’ils travaillent sur des projets exigeants. Cela ne veut pas dire que l’IA est inutile, car certains modèles récents déjà des progrès. Mais dans l’état actuel, l'IA ne peut pas remplacer l’expertise humaine sur des bases de code complexes.

À découvrir
Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2025

04 février 2025 à 14h11

Comparatifs services