Pourquoi l’IA qui remplacerait l’homme dans l’écriture du code n’est pas pour demain

Un rapport compare du code écrit par des développeurs à du code co-écrit avec une IA. L’étude a passé des milliers de pull requests en revue. Les résultats montrent un gain de vitesse, mais aussi une hausse nette des problèmes détectés.

Le rapport a analysé des milliers de PR et a comparé celles rédigées par des IA et par des humains - ©tadamichi / Shutterstock

L'assistant de codage IA CodeRabbit a publié un rapport consacré à l’impact réel de l’IA générative sur la qualité du code. L’étude analyse plusieurs milliers de pull requests, ces propositions de modifications soumises par les développeurs et relues par leurs pairs avant intégration dans un projet. Chaque pull request passe par une phase de revue où les problèmes sont signalés, discutés puis corrigés.

Dans ce rapport, CodeRabbit compare deux situations simples. D’un côté, des pull requests rédigées sans assistance. De l’autre, des modifications co-écrites avec une IA. Chaque cas a été examiné selon des catégories précises, comme la logique, la sécurité, la gestion des erreurs ou la maintenabilité. Le document observe ce qui apparaît concrètement lors des revues, commentaire après commentaire.

L’IA accélère l’écriture du code, mais elle augmente fortement les problèmes détectés

Le premier enseignement du rapport tient dans un chiffre. Les pull requests qui contiennent du code généré avec une IA présentent en moyenne 1,7 fois plus de problèmes que celles écrites uniquement par des développeurs. Cela correspond à une hausse d’environ 70 % des signalements lors des revues. Une donnée qui fait écho à ces freelances, initialement virés pour être remplacés par des IA, puis finalement rappelées pour corriger ses bourdes, notamment dans le codage.

Cette différence apparaît de manière constante sur l’ensemble de l’échantillon analysé, sans se limiter à un type de projet ni une catégorie marginale de défauts. CodeRabbit observe davantage de problèmes liés à la logique, à la sécurité et à la gestion des erreurs. Ces catégories figurent parmi celles qui demandent le plus de temps à corriger.

Un autre élément qui ressort nettement des données est que les pull requests assistées par IA contiennent plus de lignes modifiées. Le volume de code augmente. Cette inflation a un effet direct sur la revue. Plus de lignes impliquent plus de points à vérifier, plus de commentaires, plus d’allers-retours avant validation.

Le rapport décrit aussi un phénomène récurrent lors des revues. Le code généré donne souvent une impression de propreté au premier passage. Il compile. Il suit des structures connues. Les problèmes apparaissent lorsque la revue s’attarde sur des points précis, comme les cas limites, les conditions d’erreur ou les dépendances indirectes. À ce stade, la correction demande une lecture attentive et une bonne connaissance du projet.

En moyenne, les PR avec IA comptent 10,83 problèmes par PR, soit environ 1,7 fois plus que les 6,45 problèmes relevés dans les PR humaines - ©CodeRabbit

Sans compréhension du contexte, l’IA produit un code générique difficile à intégrer

En analysant la nature des défauts signalés, l'étude a permis d'établie une limite claire. L’IA produit du code générique. Elle applique des solutions largement répandues, mais elle ignore une partie des règles propres aux projets étudiés.

On a alors observé des incohérences dans les conventions internes, des duplications de logique déjà existante ou des choix techniques qui contredisent l’architecture en place. Le rapport mentionne aussi des cas dans lesquels l’IA propose des bibliothèques ou des approches différentes de celles déjà utilisées par l’équipe. Des écarts qui compliquent l’intégration du code généré.

Les données montrent également que l’IA gère mieux des blocs isolés que des ensembles complexes. Une fonction ou une classe simple pose rarement problème. En revanche, changement de ton dès que le code implique plusieurs modules, des dépendances croisées ou des scénarios secondaires, les défauts se multiplient. Les chemins d’exécution moins fréquents attirent moins l’attention de l’outil.

À l’inverse, le développeur humain travaille avec une mémoire du projet. Il connaît les décisions passées, les compromis acceptés et les zones sensibles du code. Cette connaissance influence directement la manière d’écrire et de relire. Le rapport montre que cette différence explique une grande partie des problèmes détectés lors des revues de code assistées par IA.

Le travail se déplace vers la revue et la correction

Les données analysées décrivent un déplacement du travail. L’IA réduit le temps passé à écrire certaines portions de code. Certes, mais en contrepartie, la phase de revue s’allonge. Les reviewers laissent plus de commentaires et demandent plus de corrections sur les pull requests assistées par IA.

Autre point souvent sous-estimé : comprendre un code que l’on n’a pas écrit demande déjà un effort. Comprendre un code produit par un outil ajoute une étape supplémentaire. Le développeur doit identifier les hypothèses implicites de l’IA, vérifier leur validité et les adapter aux contraintes du projet.

Cette phase mobilise des compétences très concrètes. Lecture attentive, compréhension de la logique métier, vérification des interactions internes. Le rapport montre que la qualité finale dépend largement de cette étape, bien plus que de la vitesse initiale d’écriture.

Le rapport de CodeRabbit dresse ainsi un état des lieux précis des pratiques observées. L’IA permet d’écrire plus de code en moins de temps. Elle entraîne aussi une hausse mesurable des problèmes détectés et une charge accrue lors des revues. Tant que ces constats dominent les données analysées, l’écriture autonome du code par une IA reste hors de portée des usages observés aujourd’hui. De quoi faire applaudir les humains des deux mains, ce que là encore, une IA ne sait pas faire toute seule.

Source : CodeRabbit