De la promesse d'écrire du code en parlant français à la réalité d'une IA performante mais pas infaillible, plongée dans l'univers de Codex, le programmeur virtuel d'OpenAI.
Et si développer une application ou un site web devenait aussi simple que de dicter une recette de cuisine à un assistant vocal ? C'est un peu la promesse folle derrière OpenAI Codex, une intelligence artificielle conçue par les créateurs de ChatGPT, qui ambitionne de transformer nos mots en lignes de code. Mais alors, nos claviers sont-ils voués à prendre la poussière ? Pas si vite, l'histoire est un peu plus complexe et, avouons-le, bien plus croustillante.
Imaginez une IA, Codex donc, qui n'est autre qu'un descendant direct du célèbre modèle de langage GPT-3 (oui, celui qui alimente ChatGPT). Sauf que Codex, lui, a passé son temps à dévorer des bibliothèques entières de code source public, notamment depuis la plateforme GitHub. Résultat ? Il a appris à « penser » et à « parler » couramment plusieurs langages de programmation, avec une prédilection pour Python. Son super-pouvoir : comprendre une instruction en langage naturel – un simple commentaire en français, par exemple – et la traduire en code fonctionnel. C'est cette technologie qui a notamment donné naissance à GitHub Copilot, l'assistant qui souffle des suggestions de code aux développeurs. Fascinant, non ?
Mais comment savoir si une IA code « bien » ? Les chercheurs d'OpenAI ont dû inventer un test de conduite spécialement pour Codex, baptisé HumanEval. Pensez-y comme un examen de code très strict : 164 problèmes de programmation, écrits à la main par des humains, que l'IA doit résoudre. Chaque solution proposée par Codex est ensuite automatiquement vérifiée par une série de tests unitaires. C'est un peu comme si on demandait à l'IA de prouver que son code fait bien ce qu'on lui a demandé, sans tricher.
L'étude fondatrice de Mark Chen et ses collègues en 2021, qui a introduit Codex, a révélé des chiffres assez parlants. Sur ce fameux HumanEval, la version la plus costaude de Codex (avec 12 milliards de paramètres, excusez du peu) a réussi à résoudre 28,8 % des problèmes du premier coup (c'est ce qu'on appelle le score pass@1). À titre de comparaison, GPT-3, son aîné plus généraliste, affichait un score de... 0 %. Un autre modèle, GPT-J, atteignait 11,4 %. Codex montrait donc une réelle spécialisation.
Autre article : Assistant Google : la fin d'une ère, Gemini et l'IA prennent le relais malin
Un autre concept clé issu de cette étude est celui du pass@k. Derrière cet acronyme un peu barbare se cache une idée simple : si on laisse à l'IA plusieurs essais pour résoudre un problème, ses chances de succès augmentent. Un peu comme nous quand on s'acharne sur un Sudoku ! Ainsi, en générant 100 propositions de code pour chaque problème du HumanEval, Codex parvenait à trouver une solution correcte dans 70,2 % des cas. Ça commence à devenir sérieux ! Une version encore affinée, Codex-S, grimpait même à 77,5 % dans ces conditions.
Malgré ces prouesses, le rapport Chen et ses co-auteurs soulignaient déjà en 2021 que Codex n'était pas magicien. Parmi ses faiblesses : une tendance à pédaler dans la semoule face à des instructions trop longues ou complexes, et des difficultés à bien gérer l'attribution des valeurs aux variables dans le code. En gros, un assistant brillant, mais qui peut parfois faire des erreurs de débutant.
C'est là qu'on touche à un enjeu majeur, également soulevé par l'étude : les « impacts plus larges ».
Un exemple concret tiré des discussions de la communauté en 2021 illustrait bien cette ambivalence : un utilisateur avait réussi, avec un modèle proche de Codex (Davinci-2), à traduire un algorithme JavaScript non trivial (NestHydrationJS) en Python, un résultat qualifié de "bluffant". Cependant, la nécessité de revue humaine et le potentiel d'erreurs subtiles restaient des préoccupations.
Autre article : GPT-4.1 sur ChatGPT : moins de blabla, plus d'efficacité pour les pros de l'IA
Avance rapide jusqu'en mai 2025. OpenAI a annoncé une nouvelle version, ou plutôt une nouvelle incarnation de Codex : un « agent Codex » intégré directement à ChatGPT pour les utilisateurs professionnels. Celui-ci, propulsé par un modèle nommé codex-1 (une évolution d'o3), ne se contente plus de traduire du langage naturel en code. Il promet d'aller plus loin : corriger des bugs, développer des fonctionnalités entières, répondre à des questions sur une base de code existante, et même proposer des "pull requests" (des soumissions de modifications de code, pour les non-initiés).
Une nouveauté importante est son environnement d'exécution sécurisé, dit « sandboxed ». C'est un peu comme si l'IA travaillait dans une pièce isolée, sans accès direct à Internet pendant qu'elle exécute des tâches, pour limiter les risques. Une tentative de réponse aux préoccupations passées sur la sécurité.
L'arrivée de ces outils ultra-performants soulève inévitablement la question : les développeurs humains ont-ils encore leur place ? Si l'on en croit OpenAI et les premières analyses, Codex se positionne plus comme un « collègue virtuel » ou un « stagiaire junior sous stéroïdes » (comme l'ont décrit certains retours de la communauté) que comme un remplaçant total. L'idée serait de déléguer les tâches répétitives ou chronophages à l'IA pour se concentrer sur la conception, l'architecture et la validation.
Le paradoxe, c'est que ces IA sont entraînées sur des millions de lignes de code public, souvent issues de projets open source auxquels des humains ont contribué. Verra-t-on une IA surpasser ses maîtres grâce à leur propre travail ? C'est l'un des nombreux débats passionnants que soulève cette révolution.
Le saviez-vous ?
Selon l'étude publiée sur Arxiv, le modèle Codex original a été entraîné sur 159 gigaoctets de code Python provenant de 54 millions de dépôts GitHub publics ! Une véritable indigestion de code pour devenir aussi performant.
OpenAI Codex, dans ses différentes incarnations, représente une avancée technologique indéniable. De simple traducteur de langage naturel vers le code à un agent capable d'intervenir plus largement dans le cycle de développement, il incarne la puissance croissante des IA génératives. Si la promesse d'automatiser certaines parties fastidieuses du codage est séduisante, les questions de fiabilité, de sécurité, d'éthique et d'impact sur l'emploi restent au premier plan. Une chose est sûre : le métier de développeur est en pleine mutation, et la collaboration homme-machine semble être la nouvelle mélodie du code.
Reste à savoir si Codex apprendra un jour à faire le café... ou s'il se contentera de coder la machine qui le fait à la perfection !
Auteur : Jérôme
Expert en développement web, référencement et en intelligence artificielle, mon expérience pratique dans la création de systèmes automatisés remonte à 2009. Aujourd'hui, en plus de rédiger des articles pour décrypter l'actualité et les enjeux de l'IA, je conçois des solutions sur mesure et j'interviens comme consultant et formateur pour une IA éthique, performante et responsable.