Sous le modèle, l'atelier — Le Carnet · Département des Harnais

Bruxelles, 23 juin 2026

Une lecture banale du braconnage que documente Le Monde le 23 juin renverrait ce mouvement à du commerce ordinaire : les ingénieurs partent vers ceux qui payent mieux, le marché des talents fonctionne. Mais ce qui s'en va vers OpenAI et Anthropic, ce ne sont pas seulement des talents : c'est aussi la méthodologie d'entraînement et d'alignement construite chez Google pendant dix ans — l'atelier d'amont du modèle, plus que le modèle lui-même. Le Monde, dans Google se fait braconner ses talents dans l'intelligence artificielle par OpenAI et Anthropic, inscrit ce transfert dans une tenaille : Alphabet dévisse en Bourse, les modèles chinois cassent les prix par le bas, la compression vient des deux côtés à la fois.

Un preprint arXiv du 22 juin, Detecting Malicious Agent Skills in the Wild using Attention EN PREPRINT, identifie une surface d'attaque que les défenses contre l'injection de prompt ne couvrent pas. Les agents LLM chargent des skills — paquets d'instructions en langage naturel distribués via des marketplaces tierces — et les exécutent avec les privilèges de l'utilisateur. Une skill malveillante peut exfiltrer des données, détourner l'agent, s'implanter comme pied de chaîne d'approvisionnement ; la méthode proposée par les auteurs s'appuie sur l'attention pour la détecter sans fine-tuning spécifique. Le modèle de confiance qui sous-tend ces marketplaces suppose une distribution de bonne foi : une hypothèse d'institution dont l'appareil — habilitation, supervision, assurance qualité — n'existe pas encore pour les agents, et une hypothèse d'exploitation que rien n'a éprouvée sous charge.

Côté infrastructure et énergie, arXiv du 22 juin publie deux papiers qui travaillent la même couche. The Energy Consumption of Transformer Fine-Tuning: A Roofline-Inspired Scaling Model EN PREPRINT modélise la consommation du fine-tuning BERT multi-GPU via des proxies architecturaux légers — un cadre pour concevoir des entraînements à coût prévisible avant l'exécution. Concordia: JIT-Compiled Persistent-Kernel Checkpointing for Fault-Tolerant LLM Inference EN PREPRINT propose une tolérance aux pannes GPU pour les agents à longue durée, en extrayant la logique de checkpoint hors de chaque composant applicatif vers le noyau d'exécution. Les deux gestes pointent l'infrastructure d'amont : déplacer la prévisibilité du coût et la tolérance aux pannes hors des applications, vers la couche qui les exécute, pour qu'elles ne soient pas refaites — et mal — par chaque agent qui appelle le modèle.

Côté optimisation des modèles, arXiv du 22 juin publie HyperQuant: A Rate-Distortion-Optimal Quantization Pipeline for Large Language and Diffusion Models EN PREPRINT, pipeline de quantification post-entraînement qui surpasse HIGGS de 3 à 5 bits/scalaire sur poids et cache KV ; AIR: Adaptive Interleaved Reasoning with Code in MLLMs EN PREPRINT étend le raisonnement interleaved code aux problèmes de calcul numérique en multimodal ; Open Problem: Is AdamW Effective Under Heavy-Tailed Noise? EN PREPRINT soulève un problème ouvert sur la convergence d'AdamW en régime de bruit à queue lourde, alors que Lion et Muon disposent déjà de garanties théoriques dans ce régime.

Aucune décision réglementaire formelle dans le flux du 23 juin.

Numerama du 23 juin, dans Pearltrees : cette entreprise française « révolutionne » discrètement l'école grâce à l'IA, signale que l'éditeur EdTech revendique 1,5 million d'utilisateurs dans les collèges et lycées français et affiche de nouvelles ambitions de croissance — les mécanismes concrets de la couche IA restent à préciser.

Numerama du 22 juin, dans Utopai et Huace annoncent une énorme série d'animation entièrement conçue par IA, rapporte que les studios Utopai et le producteur chinois Huace lancent Journey to the West: The Lost Five Hundred Years, présentée comme la première série d'animation d'envergure entièrement générée par IA générative.

Next du 22 juin, dans ChatGPT va illustrer ses réponses avec les photos de Getty Images, rapporte que Getty Images a signé un accord multi-ans avec OpenAI pour intégrer des contenus de sa banque d'images dans les résultats de recherche du chatbot.

Next du 22 juin signale dans Projet Myna : Canonical confirme la reconnaissance vocale en local dans Ubuntu 26.10 la reconnaissance vocale embarquée, sans transfert cloud, dans la prochaine version d'Ubuntu.

Numerama du 22 juin, dans C'est quoi Megapod, le nouveau projet de Tesla pour les datacenters IA ?, signale le dépôt de marque pour un datacenter modulaire mobile dédié à l'entraînement et à l'inférence.

IT SOCIAL du 23 juin, dans Recrutement : Cegid présente trois agents IA bâtis sur la technologie de Mistral dans HR Talent Acquisition, revient sur les trois agents présentés par Cegid à VivaTech 2026 : rédaction des offres d'emploi, tri des candidatures, préqualification des profils, tous sous le contrôle du recruteur. L'éditeur justifie le choix de Mistral par le fait que ses modèles sont conçus et opérés en Europe, et par le classement du recrutement parmi les usages haut risque de l'AI Act — la catégorie qui impose documentation des risques et capacité d'expliquer pourquoi un profil est écarté. Le tri par algorithme existait depuis des années dans les ATS ; ce qui change, c'est la pression réglementaire qui contraint désormais à savoir le dire après coup. La mise à disposition est annoncée dans les prochains mois. C'est l'institution qui rentre dans le moteur : la même chose qu'un employeur déléguait depuis longtemps à un ATS sans appareil de confiance doit maintenant être appareillée pour redire, après l'écart, ce qui a été décidé et selon quoi.

The Decoder du 22 juin, dans Google makes Interactions API the default interface for Gemini models and agents EN, rapporte que Google DeepMind a basculé l'Interactions API en interface par défaut pour Gemini, remplaçant l'ancienne API generateContent. Le schéma simplifié utilise des étapes typées à la place des structures basées sur les rôles. Le point structurant : les nouvelles fonctionnalités agents ne seront livrées que via cette API, et les développeurs qui restent sur generateContent n'accèderont pas aux prochaines capacités agentiques de Gemini — la migration est non négociable pour qui veut suivre la feuille de route. Le code décide ici de la structure — la place des étapes, leur typage, leur ordonnancement — quand le rôle laissait au modèle le soin de l'interpréter ; c'est l'architecture qui devient prescriptive, pas le modèle. Et la décision d'embranchement ne se prend pas chez l'opérateur, elle se prend chez Google, qui possède l'interface dont tout agent qui parle à Gemini dépendra — la souveraineté n'est plus de capacité, elle est d'API.

The Decoder du 22 juin, dans Anthropic and Micron want to co-design AI memory architecture EN, rapporte que Micron entre au Series H d'Anthropic et signe un accord multi-ans pour fournir la mémoire de l'infrastructure Claude ; Tom Brown, co-fondateur d'Anthropic, désigne la mémoire comme critique pour l'entraînement et l'inférence, et l'entreprise co-conçoit désormais une architecture mémoire dédiée à ses workloads. Le même 22 juin, IT SOCIAL signale dans Anthropic étend sa collecte de données sur les abonnements Free, Pro et Max qu'à partir du 8 juillet 2026, le périmètre des données collectées s'élargit sans en retirer aucune — biométrie de vérification d'âge, données d'études, suivi d'applications connectées, usage marketing personnalisé. Verticalisation côté infrastructure matérielle, extension côté données utilisateurs : deux mouvements qui avancent de concert. C'est l'infrastructure d'amont qui se déplace : la mémoire — choisie pour les workloads, et le périmètre des données qui y entreront — sort du catalogue standard pour s'ancrer dans une dépendance bilatérale. La souveraineté qui se joue ici n'est pas celle de la capacité produite, c'est celle de qui décide ce qui entre.

The Decoder du 22 juin, dans Samsung rolls out ChatGPT Enterprise and Codex to employees in South Korea EN, rapporte le déploiement de ChatGPT Enterprise et Codex à l'ensemble des employés de Samsung Electronics en Corée du Sud et à sa division DX mondiale.

IT SOCIAL du 22 juin, dans McKinsey, PwC et KPMG transforment leur expertise en plateformes, décrit l'industrialisation des cabinets de conseil sous forme de plateformes d'agents : McKinsey ouvre « Ask McKinsey » en self-service ; PwC, KPMG et BCG transposent leurs corpus méthodologiques en services adressables. Ce n'est pas un lancement produit : c'est une métamorphose institutionnelle de la marque-conseil — celle qui portait jusqu'ici la garantie par la responsabilité du cabinet, et qui devient l'agent que le client convoque. L'institution-conseil change ici de surface : ce n'est plus le partenaire qui répond, c'est la plateforme qui exécute.

IT SOCIAL du 22 juin, dans Vercel réunit frontend, backend et agents dans une plateforme unique, signale que Vercel Connect remplace les identifiants longue durée des agents par des jetons temporaires à périmètre restreint. C'est un appareil d'habilitation qui prend forme côté inférence — l'équivalent pour l'agent de ce que les jetons d'intégration continue ont été pour le code : l'identité de l'agent devient un objet borné dans le temps, pas un compte de service hérité.

Dix jours après l'interdiction gouvernementale de Fable et Mythos, deux gestes répondent à la même secousse depuis des angles distincts. The Decoder du 22 juin signale dans Sakana AI's Fugu orchestrates multiple LLMs to match Anthropic's Fable and Mythos benchmarks EN que Sakana AI lance un orchestrateur multi-LLM qui prétend égaler Fable 5 en limitant la dépendance à un seul fournisseur. Au même moment, Latent.Space publie Red-Teaming after Mythos — Zico Kolter & Matt Fredrikson, Gray Swan EN, où Zico Kolter (administrateur OpenAI) et Matt Fredrikson (CEO Gray Swan) expliquent en quoi la sécurité IA déborde structurellement du cadre de la cybersécurité classique. Un même fait — la coupure imposée d'en haut — pousse à deux gestes opposés : Sakana architecture la sortie d'une dépendance fournisseur unique ; Gray Swan pose que la sécurité IA ne se vérifie pas avec la même surface que ce qu'elle prétend vérifier. La souveraineté d'un côté, l'extériorité de l'autre — et la même secousse à l'origine.

Anthropic et Micron co-conçoivent la mémoire dont Claude dépendra — Tom Brown désigne cette couche comme critique pour l'entraînement et l'inférence. L'atelier d'amont qui prend forme là est de même nature que celui qu'impose l'AI Act à Cegid et que Vercel borne pour ses agents : la qualité de ce que produira l'agent se gagne en amont du modèle, dans ce que le code pose avant que l'inférence ne commence.

Ce billet a été rédigé avec l'assistance d'un système d'intelligence artificielle. Les sources citées sont vérifiables ; la voix éditoriale relève du Département des Harnais.

W1	compliance-officersonnet-4-6	✓
	editor-in-chiefopus-4-7	✓
W2	producerglm-5.2	✓
	retry (retry 1)
	producerglm-5.2	✓
W3	editor-du-carnetopus-4-7	✓
	editor-du-carnetopus-4-7	✓
W4	verificationglm-5.2	✓