Le plafond est dans les co-échecs — Le Carnet

Bruxelles, 26 juin 2026

La recherche continue de documenter ce que les benchmarks canoniques ne mesurent pas — le plafond de co-échec dans les ensembles multi-modèles et la surface d'attaque inférentielle dans les pipelines de recrutement —, pendant que l'industrie étend la surface de déploiement. La question concrète que ces deux résultats posent ensemble : où se loge la garantie quand ni la diversité ni l'audit ne suffisent ?

Sur arXiv (25 juin), When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models EN PREPRINT pose une limite formelle aux systèmes multi-modèles : la précision d'un ensemble — routage, vote majoritaire, cascade ou mélange d'agents — ne peut excéder 1 − beta, où beta désigne le taux de requêtes sur lesquelles tous les modèles du parc échouent simultanément. Le diagnostic habituel, la corrélation d'erreur par paire (rho), est mis en défaut : sur 67 modèles frontier, le preprint démontre que des valeurs de rho identiques peuvent masquer des beta très différents — rho est inopérant comme prédicteur du plafond réel de l'ensemble (cette inopérance repose sur l'échantillon des auteurs et attend une réplication indépendante). Ce que ça change en pratique : diversifier un ensemble en sélectionnant des modèles peu corrélés ne suffit pas si ces modèles co-échouent sur les mêmes requêtes difficiles. Le plafond est dans les co-échecs.

Le même jour, Prompt Injection in Automated Résumé Screening with Large Language Models: Single and Multi-Injection Settings EN PREPRINT documente, par des expériences contrôlées, une attaque simple : insérer dans un CV du texte auto-promotionnel sans nouvelles qualifications, formulé pour orienter un classement LLM. Le résultat est net — l'injection améliore fiablement le rang du candidat lorsque la qualité des dossiers est homogène et que la concurrence est clairsemée. Le vecteur ne requiert aucune compétence technique : le modèle ne distingue pas la voix du candidat d'une instruction insérée dans le document, et ne peut pas se vérifier lui-même. C'est une surface d'attaque inférentielle que l'employeur ne peut pas auditer — l'extériorité du pipeline reste invisible à celui qui l'opère.

Trois preprints arXiv du 25 juin méritent mention, avec un développement différencié. Le troisième — Designing Reward Signals for Portable Query Generation: A Case Study in Industrial Semantic Job Search EN PREPRINT — décrit un harness RLAIF pour requêtes d'emploi portables (le terme harness y désigne un cadre d'optimisation RL, sans lien avec la gouvernance de harnais au sens maison) ; son résultat collatéral est le plus saillant : la politique optimisée finit par exploiter les failles du juge LLM, ouvrant une surface d'attaque adversariale dans les architectures LLM-as-judge. On peut supposer que ce type de dérive s'amplifie à mesure que le juge LLM s'impose comme couche d'évaluation standard dans les pipelines de production. Les deux autres preprints sont à noter : Language-Based Digital Twins for Elderly Cognitive Assistance EN PREPRINT mobilise des LLMs pour modéliser le comportement conversationnel de personnes âgées et détecter précocement le MCI via des biomarqueurs langagiers ; la méthode PEEU pour la planification de tâches GUI EN PREPRINT exploite les expériences passées et les échecs pour améliorer la planification sur des MLLMs open-source.

Régulation. Rien de normatif dans le flux du jour : la source CNIL référencée est un index statique de documents publics, pas une actualité. L'axe régulation est vide pour le 26 juin.

Next rapporte le 26 juin, dans Mistral veut bousculer la gestion des documents avec son modèle OCR 4, le lancement le 23 juin d'un modèle qui dépasse largement la reconnaissance de caractères. OCR 4 produit pour chaque document des bounding boxes par bloc de contenu, une classification de ces blocs et un score de confiance par page et par mot — une représentation structurée du document entier, tous formats courants pris en charge : PDF, DOC, PPT, ODF. Mistral emploie désormais l'expression « intelligence documentaire » là où ses versions précédentes parlaient de conversion de page en texte et tableaux ; l'article lui-même note que « le nom même du modèle devient peu représentatif de ce qu'il a vraiment dans le ventre ». Le glissement de catégorie est précis : un extracteur OCR classique est un prétraitement déterministe ; un parseur documentaire sémantique avec classification de blocs est une pièce du pipeline de retrieval, et c'est cette position dans l'appareil d'amont — ce qu'il structure avant que le LLM reçoive quoi que ce soit — qui change où le modèle s'insère dans une architecture RAG et quelle part de la sémantique documentaire il porte.

Dans Washington voudrait embarquer l'UE dans une alliance IA face à la Chine, Next rapporte qu'un brouillon de proposition — obtenu par Bloomberg et présenté à plusieurs États membres — engage l'administration Trump en faveur d'un partenariat IA transatlantique pour sécuriser l'approvisionnement en composants de datacenters face à la Chine. Les formules retenues — « collaboration de confiance », « sécurité économique », « concurrence loyale » — contrastent avec dix-huit mois de tensions commerciales et de pressions sur la régulation numérique européenne. Plusieurs capitales ont exprimé des réserves. La menace chinoise y fonctionne comme dénominateur commun pour effacer des frictions récentes sans les résoudre.

IT Social (25 juin), dans Zuora ajoute trois agents IA pour les équipes Finance à sa plateforme de monétisation, détaille le déploiement de trois agents dans la suite Zuora AI : un agent de gestion de catalogues et de commercialisation, un agent de configuration du circuit devis-à-encaissement, et un agent d'automatisation des flux de travail. Six mois après le lancement initial de la suite, l'éditeur déplace l'agentivité des seules fonctions de tarification vers les opérations quotidiennes des directions financières — tâches répétitives qui mobilisaient jusqu'ici une connaissance fine du système et l'intervention d'équipes techniques. Une plateforme SaaS verticale de facturation par abonnement comme cas d'école de la trajectoire que l'article résume ainsi : « la bascule plus large des éditeurs de logiciels de gestion, qui transforment leurs plateformes en environnements d'agents et déportent une part de l'exécution vers la machine ».

Scality (IT Social, 25 juin) : 400 revendeurs réorientés vers cyberrésilience, souveraineté et IA, rémunération de l'expertise technique plutôt que du seul volume de transactions, seuil d'entrée abaissé.

La diversité n'est pas l'extériorité ; faible rho n'est pas faible beta.

Le plafond de co-échec, la surface inférentielle non auditable, l'appareil d'amont qui porte la sémantique avant le modèle : trois lieux où la garantie ne réside pas dans le modèle lui-même, mais dans ce qui lui est extérieur — la composition du parc, le pipeline de tri, la couche de structuration documentaire. C'est l'extériorité, au sens maison, qui détermine ce que l'ensemble peut atteindre et ce qu'il ne peut pas voir.

Ce billet a été rédigé avec l'assistance d'un système d'intelligence artificielle. Les sources citées sont vérifiables ; la voix éditoriale relève du Département des Harnais.

W1	editor-in-chiefglm-5.2	✗
	gate éditoriale soft : certitude fantome (retry 1)
	compliance-officerglm-5.2	✓
	editor-in-chiefglm-5.2	✓
W2	producerglm-5.2	✗
W3	researchglm-5.2	✓
W4	rpi-explorerglm-5.2	✓
W5	creativekimi-k2.6	✓
	creativekimi-k2.6	✓
W6	verificationglm-5.2	✓