Fabrique du doute — L'essai Arnold 2021 sur le neurofeedback et la méthode de l'industrie du tabac

01 L'accusation

mon argument

Une étude peut porter toutes les marques de la confiance — argent fédéral, protocole enregistré, double aveugle, revue prestigieuse — et rester construite pour livrer une conclusion décidée d'avance. Je crois que l'essai Arnold 2021 en est une, et que sa vraie fonction est de fournir un verdict citable contre le neurofeedback dans son ensemble. Sa conclusion sert aujourd'hui à refuser le remboursement. À mon avis, elle ne résiste pas à l'examen de sa propre méthode.

02 Le chiffre qui a été réécrit

Les deux groupes se sont améliorés. À peu près autant.

Commençons par la statistique-phare de l'essai lui-même. Du début à la fin de l'intervention, le critère principal s'est amélioré significativement (p<.0001) dans les deux groupes — neurofeedback (d=1,51) et le prétendu « placebo » (d=1,47) — sans différence significative entre eux. Un tel résultat intra-groupe ne peut, à lui seul, prouver que le neurofeedback fonctionne ; les deux groupes pourraient s'améliorer par attente, attention ou évolution naturelle. Mais il ne peut pas davantage soutenir le titre vendu — « le neurofeedback échoue » — car, comme le montrent les critiques, le comparateur n'a jamais été inerte.

Deux tailles d'effet intra-groupe, presque à la même hauteur. Les données disent « aucune différence entre deux groupes actifs ». On l'a publié comme « le neurofeedback ne marche pas ». C'est dans cet écart que commence mon argument.

03 La méthode

Où j'ai déjà vu cela

En 1969, un cadre du cigarettier Brown & Williamson écrivit une phrase devenue le modèle de toute industrie ayant besoin de faire disparaître une science gênante. La stratégie n'est pas de réfuter l'adversaire — c'est de fabriquer assez de doute pour que le public, les régulateurs et les assureurs cessent de faire confiance aux preuves. Les historiens Naomi Oreskes et Erik Conway ont nommé cette pratique dans leur livre Les Marchands de doute.

« Le doute est notre produit, car c'est le meilleur moyen de rivaliser avec le "corpus de faits" présent dans l'esprit du grand public. C'est aussi le moyen d'instaurer une controverse. »

— Note interne Brown & Williamson, 1969

Je n'affirme pas que les personnes impliquées fument le cigare dans une arrière-salle. J'affirme que le schéma est le même — et que, à mon avis, cet essai est un coup dans un effort coordonné pour discréditer tout un domaine, pas un test honnête au résultat malheureusement négatif. Voici la méthode, et comment je pense qu'elle s'applique ici.

Étape 1

Concevoir l'étude pour que la réponse soit jouée d'avance

Choisir un comparateur, une mesure et un protocole de récompense incapables de détecter l'effet que l'on prétend tester.

Ici : un « placebo » actif, une mesure déjà connue comme insensible, aucune preuve d'apprentissage.

Étape 2

Reformuler le résultat après coup

Quand les données ne coopèrent pas, changer les mots pour transformer un nul en défaite.

Ici : le « placebo sham » pré-enregistré est devenu « traitement de contrôle ».

Étape 3

Recourir à des experts crédibles mais en conflit d'intérêts

Laisser des personnes liées à l'industrie prononcer le verdict, pour lui prêter autorité.

Ici : un auteur principal et un éditorialiste liés à des fabricants de stimulants.

Étape 4

Transformer le verdict en politique

Diffuser la conclusion aux régulateurs, aux recommandations et aux assureurs jusqu'à en faire un mur.

Ici : l'étude est désormais citée par les assureurs pour refuser la prise en charge.

04 La façade respectable

Tout ce qu'on vous apprend à croire — retournez-le

Selon les repères académiques habituels, ce devrait être une étude de haute confiance. C'est précisément ce qui la rend efficace : les marques de crédibilité restent intactes alors que, dans ma lecture, l'expérience qu'elles recouvrent est creuse. Retournez le panneau.

05 Les critiques documentées

La critique en recense dix-neuf. Voici les plus structurantes.

Documentées dans la revue critique évaluée par les pairs de Schummer & Sguigna (NeuroRegulation, 2024 — qui réclame formellement la rétractation de l'étude) et l'analyse méthodologique de Pigott, Cannon & Trullinger (2021). Ce sont leurs constats et arguments ; ci-dessous, ceux que je trouve les plus accablants.

Critique 01 · HARKing

L'hypothèse a été reformulée une fois le résultat connu

La comparaison primaire enregistrée opposait le neurofeedback au « placebo sham ». Quand le prétendu placebo a produit une amélioration large et durable, la conclusion publiée a remplacé le terme par « traitement de contrôle ». Ce changement de vocabulaire, selon les critiques, enterre le vrai constat : le comparateur n'était pas un placebo. (L'essai a randomisé 144 enfants ; 142 sont entrés dans l'analyse principale, 84 neurofeedback / 58 contrôle.)

hypothèse formulée après coupregistre ≠ publication

Critique 02 · Le comparateur

Le « placebo » délivrait du biofeedback EMG — une intervention active

Barth et al. (2017) ont rapporté que le biofeedback EMG seul réduit l'hyperactivité du TDAH. Comparer le neurofeedback à une seconde intervention active et conclure à « aucune différence » n'est pas une preuve d'échec — pour les critiques, cela démonte l'inférence sur laquelle repose tout l'essai. (Certains chercheurs acceptent le biofeedback EMG comme un placebo légitime ; j'aborde cette objection plus bas.)

contrôle non inerteactif contre actif

Critique 03 · Aucune preuve d'apprentissage

Censé tester le conditionnement opérant — sans jamais vérifier l'apprentissage

L'essai voulait tester si des enfants pouvaient être conditionnés à modifier leur ratio thêta/bêta, mais n'a enregistré aucune courbe d'apprentissage. Rien dans les données n'indique qu'un seul enfant du groupe neurofeedback ait appris à moduler le signal. On ne peut conclure à l'échec d'une intervention jamais réellement administrée.

aucune courbe d'apprentissageintervention non vérifiée

Critique 04 · La règle de récompense

L'auto-ajustement du seuil, selon Pigott et al., punissait la réussite

Les seuils étaient ajustés automatiquement pour maintenir ~80 % de récompenses. Pigott et al. soutiennent qu'un enfant qui apprenait voyait son renforcement retiré, tandis qu'un enfant dont le signal se dégradait était récompensé — inversant le conditionnement opérant. (L'auto-ajustement est une pratique courante ; le débat, abordé plus bas, porte sur le fait que cette mise en œuvre précise neutralise l'apprentissage qu'elle mesure.) La démonstration interactive illustre la lecture de Pigott.

auto-ajustement du seuilmécanisme contesté

Critique 05 · L'instrument

Une mesure déjà signalée comme peu fiable

Janssen et al. (2017) et Ogrim & Hestad (2013) avaient rapporté que le ratio thêta/bêta est « remarquablement stable » et ne bouge pas de façon fiable avec l'entraînement. Choisir une mesure que la littérature avait déjà jugée insensible, selon les critiques, garantit presque un résultat nul.

mesure connue comme insensible

Critique 06 · La mise en œuvre

Techniciens non certifiés ; supervision sous le standard professionnel

Des auteurs interrogés pour la revue critique ont révélé que les techniciens manquaient des compétences de base en neurofeedback et que l'encadrement — visites annuelles plus appels hebdomadaires d'un seul expert — restait sous le standard professionnel de soin. Une intervention mal délivrée se lit comme une intervention qui ne marche pas.

compétence de mise en œuvre

Critique 07 · L'échantillon

Enfants médiqués et à double diagnostic laissés dans l'étude

Les psychostimulants altèrent les mesures EEG mêmes utilisées comme résultats. Inclure des participants médiqués et comorbides sans stratification injecte du bruit précisément là où le signal devait apparaître.

facteurs confondants non stratifiés

06 Voyez-le se produire

La récompense qui, selon Pigott, punissait l'apprentissage

Ceci rend la Critique 04 tangible. Appuyez sur le bouton : un enfant apprend réellement à augmenter le signal cérébral ciblé. Observez ce que fait l'auto-ajustement — selon la lecture de Pigott et al. — à l'instant précis où il réussit.

Le conditionnement opérant, inversé

Dans un neurofeedback tel qu'il devrait être, franchir le seuil donne une récompense et l'enfant apprend à s'y maintenir. Sous le protocole décrit par Pigott et al., chaque fois que le signal monte, le seuil est relevé pour garder ~80 % de récompenses — dès que l'apprentissage se manifeste, on le lui retire.

En attente — signal au niveau de base.

07 L'allégation la plus grave

Une conclusion prétendument exigée avant publication

Un auteur a décrit une communication clandestine entre les auteurs de l'étude et un éditeur de la revue, indiquant que JAACAP ne publierait l'étude que si sa conclusion affirmait que le neurofeedback n'était pas meilleur qu'un placebo — après quoi, rapporte la critique, le manuscrit a été modifié pour s'y conformer.

— Schummer & Sguigna (2024), rapportant un récit unique et non corroboré d'un seul auteur (le co-auteur Schummer siégeait au comité l'ayant reçu)

Je veux être précis : il s'agit d'un récit unique et non corroboré, rapporté par un critique qui n'est pas une partie neutre, nommant « un éditeur » au singulier. C'est une allégation, pas un fait établi, et je la présente comme telle. Mais si elle est vraie, c'est la clé de voûte — cela signifierait que le verdict fut décidé avant la rédaction des données, et que les problèmes méthodologiques ci-dessus ne sont pas des accidents mais le mécanisme qui l'a livré.

08 Suivez l'argent

À qui profite l'« échec » du neurofeedback ?

Le neurofeedback concurrence le médicament psychostimulant. Selon leurs propres déclarations publiées, deux des personnes ayant façonné la portée de cette étude sont liées aux fabricants de cette gamme concurrente.

Investigateur

L. E. Arnold

Liens déclarés (financement / conseil) avec plusieurs laboratoires

Intérêt

Fabricants de stimulants

Shire→Takeda, Supernus, Otsuka, Roche/Genentech, Pfizer, Novartis, Ironshore

Résultat

« le NF échoue »

Un verdict négatif sur la thérapie rivale non médicamenteuse

Selon les déclarations citées dans la critique : Arnold a reçu des financements de recherche de Shire (devenu Takeda, fabricant d'un stimulant TDAH de premier plan), Supernus, Otsuka, Roche/Genentech et Young Living, et a siégé aux conseils consultatifs de six laboratoires. Il a dirigé auparavant l'étude NIMH MTA (17,7 M$), dont les suivis furent critiqués pour minimiser la baisse d'efficacité des stimulants. L'éditorial cinglant de l'American Journal of Psychiatry qui a amplifié cet essai — « Neurofeedback pour le TDAH : l'heure d'arrêter ? » — fut signé par James McGough, qui, selon la critique, siégeait au conseil de Sunovion et conseillait Eli Lilly, Takeda et Tris Pharma. Un conflit déclaré n'invalide pas en soi une recherche — mais, à mon avis, il fixe l'a priori sur la direction probable des « erreurs ».

09 L'autre côté

Les meilleures objections — et pourquoi elles ne me convainquent pas

Une opinion signée vous doit les contre-arguments. Voici les meilleures défenses de l'essai, et ma réponse honnête à chacune.

« Le biofeedback EMG est un placebo standard et légitime pour le neurofeedback. »

Il est vrai que beaucoup de chercheurs utilisent une condition de feedback non-EEG comme contrôle, justement parce qu'elle reproduit le rituel d'entraînement. Ma réponse : un contrôle n'est valide que s'il est plausiblement inerte sur le critère mesuré. Dès lors qu'il existe des preuves publiées que le biofeedback EMG réduit lui-même les symptômes du TDAH, « aucune différence » cesse de signifier « le neurofeedback est inerte » et signifie « deux traitements actifs ont fait jeu égal ». L'étiquette « placebo » fait alors un travail rhétorique que les données ne soutiennent pas.

« L'auto-ajustement du seuil est courant — ce n'est pas du sabotage. »

Exact : maintenir un taux de récompense près de 80 % est fréquent, pour garder les enfants engagés. Ma réponse : courant n'est pas synonyme d'inoffensif. Le point de Pigott et al. est précis — cet auto-ajustement particulier peut retirer le renforcement exactement quand l'enfant s'autorégule. C'est un véritable débat méthodologique, non un fait établi, et c'est pourquoi je l'attribue à eux plutôt que de l'affirmer. Mais « tout le monde le fait » n'est pas une défense si la pratique peut émousser l'apprentissage même que l'on teste.

« C'est un grand essai randomisé en double aveugle, financé par le NIH — cela bat l'anecdote clinique. »

Oui — et j'applique la même exigence à mon propre domaine ; beaucoup de preuves favorables au neurofeedback sont de petite taille, parfois en conflit d'intérêts. Ma réponse : la qualité d'un protocole n'est pas conférée par le financement ou l'aveugle. Un essai d'apparence rigoureuse qui emploie un contrôle actif, une mesure insensible et une mise en œuvre non vérifiée n'est rigoureux qu'en la forme. Le remède n'est pas « faites plutôt confiance au centre » — ce sont des essais conformes à CRED-nf qui suivent l'apprentissage et utilisent des contrôles vraiment inertes.

« Vous vendez du neurofeedback — évidemment que vous diriez cela. »

Juste, et je l'ai déclaré d'emblée. Ma réponse : mon intérêt ne fait pas disparaître les faits documentés — l'hypothèse reformulée, le comparateur actif, l'absence de courbes d'apprentissage, les liens pharmaceutiques déclarés sont tous au dossier public. Pesez mon interprétation avec scepticisme ; vérifiez les sources vous-même. C'est exactement ce que je vous demande de faire avec l'essai d'origine.

10 Les dégâts

Une étude contestée aux conséquences bien réelles

Un article défaillant est une note de bas de page. Un article défaillant devenu politique de santé est un préjudice — et il atteint non une étude, mais chaque clinicien et chaque famille qui s'appuient sur ce domaine.

Refusé

Cité par des assureurs pour refuser le remboursement du neurofeedback — transformant un résultat contesté en mur de couverture pour les familles.

« Arrêtez »

Amplifié par l'éditorial 2022 de McGough dans l'AJP, « L'heure d'arrêter ? » — par un auteur aux liens déclarés avec l'industrie des stimulants.

Aucune correction

Aucun auteur d'origine n'a demandé de rétractation. JAACAP a refusé la lettre documentant les critiques, la jugeant non conforme à ses standards.

11 Mon verdict sur le verdict

L'essai n'a pas prouvé l'échec du neurofeedback. Il a prouvé le sien.

Voici la lecture étroite et honnête que je défends : un essai au contrôle actif, à la mesure insensible, au schéma de récompense peut-être inversé, et à l'hypothèse reformulée après coup, était structurellement incapable de tester ce qu'il prétendait tester. La conclusion la plus forte que ses données soutiennent n'est pas « le neurofeedback a échoué ». C'est « cette étude ne peut pas le dire ». Qu'une étude aussi faible serve à exclure tout un domaine du remboursement n'est pas, à mon avis, un accident de la science. C'est du doute fabriqué, faisant exactement ce pour quoi il a été construit.

Comment lire ceci. Ceci est une opinion signée par François Altwies, qui a un intérêt commercial déclaré dans le neurofeedback (voir l'encadré en haut). Les affirmations factuelles — tailles d'effet, reformulation de l'hypothèse, nature du contrôle, conflits d'intérêts déclarés, usage de l'étude par les assureurs — proviennent des critiques évaluées par les pairs citées ci-dessous ; je vous encourage à lire ces sources, ainsi que l'article original d'Arnold et al. (2021), directement. Le récit de pression éditoriale est une allégation unique et non corroborée, rapportée par une source non neutre et non tranchée ; aucune décision réglementaire ou institutionnelle de faute scientifique à l'encontre d'une personne nommée n'est affirmée. Le cadrage — « fabrique du doute », le parallèle avec la méthode du tabac, et l'idée que cet essai fonctionne comme une attaque contre le domaine — est mon interprétation et mon opinion, offerte au débat, non un fait prouvé sur les intentions privées de quiconque.

La fabrique
du doute

Qui je suis & pourquoi je vous écris