Dans une étude menée dans les Hauts-de-France, 78 % des préconisations rédigées par les médecins du travail présentaient au moins un défaut de qualité susceptible d'en altérer la compréhension et, in fine, de nuire au maintien en emploi. Face à ce constat, une expérimentation a été conduite afin d'évaluer la capacité du modèle de raisonnement o1 d'OpenAI, l'entreprise à l'origine de ChatGPT, à détecter ces défauts, selon cinq critères, en comparaison avec un consensus multidisciplinaire. Après une optimisation itérative du prompt, l'analyse de 385 préconisations tirées au sort dans une base de données a montré 74,6 % de concordances, 10,5 % de discordances justifiées, 13,2 % de discordances par excès et 1,5 % de discordances par défaut, sans aucune hallucination. Ces résultats suggèrent que l'utilisation d'o1 pourrait constituer un outil prometteur d'aide à la relecture.