Comment les IA comprennent les mots

© EPFL/iStock (Kenneth Cheung)
Des scientifiques de l’EPFL ont créé un modèle mathématique qui pourrait aider à comprendre en quoi la décomposition du langage en séquences joue un rôle dans le fonctionnement de l’IA moderne, comme les robots conversationnels, et en fait un outil si performant pour comprendre et utiliser les mots.
Il ne fait aucun doute que la technologie de l’IA domine le monde d’aujourd’hui. Les progrès semblent avancer à pas de géant, notamment en matière de grands modèles de langage (LLM) comme ChatGPT.
Mais comment fonctionnent-ils? Les LLM sont constitués de réseaux neuronaux qui traitent de longues séquences de «jetons». Chaque jeton est généralement un mot ou une partie d’un mot, qui est représenté par une liste de centaines ou de milliers de chiffres, ce que les scientifiques appellent un «vecteur de grande dimension». Cette liste saisit le sens du mot et la façon dont il est utilisé.
Par exemple, le mot «chat» pourrait devenir une liste telle que [0,15, -0,22, 0,47, …, 0,09], tandis que le mot «chien» est codé de la même manière, mais avec ses propres nombres. Les mots ayant des significations semblables ont des listes similaires, de sorte que le LLM peut reconnaître que «chat» et «chien» se ressemblent davantage que «chat» et «banane».
Un mystère, même pour les spécialistes
Traiter le langage comme des séquences de ces vecteurs est incontestablement efficace, mais, paradoxalement, on ne comprend pas vraiment pourquoi. Les modèles mathématiques simples pour de longues séquences de ces jetons de grande dimension sont encore pour la plupart inexplorés.
Ainsi, on ignore pourquoi cette approche fonctionne si bien et en quoi elle est fondamentalement différente des anciennes méthodes. Pourquoi est-il préférable de présenter les données aux réseaux neuronaux comme des séquences de jetons de grande dimension plutôt que comme une longue liste unique de nombres? Alors que l’IA est aujourd’hui capable d’écrire des histoires ou de répondre à des questions de manière impressionnante, les rouages internes qui rendent cela possible restent un mystère, même pour les spécialistes.
Une équipe dirigée par Lenka Zdeborová de l’EPFL vient de mettre au point le modèle mathématique le plus simple possible capable de capturer l’essence de l’apprentissage à partir de jetons, comme le font les LLM. Nommé Bilinear Sequence Regression (BSR), leur modèle élimine la complexité de l’IA en situation réelle, tout en conservant une partie de sa structure essentielle et en servant de «terrain de jeu théorique» pour étudier comment les modèles d’IA apprennent à partir de séquences.
Comment fonctionne le BSR? Imaginez une phrase dans laquelle vous pouvez transformer chaque mot en une liste de nombres qui saisissent son sens, tout comme le font les LLM. Vous reportez ces listes dans un tableau, avec une ligne par mot. Ce tableau garde une trace de l’ensemble de la séquence et de tous les détails contenus dans chaque mot.
Une référence mathématique claire
Au lieu de traiter toutes les informations en même temps comme le font les anciens modèles d’IA, le BSR examine les lignes du tableau d’une certaine manière et la colonne d’une autre. Le modèle utilise ensuite ces informations pour prédire un résultat unique, tel que le sens de la phrase.
Le point fort du BSR est qu’il est assez simple pour être complètement résolu par les mathématiques. Cela permet aux chercheuses et chercheurs de savoir exactement quand l’apprentissage basé sur les séquences commence à fonctionner et combien de données sont nécessaires pour qu’un modèle puisse apprendre de manière fiable à partir des motifs dans les séquences.
Le BSR pourrait contribuer à expliquer pourquoi nous obtenons de meilleurs résultats en conservant les séquences plutôt qu'en les aplatissant entièrement dans un unique vecteur. Le modèle a révélé des seuils précis où l’apprentissage devient efficace une fois qu’il a accès à suffisamment d’exemples.
Cette recherche offre une nouvelle perspective pour comprendre le fonctionnement interne des grands modèles de langage. En résolvant le BSR avec exactitude, l’équipe fournit une référence mathématique claire qui permet de faire un pas vers une théorie capable de guider la conception des futurs systèmes d’IA. Ces connaissances pourraient aider les scientifiques à élaborer des modèles plus simples, plus efficaces et peut-être plus transparents.
Autres contributeurs
- ETH Zurich
- Université Bocconi
Fonds national suisse de la recherche scientifique
Vittorio Erba, Emanuele Troiani, Luca Biggio, Antoine Maillard, Lenka Zdeborová. Bilinear Sequence Regression: A Model for Learning from Long Sequences of High-dimensional Tokens. 16 juin 2025. DOI: 10.1103/l4p2-vrxt