Les modèles d’IA, l’illusion de familiarité

"Modèle d'IA" n'est pas un bon terme, parce qu’il mène à assimiler des choses différentes, voire contradictoires.

Définir un modèle

Le modèle peut être 1- ce qui représente 2- ce que l’on imite. On voit l’ambivalence du terme! La langue anglaise distingue d’autres notions proches : le template (gabarit) et pattern (motif). La notion pointe dans deux directions contradictoires : la carte est un modèle du territoire, mais le territoire, le modèle de la carte. [1]

[1] Comme le montra Olivier Rey

Problème avec les modèles en IA

Il faut d’abord rappeler que “‘les sciences modernes, en créant des modèles explicatifs, opèrent avec une démarche réductionniste systématisée. Le risque menace constamment d’oublier le côté simplificateur, pour des raisons pratiques, des théorisations scientifiques et de prendre les résultats de ces spéculations comme des modèles à imiter. L'outil informatisé est une caricature de cerveau et ce n'est pas un cerveau.” [1] Nous allons voir que le risque se réalise, en matière de modèles.

Il existe plusieurs emplois de la notion de modèle en informatique, qui piochent, selon les cas (mais sans jamais le préciser) indifféremment, (mais délibérément ?) des deux côtés de la définition. Par exemple, le modèle d’apprentissage n’est pas du tout l’équivalent d’un modèle de données. “Modèle” est une notion faussement univoque en informatique.

Ainsi, le modèle peut correspondre à la structure des données générée par l’IA. Mais il faut considérer le cycle de vie, et la dérive inéluctable (le “drift”) du modèle du fait de la réinjection des données en entrée. Dans une modalité descendante (“top-down”), on théorise un modèle (incomplet) et on l’implémente, il se dégrade alors et il devient difficile de continuer à parler de modèle. Dans une modalité “remontante” (“bottom-up”) l’IA “consomme” des algorithmes pour générer un modèle, qui peut être dans ce cas défini comme une structure mathématique de couches de neurones dans un type d’IA d’apprentissage profond (Deep Learning). La question est alors de savoir si l’on continue à entraîner le modèle, ce qui le fait évoluer. Dans les deux cas, les modèles ne sont pas stables, et on ne devrait pas faire comme s’il s’agissait d’objets techniques et matériels à optimiser.

Nous ne faisons ici que montrer que l'emploi du terme “modèle” mobilise un fort implicite, qui mériterait d’être précisé.

Les modèles ont certes leur importance au temps de l’IA… ou plutôt, leur importance établie repose des questions spécifiques dûes à la possibilité de programmer l’IA. D’une certaine manière, les modèles d’IA “contaminent” les programmes qui deviennent dès lors moins lisibles. Mais pour autant, caractériser les modèles n’est pas d’une grande aide : on a toujours affaire dans l’ordinateur, à une transformation particulière d’un modèle, à sa dégradation relative à un programme spécifique. Un peu comme il y a une distance, de la caractérisation d’un virus, au contrôle de ses effets dans l’organisme.

Le fait de la polysémie du terme “modèle” (et même du caractère antonymique des emplois qu’on en fait), indique peut-être une faille béante dans notre pensée moderne. Son emploi fait suspecter immédiatement une volonté douteuse de standardisation et de simplification, qui a été largement relevée en matière informatique. Le “modèle” qui conserverait ses caractères, est certes facilement commercialisable… mais il ne se maintient pas. On vend alors, du vent.

[1] Maxime Derian, Le Métal et la Chair, p. 260

Quelques types de modèles en informatique

Nous posons ici quelques définitions de différents types de modèles, chacune éminemment discutable, pour montrer qu’il n’est pas raisonnable de parler de modèle sans préciser immédiatement en quelques phrases ce dont on veut parler.

  • Modèle d’apprentissage automatique (en particulier modèles de régression) 

Représentation mathématique qui, à travers un ensemble d'algorithmes et de paramètres, est capable d'apprendre à partir de données et de faire des prédictions ou de prendre des décisions (ou plutôt   : leurs équivalents informatiques) sans être explicitement programmé pour le faire. Le modèle d’apprentissage s’appuie sur des méthodes heuristiques et statistiques mais également dans les approches dirigées ou semi-dirigées. 

  • Modèle de régression

Suite d'opérations mathématiques strictes, ordonnées et bornées donnant les résultats sous la forme d'un modèle de données préalablement défini, et pour lequel il est possible de revenir en arrière sans mettre en péril ou infirmer la validité du modèle. Il a pour but de prédire une variable cible ou dépendante en fonction d'une ou plusieurs variables indépendantes ou prédictives. 

  • Modèle de données 

Relatif à une convention de nom et de structure. On peut proposer que le fichier .doc est un modèle de données. On peut évoquer des modélisations telles que MCD, MLD, ou encore les formes normales de Boyce-Codd pour les niveaux de granularité des données. Ou encore : relatif à une structure de base de données.

  • Modèle algorithmique

Suite d'opérations logiques dont le motif (ou pattern) d'implémentation reste à définir, sous forme mathématique, d’expression régulières ou par appel-injection de fonctions en appelant une définition préalablement standardisée. 

  • Méta-Modèle

Abstraction de haut niveau conceptuel d’un modèle s’attachant à l’information plus qu’aux données primaires. Souvent le fruit de l’empirisme, de la généralisation ou de l’abstraction des données et des liens les reliants. C’est une sorte de modèle de modèle.

  • Modèle de gouvernance 

Structure informationnelle et conventionnelle, y compris d’architecture organisationnelle, fixant les modalités de régulation d’un corps.

  • Modèle de gouvernance de l’information 

Structure de régulation et de protection de l’information ainsi que de sa valeur stratégique.

  • Modèle de gouvernance des données 

Structure d’organisation, de classification, de traitement et de validation des données primaires.

Propositions

Utiliser un modèle c'est donc exploiter quelque chose de partiellement ou totalement standardisé et n'apportant pas intrinsèquement d’information sémantique sur la nature du quelque chose.

Une distinction simple et intuitive vaut, entre le modèle théorique (encore faudrait-il préciser de quel champ théorique) et le modèle efficace (mais voudrait-on ici parler de “programme”?). Mais elle n’épuise pas le sujet.

Il faudrait, à chaque emploi du terme “modèle”, préciser (comme on pourrait le faire pour un triangle). Veut-on parler du modèle de données (leur structure) ? du modèle calculable (celui issu de l’apprentissage) ? etc. et que fait-on de l’effet de dérive, c’est à dire du fait que, au cours de la vie des programmes, le modèle, s’il garde en général les qualités génériques par lesquelles on le reconnaissait, voit modifier ses valeurs intrinsèques et donc par conséquent, éventuellement l’utilité ou les avantages qu’on lui avait trouvée ?

Vous n'êtes pas d'accord ? Vous voulez participer ? Vous avez une objection ? Une question ? Contribuez !