L'IA est-elle un simple modèle de probabilité du mot d'après ou autre chose ?

Pour créer, rédiger et optimiser le SEO de vos pages web --> Contactez-nous


Un des principaux reproches faits à ChatGPT et ses amis et concurrents est qu'ils sont de beaux parleurs, débitant ce qu'on veut entendre.

La cause de cette critique est qu'on explique l'IA générative par le fait que l'outil va à chaque mot "prévoir" le mot d'après selon son apprentissage.

En d'autres mots, les IA seraient (actuellement) des simplets qui parlent par emojis ou échanges pré-mâchés à la "salut, ça va, oui ça va et toi ?".. Remarquons au passage que 70% au minimum des conversations humaines sont de ce type et sont complètement vides de sens profond, ne servant en somme qu'à se "checker" ou à s'assurer qu'on a des gens en relation avec nous..

Cette étude https://arxiv.org/abs/2305.14859 intitulée " Utility-Probability Duality of Neural Networks " apporte une différence de taille à " IA = modèle probabiliste ".

En résumé (et traduction ChatGPT :-)):

Il est généralement admis que la formation des réseaux neuronaux modernes est un processus d'ajustement à la distribution de probabilité de la sortie souhaitée.

Cependant, des observations paradoxales récentes dans un certain nombre de tâches de génération de langage amènent à se demander si cette explication canonique basée sur la probabilité peut réellement rendre compte du succès empirique de l'apprentissage profond.

Pour résoudre ce problème, nous proposons une explication alternative basée sur l'utilité à la procédure d'apprentissage supervisé standard en apprentissage profond.

L'idée de base est d'interpréter le réseau neuronal appris non pas comme un modèle probabiliste, mais comme une fonction d'utilité ordinale qui encode la préférence révélée dans les données d'entraînement.

Dans cette perspective, la formation du réseau neuronal correspond à un processus d'apprentissage de l'utilité.

Plus précisément, nous montrons que pour tous les réseaux neuronaux avec des sorties softmax, la dynamique d'apprentissage SGD de l'estimation du maximum de vraisemblance (MLE) peut être considérée comme un processus d'itération qui optimise le réseau neuronal vers une fonction d'utilité optimale. Cette interprétation basée sur l'utilité peut expliquer plusieurs observations autrement paradoxales sur les réseaux neuronaux ainsi formés.

De plus, notre théorie basée sur l'utilité implique également une équation qui peut transformer les valeurs d'utilité apprises en un nouveau type d'estimation de probabilité avec lequel les règles de décision compatibles avec la probabilité bénéficient d'améliorations significatives (à deux chiffres) des performances.

Ces preuves révèlent collectivement un phénomène de dualité utilité-probabilité en termes de ce que les réseaux neuronaux modernes modélisent (réellement) : Nous pensions qu'ils représentaient une chose (les probabilités), jusqu'à ce que l'inexplicable apparaisse ; changer d'état d'esprit et les traiter comme une autre chose (valeurs d'utilité) concilie largement la théorie, malgré les subtilités restantes concernant son identité originale (probabiliste).

Avez-vous compris ?

Bon en résumé, les systèmes d'IA utiliseraient l'utilité plutôt que la probabilité.. Différences entre les 2 ?

Là encore laissons ChatGPT parler (car Google est asse obscur sur cette controverse précise :-))

La fonction d'utilité et la probabilité sont deux concepts fondamentaux en économie et en statistiques, respectivement. Bien qu'ils soient utilisés dans des contextes différents, ils sont parfois confondus ou mal interprétés. Voici les principales différences entre ces deux concepts :

1. **Définition et contexte d'utilisation** :
- **Fonction d'utilité** : Utilisée principalement en économie et en théorie de la décision, une fonction d'utilité mesure le niveau de satisfaction ou d'utilité qu'un individu tire de la consommation d'un bien ou d'un service. Elle permet de représenter les préférences d'un individu et sert à évaluer et comparer les différents choix possibles.
- **Probabilité** : En statistiques et en mathématiques, la probabilité mesure la chance qu'un événement particulier se produise. Elle est exprimée par un nombre entre 0 et 1, où 0 signifie que l'événement ne se produira pas et 1 signifie qu'il se produira certainement.

2. **Nature** :
- **Fonction d'utilité** : Subjective et basée sur les préférences individuelles. Deux personnes peuvent avoir des fonctions d'utilité différentes pour le même bien ou service.
- **Probabilité** : Objective et basée sur des observations ou des modèles mathématiques. La probabilité d'un événement est la même, quel que soit l'observateur.

3. **Objectif** :
- **Fonction d'utilité** : Aider à prendre des décisions en fonction des préférences et des contraintes.
- **Probabilité** : Prédire la fréquence d'occurrence d'un événement ou évaluer l'incertitude associée à un phénomène.

4. **Mesure** :
- **Fonction d'utilité** : Bien qu'elle puisse être quantifiée, la fonction d'utilité est souvent ordonnée, c'est-à-dire qu'elle permet de classer les choix en fonction des préférences sans nécessairement attribuer une valeur numérique précise à chaque choix.
- **Probabilité** : Toujours quantifiée et exprimée par un nombre réel entre 0 et 1.

5. **Exemple** :
- **Fonction d'utilité** : Si vous préférez les pommes aux oranges, votre fonction d'utilité pour les pommes sera plus élevée que pour les oranges.
- **Probabilité** : Si vous lancez un dé équilibré, la probabilité d'obtenir un 6 est de 1/6.

En résumé, alors que la fonction d'utilité est une mesure subjective de la satisfaction ou du bien-être, la probabilité est une mesure objective de la chance ou de la fréquence d'occurrence d'un événement. Ces deux concepts, bien que différents, peuvent parfois être liés, notamment dans des domaines comme la théorie de la décision où les décisions sont prises en tenant compte à la fois des préférences (utilité) et des incertitudes (probabilités).

Donc en conclusion, ChatGPT et ses amis sont encore plus "conciliants" pour ne pas dire l.. c..  que l'on croyait :-))))

Posons la question à ChatGPT :

Le système sur lequel est basé ChatGPT utilise-t-il plus la fonction d'utilité ou les probabilités ?

Le système sur lequel est basé ChatGPT, ainsi que d'autres modèles de langage développés par OpenAI, repose principalement sur des probabilités. Voici comment cela fonctionne :

1. **Probabilités** : Lors de la formation, le modèle apprend à estimer la probabilité des mots ou des séquences de mots suivants en fonction du contexte fourni. Par exemple, après la phrase "Le ciel est...", le modèle pourrait estimer une probabilité élevée pour le mot "bleu" et une probabilité plus faible pour le mot "carré". Ces estimations sont basées sur les données d'entraînement sur lesquelles le modèle a été formé.

2. **Maximisation de la vraisemblance** : Le processus d'entraînement vise à maximiser la vraisemblance des données d'entraînement, ce qui signifie qu'il ajuste ses paramètres pour donner les probabilités les plus élevées aux séquences de mots réellement observées dans les données.

3. **Génération de texte** : Lors de la génération de texte, le modèle utilise ces probabilités pour choisir le mot suivant. Il peut le faire de manière déterministe en choisissant toujours le mot le plus probable, ou de manière stochastique en échantillonnant à partir de la distribution de probabilité.

Cela dit, bien que le modèle soit principalement basé sur des probabilités, des concepts liés à la "fonction d'utilité" peuvent être introduits lors de l'interaction avec le modèle. Par exemple, lors de la réglage fin du modèle ou lors de l'utilisation de techniques comme le "prompt engineering", on peut guider le modèle pour qu'il produise des réponses qui sont "utiles" ou "désirables" pour une tâche ou un contexte particulier. Mais cela est généralement fait en dehors du cadre de formation principal du modèle et est plus lié à la manière dont le modèle est utilisé ou adapté à des tâches spécifiques.

.... On va s'arrêter là :-)))

Commentaires sur: L'IA est-elle un simple modèle de probabilité du mot d'après ou autre chose ?

Poster un commentaire sur: L'IA est-elle un simple modèle de probabilité du mot d'après ou autre chose ?







« Banques, intelligence artificielle et buzz .. | Accueil | Code Interpreter de ChatGPT: connaissez-vous ses super pouvoirs ? »



Besoin de SEO, de développement, de rédaction de contenu web ? Besoin d'un blog, de Wordpress, de Prestashop ou autres nouvelles "choses web" ? Envie de travailler dans ces domaines ? --> Contactez-nous