La créativité et la distribution de probabilités

Machines?

Résumé: Arrêtons de défendre un prétendu privilège “humain” sur les “machines”. Il n’y a pas des êtres humains supérieurs et des machines qui essayent d’en atteindre le niveau. La question est plutôt celle des définitions de ce que nous consid.rons comme “humain”. La “créativité” est l’un de ces concepts, idéalisé, sacralisé, mais somme toute assez vide. Comme toute notion, la créativité peut être décrite de façon non ambiguë et claire; si nous le faisons, il sera ensuite possible d’implémenter le concept dans un algorithme. La ruse de la “temperature” utilisée dans les LLMs est justement une modélisation formelle de la créativité. C’est de ce modèle que s’occupera ma présentation. ,

Utiliser app propriétaires = acheter un produit et faire ce que ce truc nous demande.

De quoi on parle ici?

~~Applications~~
- ~~chatGPT~~
- ~~Claude~~
- ~~Gemini~~
- …
~~Algorithmes propriétaires~~
LLMs
D’autres modèles avec des architectures semblables (impliquant une softmax)

Mais diff entre algos et app des gafam

Inverser le raisonnement

On peut tout automatiser
La question est donc: que voulons-nous automatiser et pourquoi?
On automatise ce qui perd de la valeur
On automatise la “créativité” parce que le travail créatif s’est prolétarisé

Creativité: la mauvaise question

Une machine, peut-elle être créative?

Creativité: la bonne question

Qu’est-ce que la créativité?

La temperature comme définition formelle de créativité

\[\sigma(z_i) = \frac{e^{\beta z_{i}}}{\sum_{j=1}^K e^{z_{j}}} \ \ \ for\ i=1,2,\dots,K\]

Qu’est-ce qu’un LLM?

Un LLM est un modèle qui apprend la probabilité d’un token t étant donné le token t-1. Soit:

\[P(e_t | e_{t-1})\]

Exemple simplifié

J’aime les roses
J’aime les roses rouges
J’aime les roses blanches
J’aime les fonctions
J’aime les fonctions mathématiques
J’aime les chiens
J’aime les filles qui font vieille France
J’aime les filles des cinémas
J’aime les filles de l’assistance
J’aime les filles dans l’embarras

roses = 3
fonctions = 2
chiens = 1
filles = 4

But the question is: how to transform these values into probabilities?

In this very simple example, we could simply make a proportion on 100%, but in the real case of LLMs, the final values will be very complex - it is not directly the number of occurrences. We may have negative numbers and very high numbers, real numbers, etc.”

The key points are:

The raw output values from an LLM are not directly interpretable as probabilities.
In a simple example, you could normalize the values to sum to 100% to get probabilities.
However, in real-world LLMs, the output values are much more complex and cannot be directly converted to probabilities in this straightforward way.
The output values may include negative numbers, very high numbers, and real numbers, making the transformation to valid probabilities (which must be non-negative and sum to 1) more challenging.

Softmax!

\[\sigma(z_i) = \frac{e^{z_{i}}}{\sum_{j=1}^K e^{z_{j}}} \ \ \ for\ i=1,2,\dots,K\]

\[z_1 = 3\] \[z_2 = 2\] \[z_3 = 1\] \[z_4 = 4\]

La softmax est la fonction \[\sigma(z_i)\]

Nous voulons:

\[\sigma(3) = ?\]

\[\sigma(2) = ?\]

\[\sigma(1) = ?\]

\[\sigma(4) = ?\]

La somme doit donner 1

\[\frac{e^{z_{i}}}{\sum_{j=1}^K e^{z_{j}}}\]

Le numérateur de la fraction est constitué par la fonction exponentielle qui a pour base \(e\), le nombre d’Euler et pour exposant \(z_i\) à savoir le chiffre auquel nous sommes en train d’appliquer l’équation.

Le dénominateur est \(\sum_{j=1}^K e^{z_{j}}\), à savoir la somme de tous les résultats de la fonction exponentielle appliquée aux chiffres que nous voulons traiter.

Dans notre cas le dénominateur sera: \(e^3 + e^2 + e^1 + e^4 = 84.791024884\)

(\(e = 2.71828...\))

ed donc:

\(\sigma(3) = \frac{e^3}{84.791024884} = 0.23\)

\(\sigma(2) = \frac{e^2}{84.791024884} = 0.10\)

\(\sigma(1) = \frac{e^1}{84.791024884} = 0.03\)

\(\sigma(4) = \frac{e^4}{84.791024884} = 0.64\)

Les probabilités sont donc les suivantes:

roses = 23%
fonctions = 10%
chiens = 3%
filles = 64%

These probabilities are then used by the model to propose the word that will follow “I like…”. Based on these probabilities, the model will suggest “roses” 23% of the time, “functions” 10%, “dogs” 3%, and “girls” 64%. This is what is meant by “stochastic” behavior. The result proposed by the model is random, in the sense that the model chooses randomly among the possibilities it has, but its choice is weighted by the distribution of probabilities. In other words: imagine we have the sequence of words “I like…” and we place in front of the model a basket with 100 small tickets. On each ticket, there is a word. On 23 tickets it says “roses”, on 10 “functions”, on 3 “dogs”, and on the remaining 64 “girls”. The model draws and gives the word it found. This is the meaning of the word “stochastic”: random but relative to a distribution of probabilities. It is by chance that the word is taken, but the word “girls” will be more likely than “dogs” because it is more frequent.

Ouais… mais la créativité dans tout ça?

Une ruse mathématique

\[\sigma(z_i) = \frac{e^{\beta z_{i}}}{\sum_{j=1}^K e^{\beta z_{j}}} \ \ \ for\ i=1,2,\dots,K\]

Température?

\[T = \frac{1}{\beta}\]

température haute->système désorganisé

L’effet

si on augmente la température (et donc si on diminue \(\beta\)), la différence entre les pourcentages sera diminuée.

La probabilité sera donc distribuée de manière plus homogène - intuitivement, les écarts entre le terme le plus probable, dans notre exemple “filles” et le terme le moins probable, “chiens” sera plus petit.

Exemple

température à 5 et donc \(\beta = \frac{1}{5} = 0,2\)

Notre 4 chiffres seront transformés comme suit:

roses: 3 x 0,2 = 0,6
fonctions: 2 x 0,2 = 0,4
chiens: 1 x 0,2 = 0,2
filles: 4 x 0,2 = 0,8

Notre dénominateur sera donc:

\[e^{0,6} + e^{0,4} + e^{0,2} + e^{0,8} = 6,760887185\]

Et si on fait les calculs avec ces nouveaux chiffres (il est intuitif que l’exposant étant plus petit, le résultat sera inférieur, donc l’écart inférieur):

\[\sigma(3) = \frac{e^{0,6}}{6,760887185} = 0,27\]

\[\sigma(2) = \frac{e^{0,4}}{6,760887185} = 0,22\]

\[\sigma(1) = \frac{e^{0,2}}{6,760887185} = 0,18\]

\[\sigma(4) = \frac{e^{0,8}}{6,760887185} = 0,33\]

Les nouvelles probabilités:

roses = 27%
fonctions = 22%
chiens = 18%
filles = 33%

Cool demo

Let’s do the calculations by setting the temperature to 5 and thus \(\beta = \frac{1}{5} = 0.2\)

Our 4 digits will be transformed as follows:

roses: 3 x 0.2 = 0.6
functions: 2 x 0.2 = 0.4
dogs: 1 x 0.2 = 0.2
girls: 4 x 0.2 = 0.8

Our denominator will therefore be:

\(e^{0.6} + e^{0.4} + e^{0.2} + e^{0.8} = 6.760887185\)

And if we do the calculations with these new numbers (it is intuitive that the exponent being smaller, the result will be lower, thus the gap lower):

\(\sigma(3) = \frac{e^{0.6}}{6.760887185} = 0.27\)

\(\sigma(2) = \frac{e^{0.4}}{6.760887185} = 0.22\)

\(\sigma(1) = \frac{e^{0.2}}{6.760887185} = 0.18\)

\(\sigma(4) = \frac{e^{0.8}}{6.760887185} = 0.33\)

The new probabilities:

roses = 27%
functions = 22%
dogs = 18%
girls = 33%

In this way, an unlikely occurrence in the corpus (“dogs,” which appeared only once) becomes much more probable for the model. When it “draws” from the basket, it will find things that are less probable in absolute terms – and which therefore will not correspond to reproducing the average observed in the corpus. The model will thus have unexpected behavior.

(I am giving this example with a language model, but the same treatment can be applied, for example, to a text-to-image model that will generate more unexpected images if we increase the temperature in the softmax that is used to predict the different pixels.)

Complètement nouveau?

smoothing…

One might object that in this way the algorithm can never give something “completely new.” The choices will be limited to what the model has already found in the corpus. The combinations may be rarer, but always already existing somewhere in the corpus. The temperature can bring out rarer occurrences, but never absolutely new occurrences – that is, ones that have never occurred in the corpus. But this limit is overcome thanks to smoothing. To put it simply: by default, we do not give any word a probability equal to 0. We always give a minimal score. (A probability of 0, with a softmax, would correspond to a starting score of \(-\infty\)). Furthermore, since the tokens of LLMs are not “words,” but groups of letters (induced from byte-pair encoding… another interesting topic, I will talk about it another time), the LLM can also construct new words.

Qu’est-ce que la créativité selon cette définition formelle ?

Un comportement qui dévie de la distribution normale de probabilités – tout en gardant le sens.

Est-ce “la bonne définition”?

Mauvaise question

Mais pour moi la créativité c’est plutôt…

GIVE THE F***(ORMAL) DEFINITION!