




Marcello Vitali-Rosati
Séminaire Arcanès - 18-03-2026
Mais diff entre algos et app des gafam
Une machine, peut-elle être créative?
Qu’est-ce que la créativité?
\[\sigma(z_i) = \frac{e^{\beta z_{i}}}{\sum_{j=1}^K e^{z_{j}}} \ \ \ for\ i=1,2,\dots,K\]
Un LLM est un modèle qui apprend la probabilité d’un token t étant donné le token t-1. Soit:
\[P(e_t | e_{t-1})\]
roses = 3
fonctions = 2
chiens = 1
filles = 4
\[\sigma(z_i) = \frac{e^{z_{i}}}{\sum_{j=1}^K e^{z_{j}}} \ \ \ for\ i=1,2,\dots,K\]
\[z_1 = 3\] \[z_2 = 2\] \[z_3 = 1\] \[z_4 = 4\]
La softmax est la fonction \[\sigma(z_i)\]
Nous voulons:
\[\sigma(3) = ?\]
\[\sigma(2) = ?\]
\[\sigma(1) = ?\]
\[\sigma(4) = ?\]
La somme doit donner 1
\[\frac{e^{z_{i}}}{\sum_{j=1}^K e^{z_{j}}}\]
Le numérateur de la fraction est constitué par la fonction exponentielle qui a pour base \(e\), le nombre d’Euler et pour exposant \(z_i\) à savoir le chiffre auquel nous sommes en train d’appliquer l’équation.
Le dénominateur est \(\sum_{j=1}^K e^{z_{j}}\), à savoir la somme de tous les résultats de la fonction exponentielle appliquée aux chiffres que nous voulons traiter.
Dans notre cas le dénominateur sera: \(e^3 + e^2 + e^1 + e^4 = 84.791024884\)
(\(e = 2.71828...\))
ed donc:
\(\sigma(3) = \frac{e^3}{84.791024884} = 0.23\)
\(\sigma(2) = \frac{e^2}{84.791024884} = 0.10\)
\(\sigma(1) = \frac{e^1}{84.791024884} = 0.03\)
\(\sigma(4) = \frac{e^4}{84.791024884} = 0.64\)
We therefore have the following probabilities:
\[\sigma(z_i) = \frac{e^{\beta z_{i}}}{\sum_{j=1}^K e^{\beta z_{j}}} \ \ \ for\ i=1,2,\dots,K\]
\[T = \frac{1}{\beta}\]
température haute->système désorganisé
si on augmente la température (et donc si on diminue \(\beta\)), la différence entre les pourcentages sera diminuée.
La probabilité sera donc distribuée de manière plus homogène - intuitivement, les écarts entre le terme le plus probable, dans notre exemple “filles” et le terme le moins probable, “chiens” sera plus petit.
température à 5 et donc $= = 0,2 $
Notre 4 chiffres seront transformés comme suit:
Notre dénominateur sera donc:
\[e^{0,6} + e^{0,4} + e^{0,2} + e^{0,8} = 6,760887185\]
Et si on fait les calculs avec ces nouveaux chiffres (il est intuitif que l’exposant étant plus petit, le résultat sera inférieur, donc l’écart inférieur):
\[\sigma(3) = \frac{e^{0,6}}{6,760887185} = 0,27\]
\[\sigma(2) = \frac{e^{0,4}}{6,760887185} = 0,22\]
\[\sigma(1) = \frac{e^{0,2}}{6,760887185} = 0,18\]
\[\sigma(4) = \frac{e^{0,8}}{6,760887185} = 0,33\]
Les nouvelles probabilités:
smoothing…
Un comportement qui dévie de la distribution normale de probabilités – tout en gardant le sens.
Mauvaise question
GIVE THE F***(ORMAL) DEFINITION!