# Entraîner un modèle...

Il y a plusieurs approches. Nous allons en présenter deux: w2v et glove.

## Word2Vector

[Documentation gensim](https://radimrehurek.com/gensim/auto_examples/tutorials/run_word2vec.html)

- Continous bag of words (CBOW): utiliser le contexte comme input pour prévoir le mot cible.

- Skip-gram: utiliser un mot comme input pour prévoir le contexte. [Article original](https://proceedings.neurips.cc/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf)


![](https://wiki.pathmind.com/images/wiki/word2vec_diagrams.png)


## Skip-gram

1. One hot encoding: un vecteur du même nombre des dimension que la taille du vocabulaire.

$$
\begin{bmatrix}
    0\\
    0\\
    0\\
    1\\
    0\\
    \vdots \\
    0\\
    \end{bmatrix}
$$

2. une couche cachée
3. un output (une série d'autres one hot encodings)

Le but est d'ajuster les poids pour ensuite pouvoir représenter le mot avec la cocuhe cachée. Donc la tâche qu,on donne au réseau ne sert pas à entraîner un modèle capable ensuite de réaliser cette tâche (deviner les mots du contexte), mais cela servira simplement à représenter le mot.

![](http://mccormickml.com/assets/word2vec/training_data.png)


Concrètement une ligne de la couche cachée sera notre vecteur:

![]()http://mccormickml.com/assets/word2vec/matrix_mult_w_one_hot.png


L'idée est que si deux mots se trouvent statistiquemnt dans des contextes très similaires ils doivent être proches. 

In [6]:
from gensim.models import Word2Vec

In [7]:
with open('fichiers/recherche.txt', 'r') as file:
    recherche = file.read()

In [8]:
recherche = recherche.replace('\xa0', '')
recherche = recherche.replace('\n', ' ')
sentences = [s for s in recherche.split('.')]
   

In [9]:
sentences = [s.split(' ') for s in sentences]

In [10]:
model = Word2Vec(sentences=sentences)


In [11]:
model.wv.vocab

{'': <gensim.models.keyedvectors.Vocab at 0x7f0135572898>,
 'À': <gensim.models.keyedvectors.Vocab at 0x7f0135801e80>,
 'la': <gensim.models.keyedvectors.Vocab at 0x7f0135e36780>,
 'recherche': <gensim.models.keyedvectors.Vocab at 0x7f0135e367f0>,
 'du': <gensim.models.keyedvectors.Vocab at 0x7f0135e36860>,
 'temps': <gensim.models.keyedvectors.Vocab at 0x7f0135e36898>,
 'perdu': <gensim.models.keyedvectors.Vocab at 0x7f0135e368d0>,
 'Proust': <gensim.models.keyedvectors.Vocab at 0x7f0135e36908>,
 'de': <gensim.models.keyedvectors.Vocab at 0x7f0135e36978>,
 'le': <gensim.models.keyedvectors.Vocab at 0x7f0135e369b0>,
 'MARCEL': <gensim.models.keyedvectors.Vocab at 0x7f0135e369e8>,
 'PROUST': <gensim.models.keyedvectors.Vocab at 0x7f0135e36a20>,
 'LA': <gensim.models.keyedvectors.Vocab at 0x7f0135e36a58>,
 'RECHERCHE': <gensim.models.keyedvectors.Vocab at 0x7f0135e36a90>,
 'DU': <gensim.models.keyedvectors.Vocab at 0x7f0135e36ac8>,
 'TEMPS': <gensim.models.keyedvectors.Vocab at 0x7f0135e

In [12]:
model.most_similar('madeleine')

  """Entry point for launching an IPython kernel.


[('saison', 0.9374390840530396),
 ('voûte', 0.9367887377738953),
 ('métamorphose', 0.9354197382926941),
 ('tige', 0.9351844787597656),
 ('tapisserie', 0.9336891174316406),
 ('comédie', 0.9327862858772278),
 ('remplie', 0.9302771687507629),
 ('intérieure', 0.9302411675453186),
 ('bande', 0.9301093816757202),
 ('variété', 0.9295402765274048)]

In [13]:
#un peu de paramètres: min_count= combien de fois un terme doit apparaître pour être mis dans le vocabulaire
model_sg = Word2Vec(sentences=sentences, min_count=1, sg=1, window=10)

In [14]:
model_sg.most_similar('madeleine')

  """Entry point for launching an IPython kernel.


[('solitaire', 0.9496662616729736),
 ('décoration', 0.9432491064071655),
 ('magique,', 0.9428556561470032),
 ('Roussainville,', 0.9383882284164429),
 ('lecture,', 0.9381389021873474),
 ('tracé', 0.9377898573875427),
 ('tempête', 0.9358904957771301),
 ('boîte', 0.9357473850250244),
 ('blessure', 0.9343767166137695),
 ('fermée,', 0.9340600967407227)]

## CBOW

Le principe est juste inversé: on prend en entrée le contexte pour deviner un mot cible.

Skip-Gram fonctionne bien avec de petits ensembles de données et peut mieux représenter les mots moins fréquents.

CBOW s'entraîne plus rapidement que Skip-Gram, et peut mieux représenter les mots plus fréquents.


In [15]:
model_cbow = Word2Vec(sentences=sentences, min_count=1, sg=0, window=10)

In [16]:
model_cbow.most_similar('madeleine')

  """Entry point for launching an IPython kernel.


[('fenêtre', 0.9436046481132507),
 ('noire,', 0.9424415230751038),
 ('remplie', 0.9380182027816772),
 ('fenêtre,', 0.9375181794166565),
 ('voisine', 0.9338272213935852),
 ('étincelante', 0.9334274530410767),
 ('silhouette', 0.9321422576904297),
 ('servante,', 0.9317981004714966),
 ('pierre,', 0.9308982491493225),
 ('station', 0.9301747679710388)]

In [104]:
model.most_similar('temps')

  """Entry point for launching an IPython kernel.


[('temps,', 0.8334174156188965),
 ('sens', 0.6833239197731018),
 ('train', 0.6688373684883118),
 ('chose', 0.6642275452613831),
 ('dehors', 0.6556645035743713),
 ('pays', 0.649366021156311),
 ('cas', 0.6439028978347778),
 ('souvenir', 0.6433770656585693),
 ('désir', 0.6371811032295227),
 ('plaisir', 0.6370058655738831)]

## Glove

[Article original](https://nlp.stanford.edu/pubs/glove.pdf)

Au lieu que prendre en compte le vocabulaire comme input on part de la matrice des co-occurrences des mots. Donc GloVe (Global Vectors) prend en compte les statistiques d'occurences globales et non seulement locales (comme w2v).

>Unlike the matrix factorization methods, the shallow window-based methods suffer from the disadvantage that they do not operate directly on the co-occurrence statistics of the corpus. Instead, these models scan context windows across the entire corpus, which fails to take advantage of the vast amount of repetition in the data. 

Par exemple, admettons d'avoir la phrase:

>La littérature est un art.

W2v sera capable de rendre compte du fait qu'il y a un lien entre "littérature" et "art". Mais il ne saura pas profitter d'une autre information; combien de fois, dans l'ensemble du corpus, le mot "littérature" et le mot "art" se touvent ensemble?

GloVe ne se requiert pas un réseau de neurones. Les vecteurs sont déterminés sur la base de la probabilité de co-occurence des mots selon la formule:

$$
F(w_i, w_j, \tilde{w_k}) = \frac{Pi_k}{Pj_k} 
$$