Intelligence artificielle littéraire (IAL).
Définir formellement le concept de variation au sein de l’Anthologie grecque?

JADT 2024 – Bruxelles

Yann Audin

Université de Montréal – CRC sur les Écritures numériques

Mathilde Verstraete

Université de Montréal – CRC sur les Écritures numériques

Dominic Forest

Université de Montréal – École de bibliothéconomie et des sciences de l’information

Marcello Vitali-Rosati

Université de Montréal – CRC sur les Écritures numériques

1 Projet Intelligence artificielle littéraire

  • Un projet de la Chaire de recherche du Canada sur les Écritures numériques ;
  • Financé par le Conseil de Recherche en Sciences Humaines du Canada ;
  • Équipe multidisciplinaire :
    • Mathilde Verstraete ;
    • Yann Audin ;
    • Marcello Vitali-Rosati ;
    • Dominic Forest.

1.1 Objectifs du projet

Étudier la possibilité de formuler une définition formelle (computationnelle, algorithmique) – d’un concept littéraire :

  • Appliquer des algorithmes de fouille de données et de traitement automatique du langage afin de définir formellement un concept littéraire (la variation) au sein d’un corpus donné (l’Anthologie grecque) ;
  • Si l’algorithme est capable de retrouver les variations précédemment relevées, c’est qu’il incarne la définition dudit concept.

Notre but n’est pas heuristique, mais herméneutique.

2 Corpus : l’Anthologie grecque

  • Recueil regroupant la poésie épigrammatique grecque antique
  • Périodes classique à byzantine (= 15 siècles d’épigrammatique)
  • < compilations successives
  • Corpus ouvert :
    • AG = Anthologie palatine1 + Appendix Planudea2
    • Selon notre API, 4 134 épigrammes, de 311 auteurs

Corpus étudié actuellement

Livre VI (= 358 épigrammes votives) en traduction française (Waltz, les Belles Lettres)

3 Le projet d’édition numérique collaborative de l’Anthologie grecque

4 La variation dans l’Anthologie grecque

P. Laurens, L’abeille dans l’ambre : Célébration de l’épigramme de l’époque alexandrine à la fin de la Renaissance (2012, p. 117-130)

Stylistique : Concerne les mots et leur agencement, introduisant de multiples mais infimes modifications par quelques éléments déplacés ou par des substitutions d’ordre lexical ou stylistique

Rhétorique : Porte sur la forme générale des épigrammes ; l’impression est celle d’une multiplication à l’infini des possibilités d’expression d’une même idée

Paradigmatique : Conserve la structure de l’épigramme, mais en fait varier le sujet même, lequel est considéré comme une variable parmi d’autres

4.1 Variation stylistique

AP, VI.13 (Léonidas de Tarente) AP, VI.14 (Antipater de Sidon)
Les trois frères t’ont consacré, chasseur Pan, ces filets, pris par chacun à son genre de chasse : Pigrès, pour les oiseaux ; Damis, pour les quadrupèdes ; Cléitor, pour le peuple de la mer. Envoie-leur en échange une bonne chasse à l’un par les airs, au second par les bois, à l’autre par les grèves. À Pan, trois frères ont consacré ces instruments de leur profession : Damis un panneau pour les bêtes des montagnes, Cleitor ces filets à poissons, Pigrès cet infrangible collet à prendre les oiseaux. Car jamais de leur chasse l’un dans les bois, l’autre dans les airs, l’autre sur les eaux, leur logis ne les a vus revenir les rets vides.

4.2 Variation rhétorique

AP, IX.719 (Léonidas de Tarente) AP, IX.720 (Antipater de Sidon)
Myron ne m’a pas modelée, il se vante : c’est quand je paissais qu’il m’a écartée du troupeau et liée à ce socle de pierre. Si Myron ne m’avait fixé les pieds à cette pierre, je paîtrais, génisse, avec les autres vaches.

4.3 Variation paradigmatique

AP, VI.16 (Archias) AP, VI.17 (Pseudo-Lucien)
Pour toi voici, Pan, qui guettes du haut des sommets, des présents très variés que t’a consacrés un groupe de trois frères, prémices de leur triple genre de chasse: Damis, de ces panneaux qu’il tend aux bêtes sauvages; Pigrès, des collets à prendre les oiseaux, Cleitor, des filets à poissons. En échange, fais qu’ils continuent à être heureux, l’un dans les airs, le second dans la mer, le dernier dans les bois. Trois courtisanes t’offrent ces jouets, bienheureuse Cypris, chacune des revenus de son travail spécial: Euphro, de ce que lui rapportent ses fesses, Cleio de ce qu’elle gagne en suivant les règles de la nature, Atthis enfin de ce qu’elle doit à son palais. En échange, souveraine, envoie à la première les profits que souhaite un garçon, à la seconde ceux que désire une femme, à l’autre ceux du troisième sexe.

5 Méthodologie

Textes

Annotation (manuelle) des variations

Nettoyage et normalisation and normalization

Représentations numériques

Mesures de similarité entre paires d’épigrammes

Algorithmes prédictifs

Modélisation de la variation

5.1 Nettoyage et normalisation

48 combinaisons considérées

  • Avec ou sans l’application d’un anti-dictionnaire ;

  • Avec ou sans la normalisation de la casse ;

  • Avec ou sans la suppression de la ponctuation ;

  • Avec ou sans la suppression de l’accentuation ;

  • Avec ou sans traitement supplémentaire :

    • Racinisation ;
    • Lemmatisation.

5.2 Représentations numériques

4 représentations considérées

  • Sac de mots (binaire) ;
  • Sac de mots (pondéré tf-idf) ;
  • Ensembles de bi-grammes ;
  • Liste des formes en tenant compte de leur ordre d’apparition.

5.3 Mesures de similarité

5 mesures considérées

  • Similarité cosinus :
    • Sac de mots (binaire) ;
    • Sac de mots (pondéré tf-idf) ;
  • Coefficient de Jaccard :
    • Sac de mots (binaire) ;
    • Ensembles de bi-grammes ;
  • Distance de Damerau-Levenshtein (convertie en similarité):
    • Liste des formes en tenant compte de leur ordre d’apparition.

5.3.1 Combinaisons les plus discriminantes

Représentations Mesure de similarité Application d’un anti-dictionnaire Normalisation de la casse Suppression ponctuation Suppression accentuation Traitement supplémentaire
Sac de mots (binaire) Similarité cosinus OUI OUI NON OUI Racinisation
Sac de mots (binaire) Coefficient de Jaccard NON OUI OUI NON Racinisation
Sac de mots (pondéré tf-idf) Similarité cosinus OUI NON NON NON Racinisation
Ensemble de bigrammes Coefficient de Jaccard NON OUI NON NON Racinisation
Liste séquentielle Similarité Damerau-Levenshtein OUI OUI OUI NON NON

5.3.2 Distribution des mesures de similarité des paires d’épigrammes selon leur classification (un cas de figure)

5.4 Algorithmes prédictifs

3 algorithmes considérés

  • Arbre de décision ;
  • Régression logistique ;
  • Perceptron.

5.5 Évaluation des modèles

5.6 Arbre de décision [n = 3]

Un arbre de décision à 14 niveaux est nécessaire pour obtenir une classification parfaite des données d’entraînement.

5.7 Perceptron et régression logistique

6 Discussion

  • Les méthodes qui se concentrent essentiellement sur la similarité du vocabulaire sont un bon point de départ pour la modélisation des variations stylistiques.
  • Il est plus facile de détecter les non-variations que de discerner les variations stylistiques, ce qui suggère deux choses :
    • Ce concept n’est pas limité au partage de vocabulaire ;
    • Les non-variations ne partagent pas ou peu de formes.
  • D’autres représentations textuelles et méthodes d’analyse des données sont nécessaires pour modéliser les variations paradigmatiques et rhétoriques.

6.1 Apprendre des faux positifs et faux négatifs

Entre 17 et 47 % des variations répertoriées échappent encore aux modèles.

  • L’étude des faux négatifs permettra de trouver des caractéristiques textuelles communes et ainsi raffiner nos modèles.

Chaque méthode produit quelques faux positifs qui demandent une attention spéciale :

  • Comme dans le cas des faux négatifs, nous pouvons étudier leurs caractéristiques pour raffiner les modèles ;
  • Il est possible de trouver des variations qui ont échappé aux annotateurs et certaines paires d’épigrammes ont un statut ambigu.

6.2 Exemple de faux faux positif : variation stylistique, rhétorique, simple topos ?

AP, VI.202 (Léonidas de Tarente) AP, VI.272 (Persès de Thèbes)
Cette ceinture aux belles franges et, en même temps, ce vêtement, c’est Atthis qui, en relevant de ses couches, les a suspendus, fille de Lêto, au-dessus des portes de ton temple virginal, parce que tu l’as délivrée du fardeau de sa grossesse et que sans douleur elle a mis au monde un enfant vivant. Cette ceinture, fille de Lêto, ce vêtement brodé de fleurs et ce soutien-gorge qui enveloppait étroitement ses seins, c’est Timaessa qui te les a consacrés, quand elle eut, après neuf mois, échappé au fardeau pénible d’un douloureux enfantement.

6.3 Exemple de faux négatif

AP, VI.13 (Léonidas de Tarente) AP, VI.11 (Satrius)
Les trois frères t’ont consacré, chasseur Pan, ces filets, pris par chacun à son genre de chasse : Pigrès, pour les oiseaux ; Damis, pour les quadrupèdes ; Cléitor, pour le peuple de la mer. Envoie-leur en échange une bonne chasse à l’un par les airs, au second par les bois, à l’autre par les grèves. Le chasseur Damis a consacré ce long panneau, Pigrès ce filet aux fines mailles pour attraper les oiseaux et le rameur de nuit Cleitor ce tramail à mettre les rougets : c’est à toi, Pan, que tous trois ont dédié ces instruments de leur travail ; sois propice à ces frères si pieux, accorde-leur leur provende de volatiles, de venaison et d’habitants des eaux.

7 Conclusion

Nous avons obtenu des résultats encourageants pour la formalisation du concept de variation stylistique dans le livre VI de l’Anthologie grecque (en traduction française).

Et la suite ?

  • Étendre nos expérimentations à l’ensemble de l’Anthologie grecque ;
  • Adapter nos méthodes computationnelles au grec ancien ;
  • Modéliser les variations rhétoriques et paradigmatiques.

8 Merci !

Audin, Yann, Mathilde Verstraete, et Marcello Vitali-Rosati. 2023. « Intelligence Artificielle Littéraire ». In Humanistica 2023. Épistémologie. Genève, Suisse: Association francophone des humanités numériques. https://hal.science/hal-04131573.
Carabantes, Manuel. 2020. « Black-box artificial intelligence: an epistemological and critical analysis ». AI & SOCIETY 35 (2): 309‑17. https://doi.org/10.1007/s00146-019-00888-w.
Coffee, Neil, Jean-Pierre Koenig, Shakthi Poornima, Christopher W. Forstall, Roelant Ossewaarde, et Sarah L. Jacobson. 2012. « The Tesserae Project: intertextual analysis of Latin poetry ». Literary and Linguistic Computing 28 (2): 221‑28. https://doi.org/10.1093/llc/fqs033.
Damerau, Frederick J. 1964. « A technique for computer detection and correction of spelling errors ». Communications of the ACM 7 (3): 171‑76. https://doi.org/10.1145/363958.363994.
Laurens, Pierre. 2012. L’abeille dans l’ambre : Célébration de l’épigramme de l’époque alexandrine à la fin de la Renaissance. 2e éd. Paris: Les Belles Lettres.
Levenshtein, Vladimir. 1966. « Binary codes capable of correcting deletions, insertions, and reversals ». Cybernetics and Control Theory 10 (8): 707‑10. https://www.mathnet.ru/eng/dan31411.
Mars, Mourad. 2022. « From Word Embeddings to Pre-Trained Language Models: A State-of-the-Art Walkthrough ». Applied Sciences 12 (17): 8805. https://doi.org/10.3390/app12178805.
Mellet, Margot, et Mathilde Verstraete. 2024. « Passés et présents anthologiques. Le projet d’édition numérique collaborative de l’Anthologie grecque ». In Communautés et pratiques d’écritures des patrimoines et des mémoires, Presses universitaire de Paris Nanterre. Intelligences numériques. Paris.
Naseem, Usman, Imran Razzak, Shah Khalid Khan, et Mukesh Prasad. 2021. « A Comprehensive Survey on Word Representation Models: From Classical to State-of-the-Art Word Representation Language Models ». ACM Transactions on Asian and Low-Resource Language Information Processing 20 (5): 74:1‑35. https://doi.org/10.1145/3434237.
Norvig, Peter. 2017. « On Chomsky and the Two Cultures of Statistical Learning ». In Berechenbarkeit der Welt? Philosophie und Wissenschaft im Zeitalter von Big Data, édité par Wolfgang Pietsch, Jörg Wernecke, et Maximilian Ott, 61‑83. Wiesbaden: Springer Fachmedien. https://doi.org/10.1007/978-3-658-12153-2_3.
Pöckelmann, Marcus, Janis Dähne, Jörg Ritter, et Paul Molitor. 2020. « Fast paraphrase extraction in Ancient Greek literature ». it-Information Technology 62 (2): 75‑89.
Raiaan, Mohaimenul Azam Khan, Saddam Hossain Mukta, Kaniz Fatema, Nur Mohammad Fahad, Sadman Sakib, et Sami Azam. 2024. « A Review on Large Language Models: Architectures, Applications, Taxonomies, Open Issues and Challenges ». IEEE Access 12. https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10433480&tag=1.
Schubert, Charlotte. 2020. « Intertextuality and Digital Humanities ». it-Information Technology 62 (2): 53‑59.
Tarán, Sonya lidia. 1979. The Art of Variation in the Hellenistic Epigram. Vol. IX. Columbia studies in the classical tradition. Leyde: E. J. Brill.
Turing, Alan M. 1950. « Computing Machinery and Intelligence ». Mind LIX (236): 433‑60. https://doi.org/10.1093/mind/LIX.236.433.
Vitali-Rosati, Marcello, Margot Mellet, Servanne Monjour, Antoine Fauchié, Timothée Guicherd, David Larlet, et Enrico Agostini-Marchese. 2021. « L’épopée numérique de l’Anthologie grecque : entre questions épistémologiques, modèles techniques et dynamiques collaboratives ». Sens public, juillet. https://www.erudit.org/fr/revues/sp/2021-sp07034/1089649ar/.
Vitali-Rosati, Marcello, Servanne Monjour, Joana Casenave, Elsa Bouchard, et Margot Mellet. 2020. « Editorializing the Greek Anthology: The palatin manuscript as a collective imaginary ». Digital Humanities Quarterly 014 (1). http://www.digitalhumanities.org/dhq/vol/14/1/000447/000447.html.
Waltz, Pierre. 1931. Anthologie grecque. Anthologie Palatine. Vol. III (livre VI). Collection des Universités de France. Paris: Les Belles Lettres.