# Textes et données

Il y a plusieurs manières de structurer un texte pour le rendre utilisable comme une série de données.

- xml/html
- autres types de balisage
- api

## API

Une API est une "application programming interface". Concrètement c'est un système standardisé pour interagir avec des données. 

Nous allons prendre un exemple: Zotero.

Allons regarder comment fonctionne l'api en regardant quelques pages:

- https://api.zotero.org/groups/322999/
- https://api.zotero.org/groups/322999/items/
- https://api.zotero.org/groups/322999/items/ABVUD9Z7
- https://api.zotero.org/groups/322999/items/ABVUD9Z7?include=citation,data
- https://api.zotero.org/groups/322999/items/P4UXP443/?include=citation,data&style=chicago-fullnote-bibliography


### Json

Json est un format de structuration des données très simple.




Article:
- titre
- auteur
- corps

<article>
    <titre>Montitre</titre>
    <auteur>Thomas</auteur>
    <corps>Mon texte</corps>
</article>



{
"titre":"Mon titre",
"auteur":"Thomas",
"corps":"Mon texte,
}

Regardons un exemple du json de zotero:

```json

{

    "key": "P4UXP443",
    "version": 1380,
    "library": {
        "type": "group",
        "id": 322999,
        "name": "Écritures numériques",
        "links": {
            "alternate": {
                "href": "https://www.zotero.org/groups/critures_numriques",
                "type": "text/html"
            }
        }
    },
    "links": {
        "self": {
            "href": "https://api.zotero.org/groups/322999/items/P4UXP443",
            "type": "application/json"
        },
        "alternate": {
            "href": "https://www.zotero.org/groups/critures_numriques/items/P4UXP443",
            "type": "text/html"
        }
    },
    "meta": {
        "createdByUser": {
            "id": 2755709,
            "username": "laurentdm",
            "name": "",
            "links": {
                "alternate": {
                    "href": "https://www.zotero.org/laurentdm",
                    "type": "text/html"
                }
            }
        },
        "lastModifiedByUser": {
            "id": 3449834,
            "username": "enricoagomarchese",
            "name": "Enrico Agostini-Marchese",
            "links": {
                "alternate": {
                    "href": "https://www.zotero.org/enricoagomarchese",
                    "type": "text/html"
                }
            }
        },
        "creatorSummary": "Carrier-Lafleur et al.",
        "parsedDate": "2018-04-09",
        "numChildren": 0
    },
    "citation": "<span>Carrier-Lafleur et al., “L’invention littéraire des médias.”</span>",
    "data": {
        "key": "P4UXP443",
        "version": 1380,
        "itemType": "journalArticle",
        "title": "L'invention littéraire des médias",
        "creators": [
            {
                "creatorType": "author",
                "firstName": "Thomas",
                "lastName": "Carrier-Lafleur"
            },
            {
                "creatorType": "author",
                "firstName": "André",
                "lastName": "Gaudreault"
            },
            {
                "creatorType": "author",
                "firstName": "Servanne",
                "lastName": "Monjour"
            },
            {
                "creatorType": "author",
                "firstName": "Marcello",
                "lastName": "Vitali-Rosati"
            }
        ],
        "abstractNote": "Les médias existeraient-ils sans la littérature ? Pourrait-on parler de « télévision », de « photographie », de « cinéma » ou du « numérique » sans que ces dispositifs aient aussi été construits, institutionnalisés et même parfois déconstruits dans l’imaginaire collectif par la littérature et son discours ? À l’heure où le numérique semble encore s’inventer, le présent dossier vise à souligner le rôle du fait littéraire dans la construction de nos médias. En même temps, l’hybridation médiatique de notre contemporanéité numérique rend nécessaire une réflexion sur la capacité des médias à se réinventer réciproquement, renouvelant chaque fois l’ordre du discours et la fonction de la littérature. En raison de sa capacité à témoigner de l’hétérogénéité de notre univers médiatique, la littérature offre un terrain privilégié – où tout reste encore à faire – pour mener une telle recherche.",
        "publicationTitle": "Sens Public",
        "volume": "",
        "issue": "",
        "pages": "",
        "date": "2018-04-09",
        "series": "",
        "seriesTitle": "",
        "seriesText": "",
        "journalAbbreviation": "",
        "language": "fr",
        "DOI": "",
        "ISSN": "2104-3272",
        "shortTitle": "",
        "url": "https://papyrus.bib.umontreal.ca/xmlui/handle/1866/19962",
        "accessDate": "2018-04-20T18:46:45Z",
        "archive": "",
        "archiveLocation": "",
        "libraryCatalog": "sens-public.org",
        "callNumber": "",
        "rights": "http://creativecommons.org/licenses/by-nc-sa/4.0/",
        "extra": "",
        "tags": [
            {
                "tag": "Circulation des contenus"
            },
            {
                "tag": "Imaginaire-réel"
            },
            {
                "tag": "Intermédialité"
            },
            {
                "tag": "Littérature"
            },
            {
                "tag": "Légitimation des contenus"
            },
            {
                "tag": "Médias"
            },
            {
                "tag": "Production des contenus"
            }
        ],
        "collections": [
            "P4PRNB6V",
            "V6D6F4ZX",
            "C9RJ5F8P"
        ],
        "relations": { },
        "dateAdded": "2018-04-20T18:46:45Z",
        "dateModified": "2019-09-26T14:14:38Z"
    }

}

```

In [6]:
import json
import requests

data = requests.get('https://api.zotero.org/groups/322999/items/P4UXP443/?include=citation,data')
dataj = data.json()
print(data.headers)
print(dataj['data']['title'])
for a in dataj['data']['creators']:
    print(a['firstName'])
    print(a['lastName'])

{'Date': 'Mon, 08 Nov 2021 18:56:47 GMT', 'Server': 'Apache/2.4.51 ()', 'Strict-Transport-Security': 'max-age=31536000; includeSubDomains; preload', 'Zotero-API-Version': '3', 'Zotero-Schema-Version': '3', 'Last-Modified-Version': '1380', 'Vary': 'Accept-Encoding', 'Content-Encoding': 'gzip', 'Content-Length': '1546', 'Keep-Alive': 'timeout=5, max=100', 'Connection': 'Keep-Alive', 'Content-Type': 'application/json'}
L'invention littéraire des médias
Thomas
Carrier-Lafleur
André
Gaudreault
Servanne
Monjour
Marcello
Vitali-Rosati


In [9]:
import requests
import json
import links_from_header
import re
mygroup= '322999'

def allbibliodata(group,key):
    
    
    url = 'https://api.zotero.org/groups/'
    
    
    params={
        'key':key,
        'start':'0',
        'include':'citation,data',
        'style': 'chicago-fullnote-bibliography'
        
    }
    
    pagination= True
    
    bibliographical_data=[]
    while pagination:
    
        data = requests.get(url+group+'/items', params)
        data_headers = data.headers
    
        data_link=data_headers['Link']
        data_link_header=links_from_header.extract(data_link) # using links_from_headers to tranform Link value in a json with the keys prev next last
    
        if 'next' in data_link_header:
            next_link=data_link_header['next'] # picking the value of the key last 
    
            next_start=re.match( r'.*start=([0-9]*)', next_link).group(1)
            params['start']= next_start
    
            biblio_data=data.json()
            for bib_item in biblio_data:
                bibliographical_data.append(bib_item)
            
        else:
            pagination=False
    return bibliographical_data

In [10]:
mes_refs=allbibliodata(mygroup, None)

In [12]:
len(mes_refs)

375

In [11]:
for ref in mes_refs:
    print(ref['citation'])

<span>Servanne Monjour and Marcello Vitali-Rosati, “Pour une redéfinition pornographique du champ littéraire. Une exploration des marges de la littérature numérique avec les travailleuses du texte,” <i>Interférences littéraire / Literaire interferencies</i> 25 (October 24, 2021): 51–67, http://interferenceslitteraires.be/index.php/illi/article/view/1087.</span>
<span>“Snapshot,” accessed March 18, 2021, https://a.qtrnm.net/analyses/lantilivre-dynamique-des-editions-abrupt-la-litterature-insaisissable/.</span>
<span>Antoine Fauchié, “L’antilivre dynamique des éditions Abrüpt : la littérature insaisissable,” in <i>Littérature et design. Visualités et visualisations du texte en régime numérique</i> (Lyon: Presses du réel (À paraître), 2021).</span>
<span>“Full Text PDF,” accessed August 1, 2021, https://sens-public.org/static/git-articles/SP1597/SP1597.pdf.</span>
<span>“Snapshot,” accessed August 1, 2021, https://sens-public.org/articles/1597/.</span>
<span>Antoine Fauchié, “Vers un syst

In [7]:
print(mes_refs[0])

{'key': 'ABVUD9Z7', 'version': 1696, 'library': {'type': 'group', 'id': 322999, 'name': 'Écritures numériques', 'links': {'alternate': {'href': 'https://www.zotero.org/groups/critures_numriques', 'type': 'text/html'}}}, 'links': {'self': {'href': 'https://api.zotero.org/groups/322999/items/ABVUD9Z7', 'type': 'application/json'}, 'alternate': {'href': 'https://www.zotero.org/groups/critures_numriques/items/ABVUD9Z7', 'type': 'text/html'}}, 'meta': {'createdByUser': {'id': 4945474, 'username': 'lescouet', 'name': '', 'links': {'alternate': {'href': 'https://www.zotero.org/lescouet', 'type': 'text/html'}}}, 'creatorSummary': 'Monjour and Vitali-Rosati', 'parsedDate': '2021-10-24', 'numChildren': 0}, 'citation': '<span>Servanne Monjour and Marcello Vitali-Rosati, “Pour une redéfinition pornographique du champ littéraire. Une exploration des marges de la littérature numérique avec les travailleuses du texte,” <i>Interférences littéraire / Literaire interferencies</i> 25 (October 24, 2021): 

In [15]:
for ref in mes_refs:
    try:
        for creator in ref['data']['creators']:
            if creator['lastName'] == 'Monjour':
                for creator2 in ref['data']['creators']:
                    if creator2['lastName'] == 'Vitali-Rosati':
                        print(ref['citation'])
    except KeyError:
        continue

<span>Servanne Monjour and Marcello Vitali-Rosati, “Pour une redéfinition pornographique du champ littéraire. Une exploration des marges de la littérature numérique avec les travailleuses du texte,” <i>Interférences littéraire / Literaire interferencies</i> 25 (October 24, 2021): 51–67, http://interferenceslitteraires.be/index.php/illi/article/view/1087.</span>
<span>Marcello Vitali-Rosati et al., “L’épopée Numérique de l’Anthologie Grecque : Entre Questions Épistémologiques, Modèles Techniques et Dynamiques Collaboratives,” <i>Sens Public</i>, 2021, https://sens-public.org/articles/1603/.</span>
<span>Antoine Fauchié et al., “L’épopée Numérique de l’Anthologie Grecque : Entre Questions Épistémologiques, Modèles Techniques et Dynamiques Collaboratives,” <i>Sens Public</i>, 2021, https://sens-public.org/articles/1603/.</span>
<span>Antoine Fauchié et al., “L’épopée Numérique de l’Anthologie Grecque : Entre Questions Épistémologiques, Modèles Techniques et Dynamiques Collaboratives,” <i>

In [16]:
for ref in mes_refs:
    try:
        for tag in ref['data']['tags']:
            if tag['tag'] == 'Érotisme et pornographie':
                print(ref['citation'])
    except KeyError:
        continue

<span>Servanne Monjour and Marcello Vitali-Rosati, “Pour une redéfinition pornographique du champ littéraire. Une exploration des marges de la littérature numérique avec les travailleuses du texte,” <i>Interférences littéraire / Literaire interferencies</i> 25 (October 24, 2021): 51–67, http://interferenceslitteraires.be/index.php/illi/article/view/1087.</span>
<span>Marcello Vitali-Rosati, “Pornspace,” <i>Medium</i>, no. 46–47 (2016): 307–17, https://papyrus.bib.umontreal.ca/xmlui/handle/1866/12997.</span>
<span>Marcello Vitali-Rosati, “Les algorithmes de l’amour,” <i>MuseMedusa</i>, no. 2 (2014), https://papyrus.bib.umontreal.ca/xmlui/handle/1866/12973.</span>
<span>Marcello Vitali-Rosati, “Voir l’invisible : Gygès et la pornographie Facebook,” <i>Sens Public</i>, June 14, 2012, https://papyrus.bib.umontreal.ca/xmlui/handle/1866/12923.</span>
<span>Marcello Vitali-Rosati, “Don Giovanni. Il dissoluto punito ovvero la possibilità e lo spostamento,” <i>Elites</i>, no. 4 (April 2004): 65

## Isidore

Une magnifique api qui donne accès à toutes les données indexées par isidore.science! Elle est ici: https://isidore.science/api

Nous allons utiliser l'endpoint de recherche: https://api.isidore.science/resource/search

Nous allons donc donner des paramètres - en lisant la documentation de l'api - pour faire des recherches particulières.

In [17]:
# on définit une fonction de recherche générique très simple
def chercheisidore(parametres):
    endpoint= 'https://api.isidore.science/resource/search'
    return requests.get(endpoint, parametres).json()

En lisant la documentation nous apprenons qu'il y a des paramètres de recherche possibles.
Pour les tester il suffira de créer des urls avec:
- la base https://api.isidore.science/resource/search
- un `?` pour introduire les paramètres
- les paramètres séparés par des `&`

Quelques paramètres d'exemple:

-`q` pour "query" c'est le(s) mot(s) à chercher
- `output` c'est l'output demandé (xml ou json)
- `replies` c'est le nombre de réponses que nous voulons

Par exemple: https://api.isidore.science/resource/search?q=amour&output=json&replies=5

En python nous allons pouvoir passer les paramètres dans un dictionnaire, comme suit:

In [36]:
parametres = {
        'q': 'amour',
        'output':'json',
        'replies' : 5
    }
json.dumps(chercheisidore(parametres), indent=2)

'{\n  "response": {\n    "header": {\n      "query": {\n        "@text": "amour",\n        "@userId": "496c4352-bd0a-9d07-e334-109269201af4",\n        "@sessionId": "2b5e146ovpgect00p39jn1b270",\n        "@date": "2021-11-08T20:31:43+0100",\n        "param": [\n          {\n            "@name": "replies",\n            "@value": "5"\n          },\n          {\n            "@name": "lang",\n            "@value": "fr"\n          },\n          {\n            "@name": "q",\n            "@value": "amour"\n          }\n        ]\n      },\n      "performance": {\n        "@durationMs": "959"\n      }\n    },\n    "replies": {\n      "meta": {\n        "@items": "278457",\n        "@pageItems": "5"\n      },\n      "content": {\n        "reply": [\n          {\n            "@uri": "10670/1.mwspky",\n            "isidore": {\n              "title": "Amour",\n              "url": "https://philosophemes.msh.uca.fr/node/48",\n              "enrichedCreators": {\n                "creator": {\n     

Maintenant cherchons une liste de disciplines:

In [21]:
parametres = {
        'facet': 'discipline',
        'output':'json'
 }

mes_disciplines=chercheisidore(parametres)

In [26]:
mes_disciplines

{'response': {'header': {'query': {'@text': '',
    '@userId': '496c4352-bd0a-9d07-e334-109269201af4',
    '@sessionId': 'lt6mp7cqr21i3ag1r553gr320j',
    '@date': '2021-11-08T20:19:30+0100',
    'param': [{'@name': 'replies', '@value': '25'},
     {'@name': 'lang', '@value': 'fr'},
     {'@name': 'facet', '@value': 'discipline,replies=30'},
     {'@name': 'facet', '@value': 'discipline,sort=items'},
     {'@name': 'facet', '@value': 'discipline,order=DESC'}]},
   'performance': {'@durationMs': '4140'}},
  'replies': {'meta': {'@items': '10063221', '@pageItems': '25'},
   'facets': {'facet': {'@id': 'discipline',
     '@type': 'string',
     '@layout': 'tree',
     'label': {'@xml:lang': 'fr', '$': 'Domaines HAL'},
     'node': [{'@key': 'http://aurehal.archives-ouvertes.fr/subject/shs.hist',
       '@items': '1434853',
       'label': {'@xml:lang': 'fr', '$': 'Histoire'}},
      {'@key': 'http://aurehal.archives-ouvertes.fr/subject/shs.litt',
       '@items': '926389',
       'label':

Et impromons cette liste avec les identifiants de chaque discipline:

In [23]:
for dis in mes_disciplines['response']['replies']['facets']['facet']['node']:
    print(dis['@key'])
    print(dis['label']['$'])

http://aurehal.archives-ouvertes.fr/subject/shs.hist
Histoire
http://aurehal.archives-ouvertes.fr/subject/shs.litt
Littératures
http://aurehal.archives-ouvertes.fr/subject/shs.droit
Droit
http://aurehal.archives-ouvertes.fr/subject/shs.art
Art et histoire de l'art
http://aurehal.archives-ouvertes.fr/subject/shs.socio
Sociologie
http://aurehal.archives-ouvertes.fr/subject/shs.archeo
Archéologie et Préhistoire
http://aurehal.archives-ouvertes.fr/subject/shs.eco
Economies et finances
http://aurehal.archives-ouvertes.fr/subject/shs.geo
Géographie
http://aurehal.archives-ouvertes.fr/subject/shs.scipo
Science politique
http://aurehal.archives-ouvertes.fr/subject/shs.edu
Education
http://aurehal.archives-ouvertes.fr/subject/shs.langue
Linguistique
http://aurehal.archives-ouvertes.fr/subject/shs.musiq
Musique, musicologie et arts de la scène
http://aurehal.archives-ouvertes.fr/subject/shs.info
Sciences de l'information et de la communication
http://aurehal.archives-ouvertes.fr/subject/shs.anth

Maintenant nous voulons sélectionner des thèses en littérature qui contiennent un mot-clé particulier:
https://api.isidore.science/resource/search?type=http%3A%2F%2Fisidore.science%2Fontology%23thesis&discipline=http%3A%2F%2Faurehal.archives-ouvertes.fr%2Fsubject%2Fshs.litt&q=Roland+Barthes&output=json

In [27]:
parametres = {
    'q': 'Roland+Barthes',
    'type': 'http://isidore.science/ontology#thesis',
    'discipline':'http://aurehal.archives-ouvertes.fr/subject/shs.litt',
    'output':'json',
    
    
    
}

theses_barthes = chercheisidore(parametres)

In [28]:
theses_barthes

{'response': {'header': {'query': {'@text': 'Roland+Barthes',
    '@userId': '496c4352-bd0a-9d07-e334-109269201af4',
    '@sessionId': '9svqc3s90qnfriblhr6es0rqpc',
    '@date': '2021-11-08T20:24:35+0100',
    'param': [{'@name': 'replies', '@value': '25'},
     {'@name': 'lang', '@value': 'fr'},
     {'@name': 'type', '@value': 'http://isidore.science/ontology#thesis'},
     {'@name': 'discipline',
      '@value': 'http://aurehal.archives-ouvertes.fr/subject/shs.litt'},
     {'@name': 'q', '@value': 'Roland+Barthes'}]},
   'performance': {'@durationMs': '867'}},
  'replies': {'meta': {'@items': '1370', '@pageItems': '25'},
   'content': {'reply': [{'@uri': '10670/1.8doqv9',
      'isidore': {'title': [{'@xml:lang': 'fr',
         '$': 'Le discours de Roland Barthes au Collège de France : pré-roman, trans-écriture, hyper-critique'},
        {'@xml:lang': 'en',
         '$': 'The discourse of Roland Barthes at the Collège de France : pre-novel, trans-writing, hyper-critique'}],
       '

In [29]:
theses_barthes['response']['replies']['meta']['@items']

'1370'

In [30]:
for these in theses_barthes['response']['replies']['content']['reply']:
    print(these['isidore']['title'])

[{'@xml:lang': 'fr', '$': 'Le discours de Roland Barthes au Collège de France : pré-roman, trans-écriture, hyper-critique'}, {'@xml:lang': 'en', '$': 'The discourse of Roland Barthes at the Collège de France : pre-novel, trans-writing, hyper-critique'}]
[{'@xml:lang': 'fr', '$': 'Les hétérologies du savoir (Roland Barthes, Pascal Quignard)'}, {'@xml:lang': 'en', '$': 'The Heterologies of Knowledge (Roland Barthes, Pascal Quignard)'}]
[{'@xml:lang': 'en', '$': 'The discourse of Roland Barthes at the Collège de France : pre-novel, trans-writing, hyper-critique'}, {'@xml:lang': 'fr', '$': 'Le discours de Roland Barthes au Collège de France : pré-roman, trans-écriture, hyper-critique'}]
[{'@xml:lang': 'en', '$': 'The Exercise of intimacy according to Roland Barthes'}, {'@xml:lang': 'fr', '$': "L'Exercice de l'intime d'après Roland Barthes"}]
[{'@xml:lang': 'en', '$': 'The Heterologies of Knowledge (Roland Barthes, Pascal Quignard)'}, {'@xml:lang': 'fr', '$': 'Les hétérologies du savoir (Ro

Faisons-le mieux

In [31]:

for these in theses_barthes['response']['replies']['content']['reply']:
    if type(these['isidore']['title'])==list:
        for title in these['isidore']['title']:
            print(title['$'])
    else:
        try:
            print(these['isidore']['title']['$'])
        except TypeError:
            
            print(these['isidore']['title'])
            
    print(these['isidore']['url'])  
    print(these['isidore']['enrichedCreators']['creator']['@origin'])  
        

Le discours de Roland Barthes au Collège de France : pré-roman, trans-écriture, hyper-critique
The discourse of Roland Barthes at the Collège de France : pre-novel, trans-writing, hyper-critique
http://www.theses.fr/2020GRALL023
Han, Seokhyeon
Les hétérologies du savoir (Roland Barthes, Pascal Quignard)
The Heterologies of Knowledge (Roland Barthes, Pascal Quignard)
http://www.theses.fr/2016USPCA136/document
Messager, Mathieu
The discourse of Roland Barthes at the Collège de France : pre-novel, trans-writing, hyper-critique
Le discours de Roland Barthes au Collège de France : pré-roman, trans-écriture, hyper-critique
https://tel.archives-ouvertes.fr/tel-03260607
Han, Seokhyeon
The Exercise of intimacy according to Roland Barthes
L'Exercice de l'intime d'après Roland Barthes
https://hal.archives-ouvertes.fr/tel-02517109
Paillé, Willy
The Heterologies of Knowledge (Roland Barthes, Pascal Quignard)
Les hétérologies du savoir (Roland Barthes, Pascal Quignard)
https://tel.archives-ouvertes.

Précisons notre recherche en utilisant des mots-clés contrôlés...

Par exemple des thèses qui parlent de Barthes et des publicités avec une approche littéraire:

On va prendre le mot publicité sur Rameau: http://data.bnf.fr/ark:/12148/cb13318427c


In [32]:
parametres = {
    'subject': 'http://data.bnf.fr/ark:/12148/cb13318427c',
    'type': 'http://isidore.science/ontology#thesis',
    'discipline':'http://aurehal.archives-ouvertes.fr/subject/shs.litt',
    'output':'json',
    'replies' : 25,
    'q': 'Roland Barthes'
    
    
    
}

theses_barthes = chercheisidore(parametres)

In [33]:
theses_barthes['response']['replies']['meta']['@items']

'2'

In [34]:
for these in theses_barthes['response']['replies']['content']['reply']:
    if type(these['isidore']['title'])==list:
        for title in these['isidore']['title']:
            print(title['$'])
    else:
        try:
            print(these['isidore']['title']['$'])
        except TypeError:
            
            print(these['isidore']['title'])
            
    print(these['isidore']['url'])  
    print(these['isidore']['enrichedCreators']['creator']['@origin'])  
        

"L'amour du peuple" : esthétique populiste et imaginaire du populaire dans la culture française de l'entre-deux-guerres
"Love for the people" : Populist Aesthetics and Imaginations of Popular Life in France's Interwar Culture
http://www.theses.fr/2019EHES0152/document
Kern, Matthias
La transposition de la littérature à la bande dessinée : la mise en images chez Alberto Breccia
The transpotition from litterature to comics : visual strategies in Alberto Breccia's Work
http://www.theses.fr/2016PA100079/document
Caraballo, Laura Cecilia


## Quelques réflexions sur le rapport entre texte et données

Discutons des idées de Stephen Marche dans _Literature Is not Data: Against Digital Humanities_... 

- opposition entre humain et calcul: l'humain n'est pas calculable
- confusion entre mauvaise modélisation et impossibilité de modéliser

>Even a relatively casual examination of the fundamental assumptions underlying the argument reveals the mushiness of the words beneath the hard equations. What is a “classic”? What is “influence”? Are similarities of language the most fundamental way of establishing the similarities between authors? The problem with “distant reading” is, naturally, the distance involved.

>Literature cannot meaningfully be treated as data. The problem is essential rather than superficial: literature is not data. Literature is the opposite of data.

La question de l'oubli et de la perte: concerne-t-elle seulement la littérature?


- l'opposition entre sens et syntaxe (Borges... une bonne introduction à l'opposition Turing/Searle)


## Natural language processing

Cette section est inspirée de https://www.stat4decision.com/fr/traitement-langage-naturel-francais-tal-nlp/

Le NLP ou TAL (traitement automatique du langage) consiste à traiter une langue de façon algorithmique pour essayer d'extraire du sens. Cela sert par exemple pour faire des traductions automatiques ou pour essayer de classer des contenus par sujet, ou pour faire de l'analyse de sentiments... ou un générateur de textes.

Le TAL consiste en trois grandes étapes:

- Pré-traitement
- Vectorisation
- Traitement 

Il y a plusieurs librairies qui permettent de faire du TAL en python. Une est nltk, probablement la plus utilisée. Une autre est spacy.

Ces librairies permettent d'avoir des modèles déjà entrainés.

### Prétraitement

- tokenisation
- lemmatisation
- stopwords
- analyse...


In [37]:
import spacy
nlp = spacy.load('fr_core_news_sm')

In [38]:
mon_texte = 'Bonjour, chers amis, comment allez-vous? J\'espère que vous passez une bonne journée à l\'Université de Montréal'

In [39]:
doc = nlp(mon_texte)

In [40]:
for mot in doc:
    print(mot.text)

Bonjour
,
chers
amis
,
comment
allez
-vous
?
J'
espère
que
vous
passez
une
bonne
journée
à
l'
Université
de
Montréal


Une fonction qui fait ce travail et retourne une liste:

In [41]:
def return_token(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner le texte de chaque token
    return [X.text for X in doc]

Il faut d'abord enlever les stopwords. On pourrait faire une liste à la main... Ou alors importer une liste déjà existante:

In [42]:
from nltk.corpus import stopwords
stopWords = set(stopwords.words('french'))

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  dtype=np.int):
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  eps=np.finfo(np.float).eps,
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  eps=np.finfo(np.float).eps, copy_X=True, fit_path=True,
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  eps=np.finfo(np.float).eps, copy_X=True, fit_path=True,
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  eps=np.finfo(np.float).eps, positive=False):
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  max_n_alphas=1000, n_jobs=None, eps=np.finfo(np.float).e

In [43]:
clean_words = []
for token in return_token(mon_texte):
    if token not in stopWords:
        clean_words.append(token)

clean_words

['Bonjour',
 ',',
 'chers',
 'amis',
 ',',
 'comment',
 'allez',
 '-vous',
 '?',
 "J'",
 'espère',
 'passez',
 'bonne',
 'journée',
 "l'",
 'Université',
 'Montréal']

In [44]:
def return_token_sent(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner le texte de chaque phrase
    return [X.text for X in doc.sents]

In [45]:
return_token_sent(mon_texte)

['Bonjour, chers amis, comment allez-vous?',
 "J'espère que vous passez une bonne journée à l'Université de Montréal"]

## Lemmatisons!

In [46]:
for i in doc:
    print(i.lemma_)

Bonjour
,
cher
ami
,
comment
aller
vous
?
je
espérer
que
vous
passer
un
bon
journée
à
le
université
de
Montréal


## Entités nommées?

In [47]:
doc.ents

(Bonjour, Université de Montréal)

In [142]:
for e in doc.ents:
    print(e.text)
    print(e.label_)

Bonjour
PER
Université de Montréal
ORG


## Analisons!


In [48]:
for e in doc:
    print(e.text,e.lemma_,e.pos_)

Bonjour Bonjour PROPN
, , PUNCT
chers cher ADJ
amis ami NOUN
, , PUNCT
comment comment ADV
allez aller VERB
-vous vous PRON
? ? PUNCT
J' je PRON
espère espérer VERB
que que SCONJ
vous vous PRON
passez passer VERB
une un DET
bonne bon ADJ
journée journée NOUN
à à ADP
l' le DET
Université université NOUN
de de ADP
Montréal Montréal PROPN
