# Le texte numérique


Qu'est-ce qu'un texte numérique?

Tout d'abord comprenons la différence entre:

- plein texte
- autres formats


## Ascii

128 caractères sur 7 bits (le 8e est à 0)

![Utf8](https://bournetocode.com/projects/GCSE_Computing_Fundamentals/pages/img/ascii_table_lge.png)

In [3]:
mon_texte = "f"
mon_texte = bytes(mon_texte, 'ascii')

In [4]:
for i in mon_texte:
    print(i)
    print(bin(i))

102
0b1100110


Mais si:

In [5]:
mon_texte = "é"
mon_texte = bytes(mon_texte, 'ascii')
for i in mon_texte:
    print(i)
    print(bin(i))

UnicodeEncodeError: 'ascii' codec can't encode character '\xe9' in position 0: ordinal not in range(128)

## iso-8859

256

Mais... pas de Œ, œ, Ÿ, et le signe €

In [10]:
mon_texte = "œ"
mon_texte = bytes(mon_texte, 'iso-8859-1')

UnicodeEncodeError: 'latin-1' codec can't encode character '\u0153' in position 0: ordinal not in range(256)

In [9]:
for i in mon_texte:
    print(i)
    print(bin(i))

233
0b11101001


## UTF-8

1 à 4 octets 

In [22]:
mon_texte = "œ"
mon_texte = bytes(mon_texte, 'utf-8')
for i in mon_texte:
    print(i)
    print(bin(i))

197
0b11000101
147
0b10010011


## Traitement de texte

![](http://vitalirosati.net/slides/img/traitement-de-texte-rouge.png)

### À quoi sert un ordinateur?

- à calculer
- à enregistrer?
- à écrire?
- documenter le code

### Les machines à écrire
Pourquoi ne pas utiliser une machine à écrire?

- parce qu’on écrit aussi du code
- pour enregistrer

![Avant Word](http://vitalirosati.net/slides/img/word_processorEP.jpg)


### Écrire du code et de la doc, enregistrer et imprimer.

- 1976 Electric Pencil (Michael Shrayer)
- 1979 Easy Writer - John Thomas Draper
- 1979 WordStar: WYSYWYG - car notion de page
- L’ordinateur pour tous - 1984
- 1983 Word



### Les principes

- interface graphique
- imprimé
- bureautique
- format=software

### Les effets

- la “désintermédiation”
    - perte de compétences
- la perte de contrôle
- la perte d’utilité (utiliser un ordinateur comme une machine à écrire)

## Et si on balisait nous-mêmes?

- html
- xml
- md
- tex
- ...

In [11]:
mon_texte = '''
[TOC]

# Titre

Nous allons faire un *essai*. Par exemple:

Une liste numérottée:

1. une chose
2. deux choses
3. trois _choses_

## Titre 2

## Titre 3

### Titre 3.2

'''


In [12]:
import markdown

In [13]:
mon_texte = markdown.markdown(mon_texte, extensions=['toc'])

In [26]:
print(mon_texte)

<div class="toc">
<ul>
<li><a href="#titre">Titre</a><ul>
<li><a href="#titre-2">Titre 2</a></li>
<li><a href="#titre-3">Titre 3</a><ul>
<li><a href="#titre-32">Titre 3.2</a></li>
</ul>
</li>
</ul>
</li>
</ul>
</div>
<h1 id="titre">Titre</h1>
<p>Nous allons faire un <em>essai</em>. Par exemple:</p>
<p>Une liste numérottée:</p>
<ol>
<li>une chose</li>
<li>deux choses</li>
<li>trois <em>choses</em></li>
</ol>
<h2 id="titre-2">Titre 2</h2>
<h2 id="titre-3">Titre 3</h2>
<h3 id="titre-32">Titre 3.2</h3>


In [27]:
import IPython
IPython.display.HTML(mon_texte)

## Prendre un texte d'un fichier

Admettons de vouloir ouvrir le fichier qui s,appelle 01numerique.md (!!!ATTENTION AU CHEMIN!!!)

In [14]:
with open('01numerique.md', 'r') as mon_fichier:
    mon_texte = mon_fichier.read()

In [15]:
mon_texte

'# Numérique, modélisation et algorithmes\n\n\n\n## Un mot très utilisé\n\nD\'abord un adjectif, ensuite le mot est substantivé et commence à signifier un ensemble très hétérogène de choses. Il devient finalement une étiquette pour parler de notre époque.\n\n```{admonition} Prudence...\n:class: caution\nSignification floue\n```\n\nOn regroupe sous le chapeau de "numérique" un ensemble de choses, environnements, techniques, pratiques très différentes en les mettant toutes ensemble comme si elles étaient une unité.\n\n```{admonition} Danger\n:class: danger\nEssentialisation\n```\n\n## Le numérique au sens propre du terme\n\n\nReprésentation de la réalité via des éléments discrets et atomiques qui correspondent à des nombres naturels.\n\n::: {attention}\nS’oppose à analogique: représentation du réel via un signal continu, “analogue” au réel.\n:::\n\n![Numérique et analogique](http://www.bedwani.ch/electro/ch23/image88.gif)\n\n\n## La modélisation du monde\n\n### Trois étapes:\n\n\n- modèl

## Manipulons un peu ce texte!

Tout d'abord divisons-le en lignes:

In [19]:
liste_lignes = mon_texte.split('\n')

In [21]:
for ligne in liste_lignes:
    print(ligne)


# Numérique, modélisation et algorithmes



## Un mot très utilisé

D'abord un adjectif, ensuite le mot est substantivé et commence à signifier un ensemble très hétérogène de choses. Il devient finalement une étiquette pour parler de notre époque.

```{admonition} Prudence...
:class: caution
Signification floue
```

On regroupe sous le chapeau de "numérique" un ensemble de choses, environnements, techniques, pratiques très différentes en les mettant toutes ensemble comme si elles étaient une unité.

```{admonition} Danger
:class: danger
Essentialisation
```

## Le numérique au sens propre du terme


Représentation de la réalité via des éléments discrets et atomiques qui correspondent à des nombres naturels.

::: {attention}
S’oppose à analogique: représentation du réel via un signal continu, “analogue” au réel.
:::

![Numérique et analogique](http://www.bedwani.ch/electro/ch23/image88.gif)


## La modélisation du monde

### Trois étapes:


- modèle représentationnel
   - donner une des

Maintenant imprimons toutes les lignes qui contiennent un mot... par exemple "Turing"

In [22]:
for l in mon_texte.split('\n'):
    if 'Turing' in l:
        print(l)


   - implémenter le calcul fonctionnel dans une machine de Turing réelle.
## La machine de Turing
[Jouez avec une machine de Turing virtuelle](https://interstices.info/comment-fonctionne-une-machine-de-turing/)


Et si on veut savoir à quelle ligne se trouve le mot?

In [23]:
for i, l in enumerate(mon_texte.split('\n')):
    if 'Turing' in l:
        print(i)
        print(l)


45
   - implémenter le calcul fonctionnel dans une machine de Turing réelle.
72
## La machine de Turing
74
[Jouez avec une machine de Turing virtuelle](https://interstices.info/comment-fonctionne-une-machine-de-turing/)


On pourrait aussi le transformer en une liste de mots, non?

In [24]:
ma_liste = []
for mot in mon_texte.split(' '):
    ma_liste.append(mot)

In [25]:
ma_liste

['#',
 'Numérique,',
 'modélisation',
 'et',
 'algorithmes\n\n\n\n##',
 'Un',
 'mot',
 'très',
 "utilisé\n\nD'abord",
 'un',
 'adjectif,',
 'ensuite',
 'le',
 'mot',
 'est',
 'substantivé',
 'et',
 'commence',
 'à',
 'signifier',
 'un',
 'ensemble',
 'très',
 'hétérogène',
 'de',
 'choses.',
 'Il',
 'devient',
 'finalement',
 'une',
 'étiquette',
 'pour',
 'parler',
 'de',
 'notre',
 'époque.\n\n```{admonition}',
 'Prudence...\n:class:',
 'caution\nSignification',
 'floue\n```\n\nOn',
 'regroupe',
 'sous',
 'le',
 'chapeau',
 'de',
 '"numérique"',
 'un',
 'ensemble',
 'de',
 'choses,',
 'environnements,',
 'techniques,',
 'pratiques',
 'très',
 'différentes',
 'en',
 'les',
 'mettant',
 'toutes',
 'ensemble',
 'comme',
 'si',
 'elles',
 'étaient',
 'une',
 'unité.\n\n```{admonition}',
 'Danger\n:class:',
 'danger\nEssentialisation\n```\n\n##',
 'Le',
 'numérique',
 'au',
 'sens',
 'propre',
 'du',
 'terme\n\n\nReprésentation',
 'de',
 'la',
 'réalité',
 'via',
 'des',
 'éléments',
 'di

## Regex en python

Tutoriel ici https://www.datacamp.com/community/tutorials/python-regular-expression-tutorial

Et la doc: https://docs.python.org/3/howto/regex.html

In [26]:
import re

In [27]:
print(re.search(r'Numérique', mon_texte).group())

Numérique


In [28]:
mon_dialogue = '''
Pierre: Bonjour!

Marie: Salut!

Pierre: Comment vas-tu?

Marie: Bien! Et toi?
'''

In [29]:
repliques_pierre = re.search(r'(Pierre: )(.*)', mon_dialogue)

In [30]:
repliques_pierre.group(2)

'Bonjour!'

In [31]:
repliques_pierre = re.findall(r'(Pierre: )(.*)', mon_dialogue)

In [32]:
repliques_pierre

[('Pierre: ', 'Bonjour!'), ('Pierre: ', 'Comment vas-tu?')]

Plus intéressant...

In [33]:
repliques = re.findall(r'(.*): (.*)', mon_dialogue)

In [34]:
repliques

[('Pierre', 'Bonjour!'),
 ('Marie', 'Salut!'),
 ('Pierre', 'Comment vas-tu?'),
 ('Marie', 'Bien! Et toi?')]

In [35]:
repliques_pierre=[]
for prenom, replique in repliques:
    if prenom == 'Pierre':
        repliques_pierre.append(replique)

In [37]:
repliques_pierre

['Bonjour!', 'Comment vas-tu?']

In [38]:
# je vais chercher les titres dans mon document
re.findall(r'## (.*)', mon_texte)

['Un mot très utilisé',
 'Le numérique au sens propre du terme',
 'La modélisation du monde',
 'Trois étapes:',
 'Les “limites” de la machine?',
 '[Un exemple de modélisation simple](modelisation.ipynb)',
 'Les algorithmes',
 'La machine de Turing',
 '[Modèles et algorithmes](modelisationamour)']