Site WWW de Laurent Bloch
Slogan du site

ISSN 2271-3905
Cliquez ici si vous voulez visiter mon autre site, orienté vers des sujets moins techniques.

Pour recevoir (au plus une fois par semaine) les nouveautés de ce site, indiquez ici votre adresse électronique :

Données et information
Article mis en ligne le 16 avril 2007

"http://www.w3.org/TR/REC-html40/loose.dtd">

Données et information

Données et information

Laurent Bloch




1. Données, codes, information



Les programmes informatiques manipulent et traitent des données ; à cette fin, les données doivent être codées. Le codage fait correspondre des groupes de bits à des symboles. Les symboles les plus simples sont les chiffres et les lettres. Pour représenter des informations complexes on peut définir des méthodes, des règles pour regrouper des symboles puis associer un élément de données à un groupe de symboles construit selon les règles. On appellera langage un ensemble de symboles ou de groupes de symboles, construits selon certaines règles, qui sont les mots du langage. La syntaxe du langage est l'ensemble des règles de construction des mots du langage. La signification (ou encore la sémantique) d'un mot d'un langage est affaire d'interprétation, et peut dépendre du contexte.

Les numéros d'immatriculation des automobiles, les numéros INSEE des personnes (dits faussement numéros de sécurité sociale), le langage machine d'un ordinateur sont des langages1.

La mémoire de l'ordinateur (c'est l'idée fondamentale de von Neumann) contient des informations de deux types : des programmes et des données. Les programmes et les données sont représentés avec les mêmes symboles, seule la sémantique permet d'interpréter leurs textes respectifs. D'ailleurs, le texte d'un programme peut parfois être envisagé comme des données pour un autre programme, par exemple un programme de traduction d'un langage dans un autre.



2. Transmettre des données



Le problème de base à résoudre pour concevoir et réaliser un système de transport de données, que ce soit un réseau d'ordinateurs ou un système de stockage, consiste à établir un échange de données entre deux automates. Ce problème se divise en deux parties : pour que les données circulent correctement elles doivent être représentées selon un codage approprié commun aux deux extrémités, et il y faut un support physique également approprié.

La position de ce problème remonte au moins à Aristote, qui a envisagé la communication d'information entre deux personnes en termes de message et de code. Incidemment, ce modèle est beaucoup mieux adapté à la communication entre ordinateurs qu'à la communication entre êtres humains, qui est extraordinairement compliquée par tout un contexte (culturel, social, sensoriel) et par des éléments non verbaux (expressions du visage, intonations de la voix) qui rendent ce modèle, dans ce cas, assez inapproprié. « Le langage travestit la pensée. Et notamment de telle sorte que d'après la forme extérieure du vêtement l'on ne peut conclure à la forme de la pensée travestie; pour la raison que la forme extérieure du vêtement vise à tout autre chose qu'à permettre de reconnaître la forme du corps2 ». Bref, pour les ordinateurs le modèle aristotélicien convient bien.

L'invention du téléphone a conduit à le formaliser sous le nom de « communication sur un canal bruité ». En effet il y a du bruit, c'est-à-dire qu'aucun canal de communication n'est parfait, certains éléments du message sont altérés ou perdus. Dans le cas du téléphone c'est tolérable jusqu'à un certain point, il en résulte quelques grésillements et bourdonnements ; Henrik Nyquist, dès les années 1920, et Claude Shannon[2] en 1948 ont posé les bases théoriques précises de ce que veut dire ici « jusqu'à un certain point », et ces bases constituent la théorie dite de l'information3. Il va sans dire que pour transmettre de l'information codée sous forme numérique, les altérations des messages sont beaucoup moins tolérables. Nous allons dire quelques mots très sommaires de la théorie de l'information.



3. L’information sous l’angle formel



Nous ne saurions omettre la mention d'une théorie formelle de l'information, même si le lecteur rebuté par les formules doit savoir qu'il pourra programmer toute sa vie en l'ignorant.

C'est en pensant aux systèmes de télécommunications que Henrik Nyquist et Claude Shannon ont élaboré cette théorie, mais des recherches ultérieures, notamment celles de von Neumann [1], en ont élargi la portée en la rattachant à la physique statistique par la notion d'entropie. Cette généralisation, qui dit que toute interaction entre deux systèmes peut être interprétée comme un signal porteur de message, fait de la théorie de l'information une théorie fondamentale au même titre que la théorie de la relativité ou la mécanique quantique.

Information et probabilités



Le transfert d'information dans un système de communication s'effectue par messages. Un message est une suite de signes (de symboles) tirés d'un alphabet. L'ensemble S = {m1 ... mi ... mn} des messages que l'on peut former à l'aide d'un alphabet donné constitue une source (discrète) de messages : un texte est une suite de messages.

La notion d'information est liée à l'ignorance du destinataire quant aux messages émis depuis S : il n'y a apport d'information que si le destinataire ignore le contenu du message qu'il va recevoir. L'incertitude, quant à la teneur du message, est d'autant plus grande que le message a une faible probabilité d'être émis ; inversement, la réception de ce message contribue à lever une incertitude d'autant plus grande, et apporte donc une plus grande quantité d'information ; ainsi apparaît une relation entre la quantité d'information d'un message mi et sa probabilité d'émission, pi, relation représentée par la fonction logarithmique suivante4 :

I(mi) = logα(1/pi) = − logαpi


I étant l'incertitude, ou l'information, α le nombre de symboles de l'alphabet utilisé. On en déduit immédiatement que la valeur de l'unité d'information en base α est celle d'un message de probabilité 1/α. On prend généralement α = 2, l'unité correspondante étant le bit.

Pour donner un contenu plus facile à retenir à la formule ci-dessus, on peut utiliser les logarithmes décimaux, et regarder la quantité d'information transmise par un message émis avec une certaine probabilité :
probabilité d'émission quantité d'information
p1=1 I(m1) = log10 (1/p1) = − log10 1 = 0
p2=0,1 I(m2) = log10 (1/p2) = − log10 10−1 = +1
p3=0,01 I(m3) = log10 (1/p3) = − log10 10−2 = +2
... ...

Cette définition probabiliste de la quantité d'information d'un message montre qu'elle dépend avant tout de la source de messages utilisée ; cette dernière peut être caractérisée par une quantité d'information (ou incertitude) moyenne, d'après l'expression :
H(S) = −
n
Σ
i=1
pi × logαpi
qui permet d'évaluer a priori la quantité moyenne d'information que peut fournir un message ; sa valeur est maximale pour des messages équiprobables. Cette grandeur a la même forme que l'entropie thermodynamique et on l'appelle entropie de S.

L'entropie permet d'évaluer la richesse informationnelle d'un texte : Shannon a montré que si l'information moyenne d'un alphabet de 27 signes équiprobables était : log2 27 = 4,75 bits/lettre, le contenu d'un texte anglais ordinaire n'était que de 1 bit/lettre, soit une redondance de : 1 − 1/4,75 , ou 80% de signes inutiles. Des calculs de cette forme sont effectués par les logiciels d'analyse de séquences biologiques.

References

[1]
John von Neumann. The Computer and the Brain. Yale University Press, New Haven, Connecnicut, 1957. Traduction française : La Découverte, Paris 1992.
Ce texte d'une conférence que la mort de l'auteur a empêché d'être prononcée réfute le réductionnisme qui fleurit souvent sous de tels titres, énumère les différences fondamentales entre l'activité du cerveau et le fonctionnement des machines numériques, ouvre de nouvelles problématiques sur des questions rebattues telle que l'existence des objets de la mathématique et de la logique.

[2]
Claude E. Shannon. << A mathematical theory of communication >>. Bell System Technical Journal, 27, p. 379-423 et 623-656, juillet et octobre 1948. Disponible en ligne ici : http://cm.bell-labs.com/cm/ms/what/shannonday/shannon1948.pdf.

Index

  • Neumann, John von, ??, ??
  • Neumann, John von, ??
  • Nyquist, Henrik, ??

  • probabilité, ??, ??, ??, ??

  • Shannon, Claude, ??
  • Shannon, Claude, ??
  • sémantique, ??
  • syntaxe, ??

  • Volle, Michel, ??

  • Wittgenstein, Ludwig, ??


1
La suite nous réserve un raffinement plus grand de la notion de langage.
2
Voir Wittgenstein, Tractatus logico-philosophicus, [].
3
Michel Volle me fait remarquer que cette expression consacrée par l'usage est malheureuse, il serait plus approprié de dire « théorie de la communication », conformément d'ailleurs au titre de l'article de Shannon, A mathematical theory of communication, (Bell System Technical Journal, vol. 27, juillet et octobre 1948)[2], ou « théorie des données ». L'ordinateur, ou le réseau de communication, contiennent et transmettent des données, qui ne deviennent de l'information que dans l'esprit d'un être humain, capable (et lui seul en est capable) de leur donner un sens. Voir à ce sujet http://www.volle.com/ulb/021115/textes/vocabulaire.htm.
4
On rappelle que par définition le logarithme de base α de x, noté logαx, est le nombre m tel que αm = x. On vérifie que logαα = 1 et que, indifféremment à la valeur de α, log1 = 0 et log(a × b) = loga + logb. Cette dernière propriété, très intéressante puisqu'elle permet, avec une table de logarithmes, de faire des multiplications même si on ne connaît que la table d'addition, est (était ?) le principe de base de la règle à calcul, qui n'est pas autre chose qu'une table de logs en plastique.

This document was translated from LATEX by HEVEA.