Retrouvez cet article dans : Misc 20
1  Les débuts de la quantification de l'information
Le problème était dans l'air dans l'entre-deux-guerres, étant donné l'essor considérable des communications radio et les problèmes de fiabilité des transmissions récurrents qui résultaient de ce canal de transmission particulier. Les ingénieurs cherchaient à modéliser ce qui se passait afin d'être capable de rendre les transmissions plus fiables sans accroître la complexité de la transmission. Un des premiers à avoir tenté de définir et de quantifier l'information est R. V. L. Hartley. Dans les années 20, il publia un article " Transmission of information ". Il y introduisait une mesure simple de l'information, séduisante et pratique. Supposons qu'un émetteur souhaite envoyer un message de n lettres, par exemple en français à une personne située à l'autre bout du récepteur. Comme notre alphabet dispose de 26 lettres, sans compter la ponctuation, les lettres accentuées, ni les espaces, il aurait exactement 26 possibilités pour chaque lettre choisie. Donc, parmi lesI = log2 26nIl s'agit de la valeur du logarithme en base 2 du nombre de valeurs possibles du message. En utilisant les propriétés de la fonction logarithme, si l'on considère un message formé de
I = log2 26m+n = log2 26m + log2 26nPourtant, l'information du message total correspond bien à la somme des informations de bouts qui forment le message. La mesure de Hartley s'avère adaptée à un certain nombre de problèmes. Je reprends un exemple inspiré des notes de cours de James Massey [1]. Supposons que l'on veuille attribuer un numéro d'identification unique à 4 personnes distinctes et de la manière la plus concise possible. Comment peut-on faire ? Quel est le nombre minimum de symboles d'information que l'on va devoir utiliser ? Si l'on en croit Hartley, dans notre cas, l'information vaut
- 00 à la première personne ;
- 01 à la seconde ;
- 10 à la troisième ;
- 11 à la quatrième.
- En Français, comme dans toute autre langue, il y a des lettres plus fréquentes que d'autres. Par exemple, hormis dans La Disparition de Georges Perec, la lettre " e " est la lettre la plus fréquente, puis le " s " et enfin la lettre " k " est une des moins fréquentes. Donc, si au cours du message nous recevons un " k ", l'information véhiculée par le " k " sera plus importante que celle véhiculée par la lettre " e ". En effet, il y a beaucoup moins de mots en français qui contiennent un " k " que de mots qui contiennent un " e ". Or, avec la mesure de Hartley, chaque lettre vaut la même quantité d'information égale à log2 26 = 4,7. Si l'on considère une autre langue, on peut reprendre la même analyse et on obtiendra des valeurs différentes suivant le nombre de lettres considérés.
- De même, si nous recevons la lettre " q ", alors nous savons qu'il est extrêmement probable que cette lettre soit suivie par la lettre " u ", donc nous pouvons prédire avec une grande probabilité que la lettre suivante sera la lettre " u ". L'information propre véhiculée par la lettre " u " qui suit " q " sera donc plus faible que dans le contexte où la lettre " u " serait reçue, mais précédée de la lettre " o ".
- En dernier ressort, il est clair que la quantité d'information apportée dépend du moment de la réception de cette information. C'est un peu le syndrome du scoop du journaliste pour lequel l'information n'a sa plus grande valeur que s’il est le premier à l'apporter. Une fois divulguée, c'est-à -dire une fois connue, l'information apportée est nulle.
2  Shannon et l'avènement de la théorie de l'information
Je ne reviendrai pas sur la biographie de Shannon mort en janvier 2001. Pour plus de précisions, on pourra se référer au livre de Jérôme Segal [2]. L'article fondateur de la théorie de l'information actuelle fut un rapport de recherche daté de 1948 et intitulé " A Mathematical Theory of Communication ". Depuis toujours Shannon, ingénieur de formation, s'intéressait aux mathématiques dans un but précis : celui d'élaborer une théorie mathématique de la communication. La Seconde guerre mondiale le mit en relation avec des mathématiciens de grande envergure tels Turing et Von Neumann qui, sans doute, lui apportèrent beaucoup. Puis, vint en 1948 ce fameux article qui fit au départ grand bruit dans la communauté des ingénieurs en communication, puis dans toutes les communautés qui s'intéressaient à la notion d'information. La théorie de Shannon permettait désormais de répondre quantitativement à des problèmes qui, jusqu'alors, se posaient de manière qualitative. Si sa théorie fut si vite adoptée, c'est en partie parce qu'elle battait en brèche un certain nombre d'idées reçues et permettait sur un plan prospectif d'envisager des développements technologiques considérables. L'idée initiale de Shannon que reflète la manière dont il s'est attaqué à la théorie et les outils mathématiques utilisés est la suivante. Je reprends ici une phrase de J. Massey [1] : For Shannon information is what we receive when uncertainty is reduced. Soit : " Pour Shannon, l'information est ce que l'on obtient quand l'incertitude est réduite. " Comme les théories mathématiques mises en jeu sont délicates à introduire, nous nous contenterons de prendre un exemple pour effleurer l'aspect novateur de la conception de Shannon. Supposons qu'un référendum doive avoir lieu dans un certain pays. La question que l'on pose aux électeurs est une question à laquelle ils doivent répondre par " oui " ou bien par " non ". Tant que le vote n'a pas eu lieu, le résultat est incertain. A priori, sans aucune information additionnelle, il y a 50% de chances que le " oui " l'emporte et 50% que le " non " l'emporte. On cherche donc des moyens de réduire l'incertitude a priori, c'est-à -dire avant de connaître le résultat du vote. Un moyen très employé est de commanditer des sondages. Supposons que l'on a accès au dernier sondage pré-électoral qui donne le " non " vainqueur avec 54% des voix par rapport au " oui " qui n'obtiendrait lui qu'un misérable 46%. Ce sondage apporte une certaine quantité d'information additionnelle par rapport au choix de départ qui plaçait les deux issues du scrutin à 50-50. La probabilité que le " non " l'emporte est désormais plus élevée et un renversement de situation est plus improbable. Le sondage m'a donc apporté une quantité d'information me permettant de réduire mon incertitude en fonction du scrutin et permet également à Mme Soleil de pouvoir prédire l'avenir de façon plus fiable. C'est de cette manière que Shannon considère l'information. Celle-ci correspond à une diminution de l'incertitude sur ce que l'on sait a priori. Revenons à la mesure de cette incertitude à savoir, comment la quantifie-t-on ? Il est clair que dans le cas où le " oui " et le " non " sont à 50-50, l'incertitude sur le résultat du scrutin est maximale. En revanche si on a 46-54 après le sondage, le résultat est moins incertain et les partisans du " oui " peuvent par avance aller noyer leur chagrin dans l'alcool. D'un point de vue quantitatif, nous devons donc déterminer une fonction mathématique qui permette de mesurer l'incertitude. À l'issue du scrutin, l'incertitude sur le résultat est nulle puisque celui-ci est désormais connu. Afin de mesurer cette incertitude, nous devons donc définir une fonction mathématique qui vérifie déjà les propriétés suivantes :- Être maximale quand l'incertitude est maximale.
- Être nulle quand il n'y pas d'incertitude sur le résultat.
H = - p log2 (p) - (1-p) log2(1-p)où
- Cas où l'on n'a pas l'information des sondages a priori.
Hpas d'info = - ( 0,5 log2 0,5 + 0,5 log2 0,5) = 1
- Cas où le sondage nous donne " oui " à 46% et " non " à 54%.
Hsondage = - (0,46 log2 0,46 + 0,54 log2 0,54 ) = 0,9915
- Cas où le résultat " non " est connu, après le scrutin.
Hscrutin = 0L'incertitude sur le résultat est donc nulle. Cet aspect corrobore donc la logique. Plus on a d'information, moins l'incertitude est grande et c'est bien ce que l'on recherchait. Partant, l'information obtenue correspond à la différence des incertitudes mesurées avant l'apport d'information par rapport à l'incertitude que l'on détient une fois que l'information aura été reçue. En effet, mettons que je n'aie accès à aucun sondage, alors l'information reçue sera mesurée par :
I1 = Hpas d'info - Hscrutin = 1 bitSi j'ai accès au sondage, alors le résultat du scrutin me fournira légitimement moins d'information puisque je m'attendrai à une victoire du non. Dans ce cas, l'information obtenue sera :
I2 = Hsondage - Hscrutin = 0,9915 bitLa quantité d'information que m'apporte le sondage par rapport à mon hypothèse de départ est donc
3  L'impact de la théorie de Shannon
Je me rappelle encore de ce jour de janvier 2001 lorsque, aux informations à la radio entre deux chansons et quelques faits divers, le présentateur dit qu'un certain bonhomme du nom de Claude Shannon était mort et que c'était quelqu'un qui avait fait des découvertes importantes en informatique. Cet encart dura au mieux quelques secondes, puis fut rapidement oublié dans la chanson qui suivit. Il demeure assez étonnant que le nom de Shannon ne soit connu que des initiés tandis que l'impact de sa théorie fut et reste immense, tant dans le domaine de la transmission et de la sauvegarde de l'information que dans le domaine de la protection de l'information. Au-delà même du fait d'avoir défini la notion d'information en termes mathématiques et fourni les moyens de la mesurer, l’œuvre de Shannon démontre la force de la théorie au service de l'ingénierie. Cette force a pu se mesurer dans les développements faramineux de l'information numérique depuis plus de 50 ans. En outre, les résultats de Shannon ont, d'une part, bouleversé des idées reçues et, d'autre part, réorienté la recherche appliquée vers des pans jadis négligés des mathématiques. L'arithmétique et l'algèbre un peu délaissées jusqu'alors ont repris droit de cité aux côtés des autres disciplines mathématiques comme l'analyse et la théorie des probabilités qui sous-tendent les théories de la physique. Dans l'article fondateur de Shannon, les bombes qui firent grand bruit et bousculèrent les préjugés ont pour nom " Théorèmes de Shannon ". En bref, voici ce que cela donne. Une communication entre deux personnes se modélise par un canal de transmission sur lequel on applique des perturbations, que l'on appelle " bruit ". Le canal peut être une fibre optique ou bien tout simplement l'air, pour les ondes radio, ou tout autre support. Ce qui importe est de pouvoir transmettre fidèlement de l'information au travers de ce canal de telle manière que la personne qui reçoit cette information puisse correctement l'interpréter. Chaque signal émis sur le canal correspond à une quantité d'énergie dépensée. Avant Shannon, il était communément admis que, si le récepteur avait des problèmes d'interprétation de l'information à cause d'un bruit trop important, il suffisait d'augmenter l'énergie du signal pour pallier le problème. Shannon a prouvé que cela était faux et que l'on pouvait associer au canal de transmission une grandeur dénommée capacité, spécifiant la quantité maximum d'information que l'on peut transmettre au travers du canal par unité de temps. Il a également démontré qu'il était possible, du moins en théorie, de transmettre l'information à un taux égal à la capacité du canal en l'encodant proprement. De là sont nées deux disciplines désormais bien établies :- Le codage de source : Le principe consiste à mesurer la quantité d'information véhiculée par un médium – message, fichier, image, son numérisé ou autre. Cette mesure permet d'élaborer des algorithmes de compression efficaces comme par exemple le codage entropique, codage de Huffman et plus généralement n'importe quel type d'algorithme de compression de texte, d'image ou bien de son. Ainsi, on réduit l'encombrement du médium en transmission ou bien en stockage.
- Le codage de canal : Le principe du codage de canal consiste à préserver l'intégrité du médium transmis à travers un canal, en présence de bruit. On rajoute à l'information ce que l'on appelle de la redondance. Il faut en rajouter un minimum, mais suffisamment tout de même pour que le récepteur puisse retrouver de manière fiable le médium envoyé, malgré les perturbations liées au bruit. La quantité de redondance minimale à ajouter est définie par la capacité du canal. Bien que Shannon eût montré qu'il était possible en théorie d'atteindre ce minimum, en pratique, construire de tels codes optimaux reste un problème ouvert. On peut tenter néanmoins d'approcher ce minimum. Pour ce faire, on utilise des objets algébriques appelés codes correcteurs d'erreurs, qui permettent comme leur nom l'indique de corriger des erreurs ajoutées. Les exemples les plus classiques sont les codes de Hamming utilisés dans la mémoire ECC et qui corrigent une erreur, les codes de Reed-Muller utilisés par les premières transmissions satellites, les codes de Reed-Solomon que l'on retrouve dans les CD-ROM et qui font en sorte qu'un CD reste lisible malgré des griffures à sa surface et puis les codes convolutifs que l'on trouve dans les téléphones portables et puis...
- [1] Massey (J.)Â , Applied digital information theory. http://www.isi.ee.ethz.ch/education/public/Free_docs.en.html
- [2] Segal (J. ), Le Zéro et le Un : Histoire de la notion scientifique d'information au 20ème siècle, 2003.
 Retrouvez cet article dans : Misc 20





Donnez votre avis
Vous devez avoir ouvert une session pour écrire un commentaire.