Des graphes… aux mots, conclusion

Voici la conclusion de mon talk de Que Du Web 2017 à Deauville.

Je repasse en accéléré ce qu’on a vu le semaine précédentes, et on en tire les leçons.


(Voir la vue d’ensemble de la présentation avec tous les épisodes)

Les slides correspondants :

Le transcript (très résumé et simplifié)

Conclusion:

On n’a rien inventé.
Beaucoup de procédés qui semblent modernes, sont en fait vieux comme le monde.
L’information, la connaissance semblent s’organiser naturellement en arbre et en graphe.
C’est une représentation qui permet d’appréhender plus facilement la complexité de certains phénomènes.
Et il ne faut pas toujours chercher à réduire cette complexité à une moyenne, à un chiffre, à un un tableau de chiffres, à des stats.
C’est peut être plus rassurant, mais c’est faux.
Voir l’exemple du Textrank, où le graphe capture plus de relations entre les mots que des modèles purement statistiques.
Qui sait ce que représente cette image ?

On est en 1859, et Darwin publie « de l’origine des espèces »
Un livre de 300 pages, qu’il veut grand public et pas uniquement réservé aux spécialistes.
Et il insiste pour y inclure un graphe, son « arbre de la vie » dont on voit ici une esquisse.

Et c’est la SEULE illustration de tout l’ouvrage.
Une représentation tellement parlante, qu’il ne peut pas exprimer sa pensée autrement.
Aujourd’hui, on sait que non seulement les graphes sont en phase avec la façon dont fonctionne notre cerveau (relations, analogies, liens, symboles).
Mais qu’il sont également, on l’a vu avec Léonard Euler, un outil mathématique puissant, qui permet de faire des choses que d’autres branches des mathématiques ne permettaient pas de faire.
On peut donc les appliquer à des problèmes concrets, comme l’analyse de textes, ou de structure de sites web.
Au delà d’une représentation visuelle « artistique », ces graphes reflètent des propriétés essentielles des objets qu’ils modélisent.

Voilà, j’espère vous avoir intrigué assez pour vous donner envie de creuser, expérimenter, et poser plein de questions !
Merci !

2 réflexions au sujet de « Des graphes… aux mots, conclusion »

  1. Salut Sylvain,
    C’est une superbe série. Une modélisation capable de capter de façon naturelle ce qui n’est pas visible.
    A essayer sur la poésie, sur les arguments des groupes politiques ?
    A essayer aussi d’autres « unités de base »? Dans ton exemple c’était la phrase car c’est logique et il faut bien partir de quelque part. Mais certains font des phrases de 8 lignes et autres de 1.
    Merci et bonne soirée 🙂

    Répondre

    1. Merci Victor !

      Effectivement, le choix de la brique de base est crucial et conditionne les propriétés qui vont ressortir, la facette qu’on examine.

      C’est la même chose pour des mesures de distance de texte : un coefficient de Jaccard par exemple, travaille sur des éléments d’un « ensemble ».
      Sans plus de précision.
      On peut considérer des ensemble de lettres, de mots, de 2-grams… ça sera toujours un Jaccard, mais qui va synthétiser des choses bien différentes.

      A la base, il faut donc toujours se poser la question de ce qu’on veut trouver, et sélectionner les « encodages » candidats en fonction.
      Sans oublier de déborder un peu du raisonnable, car on a parfois de bonnes surprises 🙂

      Répondre

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *