Pourquoi faut-il un bon échantillonnage pour reconstruire une phylogénie?

Posté par Timothée le 12 May 2008 | , , , , ,

Ne nous y trompons pas, je ne vais pas faire un billet long et exhaustif sur le sujet, ni même entrer trop dans les détails de comment on procède pour inférer une phylogénie, c’est à dire les “liens de ressemblance”[1] entre les êtres vivants (et c’est bien dommage, mais je n’ai pas le temps… j’ai passé une demi heure à retrouver mon mac perdu sous 30cm de papiers qui jonchent mon bureau, ou presque). Je vais seulement illustrer par un petit exemple ce qui se passe quand on essaie de le faire à partir de trop peu d’espèces.

Je confesse que la préparation de ce billet ne m’a pas mangé trop de temps : j’ai ouvert mon fichier de séquences, j’en ai extrait 7, fait un arbre, et idem avec l’ensemble des séquences de mon petit genre à moi. Les séquences que j’ai pris sont celles du gène du 18S rRNA), parce que c’est le seul marqueur dont on dispose à l’heure actuelle — pour toutes les espèces, et c’est justement le point important de ce billet —, qu’il s’aligne bien entre espèces, tout en étant assez discriminant.

Pour information, les noms des espèces sont tronqués à 10 caractères, puisque le fichier de base est en format Phylip, qui impose cette restriction.

Quelques remarques avant de commencer : je n’avais pas le temps de me lancer dans une analyse très poussée, autrement dit, je n’ai pas bouffé du temps de calcul à déterminer le meilleur modèle, ni paramétré outre mesure PhyML[2], utilisé pour reconstruire les arbres[3]. Dès que j’aurais fini mon stage, je promet de consacrer un billet à expliquer comment j’aurais dû faire ces analyses dans les règles de l’art, en présentant en plus quelques outils bien libres, bien online, bien geeky.

Arbre avec 6 espèces et un extra-groupeLe vif du sujet, maintenant. Pour mon premier arbre, j’ai sélectionné de manière aléatoire ou presque (cliqué un peu au pif dans mes séquences) 6 espèces de Lamellodiscus, et l’extra-groupe (je reviendrai sur le billet sus-mentionné dans son rôle). D’un point de vue purement descriptif, on voit que deux groupes se forment (on laisse tranquille ‘D._aequans’, qui sert a enraciner l’arbre), comprenant chacun trois espèces. Les valeurs indiquées à la jonction de deux branches sont les valeurs de bootstrap. Plus elles sont proches de 1000, plus elles indiquent qu’on peut avoir confiance dans ce noeud. Par exemple, le noeud (L._knoeppf/L._ergensi), avec une valeur de 896 (89,6%) est relativement solide.

On va s’intéresser au groupe “du bas”, pour commencer, soit (L._elegans(L._drummon/F._echenei))[4]. On remarque que L._elegans est à la base de ce groupe, avec une valeur de soutien est 664 (ce qui est bien mais pas top, pourrait-on dire). Ce qui doit nous faire penser que L._elegans est “plus ancien” que ses deux comparses. Retenez bien cette information, c’est important pour la suite.

Dans le groupe du haut, maintenant, on voir que L._knoeppf et L._ergensi sont proches, et qu’a priori, au vu de la valeur de bootstrap, on peut avoir confiance en cette proximité.

Arbre completOn passe maintenant à l’arbre que j’ai patiemment reconstruit (ça reste assez passif comme méthode, l’algorithme de Guindon & Gascuel a fait le gros du travail), que vous pouvez voir à gauche de ce paragraphe. Si je n’avais pas été une parfaite feignasse — et que j’avais eu un peu plus de temps — j’aurais bien pu mettre les espèces du premier arbre en gras, mais vous pouvez toujours vous amuser à les chercher…

On va s’intéresser aux caractéristiques importantes de ce nouvel arbre, et surtout à la position de L._elegans. Et la surprise, au lieu d’être à la base de son groupe, il se retrouve en position terminale (4ème position en partant du haut). Comment est-ce possible? Facile, il a été victime de l’attraction des longues branches dans le premier arbre, et on a rompu cette attraction en ajoutant des taxons dans le second arbre[5]! Certains méthodes de reconstruction phylogénétique ont tendance à regrouper les espèces qui évoluent vite, partant du principe que plus on a accumulé de mutations, plus on a eu de temps pour le faire, ergo on va aller se brancher très près de la racine de l’arbre. Or, rien ne dit qu’on ne soit pas en train d’observer un taxon qui évolue rapidement, et qui dans le même temps que ses petits collègues, va accumuler 2, 3, 10 fois plus de mutations. Et pour le savoir, il est nécessaire de faire l’analyse en incorporant des taxons proches de celui qu’on suspecte avoir subi cette attraction.

Et de fait, dans notre cas, L._elegans n’est pas un taxon ‘ancestral’, mais bien un petit malin qui s’amuse a évoluer plus rapidement que ses petits camarades. Et la place de L._elegans en tant que racine du petit groupe contenant L._drummon/F._echenei est maintenant occupée par L._virgula[6].

De manière plus anecdotique, on remarque qu’entre L._ergensi et L/_knoeppf, qui étaient pourtant voisins dans l’arbre précédent, L._fratern est venu s’intercaler.

Que retenir de ce petit exemple?

D’une part, qu’une phylogénie à laquelle il manque beaucoup de taxons est soumise à des artefacts de reconstruction, et donc n’a qu’une valeur toute relative.

D’autre part, que les valeurs de bootstrap ne signifient pas que le noeud est fiable : elles ne font que nous dire, qu’avec les données dont on dispose, ce noeud est robuste. Robustesse et fiabilité ne sont pas la même chose, et il faut y faire attention.

Tout ça pour dire qu’un travail de bon vieux naturaliste est nécessaire, pour caractériser au mieux la diversité des groupes qu’on étudie, mais qu’il faut aussi un travail important de séquençage, pour reconstruire des histoires évolutives les plus précises possibles. Ce que je m’empresse de retourner faire…

Partagez :
  • Digg
  • del.icio.us
  • Facebook
  • Google
  • blogmarks
  • BlogMemes Fr
  • StumbleUpon
  • Technorati
  • TwitThis
  • connotea
  • e-mail
  • Live
  • Reddit
  • Scoopeo
  • Slashdot

Notes

  1. A la différence de la “généalogie”, qui travaille sur les liens de parentés []
  2. J’ai utilisé la version locale, avec 1000 réplicats de bootstrap, une méthode qui permet de vérifier la “solidité” de l’arbre, ce qui a tendance a demander un temps de calcul assez important sur mon MacBook []
  3. Je m’en veux beaucoup, je pense que ça mérite amplement d’aller brûler en enfer pour plusieurs éternités tellement c’est un affront à ceux qui m’ont patiemment enseigné la phylogénie []
  4. Furnestinia echeneis est un parasite d’un autre genre, mais qui d’un point de vue moléculaire appartient aux Lamellodiscus. Il a d’ailleurs été répertorié un peu vite comme Lamellodiscus echeneis par MarBEF. []
  5. C’est à ce moment la que j’avoue un léger biais dans mon échantillon de départ… Mais c’était pour le bien de ce billet! []
  6. Cet arbre n’est pas non plus totalement exhaustif, puisque je n’avais pas toutes les séquences de 18S dans mon fichier, et que je n’avais pas trop le temps d’aller chercher celles qui me manquaient sur GenBank []

Pas de réponse pour le moment

Trackback URI | Comments RSS

Commentez !

Sitemap