comdesc-incongruent

Titre original : 29+ Evidences for Macroevolution - Some Statistics of Incongruent Phylogenetic Trees

Auteur : Douglas Theobald, Ph.D.

Copyright © 1999-2012 - Version 2.89

Permission is granted to copy and print these pages in total for non-profit personal, educational, research, or critical purposes.

La page originale est disponible à l’adresse : http://www.talkorigins.org/faqs/comdesc/incongruent.html


Navigation :

Le tableau ci-dessous fournit des valeurs pour la signification statistique d'une correspondance entre deux arbres phylogénétiques incongrus, rapportées en tant que valeurs P (P -values). Ces P-values donnent la probabilité que deux arbres à racines, avec un nombre donné (ou moins) de branches non concordantes, correspondent par hasard.

Le nombre de branches incongrues est déterminé par rapport au sous-arbre d'accord maximum (maximum agreement subtree, MAST) entre deux arbres. Un MAST est le sous-arbre “noyau” commun entre deux arbres. Le nombre de branches incongrues est égal au nombre minimum de branches qui doivent être élaguées de l'un des arbres réels pour obtenir le MAST. Un exemple tiré de l'analyse des espèces de crocodiles par John Harshman est donné dans la figure ci-dessous (Harshman et al. 2003).

Deux arbres phylogénétiques incongrus d’espèces de crocodiles.

Deux phylogénies incongrues de crocodiles. L'arbre à gauche est basé sur des données morphologiques; l'arbre à droite sur la séquence moléculaire du proto-oncogène c-myc (Harshman et al. 2003). Le MAST commun est représenté en noir. Selon la métrique de distance décrite ci-dessus, la distance entre les deux arbres est une branche, en raison de la branche de Gavialis égarée indiquée en magenta. La signification de la correspondance entre ces deux phylogénies incongruentes est P ≤ 0,00077. De plus, Harshman et al. ont effectué une analyse phylogénétique indépendante avec les gènes mitochondriaux, ce qui a donné le même arbre que les données du proto-oncogène c-myc. La signification globale pour ces trois arbres indépendants est P ≤ 7,4 × 10-8.

Dans le tableau ci-dessous, les lignes répertorient les valeurs permettant de comparer deux arbres comportant un nombre croissant de taxons. Les colonnes énumèrent la signification pour un nombre donné de différences entre les deux arbres. L'incongruence de “1 adjacent” fait référence au cas où une branche diverge par un seul nœud adjacent (c'est-à-dire que deux branches adjacentes sont échangées par rapport à l'autre arbre). Les colonnes 1 à 10 restantes font référence au cas où x branches ou moins sont mal placées n'importe où dans l'arbre. Une signification statistique élevée (P <0,01 ou une confiance supérieure à 99%) est indiquée en bleu clair. La signification statistique (p <0,05 ou plus de 95% de confiance) est indiquée en rose. Les valeurs équivoques (0,05 <P <0,50) sont indiquées en blanc. Les valeurs très insignifiantes (P> 0,50) sont indiquées en rouge et les valeurs impossibles en noir.

Signification statistiques de 2 arbres phylogéniques incongrus.


Détails Mathématiques

Pour une correspondance exacte entre deux arbres (pas d'incongruence) :

P = (2N-2)(N-2)! / (2N-3)!

ou

P = 1 / (2N-3)!!

où “!!” est une double factorielle et N = nombre de taxons. Pour une incongruence de “1 adjacent” :

P = (2N-2)(N-1)! / (2N-3)!

Pour une incongruence de I branches, placées n’importe où entre 2 arbres :

P ≤ (2N-I-2)(N-I-2)!N! / (2[N-I]-3)!(N-I)! I!

ou

P ≤ (N!/(N-I)! I!) / (2[N-I]-3)!!

N = nombre de taxons et I = # nombre de branches incongrues.

Ce dernier calcul de la valeur P est une limite supérieure. En d'autres termes, cette valeur P est une surestimation, car la P-value réelle est très probablement inférieure (meilleure). P est le ratio entre nombre maximal d'arbres incongrus possibles sur le nombre total d'arbres possibles. Cependant, dans l'équation finale, le nombre maximal calculé d'arbres incongrus comprend les arbres non uniques (c'est-à-dire que certains des arbres incongrus ont la même topologie et sont donc comptés plus d'une fois). Par exemple, pour N = 4 et I = 1, ce calcul donne P ≤ 1,3333, alors que P exact = 0,73333. Plus N et I sont grands, plus /P converge vers la valeur exacte.

Ces équations peuvent être facilement étendues au cas de divergences entre plus de deux arbres, chacun du même nombre de taxons. La probabilité pour que k arbres enracinés, binaires, de N-taxons aient au plus I branches incongrues est:

P ≤ (N!/(N-I)!I!) / ((2[N-I]-3)!!){k - 1}

De manière équivalente, il s'agit de la probabilité que deux ou plus arbres de N-taxons partagent le même MAST de taille N - I ou plus. (Une calculatrice Javascript disponible sur la page originale utilise cette équation pour déterminer ses valeurs P.)

J'apprécierais toute suggestion d’une personne qui a des idées sur la façon de corriger les arbres non uniques. J'ai établi de façon indépendante la plupart de ces équations à l'été 2002. Plus tard, j'ai découvert par correspondance personnelle que Mike Steel avait également établi ces équations et allait bientôt publier le tout dans un livre à venir (Bryant et al. 2002). Il semble que l'équation finale a été établie indépendamment par moi et Mike Steel, et à ma connaissance, elle reste non publiée.

  • Li, W.-H. (1997). Molecular Evolution. Sunderland, MA, Sinauer Associates. p. 102.
  • Bryant, D., MacKenzie, A. and Steel, M. (2002). “The size of a maximum agreement subtree for random binary trees.” In: Bioconsensus II. DIMACS Series in Discrete Mathematics and Theoretical Computer Science (American Mathematical Society). ed., M.F. Janowitz.
  • Harshman, J., Huddleston, C. J., Bollback, J. P., Parsons, T. J., and Braun, M. J. (2003). “True and false gharials: a nuclear gene phylogeny of crocodylia.” Syst Biol. 52: 386-402. PubMed
  • Dernière modification : 2019/12/06 18:39
  • de 127.0.0.1