You are on page 1of 8

mdecine/sciences 2014; 30: 1177-83

Les quelques phrases (Encadr 1) extraites du livre de


Franois Jacob Le jeu des possibles, essai sur la diversit du vivant [1], publi en 1981, illustrent parfaitement le cadre thorique dans lequel fut tudi, jusqu
trs rcemment, lvolution du contenu des gnomes en
gnes codant des protines.
Largumentation repose sur deux hypothses: (1)les
premires tapes de la formation du vivant permettaient lmergence de novo de courtes squences
codant des protines, ce qui nest plus le cas
aujourdhui; un principe quon pourrait qualifier
de non actualisme; et (2) aprs cette premire
tape, lvolution a consist faire du neuf (des
gnes codant de nouvelles protines) avec du vieux
(des gnes dj existants); cest le concept de bricolage volutif (genetic tinkering), cher Franois
Jacob [2]. Bien sr, et comme presque toujours en
biologie volutive, quelques contre-exemples furent
identifis, mais ils furent considrs comme des
exceptions qui confirmaient la rgle [3, 4]. Cependant, quelques publications rcentes remettent en
cause ce paradigme et proposent que, chez les eucaryotes, une proportion importante, de 5% 12%, des
m/s n12, vol. 30, dcembre 2014
DOI : 10.1051/medsci/20143012022

DBAT

>Il tait admis, jusqu trs rcemment, quun


nouveau gne codant une nouvelle protine
Didier Casane, Patrick Laurenti
ne pouvait avoir comme origine quun gne
prexistant, une combinaison de fragments
de gnes, ou un transfert horizontal de gne
partir dune autre espce. Une srie dtudes
comparatives de gnomes et de transcriptomes
Laboratoire volution,
gnome et spciation,
suggrent quil existe une autre source de gnes
UPR 9034 CNRS,
codant des protines: lADN non codant. Le
avenue de la Terrasse,
mcanisme, vraisemblablement universel car
91198 Gif-sur-Yvette, France;
propos pour divers groupes deucaryotes, implique
universit Paris-Diderot, UFR des
sciences du vivant, Paris, France.
lexistence dun continuum de protognes entre
patrick.laurenti@legs.cnrs-gif.fr
ADN codant et non codant, correspondant des
tats intermdiaires fixs par la slection naturelle.
Ainsi, au cur des gnomes, des gnes pourraient
merger progressivement du nant par le seul jeu gnes codant des protines spcifiques de quelques organismes,
des mutations et de la slection naturelle.<
voire dune seule espce, pourraient avoir lADN non codant comme

FORUM

Syllogomanie
molculaire:
lADN non codant
enrichit le jeu
des possibles

mdecine/sciences

origine [5, 6]. Entre les deux catgories, ADN non codant (non gne)
et ADN codant (gne), il existerait un continuum de protognes correspondant des tats intermdiaires entre ces deux tats limites
[7]. Dans le cadre de cette revue, nous ne nous intresserons qu
lorigine des gnes codant des protines, car il existe une grande
quantit de gnes transcrits en des ARN qui ne sont pas traduits
en protines, et dont lorigine de novo est trs vraisemblable. Nous
verrons toutefois quil existe probablement un lien troit entre ces
deux types de gnes [8].

Bricolage molculaire
Pendant plusieurs dcennies, il fut accept que seuls trois mcanismes
pouvaient expliquer lapparition de nouveaux gnes dans un gnome.
Le plus simple, et le premier identifi, consiste en la duplication dun
gne par enjambement ingal (unequal crossing-over), qui produit
deux copies filles partir dun gne prexistant [9, 10]. lorigine identiques, ces copies accumulent au cours de lvolution des
mutations qui entranent peu peu la divergence des squences des
protines codes. Il est noter quaprs une duplication, trs rapidement, les protines codes peuvent tre trs diffrentes sil se produit
un dcalage du cadre de lecture dans un des gnes [11]. Ds 1936,
Muller affirme There remains no reason to doubt the a pplication
of the dictum all life from pre-existing life and every cell from
a pre-existing cell, to the gene: every gene from a pre-existing
gene [12]. Identifies dans les annes 1920, les duplications de
gne ont t considres dans les annes 1970 comme le principal
1177

1
Lvolution ne tire pas ses nouveauts du nant. Elle travaille sur ce
qui existe dj, soit quelle transforme un systme ancien pour lui donner une fonction nouvelle, soit quelle combine plusieurs systmes pour
en chafauder un autre plus complexe []
La probabilit de voir une protine fonctionnelle se former de novo, par
association au hasard dacides amins, est pratiquement zro. Chez
des organismes aussi complexes et intgrs que ceux ayant vcu il y a
dj fort longtemps, la cration de squences nucliques entirement
nouvelles ne pouvait jouer un rle important dans la production dinformation nouvelle. Durant la majeure partie de lvolution biologique,
la cration de structures molculaires ne pouvait se fonder que sur un
remaniement de structures prexistantes []
Trs vraisemblablement, tout a commenc avec de petites squences
de 30 50 nuclotides produites par lvolution chimique et capables
chacune de coder de 10 15 acides amins. Cest seulement aprs coup
que de telles squences ont d tre unies au hasard par des processus de
ligature pour former des chanes protiques plus longues. Certaines de
celles-ci se sont avres utiles et ont t slectionnes []
Une fois encore, on voit mal comment lvolution molculaire aurait pu
procder si ce nest en faisant du neuf avec du vieux; en liant ensemble
des morceaux dADN; bref en bricolant.
Franois Jacob
Le jeu des possibles, essai sur la diversit du vivant (1981)

mcanisme qui permet dagrandir le rpertoire des protines codes


par un gnome [13, 14]. Il est ensuite apparu que des gnes sont aussi
produits par recombinaison des squences de plusieurs gnes (dont le
mcanisme de brassage dexons ou exon shuffling) [3, 4, 15]. Enfin, un
gnome peut acqurir de nouveaux gnes par transferts horizontaux,
cest--dire par intgration de fragments dADN provenant dautres
espces, parfois trs loignes du point de vue phylogntique [3,
4, 16-18, 52]. Ces diffrents mcanismes sont schmatiss dans la
Figure1A-C.

Les gnes orphelins


la suite du squenage total du gnome de la levure en 1996, Bernard Dujon remarqua labondance inattendue de gnes dpourvus
dhomologues et baptisa orphelins ces gnes sans gne apparent
connu [19]. Toutes les tudes de la composition en gnes des gnomes
effectues depuis le confirment. Tant chez les eucaryotes [20] que
chez les virus et les bactries [21-26], les gnomes portent toujours
une part importante de gnes pour lesquels il ne peut tre identifi
ni gne paralogue (gne homologue issu dune duplication de gne
et pouvant se trouver dans une mme espce ou dans des espces
diffrentes), ni gne orthologue (gne homologue issu dune spciation et ne pouvant donc se trouver que dans des espces diffrentes).
Au dpart, deux explications furent prfres la cration de gnes
de novo (sans implication de squences codantes prexistantes):
soit ces gnes orphelins avaient des squences divergentes un
1178

m/s n12, vol. 30, dcembre 2014

point tel quil ntait plus possible de reconnatre leur


homologie avec dautres squences, soit leurs homologues navaient pas encore t identifis chez dautres
espces. Il est vrai que, pour des gnomes deucaryotes
contenant beaucoup dADN non codant et dans lequel
des gnes orphelins furent trs activement recherchs
(comme les gnomes des rongeurs et des primates qui
sont parmi les mieux squencs et les mieux annots), il
a longtemps subsist un nombre derreurs assez important pour mettre en doute une part non ngligeable
des gnes identifis comme orphelins [27]. Cependant,
laccumulation rcente de donnes de squenage total
des gnomes, dont notamment des gnomes despces
phylogntiquement trs proches, a permis de lever
ces doutes qui apparaissent de moins en moins fonds.
Aussi, une explication alternative simpose peu peu:
ces gnes seraient dorigine trs rcente et nauraient
pas t produits par lun des mcanismes de gnration
de nouveaux gnes classiques (duplication, recombinaison, ou transfert horizontal).
Il existe donc des gnes qui ne sont prsents que chez
un groupe despces troitement apparentes (voire
une seule espce), ce qui permet de dater leur origine,
entre lge du dernier anctre commun de ce groupe
despces et le moment de sparation avec la ligne qui
est la plus proche parente de ce groupe (Figure2). Cette
approche, dite phylostratigraphique, permet didentifier quel moment est apparu un gne dans la ligne
volutive menant lespce tudie, en appliquant
une approche phylogntique que nous avons dcrite
prcdemment [28, 29]. Une phylostratigraphie rcente
[30] montre que parmi les 22773 gnes codants chez
la souris, 7 253 gnes sont partags avec les arches
et les bactries, et taient donc prsents chez LUCA (le
dernier anctre commun universel); 8438 gnes sont
apparus dans la ligne de lanctre des animaux depuis
sa sparation davec LUCA; 4118 gnes sont apparus
dans la ligne de lanctre des vertbrs depuis sa
sparation davec celle des ponges; 1382 gnes sont
apparus dans la ligne de lanctre des mammifres
depuis sa sparation davec la ligne des requins; 801
gnes sont apparus dans la ligne de lanctre des
rongeurs depuis sa sparation davec les marsupiaux et
781 nexistent que chez la souris (Figure2). La plupart
des gnes de la souris sont donc trs anciens, environ
70% dentre eux tant apparus il y a plus de 550millions dannes, cest--dire avant la diversification
des animaux. linverse et de faon inattendue, 781
gnes semblent trs rcents, cest--dire quil ne peut
pas tre identifi de squence assez ressemblante
pour la considrer comme homologue, mme chez une
espce trs proche comme le rat. Ces gnes seraient

A Duplication

D Cration de novo
D.
Gne A
Non codant

Gne A2
Protogne

B Recombinaison
Gne A

Gne B

FORUM

Gne A1

Protogne

DBAT

Gne C
C Transfert horizontal
Gne A
Gne A

Gne A

Espce x

Espce y

Figure1. Les diffrents modes de formation de nouveaux gnes. A-C. partir de gnes prexistants. A.Duplication loccasion dune recombinaison non homologue (duplication en cis, dite duplication en tandem) ou dune duplication totale du gnome (duplication en trans): un gne
est dupliqu et forme deux copies filles, ou paralogues, qui sont lorigine fonctionnellement redondantes. B.Recombinaison, loccasion dune
recombinaison non homologue ou dune rtrotransposition: des parties codantes provenant de gnes diffrents fusionnent pour constituer un gne
qui peut coder une protine avec une nouvelle fonction. C.Transfert horizontal: transfert dun gne dune espce une autre; ce mcanisme, trs
frquent chez les bactries, se produit galement chez des eucaryotes, souvent en relation avec la phagocytose et le parasitisme qui rapprochent
les gnomes despces trs diffrentes. D.Cration de novo: dans les gnomes, il existe de trs nombreuses squences non codantes transcrites et
qui contiennent un court cadre de lecture ouvert (ORF). Ces squences, lorigine non fonctionnelles, sont le plus souvent limines, car il ny a pas
de pression de slection pour leur maintien. Elles sont aussi souvent associes des squences rgulatrices qui contrlent leur expression dans le
temps et/ou lespace. Si la protine code permet laugmentation, aussi faible soit-elle, de la valeur slective, le protogne peut tre slectionn
et peut accumuler progressivement des modifications de la squence codante et des squences rgulatrices jusqu former un nouveau gne qui
aura une faible probabilit de disparatre au cours de lvolution. Les squences codantes sont figures par des botes colores, lorigine de transcription par une flche brise et les squences rgulatrices par des triangles de couleur (modifi daprs Carvunis et al. [7]).

donc apparus de novo dans la ligne de la souris, aprs sa sparation


de la ligne du rat. Les estimations de la date de sparation du rat
et de la souris sont trs variables selon les tudes, mais ces espces
auraient diverg il y a 10 25millions dannes. Il semblerait donc
que plusieurs centaines de gnes sont apparus dans cet intervalle
de temps. En utilisant cette mme approche, des nombres similaires
de nouveaux gnes furent identifis chez lhomme, la drosophile, un
certain nombre de plantes et la levure du boulanger [7]. Il est possible
m/s n12, vol. 30, dcembre 2014

quune large fraction de ces nouveaux gnes codants


ne soient pas des gnes, cest--dire quils ne codent
pas rellement des protines et quils ne soient que des
erreurs dannotation. Il ne faut pas perdre de vue que
toutes ces tudes se fondent sur des annotations automatiques des gnomes. En particulier, lidentification
des squences codantes des gnes est faite partir de
la dtection dORF (open reading frame ou cadre ouvert
1179

Figure2. Phylostratigraphie des gnes de la souris. Les gnes prsents dans le gnome de la
Gnes
rcents
anciens 781
souris sont compars aux gnes prsents dans
801
Souris
les gnomes dautres espces afin didentifier
AC
1 382
rongeurs
le moment de leur apparition. En sappuyant sur
AC
Rat
mammifres
4 118
la phylognie des espces, lge dun gne est
AC
Marsupiaux
vertbrs
8
438
dtermin en identifiant lensemble des espces
AC
Requins
animaux
qui partagent ce gne avec la souris. Par exemple,
LUCA
ponges
si un gne nexiste que chez la souris, il est
(7253)
apparu aprs la sparation de lanctre du rat et
Bactries
de celui de la souris. Si un gne est partag uniquement par la souris et les autres mammifres,
Ligne de la souris
absent
Gne prsent
il est apparu aprs la sparation des mammifres
de toutes les autres espces et avant le dernier
anctre commun des mammifres. Si un gne est prsent chez la souris et toutes les autres espces, il tait donc dj prsent chez LUCA, lanctre
commun de toutes les espces. AC: anctre commun (modifi daprs Neme et al. [30]).

1180

de lecture), de donnes sur leur transcription en ARNm, de lexistence de protines correspondantes et de donnes exprimentales
qui indiquent que ces squences ont un rle fonctionnel au niveau de
lorganisme. Trs souvent, toutes ces donnes ne sont pas disponibles
pour un gne donn. Des squences peuvent tre annotes comme
codantes alors quelles ne le sont pas, et dautres squences peuvent
ne pas tre considres comme codantes alors quelles le sont. Ainsi,
au cours du temps, on peut voir des squences codantes apparatre ou
disparatre de lannotation des gnomes au gr des informations qui
saccumulent. De plus, lidentification dune squence codante chez
une espce est le plus souvent ralise partir de sa ressemblance
avec une squence codante dune autre espce. Il est donc trs probable quune fraction importante des gnes codants nait pas encore
t identifie, mme chez les espces modles. Le squenage direct
des protines est une voie prometteuse pour identifier de faon plus
complte lensemble des protines codes par un gnome et, ainsi,
mettre en vidence de nouveaux gnes codants, en particulier ceux qui
codent des protines de petite taille [31, 32].
Par ailleurs, beaucoup de gnes apparents (entirement ou pour des
domaines partags par recombinaisons) et trs anciens ne montrent
aucune ressemblance entre eux, car leur volution indpendante
pendant des centaines de millions dannes, voire quelques milliards
dannes, fait quil nest plus possible didentifier cette homologie
sur la seule base de la comparaison de leurs squences. Le nombre de
familles de gnes homologues pourrait donc tre une forte survaluation du nombre de gnes apparus indpendamment.
Lanalyse de lensemble des tudes rcentes, en tenant compte des
biais et imperfections des donnes noncs ci-dessus, confirme nanmoins lidentification dun nombre important de gnes codant des
protines forms de novo partir dADN non codant [6].

importance majeure en tant que mcanisme de cration


de nouvelles protines. La possibilit de squencer les
gnomes et les transcriptomes de plusieurs espces
choisies en fonction de critres phylogntiques a permis de rvaluer limportance de ce mcanisme.
Comme nous lavons vu prcdemment, lidentification de gnes potentiellement apparus de novo
se fait en deux tapes: (1)une tape danalyse
informatique base sur une approche comparative,
la phylostratigraphie, qui permet destimer lge
des gnes, les gnes orphelins les plus rcents tant
plus vraisemblablement apparus de novo; et (2)
une tape de validation exprimentale, lanalyse
fonctionnelle, qui permet de vrifier que ces gnes
codent rellement des protines, et que celles-ci
ont un effet sur la valeur slective (fitness) de
lorganisme. Cette seconde tape na encore t ralise que dans de rares cas, et une validation de la
fonction de la plupart des gnes issus de lADN non
codant est encore faire [33-35]. Dans quelques
cas, on peut tester si la slection naturelle a t
implique dans la fixation dun gne apparu de novo
[36]. ce jour, il est trs difficile destimer quelle
est la contribution des gnes apparus de novo
lensemble des gnes codants que lon peut observer
dans un gnome. Il est toutefois trs probable que
cette part est plus grande quon ne le pensait jusqu
rcemment, et ces gnes pourraient constituer de 5
12% des gnes apparus rcemment chez diverses
espces [6].

La formation de gnes de novo

Natura non facit saltum

Jusqu trs rcemment, lexistence de gnes codants issus de lADN


non codant tait donc accepte comme une curiosit [3, 4, 6], sans

Il est tout fait invraisemblable quun gne codant


une protine, voire souvent plusieurs protines grce

m/s n12, vol. 30, dcembre 2014

m/s n12, vol. 30, dcembre 2014

Conclusions
Si la plupart des gnes codant des protines se forment
bien dans le cadre du paradigme du genetic tinkering
pos par Franois Jacob il y a plusieurs dcennies, il
apparat quune fraction non ngligeable (probablement de lordre de 10%) de nouveaux gnes mergeraient de novo partir dADN non codant. Au-del de
lidentification dun nouveau mode de formation de
nouveaux gnes, ce mcanisme claire de faon intressante deux problmes de biologie volutive de porte
trs gnrale.

FORUM

temps, tant au niveau de la squence codante que des


squences rgulatrices (Figure1D). Il est donc attendu
dans le cadre de ce modle que plus les gnes de novo
sont anciens, plus ils sont complexes, cest--dire
quils sont plus grands, que leur rgulation fait intervenir plus de squences rgulatrices, quils contiennent
plus dintrons (qui ont eu plus de temps pour sinsrer
dans la squence codante unique de dpart), et quils
font un usage plus optimis des codons. Des tudes
ralises chez lhomme, la drosophile et la levure du
boulanger montrent que lensemble de ces attendus
sont effectivement observs [7, 30, 37].

DBAT

au mcanisme de lpissage alternatif, puisse apparatre en une seule


tape partir dune squence non codante, au moins dans le cas dun
gne tel quon le dfinit habituellement, cest--dire une squence
dADN (continue ou fragmente si, respectivement, elle ne contient
pas dintrons ou si elle contient des introns) qui prsentent plusieurs
caractristiques: (1)elle est transcrite en au moins un ARNm, luimme traduit car il contient au moins un cadre ouvert de lecture;
(2)elle est associe un ensemble de squences rgulatrices permettant un contrle fin de son expression; (3)elle permet la synthse
dau moins une protine avec une ou plusieurs activits biologiques
intgres dans un systme fonctionnel ayant un effet sur la valeur
slective de lorganisme. Pour que toutes ces proprits structurales
et fonctionnelles soient prsentes, il faut donc supposer des tats
successifs, constitus par des protognes, dont la fonction est dabord
mineure et mal intgre, mais suffisamment utile pour que dmarre
le processus de slection qui permet daccumuler progressivement
des mutations et, ainsi, damliorer le gne, tant au niveau de son
expression que de la fonction de la protine code. Il faut donc imaginer des tats intermdiaires entre lADN non codant et le gne codant
une protine (Figure 1D). Les protognes les plus rcents seront les
moins optimiss et pourront aisment tre limins. Les plus anciens
seront plus difficilement limins, car ils correspondront davantage
aux critres noncs ci-dessus qui dfinissent un gne et seront donc
plus souvent indispensables [37]. Mais ne perdons pas de vue que
mme des gnes trs anciens et trs conservs sont parfois perdus
sporadiquement dans diffrentes lignes phylogntiques [38]. Ce
modle de construction progressive des gnes partir de rien implique
que les premiers stades des protognes sont trs facilement atteints.
Cest trs vraisemblable, car lADN non codant est prsent en trs
grande quantit dans le gnome de beaucoup deucaryotes o souvent
il reprsente plus de 90% de lADN total [39-41]. La quasi-totalit du
gnome est transcrit en ARN [42] et beaucoup de ces ARN contiennent
un ORF de petite taille [7]. Un ORF de petite taille, transcrit et codant
une petite protine, peut donc apparatre par hasard avec une frquence non ngligeable dans la grande quantit dADN non codant
qui constitue lessentiel du gnome de la plupart des eucaryotes.
Les gnomes des bactries et des virus sont gnralement beaucoup
moins riches en ADN non codant; cela offre moins de chance de voir
se former des squences codantes au hasard dans un gnome donn.
Mais ces organismes forment des populations de bien plus grande
taille que les eucaryotes. Ceci compense, en terme de quantit dADN,
la faible teneur de ces gnomes en ADN non codant et ouvre la possibilit thorique que bactries et virus soient galement capables de
produire des gnes de novo. Chez les bactries et les eucaryotes, les
approches gnomique, transcriptomique et protomique ont permis de
dtecter la transcription de nombreux petits ARNm, certains codant
effectivement de petites protines dont les fonctions sont, pour la
plupart, inconnues [31]. Si un gne apparu de novo permet la synthse
dune nouvelle protine et si celle-ci se rvle utile lorganisme, et
augmente un tant soit peu sa valeur slective, il peut senclencher un
processus de mutation/slection qui optimise pas pas la fonction
de cette protine par la fixation de nouvelles mutations au cours du

Syllogomanie molculaire
Le gnome de la plupart des eucaryotes est trs riche en
ADN non codant. Chez les plantes et les animaux, celuici constitue souvent lessentiel du gnome [39, 40].
Or, il existe des exemples de plantes et danimaux dont
les gnomes ont perdu une grande partie de leur ADN
non codant [43, 44], ou qui lliminent dans les lignes
somatiques [45, 46]. Ceci montre que la plus grande
partie de lADN non codant nest pas indispensable
la survie et/ou la reproduction des individus [41, 47].
Ainsi, seulement 5% du gnome humain seraient soumis
slection [48] et donc fonctionnel dun point de vue
volutif. Le maintien, chez la plupart des espces eucaryotes, de cette norme quantit dADN non codant et
non fonctionnel pourrait simplement montrer les limites
de lefficacit de la slection naturelle. En effet, si la
variation de la quantit dADN non codant ne se traduit
pas par une variation assez importante de la valeur
slective des individus, la slection naturelle nest pas
assez efficace pour liminer du gnome cet ADN inutile [49]. Il est alors frappant de constater que de
cette norme quantit dADN poubelle (junk DNA),
rput navoir aucune fonction, pourrait tre lorigine,
non seulement de squences dADN et de transcrits ARN
non codants aux multiples fonctions rgulatrices, mais
aussi du codage de nouvelles protines. Non contente
1181

Apparition instantane de nouveaux gnes


par duplications, rarrangements, transferts horizontaux

Protognes

Pseudognisation

Apparition progressive de
nouveaux gnes de novo

Gnes

ADN non codant

Figure3. Les deux voies de formation des nouveaux gnes. La plupart des nouveaux gnes qui apparaissent au sein des gnomes sont forms par duplication,
fusion ou transfert horizontal (boucle verte). Cependant, 5 12% des gnes
codant des protines seraient forms de novo partir dADN non codant. Ces
nouveaux gnes apparaitraient progressivement; des protognes de plus en
plus conformes aux proprits des gnes constitueraient un gradient entre les
deux tats non-gne/gne. Cette cration de gnes de novo serait contrebalance par llimination continue de gnes (pseudognisation) et de protognes
(modifi daprs Carvunis et al. [7]).

dtre une bricoleuse qui assemble des fragments de gnes disparates


pour crer de nouveaux gnes, lvolution se comporte aussi comme
une syllogomane qui ne rechigne pas fouiller dans les poubelles du
gnome!

Origine des structures complexes


Les adversaires de la thorie de lvolution soulignent lenvi quil est
fort improbable quune structure biologique complexe puisse apparatre partir du nant. Suivant en cela les prceptes du thologien William Paley, ils voient dans cette complexit la preuve de lexistence dune volont, dun dessein intelligent. Pour eux, en somme, pas
dhorloge sans Grand horloger! Cest mconnatre la puissance du
couple mutation/slection dans la constitution dune structure trs
complexe partir dune structure trs simple, par accumulation de
petits changements successifs sur de grandes priodes de temps et
ce, sans implication dvnements hautement improbables (Figure3).
Si aucun objet complexe ne peut tre produit instantanment et
par hasard, il existe beaucoup dexemples morpho-anatomiques qui
dmontrent comment, par petites tapes successives, lapparition
continuelle de modifications alatoires suivies dun tri par la slection
naturelle aboutit, sur une longue priode de temps, la mise en place
progressive de structures trs complexes. Lexistence, en quantit
non ngligeable, de gnes codants issus de lADN non codant tend
jusquau cur mme des gnomes limplication du couple mutation/
1182

m/s n12, vol. 30, dcembre 2014

slection dans la formation ex-nihilo de structures


complexes. Ce qui frappe dans ce phnomne, comme
pour tout mcanisme dessai/erreur, cest lnorme gaspillage induit par ce processus. En effet, cela implique
non seulement quune partie importante de lactivit de
transcription et de traduction est consacre produire
des molcules peu ou pas fonctionnelles, mais aussi que
la plupart de celles-ci seront limines. Comment un tel
cot mtabolique est-il support? Sagit-il dun simple
mcanisme de fuite d au cot mtabolique trop
lev dun contrle plus prcis de la transcription? Estce le rsultat du fait que la slection ne peut optimiser
un systme biologique au-del dun certain niveau dans
une population de taille finie [50, 51], ou sagit-il dun
mcanisme slectionn qui tmoigne dun compromis
entre optimisation et volvabilit des gnomes? La
question reste ouverte.

SUMMARY
Compulsive molecular hoarding enables the evolution
of protein-coding DNA from non-coding DNA
It was thought until recently that a new gene could only
evolve from a previously existing gene, from recombination of genes, or from horizontal gene transfer. Recently
a series of genomic and transcriptomic studies have led
to the identification of non-coding DNA as a significant
source of protein coding genes. The mechanism, which is
probably universal since it has been identified in a wide
array of eukaryotes, implies that a gradient of protogenes, probably established by a balance between
selection and genetic drift, exists between coding DNA
and non-coding DNA. Therefore genome dynamics could
account for the progressive formation of genes out of
the blue thanks to the interplay of mutation and natural selection.
REMERCIEMENTS
Nous tenons exprimer ici toute notre gratitude nos collgues Mlanie Debiais-Thibaud et Alice Michel-Salzat pour leur
relecture attentive et critique de notre manuscrit, ainsi qu
notre collgue Cushla Metcalfe, pour lamlioration des titres
et rsum en anglais.
LIENS DINTRT
Les auteurs dclarent navoir aucun lien dintrt concernant les donnes publies dans cet article.

RFRENCES
1. Jacob F. Le Jeu des possibles, essai sur la diversit du vivant. Paris: Fayard,
1981.
2. Jacob F. Evolution and tinkering. Science 1977; 196:1161-6.
3. Long M, Betran E, Thornton K, Wang W. The origin of new genes: glimpses
from the young and old. Nat Rev Genet 2003; 4: 865-75.

Tarifs dabonnement m/s - 2015

mdecine/sciences

Abonnez-vous
mdecine/sciences

m/s n12, vol. 30, dcembre 2014

FORUM

4. Long M, VanKuren NW, Chen S, Vibranovski MD. New gene evolution: little did we know. Annu Rev
Genet 2013; 47: 307-33.
5. Tautz D, Domazet-Loo T. The evolutionary origin of orphan genes. Nat Rev Genet 2011; 12:
692-702.
6. Ding Y, Zhou Q, Wang W. Origins of new genes and evolution of their novel functions. Annu Rev Ecol
Evol Syst 2012; 43: 345-63.
7. Carvunis AR, Rolland T, Wapinski I, et al. Protogenes and de novo gene birth. Nature 2012; 487:
370-4.
8. Xie C, Zhang YE, Chen JY, et al. Hominoid-specific de novo protein-coding genes originating from
long non-coding RNAs. PLoS Genet 2012; 8: e1002942.
9. Bridges CB. The bar gene - A duplication. Science 1936; 83: 210-1.
10. Sturtevant AH. The effects of unequal crossing over at the bar locus in Drosophila. Genetics 1925;
10: 117-47.
11. Ohno S. Birth of a unique enzyme from an alternative reading frame of the preexisted, internally
repetitious coding sequence. Proc Natl Acad Sci USA 1984; 81: 2421-5.
12. Muller HJ. Bar duplication. Science 1936; 83: 528-30.
13. Miquelis A, Abi-Rached L, Gilles A, Pontarotti P. Mise en vidence de processus de duplications en
bloc dans le gnome des vertbrs. Med Sci (Paris) 2002; 18: 1051-4.
14. Ohno S. Evolution by gene duplication. Berlin: Springer-Verlag, 1970.
15. Gilbert W. Why genes in pieces? Nature 1978; 271: 501.
16. Daubin V, Abby S. Les transferts horizontaux de gnes et larbre de la vie. Med Sci (Paris) 2012;
28: 695-8.
17. Da Lage JL, Binder M, Hua-Van A, et al. Gene make-up: rapid and massive intron gains after
horizontal transfer of a bacterial alpha-amylase gene to Basidiomycetes. BMC Evol Biol 2013;
13: 40.
18. Da Lage JL, Danchin EG, Casane D. Where do animal alpha-amylases come from? An interkingdom
trip. FEBS Lett 2007; 581: 3927-35.
19. Dujon B. The yeast genome project: What did we learn? Trends Genet 1996; 12: 263-70.
20. Khalturin K, Hemmrich G, Fraune S, et al. More than just orphans: are taxonomically-restricted
genes important in evolution? Trends Genet 2009; 25: 404-13.
21. Daubin V, Ochman H. Bacterial genomes as new gene homes: The genealogy of ORFans in E. coli.
Genome Res 2004; 14: 1036-42.
22. Fischer D, Eisenberg D. Finding families for genomic ORFans. Bioinformatics 1999; 15: 759-62.
23. Pavesi A, Magiorkinis G, Karlin DG. Viral proteins originated de novo by overprinting can be
identified by codon usage: Application to the gene nursery of deltaretroviruses. PLoS Comput
Biol 2013; 9: e1003162.
24. Rancurel C, Khosravi M, Dunker AK, et al. Overlapping genes produce proteins with unusual
Sequence properties and offer insight into de novo protein creation. J Virol 2009; 83: 10719-36.
25. Yin Y, Fischer D. Identification and investigation of ORFans in the viral world. BMC Genomics 2008;
9: 24.
26. Yin YB, Fischer D. On the origin of microbial ORFans: quantifying the strength of the evidence for
viral lateral transfer. BMC Evol Biol 2006; 6: 63.
27. Murphy DN, McLysaght A. De novo origin of protein-coding genes in murine rodents. PLoS One
2012; 7: e48650.
28. Casane D, Laurenti P. Une toute nouvelle tte pour lanctre des vertbrs mchoires. Med Sci
(Paris) 2014; 30: 38-40.
29. Casane D, Laurenti P. Penser la biologie dans un cadre phylogntique. Lexemple de lvolution
des vertbrs. Med Sci (Paris) 2012; 28: 1121-7.
30. Neme R, Tautz D. Phylogenetic patterns of emergence of new genes support a model of frequent
de novo evolution. BMC Genomics 2013; 14: 117.

31. Andrews SJ, Rothnagel JA. Emerging evidence for functional peptides
encoded by short open reading frames. Nat Rev Genet 2014; 15: 193-204.
32. Kim MS, Pinto SM, Getnet D, et al. A draft map of the human proteome.
Nature 2014; 509: 575-81.
33. Heinen TJAJ, Staubach F, Hming D, Tautz D. Emergence of a new gene from
an intergenic region. Curr Biol 2009; 19: 1527-31.
34. Ranz JM, Parsch J. Newly evolved genes: Moving from comparative genomics
to functional studies in model systems. Bioessays 2012; 34: 477-83.
35. Reinhardt JA, Wanjiru BM, Brant AT, et al. De novo ORFs in Drosophila are
important to organismal fitness and evolved rapidly from previously noncoding sequences. PLoS Genet 2013; 9: e1003860.
36. Zhao L, Saelao P, Jones CD, Begun DJ. Origin and spread of de novo genes in
Drosophila melanogaster populations. Science 2014; 343: 769-72.
37. Palmieri N, Kosiol C, Schlotterer C. The life cycle of Drosophila orphan genes.
Elife 2014; 3: e01311.
38. Blomme T, Vandepoele K, De Bodt S, et al. The gain and loss of genes during
600million years of vertebrate evolution. Genome Biol 2006; 7: R43.
39. Metcalfe CJ, Casane D. Accommodating the load: The transposable element
content of very large genomes. Mob Genet Elements 2013; 3: e24775.
40. Metcalfe CJ, Filee J, Germon I, et al. Evolution of the Australian lungfish
(Neoceratodus forsteri) genome: a major role for CR1 and L2 LINE elements.
Mol Biol Evol 2012; 29: 3529-39.
41. Palazzo AF, Gregory TR. The case for Junk DNA. PLoS Genet 2014; 10:
e1004351.
42. Struhl K. Transcriptional noise and the fidelity of initiation by RNA
polymerase II. Nat Struct Mol Biol 2007; 14: 103-5.
43. Ibarra-Laclette E, Lyons E, Hernandez-Guzman G, et al. Architecture and
evolution of a minute plant genome. Nature 2013; 498: 94-8.
44. Aparicio S, Chapman J, Stupka E, et al. Whole-genome shotgun assembly
and analysis of the genome of Fugu rubripes. Science 2002; 297: 1301-10.
45. Sun C, Wyngaard G, Walton D, et al. Billions of basepairs of recently
expanded, repetitive sequences are eliminated from the somatic genome
during copepod development. BMC Genomics 2014; 15: 186.
46. Smith JJ, Antonacci F, Eichler EE, Amemiya CT. Programmed loss of millions
of base pairs from a vertebrate genome. Proc Natl Acad Sci USA 2009; 106:
11212-7.
47. Doolittle WF, Brunet TDP, Linquist S, Gregory TR. Distinguishing between
function and effect in genome biology. Genome Biol Evol 2014; 6:
1234-7.
48. Lindblad-Toh K, Garber M, Zuk O, et al. A high-resolution map of human
evolutionary constraint using 29 mammals. Nature 2011; 478: 476-82.
49. Lynch M. The origins of eukaryotic gene structure. Mol Biol Evol 2006; 23:
450-68.
50. Lynch M. The origins of genome architecture. Sunderland, Massachusetts:
Sinauer, 2007.
51. Lynch M. Evolution of the mutation rate. Trends Genet 2010; 26: 345-52.
52. Gilbert C, Schaack S, Feschotte C.Quand les lments gntiques mobiles
bondissent entre espces animales. Med Sci (Paris) 2010; 26: 1025-7.

DBAT

RFRENCES

TIRS PART
P. Laurenti

> Grce m/s, vivez en direct les progrs


des sciences biologiques et mdicales

Bulletin dabonnement
page 1189 dans ce numro de m/s
1183

Copyright of Mdecine Sciences is the property of EDP Sciences and its content may not be
copied or emailed to multiple sites or posted to a listserv without the copyright holder's
express written permission. However, users may print, download, or email articles for
individual use.

You might also like