R(t)

Préambule

Cette application est à visée académique, fruit d’un travail de recherche fondamentale indépendant des autorités compétentes en matière de santé. Comme précisé ci-dessous, en plus des limites liées à la méthode, les données sont potentiellement incomplètes. Ainsi, celles sur l’intervalle sériel proviennent toutes d’Asie. En matière de santé publique et pour toute question, nous recommandons de consulter et suivre les instructions officielles disponibles sur https://www.gouvernement.fr/info-coronavirus

Pourquoi cette application ?

Tous les jours, Santé Publique France communique six chiffres clés pour le suivi de l’épidémie. Quatre d’entre eux reflètent particulièrement la dynamique épidémiologique : le nombre cumulé de cas confirmés, le nombre cumulé de décès, le nombre de personnes en cours d’hospitalisation, le nombre de personnes en cours d’hospitalisation en service de réanimation.

Les chiffres d’un jour donné ne permettent pas à eux seuls d’estimer la dynamique épidémiologique. Cette analyse repose sur l’étude des variations temporelles de ces séries statistiques.

Le but de cette application est de visualiser les tendances présentes au sein des données au travers du nombre de reproduction temporel, noté \(\mathcal{R}(t)\).

Attention : comme toute interprétation, celle-ci est dépendante de la qualité des données. En effet, chaque type de donnée reflète un état passé de l’épidémie du fait des intervalles temporels entre la date d’infection et celles d’apparition des symptômes, d’hospitalisation ou de décès. De plus, il existe des délais de signalement (les chiffres des week-end sont généralement plus faibles). Enfin, les stratégie de dépistage peuvent changer au cours du temps, créant des variations. Ces résultats sont donc à prendre avec précautions.

Nombre(s) de reproduction

Un des paramètres clés dans une épidémie est le nombre de reproduction \(\mathcal{R}\) qui caractérise le nombre de personnes infectées par une personne contagieuse au cours de son infection. En début d’épidémie, quand l’ensemble de la population est sensible (c’est-à-dire non immunisée), ce nombre prend une valeur particulière notée \(\mathcal{R}_0\) et appelée nombre de reproduction de base. En cours de l’épidémie, quand la proportion de personnes immunisées devient suffisamment importante pour ralentir la transmission du virus (par un effet comparable à une dilution des individus encore sensibles), on parle de nombre de reproduction effectif, ou temporel, \(\mathcal{R}(t)\).

Intuitivement, si \(\mathcal{R}(t)>1\), alors une personne infecte plus d’une personne en moyenne et l’épidémie est en phase de croissance. Au fur et à mesure que l’épidémie de COVID-19 se propage, \(\mathcal{R}(t)\) diminue car une proportion croissante de la population s’immunise. Lorsque le seuil d’immunité de groupe est dépassé (voire notre Rapport 2), \(\mathcal{R}(t)\) passe sous le seuil de 1, on atteint un pic épidémique et l’épidémie décroît. Les mesures de contrôle en santé publique peuvent aussi diminuer \(\mathcal{R}(t)\) et donc atteindre le pic épidémique avant que le seuil d’immunité de groupe ne soit atteint.

À un instant \(t\), connaître la valeur de \(\mathcal{R}(t)\) est donc essentiel pour déterminer l’état de l’épidémie.

Limites

Délais temporel

Si le nombre de reproduction quantifie un potentiel de propagation de l’épidémie à une date donnée, son estimation repose sur des données qui reflètent l’état de cette dernière plusieurs jours auparavant. Ainsi, à partir du moment où une personne est infectée, il s’écoule environ une semaine avant que le virus ne soit détecté, puis généralement une semaine de plus avant une possible hospitalisation, éventuellement en service de réanimation après un nouveau délai. Le décès peut quant à lui survenir plusieurs jours après cette admission. À cela, il faut rajouter le temps pour que le cas/l’admission/le décès soit répertorié et communiqué.

Il en résulte qu’en estimant \(\mathcal{R}(t)\) à partir des données d’incidence de nouveaux cas dépistés, l’état de l’épidémie capturé correspond au mieux à celui de la semaine qui précède. À partir des nouvelles hospitalisations et admissions en réanimation, ce décalage est de l’ordre de deux semaines et enfin quatre s’agissant des décès.

Variations d’échantillonnage

S’il n’est pas nécessaire que tous les cas soient répertoriés pour que la méthode fonctionne correctement, il faut en revanche que l’effort de dépistage deumeure constant au cours du temps. En effet, une généralisation du dépistage amplifie mécaniquement le nombre de cas, mimant une croissance de l’épidémie. Pour cette raison, les données d’incidence de dépistage en France sont particulièrement peu exploitables. En effet, les consignes de dépistage ont été modifiées à plusieurs reprises au cours des dernières semaines.

À noter que des variations d’intensité d’échantillonnage sont inévitables. Pour exemple, on constate souvent des incidences plus faibles pendant les week-ends.

Intervalle sériel

Ainsi que nous l’expliquons ci-après, une donnée essentielle à l’estimation du nombre de reproduction est la durée pendant laquelle une personne est contagieuse. En pratique, cette dernière est estimée au moyen de suivis de contacts (c’est-à-dire de paires infecteur - infecté) en comptant le nombre de jours qui séparent les dates d’apparition des symptômes respectivement chez l’infectant et chez l’infecté. Cette durée porte le nom d’intervalle sériel.

À ce jour, nous ne disposons d’aucune donnée concernant cet intervalle sériel en France. Autrement dit, toutes les estimations présentées ici sont faites sur la base de durées de contagiosité basées sur des enquêtes de terrain en Asie.

Notre application permet de choisir entre plusieurs jeux de données pour l’intervalle sériel afin de mieux appréhender l’effet qu’a ce paramètre, dont nous ne disposons toujours pas d’estimation à partir de données françaises, sur les résultats.

Nous illustrons ci-dessous les trois différents choix que nous proposons pour la distribution de l’intervalle sériel :

  • l’option Nishiura et alii repesentée par l’histogramme ;
  • l’option \(\text{Gamma}(6.5, 0.62)\) représentée par la courbe bleue
  • l’option \(\text{Weibull}(5, 6)\) représentée par la courbe verte.

Calculs

La théorie

En pratique, il faut deux informations pour calculer le nombre de reproduction :

  • le taux de croissance de l’épidémie à un instant donné, \(r(t)\), qui peut être aisément calculé à partir de séries temporelles d’incidence (nouveaux cas dépistés, nouvelles hospitalisations, nouveaux décès…),

  • la durée pendant laquelle une personne est contagieuse, \(D\).

Une relation bien connue et intuitive entre tous ces termes est la suivante :

\[\begin{align} \mathcal{R}(t) & = D~r(t)+1 \end{align}\]

Toutefois, cette apparente simplicité masque des problèmes de taille. Tout d’abord, même dans un contexte markovien (i.e. en absence de mémoire, voir l’onglet Modèle du logiciel COVIDSIM-FR pour une discussion sur cette notion), cette équation demeure une approximation : \(\mathcal{R}(t)\) ainsi calculé est sous-estimé d’une quantité \(\mathcal{R}_0 p\left(t\right)\), où \(p\left(t\right)\) désigne la proportion de cas à \(t\), quantité qui n’est pas toujours négligeable, en particulier au voisinage du pic épidémique.

Deuxièmement, la durée de contagiosté \(D\) est une mesure délicate : elle ne pourrait s’exprimer sous la forme d’une durée fixe qu’aux conditions qu’un individu devienne contagieux immédiatement après sa contamination et qu’il perde sa contagiosité à un taux constant (régime markovien). Dans la pratique, ces deux conditions sont rarement vérifiées. D’une part, il existe bien souvent une période de latence durant laquelle l’individu n’est pas infectieux (dans le cas du COVID-19, cette latence est d’ailleurs inférieure à l’incubation, d’où la difficulté de mesure). Celle-ci impose un terme correctif positif au taux de croissance estimé. D’autre part, la perte de contagiosité semble présenter un patron non markovien de vieillissement (typiquement capturé par des distributions de Weibull de paramètre de forme \(k>1\)). Dès lors, fixer \(D\) à une valeur “moyenne”, en se disant par exemple qu’on est infectieux 9 jours, est bien trop simpliste. Certains, comme par exemple cet article, croient résoudre le problème en prenant une distribution uniforme sur un intervalle, en se disant que par exemple on est contagieux entre 4 et 14 jours. Cette approche n’en évite pas moins les biais.

Pour visualiser l’aspect ni exponentiel ni uniforme de la distribution de la contagiosité dans le temps, on peut se référer aux estimations de l’intervalle sériel. Le graphique suivant représente les valeurs compilées par Nishiura et alii (2020) à partir de 28 paires.

Comme on le voit, la médiane (en rouge) et même un intervalle uniforme pris sur 95 % des valeurs (entre les bornes bleues) sont tous les deux peu représentatifs de l’ensemble des valeurs.

Afin de contourner le problème posé par la durée de contagiosité et sa modélisation dans un modèle SIR classique, tout en s’appuyant sur la distribution empirique, une solution élégante est fournie par l’équation d’Euler-Lotka à condition que la croissance épidémique soit encore exponentielle,

\[\begin{align} \mathcal{R(t)} & = \left(\int_{a=0}^\infty e^{- r~a}~g(a)~\text{d}a \right)^{-1}, \end{align}\]

\(a\) est “l’âge” d’une infection, \(g(a)\) est la distribution des durées de contagiosité et \(r\) le taux de croissance, supposé constant sur l’intervalle temporel. En pratique, \(g(a)\) est approchée par l’intervalle sériel, noté ici \(w(a)\), décrit ci-dessus et qui correspond à la durée séparant l’apparition de symptômes dans un couple infecteur-infecté.

Enfin, hors du régime exponentiel, et en particulier au voisinage du pic épidémique, une formule générale présentée par Wallinga & Lipsitch (2007, Proc B) fait intervenir directement les données d’incidence (\(\left(y_{1},\ldots,y_{n}\right)\), où \(y_k\) représente le nombre de nouveaux cas détectés le jour \(k\)) :

\[\begin{align} \mathcal{R}\left(t\right)=\frac{y_{t}}{\underset{a\geq0}{\sum}y_{t-a}g(a)}. \end{align}\]

Les logiciels

R0

Le logiciel R0 a été mis au point par Obadia et alii (2012, BMC Med Inform Decis Mak). Si sa méthode d’estimation par maximum de vraisemblance du nombre de reproduction de base \(\mathcal{R}_0\) repose sur l’approche développée par White et Pagano (2008, Statist Med), celle du nombre de reproduction temporel \(\mathcal{R}(t)\) est basée sur une procédure introduite par Wallinga & Teunis (2004, Am J Epidemiol), dont le principe est le suivant :

  • une courbe épidémique est une série temporelle d’incidences \(\left(y_{1},\ldots,y_{n}\right)\), où \(y_k\) représente le nombre de nouveaux cas détectés le jour \(k\). Dans le modèle originel, la détection correspond à l’apparition des symptômes.

  • cette série est le résultat d’un ensemble d’événements de transmission entre tous les cas détectés depuis le début de l’épidémie (NB : si la proportion de cas non détectés demeure constante sur la fenêtre temporelle étudiée, l’estimation n’est pas biaisée ; autrement, un pré-traitement des données est nécessaire, voir p.ex. White et alii (2009, Influenza and Other Respiratory Viruses)). La structure de cet ensemble d’événements est vue comme un arbre (plus exactement un graphe connexe acyclique orienté) dont la probabilité de sous-tendre les données (i.e. la vraisemblance) est décomposée en paires d’infecteur/infecté (les transmissions sont supposées indépendantes).

  • si \(p_{i,j}\) désigne la probabilité que l’individu \(\mathrm{I}_j\) détecté le jour \(t_j\) soit l’infecteur de l’individu \(\mathrm{I}_i\) détecté le jour \(t_i\), alors, par définition de l’intervalle sériel dont la loi est caractérisée par la suite \(\left(w_{k}\right)_k\geq 0\),

\[\begin{align} p_{i,j}\propto w_{t_i-t_j} \end{align}\]

(NB : la différence de jours \(t_i-t_k\) correspond à la notation \(a\) ci-dessus)

  • en conséquence, la vraisemblance relative de la paire \(\left(i,j\right)\), \(\ell_{i,j}\) a pour expression

\[\begin{align} \ell_{i,j} & = p_{i,j}\big/\underset{k\neq i}{\sum}p_{i,k} \end{align}\]

  • Le nombre de reproduction individuel du cas \(j\) (noté \(R_j\)) correspond donc à la somme sur tous les cas \(i\) qu’il a pu infecter, pondéré par la vraisemblance relative de chaque paire

\[\begin{align} R_{j} & = \sum_i \ell_{ij} \end{align}\]

  • Le nombre de reproduction temporel est au final obtenu en moyennant le nombre de reproduction individuel sur l’ensemble des cas ayant été détectés le même jour \(j\), avec \(t_j=t\) :

\[\begin{align} \mathcal{R}(t) & = \frac{1}{y_{t_j}} \sum_{j:t_j=t} R_j \end{align}\]

Ce logiciel permet par ailleurs d’utiliser directement des valeurs brutes pour l’intervalle sériel (ce que nous avons fait).

EpiEstim

Le logiciel EpiEstim développé par Cori et alii (2013, Am J Epidemiol), mis à jour en 2019 (Thompson et alii 2019 Epidemics) repose sur une approche différente du logiciel R0 motivée par le fait que dans la situation où l’épidémie étudiée serait encore en cours, et plus particulièrement lorsqu’il s’agit d’évaluer l’efficacité de mesures de contrôle (une situation très actuelle donc), le nombre total d’infections causées par les derniers cas détectés n’est pas encore connu. Cette faiblesse est l’occasion de mettre en évidence deux approches du nombre de reproduction temporel, à savoir

  1. celle de Wallinga & Teunis (2004), Obadia et al. (2012), du logiciel R0 mène au nombre de reproduction de cas (ou bien encore de cohorte), qui est rétrospectif : son calcul repose sur le nombre de cas secondaires effectivement causés par une cohorte d’infecteurs détectés à partir de la date à laquelle ces derniers ont été détectés

  2. celle de Cori et al. (2013), Thompson et al (2019), du logiciel EpiEstim mène au nombre de reproduction instantané, qui est prospectif : son calcul repose sur le nombre potentiel d’infectés secondaires qu’une cohorte de cas aurait pu causer si les conditions de transmissibilité étaient restées les mêmes qu’au moment de leur détection.

Pour reprendre Cori et al. (2013), cette distinction est équivalente à celle entre la durée de vie (rétrospective) d’une cohorte d’individus, calculée une fois ces derniers tous décédés, et l’espérance de vie (prospective) de cette même cohorte, estimée sous l’hypothèse que la mortalité restera identique à celle connue à leur naissance.

Formellement EpiEstim maximise la vraisemblance des données d’incidence (vues comme un comptage poissonien) observées sur une fenêtre temporelle au cours de laquelle le nombre de reproduction est considéré constant. En notant \(y_k\) et \(y_{k}^{+}\) respectivement les nombres de nouveaux cas autochtones et totaux (i.e. locaux + importés), et \(w_s\) la probabilité correspondante à un intervalle sériel \(s\), le nombre de reproduction temporel (instantané) pour l’intervalle \(\left[t;t-\tau\right]\) vérifie

\[\begin{align} \mathcal{R}_{\tau}\left(t\right) & = \underset{R}{\mathrm{argmax}}\left\{ \underset{k=t-\tau}{\overset{t}{\prod}}y_{k}!^{-1}e^{-R\underset{s=1}{\overset{k}{\sum}}w_{s}y_{k-s}^{+}}\left(R\underset{s=1}{\overset{k}{\sum}}w_{s}y_{k-s}^{+}\right)^{y_{k}}\right\} \end{align}\]

Le nombre de calculs nécessaires au logiciel EpiEstim pour réaliser les inférences explique sa relative lenteur.

Sources et remerciements

Que représentent les graphiques ?

Les deux premiers représentent le nombre de reproduction temporel noté \(\mathcal{R}(t)\), c’est à dire, à un instant donné \(t\), le nombre de personnes qu’infecte une personne infectée au cours de son infection. C’est donc une estimation du potentiel de propagation de l’épidémie. Les zones grisées indiquent l’intervalle de confiance et la ligne la médiane.

Le troisième graphique représente les données d’incidence, c’est-à-dire ici le nombre de nouveaux cas détectés chaque jour. Selon le choix dans le menu, cette incidence provient des dépistages, des hospitalisations, des entrées en réanimation ou des décès.

Le quatrième graphique permet de zoomer sur une période temporelle en particulier en faisant glisser les petits curseurs (déplacer celui de gauche vers la droite pour mieux voir les valeurs récentes).

Si \(\mathcal{R}(t)\) est plus petit que 1, alors tout va bien ?

Pas nécessairement: \(\mathcal{R}(t)\) représente la tendance de l’épidémie mais ne reflète pas l’état actuel. En particulier, vous pouvez tout à fait avoir une épidémie qui décroît mais avoir des centaines de milliers de personnes infectées et des services de réanimation débordé.

Pourquoi deux graphiques différents pour \(\mathcal{R}(t)\) ?

Ces deux graphiques reposent sur deux méthodes légèrement différentes, qui sont décrites dans l’onglet Modèle. La méthode EpiEstim est moins sensible aux variations temporelles (elle calcule une moyenne sur 7 jours) et elle utilisé un modèle plus détaillé pour prévoir les valeurs récentes. La méthode R0 est elle plus sensible aux variations de la courbe d’incidence et la valeur la plus récente peut avoir un effet important sur la courbe.

Y a-t-il une des deux méthodes à privilégier ?

Oui, mais cela dépend de l’information qui vous intéresse. La méthode R0 est à privilégier dès lors que l’on s’éloigne du présent — et donc que l’on cherche à connaître une estimation pour une date passée. Et au contraire, pour une estimation de \(\mathcal{R}(t)\) récente on se tournera plutôt vers la méthode EpiEstim.

Quel intervalle sériel choisir ?

L’intervalle sériel sert à estimer le nombre de jours qui s’écoulent entre le moment où une personne est infectée et le moment où elle en infecte une autre. Cette donnée est nécessaire pour mesurer le nombre de reproduction. Malheureusement, l’intervalle sériel est inconnu à ce jour pour les épidémies en France et en Europe. Nous avons donc proposé plusieurs distributions d’intervalles mesurés sur des épidémies de COVID-19 en Asie ou estimés à la lumière de précédentes épidémies.

Quelle fenêtre choisir pour EpiEstim ?

Afin d’être moins sensible à l’aléa journalier présent dans les séries d’incidence, EpiEstim émet l’hypothèse que \(\mathcal{R}(t)\) est constant sur un certain nombre de jours : c’est ce nombre de jours que l’on appelle ici fenêtre.

Cette hypothèse n’est pas totalement gratuite car cela suppose que tous les nouveaux cas sur la durée de la fenêtre sont indépendants. En pratique, cela signifie que si la fenêtre est trop grande, alors les nouveaux cas apparus au début de la fenêtre auront contribué à engendrer les nouveaux cas apparus à la fin de la fenêtre ; ainsi, l’hypothèse n’est plus valable.

C’est pourquoi nous proposons deux choix pour la fenêtre :

  • 3 jours, qui s’affranchit (suffisament) de l’hypothèse d’indépendance des nouveaux cas, mais qui est plus sensible aux aléas statistiques ainsi qu’au délais de signalement plus long le week-end ;
  • 7 jours, moins dépendant des aléas mais comportant probablement un biais dû à une indépendance moindre des observations sur la durée de la fenêtre.

Notons aussi qu’il n’y aura pas d’estimation de \(\mathcal{R}(t)\) pour les 3 ou 7 premiers jours, selon la fenêtre choisie.

Pourquoi n’a t-on pas les estimations de \(\mathcal{R}(t)\) pour des dates plus récentes ?

Il y a toujours un décalage entre l’état de l’épidémie et ce que l’on peut estimer grâce aux données. Ce décalage vient du fait que les évènements mesurés (dépistage, hospitalisation, entrée en service de réanimation, décès) ne surviennent qu’un certain nombre de jours après l’infection des individus — évènement le plus à même de caractériser l’épidémie en temps réel, mais en pratique jamais connu.

Ces décalages sont variables d’un individu à l’autre mais par souci de simplicité nous les avons fixés à des durées que nous jugeons représentatives, à savoir :

  • 10 jours de décalage pour les cas nouvellement dépistés ;
  • 12 jours de décalage pour les hospitalisations ;
  • 14 jours de décalage pour les entrées en réanimation ;
  • 28 jours de décalage pour les décès.

Quelles sont les données les plus fiables ?

Les données d’incidence sont généralement les moins fiables car très sensible aux variations de politiques de détection. Par exemple, en France on a peu dépisté au début de l’épidémie, avant d’augmenter le nombre de tests. Cette hausse du dépistage se traduit mécaniquement par une hausse du nombre de cas détectés et donc une hausse du nombre de reproduction, alors même que l’épidémie pourrait décroître fortement.

La donnée la plus fiable pour mesurer \(\mathcal{R}(t)\) est donc celle où la politique de dépistage a le moins varié au cours du temps. En France, cela correspondrait donc aux données des nouvelles admissions en réanimation.

Quelle différence entre les départements et les pays ?

Les données nationales agrègent les données départementales. Cette addition fait qu’elles sont moins sensibles aux fluctuations stochastiques. Les estimations sont donc plus robustes avec des intervalles de confiance plus restreints.

En revanche, il faut être conscients que si seuls quelques départements regroupent la majorité des cas, alors les données nationales reflètent peut-être peu la situation de l’épidémie dans les départements les moins touchés.

Pourquoi n’y a t-il pas tous les pays/régions/départements dans les listes proposées ?

Les données de certaines localités ne permettaient pas d’être traitées par les packages utilisés. Il fallait notamment que :

  • la première donnée soit non-nulle ;
  • qu’il n’y ait pas de valeurs manquantes ;
  • que le nombre d’observations consécutives soit supérieur à huit.