Partager cette page :
Discipline(s) : Infomatique et télécommunications

Bio-informatique

Semestre Semestre 1
Type Facultatif
Nature UE

Objectifs

L'objectif de cette UE est d'appliquer une démarche scientifique complète pour l'analyse de données expérimentales en bioinformatique.
Cette démarche englobe différents aspects du travail de recherche en bioinformatique.
Elle porte notamment sur les notions de plan d'expérience, les techniques d'extraction et de manipulation de données, l'analyse statistique de ces données et l'interprétation des résultats.
Elle repose sur l'utilisation d'outils bioinformatiques classiques et permet d'illustrer des questions qui demeurent actuellement ouvertes ou qui font l'objet de travaux de recherche en cours.

Contenu

Le fil conducteur de l'UE est la recherche de marqueurs associés à une maladie génétique.
Les données de départ sont constituées des données génomiques séquencées de sujets sains et de sujets malades.
Les séances couvrent les étapes successives de l'analyse de ces données afin :

d'identifier des variation génomiques candidates pouvant être associées à une maladie génétique
d'identifier les mécanismes biologiques sous-jacents.
Concrètement, les données génomiques seront consituées pour chaque patient d'un jeux de séquences générés par un séquenceurs nouvelle génération (NGS).
Chaque jeux de donnée consiste en un grand nombre (centaine de millions) de courtes séquences (les reads) de taille 100 nucléotides (ACGT).

La première étape consiste à explorer les solutions algorithmiques permettant de déterminer efficacement les variations génétiques présentes dans ces masses de données. Et à associer les variants détécté aux gènes auxquels ils appartiennent.

De très nombreuses variations génétiques sont attendues, y compris entre individus sains.
Il est donc nécessaire de determiner les variants qui sont spécifiquement associés à la maladie.
Ainsi, une fois les variants détectés, la seconde étape consiste en une étude statistique permettant d'évaluer le niveau de corrélation de chaque variant avec la maladie.
À ce stade, on dispose de variants directement exploitables, par exemple pour faire du diagnostic sur de nouveaux patients.

La troisième étape consiste à interpréter les variants significativement associés à la maladie en identifiant les mécanismes dans lesquels ils interviennent.
Pour cela, il est nécessaire de faire appel à des connaissances a priori du domaine, disponibles dans des banques de données publiques.
Dans un premier temps, nous irons donc chercher quelles sont les processus biologiques et les maladies associées à ces variants.
Dans un second temps, une étude statistique permettra de déterminer les processus biologiques et les maladies sur-représentés parmi les variants.
À ce stade, on est dispose des mécanismes biologiques pouvant expliquer le caractère pathologique des variants, ce qui peut être exploité pour prédire l'efficacité d'un traitement ou pour rechercher de nouveaux traitements.

Savoirs et savoir-faire acquis
  • Démarche expérimentale
  • Tests statistiques (utilisation du logiciel R) : représentation graphique des données, tests d'homogénéité...
  • Notions de vrai positif, vrai négatif, faux positif et faux négatif. Notion de  "precision" et "recall".
  • Tests de sur-représentation (ex. test hypergéométrique)
  • Bioinformatique
  • Bases de génétique/génomique (ADN, gène, protéine et variants).
  • Technologies de séquençage genomique (capacités, et biais)
  • Notion de chaîne de traitements et utilisation de l'environnement galaxy
  • Algorithmique des masses de données textuelles
  • Utilisation d'un outil de prediction de variants : connaissances de son fonctionnement algorithmique, de ses qualités et de ses défauts.
  • Données liées et Web sémantique
  • Recherche des variants connus associés à un gène et des maladies éventuelles associées aux variants
  • Recherche des voies métaboliques dans lesquelles interviennent les gènes

Mise à jour le 13 avril 2018