Le rôle du calcul accéléré en génomique
Le National Institute of Standards and Technology héberge un consortium public-privé appelé Genome in a Bottle pour développer des conventions et des ressources sur le séquençage du génome humain pour la pratique clinique. Justin Zook, co-responsable du groupe Biomarker and Genomic Sciences au NIST, a discuté des cas d'utilisation inattendus des données du programme.
« L'un des cas d'utilisation que nous n'avions pas vraiment envisagés lorsque nous avons lancé Genome in a Bottle il y a 12 ou 13 ans est que ceux-ci peuvent également être utilisés pour former des modèles d'apprentissage automatique ou des modèles d'apprentissage profond », a déclaré Zook.
Par exemple, DeepVariant, développé par Google et implémenté dans NVIDIA Parabricks, pourrait s'entraîner et tester sur les benchmarks GIAB de manière plus simple et plus rapide. « L'une des choses pour lesquelles les méthodes d'apprentissage profond ont vraiment aidé est l'adoption de nouvelles technologies », a-t-il ajouté.
PRÉPARER: Les conseils d’experts aident les organismes de santé à réaliser une transformation significative grâce à l’IA.
Laura Egolf, informaticienne au Laboratoire national Frederick pour la recherche sur le cancer de l'Institut national du cancer, a expliqué comment les flux de travail modernisés soutiennent des études majeures sur le COVID-19 et d'autres maladies.
« Une technologie plus récente nous permet de procéder au séquençage du génome entier, ce qui permet de capturer davantage de variations et d'étudier de plus grandes variantes », a déclaré Egolf. « Heureusement, le coût du séquençage du génome entier a considérablement diminué depuis le séquençage du premier génome humain au début des années 2000. »
COVNET est l’une de ces études génomiques à grande échelle qui espère identifier des variantes génétiques communes et rares associées à la gravité du COVID-19 chez différents individus et populations, a-t-elle déclaré.
L'étude a collecté des milliers d'échantillons, ce qui a soulevé des questions concernant le coût et la disponibilité du stockage et de la puissance de calcul pour analyser toutes les données. Les données traitées avec des pipelines standard basés sur le processeur peuvent prendre un jour ou plus pour chaque échantillon.
Avec le développement d'un pipeline accéléré et portable dans le cloud basé sur Parabricks, les temps d'exécution de certaines étapes pourraient être réduits à seulement trois à quatre heures.
« L'ampleur croissante des données génétiques nécessite des solutions accélérées et compatibles avec le cloud », a déclaré Egolf. « Ces pipelines accélérés permettent des études génétiques à grande échelle sur le COVID-19, le cancer pédiatrique, l’exposition aux radiations et d’autres domaines de la santé humaine. »