Qu’est-ce qu’une donnée anonymisée ?
Bien que les processus de désidentification et d’anonymisation visent tous deux à supprimer les identifiants clés des données, ils adoptent des approches différentes qui aboutissent à des résultats différents.
Selon Victor Lee, vice-président de l’apprentissage automatique et de l’IA chez TigerGraph, « l’anonymisation est une capacité importante. Il examine un seul élément et supprime les informations sensibles telles que le nom de la personne ou son numéro de sécurité sociale, afin que les étrangers ne puissent pas dire de qui il s’agit. Ce qui est considéré comme sensible dépend du cas d’utilisation. Dans le cas d’essais cliniques, il pourrait s’agir des informations de santé actuelles ou des antécédents médicaux d’un patient.
Cependant, les données anonymisées peuvent poser plusieurs problèmes pour les études agrégées. Premièrement, la suppression des informations démographiques clés qui pourraient être utilisées pour déterminer la signification statistique. Deuxièmement, il y a la question de la ré-identification. Avec l’accès à de grandes quantités de données anonymisées et à des ensembles de données accessibles au public, il peut être possible de faire correspondre des enregistrements anonymisés avec leurs propriétaires respectifs.
Lee souligne l’exemple d’un concours Netflix d’il y a plus de dix ans. « La société a organisé un concours pour améliorer son algorithme et a fourni des données anonymisées sur les habitudes de visionnage des utilisateurs », dit-il. Un chercheur a associé ces données à des informations externes – telles que des commentaires sur les réseaux sociaux sur des films rarement regardés – pour ré-identifier les téléspectateurs.
EXPLORER: Comment utiliser les systèmes d’aide à la décision clinique pour améliorer les résultats des patients.
Qu’est-ce qu’une donnée anonymisée ?
Les données anonymisées vont encore plus loin dans cette obfuscation d’identité sans sacrifier la signification statistique.
« Les techniques incluent la conversion de valeurs d’enregistrement spécifiques en plages qui aident à généraliser les informations ou l’introduction intentionnelle d’enregistrements fictifs », explique Lee. « Les organisations doivent identifier les paramètres sensibles et quelles données sont significatives, puis anonymiser les données de manière à ce qu’elles conservent leur signification statistique. »
Une autre technique est ce qu’on appelle le k-anonymat, où la valeur de « k » indique le nombre d’enregistrements qui partagent des variables potentiellement identifiantes. Par exemple, si k est égal à cinq, cela signifie que le plus petit ensemble d’enregistrements contenant des données identiques pour un ensemble spécifique de variables est de cinq, ce qui rend plus difficile la désanonymisation des données des patients.
Comment les données dépersonnalisées et anonymisées alimentent-elles les essais cliniques ?
Ces ensembles de données permettent aux chercheurs d’effectuer des analyses et des comparaisons pertinentes sans compromettre la vie privée des patients. De plus, ce processus peut se produire rapidement puisque les données peuvent être introduites dans des algorithmes d’essai spécialement conçus plutôt que d’être examinées par le personnel à chaque étape du processus d’essai. L’utilisation de techniques de désidentification et d’anonymisation peut également aider les organisations de soins de santé à garantir la conformité aux réglementations en constante évolution telles que le règlement général sur la protection des données, le California Consumer Privacy Act et HIPAA.
Pour le CCPA, les entreprises doivent prendre des mesures pour anonymiser les informations de sorte qu’elles ne puissent pas « raisonnablement identifier, se rapporter à, décrire, être susceptibles d’être associées à, ou être liées, directement ou indirectement, à un consommateur particulier ». L’HIPAA exige également l’anonymisation à l’aide de l’une des deux méthodes suivantes : sphère de sécurité ou détermination par un expert.