mardi 9 août 2011

Anonymisation automatisée

Le procédé d'anonymisation automatisée vient d'être activé.

Concrètement, les textes jusqu'à présent inaccessibles en raison de leur contenu sensible se voient filtrés par un algorithme qui reconnaît les mots ou séquences de mots qui peuvent correspondre à une donnée à caractère personnel.

A titre d'exemple, un échantillon de textes ainsi traités:

Le prochains développements relatifs à la protection de la vie privée viseront à étendre le champ d'application du filtrage ainsi qu'à en améliorer la qualité.

Techniquement
L'algorithme lui-même est au final remarquablement primitif dans son fonctionnement. Des approches complexes, basés sur des analyses statistiques et probabilistiques appliqués à la linguistique, étaient à l'étude mais se sont avérés au mieux équivalents à des méthodes plus naïves et bien plus rapides à mettre en application.

De plus, ce n'est pas l'algorithme lui-même mais son insertion dans la plate-forme qui demanda le plus d'efforts. Ceux-ci effectués, des raisonnements plus poussés de traitement du langage naturel permettront d'en augmenter la qualité.

Plusieurs procédés de contrôle permettent de vérifier l'application du filtrage afin d'éviter toute propagation préjudiciable. A la moindre défaillance, l'accès aux textes concernés est bloqué, et une système autonome, indépendant du site, veillera également à son bon fonctionnement.

1 commentaire: