jeudi 15 décembre 2011

C'est l'hiver

Mots-clés désactivés
Les mots-clés ont étés désactivés, suite à la charge de travail que leur gestion imposait sur le serveur, déjà fort sollicité.

Bien que plusieurs mécanismes de filtrage étaient en place afin de limiter leur nombre, il s'est avéré que le serveur n'a pas la capacité d'effectuer, en plus du reste, les nombreuses opérations nécessaires à les rendre un tant soit peu utiles.

Le principe n'est pas pour autant perdu: les efforts effectués et les concepts imaginés se retrouveront sans doute dans une forme ou une autre ailleurs.


Stagnation

S'ouvre maintenant une période de stagnation des possibilités offertes par Etaamb, dont le développement va plutôt s'orienter dans les prochains mois vers une amélioration de ce qui existe déjà.

Cela permettra un fonctionnement plus stable et cohérent (la plateforme peine toujours à servir des textes très longs), et peut-être de récupérer des ressources serveur si critiques.

Cette révision du code source de la plateforme lui donnera aussi plus de flexibilité afin d'acceuillir dans des conditions encore meilleures de futures extensions.


Visites
Etaamb vient de franchir, en novembre, le cap des 20.000 pages vues par mois pour plus de 10.000 visiteurs uniques.

Les récentes modifications des algorithmes d'indexation de Google ainsi que les efforts d'anonymisation d'Etaamb semblent avoir apportés des visiteurs en moyenne moins nombreux mais plus intéressés, qui poursuivent leur consultation ou qui reviennent par après sur le site.

Actuellement, le nombre de visiteurs uniques quotidiens approche le millier.


Avenir de la plateforme
De récents évènements, non liés à Etaamb, ont permis d'assurer encore une certaine continuité à la plateforme, en attendant que de réelles solutions à moyen et à long terme ne se dégagent.

vendredi 28 octobre 2011

Taxinomie dynamique et théorie des graphes

Une toute nouvelle fonctionnalité vient d'être ajoutée à Etaamb, qui sous ses airs innocents donne une toute nouvelle direction à la plateforme.


Il s'agit d'une petite et première étape, dont la mise en place fut néanmoins laborieuse: en partant d'une idée très ambitieuse et complexe (extraction d'expressions), elle à été itérativement affinée à sa plus simple expression (taxinomie par termes simples): des mots-clés.

Mots-Clés

Intitulé "Mots-clés" dans l'interface, semblables aux "Tags" ou encore "Marqueurs" dans d'autres domaines, il s'agit d'une taxinomie dynamique. Les mots sont extraits du texte, analysés, comparés, puis attribués.

Elle est dynamique car chaque nouveau texte analysé à une influence, et aucune attribution n'est fixe: les mots-clés sont en relation les uns avec les autres, faisant apparaitre des structures relationnelles mouvantes entre les marqueurs ainsi qu'entre les textes.



Les possibilités qui en découlent

En appliquant plusieurs concepts sur ces réseaux de relations - tel que la théorie des graphes - des possibilités très intéressantes devient réalisables: une taxinomie par termes composés,  la définition de concepts autour des marqueurs-clés, l'attribution indirecte des marqueurs, etc...

Un véritable système de catégorisation pourrait ainsi en découler, bien qu'un tel système est bien loin de l'idéal qu'on pourrait s'en faire: il serait illusoire de vouloir le comparer à une classification organisée, réfléchie et humaine.

Cependant, en pré-digérant une partie du travail, les possibilités de consultation et de recherche par les utilisateurs s'élargissent, lui permettant d'être plus efficace. Cette recherche de l’efficacité de l'utilisateur constitue un des fondements de la plateforme.

 Un aspect assez prometteur, dont la faisabilité est tout sauf certaine, serait l'application en parallèle des théories relationnelles aux textes, permettant de concevoir un ensemble de textes centraux, fondateurs, et d'ainsi proposer un "guide de lecture" pour chaque concept/catégorie préalablement définie. Ce n'est pas de la science fiction, mais il est fort probable que les ressources dont dispose la plateforme soient trop limitées que pour y aboutir.



Côté technique

Techniquement Etaamb à subi plusieurs améliorations. Ainsi, quelques fonctionnalités auparavant écrites en PHP ont étés transférés en extensions, écrites en C.

Ce transfert vise une meilleure utilisation des ressources dont dispose la plate-forme, accélérant les traitements de pré-calcul et d'affichage.

D'autres améliorations concernent des optimisations des bases de données, de gestion d'erreurs et d'autres opérations de maintenance.



Avenir de la plateforme

Etaamb est un projet technique, une série d'expériences sur un contenu vaste et intéressant (le Moniteur Belge). Tant qu'il reste des concepts et théories à explorer (dont l'aspect mathématico-relationnel abstrait ci-dessus n'est qu'une partie), il est probable qu'elle dure.

Mais malgré cela des pistes de monétisation sont explorées, car tout cela à forcément un prix. Si de futures étapes veulent être franchies, les besoins en ressources nécessiteront forcément un effort financier plus important. Si rien n'aboutit dans ce sens, aucune garantie à long terme ne peut être donnée quant à la subsistance de la plate-forme.

jeudi 15 septembre 2011

L'abonnement via RSS

La plate-forme Etaamb propose désormais l'abonnement RSS aux sommaires du Moniteur Belge, dans les deux langues.

Bien qu'il s'agit encore d'une fonctionnalité en cours de développement, le service est d'ores et déjà utilisable.

Les flux, ainsi que quelques informations supplémentaires, sont disponibles sur cette page.

Really Simple Syndication

RSS est une méthode de syndication de contenu, tel qu'il en existe sur internet depuis 1999. Il permet à un logiciel, un agrégateur RSS, de suivre automatiquement la publication de nouveaux contenus sur les sites auquel il est abonné, évitant à l'utilisateur de se rendre sur le site concerné.

Elle prend tout son sens lorsqu'un utilisateur désire suivre plusieurs sources d'information, le permettant d'ainsi tout centraliser en un seul endroit, comme par exemple son client e-mail (la plupart des clients e-mail offrent des fonctionnalités d'agrégateurs RSS).

mardi 16 août 2011

Barre de recherche

La plate-forme Etaamb vient de se voir enrichi d'une barre de recherche.

Cette nouvelle fonctionnalité n'en est pas réellement une, car la recherche à proprement parler est effectuée par le moteur de recherche de Google, dans les limites du contenu proposé par le site.

Cette approche a comme avantage de ne pas demander de développement supplémentaire, permettant de se concentrer sur des fonctionnalités particulières plus intéressantes à la consultation et l'utilisation des textes.

Elle a par contre comme désavantage de dépendre de l'état de l'indexation du site par les services de Google.

samedi 13 août 2011

QR Code !

Voilà enfin une fonctionnalité qui me démangeait depuis l'adaptation d'Etaamb aux plateformes mobiles: la plate-forme intègre depuis aujourd'hui les codes QR (documentation).

Cet technologie, loin d'être récente et qui se répand lentement en Europe par le biais du marketing, permet à un utilisateur équipé d'un smartphone et de l'application idoine de scanner ce code-barres 2D et d'ouvrir ainsi la page internet qui y est encodée.

Dans le cas d'Etaamb, scanner le QR Code (sur écran ou imprimé sur papier) avec un smartphone ouvrira le document concerné dans ce dernier, pratique pour passer de l'ordinateur ou du papier au smartphone.

Par exemple, en scannant le code en haut à droite de ce message, votre appareil mobile ouvrira automatiquement la page suivante:
http://www.etaamb.be/fr/circulaire-du-27-octobre-2003_n2003000858.html


Au niveau des scanneurs QR gratuits, j'ai repéré une application iPhone et une autre pour Android. Les Codes QR fonctionnent bien sur également sur les tablettes équipées d'un capteur optique.

mardi 9 août 2011

Anonymisation automatisée

Le procédé d'anonymisation automatisée vient d'être activé.

Concrètement, les textes jusqu'à présent inaccessibles en raison de leur contenu sensible se voient filtrés par un algorithme qui reconnaît les mots ou séquences de mots qui peuvent correspondre à une donnée à caractère personnel.

A titre d'exemple, un échantillon de textes ainsi traités:

Le prochains développements relatifs à la protection de la vie privée viseront à étendre le champ d'application du filtrage ainsi qu'à en améliorer la qualité.

Techniquement
L'algorithme lui-même est au final remarquablement primitif dans son fonctionnement. Des approches complexes, basés sur des analyses statistiques et probabilistiques appliqués à la linguistique, étaient à l'étude mais se sont avérés au mieux équivalents à des méthodes plus naïves et bien plus rapides à mettre en application.

De plus, ce n'est pas l'algorithme lui-même mais son insertion dans la plate-forme qui demanda le plus d'efforts. Ceux-ci effectués, des raisonnements plus poussés de traitement du langage naturel permettront d'en augmenter la qualité.

Plusieurs procédés de contrôle permettent de vérifier l'application du filtrage afin d'éviter toute propagation préjudiciable. A la moindre défaillance, l'accès aux textes concernés est bloqué, et une système autonome, indépendant du site, veillera également à son bon fonctionnement.

mardi 19 juillet 2011

Vie privée & Anonymisation, 2ème.

Le procédé d'anonymisation automatisée est pleinement fonctionnel, et sera prochainement disponible.

Une fois mis en place, les documents actuellement indisponibles seront remis sur la plateforme, et son aire d'application sera également étendu progressivement à tout les textes pouvant contenir des données à caractère personnel.

En marge de ce procédé un formulaire de demande de retrait de données personnelles vient d'être ajouté (sous l'onglet "vie privée"), pour les cas ou un document n'aurait pas encore été répertorié comme contenant des données à caractère personnel.

Les autres développements sont évidemment ralentis par cette évolution du site, bien qu'extrêmement intéressante et avant tout importante, car du succès de cette étape dépend sans doute la suite du projet.

vendredi 10 juin 2011

Etaamb sur petits écrans

Le site etaamb.be a été adapté pour smartphone (baptisé "ordiphone" en français contemporain).

Les divers contenus ont été replacés et redimensionnés afin d'offrir une consultation plus aisée sur des écrans de taille réduite (moins de 480 pixels de large).

Mais le monde du smartphone est particulier, et vu la grande variété de plateformes et la diversité plus grande encore de leur navigateurs internet - chacun avec ses particularités et incompatibilités (on se croirait revenu fin des années '90) - , il est impossible de garantir une même expérience d'utilisation sur chaque plateforme sans y consacrer d'énormes efforts. Selon l'ordiphone utilisé, Etaamb peut donc varier, voir sembler inadapté.

Etaamb a été testée sur iOS4 (iPhone) et Android 2.2. Et encore, il n'y est pas tout à fait identique, les propriétaires d'iPhone ne verront par exemple pas la flêche permettant de remonter d'un coup en tête de page (mais il leur est possible de le faire d'un seul geste).

Le site peut aussi être visualisé sous les deux orientations, portrait et paysage. Le mode portrait convient dans ce cas mieux à la navigation (profitant de la verticalité pour afficher plus d'informations, de contexte), et le mode paysage, de par son léger effet d'agrandissement, semble plus confortable pour la lecture des textes.

Pour un aperçu, de décembre 2010, du paysage des navigateurs des "ordiphones":
http://www.alistapart.com/articles/smartphone-browser-landscape/

Problèmes à prévoir
Mais tout n'est pas rose dans le monde du développement internet. Il se peut que certains navigateurs ne sachent différencier l'affichage pour ordiphones de celui prévu pour écrans, voir n'affichent que le contenu textuel.

Internet Explorer (l'éternel) en souffrait, mais un correctif spécifique a déjà été mis en place.

D'autres navigateurs, et sans doute des version plus anciennes, pourraient également souffrir de cette mise à jour.

mardi 7 juin 2011

Vie privée & Anonymisation

Tous les documents (quelques milliers) pouvant contenir des informations sensibles pouvant porter atteinte à la vie privée ont étés rendus temporairement inaccessibles sur Etaamb.

Temporairement ?

Oui, le temps de développer un procédé automatisé d'anonymisation desdits textes.

Etaamb est un exercice technique, et ce développement imprévu constitue un défi intéressant. Après les procédés de data mining (exploration de données) c'est désormais autour du npl (Natural Language Processing - Traitement automatique du langage naturel) que le développement d'Etaamb va s'articuler.

Une fois que celui-ci sera fonctionnel et offrira le résultat recherché, les textes concernés pourront alors à nouveau être consultés, intégralement anonymisés.

mardi 31 mai 2011

500 visites quotidiennes!

Une étape vient d'être franchie dans la fréquentation d'Etaamb, qui a compté hier 30 mai 2011 pas moins de 551 visiteurs.

La fréquentation d'Etaamb fut assez stable depuis le début du mois, avec une moyenne de 300 visites/jour: entre 320 et 360 en semaine et entre 160 et 210 en weekend.

Depuis jeudi dernier les visites sont en constante augmentation (probablement lié à la période d'examens).

Derniers développements

Plusieurs développements modestes, toutefois conséquentes, ont eu lieu depuis le dernier message:

Format des URL
Depuis le début, Etaamb avait trois adresses "racines", autrement dit domaines:
  • www.etaamb.be
  • fr.etaamb.be
  • nl.etaamb.be
Or, ceci dissociait les trois domaines au niveau des moteurs de recherche, ce qui n'est pas souhaitable.

Le format à donc été modifié, et le choix de la langue fait maintenant partie de la requête plutôt que du domaine:
  • www.etaamb.be/fr
  • www.etaamb.be/nl
La modification a eu lieu tout en restant compatible avec le précédent format, et bien qu'elle ait nécessité de nombreuses modifications, de bonnes pratiques et des tests unitaires ont assurés une transition sans obstacles.

Tri par promulgation
Il est désormais possible d'accéder aux textes à travers leur dates de promulgation.
Ceci a à nouveau provoqué une modification du format d'adresse d'Etaamb, tout en restant compatible avec le format précédent.

Cette compatibilité est primordiale car les moteurs de recherche continueront d'utiliser l'ancien format tant qu'ils n'auront pas remis à jour leur indexes.

Dates avant 1970
Dû à une limitation inhérente à l'informatique, Etaamb avait quelques difficultés lors de l'affichage des dates pré-1970.
Ceci est désormais corrigé, et Etaamb remonte sans soucis jusqu'à 1803.

Corrections mineures
Toutes ses améliorations, pas toujours spectaculaires mais profondes dans leurs implications, ont parfois provoqués différents comportements erronés, qui ont pu affecter pour de courtes périodes le fonctionnement d'Etaamb.
Son développement repose moins sur des tests à outrance que sur des mises à jour fréquentes, adapté à une évolution rapide et réactive.

mardi 3 mai 2011

Listes & Liens inverses

Une nouvelle mise à jour vient d'ajouter deux fonctionnalités à Etaamb, et non des moindres:

Listes:
Les textes du moniteur énumèrent souvent diverses choses. Jusqu'à présent, ces énumérations étaient représentées par Etaamb sur une seule et longue ligne, formant un bloc indigeste. Dorénavant, ils seront précédés par un retour à la ligne et une légère indentation, de manière à les rendre aussi intelligibles que possible.

La loi du 29 avril relative à l'organisation du marché de l'électricité illustre bien ce fait (l'article 2 qui est un petit glossaire, par exemple):
http://fr.etaamb.be/loi-du-29-avril-1999_n1999011160.html

Liens inverses:
Etaamb propose et rassemble depuis un certain moment déjà les liens directs entre les documents. Maintenant, il proposé également les liens inverses , ç-à-d qu'à côté d'un document on trouvera des liens vers des textes plus récents qui le mentionnent.

Prenons la loi du 19 avril 2002 relative à la rationalisation du fonctionnement et de la gestion de la Loterie Nationale ( http://fr.etaamb.be/loi-du-19-avril-2002_n2002014105.html ). A la droite du document, au-dessus des textes mentionnés par la loi elle-même, on retrouve une série de textes plus récents: des lois qui le modifient, des arrêtés qui l'appliquent, un recours en annulation de la loi devant la cour constitutionnelle, etc...

Il y à donc, à la droite du document affiché, deux rubriques:
  1. Les textes qui mentionnent le document affiché: ce sont les liens inverses, classés par type de document (Loi, Arrêté, etc...)
  2. Les textes mentionnés par le document affiché: ce sont les liens directs, déjà incorporés sous forme de liens dans le texte lui-même, classés par type et par date de promulgation.
Accessoirement, Etaamb à subi quelques ajustements graphiques, et le precalcul se fait maintenant d'après la taille des documents, certains étant tout simplement gigantesques (le texte le plus long compte plus de 3 millions de signes).

lundi 18 avril 2011

Mise à jour de pâques

Plusieurs point ont étés adressés par la dernière mise à jour:

Extraction de liens:
L'algorithme d'extraction de liens à encore été sensiblement amélioré.
Pour exemple:
http://nl.etaamb.be/koninklijk-besluit-van-27-november-1998_n1998003608.html

Dans ce texte néerlandophone, Etaamb avait jusqu'à présent un peu de peine à trouver l'arrêté royal du 8 octobre 1998 mentionné par le texte, et en proposait 45. Désormais, il en propose un seul, le bon.

Précalcul:
Cette amélioration de la pertinence des liens extraits ne s'est pas faite sans quelques sacrifices au niveau de la performance de rendu d'Etaamb.

Désormais, les textes peuvent être pré-analysés afin d'accélérer le fonctionnement d'Etaamb.

Miscellanées:
A divers endroits, l'affichage du pied de page, de la barre d'adresse, du titre de la page ont subis quelques petites modifications. De même, certains documents très anciens peuvent apparaitre dans la liste des documents (le document le plus ancien de la version en ligne du Moniteur Belge à été promulgué en 1803), souvent dans le cadre d'une coordination en langue allemande.

http://fr.etaamb.be/loi-du-_n2009000678.html

lundi 28 mars 2011

Pas à pas.

Les liens intégrés au texte viennent de voir le jour suite à une mise à jour d'Etaamb.

Seulement, il ne s'agit pas de liens directs, mais plutôt de cadres qui reprennent les liens déjà proposés. L'amélioration s'inscrit donc dans la facilité d'utilisation et de consultation du texte.

Exemple:
http://www.etaamb.be/arrete-royal-du-07-fevrier-2002_n2002009044.html
(Ce texte est assez particulier: il propose 3 arrêtés royaux du même jour. Etaamb réussit à ne proposer que les 3 arrêtés visés, des 5 publiés ce jour-là).


Au passage, la vitesse de rendu à encore été améliorée, certains textes pouvant être très lourds à traiter. Etaamb se dirige progressivement vers une précalculation du contenu.

Exemple de page au traitement conséquent (typique de la législation de fin d'année civile):
http://www.etaamb.be/loi-du-29-decembre-2010_n2010021133.html

samedi 19 mars 2011

Correction & amélioration

Une des fonctionnalités particulières d'Etaamb est d'extraire les références vers d'autres documents du texte visualisé.

Récemment, cette fonctionnalité fut mis à mal par quelques erreurs introduites lors de l'ajout massif de contenu dernièrement effectué. Le nombre de références extractibles fut réduit.

Les données erronées sont en cours de traitement, et cette réparation à même provoqué la mise à disposition de nouveaux algorithmes d'extraction de références, bien plus performants:
Non seulement les liens extraits seront plus nombreux, mais ils seront d'une bien meilleure qualité: dans l'immense majorité des cas testés, le premier lien proposé fut le bon.

Dans certains cas, Etaamb réussit l'exploit de ne proposer qu'un seul document par référence détectée:
http://fr.etaamb.be/loi-du-16-mars-2007_n2007011143.html

Vu les ressources informatique limitées dont dispose Etaamb, c'est assez édifiant. De plus, l'analyse en temps réel n'a encore qu'un impact minime sur la vitesse de rendu de la page, ouvrant la porte à d'autres améliorations.

Seuls inconvénients de cette mise à jour: les algorithmes sont encore à l'essai: ils peuvent porter atteinte à la stabilité de l'application, et nécessiterons encore quelques calibrages.

vendredi 11 mars 2011

Contenu manquant

Il manquait jusqu'à présent une bonne partie du contenu du Moniteur Belge à Etaamb.

Tous les documents au type non clairement défini (issus du pouvoir judiciaire, des commissions, classements du Selor et autres communications diverses) n'étaient pas repris dans l'interface.

Ce contenu assez conséquent, représentant grossièrement la moitié des documents disponibles, est maintenant accessible, prêt pour indexation par les moteurs de recherche.

Plutôt que de les départager, ils sont repris sous le type "document":
http://fr.etaamb.be/2007/03/13.html#document

dimanche 6 février 2011

Amélioration.

Je parlais dans le précédent message de l'arrêté royal du 8 avril 2000, et comment celui-ci cite un autre arrêté royal du 22 juillet 1999.
http://fr.etaamb.be/arrete-royal-du-08-avril-2000_n2000021192.html

J'expliquais qu'Etaamb pouvait proposer une liste de 3 arrêtes royaux potentiels correspondant à l'A.R. du 22 juillet 1999.

Etaamb vient d'être légèrement amélioré pour qu'il puisse prendre en compte un peu de contexte, de façon à pouvoir filtrer les textes proposés.

Il en ressort qu'Etaamb est, dans beaucoup de cas (si le texte est cité avec assez de précision et présent dans la base de données), capable d'identifier précisément le texte cité.

Ainsi, dans l'arrêté royal du 8 avril 2000, Etaamb ne propose plus qu'un seul arrêté royal du 22 juillet 1999, celui spécifiquement visé par l'arrêté. Le mécanisme est bien sur perfectible, mais dans l'ensemble il fonctionne assez bien.

dimanche 30 janvier 2011

Enfin quelque chose d'utile.

Un document sur Etaamb peut désormais proposer un lien vers un texte auquel il fait allusion.

Il ne s'agit que d'un premier essai de la technique, simple et primitive, qui à néanmoins une certaine efficacité. Elle pourrait être plus efficace avec plus de temps et de moyens, mais la raison d'être d'Etaamb est de lancer des idées, les essayer, plutôt que de les développer.

Concrètement, à la droite d'un document s'affiche maintenant une liste de textes dont Etaamb pense qu'ils pourraient être cités par le document visionné, sans vérification de pertinence (ne sont traités que le type de texte et sa date de promulgation).

Dans les faits, cela peut se présenter comme ceci:
http://fr.etaamb.be/arrete-royal-du-08-avril-2000_n2000021192.html

Le texte parle d'un arrêté royal du 22 juillet 1999; Etaamb présente une liste de tous les arrêtés royaux du 22 juillet 1999. Dans ce cas assez simple, c'est le troisième arrêté qui est visé par le texte.

Bien sur, dans d'autres cas tels que celui-ci:
http://fr.etaamb.be/loi-du-13-decembre-2010_n2010011511.html
La liste devient conséquente, et sans développer des critères plus avancés de pertinence, la fonctionnalité perd un peu de son intérêt.

Et forcément, le tout est limité aux textes publiés après Juin 1997, d'où l'absence caractéristique de la Loi du 4 août 1996 concernant le Conseil d'État, souvent citée mais absente de la base de données, contrairement à d'autres lois promulguées le 4 août 1996 mais publiées bien plus tard.

A titre d'illustration:
http://fr.etaamb.be/arrete-royal-du-15-mars-2000_n2000012080.html

Cependant, malgré les limites et obstacles, je pense qu'il s'agit d'une aide non négligeable à la consultation, et j'espère qu'elle n'en restera pas la seule.

jeudi 27 janvier 2011

Prochain chapitre

J'ai donné, depuis hier, une nouvelle direction à Etaamb.

C'est une toute nouvelle piste que j'essaye maintenant avec Etaamb. Plutôt que de développer un moteur de recherche spécifique, Etaamb offre un contenu optimisé pour les "spiders", les robots d'indexation des moteurs de recherche (ie. Google, Bing, ...).

L'aspect "moteur de recherche" ainsi délégué, Etaamb pourra se concentrer sur l'aspect consultation, utilisation. Un utilisateur devrait pouvoir, après une recherche sur un moteur de recherche majeur, trouver directement le document qu'il souhaite, sans avoir à parcourir le reste du site.