Mettre en ligne du droit : l’expérience BOFIP-Impôts, des réponses informatiques à des questions juridiques

Le Bulletin officiel des finances publiques-Impôts, www.bofip.impots.gouv.fr, c'est-à-dire le site des textes et commentaires officiels du droit fiscal français, a été ouvert sur Internet en septembre 2012. Avant le lancement de ce bulletin numérique, les commentaires étaient disponibles sur de nombreux formats, diffusés sur plusieurs médias en ligne différents. Le Bulletin unifié a été conçu et développé pour satisfaire toutes les spécifications d'une documentation légalement opposable. Il est basé sur une vision intégrée des standards du droit fiscal. Un logiciel de système de gestion de contenu (CMS) open source "Daisy CMS" a été utilisé. Au même moment, a été lancé un projet à grande échelle de consolidation et de mise à jour des commentaires existants. Le périmètre a été défini autour de l'ensemble de la doctrine fiscale, représentant à l'entrée du système, environ 50000 pages "papier" et en sortie environ 35000 pages consolidées dans 5000 documents. Ce travail correspond à plus de 100 années hommes, réparti sur plus de 200 juristes et sur 18 mois. Migrer sur une plateforme numérique nécessite un considérable travail documentaire (contrôle des formats, des liens hypertextes, de l'indexation, de la mise à jour du plan, etc.). Cela offre par ailleurs une opportunité pour observer, analyser et corriger toutes les faiblesses du processus de production initial. Deux principes ont guidé en permanence les concepteurs du projet : sûreté et simplicité pour tous les acteurs. La première est celle du maintien de l'unité globale du fonds, et donc de la cohérence de la doctrine, allant au-delà des sources communes et des actualités, propres à lier entre eux des documents doctrinaux. La seconde préoccupation est celle du service rendu à l'utilisateur. Il est essentiel qu'un agent ou un contribuable puisse aisément récupérer l'ensemble de la doctrine sur un dispositif ou un régime. Pour relever ces défis et répondre aux préoccupations, l'équipe projet a dû trouver des réponses techniques à plusieurs questions juridiques : Comment sécuriser la publication d'un commentaire opposable de la loi ? Comment s'assurer de la certitude de la date de publication ? Comment conserver un corpus consolidé et cohérent ? Comment retrouver aisément tous les éléments utiles ? Cet article tend à décrire une façon par laquelle l'administration fiscale française a pu trouver des réponses techniques à toutes ces questions juridiques dans le contexte d'un projet enserré dans de brefs délais et à moindre coût.

Jusqu’en 2012, diverses sources documentaires permettaient aux agents de l’administration et aux usagers de prendre connaissance des dernières règles fiscales applicables sur un sujet. Pourtant, depuis 2002, il n’existait plus d’expression consolidée de la doctrine fiscale par l’administration. La documentation accessible était un empilement de ressources documentaires hétérogènes mises en ligne sur divers supports. De plus, les BOI étaient publiés trois fois : sur impots.gouv.fr puis sur legifrance.circulaires.gouv.fr puis sur la plateforme documentaire (AIDA) de impots.gouv.fr.

Face à une demande conjuguée de ses cadres fiscaux et d’une commande du Conseil d’État (Fouquet, 2008), la Direction générale des Finances publiques (DGFiP) du ministère français du budget s’est lancée dans un vaste projet de refonte de sa documentation officielle fiscale, réponse tout à la fois technique (un outil), organisationnelle (un processus de fabrication et de diffusion de la doctrine revisitée) et stratégique (la volonté de l’administration d’éditer et de mettre à disposition des agents sa doctrine consolidée et actualisée).

Trois ans plus tard, le 12 septembre 2012 a été créé par arrêté ministériel le Bulletin officiel des finances publiques-Impôts et mis en ligne le site www.bofip.impots.gouv.fr. Porté par l’administration fiscale, ce nouveau format de publication de circulaires administratives est une innovation de sa part. La quasi-impossibilité matérielle de re- ou prépublication sur le site interministériel dédié au regroupement des circulaires (circulaires.legifrance.gouv.fr) a nécessité la modification du décret n° 2008-1281 du 8 décembre 2008 relatif aux conditions de publication des instructions et circulaires afin de bénéficier d’une dérogation et la Direction de l’information légale et administrative (DILA) a dû faire évoluer la page du site Légifrance pour y faire figurer un lien vers BOFIP–Impôts.

Bien qu’accessible par deux adresses différentes sur l’internet et l’intranet, il s’agit d’une application informatique unique. Le site regroupe l’ensemble des commentaires administratifs opposables des dispositions fiscales en vigueur. Il se substitue ainsi au Bulletin officiel des impôts (BOI), à la documentation administrative de base (DB) et aux rubriques « rescrits » et BOI en consultation du portail impots.gouv.fr. Chaque document contient des liens directs vers les sources du droit qu’il commente ou qu’il reprend (décisions de jurisprudence, lois et règlements sur Légifrance, réponses ministérielles sur les sites de l’Assemblée nationale et du Sénat, instructions diverses sur circulaires.legifrance.gouv.fr). Le site propose aussi des outils d’information sur les nouveautés..

Concomitamment a été mis à disposition des bureaux de l’administration centrale producteurs de doctrine, notamment de la direction de la législation fiscale (DLF), un outil de mise à jour direct, efficient et partagé. Gage de sécurité juridique, la refonte doctrinale a reposé sur une vision intégrée de la norme fiscale, supprimant de fait la publication des monographies autonomes (les BOI). Dès lors, a été organisé et outillé un processus de rédaction centré sur la modification du corpus déjà publié privilégiant la cohérence, l’exhaustivité, la mise en ligne directe. L’outil vise à assister les rédacteurs dans leur travail d’élaboration et de consolidation (repérer aisément l’information à mettre à jour, créer des liens entre les éléments du corpus, etc.). Parallèlement, via des formations et des ressources documentaires, a été déployé un dispositif d’accompagnement de la mise en œuvre d‘un nouveau processus de rédaction, de publication et de gestion pérenne de la base.

Après analyse et formalisation des besoins fonctionnels, recherche de solutions logicielles déjà existantes, a été décidée la création d’une application informatique documentaire intégrée, répondant à l’ensemble des spécifications propres à une documentation juridique opposable : « historicisation » pérenne de l’état du droit (comme les articles des codes sur Légifrance), certitude de la date de mise en ligne, accès aux documents par leur date de publication, structuration des documents (titres, paragraphes, styles) et organisation des documents entre eux (format, plan), renvois entre les documents, liens vers Légifrance, etc. Pour optimiser l’accès à la documentation juridique par les différents publics, une attention particulière a été portée aux outils de recherche adaptés aux différents besoins, conviviaux, offrant des résultats exhaustifs et pertinents. Des solutions de logiciels libres d’un moindre coût ont été recherchées sur la base d’un cahier des charges des principales fonctionnalités attendues de l’outil informatique. Le gestionnaire de contenu « Daisy-CMS » a semblé couvrir un large spectre des besoins de la DGFiP aboutissant à la sélection de ce logiciel.

Parallèlement au chantier informatique, s’est déployé un chantier « rédactionnel » de grande ampleur consistant à consolider et actualiser les commentaires existants. Le périmètre a été constitué de toutes les sources doctrinales fiscales, représentant en entrée environ 50 000 pages « papier » et, en sortie, environ 35 000 pages réparties en 5 000 documents dans un nouveau plan de classement. Cette reprise a représenté environ 100 années/homme de travail réalisées par 200 personnes pendant environ 18 mois. Les documents réécrits ont alors été transmis aux bureaux métiers de l’administration centrale pour viser, lisser, réduire progressivement les incohérences conceptuelles qui ont émergé à l’occasion de la consolidation, réparer les oublis et les erreurs inéluctables, combler les lacunes mises en évidence par l’actualisation.

Parallèlement, les documents réécrits ont été intégrés dans l’application informatique. Cette intégration a nécessité maintes tâches documentaires (contrôle des formats, des liens hypertextes, indexation, mise à jour du plan, etc.). Elle fut aussi l’occasion de constater, contrôler, corriger la multitude d’erreurs et d’oublis du contenu, faiblesses inhérentes au processus d’écriture retenu mais aussi du passage de documents « papier » à une base de données structurée.

Pendant le projet comme pour la vie future de l’application, les enjeux de sûreté et simplicité pour tous ont trouvé leur traduction opérationnelle au travers de deux préoccupations constantes.

La première est celle du maintien de l’unité globale du fonds, et donc de la cohérence de la doctrine, allant au-delà des sources communes et des actualités, propres à lier entre eux des documents doctrinaux. Paradoxalement, du fait du découpage en milliers de documents quasi-autonomes, une entropie centripète peut se révéler très rapidement, chaque bureau travaillant de façon autonome et selon son propre calendrier. Les règles, les outils, les référentiels et les instances de gouvernance ont comme objectif d’introduire un contrepoids centrifuge.

La seconde préoccupation est celle du service rendu à l’utilisateur. Il est essentiel qu’un agent ou un contribuable puisse aisément récupérer l’ensemble de la doctrine sur un dispositif ou un régime, sans retomber dans les travers de la consolidation personnelle. Les règles et les instances de gouvernance ont comme second rôle d’assurer un « contrôle qualité », pas seulement des documents pris un à un mais d’un corpus constitué, et un contrôle « d’exhaustivité » du périmètre et de l’actualité.

Pour relever ces défis et répondre aux préoccupations, il a fallu trouver des réponses techniques à plusieurs questions juridiques : Comment sécuriser la publication d’un commentaire opposable de la loi ? (I) Comment publier au présent et retrouver demain les commentaires d’hier ? (II) Comment conserver un corpus consolidé et cohérent ? (III) Comment publier un corpus harmonisé sur le fond comme sur la forme ? (IV) Comment retrouver aisément tous les éléments utiles ? (V)

I. Un contenu opposable

La loi fiscale est commentée par des instructions qui informent les contribuables et les agents du réseau des nouveautés et des positions de l’administration, constituant ainsi sa « doctrine ». Dans les faits, ces commentaires sont souvent rédigés par les mêmes personnes qui ont élaboré les premières versions de la loi.

En commentant la loi, l’administration la précise mais aussi parfois l’interprète. Il a donc été considéré comme légitime de protéger le contribuable des conséquences éventuellement dommageables de ces activités doctrinales. En vertu de l’article L.80 A du livre des procédures fiscales (LPF), les positions formelles de l’administration sur des questions de droit lui sont opposables, y compris lorsqu’elles contreviennent à la loi[1]. Ainsi, la doctrine administrative fiscale tient une place singulière dans l’ordonnancement juridique.

A. Les sept principes éditoriaux

La base vise à offrir une vision globale et synthétique de l’ensemble de la doctrine fiscale applicable. Pour cela, elle a été conçue autour de grands principes qui ont amené à définir des normes ainsi que des consignes, des gabarits, des outils pour les appliquer, une organisation pour les faire respecter et les adapter au gré des contraintes et des besoins émergents.

Exhaustivité. Toute la doctrine opposable… La base consolidée intègre les instructions (y compris celles en consultation publique pour lesquelles les Ministres ont autorisé un statut juridique unique), les rescrits (question / réponse à partir d’une situation de fait) et les réponses ministérielles (RM) innovantes. La production des instructions est réalisée en référence à cette base existante, qui devient dès lors la source unique de la documentation fiscale. Ce principe n’inclut que partiellement les réponses ministérielles aux questions écrites parlementaires qui gardent une double publication laissant prévaloir la date de publication sur le site des assemblées.

Opposabilité : Rien que la doctrine… Les sources du droit sont accessibles par un lien vers Légifrance. Les commentaires non opposables sont publiés directement sur impots.gouv.fr (guides pratiques, notices de remplissage des formulaires, formulaires CERFA). Les considérations de communication et d’ordre pédagogique (ancien dispositif, nouveautés, exposé des motifs, etc.) sont portées par le document actualité. Aucune source du droit (loi, décret, décision de jurisprudence, etc.) n’est reprise in extenso même partiellement, mais seulement citée. Parce qu’elle est opposable, la doctrine publiée se doit d’être juste dès sa mise en ligne et de façon pérenne, y compris les liens entre les documents ou vers les sources externes, et ce malgré le volume et la mobilité de ces liens.

Droit positif. Au moment de la publication de sa nouvelle version, un document ne contient que les commentaires relatifs aux dispositifs en vigueur. La dimension temporelle est prise en compte par le système applicatif (le versionnage) et par les documents Actualités.

Structuration. Le plan de classement a été drastiquement modifié pour faire face aux évolutions de la loi fiscale et aux nouvelles possibilités documentaires. Il a été mis en cohérence autour d’un axe fort unique : le type d’impôts ou le type de procédures afin de conduire à de la stabilité dans le temps, au moins sur ses deux premiers niveaux (26 séries, 190 divisions).

Homogénéité. Bien que la base soit mise à jour à partir du travail « contrôlé » d’environ 300 contributeurs (rédacteurs / viseurs / signataires) et de la section Documentation du service juridique de la fiscalité, les documents respectent une harmonie des formes et des règles rédactionnelles. Cette harmonie est rendue possible par des formulaires de rédaction, un format unique, une feuille de styles non modifiable par les rédacteurs, des règles de formalisation explicitées dans les consignes, un processus de validation avant publication, etc.

Unicité. Parce que les doublons génèrent des risques d’incohérence et un travail inutile de mise à jour ultérieure, et malgré l’écriture répartie entre plusieurs auteurs, aucun commentaire n’apparaît deux fois dans la base. Les liens de citation entre documents, les versions, les métadonnées permettent au lecteur de connaître l’ensemble des commentaires sans redite.

Convivialité. Le moteur permet de rechercher dans toute la base indépendamment du positionnement dans le plan ou du bureau rédacteur. Pour que cette base fonctionne, les documents et leur contenu sont décrits (titre, identifiant, mots-clefs d’indexation, choix de valeurs pour les filtres du moteur).

Autant que faire se peut, le site a respecté le Référentiel général d’accessibilité pour les administrations (RGAA) et la circulaire du Premier ministre du 16 février 2012 instituant une charte de l’internet public. Des progrès restent néanmoins à faire en matière d’accessibilité sur le site web mais aussi sur l’outil de travail de mise à jour pour les rédacteurs.

B. Les sept types de documents

Afin de respecter le rôle et la valeur des écrits, ils sont portés par différents types de documents. Certains sont doctrinaux (enfants, parents, annexes), d’autres informatifs (actualités) ou fonctionnels (plan de classement, dossiers d’affaires, bon à publier).

Le plan de classement. Ce support évolue lorsqu’un document est ajouté ou change de périmètre. Il contient au maximum six niveaux de titre dont le dernier porte le document doctrinal lui-même. Le nombre de séries (premier niveau) n’a pas vocation à s’accroître substantiellement car il correspond à une lecture optimale sur écran. Les séries d’assiette sont structurées selon un canevas fiscal harmonisé (champ, base, etc.). Les titres « génériques » comme « dispositions communes », « diverses », « générales » sont évités car ils ne permettent pas aux lecteurs de retrouver un document par la navigation dans le plan.

Le document « enfant ». Cette unité documentaire de base correspond au niveau le plus bas du plan. C’est à ce niveau que se situe l’exposé de la doctrine fiscale. Les « enfants » sont autonomes (logiques, identifiés, signés, datés) mais reliés entre eux par le plan de classement et par des liens de citation (infra). Ils ont un format standard et une présentation harmonisée.

Le document « parent ». Il correspond à une trame générale du corpus qui permet au rédacteur de structurer son travail et au lecteur de se repérer. Il a une fonction à la fois de synthèse (il annonce les contenus des documents « enfant ») et d’orientation vers une autre partie de la base.

Le document « annexe ». Il est autonome mais dépend d’un ou plusieurs document(s) « maître » au(x)quel(s) il se rattache par un lien organique (bijectif et versionné). Les différents types d’annexes sont les barèmes, les formulaires, les modèles et « autres ».

Le document « Actualité ». Il résume les grandes lignes de la règle commentée et présente les documents doctrinaux dans une perspective fiscale, généralement dans l’ordre logique des principes de gestion de l’impôt. A des fins de parfaite information des lecteurs, il recense de manière exhaustive les documents affectés (créés, modifiés ou fermés) par le commentaire des différents bureaux contributeurs ainsi que les éventuelles actualités précédemment publiées, concernant le même dispositif notamment. Il est également possible d’y ajouter tout aperçu ou complément à finalité pédagogique, informative ou préventive que l’administration souhaite apporter. La longueur du texte n’est pas limitée. Réduite à sa plus simple expression pour les travaux de mises à jour et d’actualisation, l’actualité a vocation à être plus développée pour les commentaires relatifs à des dispositifs législatifs plus substantiels, compte tenu de l’éventuelle difficulté d’appréhension d’un ensemble de documents éclatés dans une base consolidée.

Le document « Dossier d’affaire ». Il est ouvert à chaque début de processus de travail lorsque la décision est prise de commenter une source du droit. Il est clos lorsque les documents relatifs à l’évènement normatif concerné sont publiés ou que le processus est classé « sans suite ». Il contient la liste des documents que les rédacteurs des différents bureaux impliqués dans le commentaire vont créer, modifier ou supprimer ; l’actualité qui porte la présentation d’ensemble du commentaire le jour de la publication des documents ; le bon à publier (BAP) portant la signature du cadre délégué, une mention des documents utiles (sources du droit, réponses à la consultation, actualités antérieures, dossiers d’affaires antérieurs, notes internes).

Le BAP ou « bon à publier» est un document « papier ». Il liste les documents à publier, porte la signature et la date du cadre délégué à autoriser la publication. Un seul BAP est prévu par lot documentaire incluant la fiche d’actualité et les documents émanant des autres bureaux contributeurs. La signature des documents modifiés ne porte que sur les modifications. Le nom du signataire n’apparaît ni sur l’écran ni dans les PDF mais est mentionné dans l’actualité annonçant la parution des nouvelles versions. A l’original sont adjoints après publication, les documents imprimés du site (en version « comparée ») et l’ensemble est conservé par le bureau métier pilote dans un lieu sécurisé pour être soumis au juge en cas de contentieux (recours pour excès de pouvoir).

C. Les trois identifiants discriminants

A l’ouverture, la base portait environ 6 000 documents de toute nature. Ce volume s’accroit sans cesse puisqu’aucun document n’est supprimé. Il est donc essentiel que chaque document puisse être trouvé, retrouvé et cité. C’est là l’utilité des « identifiants » qui à la fois unissent et discriminent.

Comme dans toutes bases informatiques, le premier des identifiants est technique. L’application génère des « identificateurs » uniques, suite de chiffres et de lettres, propres aux catégories de documents et non modifiables manuellement.

Comme tout document, ceux du BOFIP-Impôts portent un titre. Ce titre est suffisamment complet pour que le document puisse être repéré et cité hors de la base BOFIP-Impôts et que les documents puissent être exportés proprement. Le titre est utilisé pour repérer chaque document dans des listes, notamment les résultats de recherche, l’actualité ou le fil RSS – c’est pourquoi il est le plus court possible et va du général vers le particulier, discriminant, c’est à dire évidemment différent mais si possible distinguant et signifiant permettant au lecteur d’appréhender le contenu du document même si celui-ci ne contient qu’une partie du commentaire d’un dispositif.

En dernier lieu, à chaque document est attribué un libellé alphanumérique d’identification unique de forme spécifique à chaque type de document permettant ainsi de mieux les distinguer. Ce numéro, appelé « identifiant juridique », possède un caractère pérenne, adapté à la durée d’utilisation du document qu’il identifie et est indépendant du système technique. Exemple pour un document « enfant » : BOI-IR-BAS-20-40-70-30-12-04-20121229. Cet identifiant est composé de blocs correspondants 1/ au statut de la base (BOI) pour être cité comme un document doctrinal hors base 2/ aux séries et divisions traduites en acronymes 3/ en positionnement ordonné dans l’arborescence des 4 niveaux suivants= série Impôt sur le revenu, division Base, titre 2, Chapitre 4, Section 7, Sous-section 3) 5/ à la date de la version du document, sous la forme AAAAMMJJ, générée automatiquement et irrévocablement par l’application. Lorsque le document est modifié, seul le tronçon « date » change puisqu’il s’agit de la nouvelle version du même document. L’identifiant des documents de type Annexe commence aussi par BOI pour indiquer leur contenu doctrinal mais n’est pas rattaché au plan car une annexe peut être liée à plusieurs documents-maîtres. L’identifiant des documents de type Actualité ne commence pas par BOI et l’ordination est annuelle.

D. Des liens vers les sources du droit

Le BOFiP-Impôts trouve sa place dans une chaîne qui relie en amont la loi et la jurisprudence et, en aval, la documentation non opposable. Dans un souci de respect des compétences administratives de chacun, de cohérence et d’économie des mises à jour, il a été décidé de ne reprendre dans les instructions aucune source du droit commentée. Afin de faciliter la création de ces liens, une interface dédiée est proposée aux rédacteurs.

Parce qu’ils ne sont pas recopiés, même partiellement, les textes commentés sont scrupuleusement cités de façon à pouvoir être retrouvés hors ligne. Des liens hypertextes pointent vers les sources disponibles en ligne. Le site Légifrance est privilégié lorsqu’une source est disponible sur plusieurs sites (conventions internationales, jurisprudence communautaire, circulaires administratives non fiscales) sauf pour les réponses ministérielles (RM) aux questions des parlementaires (lien vers les sites des assemblées).

Les différentes sources induisant différents types de commentaires, ceux-ci ont été typifiés et sont visuellement rendus distincts dans la feuille de styles (commentaires d’une décision de jurisprudence, reprise d’une RM). Les sources commentées et la nature des commentaires sont reprises dans les métadonnées Sources et Contenu. Cela permet d’activer les facettes lors d’une recherche à résultats multiples. Cela est particulièrement utile pour les RM et les décisions de jurisprudence communautaire qui sont rares et souvent recherchées pour elles-mêmes.

Pour tenir compte des usages réels, un traitement différencié de ces sources a été décidé. Une recherche des documents pointant vers les articles codifiés a été organisée dans un onglet spécifique « Recherche par une source du droit » afin de retrouver toutes les instructions y faisant référence. Souhaitons qu’à l’avenir, ce système puisse être étendu à d’autres sources.

II. Un commentaire à droit positif

Le Bulletin officiel des finances publiques-Impôts contient, par principe, les commentaires relatifs au droit positif en vigueur. Cela implique, a minima, qu’au moment de la publication de sa nouvelle version, un document ne contient que les commentaires relatifs aux dispositifs fiscal/juridique encore, déjà ou bientôt en vigueur.

Dès lors, comment porter à la connaissance des usagers, sur la durée, les commentaires passés ? D’autant que ceux-ci ont parfois des effets sur l’assiette ou la liquidation de l’impôt (jusqu’au terme des engagements prévus par le dispositif abrogé par exemple) et toujours sur les opérations de contrôle et de contentieux. La dimension temporelle est prise en compte par le système de versionnage des documents (en stock) et par les documents Actualités (en flux) et non pas seulement par les documents doctrinaux eux-mêmes.

A. La spécification de l’outil, des règles et processus, entre « Inception » et « Retour vers le futur »

S’agissant du contenu du document, la consigne est l’absence de « stratification » des dispositifs au sein de chaque document. Cela implique que, par principe, un nouveau document est créé ou un paragraphe ajouté si, et seulement si, un dispositif est nouveau ou une précision est apportée. Dans le cas contraire, un ajout correspond à une suppression.

Par exception, les commentaires relatifs à des dispositifs fiscaux qui ne sont plus applicables sont néanmoins maintenus dans la dernière version d’un document tant que la disposition commentée est susceptible d’avoir des effets sur l’impôt (exemple : exonération ou réduction d’impôt subordonnée à un engagement de conservation sous peine de reprise de l’avantage). Lorsque la loi prévoit elle-même, dès le départ, que la mesure s’applique jusqu’à une date déterminée, cette dernière est indiquée dans les commentaires.

Lorsqu’une disposition est abrogée, le ou les documents portant ses commentaires ne sont pas supprimés mais « fermés ». Le contenu du document est remplacé par un « épitaphe » portant la cause législative de la fin du dispositif. Ainsi, les commentaires peuvent être retrouvés via une recherche par le moteur ou par une navigation entre les versions du document.

B. Dates de publication ou dates d’effet ?

Par le biais du BOFIP-Impôts, la DGFiP s’engage à porter et à laisser à la connaissance des usagers les commentaires tels que publiés à une date certaine. Or, la date d’effet du dispositif commenté et la date de publication du commentaire y afférent peuvent différer.

Souvent, il existe un décalage de plusieurs mois, voire de plusieurs années, entre la date d’entrée en vigueur d’un texte législatif et la date de publication du commentaire correspondant. Lorsqu’il s’agit d’un dispositif nouveau, la situation est bien connue et ne présente aucun risque puisque l’utilisateur qui recherche sur une date antérieure à celle de la publication du commentaire aboutit à un résultat néant et ne risque donc pas d’obtenir un commentaire non adapté. A l’avenir, la qualité de service pourra être améliorée en informant le lecteur de l’existence de commentaires publiés postérieurement.

Toutefois, certaines situations représentent un point de vigilance particulier car elles n’ont pas encore trouvé de réponse technique. Lorsque le dispositif en cause a déjà été commenté, s’il n’étend pas suffisamment sa consultation dans le temps, le lecteur risque de ne se référer qu’à l’ancienne version d’un commentaire. Lorsque le décalage porte sur des commentaires à effets rétroactifs, qu’ils résultent de la loi (éviter des reports d’opérations par exemple) ou du commentaire lui-même (assouplissements doctrinaux, retour sur une doctrine remise en cause par le juge par exemple), dans la mesure où le site met à la disposition des usagers un dispositif de recherche en fonction de la date, l’idéal serait d’afficher un message avertissant de l’existence d’une version plus récente du document concerné. Ces mesures doctrinales rétroactives ne pouvant par définition qu’être plus favorables aux contribuables, il n’y a pas de risque pour eux. En revanche, cette absence d’avertissement oblige les agents de la DGFiP à être particulièrement attentifs au risque de notifier des redressements non fondés ou de rejeter à tort une demande contentieuse.

Toute solution technique suppose que l’on puisse associer une date de début de fin d’effet à l’ancien commentaire et une date de début d’effet au nouveau commentaire. Or, la notion de dates d’effet est plus difficile à utiliser que la notion de dates de publication. En effet, un dispositif peut n’être temporellement aménagé que partiellement ou par module.

Dans l’attente d’un complément technique, l’administration s’efforce d’être la plus claire possible afin d’éviter des erreurs des lecteurs, usagers externes ou internes et un style « Dispositions temporelles » a été créé pour mettre en exergue les informations relatives aux dates de vigueur d’un commentaire ou d’un dispositif.

C. Un document, plusieurs versions

A l’instar des articles des codes sur Légifrance, le dispositif permet de consulter les instructions dans le temps. Si à l’ouverture du site en septembre 2012, seule la dernière règle fiscale en vigueur a été reprise, les nouvelles instructions sont intégrées au fil de l’eau directement, offrant une vision chronologique grâce à un double mécanisme de gestion des versions et de visualisation des changements par comparaison de textes d’une part, de recherche à date donnée proposant des résultats de recherche historicisés d’autre part. Par défaut, l’utilisateur accède à la dernière version publiée.

Comme la date de publication d’un document constitue un élément fondamental qui détermine la date de l’opposabilité de la doctrine, elle doit correspondre à la date réelle de mise en ligne et ne peut être modifiée pour intégrer dans la base des commentaires à une date antérieure à celle de leur mise en ligne. La modification manuelle de la date de publication par le gestionnaire du site ou par un rédacteur est donc exclue.

Un protocole a été passé avec le service du dépôt légal de l’internet de la Bibliothèque nationale de France (BNF) afin qu’il récupère chaque jour l’ensemble des documents doctrinaux et les conserve de façon pérenne. En cas de contentieux, toute personne pourra faire réaliser par un huissier une extraction d’un serveur de la BNF avec horodatage en cas de contentieux. Un plan de classement « déplié » contenant les annexes permet le passage aisé du robot.

D. Nouveautés ou actualités ?

Le choix du rythme de publication comme des modalités d’annonce des nouveautés, quelle que soit leur ampleur, ne peut déboucher que sur des solutions de compromis. En effet, ils doivent répondre à des injonctions contradictoires : commenter au plus vite pour ne pas laisser les usagers dans l’imprécision de la loi, mettre en exergue ce qui est nouveau mais aussi ne pas noyer les usagers sous la connaissance du flux et ne pas accroître le sentiment d’instabilité de la norme applicable.

Le système de documents versionnés a pour effet de rendre fort visibles les écarts entre la loi et la doctrine. En outre, nombre de sources juridiques jusqu’ici non commentées, comme des arrêtés, doivent être intégrées rapidement dans la base. Dès lors, les commentaires les plus simples et les plus sporadiques peuvent et doivent être faits sans attendre. Enfin, un nettoyage annuel de la base pour enlever les commentaires caducs serait opportun, au moment du décret de codification du code général des impôts, par exemple.

Depuis l’ouverture, à la demande des bureaux producteurs comme des usagers signalant des oublis, erreurs ou incohérences, la DGFiP procède à de significatives opérations de réparation. Ces travaux abondent le flux des modifications de documents. Pour éviter de troubler les usagers, la DGFiP a choisi de réserver un jour de la semaine à ces publications « à doctrine constante ».

La publication de nouveaux commentaires se fait aujourd’hui tous les jours. A terme, il pourrait être souhaitable d’espacer cette périodicité (une publication hebdomadaire ou mensuelle par exemple) afin de ne pas accroître le sentiment de mouvement perpétuel de la base. A cette même fin, la rédaction des documents eux-mêmes est réalisée de façon à minimiser les mises à jour ultérieures inutiles. Par exemple, ne sont pas cités les unités, les taux ou les seuils par leur nombre mais par référence à l’article du code qui les détermine ; ne sont pas précisés les adresses ou les noms d’organisme susceptibles de changer.

Auparavant, la publication d’un bulletin officiel rendait la doctrine opposable en même temps qu’elle informait les contribuables du nouveau contexte normatif. Certes, les sources étaient nombreuses et confuses mais chaque nouveauté (instruction, rescrit, réponse ministérielle) était publiée sous la forme d’un seul document dont il était facile de prendre connaissance. Or, la base BOFIP-Impôts présente la doctrine sous une forme consolidée. Si la sécurité juridique est ainsi garantie et l’effort d’agrégation personnelle rendu inutile, les utilisateurs ne sont pas informés des évolutions à la seule lecture des documents doctrinaux. La mise en exergue des nouveautés est donc la contrepartie du support unique. Pourtant, certaines pratiques du secteur fiscal sont particulièrement fondées sur la connaissance des nouveautés : les agents de la DGFiP pendant les campagnes déclaratives, les avocats-conseils pour leurs dossiers de l’année en cours, etc.

Cette mise en exergue passe par la rédaction systématique de documents « Actualité » qui informent sur toutes les modifications de la partie doctrinale de la base. A l’inverse, il n’y a pas de document Actualité sans modification d’au moins un document doctrinal. Ces documents n’ont pas le même statut juridique que les documents doctrinaux dont ils se font l’écho (non « opposables »). Ils visent à la fois à informer les utilisateurs des nouveaux commentaires et à en expliquer le contexte.

Ces documents ne contiennent pas de commentaires doctrinaux. Ils ont vocation à :

résumer les grandes lignes du dispositif fiscal commenté et, compte tenu de la difficulté d’appréhension d’un ensemble de documents éclatés dans une base consolidée, de façon plus développée pour les commentaires relatifs à des dispositifs législatifs plus substantiels ;
recenser de manière exhaustive et précise les différents documents affectés (créés, modifiés ou supprimés) par le commentaire des différents bureaux contributeurs ;
mettre les documents dans une perspective fiscale et les présenter dans l’ordre logique des principes de gestion de l’impôt (suivi du canevas fiscal) ;
ajouter si nécessaire tout complément à finalité pédagogique (ancien dispositif, nouveautés, exposé des motifs, etc.), informative ou préventive que l’administration souhaiterait apporter.

La mise en ligne de ces documents est relayée par un fil RSS auquel il est possible de s’abonner. La page « Dernières publications » n’étant pas modifiable par le gestionnaire de la base, elle atteste de la totalité des documents ayant été modifiés, fût-ce pour une réparation invisible. La sincérité administrative ne peut pas être mieux assurée.

III. Une collection structurée d’instructions

Le BOFIP-Impôts constitue une collection d’instructions consolidées, structurée de façon à en optimiser la communication auprès de différents publics, la production, la gestion et la conservation certaine à long terme. Même si elle intègre les informations nécessaires en vue d’optimiser l’application informatique, cette notion de « collection d’instructions » montre l’importance accordée au contenu juridique par rapport au dispositif technique lui-même.

Ainsi, BOFIP-Impôts se présente sous la forme d’une « base de connaissances » réparties en documents de type « commentaires » (enfants), « annexes » (formulaires, barèmes, modèles de lettres), « arborescence » (parents) et Actualités. Ces documents sont intrinsèquement liés entre eux afin d’assurer l’unicité du corpus doctrinal qu’ils composent. La consolidation est le point saillant du système et prend appui sur :

les relations entre documents de nature organique (un commentaire et son annexe) ;
les « simples citations » (les renvois entre deux documents puisque aucun contenu n’est doublonné) ;
les relations entre documents de nature logique via les Actualités (permettant de constituer des ensembles cohérents et actualisés) ;
les relations entre documents de nature hiérarchique (le plan de classement déroule des documents « affiliés » entre eux) ;
les relations entre documents de nature chronologique (les documents sont versionnés et les versions se superposent) qui ne doivent pas invalider les autres types de relations ;
les relations entre les documents de la base et d’autres documents à l’extérieur de la base (notamment vers la loi diffusée sur le site Légifrance).

On peut estimer que chaque « page » est en moyenne liée à quatre documents de la base et quatre sources normatives : soit en moyenne 150 000 liens internes et autant de liens externes.

A. 10 pages, une granularité de compromis

Chaque document doctrinal a au maximum 10 pages, un format de compromis entre des contraintes d’usage pour les lecteurs (lisibilité en mode écran et manipulation en mode papier imprimé), d’organisation de la production (l’analyse des anciens BOI et de l’ancienne DB montre qu’il s’agit d’un volume moyen susceptible d’apporter une cohérence logique à l’énoncé de tout ou d’une partie d’un dispositif fiscal) et de la publication (le paragraphe est une unité trop petite pour être indexée, etc.) et des contraintes juridiques (signature, date de publication). De même que les feuilles d’un arbre ou les pièces d’un puzzle, si irrégulières qu’elles soient, gardent cependant une apparence semblable, les documents se doivent, en dépit des variations de détail, conserver un format similaire.

Chaque document doctrinal de la nouvelle documentation consolidée ne porte de doctrine que sur le sujet annoncé dans le titre. Chaque commentaire d’une source doctrinale est intégré dans la partie de la base consolidée à laquelle il se rapporte, nonobstant sa forme (rescrit, RM) ou son positionnement dans le CGI / LPF. Ainsi la rédaction des commentaires d’un dispositif est portée par autant de documents que rendus nécessaires par le plan.

Les différents types de contenus (commentaire de décisions de jurisprudence, rescrits, barèmes, exemples) sont répartis entre différents types de documents et de paragraphes. Ainsi, la métadonnée « Type de contenu » a une valeur qui comprend les contenus du document « enfant » et de ses annexes ; ainsi, un commentaire d’une décision de jurisprudence apparaît en visualisation sur fond jaune, porte un lien hypertexte vers la décision commentée sur Légifrance et peut être trié sur les facettes Source=Jurisprudence et Contenu du lot documentaire=Commentaire d’une décision de jurisprudence.

Le travail des rédacteurs consiste à marquer les paragraphes sur la base d’une analyse juridique selon la nature des sources commentées (loi, jurisprudence) ou des commentaires (RM – Réponse Ministérielle -, rescrit). Ces styles sont visualisables à l’écran et sur papier (police, couleur du fond, encadré). Afin d’assurer l’homogénéité de l’ensemble entre les parties et dans le temps, la feuille de styles est commune, non modifiable par les rédacteurs, et utilisée selon des consignes partagées. A ce stade, le système ne permet d’exploitation autre que visuelle de ces styles (statistiques, recherche, listes, etc.).

Le rédacteur a aussi la charge de découper le document de 10 pages en subdivisions internes : de 3 à 6 niveaux (I.A.1.a.)… auxquels s’ajoutent des numéros de paragraphes. Bien que parfois superfétatoire aux titres internes, la numérotation de « blocs de paragraphes » constitue une pratique courante dans le secteur juridique et offre des points d’ancrage entre deux titres visuels et « citable » et un lien hypertexte entre documents. A ce stade, le système ne permet d’exploitation autre que visuelle de ces numéros de paragraphes (indexation plus fine par exemple). Il pourrait néanmoins permettre d’évoluer dans une phase ultérieure vers des techniques plus performantes de type XML/RDF remplissant les fonctions couvertes à la fois par la feuille de styles et par les métadonnées.

Certains contenus sont mis en « annexe » parce qu’ils sont considérés comme secondaires par rapport à la matière principale, remis à jour fréquemment ou parce qu’ils concernent plusieurs documents. Il a fallu trouver une ergonomie adaptée pour minimiser l’impact de ce mécanisme de scission pour conserver une lecture confortable et une impression logique (le PDF d’un document « enfant » est proposé avec ou sans ses annexes par exemple).

B. Une arborescence juridico-fiscale

Le plan de classement constitue un outil essentiel d’organisation et d’accès à la documentation fiscale. Il crée un lien entre les rédacteurs qui y « positionnent » chaque document et facilite la rédaction et les utilisateurs qui ont la possibilité de naviguer au sein de ce système en disposant de repères visuels. Schématiquement, le plan de classement fonctionne comme une bibliothèque composée d’étagères. Ces étagères sont numérotées : ce sont les niveaux de plan « Chapitre 1, Chapitre 2, … » ou « Section 1, Section 2, … ». Le document doctrinal est comme un livre unique mais versionné, rangé sur une de ces étagères dont le titre n’est pas forcément identique au nom de l’étagère sur lequel le document est rangé. Appelée « plan de classement », elle est en réalité constituée (surtout pour les niveaux 3 à 6 ? moins pour les niveaux 2 et surtout 1) comme un « sommaire » dynamique, fonction du contenu intégré, et non comme une structure autonome par rapport aux documents eux-mêmes.

Le projet a offert l’occasion de procéder à l’adaptation du plan, dans le respect de la tradition éditoriale juridique mais en fonction du nouveau contexte technique (une gestion dans un CMS, une consolidation au fil de l’eau, la recherche « à facettes », etc.). Une nouvelle arborescence a été conçue autour d’un format standardisé. Le nombre de séries a été étendu autour d’un axe unique, le critère juridico-fiscal (le type d’impôt, la cédule, la procédure), les axes de structuration non retenus étant portés par des facettes (type de contribuables, type d’affectataires) de tri des résultats. Les répétitions ont été totalement supprimées au profit de liens hypertextes entre les documents de la base.

Pour conserver sa cohérence dans le temps, seul le publicateur peut modifier le plan de classement. Ce plan n’évolue pas plus que nécessaire, ainside façon logique dans les cas suivants :

commentaire relatif à un nouvel impôt ;
modification d’une partie importante d’une division ou d’une série ;
création ou fermeture d’un document ;
format du document porté à plus de 10 pages par l’ajout de nouveaux commentaires (faut-il scinder et comment ?) ;
modification du titre.

C. Non-redondance et liens de citation

Parce que les doublons génèrent des risques d’incohérence et un travail inutile de mise à jour ultérieure, aucun commentaire n’apparaît deux fois dans la base. Les liens de citation entre documents permettent au lecteur de connaître l’ensemble des commentaires, néanmoins sans redite.

Ce principe de non-redondance est évidemment au cœur de la rédaction outillée pour prendre en compte les commentaires déjà rédigés ou en cours de rédaction (recherche des liens « entrant », « sortant », des documents citant les mêmes articles des codes).

Bien que les liens hypertextes n’aient pas de valeur juridique en soi, la cible est citée avec justesse, précision et clarté pour être retrouvable et citable à la fois sur l’écran navigable et sur du papier imprimé. Comme pour les autres règles formelles, c’est l’hétérogénéité qui doit être évitée. Les citations sont simples – diminuer les risques d’erreurs à la saisie -, courtes – grâce aux abréviations- , intègrent la date de version et systématiques – même lorsque plusieurs références sont faites successivement.

IV. Un outil partagé pour rédiger, publier, rechercher, exporter

Chaque document doctrinal est une pièce d’un puzzle commun, sans doublon et avec des documents partagés, qui doit rester cohérent dans une arborescence organisée autour de notions juridiques et non directement liée à l’organisation administrative d’auteurs dont les intérêts sont parfois divergents. Dans une base intégrée, la modification d’un document entraîne presque toujours la modification d’un ensemble d’autres documents solidaires qu’il faut manipuler simultanément. Une erreur ou un oubli impactent logiquement plusieurs points de la base, perturbant la recherche comme la production de l’information. De fait, les activités de contrôle de cohérence et de gestion des volumes deviennent plus contraignantes que pour la publication de monographies.

A. Des consignes d’écriture et de publication

L’application est un outil de travail partagé. 25 bureaux métier environ contribuent à l’alimentation d’une base commune. Les rôles se multiplient : des services producteurs (DLF, SGF, SCF, SJF), des gestionnaires de documentation (JF-2A et secrétariat des services producteurs) et des informaticiens, voire des représentants d’autres dispositifs documentaires connexes (tels que SOLON pour la loi ou l’armoire des notes internes de la DGFiP). Les activités de chacun se diversifient, se complexifient et les relations mutuelles s’enrichissent, devenant plus interdépendantes. D’un périmètre borné par une instruction intégrant des citations auto-suffisantes (une monographie), l’espace de travail du rédacteur s’étend désormais à l’ensemble de la base et, au-delà, à des sources externes. De nombreuses consignes précises ont été rédigées et sont enrichies au fur et à mesure des demandes de précision des rédacteurs. Chacun doit respecter ces consignes et les formats de production afin d’assurer l’homogénéité de l’ensemble entre les parties et dans le temps. Les fonds de dossier (au moins pour partie), les référentiels, les outils soutenant et rationalisant le travail et les identifiants de suivi des dossiers sont communs.

De façon à ce que les rédacteurs s’approprient ces outils et jouent le jeu de la consolidation régulière, les choix organisationnels réalisés se sont inspirés autant que de possible de l’existant mais en s’adaptant aux nouveaux besoins générés par une évolution vers un support entièrement numérique dans un contexte général de production qui comporte majoritairement la production en parallèle de lois et de règlements. Ainsi, diverses activités ont aménagées ou inventées :

identifier les groupes de documents à relier entre eux ;
intégrer / numériser les documents (cartes, formulaires) ;
repérer leur localisation précise dans la base ;
établir / typer / contrôler régulièrement les liens ;
contrôler / faire évoluer les référentiels communs ;
organiser le visa, la signature, la mise en ligne simultanée d’un ensemble de documents.

B. Une division et donc une coordination du travail

A la différence de la situation antérieure où la participation des différents bureaux producteurs était organisée par la circulation d’un projet de BOI entre les services concernés d’administration centrale, l’existence d’une base consolidée et unifiée a deux conséquences directes sur le lancement du processus de rédaction de commentaires administratifs relatifs à un article de loi :

les séries et divisions impactées (champ, taux, obligations déclaratives, recouvrement, sanction, contrôle fiscal, etc.) par les nouveaux commentaires (modification des documents et du plan de classement, nouveaux renvois à prévoir, etc.) sont identifiées précisément au début du processus préalablement à tout travail de rédaction ;
les différents départements fiscaux compétents en législation, recouvrement, contrôle et contentieux travaillent en parallèle ou simultanément sur des documents communs ou non et doivent se coordonner.

Le pilote est un rédacteur appartenant en principe au bureau qui a porté le processus d’adoption législatif en amont. Il a des missions primordiales : préalablement à tout travail de rédaction, il appréhende le périmètre général, l’ampleur des commentaires et l’ensemble des séries et divisions impactées (dispositions sur l’assiette, obligations déclaratives, recouvrement, contrôle fiscal, sanctions, etc.) ; il fixe le calendrier prévisionnel de publication et est responsable de son avancée ; il choisit et alerte par tout moyen les autres bureaux métier concernés ; il rédige l’actualité commune à tous les bureaux ; il récupère auprès de tous les bureaux métier les documents modifiés pour les inclure dans le dossier de signature et s’assure de la présence de l’ensemble des documents (enfants, parents, annexes, actualité) ; il transfert au publicateur le lot documentaire en principe prêt pour publication en modifiant le statut des documents dans l’application.

Le rédacteur est soit le pilote soit un rédacteur d’une autre section ou bureau. Chaque agent habilité dispose d’un espace de travail personnel qui présente l’ensemble des dossiers d’affaires en cours. L’étape de rédaction d’un document commence par le choix du document à modifier ou, très exceptionnellement à créer ou à supprimer. Pour éviter les travaux en parallèle, tout processus de rédaction commence par la création d’une version « brouillon (c’est-à-dire en projet) du document. Comme une seule personne à la fois peut travailler sur un document en mode brouillon, tout autre rédacteur qui souhaite modifier le même document doit nécessairement saisir le premier afin de pouvoir y accéder. Avant publication, le rédacteur peut modifier la version de travail autant de fois qu’il le souhaite et les enregistrements successifs sont conservés. Le travail de rédaction s’accompagne d’un ensemble de tâches de structuration et d’enrichissement : révision du plan interne, fusion ou scission si le format atteint plus de 10 pages, contrôle de l’actualité des sources du droit, liens entre les documents, indexation. Finalement, compte tenu du processus de signature / republication par lequel passe tout document modifié, le rédacteur a la responsabilité de relire l’ensemble du document ainsi que des documents qui lui sont liés (annexes et parents notamment).

Le viseur est unique ou multiple. Néanmoins, le viseur du bureau pilote a une responsabilité particulière car son visa porte sur les documents de l’ensemble du dossier d’affaires ayant vocation à être publiés concomitamment (une même actualité et un seul BAP) et doivent être complets et cohérents.

Le signataire est le cadre délégué (directeur ou chef de service) qui donne son accord pour la publication des documents au terme des visas des différents acteurs de la chaîne hiérarchique, par sa signature sur un « bon à publier» (BAP). Un seul BAP est prévu par lot documentaire incluant la fiche d’actualité avec le même souci d’intégration des documents émanant des autres bureaux contributeurs. Il est transmis au publicateur qui ne peut publier sans l’attestation de cette signature scannée.

La section documentation (le « publicateur ») a cinq grands rôles : elle publie les documents au fil de l’eau (le lot documentaire transmis pour publication est en principe prêt sur le fond comme en la forme) ; elle gère la base afin de s’assurer que le corpus reste cohérent, homogène, fiable, etc. ; elle maintient et fait évoluer l’ensemble des outils, dont l’application, pour qu’ils restent efficaces et conviviaux pour l’ensemble des utilisateurs ; elle assiste les bureaux métier (sur les contenus, les consignes, les savoir-faire) et mutualise les préoccupations communes ; elle est l’interlocuteur des utilisateurs finaux.

C. Des métadonnées communes

Une métadonnée est une donnée servant à définir ou à décrire une autre donnée c’est à dire ici un « document » ou son contenu. Concrètement, il s’agit des champs de la notice accompagnant chacun des documents, quel que soit son type, inclus dans la base. Certaines sont prévues et renseignées automatiquement et directement par le logiciel Daisy, d’autres prévues par l’équipe projet mais renseignées automatiquement par l’application, d’autres enfin sont prévues par l’équipe et renseignées manuellement. Les marges de manœuvre ont évidemment plus porté sur ces dernières. La problématique a compris à la fois le choix de ces champs et des valeurs le cas échéant et les processus de renseignement (ou valorisation) pour la reprise du stock (présent) et pour le flux (régime de croisière). Certaines métadonnées n’avaient d’ailleurs été créées que pour les besoins du chantier de reprise du stock.

L’ensemble des métadonnées n’a pu être pensé in abstracto au début du chantier. Il a été stabilisé au fil de la conception des modules de consultation et d’édition et jusqu’au dernier moment. De manière inattendue, c’est la nécessaire livraison d’une liste structurée et documentée de ces informations aux ré-utilisateurs qui a permis d’objectiver exhaustivement ces informations détenues par les différentes composantes de l’équipe projet et a permis la coordination finale des besoins des différentes fonctions.

S’agissant du tri par facettes, les métadonnées retenues sont : séries puis divisions du plan de classement, canevas fiscal (assiette, champ… parfois redondant de la division), source du droit commentée (jurisprudence communautaire, convention fiscale internationale…), nature du contenu du lot documentaire (barème, rescrit…), catégorie des usagers (particuliers, professionnels, dispositions spécifiques aux organismes sans but lucratif…), catégorie des affectataires (budget général de l’État, collectivités territoriales, organismes publics…). Deux métadonnées, utiles ont été écartées faute de temps pour être correctement valorisées : les catégories socio-professionnelles (pour les usagers professionnels) et les territoires (pour la fiscalité zonée). La métadonnée « mots-clefs » pour surpondérer en recherche a été difficile à mettre en œuvre du fait de l’absence de vocabulaire fiscal préexistant et d’une fonctionnalité applicative dédiée à l’indexation. Elle a néanmoins permis de faire avancer l’enrichissement du dictionnaire des équivalents en recherche (cf. infra).

Toutes les métadonnées contenant des valeurs « dates » ont été hautement impactées par les réflexions sur l’application du droit positif car la date est le fait générateur ou la conséquence d’autres fonctionnalités applicatives.

V. La recherche par les juristes… et les non fiscalistes

Faire en sorte que l’utilisateur trouve rapidement et aisément tout ce qu’il cherche et rien que ce qu’il cherche. Pour accroître l’efficacité de la recherche par un non-spécialiste, les recherches peuvent se faire grâce à plusieurs outils différents mais complémentaires entre eux :

recherche simple (accès direct par des requêtes construites à partir des mots proposés par les utilisateurs eux-mêmes) avec différents niveaux de langage (grâce au dictionnaire des équivalents) et résultats triables. En effet, les résultats de certains types de recherche étant bruyants et difficiles à filtrer par l’utilisateur en ligne, des filtres, appelés « facettes » ont été choisis pour leur pertinence « métier » : canevas fiscal, bénéficiaire, affectataire, etc. Pour chaque métadonnée, des valeurs ont été définies ;
à date donnée puisque les documents sont conservés dans leurs différentes versions publiées dans le temps. Le rédacteur peut alors rechercher la doctrine telle qu’elle était en ligne à la date du fait générateur du dossier qu’il traite ;
recherche avancée (mais non «experte ») ;
par une source du droit commenté car tout rédacteur sait sur quel article du code il va s’appuyer pour caractériser en droit une situation de fait ;
par le plan désormais adapté, stable, signifiant et commun à tous les métiers fiscaux. Cette modalité offre une vision globale sur toute la matière fiscale et est très pratique pour ceux qui connaissent ce cadre organisationnel. Intégrés sous la forme de métadonnées, les niveaux séries et divisions constituent également un filtre des lots résultats.

A. Le moteur

Derrière le terme de « moteur », se cache un enchaînement d’algorithmes aboutissant à l’affichage ordonné de documents contenant des mots ou des idées recherché(e)s par l’utilisateur. Pour améliorer la qualité et la vitesse de restitution des résultats, le moteur préconstruit un index des mots du corpus, eux-mêmes harmonisés, classés, etc. En raison des ambiguïtés et de la diversité du langage naturel, les items récupérés ne sont pas toujours pertinents ni exhaustifs. Il va donc s’agir de contrôler ce vocabulaire à différents moments du processus en restreignant la liste des mots à ceux qui sont utiles, en uniformisant leur présentation, en fournissant aux utilisateurs des outils qui leur permettent d’exprimer leurs requêtes plus précisément (tels que la recherche « avancée ») et en développant de nouveaux algorithmes de recherche qui améliorent la précision des récupérations tels que le dictionnaire des équivalents en recherche (cf. infra), la limitation des recherches à un champ particulier de la base (comme le titre), la recherche de syntagmes, la recherche « floue » (orthographe approchante), etc.

Pour éviter le silence, le moteur exploite les multiples algorithmes visant à enrichir et « nettoyer » la requête. Pour éviter le bruit ou, plus justement, en limiter les effets, le moteur permet de trier les résultats obtenus et les modalités de leur affichage.

L’usage commun du terme « moteur de recherche » au singulier éclipse la diversité et la complexité des modules réellement mis en œuvre par l’application.

La recherche (en) plein texte (appelée aussi recherche en texte intégral ou recherche de texte libre) est une technique de recherche textuelle d’informations contenues dans la base de données, qui consiste pour le moteur de recherche à examiner tous les mots de chaque document enregistré, essayer de les faire correspondre à ceux fournis par l’utilisateur et lui restituer les résultats.

L’application documentaire développée sous le logiciel DAISY s’appuie sur l’outil Lucène version 3.0.1. Il s’agit d’un logiciel libre provenant d’Apache, bénéficiant d’une communauté large et active, très populaire et employé par des sites web importants simple d’emploi et hautement modulable grâce aux très nombreuses interfaces de programmation (API) déjà développées pour les différentes phases du processus. Lucène est accessible via une surcouche de requêtes Daisy. En pratique, une requête Lucène est encapsulée dans une requête Daisy, qui est ensuite envoyée au serveur de données donc séparée de celle de Lucène, formant deux requêtes distinctes. Les deux requêtes sont alors simultanément traitées, puis leurs résultats sont comparés pour prendre l’intersection de ces deux ensembles. On se sert donc des deux requêtes pour affiner la recherche. Cette encapsulation se fait de manière tout a fait transparente pour l’utilisateur final. Les créateurs du CMS Daisy ont laissé la possibilité d’ajouter des greffons portant sur les mécanismes d’indexation et sur les analyseurs permettant de personnaliser Lucène simplement. Ils ne sont malheureusement pas encore tous utilisés à ce stade.

Pour faciliter et accélérer la restitution des résultats au moment de la requête, est généré au préalable un index complet. Pour chaque mot conservé est créée une entrée qui liste la position exacte de chaque occurrence du mot dans la base de données de documents. Le moteur stocke les entrées dans une structure de données appelée « index inversé » (un peu comme un index terminologique de fin de livre pointant vers les pages qui traitent d’un sujet donné).

L’index se construit à chaque sauvegarde d’une nouvelle version d’un document. L’indexation porte sur les titres, les métadonnées, puis le contenu c’est-à-dire tout ce qui est écrit directement au format texte dans le document mais pas les images. Chaque nouveau document ou nouvelle version d’un document est étudié(e) par Lucène qui ajoute à l’index déjà existant les nouvelles informations. Les index des versions précédentes ne sont pas effacés.

Plusieurs algorithmes, appelés « filtres Lucène », sont mis en œuvre les uns à la suite des autres dans le mécanisme d’indexation : StandardFilter (supprime les ‘s à la fin des mots et les . des acronymes), LowerCaseFilter (met tous les mots en minuscules), ExactFilter (permet de faire une recherche sur les mots exacts), StopFilter (supprime les mots non signifiants ou « vides » : à, de, par, pour, le, la…), FrenchStemFilter (lemmatisation en langue française, cf. infra). Deux phases principales sont à retenir.

L’analyse lexicale consiste en la conversion des données textuelles en unités minimales de signification ou en unités fondamentales de recherche, appelées lexèmes (par les linguistiques) ou tokens (en anglais). Elle est réalisée par un analyseur lexical (ou lexer ou scanner) dont le rôle consiste, à partir d’un flux entrant de caractères, séparer les chaînes de caractères en phrases et en mots, à éliminer les « bruits » du texte source (espaces, signes de ponctuation), etc. c’est à dire à convertir les données textuelles en tokens(lexèmes?) et à les positionner dans l’index.

L’étape suivante est l’analyse syntaxique (ou parsing en anglais). Dans le contexte d’un moteur tel que Lucène, il s’agit d’effectuer des traitements variés tels que la suppression des mots « vides », la lemmatisation pour regrouper les mots d’une même famille, la normalisation des caractères (majuscule / minuscule ; féminin / masculin ; pluriel / singulier), la prise en compte des mots composés, l’extraction des « entités nommées » (telles que des noms d’institutions ou des dispositifs fiscaux), etc. … mais ne va pas sans questions ni difficultés (exemples : taxe / taxes / taxer / taxable… mais aussi taxi ; impôt / impôts / imposer / imposé… mais aussi imposant !).

Enfin, vient la recherche stricto sensu. Un algorithme est appliqué pour identifier dans l’index les documents qui correspondent le mieux aux mots contenus dans la requête, afin de présenter les résultats des recherches par ordre de pertinence supposée. La qualité d’une recherche est évaluée par le positionnement et la pertinence des résultats, sa rapidité, sa capacité à supporter des requêtes complexes, etc.

Vient ensuite l’étape de mise en concordance des termes issus de la requête et de ceux de l’index au risque que la reconnaissance ne se fasse pas. Inversement, la « tokenisation » de la requête peut déboucher sur des silences inopportuns. Comme pour l’analyse du corpus en vue de son indexation, Lucène offre une grande variété d’analyseurs des requêtes avant leur recherche de concordance avec les termes de l’index. Ici aussi, l’enjeu est d’obtenir un meilleur contrôle du processus d’analyse, de la requête cette fois, pour adapter la fabrication du Dictionnaire des équivalents à ce processus et, le cas échéant, en compenser les effets non souhaités.

La recherche ne se fait pas sur l’ensemble du périmètre du site. Par défaut, le choix a été fait de ne pas inclure les actualités pour deux raisons : leur statut « non opposable » et leur nombre (non versionnées, elles se cumulent). Il est possible de chercher uniquement sur le titre du document, un type d’annexe (barèmes, formulaires), une version publiée à une date passée, les actualités. Néanmoins, une recherche sur les actualités seulement est possible.

Une « recherche avancée » est prévue dans le site web mais pour des raisons de sécurité, elle est limitée à des requêtes préétablies partiellement personnalisables par l’utilisateur et les opérateurs booléens ne sont pas utilisables directement. Une recherche par proximité ou choix de la distance entre deux mots (slop) est possible ; la valeur par défaut est 5 et cette option n’est disponible que lorsque l’option « synonyme » est désactivée. Ne sont pas possibles les recherches floue, pondérée et incomplète (par un système de jokers tels que :* pour ramener tous les mots qui commencent par un préfixe). La recherche avec expansion sémantique est possible (cf. infra).

Les modalités d’affichage des résultats permettent d’informer sur les choix opérés par l’utilisateur, de filtrer et de classer les résultats. Le nombre de résultats est indiqué à l’utilisateur et il n’y a pas de nombre maximal de résultats défini. Les résultats affichés peuvent correspondre directement au(x) mot(s) demandés par l’utilisateur ou bien aux différentes requêtes lancées en parallèle sur les mots du dictionnaire des équivalents. Compte tenu des combinaisons possibles entre index / dictionnaire / requête, en particulier lorsqu’il s’agit de syntagmes, le nombre de résultats peut s’avérer élevé, les réponses elles-mêmes disparates et il n’y a pas de possibilité d’organiser la présentation des résultats pour les distinguer selon les termes qu’ils contiennent et qui ont été recherchés en parallèle.

Les mots recherchés apparaissent en surbrillance mais seulement sur les mots (pas les syntagmes) et les mots recherchés (pas les « équivalents »). Cette fonction de surlignage rencontre encore de lourdes difficultés.

La nature des documents retrouvés est facilement identifiable grâce à l’identifiant qui varie entre les types de documents (cf. supra).

Les éléments déjà consultés dans la liste des résultats sont mis en valeur graphiquement.

Lucène trie les résultats par pertinence décroissante, après calcul d’un score défini sur des critères pré-choisis : le titre a un poids plus important que les métadonnées, qui ont elles mêmes un poids plus important que le texte du document. Ensuite, le score est calculé en fonction du nombre de mots recherchés trouvés dans le texte en fonction de la taille de celui-ci.

B. Étendre les recherches au langage des non-juristes grâce au dictionnaire des équivalents

Afin d’éviter le silence dû à l’interrogation de la base par un vocabulaire différent de celui du corpus, il a été décidé d’enrichir le processus de recherche d’un dictionnaire des équivalents. Cet outil linguistique permet de multiplier le nombre de requêtes sur des termes considérés comme des synonymes « en recherche ». Il se présente sous la forme d’un tableau de n lignes représentant chacune une notion (ou ligne d’équivalence ou synonym ring) et n colonnes intégrant pour chaque ligne, des termes jugés « équivalents ».

Les termes regroupés sur une ligne sont considérés comme équivalents au moment de la recherche documentaire et uniquement dans ce cadre-là. L’outil part des termes et expressions utilisés par les utilisateurs pour leur faire rencontrer les termes et expressions utilisés par les rédacteurs dans les textes. Ne sont donc présents dans le dictionnaire que les termes pour lesquels il existe un décalage entre le(s) termes employé(s) par les internautes et les termes employés dans les textes et qui ne peuvent être déduits par les algorithmes informatiques utilisés dans l’application (traitement singulier/pluriel, féminin/masculin, capitale/minuscule, etc.). La ligne constitue un réseau de synonymes de même poids et la procédure de recherche est identique que l’utilisateur tape un mot de la première colonne ou un équivalent.

La notion d’équivalence est prise au sens large. Elle contient cinq grandes catégories d’équivalents :

les sigles et leur développé : TVA = taxe sur la valeur ajoutée ;
les synonymes au sens commun ou presque : contrat = convention ; veuvage = conjoint survivant ; contentieux = litige ; annulation = nullité ; pilote de course = coureur automobile ; prêt à usage = commodat ; station climatique = station balnéaire ; syndic de copropriété = syndic d’immeubles ;
des notions utilisées en lieu et place des termes juridiques : débit de tabac = buraliste = bureau de tabac ; maison de jeux = casino ; mise à la consommation = dédouanement ; automobile de place = chauffeur de taxi ; acquéreur = cessionnaire = acheteur ; investissement outre-mer = défiscalisation outre-mer = Loi Paul = Loi Pons = Loi Girardin pour les lois éponymes du parlementaire ou du ministre qui les a portées ;
des notions devenues obsolètes sur le plan fiscal mais qui peuvent être mises en relation avec des notions de la version actuelle de la base : IGF = ISF ;
des notions plus générales, plus spécifiques ou associées. Chaque entrée de cette catégorie suppose une fine connaissance des textes pour évaluer si ce regroupement est positif (textes de proximité thématiques) ou au contraire si ce regroupement risque de perturber l’utilisateur en l’obligeant à sélectionner dans le lot des résultats les documents répondant précisément à sa question. Elle dépend aussi des possibilités de tri des résultats au moment de l’affichage et d’une vérification de l’effet sur les résultats retournés : procédure Delta = vente à distance ; expropriation = saisie = vente forcée ; chauffage = chaudière = VMC = ventilation mécanique contrôlée = climatisation = pompe à chaleur mais inversement, CSG = prélèvement sociaux générerait trop de documents éloignés de la question initiale.

Le dictionnaire a été constitué à partir de sources diverses : le vocabulaire déjà disponible dans l’application documentaire préexistante AIDA (DB, BOI, et codes), la base du Centre de documentation de la DGFiP (CDFiP) (notamment les notions relatives aux organismes tels que les établissement publics, autorités indépendantes, commissions, fonds, etc.), les thésaurus du ministère (REBECCA, THESEE mais dont le vocabulaire fiscal est moins riche et moins spécialisé), les requêtes déposées sur les pages « Documentation » de impots.gouv.fr ou, plus généralement, sur impots.gouv.fr. Aucune procédure automatique de récupération de ressources terminologiques n’a pu être mise en œuvre, chacune des sources disponibles ayant été produite dans un contexte local sans visée de partage et sans format de données particulier.

Il est composé d’environ 1 000 entrées principales et 2 500 termes en tout. Même s’il est caché aux utilisateurs, ce dictionnaire est un très grand ensemble à gérer. Pour cela, il doit obéir à une logique interne qui permet à ceux qui le gèrent une meilleure lisibilité pour s’assurer de l’absence de redondances ou d’oublis. Pour structurer chaque ligne, il a été décidé que le terme principal (princeps) est le terme utilisé dans les textes, les équivalents étant donc les termes utilisés par les usagers. Concernant les sigles et les développés, le terme principal est sous la forme développée et le sigle est mis en équivalent. Pour les synonymes, le déroulé doit être réfléchi. Exemple, si on part du terme « acquisition », on commence par les synonymes ou les notions proches telles que « achat », puis les termes qui vont désigner les acteurs de l’action tels que « acquéreur », « acheteur », etc. puis les formes verbales désignant l’action elle-même telles que « acquérir », « acheter », etc. Pour la constitution de ce Dictionnaire, deux principales difficultés ont été rencontrées.

Une contrainte de « zéro doublon » pour l’ensemble du dictionnaire. On entend par « doublon » les homonymes homographes : mot ou signifiant qui a une graphie identique à celle d’un autre mais un signifié différent. Or, le vocabulaire fiscal utilisé dans la base contient de très nombreux doublons et l’objectif d’inclure dans le dictionnaire le langage usuel des contribuables vient renforcer cette présence. En effet, plus le langage est commun, plus le vocabulaire est lâche et plus un mot est susceptible de se trouver sur plusieurs lignes du dictionnaire.

Exemples de cas d’homonymie :

agrément = accord ; agrément = loisirs (jardins d’agrément) ;
aérodrome = aéroport et aérodrome = terrain d’aviation mais ils ne suivent pas le même régime fiscal puisqu’un aéroport est un aérodrome sur lequel il existe une activité commerciale comme la vente de billets d’avion ;
RSI = régime social des indépendants ; RSI = régime simplifié d’imposition ;
CIF = congé individuel de formation ; CIF = commission des infractions fiscales.

Cette contrainte a été prise en compte au prix d’un travail long et difficile. Il a été convenu d’ajouter un qualificatif entre parenthèses pour les distinguer entre eux. Exemple : aérodrome (public) = aéroport et aérodrome = terrain d’aviation. Il a aussi été possible de fusionner des termes proches en prenant en compte le risque de glissement sémantique mal contrôlé.

L’autre contrainte était la limite de 7 mots par cellule. Cette limite du moteur Lucène est une contrainte forte dans la langue française. Cette contrainte se pose en particulier pour les noms d’organismes mais concerne parfois des notions juridiques. Exemple : versement périodique au titre d’une pension => versement périodique d’une pension ; augmentation du nombre de parts pour enfants à charge ou rattachés = enfant rattaché ou rattachement au foyer fiscal

Il a été possible de respecter cette consigne en ne conservant que les mots les plus signifiants mais cela complexifie par ailleurs la récupération de ces lignes pour d’autres usages (indexation de la documentation interne par exemple). Pour les organismes, le raccourcissement s’est fait en supprimant les mots les plus fréquents comme Association ou Établissement.

Comme tout outil terminologique, ce dictionnaire des équivalents est vivant il doit être amélioré, enrichi et mis à jour régulièrement. Ce travail de mise à jour et d’enrichissement prend plusieurs formes :

analyser le vocabulaire des requêtes c’est à dire des utilisateurs réels – sans se contenter des questions les plus fréquemment posées ou apportant le plus de réponses puisque l’objet même du dictionnaire est justement de s’intéresser aux requêtes correspondant à des réponses nulles ou trop faibles aujourd’hui – et rapporter ces termes du langage commun aux termes juridiques du tableau ;
réaliser des tests fonctionnels pour contrôler les choix effectués, étudier leur impact sur une recherche, évaluer la qualité des réponses, contrôler ses effets négatifs, etc. Petit à petit, on peut alors décider s’il est opportun et utile d’intégrer ou au contraire de supprimer une entrée, de paramétrer un algorithme, etc. ;
enrichir sur des segments terminologiques pas encore assez travaillés tels le nom de régions particulières utilisées pour les zonages fiscaux, les noms et numéros de formulaires, etc. ;
ajouter les notions juridiques ou fiscales issues des lois de finances récentes ou de leurs commentaires ;
ajouter le nom des dispositifs caducs afin qu’ils restent accessibles aux internautes qui n’auraient pas l’information et ne ferait pas coïncider le bon vocable avec la bonne date de publication des textes.

La fabrication, la gestion et la mise à jour du Dictionnaire est réalisé par la section Documentation du service juridique de la fiscalité. Cette section gère par ailleurs d’autres référentiels terminologiques. Pour sortir des limites techniques posées par la gestion sous tableur, une opération de transfert des différents vocabulaires vers un logiciel ad hoc et partagé avec d’autres directions du ministère est en cours. Cela permettra d’automatiser des tâches aujourd’hui accomplies manuellement et d’optimiser la qualité des référentiels produits.

NB : Cette application a été conçue et réalisée entre fin 2009 et mi-2012. Le projet a été porté par le service juridique de la fiscalité de la direction générale des finances publiques (ministère français du budget). Il a été assisté, pour la partie informatique, des bureaux COPERNIC A (AMOA) et SI1D (MOE) et, pour les aspects documentaires des sociétés AT&D et Ourouk. Les développements informatiques ont été commandés à la SSII AtosOrigines, dont certains réalisés par Outerthought, l’éditeur belge du logiciel Daisy. Le site Légifrance a le plus souvent possible servi d’exemple et la direction de l’information législative et administrative de référent.

Les contenus juridiques rédigés parallèlement (par près de 200 personnes) ont été intégrés dans la base par la section documentation du service juridique et par de nombreux stagiaires fiscalistes. Au faîte de l’activité, près de 50 personnes ont travaillé concomitamment sur le chantier Outil et à la coordination du projet.

[1]BOI-SJ-RES-10-10-10-20120912 SJ – Garantie contre les changements de position de l’administration fiscale – Garantie contre les changements de doctrine – Procédures de rescrit fiscal – Garantie contre les changements d’interprétation d’un texte fiscal – Garantie apportée contre les changements d’interprétation des textes fiscaux contenus dans la doctrine publiée

Mettre en ligne du droit : l’expérience BOFIP-Impôts, des réponses informatiques à des questions juridiques

Citer : Jocelyn Pierre, 'Mettre en ligne du droit : l’expérience BOFIP-Impôts, des réponses informatiques à des questions juridiques, ' : Revue générale du droit on line, 2013, numéro 10887 (www.revuegeneraledudroit.eu/?p=10887)

About Jocelyn Pierre

Revue générale du droit est un site de la Chaire de droit public français de l’Université de la Sarre

Recherche dans le site

Contacts

Citer : Jocelyn Pierre, 'Mettre en ligne du droit : l’expérience BOFIP-Impôts, des réponses informatiques à des questions juridiques, ' : Revue générale du droit on line, 2013, numéro 10887 (www.revuegeneraledudroit.eu/?p=10887)

Partager :

About Jocelyn Pierre

Revue générale du droit est un site de la Chaire de droit public français de l’Université de la Sarre

Recherche dans le site