La fraude fiscale affecte directement et négativement les conditions du marché des entreprises en créant une concurrence déloyale. Par rapport aux concurrents qui ne paient pas d’impôts, les entreprises qui fonctionnent conformément à la loi ont des coûts plus élevés, et donc des prix plus élevés pour les produits et services. De plus, la fraude fiscale, de la perception de l’individu à son implication dans un tel secteur, affecte la réduction des droits humains fondamentaux (infrastructures locales, soins de santé, retraites…). Parallèlement à cela, la fraude dans ce domaine diminue l’amélioration du niveau et de la qualité des services publics, ce qui entraîne une conséquence directe sur l’insatisfaction des citoyens.

La détection de la fraude fiscale est l’étape la plus difficile du contrôle fiscal. L’un des principaux objectifs du contrôle fiscal est de surveiller et de contrôler les opérations financières des grandes entreprises/sociétés en tant que principaux porteurs de risques dans le domaine de la fraude fiscale. En comparaison, la fraude fiscale des petites et micro-entreprises se fait principalement par le biais de transactions en espèces sur les revenus et les dépenses. En utilisant diverses sources indépendantes, ou en comparant les données et en vérifiant avec d’autres sources, l’administration fiscale peut déterminer les actions malveillantes des contribuables. Aussi, la détermination des actions délictuelles par les contribuables nécessite un contrôle fiscal de terrain (au hasard ou sur demande), ce qui demande beaucoup de temps et de moyens financiers à l’administration fiscale (nombre d’inspecteurs et moyens matériels supplémentaires). C’est une tâche très difficile, et finalement impossible, pour l’administration fiscale de s’appuyer exclusivement sur le contrôle fiscal pour la vérification de la conformité fiscale. À cet égard, le travail de vérification serait encore facilité par l’utilisation de certains outils logiciels qui permettraient de déterminer d’éventuelles malversations, sans porter atteinte à la relation de confiance entre les contribuables et l’administration.

TaxCore®, en tant que système de surveillance des contribuables, enregistre tous les éléments importants de chaque transaction financière, ce qui permet aux autorités fiscales de surveiller la collecte des impôts et les enregistrements des transactions. La plateforme est basée sur l’identité des contribuables et la protection des données est très intuitive et permet aux agents des impôts de rechercher les contribuables selon divers paramètres. Cela permet aux agents du fisc de localiser et d’utiliser facilement des informations importantes, de suivre les tendances de l’activité du contribuable, etc. Cette solution logicielle fournit à l’administration fiscale des notifications sur chaque transaction commerciale d’une manière qui permet l’analyse des risques et l’audit à distance.

L’un des avantages de TaxCore® est l’unification de toutes les données fiscales pour tous les contribuables du système fiscal d’un pays. De cette façon, une grande base de données d’importance est formée, à partir de laquelle des résultats/rapports signifiants et significatifs peuvent être générés, mais aussi des prévisions futures sur les fraudes fiscales potentielles peuvent être réalisées. L’unification des données de toutes les transactions pour tous les contribuables ne se fait pas au niveau de la centralisation, au sens de stockage des données dans « un » endroit, mais sous la forme de l’exhaustivité des informations. Les données accumulées permettent l’exhaustivité car en regroupant les informations elles-mêmes, ainsi que leur importance, elles ont une utilisation plus grande et meilleure dans diverses analyses qui peuvent être utilisées pour certaines prévisions futures.

L’efficacité du contrôle fiscal pourrait être améliorée en appliquant une nouvelle approche dans laquelle la première étape consisterait à définir les paramètres de base à l’aide du processus DATA MINING. L’objectif est de développer des algorithmes de détection des infractions fiscales à l’aide de méthodes avancées d’analyse de grands ensembles de données (big data) et d’intelligence artificielle à l’aide de l’apprentissage automatique. Les grands ensembles de données sont considérés comme un nouveau type de ressource, en termes de moyens dans les affaires et sont utilisés pour améliorer les processus commerciaux et augmenter la productivité pour la période suivante. Selon la littérature disponible, on estime qu’avec le secteur financier, le plus grand domaine d’augmentation de la productivité, en utilisant de grands ensembles de données, est le secteur public, c’est-à-dire l’administration de l’État1. L’application de méthodes d’apprentissage automatique à de grandes bases de données de l’administration fiscale fournirait des informations précieuses sur le comportement historique des contribuables, sur la base desquelles des recommandations de contrôle sur le terrain pourraient être obtenues. Outre l’effet qui améliorerait l’efficacité du contrôle sur le terrain, cette approche permettrait également de constituer des catégories de contribuables à risque. L’idée est de créer des modèles basés sur des indicateurs historiques de certains attributs du contribuable, selon lesquels, en fonction du degré de correspondance avec les formulaires, le contribuable se verrait attribuer un certain niveau de risque.

 

Extraction des formulaires de modèles

L’extraction de modèles de scénarios possibles de fraude fiscale serait basée sur le comportement historique des contribuables en surveillant certains attributs (définis à l’avance) et en s’appuyant sur certains des modèles de la littérature (réseaux de neurones artificiels, réseaux bayésiens, régression logarithmique…). Il est nécessaire de catégoriser le niveau de risque du contribuable en, par exemple, faible/moyen/élevé. Selon le degré de coïncidence (probabilité) avec les scénarios de fraude fiscale définis, le contribuable recevrait une certaine catégorisation d’importance en termes de niveau de risque. L’un des avantages du développement d’indicateurs de risque pour les contribuables individuels est la possibilité d’utiliser ces indicateurs pour classer tous les contribuables selon un niveau de risque défini. L’apprentissage automatique serait utilisé pour découvrir des modèles et des relations entre les attributs qui sont utiles pour identifier le comportement « problématique » du contribuable. Il serait utilisé pour sélectionner les contribuables suspects et, à ce titre, serait transmis aux inspecteurs pour des contrôles supplémentaires. Le but de cette approche est d’augmenter la productivité des inspecteurs des impôts sur le terrain et de récupérer la perte de recettes fiscales. Par rapport à la méthode de recherche manuelle, cette technique d’exploration de données est une approche (scientifique) plus moderne qui permettrait d’économiser des ressources et d’éviter les jugements personnels dans la sélection des contribuables « suspects ».

Le point de départ fondamental pour déterminer les futures fraudes fiscales potentielles est de savoir comment distinguer la fraude intentionnelle d’une erreur accidentelle commise par le contribuable. Généralement, le terme « fraude » fait référence à toute non-conformité, violation de la réglementation fiscale. C’est pourquoi la fraude fiscale est souvent assimilée à des irrégularités fiscales. Toutefois, les irrégularités fiscales comprennent tous les cas où le contribuable n’a pas réglé ses obligations fiscales. D’autre part, la fraude fiscale est l’intention du contribuable de contourner la loi afin d’éviter de payer des impôts. Ainsi, les fraudes fiscales constituent un sous-ensemble de l’ensemble des irrégularités fiscales. Le point de départ fondamental pour identifier les fraudes fiscales consiste à distinguer les irrégularités intentionnelles (fraude) des irrégularités accidentelles (erreur). La délimitation serait basée sur tous les scénarios réalistes d’infractions fiscales basés sur des données historiques réelles, avec le principal indicateur de distinction entre l’intention et la coïncidence – cet indicateur serait la fréquence des cas d’infraction.

Un grand nombre d’anomalies analytiques sont à prévoir lors de l’exploration de données. Les anomalies à haut risque doivent être distinguées des anomalies à faible risque. Les anomalies prévisibles ne doivent pas être davantage prises en considération. La connaissance du système fiscal précisément à travers TaxCore® permettra de séparer les anomalies normales et attendues de celles qui pourraient être qualifiées de potentielles fraudes fiscales.

La première instance est la classification des données dont nous disposons en termes d’exactitude des données elles-mêmes (montants négatifs, champs vides, formats, valeurs en double, valeurs inégales…). La précision du modèle dépend de l’exactitude des données d’entrée. L’exactitude des données d’entrée dépend en grande partie de la précision de leur entrée. Ce qui nous ramène au tout début, à savoir que l’exactitude des informations d’entrée est de la responsabilité du contribuable, qui utilise des composants pour émettre des factures conformément à la spécification technique. Lors du choix d’un modèle, il est nécessaire de prendre en compte si l’algorithme implémenté peut être exécuté en temps réel.

Le problème est de définir les conditions initiales et les attributs sur la base desquels des scénarios de comportement à risque des contribuables seraient formés. Il convient de définir des modèles de comportement malveillants, c’est-à-dire de définir des règles conformes à certaines fraudes connues ou hypothétiques. S’il n’y a pas de retour d’informations d’experts, nous devons constituer nous-mêmes des données synthétiques, qui constituent à la fois des transactions légales et illégales. En interprétant les données existantes, leurs interrelations, leur intersection et l’application d’un modèle à ces données, l’objectif final devrait être atteint : si la transaction de ce contribuable peut être interprétée avec une certaine précision comme une fraude. De plus, il est bon d’appliquer différentes méthodes d’apprentissage automatique (K-Nearest Neighbors, Decision Tree Classifier, Artificial Neural Networks, Logistic Regression…) pour déterminer comment quelle méthode gère les données d’entrée et la précision des résultats obtenus. Si les résultats obtenus étaient transmis à l’administration fiscale, qui déterminerait l’exactitude du calcul en se rendant sur le terrain, cela fournirait une confirmation de l'(in)exactitude de la méthode, qui pourrait être considérée comme la seule confirmation valable de la méthode. À cet égard, le choix de la méthode déterminerait les résultats les plus précis.

S’il existe des données historiques réelles sur les fraudes fiscales avérées, la détection des futurs contribuables potentiels qui commettraient une fraude serait déterminée à l’aide de méthodes supervisées. L’application du modèle irait dans le sens d’une recherche dans la base de données des transactions de tous les contribuables, et permettrait d’identifier les contribuables qui présentent des caractéristiques (comportement) similaires à celles des contribuables chez qui la fraude fiscale est avérée. S’il n’y a pas de connaissances ou d’informations disponibles sur les fraudes fiscales existantes, l’exploration de données serait effectuée à l’aide de méthodes d’apprentissage automatique non supervisées, bien qu’elles aient un niveau de précision et d’interprétation inférieur à celui des méthodes supervisées. Avec la méthode non supervisée, contrairement à la méthode supervisée, non seulement les cas de fraude fiscale seraient identifiés, mais les entités économiques qui sont irrégulières dans le paiement des obligations fiscales ainsi que les comportements suspects des contribuables seraient signalés. Ces méthodes de travail peuvent être utilisées dans le travail d’audit des administrations fiscales pour déterminer la criminalité fiscale. Elles peuvent également être considérées comme adaptées à aider dans la décision de la gestion des risques de fraude fiscale, et qui seraient utilisées pour mieux hiérarchiser les contrôles fiscaux et assurer une collecte fiscale plus efficace.

 

Exemples de la pratique

Ce qui suit est un bref aperçu des possibilités d’utilisation de la solution TaxCore® dans le cadre des tendances actuelles d’apprentissage automatique pour prédire les futurs contribuables potentiels qui commettraient une fraude fiscale. Une catégorie spéciale de comptes auxquels il faut prêter attention sont les remboursements. Les informations mondiales indiquent qu’au niveau des établissements de vente au détail, pas moins de 28 % de toutes les fraudes sont commises par des employés via des remboursements2. À cet égard, l’accent, en cas de fraude fiscale éventuelle, devrait être mis précisément sur les remboursements. Une attention particulière doit être accordée aux employés disposant d’informations d’identification supplémentaires (par exemple, les managers3) car ils ont des privilèges pour des remises supplémentaires, des coupons pour des achats ultérieurs, etc. Voici quelques-unes des façons possibles de suivre les remboursements :

  • Scénario 1 :
    Suivre le nombre total de remboursements parmi le nombre total de factures émises pour chaque vendeur, comparer avec tous les employés. Quelle est la fréquence des événements, surveiller au niveau quotidien, hebdomadaire… Grand nombre de remboursements dans les ventes totales du vendeur, souvent répétés – est un signal d’alarme
  • Scénario 2 :
    Suivre le nombre d’articles annulés par ticket de caisse pour chaque vendeur et comparer par employé. Grand nombre d’annulations par un vendeur par rapport aux ventes, souvent répétées – est un signal d’alarme
  • Scénario 3 :
    Surveillance de l’oscillation du prix d’un article individuel où le prix est augmenté ou diminué par rapport à la moyenne, ce qui peut indiquer une manipulation du prix déclaré de vente, ainsi qu’une augmentation illégale (prix abusifs).
  • Scénario 4 :
    Suivi des signalements des clients sur les transactions suspectes liées à ce point de vente

L’essentiel de ces scénarios est la répétition, c’est-à-dire la fréquence des événements. Un événement qui ne se produit jamais, une seule fois ou un nombre insignifiant de fois au cours de la période observée ne peut pas être qualifié de fraude fiscale potentielle. Aussi, il est nécessaire de définir plusieurs catégories de risques indépendantes les unes des autres liées à des concepts différents (facteurs de pondération des conditions initiales, fréquence, catégories de risques pour les contribuables…). L’évaluation des risques est un processus très subjectif, cependant, si certaines méthodologies et principes sont appliqués, la subjectivité peut être réduite au niveau le plus bas possible. Sur la base des données disponibles dans la base de données TaxCore®, certaines règles peuvent être identifiées et les types de risques ainsi que les niveaux d’acceptabilité des risques peuvent être définis avec expertise. L’évaluation des risques impliquerait de prendre des décisions basées sur des données réelles et l’expérience d’experts. Chaque événement à risque est accompagné de sa fréquence. A cet égard, il est nécessaire, sur la base des connaissances des experts, de définir des intervalles de fréquence, selon lesquels le comportement des contribuables serait délimité. L’essence du problème réside dans la définition de seuils, à la fois pour les niveaux de risque de l’événement observé et pour les intervalles de fréquence.

TaxCore® permet de suivre et de séparer l’heure d’émission des factures et l’heure de réception des factures dans la base de données. Il s’agit d’une information très importante car en surveillant l’heure de réception des factures, on peut déterminer s’il y a une accumulation de factures dans une certaine partie de la journée (par exemple la fin des heures de travail), s’il y a des lacunes pendant les heures de travail, combien de fois elles sont répétées, etc.

Les taux d’imposition peuvent également être vérifiés via le système TaxCore®, pour savoir si les contribuables appliquent réellement les taux d’imposition qu’ils ont déclarés. En outre, il est possible de déterminer si plusieurs taux de taxe différents sont calculés pour le même article au niveau d’un contribuable, ainsi que si les taux de taxe sont mélangés lors de l’émission d’une facture à un contribuable qui a plusieurs catégories de taxe.

En plus de tout cela, les tendances des éléments suivants peuvent être surveillées au niveau du contribuable pour des intervalles de temps arbitraires (quotidien, hebdomadaire, mensuel, trimestriel, annuel, calendrier fiscal, début et fin de l’exercice ou toute période de dépôt des déclarations fiscales, puisque la période juste avant est très intéressante pour extraire de l’argent et réduire le chiffre d’affaires) :

– nombre de factures émises

– flux de trésorerie

– montant de la taxe

– nombre max et min de factures émises

– ratio types de paiement espèces/carte

– les types d’opérations et leurs pourcentages en nombre et en montant dans le nombre/montant total des opérations (double contrôle au niveau des contribuables et comparaison des contribuables avec l’évolution moyenne des mouvements au niveau de l’activité) ainsi que bien d’autres.

 

Ces données peuvent être importantes pour suivre le degré d’écart de la tendance au niveau des contribuables par rapport à l’évolution au niveau de l’activité, selon le paramètre choisi.

Exemple 1 :
Un des exemples de suivi de tendance selon un paramètre serait de déterminer l’écart de la tendance du nombre de factures du contribuable par rapport à la tendance du nombre moyen de factures émises au niveau de l’ensemble de l’activité. Les intervalles d’écart doivent également être définis : (1) quel pourcentage d’écart est toléré, (2) quels seuils nécessiteraient une enquête supplémentaire sans déclarer le contribuable comme un auteur possible de fraude, et (3) quel pourcentage d’écart, et tout montant supérieur à celui-ci, marquerait le contribuable comme auteur potentiel de la fraude et alerterait l’inspection des impôts pour qu’elle procède à un contrôle de terrain de ce contribuable. Parallèlement au pourcentage d’écart, il est nécessaire de surveiller sa fréquence ; il doit différer en poids (importance) de la fréquence des déviations sur une base hebdomadaire de la fréquence des déviations sur une base mensuelle. Par exemple, deux écarts sur une base hebdomadaire n’ont pas le même poids que deux écarts sur une base mensuelle.

Exemple 2 :
Sur la base de plusieurs exemples de la pratique et de leur chiffre d’affaires enregistré dans TaxCore®, il a été observé que de mois en mois, il y a une tendance à la baisse du nombre de factures émises, ainsi que certains jours ouvrables, il n’y a pas une seule facture émise (il n’y a pas de factures enregistrées dans le système). Il convient de noter qu’il s’agit de l’industrie hôtelière et qu’il est courant que certaines industries n’aient pas de ventes quotidiennes. Selon ces exemples tirés de la pratique, un scénario peut être défini selon lequel s’il y a une tendance à la diminution du nombre de factures et que certains jours il n’y a pas de ventes enregistrées, que pour les deux conditions remplies, le contribuable entre dans la zone rouge, ce qui signifie qu’il est transmis aux inspecteurs pour un contrôle complémentaire.

Chaque type de fraude laisse certaines « traces » dans les données. TaxCore® enregistre les événements en temps réel, ne laissant aucune possibilité de modifications ultérieures et rétroactives des données qui « remplaceraient » les anciennes données. Cela implique en outre qu’absolument chaque changement qui se produit au niveau de chaque élément d’information est stocké dans la base de données. De cette manière, un grand ensemble de données est formé, dont la recherche et l’analyse peuvent déterminer des modèles d’actes délictueux potentiels futurs. Les humains ne sont pas capables de parcourir de grandes bases de données, de définir et d’extraire certains modèles et scénarios basés sur les données. Les méthodes avancées d’apprentissage automatique sont idéales pour extraire de grandes bases de données et identifier des scénarios. Les schémas par lesquels les méthodes d’apprentissage automatique rechercheraient les données peuvent être définis sur la base d’indicateurs historiques réels de contribuables ayant commis une fraude fiscale ou en formant des scénarios fictifs de fraude fiscale. Les méthodes d’intelligence artificielle peuvent être utilisées dans les deux sens. La première consiste à définir et à distinguer les contribuables qui ont commis certaines infractions fiscales, et la deuxième consiste à les utiliser comme outils pour commettre une fraude. À savoir, de faux ensembles de données peuvent être formés, en fonction des catégories fiscales, qui seraient formés par des algorithmes d’IA afin d’atteindre le niveau de précision souhaité de correspondance avec des données réelles. Un tel ensemble de données, identiques aux données réelles, peut être utilisé à des fins fiscales pour tromper l’inspection des impôts. À cet égard, il est nécessaire d’inclure les technologies de pointe dans les contrôles des contribuables afin de prévenir et, si possible, contrôler la surreprésentation de l’IA dans la fraude fiscale.

Considérant que dans les conditions actuelles de mondialisation et de développement de la technologie informatique, le nombre de risques augmente considérablement, il est nécessaire pour la stabilité financière du pays de définir des mesures et des approches pour déterminer les fraudes fiscales potentielles. À cet égard, il est nécessaire de s’adapter à la tourmente financière mondiale et d’envisager une approche moderne pour identifier la fraude fiscale. TaxCore®, en raison de son utilisation complète, de son approche innovante, de sa technologie et de sa théorie, permettrait aux autorités fiscales de gérer les risques de fraudes fiscales futures, entraînant de nouveaux progrès économiques et la croissance du pays.

 

Auteur du texte : Jelena Lukić, analyste d’affaires, Data Tech International d.o.o.