Dans le cadre du projet BACUDA de l'OMD (Band of Customs Data Analysts - groupe d'analystes des données douanières) mené conjointement avec l'Institut de science fondamentale (Institute of Basic Science -IBS) et l'Université nationale Cheng Kung (NCKU), l'OMD a développé un modèle de réseau neuronal artificiel appelé DATE (Dual-Attentive-Tree-aware-Embedded) pour aider les administrations des douanes à mieux détecter les transactions qui présentent des risques de fraude. Le papier sur le modèle DATE a été accepté par la Conférence KDD 2020[1] (Sciences appliquées et sciences des données) et sera publié dans les actes de la KDD2020 dans son intégralité[2].
Le projet BACUDA de l'OMD a été lancé en septembre 2019 et constitue une plateforme de recherche collaborative portant sur l'analyse des données. Avec la participation de l'Administration des douanes du Nigeria (NCS), les experts BACUDA ont réussi à développer le modèle DATE et ont lancé un projet pilote pour vérifier sa performance avec des données en temps réel relatives à l'importation de deux ports nigérians, à savoir, Tin Can (Lagos) et Onne (Port-Harcourt) depuis mars 2020.
Le modèle a utilisé un mécanisme de pointe dans le domaine de l'Intelligence artificielle (IA) appelé “ATTENTION” qui est utilisé comme outil de traduction et pour les voitures sans chauffeur. Grâce à cette technologie innovante, le modèle va bien au-delà des autres modèles d'apprentissage automatiques traditionnels (tel que XGBoost) pour détecter des transactions potentiellement frauduleuses. Le modèle est très performant même avec des données de formation de petite taille (en provenance de pays avec de faibles volumes commerciaux) et de faibles taux de contrôle (en provenance de pays avec de larges volumes commerciaux).
Comment fonctionne le modèle DATE ?
- Imaginez que vous êtes à la tête d'un Centre de ciblage douanier (réseau neuronal artificiel) constitué de 100 analystes des risques (arbres de décision). Vous souhaitez que les analystes rapportent la probabilité d'une sous évaluation et estiment les recettes supplémentaires résultant des contrôles (double tâche).
- Analyser les 100 rapports afin de prendre une décision définitive est une tâche ardue. Faire la moyenne des différentes prédictions conduira à une perte d'informations précieuses qui peuvent figurer dans n'importe lequel des 100 rapports. C'est là que le modèle DATE intervient car il garde toutes les informations tout en se concentrant sur les données les plus importantes. Voici certains avantages du modèle:
- Si vous avez un groupe majoritaire de rapports relativement similaires, vous pouvez vous concentrer sur ces rapports;
- Si vous êtes un analyste spécialisé en codes SH et que vous avez ciblé des importateurs, vous pouvez vous focaliser sur leurs rapports; et
- Votre décision finale sera le reflet du contenu des rapports qui ont attiré le plus l'attention.
Vous êtes intéressé par le modèle DATE ?
Le modèle DATE est disponible en source ouverte et vous pouvez le télécharger à partir du lien suivant: https://github.com/Roytsai27/Dual-Attentive-Tree-aware-Embedding.
Vous pouvez extraire des données à l'importation au niveau des transactions à partir de votre système de dédouanement automatisé et les importer dans le modèle DATE. Cela vous donnera, pour une importation donnée, le risque de sous-évaluation et une estimation des recettes additionnelles en cas d'inspection.
Support technique
Les experts BACUDA de l'OMD sont en train de développer un guide de l'utilisateur du modèle DATE qui sera bientôt disponible sur le site web de l'OMD. Pour un soutien personnalisé, l'OMD invite les Membres à contacter l'Unité de recherche de l'OMD (Research@wcoomd.org) afin d'organiser un test conjoint du modèle DATE avec les experts BACUDA.
[2] *Sundong Kim, *Yu-Che Tsai, Karandeep Singh, Yeonsoo Choi, Etim Ibok, Cheng-Te Li, and Meeyoung Cha. DATE: Dual Attentive Tree-aware Embedding for Customs Fraud Detection. To appear in Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD). San Diego, CA, USA, August 23-27, 2020. (*: equally-contributed first authors)