Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Fraud detection

568 vues

Publié le

Genereller Überblick über Methoden der Betrugserkennung und einige Praxisbeispiele. Ausblick auf mögliche Tendenzen für die Zukunft.

Publié dans : Économie & finance
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Fraud detection

  1. 1. TechnologyScout Betrugserkennung Techniken und Anwendungen Dr. Volker Göbbels TechnologyScout
  2. 2. TechnologyScout Überblick - Roadmap • Was ist Betrug? • Allgemein: Was ist das und wie läuft es ab? • Welche Methoden gibt es? • Wie sehen die Einsatzszenarien aus? • Was ist denn nun der optimale Ansatz? 2
  3. 3. TechnologyScout –Wikipedia– „Betrug ist eine vorsätzliche Täuschung, um sich unfaire oder ungesetzliche Vorteile zu verschaffen oder um ein Opfer um sein gesetzliches Recht zu bringen.“ 3
  4. 4. TechnologyScout Was ist Betrugserkennung? • Überwacht werden: • Transaktionen bei Banken • Claims bei Versicherungen • Call Records bei Telco Providern • Daten laufen parallel in Livesystem und Fraud Detection (FD) • Wenn FD Alarm schlägt: • Banking: Transaktion wird verweigert • Versicherung: Claim ausgesteuert zur manuellen Analyse 4
  5. 5. TechnologyScout Die 4 Methoden
  6. 6. TechnologyScout Methoden der Betrugserkennung 1. Regelbasierte Systeme
 2. Graphenbasierte Systeme
 3. Expertensysteme
 4. Deep Learning Systeme 6 IN ? ? ? ? HOLD OK OKDENY Time Plan Gen Test KE 2 1 3 4
  7. 7. TechnologyScout Regelbasierte Systeme • Alle Transaktionen (Tx) durchlaufen einen oder mehrere Workflows
 • Die einzelnen Schritte bewerten Detail- informationen einer Tx oder beziehen aggregierte Informationen ein
 • Ergebnis: Fraud Score 7 IN ? ? ? ? HOLD OK OKDENY Time
  8. 8. TechnologyScout Regelbasierte Systeme Hintergrundwissen • 2 Komponenten: • In-Memory Datenbanken • Regelengines • Daten: • Einzelne Transaktionsdaten • Aggregierte Daten (Bsp.: durchschn. Umsatz) 8
  9. 9. TechnologyScout Regelbasierte Systeme - Pro & Contra • Ältestes und bewährtes Modell • Extrem schnell • Direkte Begründung der Aussteuerung für einen Sachbearbeiter durch Angabe der gezogenen Regeln 9 • Erfordert viel Branchenwissen • Manche Szenarien findet man schlecht oder gar nicht • „Human intelligence based“ Pro Contra
  10. 10. TechnologyScout Graphenbasierte Systeme • Transaktionen werden in Knoten und Verbindungen zerlegt • Zu viele Verbindungen zu einem Knoten deuten auf Betrug • Bestimmte Kennziffern in Graphen können auf Betrug hinweisen 10
  11. 11. TechnologyScout Graphenbasierte Systeme Hintergrundwissen • Komponenten: • Graphenbasierte oder relationale Datenbank • Data Mining Algorithmen • Visualisierung • Mathematische Grundlagen: Graphentheorie 11
  12. 12. TechnologyScout Graphenbasierte Systeme - Pro & Contra • Findet ungewöhnliche oder versteckte Szenarien (Spiderweb, circular cash flow) • Da graphisch orien- tiert, oft einsichtig und leicht verständlich 12 • Benötigt spezielle Datenbank • Am besten geeignet für detailreiche Datensätze • Datenmengen:
 1 Tx → n Nodes, n-1 Links (n=5-20) Pro Contra
  13. 13. TechnologyScout Expertensysteme • „Expertensysteme“ • Nutzen Fallbeispiele & Domänenwissen im Knowledge Engineering • Ablauf: 1. Plan: Plane mögliche Lösungskandidaten 2. Generate: Generiere Lösungskandidaten 3. Test: Teste ob Kandidaten Problem lösen 13 Plan Gen Test KE
  14. 14. TechnologyScout Expertensysteme Hintergrundwissen • Entwickelt ab 1965 zur Klärung von Massenspektren in der Chemie • Berühmtestes System: DENDRAL (Dendritic Algorithm) • Heuristic DENDRAL • MetaDENDRAL 14
  15. 15. TechnologyScout Expertensysteme - Pro & Contra • Lernt neue Szenarien • Gut erforschte Technik 15 • Langsam bis sehr langsam • Lernfortschritt wird durch Feedback der Metadaten in die Heuristik erreicht (→manueller Eingriff) Pro Contra
  16. 16. TechnologyScout Deep Learning Systeme • Transaktionen durchlaufen ein Netz aus verarbeitenden Knoten • Spezielle In- und Out- Nodes • Dazwischen „versteckte“ Processing Nodes 16
  17. 17. TechnologyScout Deep Learning Systeme Ein Perceptron • Punkt (x,y): • Unterhalb der Linie: wahrscheinlich rot • Oberhalb der Linie: wahrscheinlich blau • Mathematisch formuliert:
 
 • Trainingsdaten zuführen & Gewichtung w optimieren bzgl. Outputfehler 17 Illustrationen von Ivan Vasilev, https://www.toptal.com/machine-learning/an-introduction-to-deep-learning-from-perceptrons-to-deep-networks
  18. 18. TechnologyScout Deep Learning Systeme Viele Perceptrons - Ein Netz • Jede Verbindung zwischen Knoten hat eine Gewichtung w’ analog zu denen der Perceptrons selbst • In diesem Beispiel: • 3 Input-Werte • 2 Output-Werte • 1 hidden Layer 18 Illustrationen von Ivan Vasilev, https://www.toptal.com/machine-learning/an-introduction-to-deep-learning-from-perceptrons-to-deep-networks
  19. 19. TechnologyScout Deep Learning Systeme Aktivierungsfunktionen f(x) • Eine Linearkombination von linearen Funktionen f(x) liefert immer noch eine lineare Funktion • Ausweg = nicht lineare Funktionen wie: • Sigma-Funktion (logistic function) • hyperbolischer Tangens (tanh) • Heaviside Funktion • Recitifier/Ramp oder Softplus 19
  20. 20. TechnologyScout Deep Learning Systeme Training ist alles! • Training durch Fehlerminimierung (least squares):
 
 
 y: tatsächlicher Output
 t: Erwartungswert (target) • Manipulation der Gewichtungen (stochastic gradient descent) • Lösung: Back propagation
 
 20 Illustrationen von Ivan Vasilev, https://www.toptal.com/machine-learning/an-introduction-to-deep-learning-from-perceptrons-to-deep-networks
  21. 21. TechnologyScout Deep Learning Systeme - Pro & Contra • findet Dinge, die einem nicht bewußt waren • Kann auch komplexe Szenarien detektieren 21 • Kein direktes Feedback, auf Grund welcher Parameter eine Tx ausgesteuert wurde • Meist relativ langsam, abhängig von der Komplexität des Netzes • Vanishing Gradients, Overfitting Pro Contra
  22. 22. TechnologyScout Was ist denn nun der heilige Gral?
  23. 23. TechnologyScout Die schlechte Nachricht: es gibt keinen „heiligen Gral“ und keine „best practice“ Die gute Nachricht: es gibt viele leistungsstarke Methoden und schlaue Kombinationsmöglichkeiten 23
  24. 24. TechnologyScout Beispiel 1 Sozialabgabenbetrug in Belgien
  25. 25. TechnologyScout Wie funktioniert der Betrug? • Ein Schlüsselunternehmen gründet Satellitenfirmen, die Gewinn erwirtschaften • Bei Fälligkeit der Sozialabgaben werden die Satelliten insolvent • Ressourcen (Mitarbeiter, Büros, Fahrzeuge etc.) werden weiter gereicht an den nächsten Satelliten 25
  26. 26. TechnologyScout Problem • ca. 250.000 aktive Unternehmen in Belgien in 2012 • Über längere Frist werden ca. 25% davon irgendwann insolvent • Nur wenige Fälle davon sind Betrug • Ziel: kritische Fälle vor Insolvenz erkennen 26
  27. 27. TechnologyScout Lösungsansatz• Graphentheorie: Egonetworks; Elimination von komplett unauffälligen Unternehmen • Trainingsdaten: Anreicherung von Fraud Cases durch SMOTE (Synthetic Minority Oversampling Technique) • 2 Datenszenarien: • Basic (nur lokale Informationen zum Node selbst) • Relational (plus Infos zu den Ressourcen aus dem Egonet) • Rest fließt in ein neuronales Netz: • Random Forest • Naive Bayes • Logistic Regression 27
  28. 28. TechnologyScout Ergebnisse • Random Forest liefert beste Ergebnisse • AUC (Area under Curve) ROC (Receiver Operating Characteristic) Trennschärfe zwischen Fraud und nicht-Fraud: 85-88% • Wichtig: zeitliche Analyse nach 6, 12 und 24 Monaten. ROC AUC nimmt ab. True Positives nehmen zu. 28
  29. 29. TechnologyScout Beispiel 2 Betrug in Mobilnetzwerken
  30. 30. TechnologyScout Wie funktioniert der Betrug? • Typisches Beispiel Subscription Fraud: • Betrüger schließt Subskriptionsvertrag mit Mobilprovider ab • Betrüger verkauft die Nutzung seines Telefons zu günstigen Preisen weiter (vor allem für Long Distance Calls) • Betrüger verschwindet, bevor die Rechnung bezahlt werden kann 30
  31. 31. TechnologyScout Lösungsansatz • Szenarien identifizieren • Indikatoren für Betrug aus den Szenarien extrahieren • Akkumulierte Daten je User aus CDR (Call Detail Record): • IMSI (International Mobile Subscriber ID) • Startdatum und -zeit des Calls, Dauer • Angerufene Nummer • Art des Calls (national/international) 31
  32. 32. TechnologyScout Details • Was für den einen Account „untypische Nutzung“ ist, ist für den anderen völlig normal. • Lösung: Differentialanalyse je Account durch User Profile History (UPH) und Current User Profile (CUP): UPHnow = (1-𝜶) UPHold + 𝜶 CUP • Fließen ein in: • Regelbasiertes White Box System • Supervised neural network (Multilayer Perceptron mit 1 hidden Layer, logistic- sigmoidale Aktivierungsfunktion) • 2 unsupervised neural networks (A-numbers: User Profile; B-Number: Monitor auf Zielland des Anrufs) • Kombination aller 4 Alarmfunktionen/Fraud Scores 32
  33. 33. TechnologyScout Ergebnisse • AUC ROC Trennschärfe für Testdaten: 87,2% • AUC ROC Trennschärfe für Echtdaten: 85,6% 33
  34. 34. TechnologyScout Ausblick
  35. 35. TechnologyScout The future is bright and complex • Parallelschaltung: Kombination verschiedener Detektionswege kann zu besseren Ergebnissen führen • Reihenschaltung: Elimination von sauberen Fällen durch Methode 1, Scoring durch Methode 2 • Ableitung: Regelgeneration durch Methode 1, Anwendung und Scoring durch Methode 2 35
  36. 36. TechnologyScout Dr. Volker Göbbels TechnologyScout Innovationsmanagement Betrugserkennung eCommerce Consulting 36
  37. 37. TechnologyScout Literatur & Referenzen• W. McCulloch, W. Pitts, „A Logical Calculus of the Ideas Immanent in Nervous Activity“, Bulletin of Mathematical Biophysics, Vol. 5 (1943), pp. 115-133 • A. Rosenblueth, N. Wiener and J. Bigelow, „Behavior, Purpose and Teleology“, Philosophy of Science, Vol. 10, No. 1 (Jan., 1943), pp. 18-24 • V. Van Vlasselaer, B. Baesens, et. al., „Using Social Network Knowledge for Detecting Spider Constructions in Social Security Fraud“, ASONAM’13 (2013 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining), pp. 813-820 • N. V. Chawla, K. W. Bowyer, Lawrence O. Hall, W. Ph. Kegelmeyer, „SMOTE: Synthetic Minority Over-sampling Technique“, Journal of Artificial Intelligence Research, Vol. 16 (2002) pp. 321– 357 • H. Verrelst, E. Lerouge, Y. Moreau, J. Vandewalle, Chr. Störmann, P. Burge, „A rule based and neural network system for fraud detection in mobile communications“, European project “Advanced Security for Personal Communication Technologies” (ASPeCT) • T. Fawcett, F. Provost, „Adaptive Fraud Detection“, Data Mining and Knowledge Discovery, Vol. 1 (1997), pp. 291–316 37

×