This is a presentation for the Cyber Attacks 2015 Conference at The Faculty of Law and Administration, Nicolaus Copernicus University, 24th and 25th of March 2015, Torun
Unit-IV; Professional Sales Representative (PSR).pptx
The use of data mining technology for fighting cyber crimes - forensic aspects
1. dr hab. Wojciech Filipkowski, prof. UwB
1
Cyber Attacks 2015
The Faculty of Law and Administration, Nicolaus Copernicus University
24th and 25th of March 2015, Torun
2. Data mining – general description
• The extraction of useful, often previously
unknown information from large databases or
data sets - American Heritage® Dictionary of the English
Language
• The gathering of information from pre-existing
data stored in a database, such as one held by a
supermarket about customers' shopping habits -
Collins English Dictionary
• Data processing using sophisticated data search
capabilities and statistical algorithms to discover
patterns and correlations in large preexisting
databases; a way to discover new meaning in
data - WordNet 2
3. Data mining
– TwoCrows Consulting
• a process that uses a variety of data analysis tools to
discover patterns and relationships in data that may be used
to make valid predictions
• Using a combination of machine learning, statistical analysis,
modeling techniques and database technology, data mining
finds patterns and subtle relationships in data and infers
rules that allow the prediction of future results.
• Typical applications include:
– market segmentation
– customer profiling
– fraud detection
– evaluation of retail promotions
– credit risk analysis 3
4. Data mining
– Gartner Group
• Data mining is the process of discovering
meaningful new correlations, patterns
and trends by sifting through large
amounts of data stored in repositories,
using pattern recognition technologies as
well as statistical and mathematical
techniques
4
5. What it can do?
• to describe the data:
– summarize its statistical attributes
– visually review it using charts and graphs
– look for potentially meaningful links among
variables
• to build a predictive model based on
patterns determined from known results,
then test that model on results outside the
original sample.
• to empirically verify the model. 5
6. Typical Commercial Applications
• Help to manage all phases of the
customer life cycle:
– acquiring new customers
– increasing revenue from existing customers
– retaining good customers
6
7. Typical Industries
– Retailers :
• to decide which products to stock in particular stores (and even how to place them
within a store)
• to assess the effectiveness of promotions and coupons
– Medical applications:
• to predict the effectiveness of medical procedures, tests or medications
– Pharmaceutical firms
• to discover substances that might be candidates for development as agents for the
treatments of disease
– Companies active in the financial markets:
• to determine market and industry characteristics
• to predict individual company and stock performance
– Telecommunications and credit card companies:
• to detect fraudulent use of their services
– Insurance companies and stock exchanges:
• to reduce fraud
7
8. Security and Forensic Application
• To identify terrorist activities:
– money transfers and communications
• To identify and track individual terrorists
themselves, such as through travel, custom
and immigration records
• Discontinued or cancelled projects: Terrorism
Information Awareness (TIA), Computer-Assisted
Passenger Prescreening System II (CAPPS II) – financed
by DARPA, TSA, NSA (all USA based agencies)
• CAPPS II is being replaced by a new program called
Secure Flight 8
9. Security and Forensic Application
• Corporate Surveillance
• Business Intelligence
• Sentiment analysis and lie detector
• Risk assessment
• Compliance Monitoring for Anomaly
Detection – CMAD
• Intrusion Detection System – IDS
9
10. Summing up forensic aspects
• Monitoring net traffic
• Profiling users based on their behavior
• Detecting abnormal activities
• Supporting decision making process
• Prevention based on prediction
10
11. THANK YOU
FOR YOUR ATTENTION
dr hab. Wojciech Filipkowski, prof. UwB
The Head of Forensic Laboratory
w.filipkowski@uwb.edu.pl
11
Notes de l'éditeur
The first and simplest analytical step in data mining is to describe the data — summarize its statistical attributes (such as means and standard deviations), visually review it using charts and graphs, and look for potentially meaningful links among variables (such as values that often occur together). Collecting, exploring and selecting the right data are critically important.
But data description alone cannot provide an action plan. You must build a predictive model based on patterns determined from known results, then test that model on results outside the original sample. A good model should never be confused with reality (you know a road map isn’t a perfect representation of the actual road), but it can be a useful guide to understanding your business.
The final step is to empirically verify the model. For example, from a database of customers who have already responded to a particular offer, you’ve built a model predicting which prospects are likeliest to respond to the same offer. Can you rely on this prediction? Send a mailing to a portion of the new list and see what results you get.
By determining characteristics of good customers (profiling), a company can target prospects with similar characteristics.
By profiling customers who have bought a particular product,it can focus attention on similar customers who have not bought that product (cross-selling).
By profiling customers who have left, a company can act to retain customers who are at risk for leaving (reducing churn or attrition), because it is usually far less expensive to retain a customer than acquire a new one.
the Defense Advanced Research Projects Agency
Transportation Security Administration
Wykrywanie oszustw i anomalii (Compliance Monitoring for Anomaly Detection – CMAD) – data mining może pozwolić na znalezienie czynników, okoliczności, które mogą prowadzić do nadużyć lub strat w instytucjach finansowych. System posiada pewne zdefiniowane uprzednio warunki korzystania z określonych usług. Jeżeli w trakcie monitorowania zachowań osób korzystających z usługi pojawi się odstępstwo (anomalia), to wtedy generowany jest raport (często nazywa się to tzw. czerwoną flagą – red flag). Stosuje się to monitorowania posługiwania się kartami kredytowymi w celu ujawniania nadużyć lub wręcz oszustw, gdy informacja z karty została skopiowana i wykorzystana do stworzenia jej kopii.
Wykrywanie intruzów (Intrusion Detection System – IDS)– czyli ujawnianie osób lub komputerów, które w sieci wewnętrznej lub spoza niej (np. z Internetu) podejmują czynności, do których nie są uprawnieni. Mogą one polegać na nieautoryzowanym wejściu do systemu, konfigurowaniu systemu przez nieuprawniony podmiot, zmianie, dodaniu lub usunięciu pliku lub plików. Systemy też działają w mniejszej skali np. jednego komputera. Wtedy to wykrywane jest szkodliwe oprogramowanie, wirusy, konie trojańskie, lub tzw. tylne drzwi.
Wykrywanie kłamstw lub szerzej badanie sentymentu – jest to technika z zakresu eksploracji tekstu. System może w sposób zautomatyzowany analizować nastawienie piszącego do przedmiotu swojego tekstu, np. klient niepochlebnie wyraża się o jakimś produkcie lub marce. Niektóre narzędzia informatyczne prawdopodobnie mogą ujawniać fałszywe informacje zawarte w tekstach, mailach, listach, wypowiedziach na forach dyskusyjnych, mediach społecznościowych, itd. Na podstawie analizy semantycznej wypowiedzi system jest w stanie przyporządkować ją do ocen pozytywnych, negatywnych lub emocjonalnie neutralnych.
Szacowanie ryzyka – obok operatorów komórkowych najlepszym źródłem informacji o klientach są instytucje finansowe. One również stosują data mining do dopasowywania ofert do potrzeb klientów. Jednakże bardzo ważnym obszarem ich działań jest ocena ryzyka spłaty kredytu (lub pożyczki) przez klienta. Dysponując historiami zachowań swoich innych klientów i porównując te dane z np. nowym klientem, który ubiega się o kredyt, to są one w stanie oszacowań ryzyko, że jest (lub nie) zdolny do jego spłaty. Bierze się pod uwagę nie tylko dochody klienta, ale także to w jaki sposób posługuje się kartą kredytową, z jakich wcześniej usług korzystał i z jakim skutkiem, czy spłacał wcześniej zaciągnięte zobowiązania, czy robił to terminowo, w jakim sektorze gospodarki pracuje, ile ma lat, ile osób na utrzymaniu, itd. Dlatego to tak powszechnie stosuje się modele scoringowe w sektorze finansowym (np. scoring kredytowy, fraudowy, zysku, windykacyjny
Wywiad (kontrwywiad) gospodarczy (Corporate Surveillance, Business Intelligence – BI) – po pierwsze, analiza zachowań pracowników w ramach danego podmiotu pozwala na docenianie tych pracowników, którzy de facto przyczyniają się do wzrostu wartości podmiotu. Z drugiej strony, można stosowań data mining do wyławiania tych pracowników, którzy są nieefektywni, albo co gorsza stanowią zagrożenie dla podmiotu. W skrajnej postaci może służyć do typowania pracowników konkurencyjnego podmiotu, których można byłoby zatrudnić lub przekupić i w ten sposób uzyskać przydatne informacje.