Rough Set Theory (Grobe Logik)

Seminar

Nichtklassische Logiken

Grobe Logik
Eugen Petrosean

WS 2012/2013

Betreuer:

Roland Glück

Augsburg, den 17. Januar 2013

Erklärung
Hiermit versichere ich die vorliegende Seminararbeit selbstständig und ohne fremde
Hilfe verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel
verwendet zu haben.

Augsburg, den 17. Januar 2013

Eugen Petrosean

1 Einleitung

Inhaltsverzeichnis
1 Einleitung........................................................................................4

2 Grundlegendes................................................................................5
2.1 Überblick über die grundlegenden Mengentheorien ........................................5
2.2 Allgemeiner Ablauf zur Erstellung eines regelbasierten Modells......................6
2.3 Beispiel – Medizinische Daten...........................................................................7

3 Rough Set – Theorie für Informationssysteme ............................10
3.1 Allgemeiner Ablauf der Analyse für Informationssysteme..............................10
3.2 Informationssystem..........................................................................................11
3.3 Ununterscheidbarkeitsrelation.........................................................................11
3.4 Untere und obere Annäherung.........................................................................13
3.5 Reduktion der Attribute – Redukte und Kerne................................................15
3.6 Reduktion der Attributwerte – Redukte und Kerne........................................18
3.7 Klassifikation der Objekte – Qualität und Genauigkeit ..................................20

4 Rough Set – Theorie für Entscheidungssysteme...........................23
4.1 Allgemeiner Ablauf der Analyse für Entscheidungssysteme ...........................23
4.2 Entscheidungssystem.......................................................................................23
4.3 Abhängigkeiten zwischen Bedingungs- und Entscheidungsattributen...........24
4.4 Reduktion der Attribute – relative Redukte und relative Kerne.....................26
4.5 Reduktion der Attributwerte – relative Redukte und relative Kerne..............28
4.6 Entscheidungsregeln........................................................................................31

5 Fazit..............................................................................................33

Literatur..........................................................................................34

3

1 Einleitung

1 Einleitung
Im Hinblick auf die Diagnostizierung von Krankheiten sind die Abdominalschmerzen
eines Kindes ein überliche, aber gleichzeitig eine schwierige Aufgabe. Es gibt viele
mögliche Ursachen für diese Schmerzen, die in den meisten Fällen nicht ernsthaft sind.
Allerdings können diese Schmerzen auch ein Indikator dafür sein, dass ein Patient eine
ernsthafte Krankheit hat, die eine sofortige Behandlung erfordert. Erfahrene Ärzte
würden eine Vielfalt von relevanten historischen Informationen und ärztlichen Beo-
bachtungen heranziehen, um Kinder zu untersuchen. Diese Informationen bzw.
Mekmale kommen in wieder erkennbaren Zusammenhängen vor, so dass eine schnelle
und effektive Diagnostizierung möglich ist. Unerfahrene Ärzte dagegen können sich
schwer tun, diese Zusammenhänge zu erkennen, da ihnen das erforderliche Wissen
und die entsprechende Erfahrung fehlt. Die Rough-Set-Theorie 1 [Paw, Wam99, Orw00,
Ril09] kommt also in diesem Bereich der Medizin zum Einsatz, um zu helfen,
Zusammenhänge aus historischen Informationen in Form von Entscheidungsregeln zu
gewinnen und dabei solche unerfahrenen Ärzte zu unterstützen.
In dieser Arbeit werden wir ganz genau auf die grundlegenden Ansätze der Rough-Set-
Theorie eingehen und erklären, wie man anhand von ungenauen und unvollständigen
Daten bzw. Informationen neue Zusammenhänge erkennen und sie in Form von
Entscheidungsregeln beschreiben kann.

1 Zu Deutsch - Grobmengentheorie

4

2 Grundlegendes

2 Grundlegendes

2.1 Überblick über die grundlegenden Mengentheorien
In diesem Abschnitt werden wir die grundlegenden Unterschiede (siehe Abbildung 2.1)
zwischen den existierenden Mengentheorien beschreiben und darauf eingehen, wie die
Rough-Set-Theorie im Vergleich zur klassischen Mengentheorie und der Fuzzy-Set-
Theorie mit ungenauen Konzepten umgeht.

Abbildung 2.1: Schematische Gegenüberstellung von grundlegenden
Mengentheorien (Quelle: eigene Darstellung)

In der klassischen Mengentheorie wird eine Menge eindeutig durch ihre Elemente
definiert, d.h. jedes Element wird so klassifiziert, dass es entweder einer bestimmten
Menge angehört oder nicht (also in ihrem Komplement enthalten ist). Beispielsweise
ist die Menge der geraden ganzen Zahlen scharf, da jede ganze Zahl entweder gerade
oder ungerade sein kann. Dagegen der Versuch beispielsweise verschiedene Gemälde
als schön oder nicht schön zu klassifizieren, nicht möglich ist, da der Begriff – schön –
kein exaktes Konzept darstellt, um somit alle Gemälde, die wir kennen, eindeutig in
zwei Klassen – schön und nicht schön – einteilen zu können. Somit wird der Begriff –
Ungenauigkeit (vagueness) – mit dem Ansatz in Verbindung gebracht, dass es Objekte
gibt, die nicht eindeutig einer Menge oder ihrem Komplement zugeordnet werden
können.
Die Fuzzy-Set-Theorie stellt einen solchen Ansatz dar, wie Ungenauigkeiten modelliert
werden können. Der Grad an Zugehörigkeit zu einer Menge wird dabei durch eine
Zugehörigkeitsfunktion beschrieben, die den Elementen einer Grundmenge eine reelle
Zahl k 0k1 zuordnet. Beispielsweise können wir mittels der klassischen Men-
gentheorie festhalten, dass jemand definitiv krank oder gesund ist, während mit Hilfe
der Fuzzy-Set-Theorie eine Aussage möglich ist, dass jemand zu 60 Prozent krank oder
gesund ist.
In der Rough-Set-Theorie wird der Begriff – Ungenauigkeit – nicht durch eine
Zugehörigkeitsfunktion definiert, wie dies beispielsweise in der Fuzzy-Set-Theorie der
Fall ist, sondern, indem der Begriff einer Randmenge bzw. einer Grenzregion
eingeführt wird. Ist die Grenzregion einer Menge leer, dann ist die Menge scharf
(crisp), andernfalls ist die Menge grob bzw. ungenau (rough). Wenn die Grenzregion

5

2 Grundlegendes

einer Menge nicht leer ist, dann können wir daraus schließen, dass das Wissen in Form
von Beispieldaten, die uns zur Verfügung stehen, nicht ausreichen, um diese Menge
exakt zu definieren (siehe Beispiel aus dem Abschnitt 2.3).
Der Hauptvorteil der Rough-Set-Theorie besteht darin, dass keine vorläufigen bzw.
zusätzlichen Informationen über die zu analysierenden Daten benötigt werden – wie
beispielsweise in der Fuzzy-Set-Theorie in Bezug auf den Grad an Zugehörigkeit eines
Elements zu einer Menge. Die Rough-Set-Theorie umfasst somit folgende Aspekte:

– Einführung von effizienten Algorithmen zur Erkennung von versteckten
Zusammenhängen in den zu analysierenden Daten

– Bestimmung von minimalen Mengen von Daten (Reduktion der Daten)

– Auswertung der Daten im Hinblick auf ihre Wichtigkeit

– Bestimmung von Entscheidungsregeln

– Einfache Interpretation von erzielten Ergebnissen

2.2 Allgemeiner Ablauf zur Erstellung eines regelbasierten
Modells
Die regelbasierte Modellierung [Orw00] ist ein Modellierungsansatz, bei dem eine
Menge von Regeln verwendet wird, um das zugrundeliegende Modell als aussagen-
logische Implikationen zu beschreiben. Die regelbasierte Modellierung kommt vor
allem in denjenigen Fällen zur Anwendung, in denen die Regelmenge deutlich
einfacher ist als das durch die Regelmenge zu beschreibende Modell. Damit ein Modell
mit Hilfe von Regeln ausgedrückt werden kann, ist eine Reihe von Schritten (siehe
Abbildung 2.2) erforderlich, die im Folgenden erläutert werden. Die Rough-Set-Theorie
stellt im Ablauf zur Erstellung eines regelbasierten Modells dagegen nur einen
möglichen Ansatz dar, wie Regeln generiert werden können.

Abbildung 2.2: Erstellung eines regelbasierten Modells (Quelle: eigene Darstellung)

6

2 Grundlegendes

Schritt 1 – Diskretisierung der Daten

In diesem Schritt werden nicht kategoriale Daten (Attribute) in
kategoriale überführt. Da der Ansatz der Rough-Set-Theorie auf
dem Prinzip der Ununterscheidbarkeit von Objekten beruht (siehe
Kapitel 3), ist keine Einführung des Begriffs – Distanzmaß –
zwischen einzelnen Attributwerten erforderlich, wie man diesen
Begriff in vielen anderen Ansätzen des maschinellen Lernens
findet. Deshalb müssen nicht kategoriale Attribute in einer
Vorverarbeitungsphase der Daten diskretisiert werden. Dieser
Schritt legt somit fest, wie grob einzelne Attribute (bzw.
Attributwerte) betrachtet werden sollen. Für numerische Attribute
bedeutet dies, dass Intervallgrenzen bestimmt werden müssen, um
einzelne Attribute auf die entsprechenden Intervalle abzubilden.
Beispielsweise können alle Patienten zwischen 45 und 60 Jahren je
nach Situation und Bedarf als Patienten gesehen werden, die
derselben Altersgruppe angehören.

Schritt 2 – Herleitung der Regeln

In diesem Schritt werden aussagenlogische Implikationen (If-
Then-Regeln) anhand von im Schritt 1 diskretisierten Daten
bestimmt. Das Verfahren zur Bestimmung von Entscheidungs-
regeln mittels der Rough-Set-Theorie wird im Kapitel 3 und 4
genauer erklärt.

Schritt 3 – Anwendung der hergeleiteten Regeln

In diesem Schritt werden die anhand von Beispieldaten hergeleite-
ten Regeln angewendet, um herauszufinden, ob sich dadurch neue
Zusammenhänge zwischen einzelnen Attributen erkennen lassen,
die für die weitere Datenanalyse relevant sind. Um die Qualität der
Regeln einschätzen zu können, können sie auf neue Daten
angewendet werden, um festzustellen, wie gut beispielsweise
Untersuchungsergebnisse der neuen Patienten vorhergesagt
werden.

Schritt 4 – Auswertung des Modells

Im letzten Schritt erfolgt eine objektive Quantifizierung der Regeln.
Zwar sind sie normalerweise einfach zu interpretieren, können
jedoch ein Problem im Hinblick auf ihre Wichtigkeit darstellen, d.h.
wie sinnvoll und relevant sie für zu analysierende Datenbestände
sind.

2.3 Beispiel – Medizinische Daten
Im Abschnitt 2.2 haben wir gesehen, welche Schritte erforderlich sind, um ein

7

2 Grundlegendes

regelbasiertes Modell anhand von zur Verfügung stehenden Beispieldaten zu erstellen.
In diesem Abschnitt werden wir auf ein konkretes Beispiel (siehe Tabelle 2.1) eingehen,
das auf medizinischen Daten beruht und erklären, welche Probleme bei der Analyse
dieser Daten auftreten können.
Normalerweise werden erfasste Daten als Tabellen mit Spalten dargestellt. Jeder Spalte
entspricht ein Attribut, jeder Zeile ein Objekt und jedem Tabelleneintrag ein bestimm-
ter Attributwert. Der Tabelle 2.1 können wir entnehmen, dass die dargestellten
Spaltennamen Symptome beschreiben, die bei einem Patienten auftreten können. Die
Zeilen dagegen repräsentieren einzelne Patienten und können als konkrete
Informationen über diese Personen in Bezug auf ihre Symptome aufgefasst werden.

Patient Headache Muscle-pain Temperature Flu
p1 no yes high yes
p2 yes no high yes
p3 yes yes very high yes
p4 no yes normal no
p5 yes no high no
p6 no yes very high yes

Tabelle 2.1: Beispielhaftes Informationssystem

Beispielsweise wird der Patient p2 (siehe Tabelle 2.1) als Menge von (Attribut,
Attributwert) – Paaren wie folgt beschrieben:

(Headache, yes), (Muscle-pain, no), (Temperature, high), (Flu, yes)

Der Tabelle 2.1 können wir außerdem entnehmen, dass die Patienten p2, p3 und p5 in
Bezug auf das Attribut – Headache – nicht unterscheidbar sind. Die Patienten p3 und
p6 sind in Bezug auf die Attribute – Muscle-pain und Flu – nicht unterscheidbar und
die Patienten p2 und p5 sind in Bezug auf die Attribute – Headache, Muscle-pain und
Temperature – nicht unterscheidbar. Während das Attribut – Headache – zwei
elementare Mengen { p2, p3, p5 } und { p1, p4, p6 } erzeugt, bilden die Attribute –
Headache, Muscle-pain – drei elementare Mengen { p1, p4, p6 }, { p2, p5 } und { p3 }.
Die Patienten p2 und p5 sind zwar ununterscheidbar in Bezug auf die Attribute –
Headache, Muscle-pain und Temperature, weisen jedoch gegensätzliche Diagnosen
auf, d.h. der Patient p2 hat die Grippe während beim Patienten p5 keine Grippe
diagnostiziert wurde. Folglich kann bei diesen zwei Patienten die Diagnostizierung der
Grippe nicht unter Berücksichtigung von den drei Attributen (Symptomen) erfolgen.
Deshalb stellen die Patienten p2 und p5 zwei Grenzfälle dar, die nicht genau mit Hilfe
des zur Verfügung stehenden Wissens klassifiziert werden können. Die restlichen
Patienten p1, p3 und p6 weisen nur solche Symptome auf, die ermöglichen, mit
Sicherheit davon auszugehen, dass diese Symptome als Folge einer Grippeinfektion
aufgetreten sind. Bei den Patienten p2 und p5 kann es nicht ausgeschlossen werden,
dass sie keine Grippe haben und der Patient p4 kann als gesund in Bezug auf die
festgehaltenen Symptome gesehen werden.
Somit ist die untere Annäherung an die Menge von Patienten, die krank sind, { p1, p3,
p6 } und die obere Annäherung { p1, p2, p3, p5, p6 }, wobei die Patienten p2 und p5
zwei Grenzfälle darstellen. Dieselbe Vorgehensweise gilt auch für die Patienten, die

8

2 Grundlegendes

keine Grippeerkrankung haben. Der Patient p4 hat also keine Grippe und bei den
Patienten p2 und p5 kann es nicht ausgeschlossen werden, dass sie nicht krank sind.
Deshalb ist die untere Annäherung die Menge { p4 }, während die obere Annäherung
durch die Menge { p2, p4, p5 } beschrieben wird. Die Grenzfälle, dass die Patienten
keine Grippeerkrankung haben, sind dieselben wie im vorherigen Fall, also { p2, p5 }.

9

3 Rough Set – Theorie für Informationssysteme

In diesem Abschnitt werden wir die grundlegenden Konzepte der Rough-Set-Theorie
[Paw, Wam99] in Bezug auf Datenanalyse vorstellen. Im Gegensatz zur klassischen
Mengentheorie, wird in der Grobmengentheorie davon ausgegangen, dass während der
Datenanalyse mittels der Rough-Set-Konzepte einige zusätzliche Informationen –
Wissen – über Elemente (Objekte) eines Diskursuniversums vorhanden sind.
Elemente, die dieselben Besonderheiten aufweisen, werden als nicht unterscheidbar
betrachtet und bilden Äquivalenzklassen (Konzepte), die als elementare Granulate des
zur Verfügung stehenden Wissens über das gegebene Universum verstanden werden
können. Beispielsweise können Patienten, die an einer bestimmten Krankheit leiden
und dieselben Symptome aufweisen, als ununterscheidbare Objekte interpretiert
werden, da sie somit einen in sich abgeschlossenen Teil des medizinischen Wissens
darstellen (siehe Beispiel aus dem Abschnitt 2.3).

3.1 Allgemeiner Ablauf der Analyse für
Informationssysteme
Da das Ziel der Rough-Set-Theorie darin besteht, anhand von zur Verfügung stehenden
Beispieldaten eine entsprechende Klassifizierung zu erhalten, um später neu
entstehende Daten in Form von Objekten, die bisher unbekannt waren, richtig
klassifizieren zu können, wird in Abbildung 3.1 der Zusammenhang zwischen den
einzelnen Schritten zur Durchführung der Rough-Set-Analyse für Informationssysteme
genauer dargestellt.

Abbildung 3.1: Ablauf der Analyse für Informationssysteme (Quelle: eigene

10


Darstellung)

Die eingekreisten Nummern in Abbildung 3.1 entsprechen den einzelnen Schritten der
Rough-Set-Analyse für Informationssysteme, die in den nachfolgenden Abschnitten
näher erläutert werden.

3.2 Informationssystem
Im ersten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung 3.1
– 1) müssen alle relevanten Informationen in Bezug auf den modellierten Kontext
identifiziert werden. Da die Rough-Set-Theorie eine formale Grundlage sowohl für die
Klassifikation von ungenauen Daten als auch für die Bestimmung von Entscheidungs-
regeln anhand von diesen Daten ist, die normalerweise als Beispieldaten vorliegen,
stellt die Rough-Set-Theorie ein Konzept für die Organisation von Beispieldaten in
Tabellenform dar, d.h. die Beispieldaten liegen in einer zweidimensionalen Tabelle vor,
die bei der Anwendung der Rough-Set-Theorie eingesetzt wird. Eine solche Tabelle
wird als Informationssystem bezeichnet und kann mathematisch wie folgt ausgedrückt
werden.

Definition (Informationssystem). Ein Informationssystem IS =U , A wird durch
eine Menge U ={x 1, x 2, ... , x n } von Objekten (mit 1n∞ ), die als Universum
bezeichnet wird, und durch eine Menge A={a1, a 2, ... , a m} von Attributen (mit
1m∞ ) definiert. Für jedes a ∈A wird zusätzlich eine Funktion f a :U V a
spezifiziert, wobei V a die Wertemenge von a darstellt.

Die Zeilen dieser Tabelle repräsentieren Objekte, über die in den Spalten dieser Tabelle
verschiedene Informationen in Form von Attributen abgelegt sind. Die Tabellen-
einträge entsprechen damit den Ausprägungen der Attribute in Bezug auf die betrach-
teten Objekte.

Beispiel 1

Betrachten wir das Beispiel aus dem Abschnitt 2.3. Dann lässt sich das zugrunde
liegende Informationssystem mathematisch wie folgt auffassen:

U = { p1 , p2 , p3 , p4 , p5 , p6 }
A = {Headache , Muscle pain ,Temperature }
V Headache = {yes , no}
V Muscle pain = { yes , no}
V Temperature = {normal , high , very high}

3.3 Ununterscheidbarkeitsrelation
Im zweiten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung
3.1 – 2) wird das Wissen in Form von Beispieldaten, die uns am Anfang der
Datenanalyse zur Verfügung stehen, in Konzepte (elementare Mengen)
zusammengefasst, so dass Objekte eines solchen Konzepts durch einen gemeinsamen

11


Grundgedanken verbunden sind. Mathematisch lässt sich dieser Begriff wie folgt
beschreiben.

Definition (Ununterscheidbarkeitsrelation). Sei IS =U , A ein Informations-
system. Dann wird eine Ununterscheidbarkeitsrelation I  B für eine Teilmenge
B⊆A durch die Äquivalenzrelation
2
I  B={ x i , x j ∈U ∣ ∀ a ∈ B f a  x i  = f a  x j }

definiert.

Die Familie von allen Äquivalenzklassen von I  B wird durch U / I  B  bzw.
U / B ausgedrückt. Eine Äquivalenzklasse von I  B , in der x enthalten ist, wird
als B  x bezeichnet. Wenn also  x i , x j  ∈ I  B , dann sind die Objekte x i und
x j ununterscheidbar (indiscernible) von jedem Attribut aus B , d.h. zwar werden
die Elemente in U als unterscheidbar erklärt, unterscheiden sich aber nicht bezüglich
der Attributmenge B . Äquivalenzklassen von I  B werden auch als elementare
Mengen bezeichnet.

Beispiel 1

Betrachten wir das Beispiel aus dem Abschnitt 2.3. Dann erhalten wir für die Attribut-
menge B = { Headache, Muscle-pain, Temperature } die folgenden Äquivalenzklassen.

U/A Headache Muscle-pain Temperature
{ p1 } no yes high
{ p2, p5 } yes no high
{ p3 } yes yes very high
{ p4 } no yes normal
{ p6 } no yes very high

Tabelle 3.1: Äquivalenzklassen in Bezug auf die Attribute
Headache, Muscle-pain und Temperature

Beispiel 2

Anhand der Tabelle 2.1 erhalten wir für die Attributmenge B = { Headache, Muscle-
pain } die Äquivalenzklassen:

U/B Headache Muscle-pain
{ p1, p4, p6 } no yes
{ p2, p5 } yes no
{ p3 } yes yes

Tabelle 3.2: Äquivalenzklassen in Bezug auf die Attribute
Headache und Muscle-pain

12


3.4 Untere und obere Annäherung
Im dritten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung
3.1 – 3) wird ein weiterer wichtiger Ansatz vorgestellt, der im Gegensatz zur graduellen
Zuordnung von Elementen zu unscharfen Mengen auf der Idee der Approximation
einer groben Menge durch zwei scharfe Mengen beruht. Die Ununterscheidbarkeits-
relation induziert eine Partitionierung des Universums, so dass dadurch entstandene
Partitionen genutzt werden können, um neue Untermengen des Universums zu bilden.
Da das Ziel der unteren und oberen Annäherung darin besteht, dass eine solche
Untermenge X durch die Ausprägungen der in B⊆A enthaltenen Attribute zu
beschreiben, nähert man sich somit der Menge X durch die untere und obere
Approximation an.
Die untere Annäherung B∗ X  ist die maximale Vereinigungsmenge der elemen-
taren Mengen, die vollständig in der Menge X enthalten sind. Mathematisch kann
die Definition der unteren Annäherung folgendermaßen beschrieben werden.

Definition (Untere Annäherung). Sei IS =U , A ein Informationssystem,
B⊆A eine Teilmenge von Attributen und X ⊆U eine Teilmenge von Objekten.
Dann kann X durch

B∗ X ={xi ∈U ∣ B x i⊆ X }

von unten angenähert werden.

Die obere Annäherung B∗ X  resultiert aus der Vereinigungsmenge all jener
elementaren Mengen, deren Schnitt mit der Menge X mindestens ein Element
enthält. Die obere Annäherung ist somit die minimale Vereinigungsmenge von
elementaren Mengen, die die Menge X enthält. Die nachfolgende Definition
verdeutlicht diesen Sachverhalt.

Definition (Obere Annäherung). Sei IS =U , A ein Informationssystem, B⊆A
eine Teilmenge von Attributen und X ⊆U eine Teilmenge von Objekten. Dann kann
X durch
∗
B  X ={xi ∈U ∣ B x i∩ X ≠0 }

von oben angenähert werden.

Die Menge X wird als scharf bezeichnet, wenn die untere Annäherung B∗ X 
gleich der oberen Annäherung B∗ X  ist. Gilt dagegen B∗ X ≠ B∗ X  , so wird
die Menge X als grob bezeichnet. Die untere Annäherung ist somit die maximale
scharfe Menge, die in der Menge X enthalten ist. Die obere Annäherung stellt
dagegen die minimale scharfe Menge dar, die die Menge X enthält. Auf diese Art und
Weise ermöglichen B∗ X  und B∗ X  eine Annäherung grober Mengen durch
scharfe Mengen vorzunehmen.

Definition (Grenzregion). Sei IS =U , A ein Informationssystem, B⊆A eine
Teilmenge von Attributen und X ⊆U eine Teilmenge von Objekten. Dann wird die
Menge

13


BN B  X =B∗ X − B∗ X 

als Grenzregion von X bezeichnet.

Die Abbildung 3.2 verdeutlicht noch einmal diesen Zusammenhang. Dabei werden drei
Regionen einer groben Menge unterschieden.

POS  B=B∗ (Sicher ja)

NEG  B=U −B∗ (Sicher nein)

BR B=B∗−B∗ (Ja oder nein)

Die positive Region POS  B enthält also alle Objekte aus U , die – basierend auf
dem sich aus der Attributmenge B ergebenden Wissen – mit Sicherheit der Menge
X zugewiesen werden können.

Abbildung 3.2: Schematische Darstellung der Annäherungen
und deren Regionen [Ril09]

Die negative Region NEG  B enthält dagegen alle Objekte aus U , die sich mit
Sicherheit der Menge X nicht zuordnen lassen. Die Grenzregion BR B ist eine
Teilmenge der oberen Annäherung, die alle Objekte aus U enthält, die sich
möglicherweise der Menge X zuordnen lassen. Die in der unteren Annäherung
enthaltenen Objekte führen somit zu sicheren Regeln, jene der oberen Annäherung zu
möglichen Regeln (siehe Abschnitt 2.3, Abschnitt 4.2 und Abschnitt 4.3).

Beispiel 1

Betrachten wir das Beispiel aus dem Abschnitt 2.3. Dann erhalten wir anhand der
Tabelle 3.1 für die Menge X = { p1, p2, p4 } und die Attributmenge B = { Headache,
Muscle-pain, Temperature } die folgenden Annäherungen.

B∗ X  = { p1 , p4}

14


B∗ X ={ p1 , p2 , p5 , p4 }
BN B  X  = { p1 , p2 , p5 , p4} − { p1 , p4} = { p2 , p5 }

Beispiel 2

Anhand der Tabelle 3.2 erhalten wir für die Menge X = { p1, p3, p4 } und die Attribut-
menge B = { Headache, Muscle-pain } die folgenden Annäherungen.

B∗ X  = { p3}
B∗ X  = { p1 , p4 , p6 , p3}
BN B  X  = { p1 , p4 , p6 , p3} − { p3} = { p1 , p4 , p6 }

3.5 Reduktion der Attribute – Redukte und Kerne
Im vierten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung
3.1 – 4) wird die Möglichkeit untersucht, ob bei geringerer Attributzahl identisches
Wissen modelliert werden kann. Damit das zu betrachtende Informationssystem
vereinfacht werden kann, müssen redundante Attribute des vorliegenden Informa-
tionssystems eliminiert werden. Mathematisch lässt sich dieser Sachverhalt wie folgt
beschreiben.

Definition (Redukt). Sei B⊆A und a ∈B . Dann sind folgende Aussagen
möglich:

1. a heißt verzichtbar bezüglich der Attributmenge B , falls
I  B=I  B−{a } gilt. Andernfalls heißt a unverzichtbar bezüglich B .

2. B heißt unabhängig, falls alle Attribute von B unverzichtbar sind.

3. Eine Teilmenge B '⊆B ist ein Redukt von B , falls B ' unabhängig ist,
und es gilt I  B ' =I  B .

Ein Redukt ist somit eine Menge von Attributen, die die jeweilige Partition des
Universums aufrechterhält, denn ein Redukt umfasst eine minimale Teilmenge von
Attributen, die – wie die entsprechende Gesamtmenge von Attributen – dieselbe
Klassifikation von Elementen ermöglicht. Deshalb sind solche Attribute, die keinem
Redukt angehören, überflüssig bezüglich der Klassifikation von Elementen des
entsprechenden Universums.

Definition (Kern). Sei IS =U , A ein Informationssystem und B⊆A eine
Teilmenge von Attributen. Dann wird der Kern von B durch

Core  B=  Reduct  B

definiert, wobei Reduct  B die Menge aller Redukte von B ist.

Da der Kern als Schnittmenge aller Redukte definiert ist, kommt er also in jedem
Redukt vor, d.h. der Kern stellt somit die wichtigste Teilmenge von Attributen dar, so

15


dass sich mit der Eliminierung eines im Kern enthaltenen Attributs die Klassifikation
bezüglich der restlichen Attributmenge ändert und einen Informationsverlust bewirkt.
Durch die Eliminierung überflüssiger Attribute wird dagegen das Informationssystem
vereinfacht und die weitere Bearbeitung und Handhabung der Daten erleichtert.
Um Redukte und den zugehörigen Kern schneller und einfacher berechnen zu können,
wird im Folgenden der Begriff der Unterscheidbarkeitsmatrix eingeführt.

Definition (Unterscheidbarkeitsmatrix). Sei IS =U , A ein Informationssystem
mit n Objekten. Dann ist die Unterscheidbarkeitsmatrix M  B von B⊆A eine
symmetrische n×n Matrix mit den Einträgen c ij , so dass gilt:

c ij ={a∈ A∣ f a  x i ≠ f a  x j } für i , j=1, ... , n .

Somit lässt sich der Eintrag c ij als Menge der Attribute interpretieren, in denen sich
das Objekt x i vom Objekt x j unterscheidet.
Die Unterscheidbarkeitsmatrix M  B ordnet also jedem Paar von Objekten x und
y eine Teilmenge von Attributen  x , y ⊆B zu, so dass folgende Eigenschaften
gelten:

 x , x = ∅
 x , y  =   y , x 
 x , z  ⊆  x , y  ∪   y , z  .

Anhand der Unterscheibarkeitsmatrix M  B lässt sich der Kern bestimmen, der die
Menge aller einelementigen Einträge von M  B darstellt.

Core  B = {a∈B : cij = {a}} für einige i , j .

Jede Unterscheidbarkeitsmatrix M  B definiert eindeutig eine Unterscheidbarkeits-
funktion (boolesche Funktion) f  B , deren Definition im Folgenden erläutert wird.

Definition (Unterscheidbarkeitsfunktion). Sei IS =U , A ein Informationssystem
und B⊆A eine Teilmenge von Attributen. Dann ist die Unterscheidbarkeitsfunktion
f  B eine boolesche Funktion mit m booleschen Variablen a 1, ... , a m , die den
 
Attributen a 1, ... , a m ∈B entsprechen, so dass gilt:

f  B= ∏ {∑   x , y  :  x , y ∈U 2 ∧  x , y ≠∅}
2
,
 x , y∈U

wobei ∑   x , y die boolesche Summe aller booleschen Variablen ist, die der
Menge  x , y zugeordnet sind.

Diese Definition ermöglicht einen Zusammenhang zwischen der disjunktiven Normal-
form der Funktion f  B und der Menge aller Redukte von B herzustellen.

Beispiel 1

Betrachten wir das Beispiel aus dem Abschnitt 2.3. Dann erhalten wir anhand der

16


Tabelle 3.1 für die Attributmenge B = { Headache, Muscle-pain, Temperature } die
folgende Unterscheidbarkeitsmatrix.

Set 1 Set 2 Set 3 Set 4 Set 5
Set 1
Set 2 H, M
Set 3 H, T M, T
Set 4 T H, M, T H, T
Set 5 T H, M, T H T

Tabelle 3.3: Unterscheidbarkeitsmatrix in Bezug auf die Attribute

Anhand der Unterscheidbarkeitsmatrix können wir nun die zugehörige Unterscheid-
barkeitsfunktion bestimmen.

f  B= H M × H T ×T ×T ×M T × H M T 
× H M T × H T ×H ×T

Nach der mehrmaligen Anwendung des Absorptionsgesetzes erhalten wir ein einziges
Redukt mit den Attributen – Headache und Temprature.

f  B= H M × H T ×T ×M T × H M T ×H = H ×T

Da das Attribut – Muscle-pain – im Redukt nicht enthalten ist, können wir somit auf
dieses Attribut verzichten. Wir erhalten:

U/R Headache Temperature
{ p1 } no high
{ p2, p5 } yes high
{ p3 } yes very high
{ p4 } no normal
{ p6 } no very high

Tabelle 3.4: Reduziertes Informationssystem aus der Tabelle 2.1

Beispiel 2

pain } die folgende Unterscheidbarkeitsmatrix.

Set 1 Set 2 Set 3
Set 1
Set 2 H, M

17


Set 3 H M


Anhand der Unterscheidbarkeitsmatrix bestimmen wir nun die Unterscheidbarkeits-
funktion und stellen fest, dass das Attribut – Temperature – überflüssig ist.

f  B= H M × H ×M =H ×M

3.6 Reduktion der Attributwerte – Redukte und Kerne
Im fünften Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung
3.1 – 5) kann die Vereinfachung des vorliegenden Informationssystems fortgesetzt
werden, indem auf bestimmte Attributwerte verzichtet wird, die für das Informations-
system unrelevant sind, was dennoch ermöglicht, alle bereits bestimmten elementaren
Mengen beizubehalten. Die Bestimmung von Redukten in Bezug auf Attributwerte läuft
ähnlich wie die Bestimmung von Redukten in Bezug auf Attribute ab. Mathematisch
wird dies folgendermaßen verdeutlicht.

Definition (Redukt für Attributwerte). Sei B⊆A und x ∈U . Dann sind folgende
Aussagen möglich:

1. Der Attributwert von a ∈B heißt verzichtbar bezüglich x , falls
B  x=B a  x  gilt, wobei Ba =B−{a} . Andernfalls heißt der Attributwert
von a unverzichtbar bezüglich x .

2. B heißt orthogonal bezüglich x , falls für jedes Attribut a ∈B der
zugehörige Attributwert unverzichtbar bezüglich x ist.

3. Eine Teilmenge B '⊆B ist ein Redukt von B bezüglich x , falls
B ' orthogonal bezüglich x ist, und es gilt B '  x =B  x .

Der Kern in Bezug auf Attributwerte wird genauso bestimmt wie der Kern in Bezug auf
Attribute eines Informationssystems (siehe Abschnitt 3.5). Die folgende Definition
verdeutlicht dies noch einmal.

Definition (Kern für Attributwerte). Sei IS =U , A ein Informationssystem,
B⊆A und x ∈U . Dann wird der Kern von B bezüglich x durch

Core x  B= Reduct x  B

definiert, wobei Reduct x  B die Menge aller Redukte von B bezüglich x ist.

Um Redukte und deren Kern bezüglich x zu bestimmen, wird dieselbe Unterscheid-
barkeitsmatrix (siehe Abschnitt 3.5) verwendet. Die Definition der Unterscheidbar-
keitsfunktion wird dagegen ein bisschen verändert.

18


Definition (Unterscheidbarkeitsfunktion für Attributwerte). Sei IS =U , A ein
Informationssystem, B⊆A eine Teilmenge von Attributen und x ∈U . Dann ist
die Unterscheidbarkeitsfunktion f x  B bezüglich x eine boolesche Funktion mit
m booleschen Variablen a 1, ... , a m , die den Attributen a 1, ... , a m ∈B entspre-
 
chen, so dass gilt:

f x  B=∏ {∑   x , y  : y ∈U ∧  x , y ≠∅} ,
y∈U


Somit wird eine Unterscheidbarkeitsfunktion für Attributwerte immer bezüglich eines
Objekts oder einer elementaren Menge (Äquivalenzklasse) definiert, so dass man
beispielsweise für n elementare Mengen n Unterscheidbarkeitsfunktionen erhält.

Beispiel 1

Anhand der Tabelle 3.4 erhalten wir für die Attributmenge B = { Headache, Tempera-
ture } die folgende Unterscheidbarkeitsmatrix.

Set 1 Set 2 Set 3 Set 4 Set 5
Set 1 H H, T T T
Set 2 H T H, T H, T
Set 3 H, T T H, T H
Set 4 T H, T H, T T
Set 5 T H, T H T

Headache und Temperature

Für jede einzelne Spalte der obigen Unterscheidbarkeitsmatrix bestimmen wir die
jeweilige Unterscheidbarkeitsfunktion.

f 1  B=H × H T ×T ×T =H ×T
2
f  B=H ×T × H T × H T =H ×T
f 3  B= H T ×T × H T ×H = H ×T
f 4  B=T × H T × H T ×T =T
5
f  B=T × H T ×H ×T =H ×T

Während für die Äquivalenzklassen 1, 2, 3 und 5 alle Attributwerte relevant sind, ist für
die Beschreibung der vierten Äquivalenzklasse der Attributwert des Attributs –
Headache – überflüssig und wir können somit auf diesen Attributwert verzichten.

Beispiel 2

19


pain } die Unterscheidbarkeitsmatrix:

Set 1 Set 2 Set 3
Set 1 H, M H
Set 2 H, M M
Set 3 H M


Die zugehörigen Unterscheidbarkeitsfunktionen können wie folgt bestimmt und verein-
facht werden.

f 1  B= H M ×H =H
2
f  B= H M ×M =M
f 3  B=H ×M

3.7 Klassifikation der Objekte – Qualität und Genauigkeit
Im letzten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung 3.1
– 6) werden verschiedene Größen herangezogen, um die vorhandene Unsicherheit bzw.
die Qualität der vorgenommenen Annäherung/Klassifikation zu bewerten. Dabei
unterscheiden wir zwischen drei grundlegenden Größen, die im Folgenden erläutert
werden.

Definition (Qualität der Annäherung). Sei IS =U , A ein Informationssystem
und X ⊆U eine Teilmenge von Objekten. Dann wird durch

card  B∗ X 
B  X  = ∗ mit card  B∗ X ≠0
card  B  X 

die Qualität der Annäherung von X in IS definiert.

Damit quantitative Größen für die Beschreibung der Qualität und Genauigkeit im
Hinblick auf mehrere Mengen von Objekten bestimmt werden können, muss der
Begriff der Klassifikation eingeführt werden, der im Folgenden erläutert wird.

Definition (Klassifikation). Sei F ={X 1 , X 2 , ... , X n } und X i ⊂U eine Familie
von Teilmengen von U und B⊆A . Dann heißt F eine Klassifikation von U ,
falls X i ∩ X j =∅ und ∪ X i=U , so dass gilt

B∗ F ={B∗ X 1  , B∗ X 2 ,... , B∗ X n}

B∗ F ={B∗ X 1  , B∗ X 2 ,... , B∗ X 2 } .

20


Die Qualität einer Klassifikation wird dann wie folgt definiert.

Definition (Qualität der Klassifikation). Sei IS =U , A ein Informationssystem,
F eine Klassifikation von U und B⊆A . Dann wird die Qualität der
Beschreibung der Klassifikation F durch

n

∑ card  B∗ X i 
i =1
B F  =
card U 

definiert.

Die Genauigkeit einer Klassifikation wird ähnlich wie die Qualität einer Klassifikation
definiert, die im Folgenden verdeutlicht wird.

Definition (Genauigkeit der Klassifikation). Sei IS =U , A ein Informations-
system, F eine Klassifikation von U und B⊆A . Dann wird die Genauigkeit der
Beschreibung der Klassifikation F durch

n

∑ card  B∗ X i 
i=1
B F  = n

∑ card  B∗ X i 
i=1

definiert.

Beispiel 1

Anhand des Beispiels aus dem Abschnitt 3.4 erhalten wir für die Menge X = { p1, p2, p4
} und die Attributmenge B = { Headache, Muscle-pain, Temperature } das folgende
Ergebnis für die Qualität der Annäherung.

card  B∗ X  2 1
B  X  = = =
card  B  X  4 2
∗

Beispiel 2

Eine beispielhafte Klassifikation mit zwei disjunkten Mengen X1 = { p1, p3, p5 } und X2
= { p2, p4, p6 }, und der Attributmenge B = { Headache, Muscle-pain, Temperature }
kann wie folgt beschrieben werden.

Class Number of Lower Upper
Accuracy
Number objects Approximation Approximation
1 3 card({p1, p3}) = 2 card({p1, p2, p3, p5}) = 4 1/2
2 3 card({p4, p6}) = 2 card({p2, p4, p5, p6}) = 4 1/2

21


Tabelle 3.8: Schematische Darstellung der Klassifikation

Nun können wir anhand der Tabelle 3.8 die Qualität und Genauigkeit der vorliegenden
Klassifikation bestimmen. Für die Qualität der Klassifikation erhalten wir:

n

∑ card  B∗ X i  22 2
i=1
B F  = = =
card U  6 3

Für die Genauigkeit derselben Klassifikation ergibt sich:

n

∑ card  B∗ X i   22 1
i =1
B F  = n
= =
44 2
∑ card  B∗ X i 
i =1

22

4 Rough Set – Theorie für Entscheidungssysteme


4.1 Allgemeiner Ablauf der Analyse für
Entscheidungssysteme
Da das Ziel der Rough-Set-Theorie für Entscheidungssysteme darin besteht, aus zur
Verfügung stehenden Informationen über Objekte regelbasierte Modelle (siehe
Abschnitt 2.2) aufzustellen, die ihrerseits wiederum durch Entscheidungsregeln
beschrieben werden, gilt es nun zu klären, welche Schritte zur Herleitung solcher
Entscheidungsregeln erforderlich sind. In Abbildung 4.1 werden die wichtigsten
Aspekte verdeutlicht, die bei der Rough-Set-Analyse für Entscheidungssysteme von
Bedeutung sind.

Abbildung 4.1: Ablauf der Analyse für Entscheidungssysteme (Quelle: eigene
Darstellung)

Die eingekreisten Nummern in Abbildung 4.1 entsprechen dabei den einzelnen
Schritten der Rough-Set-Analyse für Entscheidungssysteme, die in den nachfolgenden
Abschnitten näher erläutert werden.

4.2 Entscheidungssystem
Im ersten Schritt der Rough-Set-Analyse für Entscheidungssysteme (siehe Abbildung
4.1 – 1) muss die Struktur der Daten festgelegt werden, d.h. wird in einem
Informationssystem zwischen zwei Arten von Attributen (Bedingungs- und
Entscheidungsattributen) unterschieden, dann spricht man nicht mehr von einem
Informations-, sondern von einem Entscheidungssystem. Beispielsweise können die
Attribute – Headache, Muscle-pain und Temperature – als Bedingungsattribute
betrachtet werden, während das Attribut – Flu – als Entscheidungsattribut. Eine

23


mathematische Definition dafür wird wie folgt verdeutlicht.

Definition (Entscheidungssystem). Sei IS =U , C  ein Informationssystem und
D={d 1, d 2, ... , d n } eine Menge von Entscheidungen (mit 1n∞ ), so dass
C∩ D=∅ . Dann ist S=U , C , D ein Entscheidungssystem.

Jede Zeile eines solchen Entscheidungssystems beschreibt eine Entscheidungsregel, die
wiederum Entscheidungen (Aktionen) festlegt, die getroffen werden müssen, wenn alle
Bedingungen in Form von Bedingungsattributen gelten bzw. erfüllt sind. Die
Bedingungen

(Headache, no), (Muscle-pain, yes), (Temperature, high)

aus der Tabelle 2.1 beschreiben eindeutig die Entscheidung

(Flu, yes).

Objekte in einem Entscheidungssystem werden als Bezeichnungen für Entscheidungs-
regeln verwendet. Die Entscheidungsregeln p1 und p2 aus der Tabelle 2.1 umfassen
zwar dieselben Bedingungen, enthalten aber unterschiedliche Entscheidungen. Solche
Regeln werden als inkonsistent bezeichnet, andernfalls werden sie als konsistente
Regeln betrachtet. Dasselbe gilt auch für Entscheidungssysteme. Entscheidungs-
systeme mit inkonsistenten Entscheidungsregeln werden als inkonsistent bezeichnet,
andernfalls gelten sie als konsistent. Entscheidungsregeln werden oft in der If-Then-
Form dargestellt. Beispielsweise kann die Regel p1 aus der Tabelle 2.1 folgendermaßen
ausgedrückt werden

if (Headache, no) and (Muscle-pain, yes) and (Temperature, high) then (Flu, yes)

Eine Menge von Entscheidungsregeln wird als Entscheidungsalgorithmus (decison
algorithm) bezeichnet, da er alle Entscheidungsregeln umfasst, die in einem
Entscheidungssystem vorkommen können. Allerdings sind Entscheidungssysteme und
Entscheidungsalgorithmen keine äquivalenten Begriffe. Ein Entscheidungssystem ist
eine Sammlung von Daten, während ein Entscheidungsalgorithmus eine Sammlung
von logischen Ausdrücken bzw. Regeln darstellt. Wie wir bereits gesehen haben, um
Daten analysieren zu können, werden unterschiedliche mathematische Ansätze heran-
gezogen. Damit aber Regeln analysiert werden können, müssen logische Methoden zur
Anwendung kommen. Deshalb werden wir in nachfolgenden Abschnitten
Entscheidungsregeln in Form von aussagenlogischen Implikationen darstellen, um eine
klare Trennung dieser Begriffe zu gewährleisten.

4.3 Abhängigkeiten zwischen Bedingungs- und
Entscheidungsattributen
Ein weiterer wichtiger Aspekt in der Datenanalyse besteht darin, dass es Abhängig-
keiten zwischen einzelnen Attributen existieren können. Es lässt sich erkennen, dass
eine Menge von Attributen D vollständig von einer Menge von Attributen C
abhängt ( C ⇒ D ) , wenn alle Attributwerte aus D eindeutig durch alle Attribut-
werte aus C beschrieben werden. Beispielsweise sind in der Tabelle 2.1 keine
vollständigen Abhängigkeiten vorhanden. Wäre der Wert des Attributs – Temperature

24


– für den Patienten p5 nicht „high“, sondern „no“, würde eine vollständige
Abhängigkeit {Temperature }⇒ {Flu} vorliegen, da jedem Wert des Attributs –
Temperature – ein eindeutiger Wert des Attributs – Flu – zugeordnet werden würde.
Das Temperature-Attribut aus der Tabelle 2.1 beschreibt jedoch eindeutig nur einige
Attributwerte des Flu- Attributs, d.h.

(Temperature, very high) impliziert (Flu, yes)
(Temperature, normal) impliziert (Flu, no)

aber

(Temperature, high) impliziert nicht immer (Flu, yes)

Diese Art der Abhängigkeit ist unvollständig, da nur ein Teil der Attributwerte aus D
durch Attributwerte aus C beschrieben werden können. Eine formale Definition baut
auf der Idee auf, konsistente Regeln bei der Bestimmung der Art der Abhängigkeit zu
berücksichtigen. Ein sogennanter Konsistenzfaktor wird in Bezug auf das
entsprechende Entscheidungssystem bestimmt und wird als Verhältnis von der Anzahl
konsistenter Regeln zur Gesamtzahl der konsistenten und inkonsistenten Regeln
aufgefasst. Mathematisch kann dieses Verhältnis wie folgt ausgedrückt werden.

Definition (Konsistenzfaktor). Sei S=U , C , D ein Entscheidungssystem. Dann
wird der Konsistenzfaktor durch

card  POS C  D
C , D =
card U 

mit

POS C  D = ∪ X ∈U / I  D
C ∗ X 

definiert.

Für das Entscheidungssystem aus der Tabelle 2.1 erhalten wir einen Konsistenzfaktor
von C , D=4 /6 .
Basierend auf dem Wert des Konsistenzfaktors können wir eine Aussage darüber
treffen, ob zwischen den Bedingungs- und Entscheidungsattributen eines Entscheid-
ungssystems eine vollständige oder eine unvollständige Abhängigkeit vorliegt. Dies
wird aus der nachfolgenden Definition ersichtlich.

Definition (Art der Abhängigkeit). Sei C , D⊆A . Dann sind die folgenden
Aussagen möglich:

1. D hängt bis zu einem Grad k 0k1 von C ab, falls k =C , D .

2. D hängt vollständig von C ab, falls k =1 .

3. D hängt teilweise von C ab, falls k 1 .

25


Für die Abhängigkeit {Headache , Muscle− pain ,Temperature }⇒ {Flu } aus der
Tabelle 2.1 erhalten wir k =4/6=2/3 , da vier von sechs Patienten eindeutig als
Personen klassifiziert werden können, bei denen unter Berücksichtigung von den
Attributen – Headache, Muscle-pain und Temperature – eine Grippeerkrankung
festgestellt bzw. nicht festgestellt werden konnte. Mit Hilfe dieser Methode können wir
beispielsweise auch feststellen, wie genau Patienten diagnostiziert werden können,
wenn nur ein einziges Attribut in die Analyse einbezogen wird. Für das Temperature-
Attribut ergibt sich somit die Abhängigkeit {Temperature }⇒ {Flu} mit einem
Konsistenzfaktor von k =3/6=1/2 , da in diesem Fall nur drei Patienten p3, p4, und
p6 eindeutig klassifiziert werden können. Somit liefert das Temperature-Attribut eine
schlechtere Klassifikation als das gleichzeitige Einbeziehen von den Attributen –
Headache, Muscle-pain und Temperature. Außerdem kann man auf diese Art und
Weise erkennen, dass weder das Headache- noch das Muscle-pain-Attribut dazu
verwendet werden können, um eine Grippeerkrankung bei Patienten zu diagnostizie-
ren, da die Abhängigkeiten {Headache}⇒{Flu } und {Muscle− pain}⇒ {Flu} einen
Konsistenzfaktor von k =0 liefern.

4.4 Reduktion der Attribute – relative Redukte und
relative Kerne
Im dritten Schritt der Rough-Set-Analyse für Entscheidungssysteme (siehe Abbildung
4.1 – 3) werden relative Redukte und relative Kerne bestimmt, indem das Prinzip der
Redukte und Kerne für ein Informationssystem, auf ein Entscheidungssystem
übertragen werden. Dabei wollen wir, wie bei Informationssystemen, herausfinden, ob
redundante Attribute auch in Entscheidungssystemen vorkommen, auf die verzichtet
werden kann. Für diesen Zweck wird das Konzept der Redukte für Informationssyste-
me ein bisschen angepasst.

Definition (D-Redukt). Sei C , D⊆A . Dann sind folgende Aussagen möglich:

1. Das Attribut a ∈C heißt D-verzichtbar bezüglich C , falls
POS C  D=POS C −{a }  D gilt. Andernfalls heißt das Attribut a
D-unverzichtbar bezüglich C .

2. C heißt D-unabhängig, falls alle Attribute a ∈C D-unverzichtbar
bezüglich C sind.

3. Eine Teilmenge C ' ⊆C ist ein D-Redukt von C , falls C ' D-unabhängig
ist, und es gilt POS C  D=POS C '  D .

Der relative Kern in Bezug auf Bedingungsattribute wird genauso bestimmt wie der
Kern in Bezug auf Attribute eines Informationssystems (siehe Abschnitt 3.5). Die
folgende Definition verdeutlicht dies noch einmal.

Definition (D-Kern). Sei S=U , C , D ein Entscheidungssystem. Dann wird die
Menge von allen D-unverzichtbaren Attributen in C durch

Core D C= Reduct D C 

26


definiert, wobei Reduct D C  die Menge aller D-Redukte von C ist.
Relative Redukte können ebenfalls mit Hilfe der Unterscheidbarkeitsmatrix bestimmt
werden. Allerdings muss diese so angepasst werden, dass dabei auch die Entscheid-
ungsattribute berücksichtigt werden.

Definition (Unterscheidbarkeitsmatrix für D-Redukte). Sei S=U , C , D ein
Entscheidungssystem mit n Objekten. Dann ist die Unterscheidbarkeitsmatrix
M D C  von C eine symmetrische n×n Matrix mit den Einträgen c ij , so dass
gilt:

c ij ={a ∈ C : f  x i ≠ f  x j ∧w  x i , x j } ,

wobei

w  x i , x j ≡ x i ∈POS C  D∧x j ∉ POS C  D∨
 x i ∉POS C  D∧ x j ∈POS C  D∨
x i , x j ∈POS C  D∧ x i , x j ∉I  D

für i , j=1, 2, ... , n .

Somit stellt der Eintrag c ij die Menge von allen Attributen dar, so dass die Objekte
x i und x j in Bezug auf die Attribute aus c ij voneinander unterschieden werden
können, wenn sie aber nicht derselben Äquivalenzklasse der Relation I  D
angehören. Aus jeder Unterscheidbarkeitsmatrix M D C  resultiert eine eindeutige
Unterscheidbarkeitsfunktion (boolesche Funktion) f D C  , die genauso definiert
wird, wie die Unterscheidbarkeitsfunktion f  B (siehe Abschnitt 3.5).

Beispiel 1

Anhand der Tabelle 2.1 erhalten wir in Bezug auf das Entscheidungsattribut – Flu –
zwei Äquivalenzklassen { p1, p2, p3, p6 } und { p4, p5 }. Nun können wir eine
Unterscheidbarkeitsmatrix aufstellen, indem Objekte nur aus unterschiedlichen
Äquivalenzklassen bezüglich der Attributmenge C = { Headache, Muscle-pain, Tempe-
rature } voneinander unterschieden werden.

p1 p2 p3 p4 p5 p6
p1 -
p2 - -
p3 - - -
p4 T H, M, T H, T -
p5 H, M - M, T - -
p6 - - - T H, M, T -


27


Die zugehörige Unterscheidbarkeitsfunktion liefert also zwei Redukte:

f D C =T × H M × H M T × H T 
×M T ×T × H M T = H M ×T =H ×T M ×T

Die Existenz von zwei Redukten ermöglicht, dass wir das Ausgangsentscheidungs-
system auf zwei vereinfachte Entscheidungssysteme reduzieren:

Patient Headache Temperature Flu
p1 no high yes
p2 yes high yes
p3 yes very high yes
p4 no normal no
p5 yes high no
p6 no very high yes

Tabelle 4.2: Reduziertes Entscheidungssystem aus der Tabelle 2.1

Patient Muscle-pain Temperature Flu
p1 yes high yes
p2 no high yes
p4 yes normal no
p5 no high no

Tabelle 4.3: Reduziertes Entscheidungssystem aus der Tabelle 2.1

4.5 Reduktion der Attributwerte – relative Redukte und
relative Kerne
Im vierten Schritt der Rough-Set-Analyse für Entscheidungssysteme (siehe Abbildung
4.1 – 4) werden relative Redukte und relative Kerne in Bezug auf Attributwerte
bestimmt, um eine weitere Vereinfachung der Daten im zu analysierenden Entschei-
dungssystem zu erreichen. Genauso wie bei Informationssystemen, kommt auch bei
Entscheidungssystemen die Idee der Redukte und Kerne zur Anwendung, aber jedoch
in einer leicht modifizierten Fassung.

Definition (D-Redukt für Attributwerte). Sei C ein relatives D-Redukt, C ⇒ D
eine Abhängigkeit und x ∈U . Dann sind folgende Aussagen möglich:

1. Der Attributwert von a ∈C heißt D-verzichtbar bezüglich x , falls

C  x ⊆D x impliziert C a  x⊆ D x  .

28


Andernfalls ist der Attributwert von a D-unverzichtbar bezüglich x .

2. C heißt D-unabhängig (orthogonal) bezüglich x , falls für jedes Attribut
a ∈C der zugehörige Attributwert D-unverzichtbar bezüglich x ist.

3. Eine Teilmenge C ' ∈C ist ein D-Redukt von C bezüglich x , falls C '
D-unabhängig bezüglich x ist, und es gilt

C  x ⊆D x impliziert C '  x⊆ D x  .

Auch der D-Kern für Attributwerte wird analog zur Definition des Kerns für
Attributwerte eines Informationssystems (siehe Abschnitt 3.6) definiert.

Definition (D-Kern für Attributwerte). Sei S=U , C , D ein Entscheidungs-
system. Dann wird die Menge von allen D-unverzichtbaren Attributwerten bezüglich
x in C durch

Core x C= Reduct x C 
D D

definiert, wobei Reduct x C  die Menge aller D-Redukte von C bezüglich x ist.
D

Um relative Redukte und deren relativen Kern bezüglich x zu bestimmen, wird die
Unterscheidbarkeitsmatrix M D C  (siehe Abschnitt 4.4) verwendet. Die Definition
der Unterscheidbarkeitsfunktion wird dabei genauso spezifiziert, wie die Unterscheid-
barkeitsfunktion f x  B für Informationssysteme.

Definition (D-Unterscheidbarkeitsfunktion). Sei S=U , C , D ein Entschei-
dungssystem und x ∈U . Dann ist die Unterscheidbarkeitsfunktion f x C  D
bezüglich x eine boolesche Funktion mit m booleschen Variablen c 1, ... , c m , die
 
den Bedingungsattributen c 1, ... , c m ∈C entsprechen, so dass gilt:

f x C =∏ {∑   x , y  : y ∈U ∧ x , y ≠∅} ,
D
y∈U


Beispiel 1

Anhand der Tabelle 4.2 stellen wir nun ausgehend von den Äquvalenzklassen { p1, p2,
p3, p6 } und { p4, p5 } eine Unterscheidbarkeitsmatrix auf, um relative Redukte für
Attributwerte in Bezug auf die Attributmenge C = { Headache, Temperature } zu
bestimmen.

p1 p2 p3 p4 p5 p6
p1 – – – T H –
p2 – – – H, T – –

29


p3 – – – H, T T –
p4 T H, T H, T – – T
p5 H – T – – H, T
p6 – – – T H, T –

Headache und Temperature

Für jede einzelne Spalte der obigen Unterscheidbarkeitsmatrix bestimmen wir die
jeweilige Unterscheidbarkeitsfunktion.

f 1 C =T ×H
D

f 2 C =H T
D

f 3 C = H T ×T =T
D

f 4 C =T × H T × H T ×T =T
D

f 5 C =H ×T × H T =H ×T
D

f 6 C =T × H T =T
D

Das vereinfachte Entscheidungssystem kann nun wie folgt dargestellt werden.

Patient Headache Temperature Flu
p1 no high yes
p2 yes high yes
p3 – very high yes
p4 – normal no
p5 yes high no

Tabelle 4.5: Vereinfachtes Entscheidungssystem aus der Tabelle 4.2

Beispiel 2

Analog zum obigen Beispiel können wir das Entscheidungssystem aus der Tabelle 4.3
vereinfachen und erhalten somit die zweite vereinfachte Darstellung für das Entschei-
dungssystem aus der Tabelle 2.1.

Patient Muscle-pain Temperature Flu
p1 yes high yes
p2 no high yes
p4 – normal no

30


p5 no high no

Tabelle 4.6: Vereinfachtes Entscheidungssystem aus der Tabelle 4.3

4.6 Entscheidungsregeln
Sobald die relativen Redukte in Bezug auf das Entscheidungsattribut – Flu – anhand
der Beispieldaten aus der Tabelle 2.1 bestimmt wurden, können wir aus den daraus
resultierenden Daten (siehe Tabelle 4.5 und 4.6) Entscheidungsregeln ablesen (siehe
Abbildung 4.1 – 5). Die Tabelle 4.5 lässt sich in Form von Entscheidungsregeln
folgendermaßen beschreiben.

if (Headache, no) and (Temperature, high) then (Flu, yes)
if (Headache, yes) and (Temperature, high) then (Flu, yes)
if (Temperature, very high) then (Flu, yes)
if (Temperature, normal) then (Flu, no)
if (Headache, yes) and (Temperature, high) then (Flu, no)

Die Tabelle 4.6 kann mit Hilfe von Entscheidungsregeln wie folgt dargestellt werden.

if (Muscle-pain, yes) and (Temperature, high) then (Flu, yes)
if (Muscle-pain, no) and (Temperature, high) then (Flu, yes)
if (Temperature, normal) then (Flu, no)
if (Muscle-pain, no) and (Temperature, high) then (Flu, no)

Nun gilt es zu klären, wie die hergeleiteten Entscheidungsregeln angewendet werden
können, um die Klassifizierung neuer Objekte zu unterstützen. Es gibt hauptsächlich 4
Möglichkeiten, wie das Abgleichen eines neuen Objekts mit bereits vorhandenen
Entscheidungsregeln ablaufen kann.

(a) das neue Objekt entspricht genau einer deterministischen Entscheidungs-
regel

(b) das neue Objekt entspricht genau einer nicht-deterministischen Entscheid-
ungsregel

(c) das neue Objekt entspricht keiner geeigneten Entscheidungsregel

(d) das neue Objekt entspricht mehreren Entscheidungsregeln

Der Fall – a – sieht keine weiteren Schritte vor, da die Zuordnung des neuen Objekts

31


zu einer deterministischen Entscheidungsregel eindeutig ist. Im Fall – b – liegt keine
eindeutige Entscheidungsregel vor. Deshalb wird der sogennante Decision Maker
eingesetzt, d.h. ihm werden Informationen über die Anzahl der Beispiele (strength)
mitgeteilt, welche die jeweilige Entscheidungsregel verstärken sollen. Falls der
Koeffizient (Anzahl der Beispiele) einer Klasse größer ist als der Koeffizient anderer
Klassen, die ebenfalls von derselben nicht-deterministischen Entscheidungsregel
umfasst werden, wird der Decision Maker für das betrachtete Objekt die
Entscheidungsregel mit dem größten Koeffizienten auswählen. Im Fall – d – werden
dem Decision Maker alle passenden Entscheidungsregeln mitgeteilt. Falls diese
Entscheidungsregeln dieselbe Entscheidung beinhalten, dann liegt keine
Mehrdeutigkeit vor. Andernfalls wird der Koeffizient jeder einzelnen Regel bestimmt,
so dass der Decision Maker genauso wie im Fall – b – vorgehen kann. Der Fall – c – ist
der komplizierteste Fall. In diesem Fall müssen dem Decision Maker eine Menge von
Entscheidungsregeln mitgeteilt werden, die am besten zur Beschreibung des neuen
Objekts passen. Dafür wird ein Distanzmaß eingeführt, damit der Decision Maker mehr
Informationen über Objekte in unmittelbarer Nähe des zu klassifizierenden Objekts
gewinnen kann. Anhand von diesen Informationen kann dann das neue Objekt
entweder als Sonderfall der existierenden Klassen oder als Element einer neuen Klasse
betrachtet werden.

32

5 Fazit

5 Fazit
In dieser Arbeit haben wir die Rough-Set-Theorie als eine nicht statistische Methode
zur Analyse von Daten kennengelernt, die ermöglicht, Objekte in Bezug auf ihre
Attributwerte zu charakterisieren, vollständige und unvollständige Abhängigkeiten
zwischen Attributen zu finden, überflüssige Attribute zu eliminieren, Kernattribute zu
bestimmen und Entscheidungsregeln zu erstellen. Diese Ansätze, die die Rough-Set-
Theorie mit sich bringt, können in verschiedenen Bereichen der künstlichen Intelligenz
eingesetzt werden, da der Hauptvorteil der Rough-Set-Theorie darin besteht, dass
Anwendungen, die diese Ansätze implementieren, parallel auf mehreren Rechnern
laufen können, was die Laufzeit zur Bestimmung von Entscheidungsregeln deutlich
verkürzen kann. Der aktuelle Stand der Forschung im Bereich der Rough-Set-Theorie
äußert sich darin, dass neue Konzepte entwickelt werden, wie die Rough-Set-Theorie
mit anderen Methoden wie Fuzzy-Logik [Lia01], Neuronalen Netzen [Cmm03] und
Expertensystemen [Sha09] kombiniert werden kann.
Zusammenfassend lässt sich sagen, dass die Rough-Set-Theorie eine erfolgreiche
Methode zur Analyse von Daten darstellt, die bereits in solchen Bereichen wie Medizin,
Finanzwesen, Sicherheit der Energiesysteme, Spracherkennung und Bildverarbeitung
zur Anwendung kommt.

33

Literatur

Literatur

Cmm03 Chun-Yan, Yu; Ming-hui, Wu; Ming, Wu: Combining Rough Set Theory
with Neural Network Theory for Pattern Recognition. Proceedings of the
2003 IEEE - International Conference on Robotics, Intelligent Systems
and Signal Processing, 2003

Kps Komorowski, Jan; Polkowski, Lech; Skowron, Andrzej: Rough Sets: A
Tutorial.
http://secs.ceas.uc.edu/~mazlack/dbm.w2011/Komorowski.RoughSets.tu
tor.pdf (Stand 5.11.2012)

Lia01 Li, Yu-Rong; Jiang, Jing-Ping: The integrated methodology of rough sets
theory, fuzzy logic and genetic algorithms for multisensor fusion.
Proceedings of the American Control Conference, 2001

Lud07 Luderer, Bernd: Die Kunst des Modellierens – Mathematisch-
ökonomische Modelle. Vieweg+Teubner Verlag, 2007

Orw00 Ohrn, Aleksander; Rowland, Todd: Rough Sets: A Knowledge Discovery
Technique for Multifactorial Mediacal Outcomes. Am. J. Phys. Med.
Rehabil. 79, 2000

Paw Pawlak, Zdzislaw: Rough Set Elements (1).
http://chc60.fgcu.edu/images/articles/RoughSetElements1.pdf
(Stand 3.11.2012)

Ril09 Rissino, Silvia; Lambert-Torres, Germano: Rough Set Theory –
Fundamental Concepts, Principals, Data Extraction, and Applications.
Data Mining and Knowledge Discovery in Real Life Applications, I-Tech,
2009

Sha09 Shao, Xin-Yu; Chu, Xue-Zheng; Qiu, Hao-Bo; Gao, Liang; Yan, Jun: An
expert system using rough sets theory for aided conceptual design of
ships's engine room automation. Expert Systems with Application 36,
2009
Wam99 Walczak, B.; Massart, D.L.: Tutorial – Rough sets theory. Chemometrics
and Intelligent Laboratory Systems, 1999

34

Rough Set Theory (Grobe Logik)

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Rough Set Theory (Grobe Logik)