SlideShare une entreprise Scribd logo
1  sur  34
Télécharger pour lire hors ligne
Seminar

   Nichtklassische Logiken


   Grobe Logik
      Eugen Petrosean

       WS 2012/2013




          Betreuer:

        Roland Glück



Augsburg, den 17. Januar 2013
Erklärung
Hiermit versichere ich die vorliegende Seminararbeit selbstständig und ohne fremde
Hilfe verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel
verwendet zu haben.




Augsburg, den 17. Januar 2013



Eugen Petrosean
1 Einleitung


Inhaltsverzeichnis
1 Einleitung........................................................................................4

2 Grundlegendes................................................................................5
      2.1 Überblick über die grundlegenden Mengentheorien ........................................5
      2.2 Allgemeiner Ablauf zur Erstellung eines regelbasierten Modells......................6
      2.3 Beispiel – Medizinische Daten...........................................................................7

3 Rough Set – Theorie für Informationssysteme ............................10
      3.1 Allgemeiner Ablauf der Analyse für Informationssysteme..............................10
      3.2 Informationssystem..........................................................................................11
      3.3 Ununterscheidbarkeitsrelation.........................................................................11
      3.4 Untere und obere Annäherung.........................................................................13
      3.5 Reduktion der Attribute – Redukte und Kerne................................................15
      3.6 Reduktion der Attributwerte – Redukte und Kerne........................................18
      3.7 Klassifikation der Objekte – Qualität und Genauigkeit ..................................20

4 Rough Set – Theorie für Entscheidungssysteme...........................23
      4.1 Allgemeiner Ablauf der Analyse für Entscheidungssysteme ...........................23
      4.2 Entscheidungssystem.......................................................................................23
      4.3 Abhängigkeiten zwischen Bedingungs- und Entscheidungsattributen...........24
      4.4 Reduktion der Attribute – relative Redukte und relative Kerne.....................26
      4.5 Reduktion der Attributwerte – relative Redukte und relative Kerne..............28
      4.6 Entscheidungsregeln........................................................................................31

5 Fazit..............................................................................................33

Literatur..........................................................................................34




                                                                                                                      3
1 Einleitung


1 Einleitung
Im Hinblick auf die Diagnostizierung von Krankheiten sind die Abdominalschmerzen
eines Kindes ein überliche, aber gleichzeitig eine schwierige Aufgabe. Es gibt viele
mögliche Ursachen für diese Schmerzen, die in den meisten Fällen nicht ernsthaft sind.
Allerdings können diese Schmerzen auch ein Indikator dafür sein, dass ein Patient eine
ernsthafte Krankheit hat, die eine sofortige Behandlung erfordert. Erfahrene Ärzte
würden eine Vielfalt von relevanten historischen Informationen und ärztlichen Beo-
bachtungen heranziehen, um Kinder zu untersuchen. Diese Informationen bzw.
Mekmale kommen in wieder erkennbaren Zusammenhängen vor, so dass eine schnelle
und effektive Diagnostizierung möglich ist. Unerfahrene Ärzte dagegen können sich
schwer tun, diese Zusammenhänge zu erkennen, da ihnen das erforderliche Wissen
und die entsprechende Erfahrung fehlt. Die Rough-Set-Theorie 1 [Paw, Wam99, Orw00,
Ril09] kommt also in diesem Bereich der Medizin zum Einsatz, um zu helfen,
Zusammenhänge aus historischen Informationen in Form von Entscheidungsregeln zu
gewinnen und dabei solche unerfahrenen Ärzte zu unterstützen.
In dieser Arbeit werden wir ganz genau auf die grundlegenden Ansätze der Rough-Set-
Theorie eingehen und erklären, wie man anhand von ungenauen und unvollständigen
Daten bzw. Informationen neue Zusammenhänge erkennen und sie in Form von
Entscheidungsregeln beschreiben kann.




1 Zu Deutsch - Grobmengentheorie

                                                                                    4
2 Grundlegendes


2 Grundlegendes

2.1 Überblick über die grundlegenden Mengentheorien
In diesem Abschnitt werden wir die grundlegenden Unterschiede (siehe Abbildung 2.1)
zwischen den existierenden Mengentheorien beschreiben und darauf eingehen, wie die
Rough-Set-Theorie im Vergleich zur klassischen Mengentheorie und der Fuzzy-Set-
Theorie mit ungenauen Konzepten umgeht.




         Abbildung 2.1: Schematische Gegenüberstellung von grundlegenden
                   Mengentheorien (Quelle: eigene Darstellung)

In der klassischen Mengentheorie wird eine Menge eindeutig durch ihre Elemente
definiert, d.h. jedes Element wird so klassifiziert, dass es entweder einer bestimmten
Menge angehört oder nicht (also in ihrem Komplement enthalten ist). Beispielsweise
ist die Menge der geraden ganzen Zahlen scharf, da jede ganze Zahl entweder gerade
oder ungerade sein kann. Dagegen der Versuch beispielsweise verschiedene Gemälde
als schön oder nicht schön zu klassifizieren, nicht möglich ist, da der Begriff – schön –
kein exaktes Konzept darstellt, um somit alle Gemälde, die wir kennen, eindeutig in
zwei Klassen – schön und nicht schön – einteilen zu können. Somit wird der Begriff –
Ungenauigkeit (vagueness) – mit dem Ansatz in Verbindung gebracht, dass es Objekte
gibt, die nicht eindeutig einer Menge oder ihrem Komplement zugeordnet werden
können.
Die Fuzzy-Set-Theorie stellt einen solchen Ansatz dar, wie Ungenauigkeiten modelliert
werden können. Der Grad an Zugehörigkeit zu einer Menge wird dabei durch eine
Zugehörigkeitsfunktion beschrieben, die den Elementen einer Grundmenge eine reelle
Zahl k 0k1 zuordnet. Beispielsweise können wir mittels der klassischen Men-
gentheorie festhalten, dass jemand definitiv krank oder gesund ist, während mit Hilfe
der Fuzzy-Set-Theorie eine Aussage möglich ist, dass jemand zu 60 Prozent krank oder
gesund ist.
In der Rough-Set-Theorie wird der Begriff – Ungenauigkeit – nicht durch eine
Zugehörigkeitsfunktion definiert, wie dies beispielsweise in der Fuzzy-Set-Theorie der
Fall ist, sondern, indem der Begriff einer Randmenge bzw. einer Grenzregion
eingeführt wird. Ist die Grenzregion einer Menge leer, dann ist die Menge scharf
(crisp), andernfalls ist die Menge grob bzw. ungenau (rough). Wenn die Grenzregion


                                                                                       5
2 Grundlegendes

einer Menge nicht leer ist, dann können wir daraus schließen, dass das Wissen in Form
von Beispieldaten, die uns zur Verfügung stehen, nicht ausreichen, um diese Menge
exakt zu definieren (siehe Beispiel aus dem Abschnitt 2.3).
Der Hauptvorteil der Rough-Set-Theorie besteht darin, dass keine vorläufigen bzw.
zusätzlichen Informationen über die zu analysierenden Daten benötigt werden – wie
beispielsweise in der Fuzzy-Set-Theorie in Bezug auf den Grad an Zugehörigkeit eines
Elements zu einer Menge. Die Rough-Set-Theorie umfasst somit folgende Aspekte:

       –   Einführung von effizienten Algorithmen zur Erkennung von versteckten
           Zusammenhängen in den zu analysierenden Daten

       –   Bestimmung von minimalen Mengen von Daten (Reduktion der Daten)

       –   Auswertung der Daten im Hinblick auf ihre Wichtigkeit

       –   Bestimmung von Entscheidungsregeln

       –   Einfache Interpretation von erzielten Ergebnissen


2.2 Allgemeiner Ablauf zur Erstellung eines regelbasierten
    Modells
Die regelbasierte Modellierung [Orw00] ist ein Modellierungsansatz, bei dem eine
Menge von Regeln verwendet wird, um das zugrundeliegende Modell als aussagen-
logische Implikationen zu beschreiben. Die regelbasierte Modellierung kommt vor
allem in denjenigen Fällen zur Anwendung, in denen die Regelmenge deutlich
einfacher ist als das durch die Regelmenge zu beschreibende Modell. Damit ein Modell
mit Hilfe von Regeln ausgedrückt werden kann, ist eine Reihe von Schritten (siehe
Abbildung 2.2) erforderlich, die im Folgenden erläutert werden. Die Rough-Set-Theorie
stellt im Ablauf zur Erstellung eines regelbasierten Modells dagegen nur einen
möglichen Ansatz dar, wie Regeln generiert werden können.




  Abbildung 2.2: Erstellung eines regelbasierten Modells (Quelle: eigene Darstellung)




                                                                                        6
2 Grundlegendes

      Schritt 1 – Diskretisierung der Daten

                 In diesem Schritt werden nicht kategoriale Daten (Attribute) in
                 kategoriale überführt. Da der Ansatz der Rough-Set-Theorie auf
                 dem Prinzip der Ununterscheidbarkeit von Objekten beruht (siehe
                 Kapitel 3), ist keine Einführung des Begriffs – Distanzmaß –
                 zwischen einzelnen Attributwerten erforderlich, wie man diesen
                 Begriff in vielen anderen Ansätzen des maschinellen Lernens
                 findet. Deshalb müssen nicht kategoriale Attribute in einer
                 Vorverarbeitungsphase der Daten diskretisiert werden. Dieser
                 Schritt legt somit fest, wie grob einzelne Attribute (bzw.
                 Attributwerte) betrachtet werden sollen. Für numerische Attribute
                 bedeutet dies, dass Intervallgrenzen bestimmt werden müssen, um
                 einzelne Attribute auf die entsprechenden Intervalle abzubilden.
                 Beispielsweise können alle Patienten zwischen 45 und 60 Jahren je
                 nach Situation und Bedarf als Patienten gesehen werden, die
                 derselben Altersgruppe angehören.


      Schritt 2 – Herleitung der Regeln

                 In diesem Schritt werden aussagenlogische Implikationen (If-
                 Then-Regeln) anhand von im Schritt 1 diskretisierten Daten
                 bestimmt. Das Verfahren zur Bestimmung von Entscheidungs-
                 regeln mittels der Rough-Set-Theorie wird im Kapitel 3 und 4
                 genauer erklärt.


      Schritt 3 – Anwendung der hergeleiteten Regeln

                 In diesem Schritt werden die anhand von Beispieldaten hergeleite-
                 ten Regeln angewendet, um herauszufinden, ob sich dadurch neue
                 Zusammenhänge zwischen einzelnen Attributen erkennen lassen,
                 die für die weitere Datenanalyse relevant sind. Um die Qualität der
                 Regeln einschätzen zu können, können sie auf neue Daten
                 angewendet werden, um festzustellen, wie gut beispielsweise
                 Untersuchungsergebnisse der neuen Patienten vorhergesagt
                 werden.


      Schritt 4 – Auswertung des Modells

                 Im letzten Schritt erfolgt eine objektive Quantifizierung der Regeln.
                 Zwar sind sie normalerweise einfach zu interpretieren, können
                 jedoch ein Problem im Hinblick auf ihre Wichtigkeit darstellen, d.h.
                 wie sinnvoll und relevant sie für zu analysierende Datenbestände
                 sind.


2.3 Beispiel – Medizinische Daten
Im Abschnitt 2.2 haben wir gesehen, welche Schritte erforderlich sind, um ein


                                                                                     7
2 Grundlegendes

regelbasiertes Modell anhand von zur Verfügung stehenden Beispieldaten zu erstellen.
In diesem Abschnitt werden wir auf ein konkretes Beispiel (siehe Tabelle 2.1) eingehen,
das auf medizinischen Daten beruht und erklären, welche Probleme bei der Analyse
dieser Daten auftreten können.
Normalerweise werden erfasste Daten als Tabellen mit Spalten dargestellt. Jeder Spalte
entspricht ein Attribut, jeder Zeile ein Objekt und jedem Tabelleneintrag ein bestimm-
ter Attributwert. Der Tabelle 2.1 können wir entnehmen, dass die dargestellten
Spaltennamen Symptome beschreiben, die bei einem Patienten auftreten können. Die
Zeilen dagegen repräsentieren einzelne Patienten und können als konkrete
Informationen über diese Personen in Bezug auf ihre Symptome aufgefasst werden.


     Patient         Headache        Muscle-pain      Temperature           Flu
       p1               no               yes              high              yes
       p2               yes               no              high              yes
       p3               yes              yes            very high           yes
       p4               no               yes             normal              no
       p5               yes               no              high               no
       p6               no               yes            very high           yes

                    Tabelle 2.1: Beispielhaftes Informationssystem


Beispielsweise wird der Patient p2 (siehe Tabelle 2.1) als Menge von (Attribut,
Attributwert) – Paaren wie folgt beschrieben:

         (Headache, yes), (Muscle-pain, no), (Temperature, high), (Flu, yes)


Der Tabelle 2.1 können wir außerdem entnehmen, dass die Patienten p2, p3 und p5 in
Bezug auf das Attribut – Headache – nicht unterscheidbar sind. Die Patienten p3 und
p6 sind in Bezug auf die Attribute – Muscle-pain und Flu – nicht unterscheidbar und
die Patienten p2 und p5 sind in Bezug auf die Attribute – Headache, Muscle-pain und
Temperature – nicht unterscheidbar. Während das Attribut – Headache – zwei
elementare Mengen { p2, p3, p5 } und { p1, p4, p6 } erzeugt, bilden die Attribute –
Headache, Muscle-pain – drei elementare Mengen { p1, p4, p6 }, { p2, p5 } und { p3 }.
Die Patienten p2 und p5 sind zwar ununterscheidbar in Bezug auf die Attribute –
Headache, Muscle-pain und Temperature, weisen jedoch gegensätzliche Diagnosen
auf, d.h. der Patient p2 hat die Grippe während beim Patienten p5 keine Grippe
diagnostiziert wurde. Folglich kann bei diesen zwei Patienten die Diagnostizierung der
Grippe nicht unter Berücksichtigung von den drei Attributen (Symptomen) erfolgen.
Deshalb stellen die Patienten p2 und p5 zwei Grenzfälle dar, die nicht genau mit Hilfe
des zur Verfügung stehenden Wissens klassifiziert werden können. Die restlichen
Patienten p1, p3 und p6 weisen nur solche Symptome auf, die ermöglichen, mit
Sicherheit davon auszugehen, dass diese Symptome als Folge einer Grippeinfektion
aufgetreten sind. Bei den Patienten p2 und p5 kann es nicht ausgeschlossen werden,
dass sie keine Grippe haben und der Patient p4 kann als gesund in Bezug auf die
festgehaltenen Symptome gesehen werden.
Somit ist die untere Annäherung an die Menge von Patienten, die krank sind, { p1, p3,
p6 } und die obere Annäherung { p1, p2, p3, p5, p6 }, wobei die Patienten p2 und p5
zwei Grenzfälle darstellen. Dieselbe Vorgehensweise gilt auch für die Patienten, die


                                                                                     8
2 Grundlegendes

keine Grippeerkrankung haben. Der Patient p4 hat also keine Grippe und bei den
Patienten p2 und p5 kann es nicht ausgeschlossen werden, dass sie nicht krank sind.
Deshalb ist die untere Annäherung die Menge { p4 }, während die obere Annäherung
durch die Menge { p2, p4, p5 } beschrieben wird. Die Grenzfälle, dass die Patienten
keine Grippeerkrankung haben, sind dieselben wie im vorherigen Fall, also { p2, p5 }.




                                                                                   9
3 Rough Set – Theorie für Informationssysteme


3 Rough Set – Theorie für Informationssysteme
In diesem Abschnitt werden wir die grundlegenden Konzepte der Rough-Set-Theorie
[Paw, Wam99] in Bezug auf Datenanalyse vorstellen. Im Gegensatz zur klassischen
Mengentheorie, wird in der Grobmengentheorie davon ausgegangen, dass während der
Datenanalyse mittels der Rough-Set-Konzepte einige zusätzliche Informationen –
Wissen – über Elemente (Objekte) eines Diskursuniversums vorhanden sind.
Elemente, die dieselben Besonderheiten aufweisen, werden als nicht unterscheidbar
betrachtet und bilden Äquivalenzklassen (Konzepte), die als elementare Granulate des
zur Verfügung stehenden Wissens über das gegebene Universum verstanden werden
können. Beispielsweise können Patienten, die an einer bestimmten Krankheit leiden
und dieselben Symptome aufweisen, als ununterscheidbare Objekte interpretiert
werden, da sie somit einen in sich abgeschlossenen Teil des medizinischen Wissens
darstellen (siehe Beispiel aus dem Abschnitt 2.3).


3.1 Allgemeiner Ablauf der Analyse für
    Informationssysteme
Da das Ziel der Rough-Set-Theorie darin besteht, anhand von zur Verfügung stehenden
Beispieldaten eine entsprechende Klassifizierung zu erhalten, um später neu
entstehende Daten in Form von Objekten, die bisher unbekannt waren, richtig
klassifizieren zu können, wird in Abbildung 3.1 der Zusammenhang zwischen den
einzelnen Schritten zur Durchführung der Rough-Set-Analyse für Informationssysteme
genauer dargestellt.




      Abbildung 3.1: Ablauf der Analyse für Informationssysteme (Quelle: eigene

                                                                                  10
3 Rough Set – Theorie für Informationssysteme

                                         Darstellung)

Die eingekreisten Nummern in Abbildung 3.1 entsprechen den einzelnen Schritten der
Rough-Set-Analyse für Informationssysteme, die in den nachfolgenden Abschnitten
näher erläutert werden.


3.2 Informationssystem
Im ersten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung 3.1
– 1) müssen alle relevanten Informationen in Bezug auf den modellierten Kontext
identifiziert werden. Da die Rough-Set-Theorie eine formale Grundlage sowohl für die
Klassifikation von ungenauen Daten als auch für die Bestimmung von Entscheidungs-
regeln anhand von diesen Daten ist, die normalerweise als Beispieldaten vorliegen,
stellt die Rough-Set-Theorie ein Konzept für die Organisation von Beispieldaten in
Tabellenform dar, d.h. die Beispieldaten liegen in einer zweidimensionalen Tabelle vor,
die bei der Anwendung der Rough-Set-Theorie eingesetzt wird. Eine solche Tabelle
wird als Informationssystem bezeichnet und kann mathematisch wie folgt ausgedrückt
werden.

Definition (Informationssystem). Ein Informationssystem IS =U , A wird durch
eine Menge U ={x 1, x 2, ... , x n } von Objekten (mit 1n∞ ), die als Universum
bezeichnet wird, und durch eine Menge A={a1, a 2, ... , a m} von Attributen (mit
  1m∞ ) definiert. Für jedes a ∈A wird zusätzlich eine Funktion f a :U V a
spezifiziert, wobei V a die Wertemenge von a darstellt.

Die Zeilen dieser Tabelle repräsentieren Objekte, über die in den Spalten dieser Tabelle
verschiedene Informationen in Form von Attributen abgelegt sind. Die Tabellen-
einträge entsprechen damit den Ausprägungen der Attribute in Bezug auf die betrach-
teten Objekte.

Beispiel 1

Betrachten wir das Beispiel aus dem Abschnitt 2.3. Dann lässt sich das zugrunde
liegende Informationssystem mathematisch wie folgt auffassen:

                  U = { p1 , p2 , p3 , p4 , p5 , p6 }
                   A = {Headache , Muscle pain ,Temperature }
                  V Headache = {yes , no}
                  V Muscle pain = { yes , no}
                  V Temperature = {normal , high , very high}


3.3 Ununterscheidbarkeitsrelation
Im zweiten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung
3.1 – 2) wird das Wissen in Form von Beispieldaten, die uns am Anfang der
Datenanalyse zur Verfügung stehen, in Konzepte (elementare Mengen)
zusammengefasst, so dass Objekte eines solchen Konzepts durch einen gemeinsamen


                                                                                      11
3 Rough Set – Theorie für Informationssysteme

Grundgedanken verbunden sind. Mathematisch lässt sich dieser Begriff wie folgt
beschreiben.

Definition (Ununterscheidbarkeitsrelation). Sei  IS =U , A ein Informations-
system. Dann wird eine Ununterscheidbarkeitsrelation I  B für eine Teilmenge
  B⊆A durch die Äquivalenzrelation
                                               2
                      I  B={ x i , x j ∈U ∣ ∀ a ∈ B f a  x i  = f a  x j }

 definiert.

Die Familie von allen Äquivalenzklassen von I  B wird durch U / I  B  bzw.
  U / B ausgedrückt. Eine Äquivalenzklasse von I  B , in der x enthalten ist, wird
als B  x bezeichnet. Wenn also  x i , x j  ∈ I  B , dann sind die Objekte x i und
  x j ununterscheidbar (indiscernible) von jedem Attribut aus B , d.h. zwar werden
die Elemente in U als unterscheidbar erklärt, unterscheiden sich aber nicht bezüglich
der Attributmenge B . Äquivalenzklassen von I  B werden auch als elementare
Mengen bezeichnet.

Beispiel 1

Betrachten wir das Beispiel aus dem Abschnitt 2.3. Dann erhalten wir für die Attribut-
menge B = { Headache, Muscle-pain, Temperature } die folgenden Äquivalenzklassen.

         U/A                  Headache                  Muscle-pain                  Temperature
        { p1 }                     no                         yes                           high
      { p2, p5 }                  yes                         no                            high
        { p3 }                    yes                         yes                      very high
        { p4 }                     no                         yes                          normal
        { p6 }                     no                         yes                      very high

                 Tabelle 3.1: Äquivalenzklassen in Bezug auf die Attribute
                        Headache, Muscle-pain und Temperature

Beispiel 2

Anhand der Tabelle 2.1 erhalten wir für die Attributmenge B = { Headache, Muscle-
pain } die Äquivalenzklassen:

         U/B                         Headache                                Muscle-pain
    { p1, p4, p6 }                        no                                         yes
      { p2, p5 }                         yes                                         no
        { p3 }                           yes                                         yes

                 Tabelle 3.2: Äquivalenzklassen in Bezug auf die Attribute
                                Headache und Muscle-pain


                                                                                                    12
3 Rough Set – Theorie für Informationssysteme

3.4 Untere und obere Annäherung
Im dritten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung
3.1 – 3) wird ein weiterer wichtiger Ansatz vorgestellt, der im Gegensatz zur graduellen
Zuordnung von Elementen zu unscharfen Mengen auf der Idee der Approximation
einer groben Menge durch zwei scharfe Mengen beruht. Die Ununterscheidbarkeits-
relation induziert eine Partitionierung des Universums, so dass dadurch entstandene
Partitionen genutzt werden können, um neue Untermengen des Universums zu bilden.
Da das Ziel der unteren und oberen Annäherung darin besteht, dass eine solche
Untermenge X durch die Ausprägungen der in B⊆A enthaltenen Attribute zu
beschreiben, nähert man sich somit der Menge X durch die untere und obere
Approximation an.
Die untere Annäherung B∗ X  ist die maximale Vereinigungsmenge der elemen-
taren Mengen, die vollständig in der Menge X enthalten sind. Mathematisch kann
die Definition der unteren Annäherung folgendermaßen beschrieben werden.

Definition (Untere Annäherung). Sei IS =U , A ein Informationssystem,
 B⊆A eine Teilmenge von Attributen und X ⊆U eine Teilmenge von Objekten.
Dann kann X durch

                              B∗ X ={xi ∈U ∣ B x i⊆ X }

von unten angenähert werden.

Die obere Annäherung B∗ X  resultiert aus der Vereinigungsmenge all jener
elementaren Mengen, deren Schnitt mit der Menge X mindestens ein Element
enthält. Die obere Annäherung ist somit die minimale Vereinigungsmenge von
elementaren Mengen, die die Menge X enthält. Die nachfolgende Definition
verdeutlicht diesen Sachverhalt.

Definition (Obere Annäherung). Sei IS =U , A ein Informationssystem, B⊆A
eine Teilmenge von Attributen und X ⊆U eine Teilmenge von Objekten. Dann kann
  X durch
                             ∗
                            B  X ={xi ∈U ∣ B x i∩ X ≠0 }

von oben angenähert werden.

Die Menge X wird als scharf bezeichnet, wenn die untere Annäherung B∗ X 
gleich der oberen Annäherung B∗ X  ist. Gilt dagegen B∗ X ≠ B∗ X  , so wird
die Menge X als grob bezeichnet. Die untere Annäherung ist somit die maximale
scharfe Menge, die in der Menge X enthalten ist. Die obere Annäherung stellt
dagegen die minimale scharfe Menge dar, die die Menge X enthält. Auf diese Art und
Weise ermöglichen B∗ X  und B∗ X  eine Annäherung grober Mengen durch
scharfe Mengen vorzunehmen.

Definition (Grenzregion). Sei IS =U , A ein Informationssystem, B⊆A eine
Teilmenge von Attributen und X ⊆U eine Teilmenge von Objekten. Dann wird die
Menge


                                                                                     13
3 Rough Set – Theorie für Informationssysteme

                              BN B  X =B∗ X − B∗ X 

als Grenzregion von X bezeichnet.

Die Abbildung 3.2 verdeutlicht noch einmal diesen Zusammenhang. Dabei werden drei
Regionen einer groben Menge unterschieden.

             POS  B=B∗                         (Sicher ja)

             NEG  B=U −B∗                      (Sicher nein)

             BR B=B∗−B∗                        (Ja oder nein)

Die positive Region POS  B enthält also alle Objekte aus U , die – basierend auf
dem sich aus der Attributmenge B ergebenden Wissen – mit Sicherheit der Menge
  X zugewiesen werden können.




             Abbildung 3.2: Schematische Darstellung der Annäherungen
                             und deren Regionen [Ril09]

Die negative Region NEG  B enthält dagegen alle Objekte aus U , die sich mit
Sicherheit der Menge X nicht zuordnen lassen. Die Grenzregion BR B ist eine
Teilmenge der oberen Annäherung, die alle Objekte aus U enthält, die sich
möglicherweise der Menge X zuordnen lassen. Die in der unteren Annäherung
enthaltenen Objekte führen somit zu sicheren Regeln, jene der oberen Annäherung zu
möglichen Regeln (siehe Abschnitt 2.3, Abschnitt 4.2 und Abschnitt 4.3).

Beispiel 1

Betrachten wir das Beispiel aus dem Abschnitt 2.3. Dann erhalten wir anhand der
Tabelle 3.1 für die Menge X = { p1, p2, p4 } und die Attributmenge B = { Headache,
Muscle-pain, Temperature } die folgenden Annäherungen.

                     B∗ X  = { p1 , p4}


                                                                                 14
3 Rough Set – Theorie für Informationssysteme

                      B∗ X ={ p1 , p2 , p5 , p4 }
                      BN B  X  = { p1 , p2 , p5 , p4} − { p1 , p4} = { p2 , p5 }

Beispiel 2

Anhand der Tabelle 3.2 erhalten wir für die Menge X = { p1, p3, p4 } und die Attribut-
menge B = { Headache, Muscle-pain } die folgenden Annäherungen.

                      B∗ X  = { p3}
                      B∗ X  = { p1 , p4 , p6 , p3}
                      BN B  X  = { p1 , p4 , p6 , p3} − { p3} = { p1 , p4 , p6 }


3.5 Reduktion der Attribute – Redukte und Kerne
Im vierten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung
3.1 – 4) wird die Möglichkeit untersucht, ob bei geringerer Attributzahl identisches
Wissen modelliert werden kann. Damit das zu betrachtende Informationssystem
vereinfacht werden kann, müssen redundante Attribute des vorliegenden Informa-
tionssystems eliminiert werden. Mathematisch lässt sich dieser Sachverhalt wie folgt
beschreiben.

Definition (Redukt). Sei B⊆A und a ∈B . Dann sind folgende Aussagen
möglich:

     1. a heißt verzichtbar bezüglich der Attributmenge B , falls
        I  B=I  B−{a } gilt. Andernfalls heißt a unverzichtbar bezüglich B .

     2. B heißt unabhängig, falls alle Attribute von B unverzichtbar sind.

     3. Eine Teilmenge B '⊆B ist ein Redukt von B , falls B ' unabhängig ist,
        und es gilt I  B ' =I  B .

Ein Redukt ist somit eine Menge von Attributen, die die jeweilige Partition des
Universums aufrechterhält, denn ein Redukt umfasst eine minimale Teilmenge von
Attributen, die – wie die entsprechende Gesamtmenge von Attributen – dieselbe
Klassifikation von Elementen ermöglicht. Deshalb sind solche Attribute, die keinem
Redukt angehören, überflüssig bezüglich der Klassifikation von Elementen des
entsprechenden Universums.

Definition (Kern). Sei IS =U , A ein Informationssystem und B⊆A eine
Teilmenge von Attributen. Dann wird der Kern von B durch

                               Core  B=  Reduct  B

definiert, wobei Reduct  B die Menge aller Redukte von B ist.

Da der Kern als Schnittmenge aller Redukte definiert ist, kommt er also in jedem
Redukt vor, d.h. der Kern stellt somit die wichtigste Teilmenge von Attributen dar, so

                                                                                     15
3 Rough Set – Theorie für Informationssysteme

dass sich mit der Eliminierung eines im Kern enthaltenen Attributs die Klassifikation
bezüglich der restlichen Attributmenge ändert und einen Informationsverlust bewirkt.
Durch die Eliminierung überflüssiger Attribute wird dagegen das Informationssystem
vereinfacht und die weitere Bearbeitung und Handhabung der Daten erleichtert.
Um Redukte und den zugehörigen Kern schneller und einfacher berechnen zu können,
wird im Folgenden der Begriff der Unterscheidbarkeitsmatrix eingeführt.

Definition (Unterscheidbarkeitsmatrix). Sei IS =U , A ein Informationssystem
mit n Objekten. Dann ist die Unterscheidbarkeitsmatrix M  B von B⊆A eine
symmetrische n×n Matrix mit den Einträgen c ij , so dass gilt:

                    c ij ={a∈ A∣ f a  x i ≠ f a  x j } für i , j=1, ... , n .

Somit lässt sich der Eintrag c ij als Menge der Attribute interpretieren, in denen sich
das Objekt x i vom Objekt x j unterscheidet.
Die Unterscheidbarkeitsmatrix M  B ordnet also jedem Paar von Objekten x und
  y eine Teilmenge von Attributen  x , y ⊆B zu, so dass folgende Eigenschaften
gelten:

                           x , x = ∅
                           x , y  =   y , x 
                           x , z  ⊆  x , y  ∪   y , z  .

Anhand der Unterscheibarkeitsmatrix M  B lässt sich der Kern bestimmen, der die
Menge aller einelementigen Einträge von M  B darstellt.

                     Core  B = {a∈B : cij = {a}} für einige i , j .

Jede Unterscheidbarkeitsmatrix M  B definiert eindeutig eine Unterscheidbarkeits-
funktion (boolesche Funktion) f  B , deren Definition im Folgenden erläutert wird.

Definition (Unterscheidbarkeitsfunktion). Sei IS =U , A ein Informationssystem
und B⊆A eine Teilmenge von Attributen. Dann ist die Unterscheidbarkeitsfunktion
  f  B eine boolesche Funktion mit m booleschen Variablen a 1, ... , a m , die den
                                                                       
Attributen  a 1, ... , a m ∈B entsprechen, so dass gilt:

                f  B=     ∏ {∑   x , y  :  x , y ∈U 2 ∧  x , y ≠∅}
                                       2
                                                                                    ,
                           x , y∈U


wobei ∑   x , y die boolesche Summe aller booleschen Variablen ist, die der
Menge  x , y zugeordnet sind.

Diese Definition ermöglicht einen Zusammenhang zwischen der disjunktiven Normal-
form der Funktion f  B und der Menge aller Redukte von B herzustellen.

Beispiel 1

Betrachten wir das Beispiel aus dem Abschnitt 2.3. Dann erhalten wir anhand der

                                                                                        16
3 Rough Set – Theorie für Informationssysteme

Tabelle 3.1 für die Attributmenge B = { Headache, Muscle-pain, Temperature } die
folgende Unterscheidbarkeitsmatrix.

                      Set 1         Set 2           Set 3        Set 4            Set 5
     Set 1
    Set 2             H, M
    Set 3             H, T           M, T
    Set 4              T           H, M, T          H, T
    Set 5              T           H, M, T           H             T

             Tabelle 3.3: Unterscheidbarkeitsmatrix in Bezug auf die Attribute
                         Headache, Muscle-pain und Temperature

Anhand der Unterscheidbarkeitsmatrix können wir nun die zugehörige Unterscheid-
barkeitsfunktion bestimmen.

                 f  B= H M × H T ×T ×T ×M T × H M T 
                                × H M T × H T ×H ×T

Nach der mehrmaligen Anwendung des Absorptionsgesetzes erhalten wir ein einziges
Redukt mit den Attributen – Headache und Temprature.

             f  B= H M × H T ×T ×M T × H M T ×H = H ×T

Da das Attribut – Muscle-pain – im Redukt nicht enthalten ist, können wir somit auf
dieses Attribut verzichten. Wir erhalten:

        U/R                        Headache                       Temperature
        { p1 }                          no                             high
      { p2, p5 }                        yes                            high
        { p3 }                          yes                        very high
        { p4 }                          no                          normal
        { p6 }                          no                         very high

             Tabelle 3.4: Reduziertes Informationssystem aus der Tabelle 2.1

Beispiel 2

Anhand der Tabelle 3.2 erhalten wir für die Attributmenge B = { Headache, Muscle-
pain } die folgende Unterscheidbarkeitsmatrix.

                                Set 1                 Set 2                   Set 3
        Set 1
        Set 2                   H, M



                                                                                          17
3 Rough Set – Theorie für Informationssysteme

        Set 3                  H                     M

          Tabelle 3.5: Unterscheidbarkeitsmatrix in Bezug auf die Attribute
                             Headache und Muscle-pain

Anhand der Unterscheidbarkeitsmatrix bestimmen wir nun die Unterscheidbarkeits-
funktion und stellen fest, dass das Attribut – Temperature – überflüssig ist.

                          f  B= H M × H ×M =H ×M


3.6 Reduktion der Attributwerte – Redukte und Kerne
Im fünften Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung
3.1 – 5) kann die Vereinfachung des vorliegenden Informationssystems fortgesetzt
werden, indem auf bestimmte Attributwerte verzichtet wird, die für das Informations-
system unrelevant sind, was dennoch ermöglicht, alle bereits bestimmten elementaren
Mengen beizubehalten. Die Bestimmung von Redukten in Bezug auf Attributwerte läuft
ähnlich wie die Bestimmung von Redukten in Bezug auf Attribute ab. Mathematisch
wird dies folgendermaßen verdeutlicht.

Definition (Redukt für Attributwerte). Sei B⊆A und x ∈U . Dann sind folgende
Aussagen möglich:

      1. Der Attributwert von a ∈B heißt verzichtbar bezüglich x , falls
          B  x=B a  x  gilt, wobei Ba =B−{a} . Andernfalls heißt der Attributwert
         von a unverzichtbar bezüglich x .

      2. B heißt orthogonal bezüglich x , falls für jedes Attribut a ∈B der
        zugehörige Attributwert unverzichtbar bezüglich x ist.


      3. Eine Teilmenge B '⊆B ist ein Redukt von B bezüglich x , falls
          B ' orthogonal bezüglich x ist, und es gilt B '  x =B  x .

Der Kern in Bezug auf Attributwerte wird genauso bestimmt wie der Kern in Bezug auf
Attribute eines Informationssystems (siehe Abschnitt 3.5). Die folgende Definition
verdeutlicht dies noch einmal.

Definition (Kern für Attributwerte). Sei IS =U , A ein Informationssystem,
 B⊆A und x ∈U . Dann wird der Kern von B bezüglich x durch

                              Core x  B= Reduct x  B

definiert, wobei Reduct x  B die Menge aller Redukte von B bezüglich x ist.

Um Redukte und deren Kern bezüglich x zu bestimmen, wird dieselbe Unterscheid-
barkeitsmatrix (siehe Abschnitt 3.5) verwendet. Die Definition der Unterscheidbar-
keitsfunktion wird dagegen ein bisschen verändert.



                                                                                    18
3 Rough Set – Theorie für Informationssysteme

Definition (Unterscheidbarkeitsfunktion für Attributwerte). Sei IS =U , A ein
Informationssystem, B⊆A eine Teilmenge von Attributen und x ∈U . Dann ist
die Unterscheidbarkeitsfunktion f x  B bezüglich x eine boolesche Funktion mit
  m booleschen Variablen a 1, ... , a m , die den Attributen a 1, ... , a m ∈B entspre-
                                    
chen, so dass gilt:

                      f x  B=∏ {∑   x , y  : y ∈U ∧  x , y ≠∅} ,
                              y∈U


wobei ∑   x , y die boolesche Summe aller booleschen Variablen ist, die der
Menge  x , y zugeordnet sind.

Somit wird eine Unterscheidbarkeitsfunktion für Attributwerte immer bezüglich eines
Objekts oder einer elementaren Menge (Äquivalenzklasse) definiert, so dass man
beispielsweise für n elementare Mengen n Unterscheidbarkeitsfunktionen erhält.

Beispiel 1

Anhand der Tabelle 3.4 erhalten wir für die Attributmenge B = { Headache, Tempera-
ture } die folgende Unterscheidbarkeitsmatrix.

                     Set 1          Set 2           Set 3         Set 4          Set 5
     Set 1                           H              H, T           T              T
    Set 2              H                             T            H, T           H, T
    Set 3            H, T            T                            H, T            H
    Set 4              T            H, T            H, T                          T
    Set 5              T            H, T             H             T

             Tabelle 3.6: Unterscheidbarkeitsmatrix in Bezug auf die Attribute
                                Headache und Temperature

Für jede einzelne Spalte der obigen Unterscheidbarkeitsmatrix bestimmen wir die
jeweilige Unterscheidbarkeitsfunktion.

                      f 1  B=H × H T ×T ×T =H ×T
                        2
                      f  B=H ×T × H T × H T =H ×T
                      f 3  B= H T ×T × H T ×H = H ×T
                      f 4  B=T × H T × H T ×T =T
                        5
                      f  B=T × H T ×H ×T =H ×T

Während für die Äquivalenzklassen 1, 2, 3 und 5 alle Attributwerte relevant sind, ist für
die Beschreibung der vierten Äquivalenzklasse der Attributwert des Attributs –
Headache – überflüssig und wir können somit auf diesen Attributwert verzichten.

Beispiel 2


                                                                                         19
3 Rough Set – Theorie für Informationssysteme

Anhand der Tabelle 3.5 erhalten wir für die Attributmenge B = { Headache, Muscle-
pain } die Unterscheidbarkeitsmatrix:

                                Set 1                     Set 2              Set 3
        Set 1                                             H, M                H
        Set 2                   H, M                                          M
        Set 3                     H                         M

          Tabelle 3.7: Unterscheidbarkeitsmatrix in Bezug auf die Attribute
                             Headache und Muscle-pain

Die zugehörigen Unterscheidbarkeitsfunktionen können wie folgt bestimmt und verein-
facht werden.

                    f 1  B= H M ×H =H
                     2
                    f  B= H M ×M =M
                    f 3  B=H ×M


3.7 Klassifikation der Objekte – Qualität und Genauigkeit
Im letzten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung 3.1
– 6) werden verschiedene Größen herangezogen, um die vorhandene Unsicherheit bzw.
die Qualität der vorgenommenen Annäherung/Klassifikation zu bewerten. Dabei
unterscheiden wir zwischen drei grundlegenden Größen, die im Folgenden erläutert
werden.

Definition (Qualität der Annäherung). Sei IS =U , A ein Informationssystem
und X ⊆U eine Teilmenge von Objekten. Dann wird durch

                                card  B∗ X 
                   B  X  =           ∗         mit card  B∗ X ≠0
                                card  B  X 

die Qualität der Annäherung von X in IS definiert.

Damit quantitative Größen für die Beschreibung der Qualität und Genauigkeit im
Hinblick auf mehrere Mengen von Objekten bestimmt werden können, muss der
Begriff der Klassifikation eingeführt werden, der im Folgenden erläutert wird.

Definition (Klassifikation). Sei F ={X 1 , X 2 , ... , X n } und X i ⊂U eine Familie
von Teilmengen von U und B⊆A . Dann heißt F eine Klassifikation von U ,
falls X i ∩ X j =∅ und ∪ X i=U , so dass gilt

                         B∗ F ={B∗ X 1  , B∗ X 2 ,... , B∗ X n}

                         B∗ F ={B∗ X 1  , B∗ X 2 ,... , B∗ X 2 } .



                                                                                       20
3 Rough Set – Theorie für Informationssysteme

Die Qualität einer Klassifikation wird dann wie folgt definiert.

Definition (Qualität der Klassifikation). Sei IS =U , A ein Informationssystem,
 F eine Klassifikation von U und B⊆A . Dann wird die Qualität der
Beschreibung der Klassifikation F durch

                                             n

                                           ∑ card  B∗ X i 
                                            i =1
                               B F  =
                                                   card U 

definiert.

Die Genauigkeit einer Klassifikation wird ähnlich wie die Qualität einer Klassifikation
definiert, die im Folgenden verdeutlicht wird.

Definition (Genauigkeit der Klassifikation). Sei IS =U , A ein Informations-
system, F eine Klassifikation von U und B⊆A . Dann wird die Genauigkeit der
Beschreibung der Klassifikation F durch

                                             n

                                           ∑ card  B∗ X i 
                                            i=1
                               B F  =     n

                                           ∑ card  B∗ X i 
                                            i=1


definiert.

Beispiel 1

Anhand des Beispiels aus dem Abschnitt 3.4 erhalten wir für die Menge X = { p1, p2, p4
} und die Attributmenge B = { Headache, Muscle-pain, Temperature } das folgende
Ergebnis für die Qualität der Annäherung.

                                          card  B∗ X  2 1
                             B  X  =                  = =
                                          card  B  X  4 2
                                                    ∗



Beispiel 2

Eine beispielhafte Klassifikation mit zwei disjunkten Mengen X1 = { p1, p3, p5 } und X2
= { p2, p4, p6 }, und der Attributmenge B = { Headache, Muscle-pain, Temperature }
kann wie folgt beschrieben werden.


  Class       Number of          Lower                            Upper
                                                                                     Accuracy
 Number        objects        Approximation                    Approximation
     1             3         card({p1, p3}) = 2         card({p1, p2, p3, p5}) = 4     1/2
     2             3         card({p4, p6}) = 2         card({p2, p4, p5, p6}) = 4     1/2




                                                                                             21
3 Rough Set – Theorie für Informationssysteme


               Tabelle 3.8: Schematische Darstellung der Klassifikation

Nun können wir anhand der Tabelle 3.8 die Qualität und Genauigkeit der vorliegenden
Klassifikation bestimmen. Für die Qualität der Klassifikation erhalten wir:

                                     n

                                    ∑ card  B∗ X i        22 2
                                    i=1
                        B F  =                         =        =
                                           card U             6    3

Für die Genauigkeit derselben Klassifikation ergibt sich:

                                     n

                                    ∑ card  B∗ X i         22 1
                                    i =1
                        B F  =     n
                                                          =         =
                                                              44 2
                                    ∑ card  B∗ X i 
                                    i =1




                                                                                       22
4 Rough Set – Theorie für Entscheidungssysteme


4 Rough Set – Theorie für Entscheidungssysteme

4.1 Allgemeiner Ablauf der Analyse für
    Entscheidungssysteme
Da das Ziel der Rough-Set-Theorie für Entscheidungssysteme darin besteht, aus zur
Verfügung stehenden Informationen über Objekte regelbasierte Modelle (siehe
Abschnitt 2.2) aufzustellen, die ihrerseits wiederum durch Entscheidungsregeln
beschrieben werden, gilt es nun zu klären, welche Schritte zur Herleitung solcher
Entscheidungsregeln erforderlich sind. In Abbildung 4.1 werden die wichtigsten
Aspekte verdeutlicht, die bei der Rough-Set-Analyse für Entscheidungssysteme von
Bedeutung sind.




     Abbildung 4.1: Ablauf der Analyse für Entscheidungssysteme (Quelle: eigene
                                    Darstellung)

Die eingekreisten Nummern in Abbildung 4.1 entsprechen dabei den einzelnen
Schritten der Rough-Set-Analyse für Entscheidungssysteme, die in den nachfolgenden
Abschnitten näher erläutert werden.


4.2 Entscheidungssystem
Im ersten Schritt der Rough-Set-Analyse für Entscheidungssysteme (siehe Abbildung
4.1 – 1) muss die Struktur der Daten festgelegt werden, d.h. wird in einem
Informationssystem zwischen zwei Arten von Attributen (Bedingungs- und
Entscheidungsattributen) unterschieden, dann spricht man nicht mehr von einem
Informations-, sondern von einem Entscheidungssystem. Beispielsweise können die
Attribute – Headache, Muscle-pain und Temperature – als Bedingungsattribute
betrachtet werden, während das Attribut – Flu – als Entscheidungsattribut. Eine


                                                                                  23
4 Rough Set – Theorie für Entscheidungssysteme

mathematische Definition dafür wird wie folgt verdeutlicht.

Definition (Entscheidungssystem). Sei IS =U , C  ein Informationssystem und
 D={d 1, d 2, ... , d n } eine Menge von Entscheidungen (mit 1n∞ ), so dass
 C∩ D=∅ . Dann ist S=U , C , D ein Entscheidungssystem.

Jede Zeile eines solchen Entscheidungssystems beschreibt eine Entscheidungsregel, die
wiederum Entscheidungen (Aktionen) festlegt, die getroffen werden müssen, wenn alle
Bedingungen in Form von Bedingungsattributen gelten bzw. erfüllt sind. Die
Bedingungen

              (Headache, no), (Muscle-pain, yes), (Temperature, high)

aus der Tabelle 2.1 beschreiben eindeutig die Entscheidung

                                      (Flu, yes).

Objekte in einem Entscheidungssystem werden als Bezeichnungen für Entscheidungs-
regeln verwendet. Die Entscheidungsregeln p1 und p2 aus der Tabelle 2.1 umfassen
zwar dieselben Bedingungen, enthalten aber unterschiedliche Entscheidungen. Solche
Regeln werden als inkonsistent bezeichnet, andernfalls werden sie als konsistente
Regeln betrachtet. Dasselbe gilt auch für Entscheidungssysteme. Entscheidungs-
systeme mit inkonsistenten Entscheidungsregeln werden als inkonsistent bezeichnet,
andernfalls gelten sie als konsistent. Entscheidungsregeln werden oft in der If-Then-
Form dargestellt. Beispielsweise kann die Regel p1 aus der Tabelle 2.1 folgendermaßen
ausgedrückt werden

  if (Headache, no) and (Muscle-pain, yes) and (Temperature, high) then (Flu, yes)

Eine Menge von Entscheidungsregeln wird als Entscheidungsalgorithmus (decison
algorithm) bezeichnet, da er alle Entscheidungsregeln umfasst, die in einem
Entscheidungssystem vorkommen können. Allerdings sind Entscheidungssysteme und
Entscheidungsalgorithmen keine äquivalenten Begriffe. Ein Entscheidungssystem ist
eine Sammlung von Daten, während ein Entscheidungsalgorithmus eine Sammlung
von logischen Ausdrücken bzw. Regeln darstellt. Wie wir bereits gesehen haben, um
Daten analysieren zu können, werden unterschiedliche mathematische Ansätze heran-
gezogen. Damit aber Regeln analysiert werden können, müssen logische Methoden zur
Anwendung kommen. Deshalb werden wir in nachfolgenden Abschnitten
Entscheidungsregeln in Form von aussagenlogischen Implikationen darstellen, um eine
klare Trennung dieser Begriffe zu gewährleisten.


4.3 Abhängigkeiten zwischen Bedingungs- und
    Entscheidungsattributen
Ein weiterer wichtiger Aspekt in der Datenanalyse besteht darin, dass es Abhängig-
keiten zwischen einzelnen Attributen existieren können. Es lässt sich erkennen, dass
eine Menge von Attributen D vollständig von einer Menge von Attributen C
abhängt ( C ⇒ D ) , wenn alle Attributwerte aus D eindeutig durch alle Attribut-
werte aus C beschrieben werden. Beispielsweise sind in der Tabelle 2.1 keine
vollständigen Abhängigkeiten vorhanden. Wäre der Wert des Attributs – Temperature


                                                                                     24
4 Rough Set – Theorie für Entscheidungssysteme

– für den Patienten p5 nicht „high“, sondern „no“, würde eine vollständige
Abhängigkeit {Temperature }⇒ {Flu} vorliegen, da jedem Wert des Attributs –
Temperature – ein eindeutiger Wert des Attributs – Flu – zugeordnet werden würde.
Das Temperature-Attribut aus der Tabelle 2.1 beschreibt jedoch eindeutig nur einige
Attributwerte des Flu- Attributs, d.h.

                    (Temperature, very high) impliziert (Flu, yes)
                    (Temperature, normal) impliziert (Flu, no)

                                          aber

                    (Temperature, high) impliziert nicht immer (Flu, yes)

Diese Art der Abhängigkeit ist unvollständig, da nur ein Teil der Attributwerte aus D
durch Attributwerte aus C beschrieben werden können. Eine formale Definition baut
auf der Idee auf, konsistente Regeln bei der Bestimmung der Art der Abhängigkeit zu
berücksichtigen. Ein sogennanter Konsistenzfaktor wird in Bezug auf das
entsprechende Entscheidungssystem bestimmt und wird als Verhältnis von der Anzahl
konsistenter Regeln zur Gesamtzahl der konsistenten und inkonsistenten Regeln
aufgefasst. Mathematisch kann dieses Verhältnis wie folgt ausgedrückt werden.

Definition (Konsistenzfaktor). Sei S=U , C , D ein Entscheidungssystem. Dann
wird der Konsistenzfaktor durch

                                          card  POS C  D
                            C , D =
                                             card U 

                                          mit

                           POS C  D =   ∪  X ∈U / I  D
                                                             C ∗ X 

definiert.

Für das Entscheidungssystem aus der Tabelle 2.1 erhalten wir einen Konsistenzfaktor
von C , D=4 /6 .
Basierend auf dem Wert des Konsistenzfaktors können wir eine Aussage darüber
treffen, ob zwischen den Bedingungs- und Entscheidungsattributen eines Entscheid-
ungssystems eine vollständige oder eine unvollständige Abhängigkeit vorliegt. Dies
wird aus der nachfolgenden Definition ersichtlich.

Definition (Art der Abhängigkeit). Sei C , D⊆A . Dann sind die folgenden
Aussagen möglich:

      1. D hängt bis zu einem Grad k 0k1 von C ab, falls k =C , D .

      2. D hängt vollständig von C ab, falls k =1 .

      3. D hängt teilweise von C ab, falls k 1 .



                                                                                  25
4 Rough Set – Theorie für Entscheidungssysteme

Für die Abhängigkeit {Headache , Muscle− pain ,Temperature }⇒ {Flu } aus der
Tabelle 2.1 erhalten wir k =4/6=2/3 , da vier von sechs Patienten eindeutig als
Personen klassifiziert werden können, bei denen unter Berücksichtigung von den
Attributen – Headache, Muscle-pain und Temperature – eine Grippeerkrankung
festgestellt bzw. nicht festgestellt werden konnte. Mit Hilfe dieser Methode können wir
beispielsweise auch feststellen, wie genau Patienten diagnostiziert werden können,
wenn nur ein einziges Attribut in die Analyse einbezogen wird. Für das Temperature-
Attribut ergibt sich somit die Abhängigkeit {Temperature }⇒ {Flu} mit einem
Konsistenzfaktor von k =3/6=1/2 , da in diesem Fall nur drei Patienten p3, p4, und
p6 eindeutig klassifiziert werden können. Somit liefert das Temperature-Attribut eine
schlechtere Klassifikation als das gleichzeitige Einbeziehen von den Attributen –
Headache, Muscle-pain und Temperature. Außerdem kann man auf diese Art und
Weise erkennen, dass weder das Headache- noch das Muscle-pain-Attribut dazu
verwendet werden können, um eine Grippeerkrankung bei Patienten zu diagnostizie-
ren, da die Abhängigkeiten {Headache}⇒{Flu } und {Muscle− pain}⇒ {Flu} einen
Konsistenzfaktor von k =0 liefern.


4.4 Reduktion der Attribute – relative Redukte und
    relative Kerne
Im dritten Schritt der Rough-Set-Analyse für Entscheidungssysteme (siehe Abbildung
4.1 – 3) werden relative Redukte und relative Kerne bestimmt, indem das Prinzip der
Redukte und Kerne für ein Informationssystem, auf ein Entscheidungssystem
übertragen werden. Dabei wollen wir, wie bei Informationssystemen, herausfinden, ob
redundante Attribute auch in Entscheidungssystemen vorkommen, auf die verzichtet
werden kann. Für diesen Zweck wird das Konzept der Redukte für Informationssyste-
me ein bisschen angepasst.

Definition (D-Redukt). Sei C , D⊆A . Dann sind folgende Aussagen möglich:

      1. Das Attribut a ∈C heißt D-verzichtbar bezüglich C , falls
          POS C  D=POS C −{a }  D gilt. Andernfalls heißt das Attribut a
         D-unverzichtbar bezüglich C .

      2. C heißt D-unabhängig, falls alle Attribute a ∈C D-unverzichtbar
        bezüglich C sind.

      3. Eine Teilmenge C ' ⊆C ist ein D-Redukt von C , falls C ' D-unabhängig
         ist, und es gilt POS C  D=POS C '  D .

Der relative Kern in Bezug auf Bedingungsattribute wird genauso bestimmt wie der
Kern in Bezug auf Attribute eines Informationssystems (siehe Abschnitt 3.5). Die
folgende Definition verdeutlicht dies noch einmal.

Definition (D-Kern). Sei S=U , C , D ein Entscheidungssystem. Dann wird die
Menge von allen D-unverzichtbaren Attributen in C durch

                               Core D C= Reduct D C 



                                                                                    26
4 Rough Set – Theorie für Entscheidungssysteme

definiert, wobei Reduct D C  die Menge aller D-Redukte von C ist.
Relative Redukte können ebenfalls mit Hilfe der Unterscheidbarkeitsmatrix bestimmt
werden. Allerdings muss diese so angepasst werden, dass dabei auch die Entscheid-
ungsattribute berücksichtigt werden.

Definition (Unterscheidbarkeitsmatrix für D-Redukte). Sei S=U , C , D ein
Entscheidungssystem mit n Objekten. Dann ist die Unterscheidbarkeitsmatrix
  M D C  von C eine symmetrische n×n Matrix mit den Einträgen c ij , so dass
gilt:

                            c ij ={a ∈ C : f  x i ≠ f  x j ∧w  x i , x j } ,

                                                  wobei

                         w  x i , x j ≡ x i ∈POS C  D∧x j ∉ POS C  D∨
                                   x i ∉POS C  D∧ x j ∈POS C  D∨
                                  x i , x j ∈POS C  D∧ x i , x j ∉I  D

für i , j=1, 2, ... , n .

Somit stellt der Eintrag c ij die Menge von allen Attributen dar, so dass die Objekte
  x i und x j in Bezug auf die Attribute aus c ij voneinander unterschieden werden
können, wenn sie aber nicht derselben Äquivalenzklasse der Relation I  D
angehören. Aus jeder Unterscheidbarkeitsmatrix M D C  resultiert eine eindeutige
Unterscheidbarkeitsfunktion (boolesche Funktion) f D C  , die genauso definiert
wird, wie die Unterscheidbarkeitsfunktion f  B (siehe Abschnitt 3.5).

Beispiel 1

Anhand der Tabelle 2.1 erhalten wir in Bezug auf das Entscheidungsattribut – Flu –
zwei Äquivalenzklassen { p1, p2, p3, p6 } und { p4, p5 }. Nun können wir eine
Unterscheidbarkeitsmatrix aufstellen, indem Objekte nur aus unterschiedlichen
Äquivalenzklassen bezüglich der Attributmenge C = { Headache, Muscle-pain, Tempe-
rature } voneinander unterschieden werden.

                    p1              p2              p3              p4               p5    p6
     p1             -
     p2             -                -
     p3             -                -               -
     p4             T           H, M, T           H, T               -
     p5           H, M               -            M, T               -               -
     p6             -                -               -               T           H, M, T   -

            Tabelle 4.1: Unterscheidbarkeitsmatrix in Bezug auf die Attribute
                        Headache, Muscle-pain und Temperature



                                                                                                27
4 Rough Set – Theorie für Entscheidungssysteme

Die zugehörige Unterscheidbarkeitsfunktion liefert also zwei Redukte:

                   f D C =T × H M × H M T × H T 
              ×M T ×T × H M T = H M ×T =H ×T M ×T

Die Existenz von zwei Redukten ermöglicht, dass wir das Ausgangsentscheidungs-
system auf zwei vereinfachte Entscheidungssysteme reduzieren:

       Patient             Headache             Temperature             Flu
         p1                    no                   high                yes
         p2                   yes                   high                yes
         p3                   yes                very high              yes
         p4                    no                 normal                no
         p5                   yes                   high                no
         p6                    no                very high              yes

          Tabelle 4.2: Reduziertes Entscheidungssystem aus der Tabelle 2.1

       Patient            Muscle-pain           Temperature             Flu
         p1                   yes                   high                yes
         p2                    no                   high                yes
         p3                   yes                very high              yes
         p4                   yes                 normal                no
         p5                    no                   high                no
         p6                   yes                very high              yes

          Tabelle 4.3: Reduziertes Entscheidungssystem aus der Tabelle 2.1


4.5 Reduktion der Attributwerte – relative Redukte und
    relative Kerne
Im vierten Schritt der Rough-Set-Analyse für Entscheidungssysteme (siehe Abbildung
4.1 – 4) werden relative Redukte und relative Kerne in Bezug auf Attributwerte
bestimmt, um eine weitere Vereinfachung der Daten im zu analysierenden Entschei-
dungssystem zu erreichen. Genauso wie bei Informationssystemen, kommt auch bei
Entscheidungssystemen die Idee der Redukte und Kerne zur Anwendung, aber jedoch
in einer leicht modifizierten Fassung.

Definition (D-Redukt für Attributwerte). Sei C ein relatives D-Redukt, C ⇒ D
eine Abhängigkeit und x ∈U . Dann sind folgende Aussagen möglich:

     1. Der Attributwert von a ∈C heißt D-verzichtbar bezüglich x , falls

                       C  x ⊆D x impliziert C a  x⊆ D x  .

                                                                                 28
4 Rough Set – Theorie für Entscheidungssysteme


         Andernfalls ist der Attributwert von a D-unverzichtbar bezüglich x .

     2. C heißt D-unabhängig (orthogonal) bezüglich x , falls für jedes Attribut
        a ∈C der zugehörige Attributwert D-unverzichtbar bezüglich x ist.

     3. Eine Teilmenge C ' ∈C ist ein D-Redukt von C bezüglich x , falls C '
        D-unabhängig bezüglich x ist, und es gilt

                         C  x ⊆D x impliziert C '  x⊆ D x  .

Auch der D-Kern für Attributwerte wird analog zur Definition des Kerns für
Attributwerte eines Informationssystems (siehe Abschnitt 3.6) definiert.

Definition (D-Kern für Attributwerte). Sei S=U , C , D ein Entscheidungs-
system. Dann wird die Menge von allen D-unverzichtbaren Attributwerten bezüglich
  x in C durch

                                Core x C= Reduct x C 
                                     D              D


definiert, wobei Reduct x C  die Menge aller D-Redukte von C bezüglich x ist.
                        D


Um relative Redukte und deren relativen Kern bezüglich x zu bestimmen, wird die
Unterscheidbarkeitsmatrix M D C  (siehe Abschnitt 4.4) verwendet. Die Definition
der Unterscheidbarkeitsfunktion wird dabei genauso spezifiziert, wie die Unterscheid-
barkeitsfunktion f x  B für Informationssysteme.

Definition (D-Unterscheidbarkeitsfunktion). Sei S=U , C , D ein Entschei-
dungssystem und x ∈U . Dann ist die Unterscheidbarkeitsfunktion f x C      D
bezüglich x eine boolesche Funktion mit m booleschen Variablen c 1, ... , c m , die
                                                                         
den Bedingungsattributen c 1, ... , c m ∈C entsprechen, so dass gilt:

                      f x C =∏ {∑   x , y  : y ∈U ∧ x , y ≠∅} ,
                        D
                              y∈U


wobei ∑   x , y die boolesche Summe aller booleschen Variablen ist, die der
Menge  x , y zugeordnet sind.

Beispiel 1

Anhand der Tabelle 4.2 stellen wir nun ausgehend von den Äquvalenzklassen { p1, p2,
p3, p6 } und { p4, p5 } eine Unterscheidbarkeitsmatrix auf, um relative Redukte für
Attributwerte in Bezug auf die Attributmenge C = { Headache, Temperature } zu
bestimmen.

                 p1            p2           p3           p4            p5     p6
    p1           –             –            –            T             H       –
    p2           –             –            –           H, T           –       –

                                                                                   29
4 Rough Set – Theorie für Entscheidungssysteme

    p3           –           –            –          H, T         T             –
    p4           T          H, T         H, T         –           –             T
    p5           H           –            T           –           –            H, T
    p6           –           –            –           T          H, T           –

          Tabelle 4.4: Unterscheidbarkeitsmatrix in Bezug auf die Attribute
                            Headache und Temperature

Für jede einzelne Spalte der obigen Unterscheidbarkeitsmatrix bestimmen wir die
jeweilige Unterscheidbarkeitsfunktion.

                     f 1 C =T ×H
                       D

                     f 2 C =H T
                       D

                     f 3 C = H T ×T =T
                       D

                     f 4 C =T × H T × H T ×T =T
                       D

                     f 5 C =H ×T × H T =H ×T
                       D

                     f 6 C =T × H T =T
                       D


Das vereinfachte Entscheidungssystem kann nun wie folgt dargestellt werden.

       Patient             Headache             Temperature              Flu
         p1                   no                   high                  yes
         p2                   yes                  high                  yes
         p3                      –               very high               yes
         p4                      –                normal                  no
         p5                   yes                  high                   no
         p6                      –               very high               yes

         Tabelle 4.5: Vereinfachtes Entscheidungssystem aus der Tabelle 4.2

Beispiel 2

Analog zum obigen Beispiel können wir das Entscheidungssystem aus der Tabelle 4.3
vereinfachen und erhalten somit die zweite vereinfachte Darstellung für das Entschei-
dungssystem aus der Tabelle 2.1.

       Patient           Muscle-pain            Temperature              Flu
         p1                   yes                  high                  yes
         p2                   no                   high                  yes
         p3                      –               very high               yes
         p4                      –                normal                  no

                                                                                      30
4 Rough Set – Theorie für Entscheidungssysteme

         p5                    no                   high                  no
         p6                    –                 very high                yes

         Tabelle 4.6: Vereinfachtes Entscheidungssystem aus der Tabelle 4.3


4.6 Entscheidungsregeln
Sobald die relativen Redukte in Bezug auf das Entscheidungsattribut – Flu – anhand
der Beispieldaten aus der Tabelle 2.1 bestimmt wurden, können wir aus den daraus
resultierenden Daten (siehe Tabelle 4.5 und 4.6) Entscheidungsregeln ablesen (siehe
Abbildung 4.1 – 5). Die Tabelle 4.5 lässt sich in Form von Entscheidungsregeln
folgendermaßen beschreiben.

                  if (Headache, no) and (Temperature, high) then (Flu, yes)
                  if (Headache, yes) and (Temperature, high) then (Flu, yes)
                  if (Temperature, very high) then (Flu, yes)
                  if (Temperature, normal) then (Flu, no)
                  if (Headache, yes) and (Temperature, high) then (Flu, no)
                  if (Temperature, very high) then (Flu, yes)

Die Tabelle 4.6 kann mit Hilfe von Entscheidungsregeln wie folgt dargestellt werden.

                  if (Muscle-pain, yes) and (Temperature, high) then (Flu, yes)
                  if (Muscle-pain, no) and (Temperature, high) then (Flu, yes)
                  if (Temperature, very high) then (Flu, yes)
                  if (Temperature, normal) then (Flu, no)
                  if (Muscle-pain, no) and (Temperature, high) then (Flu, no)
                  if (Temperature, very high) then (Flu, yes)

Nun gilt es zu klären, wie die hergeleiteten Entscheidungsregeln angewendet werden
können, um die Klassifizierung neuer Objekte zu unterstützen. Es gibt hauptsächlich 4
Möglichkeiten, wie das Abgleichen eines neuen Objekts mit bereits vorhandenen
Entscheidungsregeln ablaufen kann.

       (a) das neue Objekt entspricht genau einer deterministischen Entscheidungs-
           regel

       (b) das neue Objekt entspricht genau einer nicht-deterministischen Entscheid-
           ungsregel

       (c) das neue Objekt entspricht keiner geeigneten Entscheidungsregel

       (d) das neue Objekt entspricht mehreren Entscheidungsregeln


Der Fall – a – sieht keine weiteren Schritte vor, da die Zuordnung des neuen Objekts


                                                                                       31
4 Rough Set – Theorie für Entscheidungssysteme

zu einer deterministischen Entscheidungsregel eindeutig ist. Im Fall – b – liegt keine
eindeutige Entscheidungsregel vor. Deshalb wird der sogennante Decision Maker
eingesetzt, d.h. ihm werden Informationen über die Anzahl der Beispiele (strength)
mitgeteilt, welche die jeweilige Entscheidungsregel verstärken sollen. Falls der
Koeffizient (Anzahl der Beispiele) einer Klasse größer ist als der Koeffizient anderer
Klassen, die ebenfalls von derselben nicht-deterministischen Entscheidungsregel
umfasst werden, wird der Decision Maker für das betrachtete Objekt die
Entscheidungsregel mit dem größten Koeffizienten auswählen. Im Fall – d – werden
dem Decision Maker alle passenden Entscheidungsregeln mitgeteilt. Falls diese
Entscheidungsregeln dieselbe Entscheidung beinhalten, dann liegt keine
Mehrdeutigkeit vor. Andernfalls wird der Koeffizient jeder einzelnen Regel bestimmt,
so dass der Decision Maker genauso wie im Fall – b – vorgehen kann. Der Fall – c – ist
der komplizierteste Fall. In diesem Fall müssen dem Decision Maker eine Menge von
Entscheidungsregeln mitgeteilt werden, die am besten zur Beschreibung des neuen
Objekts passen. Dafür wird ein Distanzmaß eingeführt, damit der Decision Maker mehr
Informationen über Objekte in unmittelbarer Nähe des zu klassifizierenden Objekts
gewinnen kann. Anhand von diesen Informationen kann dann das neue Objekt
entweder als Sonderfall der existierenden Klassen oder als Element einer neuen Klasse
betrachtet werden.




                                                                                   32
5 Fazit


5 Fazit
In dieser Arbeit haben wir die Rough-Set-Theorie als eine nicht statistische Methode
zur Analyse von Daten kennengelernt, die ermöglicht, Objekte in Bezug auf ihre
Attributwerte zu charakterisieren, vollständige und unvollständige Abhängigkeiten
zwischen Attributen zu finden, überflüssige Attribute zu eliminieren, Kernattribute zu
bestimmen und Entscheidungsregeln zu erstellen. Diese Ansätze, die die Rough-Set-
Theorie mit sich bringt, können in verschiedenen Bereichen der künstlichen Intelligenz
eingesetzt werden, da der Hauptvorteil der Rough-Set-Theorie darin besteht, dass
Anwendungen, die diese Ansätze implementieren, parallel auf mehreren Rechnern
laufen können, was die Laufzeit zur Bestimmung von Entscheidungsregeln deutlich
verkürzen kann. Der aktuelle Stand der Forschung im Bereich der Rough-Set-Theorie
äußert sich darin, dass neue Konzepte entwickelt werden, wie die Rough-Set-Theorie
mit anderen Methoden wie Fuzzy-Logik [Lia01], Neuronalen Netzen [Cmm03] und
Expertensystemen [Sha09] kombiniert werden kann.
Zusammenfassend lässt sich sagen, dass die Rough-Set-Theorie eine erfolgreiche
Methode zur Analyse von Daten darstellt, die bereits in solchen Bereichen wie Medizin,
Finanzwesen, Sicherheit der Energiesysteme, Spracherkennung und Bildverarbeitung
zur Anwendung kommt.




                                                                                   33
Literatur


Literatur

Cmm03 Chun-Yan, Yu; Ming-hui, Wu; Ming, Wu: Combining Rough Set Theory
      with Neural Network Theory for Pattern Recognition. Proceedings of the
      2003 IEEE - International Conference on Robotics, Intelligent Systems
      and Signal Processing, 2003

  Kps     Komorowski, Jan; Polkowski, Lech; Skowron, Andrzej: Rough Sets: A
          Tutorial.
          http://secs.ceas.uc.edu/~mazlack/dbm.w2011/Komorowski.RoughSets.tu
          tor.pdf (Stand 5.11.2012)

 Lia01    Li, Yu-Rong; Jiang, Jing-Ping: The integrated methodology of rough sets
          theory, fuzzy logic and genetic algorithms for multisensor fusion.
          Proceedings of the American Control Conference, 2001

 Lud07    Luderer, Bernd: Die Kunst des Modellierens –            Mathematisch-
          ökonomische Modelle. Vieweg+Teubner Verlag, 2007

 Orw00    Ohrn, Aleksander; Rowland, Todd: Rough Sets: A Knowledge Discovery
          Technique for Multifactorial Mediacal Outcomes. Am. J. Phys. Med.
          Rehabil. 79, 2000

  Paw     Pawlak, Zdzislaw: Rough Set Elements (1).
          http://chc60.fgcu.edu/images/articles/RoughSetElements1.pdf
          (Stand 3.11.2012)

 Ril09    Rissino, Silvia; Lambert-Torres, Germano: Rough Set Theory –
          Fundamental Concepts, Principals, Data Extraction, and Applications.
          Data Mining and Knowledge Discovery in Real Life Applications, I-Tech,
          2009

 Sha09    Shao, Xin-Yu; Chu, Xue-Zheng; Qiu, Hao-Bo; Gao, Liang; Yan, Jun: An
          expert system using rough sets theory for aided conceptual design of
          ships's engine room automation. Expert Systems with Application 36,
          2009
Wam99 Walczak, B.; Massart, D.L.: Tutorial – Rough sets theory. Chemometrics
      and Intelligent Laboratory Systems, 1999




                                                                               34

Contenu connexe

En vedette

Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 

En vedette (20)

Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 

Rough Set Theory (Grobe Logik)

  • 1. Seminar Nichtklassische Logiken Grobe Logik Eugen Petrosean WS 2012/2013 Betreuer: Roland Glück Augsburg, den 17. Januar 2013
  • 2. Erklärung Hiermit versichere ich die vorliegende Seminararbeit selbstständig und ohne fremde Hilfe verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel verwendet zu haben. Augsburg, den 17. Januar 2013 Eugen Petrosean
  • 3. 1 Einleitung Inhaltsverzeichnis 1 Einleitung........................................................................................4 2 Grundlegendes................................................................................5 2.1 Überblick über die grundlegenden Mengentheorien ........................................5 2.2 Allgemeiner Ablauf zur Erstellung eines regelbasierten Modells......................6 2.3 Beispiel – Medizinische Daten...........................................................................7 3 Rough Set – Theorie für Informationssysteme ............................10 3.1 Allgemeiner Ablauf der Analyse für Informationssysteme..............................10 3.2 Informationssystem..........................................................................................11 3.3 Ununterscheidbarkeitsrelation.........................................................................11 3.4 Untere und obere Annäherung.........................................................................13 3.5 Reduktion der Attribute – Redukte und Kerne................................................15 3.6 Reduktion der Attributwerte – Redukte und Kerne........................................18 3.7 Klassifikation der Objekte – Qualität und Genauigkeit ..................................20 4 Rough Set – Theorie für Entscheidungssysteme...........................23 4.1 Allgemeiner Ablauf der Analyse für Entscheidungssysteme ...........................23 4.2 Entscheidungssystem.......................................................................................23 4.3 Abhängigkeiten zwischen Bedingungs- und Entscheidungsattributen...........24 4.4 Reduktion der Attribute – relative Redukte und relative Kerne.....................26 4.5 Reduktion der Attributwerte – relative Redukte und relative Kerne..............28 4.6 Entscheidungsregeln........................................................................................31 5 Fazit..............................................................................................33 Literatur..........................................................................................34 3
  • 4. 1 Einleitung 1 Einleitung Im Hinblick auf die Diagnostizierung von Krankheiten sind die Abdominalschmerzen eines Kindes ein überliche, aber gleichzeitig eine schwierige Aufgabe. Es gibt viele mögliche Ursachen für diese Schmerzen, die in den meisten Fällen nicht ernsthaft sind. Allerdings können diese Schmerzen auch ein Indikator dafür sein, dass ein Patient eine ernsthafte Krankheit hat, die eine sofortige Behandlung erfordert. Erfahrene Ärzte würden eine Vielfalt von relevanten historischen Informationen und ärztlichen Beo- bachtungen heranziehen, um Kinder zu untersuchen. Diese Informationen bzw. Mekmale kommen in wieder erkennbaren Zusammenhängen vor, so dass eine schnelle und effektive Diagnostizierung möglich ist. Unerfahrene Ärzte dagegen können sich schwer tun, diese Zusammenhänge zu erkennen, da ihnen das erforderliche Wissen und die entsprechende Erfahrung fehlt. Die Rough-Set-Theorie 1 [Paw, Wam99, Orw00, Ril09] kommt also in diesem Bereich der Medizin zum Einsatz, um zu helfen, Zusammenhänge aus historischen Informationen in Form von Entscheidungsregeln zu gewinnen und dabei solche unerfahrenen Ärzte zu unterstützen. In dieser Arbeit werden wir ganz genau auf die grundlegenden Ansätze der Rough-Set- Theorie eingehen und erklären, wie man anhand von ungenauen und unvollständigen Daten bzw. Informationen neue Zusammenhänge erkennen und sie in Form von Entscheidungsregeln beschreiben kann. 1 Zu Deutsch - Grobmengentheorie 4
  • 5. 2 Grundlegendes 2 Grundlegendes 2.1 Überblick über die grundlegenden Mengentheorien In diesem Abschnitt werden wir die grundlegenden Unterschiede (siehe Abbildung 2.1) zwischen den existierenden Mengentheorien beschreiben und darauf eingehen, wie die Rough-Set-Theorie im Vergleich zur klassischen Mengentheorie und der Fuzzy-Set- Theorie mit ungenauen Konzepten umgeht. Abbildung 2.1: Schematische Gegenüberstellung von grundlegenden Mengentheorien (Quelle: eigene Darstellung) In der klassischen Mengentheorie wird eine Menge eindeutig durch ihre Elemente definiert, d.h. jedes Element wird so klassifiziert, dass es entweder einer bestimmten Menge angehört oder nicht (also in ihrem Komplement enthalten ist). Beispielsweise ist die Menge der geraden ganzen Zahlen scharf, da jede ganze Zahl entweder gerade oder ungerade sein kann. Dagegen der Versuch beispielsweise verschiedene Gemälde als schön oder nicht schön zu klassifizieren, nicht möglich ist, da der Begriff – schön – kein exaktes Konzept darstellt, um somit alle Gemälde, die wir kennen, eindeutig in zwei Klassen – schön und nicht schön – einteilen zu können. Somit wird der Begriff – Ungenauigkeit (vagueness) – mit dem Ansatz in Verbindung gebracht, dass es Objekte gibt, die nicht eindeutig einer Menge oder ihrem Komplement zugeordnet werden können. Die Fuzzy-Set-Theorie stellt einen solchen Ansatz dar, wie Ungenauigkeiten modelliert werden können. Der Grad an Zugehörigkeit zu einer Menge wird dabei durch eine Zugehörigkeitsfunktion beschrieben, die den Elementen einer Grundmenge eine reelle Zahl k 0k1 zuordnet. Beispielsweise können wir mittels der klassischen Men- gentheorie festhalten, dass jemand definitiv krank oder gesund ist, während mit Hilfe der Fuzzy-Set-Theorie eine Aussage möglich ist, dass jemand zu 60 Prozent krank oder gesund ist. In der Rough-Set-Theorie wird der Begriff – Ungenauigkeit – nicht durch eine Zugehörigkeitsfunktion definiert, wie dies beispielsweise in der Fuzzy-Set-Theorie der Fall ist, sondern, indem der Begriff einer Randmenge bzw. einer Grenzregion eingeführt wird. Ist die Grenzregion einer Menge leer, dann ist die Menge scharf (crisp), andernfalls ist die Menge grob bzw. ungenau (rough). Wenn die Grenzregion 5
  • 6. 2 Grundlegendes einer Menge nicht leer ist, dann können wir daraus schließen, dass das Wissen in Form von Beispieldaten, die uns zur Verfügung stehen, nicht ausreichen, um diese Menge exakt zu definieren (siehe Beispiel aus dem Abschnitt 2.3). Der Hauptvorteil der Rough-Set-Theorie besteht darin, dass keine vorläufigen bzw. zusätzlichen Informationen über die zu analysierenden Daten benötigt werden – wie beispielsweise in der Fuzzy-Set-Theorie in Bezug auf den Grad an Zugehörigkeit eines Elements zu einer Menge. Die Rough-Set-Theorie umfasst somit folgende Aspekte: – Einführung von effizienten Algorithmen zur Erkennung von versteckten Zusammenhängen in den zu analysierenden Daten – Bestimmung von minimalen Mengen von Daten (Reduktion der Daten) – Auswertung der Daten im Hinblick auf ihre Wichtigkeit – Bestimmung von Entscheidungsregeln – Einfache Interpretation von erzielten Ergebnissen 2.2 Allgemeiner Ablauf zur Erstellung eines regelbasierten Modells Die regelbasierte Modellierung [Orw00] ist ein Modellierungsansatz, bei dem eine Menge von Regeln verwendet wird, um das zugrundeliegende Modell als aussagen- logische Implikationen zu beschreiben. Die regelbasierte Modellierung kommt vor allem in denjenigen Fällen zur Anwendung, in denen die Regelmenge deutlich einfacher ist als das durch die Regelmenge zu beschreibende Modell. Damit ein Modell mit Hilfe von Regeln ausgedrückt werden kann, ist eine Reihe von Schritten (siehe Abbildung 2.2) erforderlich, die im Folgenden erläutert werden. Die Rough-Set-Theorie stellt im Ablauf zur Erstellung eines regelbasierten Modells dagegen nur einen möglichen Ansatz dar, wie Regeln generiert werden können. Abbildung 2.2: Erstellung eines regelbasierten Modells (Quelle: eigene Darstellung) 6
  • 7. 2 Grundlegendes Schritt 1 – Diskretisierung der Daten In diesem Schritt werden nicht kategoriale Daten (Attribute) in kategoriale überführt. Da der Ansatz der Rough-Set-Theorie auf dem Prinzip der Ununterscheidbarkeit von Objekten beruht (siehe Kapitel 3), ist keine Einführung des Begriffs – Distanzmaß – zwischen einzelnen Attributwerten erforderlich, wie man diesen Begriff in vielen anderen Ansätzen des maschinellen Lernens findet. Deshalb müssen nicht kategoriale Attribute in einer Vorverarbeitungsphase der Daten diskretisiert werden. Dieser Schritt legt somit fest, wie grob einzelne Attribute (bzw. Attributwerte) betrachtet werden sollen. Für numerische Attribute bedeutet dies, dass Intervallgrenzen bestimmt werden müssen, um einzelne Attribute auf die entsprechenden Intervalle abzubilden. Beispielsweise können alle Patienten zwischen 45 und 60 Jahren je nach Situation und Bedarf als Patienten gesehen werden, die derselben Altersgruppe angehören. Schritt 2 – Herleitung der Regeln In diesem Schritt werden aussagenlogische Implikationen (If- Then-Regeln) anhand von im Schritt 1 diskretisierten Daten bestimmt. Das Verfahren zur Bestimmung von Entscheidungs- regeln mittels der Rough-Set-Theorie wird im Kapitel 3 und 4 genauer erklärt. Schritt 3 – Anwendung der hergeleiteten Regeln In diesem Schritt werden die anhand von Beispieldaten hergeleite- ten Regeln angewendet, um herauszufinden, ob sich dadurch neue Zusammenhänge zwischen einzelnen Attributen erkennen lassen, die für die weitere Datenanalyse relevant sind. Um die Qualität der Regeln einschätzen zu können, können sie auf neue Daten angewendet werden, um festzustellen, wie gut beispielsweise Untersuchungsergebnisse der neuen Patienten vorhergesagt werden. Schritt 4 – Auswertung des Modells Im letzten Schritt erfolgt eine objektive Quantifizierung der Regeln. Zwar sind sie normalerweise einfach zu interpretieren, können jedoch ein Problem im Hinblick auf ihre Wichtigkeit darstellen, d.h. wie sinnvoll und relevant sie für zu analysierende Datenbestände sind. 2.3 Beispiel – Medizinische Daten Im Abschnitt 2.2 haben wir gesehen, welche Schritte erforderlich sind, um ein 7
  • 8. 2 Grundlegendes regelbasiertes Modell anhand von zur Verfügung stehenden Beispieldaten zu erstellen. In diesem Abschnitt werden wir auf ein konkretes Beispiel (siehe Tabelle 2.1) eingehen, das auf medizinischen Daten beruht und erklären, welche Probleme bei der Analyse dieser Daten auftreten können. Normalerweise werden erfasste Daten als Tabellen mit Spalten dargestellt. Jeder Spalte entspricht ein Attribut, jeder Zeile ein Objekt und jedem Tabelleneintrag ein bestimm- ter Attributwert. Der Tabelle 2.1 können wir entnehmen, dass die dargestellten Spaltennamen Symptome beschreiben, die bei einem Patienten auftreten können. Die Zeilen dagegen repräsentieren einzelne Patienten und können als konkrete Informationen über diese Personen in Bezug auf ihre Symptome aufgefasst werden. Patient Headache Muscle-pain Temperature Flu p1 no yes high yes p2 yes no high yes p3 yes yes very high yes p4 no yes normal no p5 yes no high no p6 no yes very high yes Tabelle 2.1: Beispielhaftes Informationssystem Beispielsweise wird der Patient p2 (siehe Tabelle 2.1) als Menge von (Attribut, Attributwert) – Paaren wie folgt beschrieben: (Headache, yes), (Muscle-pain, no), (Temperature, high), (Flu, yes) Der Tabelle 2.1 können wir außerdem entnehmen, dass die Patienten p2, p3 und p5 in Bezug auf das Attribut – Headache – nicht unterscheidbar sind. Die Patienten p3 und p6 sind in Bezug auf die Attribute – Muscle-pain und Flu – nicht unterscheidbar und die Patienten p2 und p5 sind in Bezug auf die Attribute – Headache, Muscle-pain und Temperature – nicht unterscheidbar. Während das Attribut – Headache – zwei elementare Mengen { p2, p3, p5 } und { p1, p4, p6 } erzeugt, bilden die Attribute – Headache, Muscle-pain – drei elementare Mengen { p1, p4, p6 }, { p2, p5 } und { p3 }. Die Patienten p2 und p5 sind zwar ununterscheidbar in Bezug auf die Attribute – Headache, Muscle-pain und Temperature, weisen jedoch gegensätzliche Diagnosen auf, d.h. der Patient p2 hat die Grippe während beim Patienten p5 keine Grippe diagnostiziert wurde. Folglich kann bei diesen zwei Patienten die Diagnostizierung der Grippe nicht unter Berücksichtigung von den drei Attributen (Symptomen) erfolgen. Deshalb stellen die Patienten p2 und p5 zwei Grenzfälle dar, die nicht genau mit Hilfe des zur Verfügung stehenden Wissens klassifiziert werden können. Die restlichen Patienten p1, p3 und p6 weisen nur solche Symptome auf, die ermöglichen, mit Sicherheit davon auszugehen, dass diese Symptome als Folge einer Grippeinfektion aufgetreten sind. Bei den Patienten p2 und p5 kann es nicht ausgeschlossen werden, dass sie keine Grippe haben und der Patient p4 kann als gesund in Bezug auf die festgehaltenen Symptome gesehen werden. Somit ist die untere Annäherung an die Menge von Patienten, die krank sind, { p1, p3, p6 } und die obere Annäherung { p1, p2, p3, p5, p6 }, wobei die Patienten p2 und p5 zwei Grenzfälle darstellen. Dieselbe Vorgehensweise gilt auch für die Patienten, die 8
  • 9. 2 Grundlegendes keine Grippeerkrankung haben. Der Patient p4 hat also keine Grippe und bei den Patienten p2 und p5 kann es nicht ausgeschlossen werden, dass sie nicht krank sind. Deshalb ist die untere Annäherung die Menge { p4 }, während die obere Annäherung durch die Menge { p2, p4, p5 } beschrieben wird. Die Grenzfälle, dass die Patienten keine Grippeerkrankung haben, sind dieselben wie im vorherigen Fall, also { p2, p5 }. 9
  • 10. 3 Rough Set – Theorie für Informationssysteme 3 Rough Set – Theorie für Informationssysteme In diesem Abschnitt werden wir die grundlegenden Konzepte der Rough-Set-Theorie [Paw, Wam99] in Bezug auf Datenanalyse vorstellen. Im Gegensatz zur klassischen Mengentheorie, wird in der Grobmengentheorie davon ausgegangen, dass während der Datenanalyse mittels der Rough-Set-Konzepte einige zusätzliche Informationen – Wissen – über Elemente (Objekte) eines Diskursuniversums vorhanden sind. Elemente, die dieselben Besonderheiten aufweisen, werden als nicht unterscheidbar betrachtet und bilden Äquivalenzklassen (Konzepte), die als elementare Granulate des zur Verfügung stehenden Wissens über das gegebene Universum verstanden werden können. Beispielsweise können Patienten, die an einer bestimmten Krankheit leiden und dieselben Symptome aufweisen, als ununterscheidbare Objekte interpretiert werden, da sie somit einen in sich abgeschlossenen Teil des medizinischen Wissens darstellen (siehe Beispiel aus dem Abschnitt 2.3). 3.1 Allgemeiner Ablauf der Analyse für Informationssysteme Da das Ziel der Rough-Set-Theorie darin besteht, anhand von zur Verfügung stehenden Beispieldaten eine entsprechende Klassifizierung zu erhalten, um später neu entstehende Daten in Form von Objekten, die bisher unbekannt waren, richtig klassifizieren zu können, wird in Abbildung 3.1 der Zusammenhang zwischen den einzelnen Schritten zur Durchführung der Rough-Set-Analyse für Informationssysteme genauer dargestellt. Abbildung 3.1: Ablauf der Analyse für Informationssysteme (Quelle: eigene 10
  • 11. 3 Rough Set – Theorie für Informationssysteme Darstellung) Die eingekreisten Nummern in Abbildung 3.1 entsprechen den einzelnen Schritten der Rough-Set-Analyse für Informationssysteme, die in den nachfolgenden Abschnitten näher erläutert werden. 3.2 Informationssystem Im ersten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung 3.1 – 1) müssen alle relevanten Informationen in Bezug auf den modellierten Kontext identifiziert werden. Da die Rough-Set-Theorie eine formale Grundlage sowohl für die Klassifikation von ungenauen Daten als auch für die Bestimmung von Entscheidungs- regeln anhand von diesen Daten ist, die normalerweise als Beispieldaten vorliegen, stellt die Rough-Set-Theorie ein Konzept für die Organisation von Beispieldaten in Tabellenform dar, d.h. die Beispieldaten liegen in einer zweidimensionalen Tabelle vor, die bei der Anwendung der Rough-Set-Theorie eingesetzt wird. Eine solche Tabelle wird als Informationssystem bezeichnet und kann mathematisch wie folgt ausgedrückt werden. Definition (Informationssystem). Ein Informationssystem IS =U , A wird durch eine Menge U ={x 1, x 2, ... , x n } von Objekten (mit 1n∞ ), die als Universum bezeichnet wird, und durch eine Menge A={a1, a 2, ... , a m} von Attributen (mit 1m∞ ) definiert. Für jedes a ∈A wird zusätzlich eine Funktion f a :U V a spezifiziert, wobei V a die Wertemenge von a darstellt. Die Zeilen dieser Tabelle repräsentieren Objekte, über die in den Spalten dieser Tabelle verschiedene Informationen in Form von Attributen abgelegt sind. Die Tabellen- einträge entsprechen damit den Ausprägungen der Attribute in Bezug auf die betrach- teten Objekte. Beispiel 1 Betrachten wir das Beispiel aus dem Abschnitt 2.3. Dann lässt sich das zugrunde liegende Informationssystem mathematisch wie folgt auffassen: U = { p1 , p2 , p3 , p4 , p5 , p6 } A = {Headache , Muscle pain ,Temperature } V Headache = {yes , no} V Muscle pain = { yes , no} V Temperature = {normal , high , very high} 3.3 Ununterscheidbarkeitsrelation Im zweiten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung 3.1 – 2) wird das Wissen in Form von Beispieldaten, die uns am Anfang der Datenanalyse zur Verfügung stehen, in Konzepte (elementare Mengen) zusammengefasst, so dass Objekte eines solchen Konzepts durch einen gemeinsamen 11
  • 12. 3 Rough Set – Theorie für Informationssysteme Grundgedanken verbunden sind. Mathematisch lässt sich dieser Begriff wie folgt beschreiben. Definition (Ununterscheidbarkeitsrelation). Sei IS =U , A ein Informations- system. Dann wird eine Ununterscheidbarkeitsrelation I  B für eine Teilmenge B⊆A durch die Äquivalenzrelation 2 I  B={ x i , x j ∈U ∣ ∀ a ∈ B f a  x i  = f a  x j } definiert. Die Familie von allen Äquivalenzklassen von I  B wird durch U / I  B  bzw. U / B ausgedrückt. Eine Äquivalenzklasse von I  B , in der x enthalten ist, wird als B  x bezeichnet. Wenn also  x i , x j  ∈ I  B , dann sind die Objekte x i und x j ununterscheidbar (indiscernible) von jedem Attribut aus B , d.h. zwar werden die Elemente in U als unterscheidbar erklärt, unterscheiden sich aber nicht bezüglich der Attributmenge B . Äquivalenzklassen von I  B werden auch als elementare Mengen bezeichnet. Beispiel 1 Betrachten wir das Beispiel aus dem Abschnitt 2.3. Dann erhalten wir für die Attribut- menge B = { Headache, Muscle-pain, Temperature } die folgenden Äquivalenzklassen. U/A Headache Muscle-pain Temperature { p1 } no yes high { p2, p5 } yes no high { p3 } yes yes very high { p4 } no yes normal { p6 } no yes very high Tabelle 3.1: Äquivalenzklassen in Bezug auf die Attribute Headache, Muscle-pain und Temperature Beispiel 2 Anhand der Tabelle 2.1 erhalten wir für die Attributmenge B = { Headache, Muscle- pain } die Äquivalenzklassen: U/B Headache Muscle-pain { p1, p4, p6 } no yes { p2, p5 } yes no { p3 } yes yes Tabelle 3.2: Äquivalenzklassen in Bezug auf die Attribute Headache und Muscle-pain 12
  • 13. 3 Rough Set – Theorie für Informationssysteme 3.4 Untere und obere Annäherung Im dritten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung 3.1 – 3) wird ein weiterer wichtiger Ansatz vorgestellt, der im Gegensatz zur graduellen Zuordnung von Elementen zu unscharfen Mengen auf der Idee der Approximation einer groben Menge durch zwei scharfe Mengen beruht. Die Ununterscheidbarkeits- relation induziert eine Partitionierung des Universums, so dass dadurch entstandene Partitionen genutzt werden können, um neue Untermengen des Universums zu bilden. Da das Ziel der unteren und oberen Annäherung darin besteht, dass eine solche Untermenge X durch die Ausprägungen der in B⊆A enthaltenen Attribute zu beschreiben, nähert man sich somit der Menge X durch die untere und obere Approximation an. Die untere Annäherung B∗ X  ist die maximale Vereinigungsmenge der elemen- taren Mengen, die vollständig in der Menge X enthalten sind. Mathematisch kann die Definition der unteren Annäherung folgendermaßen beschrieben werden. Definition (Untere Annäherung). Sei IS =U , A ein Informationssystem, B⊆A eine Teilmenge von Attributen und X ⊆U eine Teilmenge von Objekten. Dann kann X durch B∗ X ={xi ∈U ∣ B x i⊆ X } von unten angenähert werden. Die obere Annäherung B∗ X  resultiert aus der Vereinigungsmenge all jener elementaren Mengen, deren Schnitt mit der Menge X mindestens ein Element enthält. Die obere Annäherung ist somit die minimale Vereinigungsmenge von elementaren Mengen, die die Menge X enthält. Die nachfolgende Definition verdeutlicht diesen Sachverhalt. Definition (Obere Annäherung). Sei IS =U , A ein Informationssystem, B⊆A eine Teilmenge von Attributen und X ⊆U eine Teilmenge von Objekten. Dann kann X durch ∗ B  X ={xi ∈U ∣ B x i∩ X ≠0 } von oben angenähert werden. Die Menge X wird als scharf bezeichnet, wenn die untere Annäherung B∗ X  gleich der oberen Annäherung B∗ X  ist. Gilt dagegen B∗ X ≠ B∗ X  , so wird die Menge X als grob bezeichnet. Die untere Annäherung ist somit die maximale scharfe Menge, die in der Menge X enthalten ist. Die obere Annäherung stellt dagegen die minimale scharfe Menge dar, die die Menge X enthält. Auf diese Art und Weise ermöglichen B∗ X  und B∗ X  eine Annäherung grober Mengen durch scharfe Mengen vorzunehmen. Definition (Grenzregion). Sei IS =U , A ein Informationssystem, B⊆A eine Teilmenge von Attributen und X ⊆U eine Teilmenge von Objekten. Dann wird die Menge 13
  • 14. 3 Rough Set – Theorie für Informationssysteme BN B  X =B∗ X − B∗ X  als Grenzregion von X bezeichnet. Die Abbildung 3.2 verdeutlicht noch einmal diesen Zusammenhang. Dabei werden drei Regionen einer groben Menge unterschieden. POS  B=B∗ (Sicher ja) NEG  B=U −B∗ (Sicher nein) BR B=B∗−B∗ (Ja oder nein) Die positive Region POS  B enthält also alle Objekte aus U , die – basierend auf dem sich aus der Attributmenge B ergebenden Wissen – mit Sicherheit der Menge X zugewiesen werden können. Abbildung 3.2: Schematische Darstellung der Annäherungen und deren Regionen [Ril09] Die negative Region NEG  B enthält dagegen alle Objekte aus U , die sich mit Sicherheit der Menge X nicht zuordnen lassen. Die Grenzregion BR B ist eine Teilmenge der oberen Annäherung, die alle Objekte aus U enthält, die sich möglicherweise der Menge X zuordnen lassen. Die in der unteren Annäherung enthaltenen Objekte führen somit zu sicheren Regeln, jene der oberen Annäherung zu möglichen Regeln (siehe Abschnitt 2.3, Abschnitt 4.2 und Abschnitt 4.3). Beispiel 1 Betrachten wir das Beispiel aus dem Abschnitt 2.3. Dann erhalten wir anhand der Tabelle 3.1 für die Menge X = { p1, p2, p4 } und die Attributmenge B = { Headache, Muscle-pain, Temperature } die folgenden Annäherungen. B∗ X  = { p1 , p4} 14
  • 15. 3 Rough Set – Theorie für Informationssysteme B∗ X ={ p1 , p2 , p5 , p4 } BN B  X  = { p1 , p2 , p5 , p4} − { p1 , p4} = { p2 , p5 } Beispiel 2 Anhand der Tabelle 3.2 erhalten wir für die Menge X = { p1, p3, p4 } und die Attribut- menge B = { Headache, Muscle-pain } die folgenden Annäherungen. B∗ X  = { p3} B∗ X  = { p1 , p4 , p6 , p3} BN B  X  = { p1 , p4 , p6 , p3} − { p3} = { p1 , p4 , p6 } 3.5 Reduktion der Attribute – Redukte und Kerne Im vierten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung 3.1 – 4) wird die Möglichkeit untersucht, ob bei geringerer Attributzahl identisches Wissen modelliert werden kann. Damit das zu betrachtende Informationssystem vereinfacht werden kann, müssen redundante Attribute des vorliegenden Informa- tionssystems eliminiert werden. Mathematisch lässt sich dieser Sachverhalt wie folgt beschreiben. Definition (Redukt). Sei B⊆A und a ∈B . Dann sind folgende Aussagen möglich: 1. a heißt verzichtbar bezüglich der Attributmenge B , falls I  B=I  B−{a } gilt. Andernfalls heißt a unverzichtbar bezüglich B . 2. B heißt unabhängig, falls alle Attribute von B unverzichtbar sind. 3. Eine Teilmenge B '⊆B ist ein Redukt von B , falls B ' unabhängig ist, und es gilt I  B ' =I  B . Ein Redukt ist somit eine Menge von Attributen, die die jeweilige Partition des Universums aufrechterhält, denn ein Redukt umfasst eine minimale Teilmenge von Attributen, die – wie die entsprechende Gesamtmenge von Attributen – dieselbe Klassifikation von Elementen ermöglicht. Deshalb sind solche Attribute, die keinem Redukt angehören, überflüssig bezüglich der Klassifikation von Elementen des entsprechenden Universums. Definition (Kern). Sei IS =U , A ein Informationssystem und B⊆A eine Teilmenge von Attributen. Dann wird der Kern von B durch Core  B=  Reduct  B definiert, wobei Reduct  B die Menge aller Redukte von B ist. Da der Kern als Schnittmenge aller Redukte definiert ist, kommt er also in jedem Redukt vor, d.h. der Kern stellt somit die wichtigste Teilmenge von Attributen dar, so 15
  • 16. 3 Rough Set – Theorie für Informationssysteme dass sich mit der Eliminierung eines im Kern enthaltenen Attributs die Klassifikation bezüglich der restlichen Attributmenge ändert und einen Informationsverlust bewirkt. Durch die Eliminierung überflüssiger Attribute wird dagegen das Informationssystem vereinfacht und die weitere Bearbeitung und Handhabung der Daten erleichtert. Um Redukte und den zugehörigen Kern schneller und einfacher berechnen zu können, wird im Folgenden der Begriff der Unterscheidbarkeitsmatrix eingeführt. Definition (Unterscheidbarkeitsmatrix). Sei IS =U , A ein Informationssystem mit n Objekten. Dann ist die Unterscheidbarkeitsmatrix M  B von B⊆A eine symmetrische n×n Matrix mit den Einträgen c ij , so dass gilt: c ij ={a∈ A∣ f a  x i ≠ f a  x j } für i , j=1, ... , n . Somit lässt sich der Eintrag c ij als Menge der Attribute interpretieren, in denen sich das Objekt x i vom Objekt x j unterscheidet. Die Unterscheidbarkeitsmatrix M  B ordnet also jedem Paar von Objekten x und y eine Teilmenge von Attributen  x , y ⊆B zu, so dass folgende Eigenschaften gelten:  x , x = ∅  x , y  =   y , x   x , z  ⊆  x , y  ∪   y , z  . Anhand der Unterscheibarkeitsmatrix M  B lässt sich der Kern bestimmen, der die Menge aller einelementigen Einträge von M  B darstellt. Core  B = {a∈B : cij = {a}} für einige i , j . Jede Unterscheidbarkeitsmatrix M  B definiert eindeutig eine Unterscheidbarkeits- funktion (boolesche Funktion) f  B , deren Definition im Folgenden erläutert wird. Definition (Unterscheidbarkeitsfunktion). Sei IS =U , A ein Informationssystem und B⊆A eine Teilmenge von Attributen. Dann ist die Unterscheidbarkeitsfunktion f  B eine boolesche Funktion mit m booleschen Variablen a 1, ... , a m , die den   Attributen a 1, ... , a m ∈B entsprechen, so dass gilt: f  B= ∏ {∑   x , y  :  x , y ∈U 2 ∧  x , y ≠∅} 2 ,  x , y∈U wobei ∑   x , y die boolesche Summe aller booleschen Variablen ist, die der Menge  x , y zugeordnet sind. Diese Definition ermöglicht einen Zusammenhang zwischen der disjunktiven Normal- form der Funktion f  B und der Menge aller Redukte von B herzustellen. Beispiel 1 Betrachten wir das Beispiel aus dem Abschnitt 2.3. Dann erhalten wir anhand der 16
  • 17. 3 Rough Set – Theorie für Informationssysteme Tabelle 3.1 für die Attributmenge B = { Headache, Muscle-pain, Temperature } die folgende Unterscheidbarkeitsmatrix. Set 1 Set 2 Set 3 Set 4 Set 5 Set 1 Set 2 H, M Set 3 H, T M, T Set 4 T H, M, T H, T Set 5 T H, M, T H T Tabelle 3.3: Unterscheidbarkeitsmatrix in Bezug auf die Attribute Headache, Muscle-pain und Temperature Anhand der Unterscheidbarkeitsmatrix können wir nun die zugehörige Unterscheid- barkeitsfunktion bestimmen. f  B= H M × H T ×T ×T ×M T × H M T  × H M T × H T ×H ×T Nach der mehrmaligen Anwendung des Absorptionsgesetzes erhalten wir ein einziges Redukt mit den Attributen – Headache und Temprature. f  B= H M × H T ×T ×M T × H M T ×H = H ×T Da das Attribut – Muscle-pain – im Redukt nicht enthalten ist, können wir somit auf dieses Attribut verzichten. Wir erhalten: U/R Headache Temperature { p1 } no high { p2, p5 } yes high { p3 } yes very high { p4 } no normal { p6 } no very high Tabelle 3.4: Reduziertes Informationssystem aus der Tabelle 2.1 Beispiel 2 Anhand der Tabelle 3.2 erhalten wir für die Attributmenge B = { Headache, Muscle- pain } die folgende Unterscheidbarkeitsmatrix. Set 1 Set 2 Set 3 Set 1 Set 2 H, M 17
  • 18. 3 Rough Set – Theorie für Informationssysteme Set 3 H M Tabelle 3.5: Unterscheidbarkeitsmatrix in Bezug auf die Attribute Headache und Muscle-pain Anhand der Unterscheidbarkeitsmatrix bestimmen wir nun die Unterscheidbarkeits- funktion und stellen fest, dass das Attribut – Temperature – überflüssig ist. f  B= H M × H ×M =H ×M 3.6 Reduktion der Attributwerte – Redukte und Kerne Im fünften Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung 3.1 – 5) kann die Vereinfachung des vorliegenden Informationssystems fortgesetzt werden, indem auf bestimmte Attributwerte verzichtet wird, die für das Informations- system unrelevant sind, was dennoch ermöglicht, alle bereits bestimmten elementaren Mengen beizubehalten. Die Bestimmung von Redukten in Bezug auf Attributwerte läuft ähnlich wie die Bestimmung von Redukten in Bezug auf Attribute ab. Mathematisch wird dies folgendermaßen verdeutlicht. Definition (Redukt für Attributwerte). Sei B⊆A und x ∈U . Dann sind folgende Aussagen möglich: 1. Der Attributwert von a ∈B heißt verzichtbar bezüglich x , falls B  x=B a  x  gilt, wobei Ba =B−{a} . Andernfalls heißt der Attributwert von a unverzichtbar bezüglich x . 2. B heißt orthogonal bezüglich x , falls für jedes Attribut a ∈B der zugehörige Attributwert unverzichtbar bezüglich x ist. 3. Eine Teilmenge B '⊆B ist ein Redukt von B bezüglich x , falls B ' orthogonal bezüglich x ist, und es gilt B '  x =B  x . Der Kern in Bezug auf Attributwerte wird genauso bestimmt wie der Kern in Bezug auf Attribute eines Informationssystems (siehe Abschnitt 3.5). Die folgende Definition verdeutlicht dies noch einmal. Definition (Kern für Attributwerte). Sei IS =U , A ein Informationssystem, B⊆A und x ∈U . Dann wird der Kern von B bezüglich x durch Core x  B= Reduct x  B definiert, wobei Reduct x  B die Menge aller Redukte von B bezüglich x ist. Um Redukte und deren Kern bezüglich x zu bestimmen, wird dieselbe Unterscheid- barkeitsmatrix (siehe Abschnitt 3.5) verwendet. Die Definition der Unterscheidbar- keitsfunktion wird dagegen ein bisschen verändert. 18
  • 19. 3 Rough Set – Theorie für Informationssysteme Definition (Unterscheidbarkeitsfunktion für Attributwerte). Sei IS =U , A ein Informationssystem, B⊆A eine Teilmenge von Attributen und x ∈U . Dann ist die Unterscheidbarkeitsfunktion f x  B bezüglich x eine boolesche Funktion mit m booleschen Variablen a 1, ... , a m , die den Attributen a 1, ... , a m ∈B entspre-   chen, so dass gilt: f x  B=∏ {∑   x , y  : y ∈U ∧  x , y ≠∅} , y∈U wobei ∑   x , y die boolesche Summe aller booleschen Variablen ist, die der Menge  x , y zugeordnet sind. Somit wird eine Unterscheidbarkeitsfunktion für Attributwerte immer bezüglich eines Objekts oder einer elementaren Menge (Äquivalenzklasse) definiert, so dass man beispielsweise für n elementare Mengen n Unterscheidbarkeitsfunktionen erhält. Beispiel 1 Anhand der Tabelle 3.4 erhalten wir für die Attributmenge B = { Headache, Tempera- ture } die folgende Unterscheidbarkeitsmatrix. Set 1 Set 2 Set 3 Set 4 Set 5 Set 1 H H, T T T Set 2 H T H, T H, T Set 3 H, T T H, T H Set 4 T H, T H, T T Set 5 T H, T H T Tabelle 3.6: Unterscheidbarkeitsmatrix in Bezug auf die Attribute Headache und Temperature Für jede einzelne Spalte der obigen Unterscheidbarkeitsmatrix bestimmen wir die jeweilige Unterscheidbarkeitsfunktion. f 1  B=H × H T ×T ×T =H ×T 2 f  B=H ×T × H T × H T =H ×T f 3  B= H T ×T × H T ×H = H ×T f 4  B=T × H T × H T ×T =T 5 f  B=T × H T ×H ×T =H ×T Während für die Äquivalenzklassen 1, 2, 3 und 5 alle Attributwerte relevant sind, ist für die Beschreibung der vierten Äquivalenzklasse der Attributwert des Attributs – Headache – überflüssig und wir können somit auf diesen Attributwert verzichten. Beispiel 2 19
  • 20. 3 Rough Set – Theorie für Informationssysteme Anhand der Tabelle 3.5 erhalten wir für die Attributmenge B = { Headache, Muscle- pain } die Unterscheidbarkeitsmatrix: Set 1 Set 2 Set 3 Set 1 H, M H Set 2 H, M M Set 3 H M Tabelle 3.7: Unterscheidbarkeitsmatrix in Bezug auf die Attribute Headache und Muscle-pain Die zugehörigen Unterscheidbarkeitsfunktionen können wie folgt bestimmt und verein- facht werden. f 1  B= H M ×H =H 2 f  B= H M ×M =M f 3  B=H ×M 3.7 Klassifikation der Objekte – Qualität und Genauigkeit Im letzten Schritt der Rough-Set-Analyse für Informationssysteme (siehe Abbildung 3.1 – 6) werden verschiedene Größen herangezogen, um die vorhandene Unsicherheit bzw. die Qualität der vorgenommenen Annäherung/Klassifikation zu bewerten. Dabei unterscheiden wir zwischen drei grundlegenden Größen, die im Folgenden erläutert werden. Definition (Qualität der Annäherung). Sei IS =U , A ein Informationssystem und X ⊆U eine Teilmenge von Objekten. Dann wird durch card  B∗ X  B  X  = ∗ mit card  B∗ X ≠0 card  B  X  die Qualität der Annäherung von X in IS definiert. Damit quantitative Größen für die Beschreibung der Qualität und Genauigkeit im Hinblick auf mehrere Mengen von Objekten bestimmt werden können, muss der Begriff der Klassifikation eingeführt werden, der im Folgenden erläutert wird. Definition (Klassifikation). Sei F ={X 1 , X 2 , ... , X n } und X i ⊂U eine Familie von Teilmengen von U und B⊆A . Dann heißt F eine Klassifikation von U , falls X i ∩ X j =∅ und ∪ X i=U , so dass gilt B∗ F ={B∗ X 1  , B∗ X 2 ,... , B∗ X n} B∗ F ={B∗ X 1  , B∗ X 2 ,... , B∗ X 2 } . 20
  • 21. 3 Rough Set – Theorie für Informationssysteme Die Qualität einer Klassifikation wird dann wie folgt definiert. Definition (Qualität der Klassifikation). Sei IS =U , A ein Informationssystem, F eine Klassifikation von U und B⊆A . Dann wird die Qualität der Beschreibung der Klassifikation F durch n ∑ card  B∗ X i  i =1 B F  = card U  definiert. Die Genauigkeit einer Klassifikation wird ähnlich wie die Qualität einer Klassifikation definiert, die im Folgenden verdeutlicht wird. Definition (Genauigkeit der Klassifikation). Sei IS =U , A ein Informations- system, F eine Klassifikation von U und B⊆A . Dann wird die Genauigkeit der Beschreibung der Klassifikation F durch n ∑ card  B∗ X i  i=1 B F  = n ∑ card  B∗ X i  i=1 definiert. Beispiel 1 Anhand des Beispiels aus dem Abschnitt 3.4 erhalten wir für die Menge X = { p1, p2, p4 } und die Attributmenge B = { Headache, Muscle-pain, Temperature } das folgende Ergebnis für die Qualität der Annäherung. card  B∗ X  2 1 B  X  = = = card  B  X  4 2 ∗ Beispiel 2 Eine beispielhafte Klassifikation mit zwei disjunkten Mengen X1 = { p1, p3, p5 } und X2 = { p2, p4, p6 }, und der Attributmenge B = { Headache, Muscle-pain, Temperature } kann wie folgt beschrieben werden. Class Number of Lower Upper Accuracy Number objects Approximation Approximation 1 3 card({p1, p3}) = 2 card({p1, p2, p3, p5}) = 4 1/2 2 3 card({p4, p6}) = 2 card({p2, p4, p5, p6}) = 4 1/2 21
  • 22. 3 Rough Set – Theorie für Informationssysteme Tabelle 3.8: Schematische Darstellung der Klassifikation Nun können wir anhand der Tabelle 3.8 die Qualität und Genauigkeit der vorliegenden Klassifikation bestimmen. Für die Qualität der Klassifikation erhalten wir: n ∑ card  B∗ X i  22 2 i=1 B F  = = = card U  6 3 Für die Genauigkeit derselben Klassifikation ergibt sich: n ∑ card  B∗ X i   22 1 i =1 B F  = n = = 44 2 ∑ card  B∗ X i  i =1 22
  • 23. 4 Rough Set – Theorie für Entscheidungssysteme 4 Rough Set – Theorie für Entscheidungssysteme 4.1 Allgemeiner Ablauf der Analyse für Entscheidungssysteme Da das Ziel der Rough-Set-Theorie für Entscheidungssysteme darin besteht, aus zur Verfügung stehenden Informationen über Objekte regelbasierte Modelle (siehe Abschnitt 2.2) aufzustellen, die ihrerseits wiederum durch Entscheidungsregeln beschrieben werden, gilt es nun zu klären, welche Schritte zur Herleitung solcher Entscheidungsregeln erforderlich sind. In Abbildung 4.1 werden die wichtigsten Aspekte verdeutlicht, die bei der Rough-Set-Analyse für Entscheidungssysteme von Bedeutung sind. Abbildung 4.1: Ablauf der Analyse für Entscheidungssysteme (Quelle: eigene Darstellung) Die eingekreisten Nummern in Abbildung 4.1 entsprechen dabei den einzelnen Schritten der Rough-Set-Analyse für Entscheidungssysteme, die in den nachfolgenden Abschnitten näher erläutert werden. 4.2 Entscheidungssystem Im ersten Schritt der Rough-Set-Analyse für Entscheidungssysteme (siehe Abbildung 4.1 – 1) muss die Struktur der Daten festgelegt werden, d.h. wird in einem Informationssystem zwischen zwei Arten von Attributen (Bedingungs- und Entscheidungsattributen) unterschieden, dann spricht man nicht mehr von einem Informations-, sondern von einem Entscheidungssystem. Beispielsweise können die Attribute – Headache, Muscle-pain und Temperature – als Bedingungsattribute betrachtet werden, während das Attribut – Flu – als Entscheidungsattribut. Eine 23
  • 24. 4 Rough Set – Theorie für Entscheidungssysteme mathematische Definition dafür wird wie folgt verdeutlicht. Definition (Entscheidungssystem). Sei IS =U , C  ein Informationssystem und D={d 1, d 2, ... , d n } eine Menge von Entscheidungen (mit 1n∞ ), so dass C∩ D=∅ . Dann ist S=U , C , D ein Entscheidungssystem. Jede Zeile eines solchen Entscheidungssystems beschreibt eine Entscheidungsregel, die wiederum Entscheidungen (Aktionen) festlegt, die getroffen werden müssen, wenn alle Bedingungen in Form von Bedingungsattributen gelten bzw. erfüllt sind. Die Bedingungen (Headache, no), (Muscle-pain, yes), (Temperature, high) aus der Tabelle 2.1 beschreiben eindeutig die Entscheidung (Flu, yes). Objekte in einem Entscheidungssystem werden als Bezeichnungen für Entscheidungs- regeln verwendet. Die Entscheidungsregeln p1 und p2 aus der Tabelle 2.1 umfassen zwar dieselben Bedingungen, enthalten aber unterschiedliche Entscheidungen. Solche Regeln werden als inkonsistent bezeichnet, andernfalls werden sie als konsistente Regeln betrachtet. Dasselbe gilt auch für Entscheidungssysteme. Entscheidungs- systeme mit inkonsistenten Entscheidungsregeln werden als inkonsistent bezeichnet, andernfalls gelten sie als konsistent. Entscheidungsregeln werden oft in der If-Then- Form dargestellt. Beispielsweise kann die Regel p1 aus der Tabelle 2.1 folgendermaßen ausgedrückt werden if (Headache, no) and (Muscle-pain, yes) and (Temperature, high) then (Flu, yes) Eine Menge von Entscheidungsregeln wird als Entscheidungsalgorithmus (decison algorithm) bezeichnet, da er alle Entscheidungsregeln umfasst, die in einem Entscheidungssystem vorkommen können. Allerdings sind Entscheidungssysteme und Entscheidungsalgorithmen keine äquivalenten Begriffe. Ein Entscheidungssystem ist eine Sammlung von Daten, während ein Entscheidungsalgorithmus eine Sammlung von logischen Ausdrücken bzw. Regeln darstellt. Wie wir bereits gesehen haben, um Daten analysieren zu können, werden unterschiedliche mathematische Ansätze heran- gezogen. Damit aber Regeln analysiert werden können, müssen logische Methoden zur Anwendung kommen. Deshalb werden wir in nachfolgenden Abschnitten Entscheidungsregeln in Form von aussagenlogischen Implikationen darstellen, um eine klare Trennung dieser Begriffe zu gewährleisten. 4.3 Abhängigkeiten zwischen Bedingungs- und Entscheidungsattributen Ein weiterer wichtiger Aspekt in der Datenanalyse besteht darin, dass es Abhängig- keiten zwischen einzelnen Attributen existieren können. Es lässt sich erkennen, dass eine Menge von Attributen D vollständig von einer Menge von Attributen C abhängt ( C ⇒ D ) , wenn alle Attributwerte aus D eindeutig durch alle Attribut- werte aus C beschrieben werden. Beispielsweise sind in der Tabelle 2.1 keine vollständigen Abhängigkeiten vorhanden. Wäre der Wert des Attributs – Temperature 24
  • 25. 4 Rough Set – Theorie für Entscheidungssysteme – für den Patienten p5 nicht „high“, sondern „no“, würde eine vollständige Abhängigkeit {Temperature }⇒ {Flu} vorliegen, da jedem Wert des Attributs – Temperature – ein eindeutiger Wert des Attributs – Flu – zugeordnet werden würde. Das Temperature-Attribut aus der Tabelle 2.1 beschreibt jedoch eindeutig nur einige Attributwerte des Flu- Attributs, d.h. (Temperature, very high) impliziert (Flu, yes) (Temperature, normal) impliziert (Flu, no) aber (Temperature, high) impliziert nicht immer (Flu, yes) Diese Art der Abhängigkeit ist unvollständig, da nur ein Teil der Attributwerte aus D durch Attributwerte aus C beschrieben werden können. Eine formale Definition baut auf der Idee auf, konsistente Regeln bei der Bestimmung der Art der Abhängigkeit zu berücksichtigen. Ein sogennanter Konsistenzfaktor wird in Bezug auf das entsprechende Entscheidungssystem bestimmt und wird als Verhältnis von der Anzahl konsistenter Regeln zur Gesamtzahl der konsistenten und inkonsistenten Regeln aufgefasst. Mathematisch kann dieses Verhältnis wie folgt ausgedrückt werden. Definition (Konsistenzfaktor). Sei S=U , C , D ein Entscheidungssystem. Dann wird der Konsistenzfaktor durch card  POS C  D C , D = card U  mit POS C  D = ∪ X ∈U / I  D C ∗ X  definiert. Für das Entscheidungssystem aus der Tabelle 2.1 erhalten wir einen Konsistenzfaktor von C , D=4 /6 . Basierend auf dem Wert des Konsistenzfaktors können wir eine Aussage darüber treffen, ob zwischen den Bedingungs- und Entscheidungsattributen eines Entscheid- ungssystems eine vollständige oder eine unvollständige Abhängigkeit vorliegt. Dies wird aus der nachfolgenden Definition ersichtlich. Definition (Art der Abhängigkeit). Sei C , D⊆A . Dann sind die folgenden Aussagen möglich: 1. D hängt bis zu einem Grad k 0k1 von C ab, falls k =C , D . 2. D hängt vollständig von C ab, falls k =1 . 3. D hängt teilweise von C ab, falls k 1 . 25
  • 26. 4 Rough Set – Theorie für Entscheidungssysteme Für die Abhängigkeit {Headache , Muscle− pain ,Temperature }⇒ {Flu } aus der Tabelle 2.1 erhalten wir k =4/6=2/3 , da vier von sechs Patienten eindeutig als Personen klassifiziert werden können, bei denen unter Berücksichtigung von den Attributen – Headache, Muscle-pain und Temperature – eine Grippeerkrankung festgestellt bzw. nicht festgestellt werden konnte. Mit Hilfe dieser Methode können wir beispielsweise auch feststellen, wie genau Patienten diagnostiziert werden können, wenn nur ein einziges Attribut in die Analyse einbezogen wird. Für das Temperature- Attribut ergibt sich somit die Abhängigkeit {Temperature }⇒ {Flu} mit einem Konsistenzfaktor von k =3/6=1/2 , da in diesem Fall nur drei Patienten p3, p4, und p6 eindeutig klassifiziert werden können. Somit liefert das Temperature-Attribut eine schlechtere Klassifikation als das gleichzeitige Einbeziehen von den Attributen – Headache, Muscle-pain und Temperature. Außerdem kann man auf diese Art und Weise erkennen, dass weder das Headache- noch das Muscle-pain-Attribut dazu verwendet werden können, um eine Grippeerkrankung bei Patienten zu diagnostizie- ren, da die Abhängigkeiten {Headache}⇒{Flu } und {Muscle− pain}⇒ {Flu} einen Konsistenzfaktor von k =0 liefern. 4.4 Reduktion der Attribute – relative Redukte und relative Kerne Im dritten Schritt der Rough-Set-Analyse für Entscheidungssysteme (siehe Abbildung 4.1 – 3) werden relative Redukte und relative Kerne bestimmt, indem das Prinzip der Redukte und Kerne für ein Informationssystem, auf ein Entscheidungssystem übertragen werden. Dabei wollen wir, wie bei Informationssystemen, herausfinden, ob redundante Attribute auch in Entscheidungssystemen vorkommen, auf die verzichtet werden kann. Für diesen Zweck wird das Konzept der Redukte für Informationssyste- me ein bisschen angepasst. Definition (D-Redukt). Sei C , D⊆A . Dann sind folgende Aussagen möglich: 1. Das Attribut a ∈C heißt D-verzichtbar bezüglich C , falls POS C  D=POS C −{a }  D gilt. Andernfalls heißt das Attribut a D-unverzichtbar bezüglich C . 2. C heißt D-unabhängig, falls alle Attribute a ∈C D-unverzichtbar bezüglich C sind. 3. Eine Teilmenge C ' ⊆C ist ein D-Redukt von C , falls C ' D-unabhängig ist, und es gilt POS C  D=POS C '  D . Der relative Kern in Bezug auf Bedingungsattribute wird genauso bestimmt wie der Kern in Bezug auf Attribute eines Informationssystems (siehe Abschnitt 3.5). Die folgende Definition verdeutlicht dies noch einmal. Definition (D-Kern). Sei S=U , C , D ein Entscheidungssystem. Dann wird die Menge von allen D-unverzichtbaren Attributen in C durch Core D C= Reduct D C  26
  • 27. 4 Rough Set – Theorie für Entscheidungssysteme definiert, wobei Reduct D C  die Menge aller D-Redukte von C ist. Relative Redukte können ebenfalls mit Hilfe der Unterscheidbarkeitsmatrix bestimmt werden. Allerdings muss diese so angepasst werden, dass dabei auch die Entscheid- ungsattribute berücksichtigt werden. Definition (Unterscheidbarkeitsmatrix für D-Redukte). Sei S=U , C , D ein Entscheidungssystem mit n Objekten. Dann ist die Unterscheidbarkeitsmatrix M D C  von C eine symmetrische n×n Matrix mit den Einträgen c ij , so dass gilt: c ij ={a ∈ C : f  x i ≠ f  x j ∧w  x i , x j } , wobei w  x i , x j ≡ x i ∈POS C  D∧x j ∉ POS C  D∨  x i ∉POS C  D∧ x j ∈POS C  D∨ x i , x j ∈POS C  D∧ x i , x j ∉I  D für i , j=1, 2, ... , n . Somit stellt der Eintrag c ij die Menge von allen Attributen dar, so dass die Objekte x i und x j in Bezug auf die Attribute aus c ij voneinander unterschieden werden können, wenn sie aber nicht derselben Äquivalenzklasse der Relation I  D angehören. Aus jeder Unterscheidbarkeitsmatrix M D C  resultiert eine eindeutige Unterscheidbarkeitsfunktion (boolesche Funktion) f D C  , die genauso definiert wird, wie die Unterscheidbarkeitsfunktion f  B (siehe Abschnitt 3.5). Beispiel 1 Anhand der Tabelle 2.1 erhalten wir in Bezug auf das Entscheidungsattribut – Flu – zwei Äquivalenzklassen { p1, p2, p3, p6 } und { p4, p5 }. Nun können wir eine Unterscheidbarkeitsmatrix aufstellen, indem Objekte nur aus unterschiedlichen Äquivalenzklassen bezüglich der Attributmenge C = { Headache, Muscle-pain, Tempe- rature } voneinander unterschieden werden. p1 p2 p3 p4 p5 p6 p1 - p2 - - p3 - - - p4 T H, M, T H, T - p5 H, M - M, T - - p6 - - - T H, M, T - Tabelle 4.1: Unterscheidbarkeitsmatrix in Bezug auf die Attribute Headache, Muscle-pain und Temperature 27
  • 28. 4 Rough Set – Theorie für Entscheidungssysteme Die zugehörige Unterscheidbarkeitsfunktion liefert also zwei Redukte: f D C =T × H M × H M T × H T  ×M T ×T × H M T = H M ×T =H ×T M ×T Die Existenz von zwei Redukten ermöglicht, dass wir das Ausgangsentscheidungs- system auf zwei vereinfachte Entscheidungssysteme reduzieren: Patient Headache Temperature Flu p1 no high yes p2 yes high yes p3 yes very high yes p4 no normal no p5 yes high no p6 no very high yes Tabelle 4.2: Reduziertes Entscheidungssystem aus der Tabelle 2.1 Patient Muscle-pain Temperature Flu p1 yes high yes p2 no high yes p3 yes very high yes p4 yes normal no p5 no high no p6 yes very high yes Tabelle 4.3: Reduziertes Entscheidungssystem aus der Tabelle 2.1 4.5 Reduktion der Attributwerte – relative Redukte und relative Kerne Im vierten Schritt der Rough-Set-Analyse für Entscheidungssysteme (siehe Abbildung 4.1 – 4) werden relative Redukte und relative Kerne in Bezug auf Attributwerte bestimmt, um eine weitere Vereinfachung der Daten im zu analysierenden Entschei- dungssystem zu erreichen. Genauso wie bei Informationssystemen, kommt auch bei Entscheidungssystemen die Idee der Redukte und Kerne zur Anwendung, aber jedoch in einer leicht modifizierten Fassung. Definition (D-Redukt für Attributwerte). Sei C ein relatives D-Redukt, C ⇒ D eine Abhängigkeit und x ∈U . Dann sind folgende Aussagen möglich: 1. Der Attributwert von a ∈C heißt D-verzichtbar bezüglich x , falls C  x ⊆D x impliziert C a  x⊆ D x  . 28
  • 29. 4 Rough Set – Theorie für Entscheidungssysteme Andernfalls ist der Attributwert von a D-unverzichtbar bezüglich x . 2. C heißt D-unabhängig (orthogonal) bezüglich x , falls für jedes Attribut a ∈C der zugehörige Attributwert D-unverzichtbar bezüglich x ist. 3. Eine Teilmenge C ' ∈C ist ein D-Redukt von C bezüglich x , falls C ' D-unabhängig bezüglich x ist, und es gilt C  x ⊆D x impliziert C '  x⊆ D x  . Auch der D-Kern für Attributwerte wird analog zur Definition des Kerns für Attributwerte eines Informationssystems (siehe Abschnitt 3.6) definiert. Definition (D-Kern für Attributwerte). Sei S=U , C , D ein Entscheidungs- system. Dann wird die Menge von allen D-unverzichtbaren Attributwerten bezüglich x in C durch Core x C= Reduct x C  D D definiert, wobei Reduct x C  die Menge aller D-Redukte von C bezüglich x ist. D Um relative Redukte und deren relativen Kern bezüglich x zu bestimmen, wird die Unterscheidbarkeitsmatrix M D C  (siehe Abschnitt 4.4) verwendet. Die Definition der Unterscheidbarkeitsfunktion wird dabei genauso spezifiziert, wie die Unterscheid- barkeitsfunktion f x  B für Informationssysteme. Definition (D-Unterscheidbarkeitsfunktion). Sei S=U , C , D ein Entschei- dungssystem und x ∈U . Dann ist die Unterscheidbarkeitsfunktion f x C  D bezüglich x eine boolesche Funktion mit m booleschen Variablen c 1, ... , c m , die   den Bedingungsattributen c 1, ... , c m ∈C entsprechen, so dass gilt: f x C =∏ {∑   x , y  : y ∈U ∧ x , y ≠∅} , D y∈U wobei ∑   x , y die boolesche Summe aller booleschen Variablen ist, die der Menge  x , y zugeordnet sind. Beispiel 1 Anhand der Tabelle 4.2 stellen wir nun ausgehend von den Äquvalenzklassen { p1, p2, p3, p6 } und { p4, p5 } eine Unterscheidbarkeitsmatrix auf, um relative Redukte für Attributwerte in Bezug auf die Attributmenge C = { Headache, Temperature } zu bestimmen. p1 p2 p3 p4 p5 p6 p1 – – – T H – p2 – – – H, T – – 29
  • 30. 4 Rough Set – Theorie für Entscheidungssysteme p3 – – – H, T T – p4 T H, T H, T – – T p5 H – T – – H, T p6 – – – T H, T – Tabelle 4.4: Unterscheidbarkeitsmatrix in Bezug auf die Attribute Headache und Temperature Für jede einzelne Spalte der obigen Unterscheidbarkeitsmatrix bestimmen wir die jeweilige Unterscheidbarkeitsfunktion. f 1 C =T ×H D f 2 C =H T D f 3 C = H T ×T =T D f 4 C =T × H T × H T ×T =T D f 5 C =H ×T × H T =H ×T D f 6 C =T × H T =T D Das vereinfachte Entscheidungssystem kann nun wie folgt dargestellt werden. Patient Headache Temperature Flu p1 no high yes p2 yes high yes p3 – very high yes p4 – normal no p5 yes high no p6 – very high yes Tabelle 4.5: Vereinfachtes Entscheidungssystem aus der Tabelle 4.2 Beispiel 2 Analog zum obigen Beispiel können wir das Entscheidungssystem aus der Tabelle 4.3 vereinfachen und erhalten somit die zweite vereinfachte Darstellung für das Entschei- dungssystem aus der Tabelle 2.1. Patient Muscle-pain Temperature Flu p1 yes high yes p2 no high yes p3 – very high yes p4 – normal no 30
  • 31. 4 Rough Set – Theorie für Entscheidungssysteme p5 no high no p6 – very high yes Tabelle 4.6: Vereinfachtes Entscheidungssystem aus der Tabelle 4.3 4.6 Entscheidungsregeln Sobald die relativen Redukte in Bezug auf das Entscheidungsattribut – Flu – anhand der Beispieldaten aus der Tabelle 2.1 bestimmt wurden, können wir aus den daraus resultierenden Daten (siehe Tabelle 4.5 und 4.6) Entscheidungsregeln ablesen (siehe Abbildung 4.1 – 5). Die Tabelle 4.5 lässt sich in Form von Entscheidungsregeln folgendermaßen beschreiben. if (Headache, no) and (Temperature, high) then (Flu, yes) if (Headache, yes) and (Temperature, high) then (Flu, yes) if (Temperature, very high) then (Flu, yes) if (Temperature, normal) then (Flu, no) if (Headache, yes) and (Temperature, high) then (Flu, no) if (Temperature, very high) then (Flu, yes) Die Tabelle 4.6 kann mit Hilfe von Entscheidungsregeln wie folgt dargestellt werden. if (Muscle-pain, yes) and (Temperature, high) then (Flu, yes) if (Muscle-pain, no) and (Temperature, high) then (Flu, yes) if (Temperature, very high) then (Flu, yes) if (Temperature, normal) then (Flu, no) if (Muscle-pain, no) and (Temperature, high) then (Flu, no) if (Temperature, very high) then (Flu, yes) Nun gilt es zu klären, wie die hergeleiteten Entscheidungsregeln angewendet werden können, um die Klassifizierung neuer Objekte zu unterstützen. Es gibt hauptsächlich 4 Möglichkeiten, wie das Abgleichen eines neuen Objekts mit bereits vorhandenen Entscheidungsregeln ablaufen kann. (a) das neue Objekt entspricht genau einer deterministischen Entscheidungs- regel (b) das neue Objekt entspricht genau einer nicht-deterministischen Entscheid- ungsregel (c) das neue Objekt entspricht keiner geeigneten Entscheidungsregel (d) das neue Objekt entspricht mehreren Entscheidungsregeln Der Fall – a – sieht keine weiteren Schritte vor, da die Zuordnung des neuen Objekts 31
  • 32. 4 Rough Set – Theorie für Entscheidungssysteme zu einer deterministischen Entscheidungsregel eindeutig ist. Im Fall – b – liegt keine eindeutige Entscheidungsregel vor. Deshalb wird der sogennante Decision Maker eingesetzt, d.h. ihm werden Informationen über die Anzahl der Beispiele (strength) mitgeteilt, welche die jeweilige Entscheidungsregel verstärken sollen. Falls der Koeffizient (Anzahl der Beispiele) einer Klasse größer ist als der Koeffizient anderer Klassen, die ebenfalls von derselben nicht-deterministischen Entscheidungsregel umfasst werden, wird der Decision Maker für das betrachtete Objekt die Entscheidungsregel mit dem größten Koeffizienten auswählen. Im Fall – d – werden dem Decision Maker alle passenden Entscheidungsregeln mitgeteilt. Falls diese Entscheidungsregeln dieselbe Entscheidung beinhalten, dann liegt keine Mehrdeutigkeit vor. Andernfalls wird der Koeffizient jeder einzelnen Regel bestimmt, so dass der Decision Maker genauso wie im Fall – b – vorgehen kann. Der Fall – c – ist der komplizierteste Fall. In diesem Fall müssen dem Decision Maker eine Menge von Entscheidungsregeln mitgeteilt werden, die am besten zur Beschreibung des neuen Objekts passen. Dafür wird ein Distanzmaß eingeführt, damit der Decision Maker mehr Informationen über Objekte in unmittelbarer Nähe des zu klassifizierenden Objekts gewinnen kann. Anhand von diesen Informationen kann dann das neue Objekt entweder als Sonderfall der existierenden Klassen oder als Element einer neuen Klasse betrachtet werden. 32
  • 33. 5 Fazit 5 Fazit In dieser Arbeit haben wir die Rough-Set-Theorie als eine nicht statistische Methode zur Analyse von Daten kennengelernt, die ermöglicht, Objekte in Bezug auf ihre Attributwerte zu charakterisieren, vollständige und unvollständige Abhängigkeiten zwischen Attributen zu finden, überflüssige Attribute zu eliminieren, Kernattribute zu bestimmen und Entscheidungsregeln zu erstellen. Diese Ansätze, die die Rough-Set- Theorie mit sich bringt, können in verschiedenen Bereichen der künstlichen Intelligenz eingesetzt werden, da der Hauptvorteil der Rough-Set-Theorie darin besteht, dass Anwendungen, die diese Ansätze implementieren, parallel auf mehreren Rechnern laufen können, was die Laufzeit zur Bestimmung von Entscheidungsregeln deutlich verkürzen kann. Der aktuelle Stand der Forschung im Bereich der Rough-Set-Theorie äußert sich darin, dass neue Konzepte entwickelt werden, wie die Rough-Set-Theorie mit anderen Methoden wie Fuzzy-Logik [Lia01], Neuronalen Netzen [Cmm03] und Expertensystemen [Sha09] kombiniert werden kann. Zusammenfassend lässt sich sagen, dass die Rough-Set-Theorie eine erfolgreiche Methode zur Analyse von Daten darstellt, die bereits in solchen Bereichen wie Medizin, Finanzwesen, Sicherheit der Energiesysteme, Spracherkennung und Bildverarbeitung zur Anwendung kommt. 33
  • 34. Literatur Literatur Cmm03 Chun-Yan, Yu; Ming-hui, Wu; Ming, Wu: Combining Rough Set Theory with Neural Network Theory for Pattern Recognition. Proceedings of the 2003 IEEE - International Conference on Robotics, Intelligent Systems and Signal Processing, 2003 Kps Komorowski, Jan; Polkowski, Lech; Skowron, Andrzej: Rough Sets: A Tutorial. http://secs.ceas.uc.edu/~mazlack/dbm.w2011/Komorowski.RoughSets.tu tor.pdf (Stand 5.11.2012) Lia01 Li, Yu-Rong; Jiang, Jing-Ping: The integrated methodology of rough sets theory, fuzzy logic and genetic algorithms for multisensor fusion. Proceedings of the American Control Conference, 2001 Lud07 Luderer, Bernd: Die Kunst des Modellierens – Mathematisch- ökonomische Modelle. Vieweg+Teubner Verlag, 2007 Orw00 Ohrn, Aleksander; Rowland, Todd: Rough Sets: A Knowledge Discovery Technique for Multifactorial Mediacal Outcomes. Am. J. Phys. Med. Rehabil. 79, 2000 Paw Pawlak, Zdzislaw: Rough Set Elements (1). http://chc60.fgcu.edu/images/articles/RoughSetElements1.pdf (Stand 3.11.2012) Ril09 Rissino, Silvia; Lambert-Torres, Germano: Rough Set Theory – Fundamental Concepts, Principals, Data Extraction, and Applications. Data Mining and Knowledge Discovery in Real Life Applications, I-Tech, 2009 Sha09 Shao, Xin-Yu; Chu, Xue-Zheng; Qiu, Hao-Bo; Gao, Liang; Yan, Jun: An expert system using rough sets theory for aided conceptual design of ships's engine room automation. Expert Systems with Application 36, 2009 Wam99 Walczak, B.; Massart, D.L.: Tutorial – Rough sets theory. Chemometrics and Intelligent Laboratory Systems, 1999 34