5. Az adatbányászat rövid története Az utóbbi 10 évben igen jelentős változásokon ment keresztül az adatelemzési “iparág”. Az elmúlt évtized közepéig a piackutatás jelentette az egyetlen megbízható forrást. A technológia fejlődése azonban lehetővé tette az adatbázisok (adattárházak) létrejöttét, ahol rendkívül nagy mennyiségű információ kerül tárolásra. Hatalmas adattemetők jöttek létre. Egyre nagyobb mértékben nőtt az adatok professzionális kielemzésének igénye. Ennek pedig alapfeltétele volt egy meglévő nagy adatbázis. Így született meg az adatbányászat
6. Miről szól az adatbányászat? I. Adatok elektronikus tárolása Nagy mennyiségű adat halmozódik fel. Adatbázisok A tárolt adatoknak a nagy része önmagában nem hasznos Adatokból kinyert információra van szükség Szükséglet egy új eszközre; ez pedig az adatbányászat
7. Miről szól az adatbányászat? II. Az adatbázisból való tudásfeltárás során adatbányászati algoritmusokat alkalmaznak. Knowledge Discovery in Databases Az algoritmusok elvégzése során “ mintákat ” fedezünk fel az adatokban. Minél több minta kinyerése, minél több adatból kinyert, minél több lekérdezés eredményeként jön létre. Ha ezt emberek végzik, akkor a folyamat lassú, drága; vagyis gazdaságtalan . Számítógép segítségével gyors és pontos eredményt:“ kincset ” állítanak elő az adatbázis adataiból
8.
9.
10.
11. Az adatbányászatra vonatkozó szabványok Az adatbányászat elterjedésével, létrejött egy igény, Ezt a folyamatot valamilyen szabvány keretein belül lehessen megvalósítani CRISP-DM (Cross Industry Standard Process for Data Mining), amely leírja, hogy miként kell kinéznie egy adatbányászati projektnek, valamint ismerteti annak lépéseit. PMML (adatbányászati eredmények szabványos leírása), OLE DB for data mining (a Microsoft adatbányászati szabványa), SQL/MM (az adatbányászat ISO szabványa), JDMAPI (java szabvány).
12.
13.
14.
15. Az adatbányászat felhasználási területei Bank Genom elemzés (emberi genetika) Vásárlás Akciók szervezése Online áruházak Webportálok Csillagászat Utazások Vírusölő programok Stb. Stb. Stb. Stb.
16. Adatbányász szoftverek I. WEKA The Waikato Environment for Knowledge Analysis Kifejezetten szövegbányászati célokra lett kifejlesztve. A WEKA egy gépi-tanulási algoritmus gyűjtemény adatbányászat céljára. Az algoritmus megjelenhet közvetlenül adathalmaz formájában, vagy előhívható a saját Java kódról. A Weka eszközöket tartalmaz az adatok könnyebb rendszerezésére, visszaalakítására, klaszterálására, emellett társítási szabályokat és megjelenítést is magába foglal. Valamint alkalmas az új gépi tanulási sémák fejlesztésére is. A programot egyébkén az Új Zélandi Waikato egyetem fejlesztette ki. Hátránya, hogy nem túlságosan felhasználóbarát. Kép __1__
17. Adatbányász szoftverek II. Enterprise Miner A SAS rendszer adatbányászati eszköze az Enterprise Miner. Hatékony adatbányászati megoldás, mely képes arra, hogy nagy mennyiségű adatból kivonja a tudást. Egyaránt használhatják statisztikai elemzők és üzleti specialisták. Webes bányászatra is használható. A WEB Enterprise Minerrel történő elemzésével megismerhetővé válik a felhasználók Internet használati szokásai, feltárható, milyen szabályrendszer szerint válik a látogatóból vásárló. A szoftver előnyei: Az adatbányászati folyamatot eszközkészletek segítik. A nyers adathalmazból kiindulva eljut a pontos, üzletfolyamat-központú adatbányászati modellig. Folyamatdiagramja feleslegessé teszi a kézi kódolást, s nagymértékben csökkenti a modellek létrehozását. Kép 1 2 3
18.
19.
20. Adatbányászat a könyvtárakban I. A könyvtáraknak túl kell lépniük a dokumentum- és adatszolgáltatáson , hogy különböző irányú értéknövelt szolgáltatást kínálhassanak. Ennek egyik útja az adatbányászat 2 nagy adathalmaz: dokumentumok adatai és a használattal összefüggő adatbázis . Az integrált könyvtári rendszerek még nem rendelkeznek döntéstámogató modullal Egyes könyvtárak állománymenedzsment gyakorlata, a könyvtári döntéshozók vagy a könyvkiadók számára egyaránt értékes forrást jelentenek Adatbányászat (beillesztés az IKR-be)
21. Adatbányászat a könyvtárakban II. Tehát: érveket adhatunk a könyvtár kezébe, illetve segíthetjük az erős és gyenge pontjaik felderítésében is Bibliomining A könyvtárak számára végzett adatbányászat a könyvtári szolgáltatások adatiból előállított adatbányászati és bibliometriai alkalmazás
24. Szövegbányászat Adatbányászat esetében jól strukturált számszerű adatok kal dolgozunk. A szövegbányászatban strukturálatlan szöveges állományok képezik a kiindulási alapot. Ezek a módszerek nem működnek a strukturálatlan szöveges adatokon. Ezért a strukturálatlan szöveges adathalmazok hasonló célú feldolgozása más megoldásokat tesz szükségessé. Textmining Dokumentumokon végzett feldolgozási és elemzési tevékenység, melynek célja a dokumentumokban rejtetten meglévő új információk feltárása. Olyan különböző dokumentumforrásokból származó szöveges ismeretek és információk gépi intelligenciával történő kigyűjtése és reprezentációja, amely a feldolgozás előtt rejtve és feltáratlanul maradt az elemző előtt
25. Szövegbányászat Célja az emberi nyelvi tudás ötvözése a számítógép nagy sebességével és pontosságával A szövegbányászat az összegzéskészítő módszereket kínálja megoldásként, amelyek automatikusan összefoglalják a dokumentum tartalmát, aminek alapján a felhasználó már könnyebben tájékozódhat
29. Webes bányászat “ Intuícióm azt sugallja, hogy az Internet több kárt okoz, mint amennyi hasznot hajt” Stanislaw Lem Webmining
30. Webes bányászat “ Elmentünk az Internetre, előfizettünk az adtabázisokra, már összeszedtünk egy nagy halom adatot, rendben, de mit csináljunk vele?” A webmining az adatbányászat egyik speciális esete. A webes adatbányászat tulajdonképpen egy Internetes információkinyerő alkalmazás Ennek bemutatása több figyelmet érdemelne, mint amelyet ez az írás megengedhet magának
31. Weboldalak rangsorolása A weboldalak látogatottságáról napló (web-log) készül. Ezek olyan statisztikákat készítenek, melyek tájékoztatnak arról, hogy mennyi ideig tartott a látogatás, hányszor töltötték le stb. Ezeket a web-logokat elemzés alá lehet vetni, mégpedig az adatbányászat segítségével A látogatottság mérésére nem használnak adatbányászati szoftvert ilyen célból, viszont összefüggések és üzleti szabályszerűségek kinyerésére igen Miben áll a weboldal “fontossága”? Erre nem tudunk objektív választ adni
32. Page Rank Az 1998- óta működő Google is ezt használja és eredményesen. Az algoritmus előnye, hogy gyors és könnyen programozható. A lényeg, hogy az emberek, milyen úton jutnak el arra a weboldalra. Ezt a linkeken tudjuk mérni A következtetés átültethető egy algoritmusba is, ami a linkstruktúra alapján felállítja nekünk a sorrendet. Ez az algoritmus a Page Rank Page Rank
33. Hibák Zsákutca probléma A “zsákutca” esetünkben egy olyan weblap, amelyről nincs hivatkozás semmilyen irányba. Ha az algoritmus ideér leáll. Megáll a tudomány; nincs tovább.
34. Hibák Pókháló probléma “ Pókháló” az a rendszer, amelyben minden link az ugyanabban a rendszerben lévő lapra mutat. Röviden: több lap- egy rendszer. Egymásra hivatkoznak a lapok; visszahivatkozás. Ennek így se, füle se farka, az algoritmus nem áll le, de hamis adatot fog adni.