SlideShare une entreprise Scribd logo
1  sur  36
Télécharger pour lire hors ligne
‫ﺑﻪ ﻧﺎم ﺧﺪا‬




 ‫ﻣﻘﺪﻣﻪ اي ﺑﺮ داده ﻛﺎوي و اﻛﺘﺸﺎف‬
                             ‫داﻧﺶ‬




‫ﺗﻬﻴﻪ ﻛﻨﻨﺪﮔﺎن : ﻳﻮﺣﻨﺎ ﻗﺪﻳﻤﻲ‬

‫ﻋﻠﻲ ﻋﺒﺎﺳﻲ‬

‫ﻛﺎوه ﭘﺎﺷﺎﻳﻲ‬
‫ﻣﻘﺪﻣﻪ‬
‫اﻣﺮوزه ﺑﺎ ﮔﺴﺘﺮش ﺳﻴﺴﺘﻢ ﻫﺎي ﭘﺎﻳﮕﺎﻫﻲ و ﺣﺠﻢ ﺑﺎﻻي داده ﻫﺎ ي ذﺧﻴﺮه ﺷﺪه‬
‫در اﻳﻦ ﺳﻴﺴﺘﻢ ﻫﺎ ، ﻧﻴﺎز ﺑﻪ اﺑﺰاري اﺳﺖ ﺗﺎ ﺑﺘﻮان داده ﻫﺎي ذﺧﻴﺮه ﺷﺪه‬
  ‫ﭘﺮدازش ﻛﺮد و اﻃﻼﻋﺎت ﺣﺎﺻﻞ از اﻳﻦ ﭘﺮدازش را در اﺧﺘﻴﺎر ﻛﺎرﺑﺮان ﻗﺮار داد .‬
‫ﺑﺎ اﺳﺘﻔﺎده ار ﭘﺮﺳﺶ ﻫﺎي ﺳﺎده در ‪ SQL‬و اﺑﺰارﻫﺎي ﮔﻮﻧﺎﮔﻮن ﮔﺰارش ﮔﻴﺮي‬
‫ﻣﻌﻤﻮﻟﻲ ، ﻣﻲ ﺗﻮان اﻃﻼﻋﺎﺗﻲ را در اﺧﺘﻴﺎر ﻛﺎرﺑﺮان ﻗﺮار داد ﺗﺎ ﺑﺘﻮاﻧﻨﺪ ﺑﻪ ﻧﺘﻴﺠﻪ‬
‫ﮔﻴﺮي در ﻣﻮرد داده ﻫﺎ و رواﺑﻂ ﻣﻨﻄﻘﻲ ﻣﻴﺎن آﻧﻬﺎ ﺑﭙﺮدازﻧﺪ اﻣﺎ وﻗﺘﻲ ﻛﻪ ﺣﺠﻢ‬
‫داده ﻫﺎ ﺑﺎﻻ ﺑﺎﺷﺪ ، ﻛﺎرﺑﺮان ﻫﺮ ﭼﻨﺪ زﺑﺮ دﺳﺖ و ﺑﺎ ﺗﺠﺮﺑﻪ ﺑﺎﺷﻨﺪ ﻧﻤﻲ ﺗﻮاﻧﻨﺪ‬
‫اﻟﮕﻮﻫﺎي ﻣﻔﻴﺪ را در ﻣﻴﺎن ﺣﺠﻢ اﻧﺒﻮه داده ﻫﺎ ﺗﺸﺨﻴﺺ دﻫﻨﺪ و ﻳﺎ اﮔﺮ ﻗﺎدر ﺑﻪ‬
‫اﻳﻦ ﻛﺎر ﻫﻢ ﺑﺎ ﺷﻨﺪ ، ﻫﺰﻳﻨﻪ ﻋﻤﻠﻴﺎت از ﻧﻈﺮ ﻧﻴﺮوي اﻧﺴﺎﻧﻲ و ﻣﺎدي ﺑﺴﻴﺎر ﺑﺎﻻ‬
                                                                        ‫اﺳﺖ .‬
‫از ﺳﻮي دﻳﮕﺮ ﻛﺎرﺑﺮان ﻣﻌﻤﻮﻻ ﻓﺮﺿﻴﻪ اي را ﻣﻄﺮح ﻣﻲ ﻛﻨﻨﺪ و ﺳﭙﺲ ﺑﺮ اﺳﺎس‬
‫ﮔﺰارﺷﺎت ﻣﺸﺎﻫﺪه ﺷﺪه ﺑﻪ اﺛﺒﺎت ﻳﺎ رد ﻓﺮﺿﻴﻪ ﻣﻲ ﭘﺮدازﻧﺪ ، در ﺣﺎﻟﻲ ﻛﻪ اﻣﺮوزه‬
‫ﻧﻴﺎز ﺑﻪ روﺷﻬﺎﻳﻲ اﺳﺖ ﻛﻪ اﺻﻄﻼﺣﺎ ﺑﻪ ﻛﺸﻒ داﻧﺶ 1 ﺑﭙﺮدازﻧﺪ ﻳﻌﻨﻲ ﺑﺎ ﻛﻤﺘﺮﻳﻦ‬
 ‫دﺧﺎﻟﺖ ﻛﺎرﺑﺮ و ﺑﻪ ﺻﻮرت ﺧﻮدﻛﺎر اﻟﮕﻮﻫﺎ و راﺑﻄﻪ ﻫﺎي ﻣﻨﻄﻘﻲ را ﺑﻴﺎن ﻧﻤﺎﻳﻨﺪ .‬
‫داده ﻛﺎوي2 ﻳﻜﻲ از ﻣﻬﻤﺘﺮﻳﻦ اﻳﻦ روﺷﻬﺎ اﺳﺖ ﻛﻪ ﺑﻪ وﺳﻴﻠﻪ آن اﻟﮕﻮﻫﺎي ﻣﻔﻴﺪ‬
‫در داده ﻫﺎ ﺑﺎ ﺣﺪاﻗﻞ دﺧﺎﻟﺖ ﻛﺎرﺑﺮان ﺷﻨﺎﺧﺘﻪ ﻣﻲ ﺷﻮﻧﺪ و اﻃﻼﻋﺎﺗﻲ را در‬
‫اﺧﺘﻴﺎر ﻛﺎرﺑﺮان و ﺗﺤﻠﻴﻞ ﮔﺮان ﻗﺮار ﻣﻲ دﻫﻨﺪ ﺗﺎ ﺑﺮاﺳﺎس آﻧﻬﺎ ﺗﺼﻤﻴﻤﺎت ﻣﻬﻢ و‬
                                               ‫ﺣﻴﺎﺗﻲ در ﺳﺎزﻣﺎﻧﻬﺎ اﺗﺨﺎذ ﺷﻮﻧﺪ .‬
‫در داده ﻛﺎوي از ﺑﺨﺸﻲ از ﻋﻠﻢ آﻣﺎر ﺑﻪ ﻧﺎم ﺗﺤﻠﻴﻞ اﻛﺘﺸﺎﻓﻲ داده ﻫﺎ 3 اﺳﺘﻔﺎده‬
‫ﻣﻲ ﺷﻮد ﻛﻪ در آن ﺑﺮ ﻛﺸﻒ اﻃﻼﻋﺎت ﻧﻬﻔﺘﻪ و ﻧﺎﺷﻨﺎﺧﺘﻪ از درون ﺣﺠﻢ اﻧﺒﻮه‬
‫داده ﻫﺎ ﺗﺎﻛﻴﺪ ﻣﻲ ﺷﻮد . ﻋﻼوه ﺑﺮ اﻳﻦ داده ﻛﺎوي ﺑﺎ ﻫﻮش ﻣﺼﻨﻮﻋﻲ و ﻳﺎدﮔﻴﺮي‬

                                                           ‫1 ‪Knowledge Discovery‬‬
                                                                     ‫2 ‪Data Mining‬‬
                                                        ‫3 ‪Exploratory Data Analysis‬‬
‫ﻣﺎﺷﻴﻦ ﻧﻴﺰ ارﺗﺒﺎط ﺗﻨﮕﺎﺗﻨﮕﻲ دارد ، ﺑﻨﺎﺑﺮاﻳﻦ ﻣﻲ ﺗﻮان ﮔﻔﺖ در داده ﻛﺎوي‬
‫ﺗﺌﻮرﻳﻬﺎي ﭘﺎﻳﮕﺎه داده ﻫﺎ ، ﻫﻮش ﻣﺼﻨﻮﻋﻲ ، ﻳﺎدﮔﻴﺮي ﻣﺎﺷﻴﻦ و ﻋﻠﻢ آﻣﺎر را در‬
                              ‫ﻫﻢ ﻣﻲ آﻣﻴﺰﻧﺪ ﺗﺎ زﻣﻴﻨﻪ ﻛﺎرﺑﺮدي ﻓﺮاﻫﻢ ﺷﻮد .‬
‫ﺑﺎﻳﺪ ﺗﻮﺟﻪ داﺷﺖ ﻛﻪ اﺻﻄﻼح داده ﻛﺎوي زﻣﺎﻧﻲ ﺑﻪ ﻛﺎر ﺑﺮده ﻣﻲ ﺷﻮد ﻛﻪ ﺑﺎ‬
‫ﺣﺠﻢ ﺑﺰرﮔﻲ از داده ﻫﺎ ، در ﺣﺪ ﻣﮕﺎ ﻳﺎ ﺗﺮاﺑﺎﻳﺖ ، ﻣﻮاﺟﻪ ﺑﺎﺷﻴﻢ . در ﺗﻤﺎﻣﻲ‬
                           ‫ﻣﻨﺎﺑﻊ داده ﻛﺎوي ﺑﺮ اﻳﻦ ﻣﻄﻠﺐ ﺗﺎﻛﻴﺪ ﺷﺪه اﺳﺖ .‬
‫ﻫﺮ ﭼﻪ ﺣﺠﻢ داده ﻫﺎ ﺑﻴﺸﺘﺮ و رواﺑﻂ ﻣﻴﺎن آﻧﻬﺎ ﭘﻴﭽﻴﺪه ﺗﺮ ﺑﺎﺷﺪ دﺳﺘﺮﺳﻲ ﺑﻪ‬
‫اﻃﻼﻋﺎت ﻧﻬﻔﺘﻪ در ﻣﻴﺎن داده ﻫﺎ ﻣﺸﻜﻠﺘﺮ ﻣﻲ ﺷﻮد و ﻧﻘﺶ داده ﻛﺎوي ﺑﻪ ﻋﻨﻮان‬
                        ‫ﻳﻜﻲ از روﺷﻬﺎي ﻛﺸﻒ داﻧﺶ ، روﺷﻦ ﺗﺮ ﻣﻲ ﮔﺮدد .‬
                                              ‫ﻣﻔﺎﻫﻴﻢ ﭘﺎﻳﻪ در داده ﻛﺎوي‬
‫در داده ﻛﺎوي ﻣﻌﻤﻮﻻ ﺑﻪ ﻛﺸﻒ اﻟﮕﻮﻫﺎي ﻣﻔﻴﺪ از ﻣﻴﺎن داده ﻫﺎ اﺷﺎره ﻣﻲ ﺷﻮد .‬
‫ﻣﻨﻈﻮر از اﻟﮕﻮي ﻣﻔﻴﺪ ، ﻣﺪﻟﻲ در داده ﻫﺎ اﺳﺖ ﻛﻪ ارﺗﺒﺎط ﻣﻴﺎن ﻳﻚ زﻳﺮ‬
‫ﻣﺠﻤﻮﻋﻪ از داده ﻫﺎ را ﺗﻮﺻﻴﻒ ﻣﻲ ﻛﻨﺪ و ﻣﻌﺘﺒﺮ ، ﺳﺎده ، ﻗﺎﺑﻞ ﻓﻬﻢ و ﺟﺪﻳﺪ‬
                                                               ‫اﺳﺖ .‬
                                                       ‫ﺗﻌﺮﻳﻒ داده ﻛﺎوي‬
‫در ﻣﺘﻮن آﻛﺎدﻣﻴﻚ ﺗﻌﺎرﻳﻒ ﮔﻮﻧﺎﮔﻮﻧﻲ ﺑﺮاي داده ﻛﺎوي اراﺋﻪ ﺷﺪه اﻧﺪ . در ﺑﺮﺧﻲ‬
‫از اﻳﻦ ﺗﻌﺎرﻳﻒ داده ﻛﺎوي در ﺣﺪ اﺑﺰاري ﻛﻪ ﻛﺎرﺑﺮان را ﻗﺎدر ﺑﻪ ارﺗﺒﺎط ﻣﺴﺘﻘﻴﻢ‬
‫ﺑﺎ ﺣﺠﻢ ﻋﻈﻴﻢ داده ﻫﺎ ﻣﻲ ﺳﺎزد ﻣﻌﺮﻓﻲ ﮔﺮدﻳﺪه اﺳﺖ و در ﺑﺮﺧﻲ دﻳﮕﺮ ،‬
‫ﺗﻌﺎرﻳﻒ دﻗﻴﻘﺘﺮ ﻛﻪ درآﻧﻬﺎ ﺑﻪ ﻛﺎوش در داده ﻫﺎ ﺗﻮﺟﻪ ﻣﻲ ﺷﻮد ﻣﻮﺟﻮد اﺳﺖ .‬
                                           ‫ﺑﺮﺧﻲ از اﻳﻦ ﺗﻌﺎرﻳﻒ ﻋﺒﺎرﺗﻨﺪ از :‬
‫• داده ﻛﺎوي ﻋﺒﺎرت اﺳﺖ از ﻓﺮاﻳﻨﺪ اﺳﺘﺨﺮاج اﻃﻼﻋﺎت ﻣﻌﺘﺒﺮ ، از ﭘﻴﺶ‬
‫ﻧﺎﺷﻨﺎﺧﺘﻪ ، ﻗﺎﺑﻞ ﻓﻬﻢ و ﻗﺎﺑﻞ اﻋﺘﻤﺎد از ﭘﺎﻳﮕﺎه داده ﻫﺎي ﺑﺰرگ و‬
  ‫اﺳﺘﻔﺎده از آن در ﺗﺼﻤﻴﻢ ﮔﻴﺮي در ﻓﻌﺎﻟﻴﺖ ﻫﺎي ﺗﺠﺎري ﻣﻬﻢ. ]1[‬
‫• اﺻﻄﻼح داده ﻛﺎوي ﺑﻪ ﻓﺮاﻳﻨﺪ ﻧﻴﻢ ﺧﻮدﻛﺎر ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ ﭘﺎﻳﮕﺎه‬
‫داده ﻫﺎي ﺑﺰرگ ﺑﻪ ﻣﻨﻈﻮر ﻳﺎﻓﺘﻦ اﻟﮕﻮﻫﺎي ﻣﻔﻴﺪ اﻃﻼق ﻣﻲ ﺷﻮد ]2[.‬
‫• داده ﻛﺎوي ﻳﻌﻨﻲ ﺟﺴﺘﺠﻮ در ﻳﻚ ﭘﺎﻳﮕﺎه داده ﻫﺎ ﺑﺮاي ﻳﺎﻓﺘﻦ اﻟﮕﻮﻫﺎﻳﻲ‬
                                             ‫ﻣﻴﺎن داده ﻫﺎ .]3[‬
‫• داده ﻛﺎوي ﻳﻌﻨﻲ اﺳﺘﺨﺮاج داﻧﺶ ﻛﻼن ، ﻗﺎﺑﻞ اﺳﺘﻨﺎد و ﺟﺪﻳﺪ از‬
                                    ‫ﭘﺎﻳﮕﺎه داده ﻫﺎ ي ﺑﺰرگ .‬
‫• داده ﻛﺎوي ﻳﻌﻨﻲ ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ ﻣﺠﻤﻮﻋﻪ داده ﻫﺎي ﻗﺎﺑﻞ ﻣﺸﺎﻫﺪه‬
                          ‫ﺑﺮاي ﻳﺎﻓﺘﻦ رواﺑﻂ ﻣﻄﻤﺌﻦ ﺑﻴﻦ داده ﻫﺎ .‬
‫ﻫﻤﺎﻧﮕﻮﻧﻪ ﻛﻪ در ﺗﻌﺎرﻳﻒ ﮔﻮﻧﺎﮔﻮن داده ﻛﺎوي ﻣﺸﺎﻫﺪه ﻣﻲ ﺷﻮد ، ﺗﻘﺮﻳﺒﺎ در‬
‫ﺗﻤﺎﻣﻲ ﺗﻌﺎرﻳﻒ ﺑﻪ ﻣﻔﺎﻫﻴﻤﻲ ﭼﻮن اﺳﺘﺨﺮاج داﻧﺶ ، ﺗﺤﻠﻴﻞ و ﻳﺎﻓﺘﻦ اﻟﮕﻮي ﺑﻴﻦ‬
                                               ‫داده ﻫﺎ اﺷﺎره ﺷﺪه اﺳﺖ .‬
                                                      ‫ﺗﺎرﻳﺨﭽﻪ داده ﻛﺎوي‬
‫اﺧﻴﺮا داده ﻛﺎوي ﻣﻮﺿﻮع ﺑﺴﻴﺎري از ﻣﻘﺎﻻت ، ﻛﻨﻔﺮاﻧﺲ ﻫﺎ و رﺳﺎﻟﻪ ﻫﺎ ي ﻋﻤﻠﻲ‬
‫ﺷﺪه اﺳﺖ ، اﻣﺎ اﻳﻦ واژه ﺗﺎ اواﻳﻞ دﻫﻪ ﻧﻮد ﻣﻔﻬﻮﻣﻲ ﻧﺪاﺷﺖ وﺑﻪ ﻛﺎر ﺑﺮده ﻧﻤﻲ‬
                                                                       ‫ﺷﺪ .‬
‫در دﻫﻪ ﺷﺼﺖ و ﭘﻴﺶ از آن زﻣﻴﻨﻪ ﻫﺎﻳﻲ ﺑﺮاي اﻳﺠﺎد ﺳﻴﺴﺘﻢ ﻫﺎ ي ﺟﻤﻊ آوري‬
‫و ﻣﺪﻳﺮﻳﺖ داده ﻫﺎ اﻳﺠﺎد ﺷﺪ و ﺗﺤﻘﻴﻘﺎﺗﻲ در اﻳﻦ زﻣﻴﻨﻪ اﻧﺠﺎم ﭘﺬﻳﺮﻓﺖ ﻛﻪ ﻣﻨﺠﺮ‬
              ‫ﺑﻪ ﻣﻌﺮﻓﻲ و اﻳﺠﺎد ﺳﻴﺴﺘﻢ ﻫﺎي ﻣﺪﻳﺮﻳﺖ ﭘﺎﻳﮕﺎه داده ﻫﺎ ﮔﺮدﻳﺪ .‬
‫اﻳﺠﺎد و ﺗﻮﺳﻌﻪ ﻣﺪﻟﻬﺎي داده اي ﺑﺮاي ﭘﺎﻳﮕﺎه ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﻲ ، ﺷﺒﻜﻪ اي و‬
‫ﺑﺨﺼﻮص راﺑﻄﻪ اي در دﻫﻪ ﻫﻔﺘﺎد ، ﻣﻨﺠﺮ ﺑﻪ ﻣﻌﺮﻓﻲ ﻣﻔﺎﻫﻴﻤﻲ ﻫﻤﭽﻮن ﺷﺎﺧﺺ‬
‫ﮔﺬاري و ﺳﺎزﻣﺎﻧﺪﻫﻲ داده ﻫﺎ و در ﻧﻬﺎﻳﺖ اﻳﺠﺎد زﺑﺎن ﭘﺮﺳﺶ ‪ SQL‬در اواﻳﻞ‬
‫دﻫﻪ ﻫﺸﺘﺎد ﮔﺮدﻳﺪ ﺗﺎ ﻛﺎرﺑﺮان ﺑﺘﻮاﻧﻨﺪ ﮔﺰارﺷﺎت و ﻓﺮﻣﻬﺎي اﻃﻼﻋﺎﺗﻲ ﻣﻮرد ﻧﻈﺮ‬
                                       ‫ﺧﻮد را ، از اﻳﻦ ﻃﺮﻳﻖ اﻳﺠﺎد ﻧﻤﺎﻳﻨﺪ .‬
‫ﺗﻮﺳﻌﻪ ﺳﻴﺴﺘﻢ ﻫﺎي ﭘﺎﻳﮕﺎﻫﻲ ﭘﻴﺸﺮﻓﺘﻪ در دﻫﻪ ﻫﺸﺘﺎد و اﻳﺠﺎد ﭘﺎﻳﮕﺎه ﻫﺎي ﺷﻲ‬
‫ﮔﺮا ، ﻛﺎرﺑﺮد ﮔﺮا 4 و ﻓﻌﺎل 5 ﺑﺎﻋﺚ ﺗﻮﺳﻌﻪ ﻫﻤﻪ ﺟﺎﻧﺒﻪ و ﻛﺎرﺑﺮدي ﺷﺪن اﻳﻦ‬
‫ﺳﻴﺴﺘﻢ ﻫﺎ در ﺳﺮاﺳﺮ ﺟﻬﺎن ﮔﺮدﻳﺪ . ﺑﺪﻳﻦ ﺗﺮﺗﻴﺐ ‪ DBMS‬ﻫﺎﻳﻲ ﻫﻤﭽﻮن‬

                                                          ‫4 ‪Application Oriented‬‬
                                                                ‫5 ‪Active DBMS‬‬
‫2‪ ... ، Sybase ، Oracle ، DB‬اﻳﺠﺎد ﺷﺪﻧﺪ و ﺣﺠﻢ زﻳﺎدي از اﻃﻼﻋﺎت ﺑﺎ‬
‫اﺳﺘﻔﺎده از اﻳﻦ ﺳﻴﺴﺘﻢ ﻫﺎ ﻣﻮرد ﭘﺮدازش ﻗﺮار ﮔﺮﻓﺘﻨﺪ . ﺷﺎﻳﺪ ﺑﺘﻮان ﻣﻬﻤﺘﺮﻳﻦ‬
‫ﺟﻨﺒﻪ در ﻣﻌﺮﻓﻲ داده ﻛﺎوي را ﻣﺒﺤﺚ ﻛﺸﻒ داﻧﺶ از ﭘﺎﻳﮕﺎه داده ﻫﺎ )‪(6KDD‬‬
‫داﻧﺴﺖ ﺑﻄﻮري ﻛﻪ در ﺑﺴﻴﺎري ﻣﻮارد ‪ DM‬و ‪ KDD‬ﺑﺼﻮرت ﻣﺘﺮادف ﻣﻮرد‬
                                                  ‫اﺳﺘﻔﺎده ﻗﺮار ﻣﻲ ﮔﻴﺮﻧﺪ .‬
‫ﻫﻤﺎﻧﻄﻮر ﻛﻪ در ﺗﻌﺮﻳﻒ داده ﻛﺎوي ذﻛﺮ ﺷﺪ ، ﻫﺪف از ﺟﺴﺘﺠﻮ و ﻛﺸﻒ‬
‫اﻟﮕﻮﻫﺎﻳﻲ در ﭘﺎﻳﮕﺎه داده ﻫﺎ و اﺳﺘﻔﺎده از آﻧﻬﺎ در اﺧﺬ ﺗﺼﻤﻴﻤﺎت ﺣﻴﺎﺗﻲ اﺳﺖ ،‬
‫ﺑﻨﺎﺑﺮاﻳﻦ ﻣﻲ ﺗﻮان ﮔﻔﺖ ﻛﻪ ‪ DM‬ﺑﺨﺸﻲ از ﻓﺮاﻳﻨﺪ ‪ KDD‬اﺳﺖ ﻛﻪ در ﻧﻬﺎﻳﺖ‬
‫ﺑﻪ اﻳﺠﺎد ﺳﻴﺴﺘﻢ ﻫﺎي 7‪ DSS‬ﺷﻜﻞ 1-1 ﻧﻘﺶ داده ﻛﺎوي در ﻓﺮاﻳﻨﺪ ﻛﺸﻒ‬
                               ‫داﻧﺶ از ﭘﺎﻳﮕﺎه داده ﻫﺎ را ﻧﺸﺎن ﻣﻲ دﻫﺪ . ]4[‬
‫ﺑﺮاي اوﻟﻴﻦ ﺑﺎر ﻣﻔﻬﻮم داده ﻛﺎوي در ﻛﺎرﮔﺎه 8 ‪ IJCAI‬در زﻣﻴﻨﻪ ‪ KDD‬ﺗﻮﺳﻂ‬
‫‪ Shapir‬ﻣﻄﺮح ﮔﺮدﻳﺪ . ﺑﻪ دﻧﺒﺎل آن در ﺳﺎﻟﻬﺎي 1991 ﺗﺎ 4991 ، ﻛﺎرﮔﺎﻫﻬﺎي‬
‫‪ KDD‬ﻣﻔﺎﻫﻴﻢ ﺟﺪﻳﺪي را در اﻳﻦ ﺷﺎﺧﻪ از ﻋﻠﻢ اراﺋﻪ ﻛﺮدﻧﺪ ﺑﻄﻮري ﻛﻪ‬
‫ﺑﺴﻴﺎري از ﻋﻠﻮم و ﻣﻔﺎﻫﻴﻢ ﺑﺎ آن ﻣﺮﺗﺒﻂ ﮔﺮدﻳﺪﻧﺪ ﻛﻪ ﻣﻲ ﺗﻮان آﻧﻬﺎ را در ﺷﻜﻞ‬
                                                      ‫2-1 ﻣﺸﺎﻫﺪه ﻧﻤﻮد .‬
             ‫ﺑﺮﺧﻲ از ﻛﺎرﺑﺮدﻫﺎي داده ﻛﺎوي در ﻣﺤﻴﻄﻬﺎي واﻗﻌﻲ ﻋﺒﺎرﺗﻨﺪ از :‬
‫1. ﺧﺮده ﻓﺮوﺷﻲ : از ﻛﺎرﺑﺮدﻫﺎي ﻛﻼﺳﻴﻚ داده ﻛﺎوي اﺳﺖ ﻛﻪ ﻣﻲ ﺗﻮان ﺑﻪ‬
                                              ‫ﻣﻮارد زﻳﺮ اﺷﺎره ﻛﺮد :‬
                                ‫• ﺗﻌﻴﻴﻦ اﻟﮕﻮﻫﺎي ﺧﺮﻳﺪ ﻣﺸﺘﺮﻳﺎن‬
                               ‫• ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ ﺳﺒﺪ ﺧﺮﻳﺪ ﺑﺎزار‬
‫• ﭘﻴﺸﮕﻮﻳﻲ ﻣﻴﺰان ﺧﺮﻳﺪ ﻣﺸﺘﺮﻳﺎن از ﻃﺮﻳﻖ ﭘﺴﺖ)ﻓﺮوش‬
                                   ‫اﻟﻜﺘﺮوﻧﻴﻜﻲ(‬
                                          ‫2. ﺑﺎﻧﻜﺪاري :‬
     ‫• ﭘﻴﺶ ﺑﻴﻨﻲ اﻟﮕﻮﻫﺎي ﻛﻼﻫﺒﺮداري از ﻃﺮﻳﻖ ﻛﺎرﺗﻬﺎي اﻋﺘﺒﺎري‬

                                             ‫6 ‪Knowledge Discovery From Database‬‬
                                                       ‫7 ‪Decision Support System‬‬
                                                                     ‫8 ‪Workshop‬‬
‫• ﺗﺸﺨﻴﺺ ﻣﺸﺘﺮﻳﺎن ﺛﺎﺑﺖ‬
‫• ﺗﻌﻴﻴﻦ ﻣﻴﺰان اﺳﺘﻔﺎده از ﻛﺎرﺗﻬﺎي اﻋﺘﺒﺎري ﺑﺮ اﺳﺎس ﮔﺮوﻫﻬﺎي‬
                                               ‫اﺟﺘﻤﺎﻋﻲ‬
                                                       ‫3. ﺑﻴﻤﻪ :‬
                                      ‫• ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ دﻋﺎوي‬
    ‫• ﭘﻴﺸﮕﻮﻳﻲ ﻣﻴﺰان ﺧﺮﻳﺪ ﺑﻴﻤﻪ ﻧﺎﻣﻪ ﻫﺎي ﺟﺪﻳﺪ ﺗﻮﺳﻂ ﻣﺸﺘﺮﻳﺎن‬
                                                    ‫4. ﭘﺰﺷﻜﻲ :‬
‫• ﺗﻌﻴﻴﻦ ﻧﻮع رﻓﺘﺎر ﺑﺎ ﺑﻴﻤﺎران و ﭘﻴﺸﮕﻮﻳﻲ ﻣﻴﺰان ﻣﻮﻓﻘﻴﺖ اﻋﻤﺎل‬
                                                 ‫ﺟﺮاﺣﻲ‬
‫• ﺗﻌﻴﻴﻦ ﻣﻴﺰان ﻣﻮﻓﻘﻴﺖ روﺷﻬﺎي درﻣﺎﻧﻲ در ﺑﺮﺧﻮرد ﺑﺎ ﺑﻴﻤﺎرﻳﻬﺎي‬
                                                  ‫ﺳﺨﺖ‬
                           ‫ﻣﺮاﺣﻞ ﻓﺮاﻳﻨﺪ ﻛﺸﻒ داﻧﺶ از ﭘﺎﻳﮕﺎه داده ﻫﺎ‬
   ‫ﻓﺮاﻳﻨﺪ ﻛﺸﻒ داﻧﺶ از ﭘﺎﻳﮕﺎه داده ﻫﺎ ﺷﺎﻣﻞ ﭘﻨﺞ ﻣﺮﺣﻠﻪ اﺳﺖ ﻛﻪ ﻋﺒﺎرﺗﻨﺪ از :‬
                                                   ‫9‬
                                                     ‫1. اﻧﺒﺎرش داده ﻫﺎ‬
                                                    ‫2. اﻧﺘﺨﺎب داده ﻫﺎ‬
                                                      ‫3. ﺗﺒﺪﻳﻞ داده ﻫﺎ‬
                                                 ‫4. ﻛﺎوش در داده ﻫﺎ‬
                                                       ‫5. ﺗﻔﺴﻴﺮ ﻧﺘﻴﺠﻪ‬
‫ﻫﻤﺎﻧﮕﻮﻧﻪ ﻛﻪ ﻣﺸﺎﻫﺪه ﻣﻲ ﺷﻮد داده ﻛﺎوي ﻳﻜﻲ از ﻣﺮاﺣﻞ اﻳﻦ ﻓﺮاﻳﻨﺪ اﺳﺖ ﻛﻪ‬
‫ﺑﻪ ﻋﻨﻮان ﺑﺨﺶ ﭼﻬﺎرم آن ﻧﻘﺶ ﻣﻬﻤﻲ در ﻛﺸﻒ داﻧﺶ از داده ﻫﺎ اﻳﻔﺎ ﻣﻲ ﻛﻨﺪ‬
                                                                       ‫.‬
                                           ‫• اﻧﺒﺎرش داده ﻫﺎ‬
‫وﺟﻮد اﻃﻼﻋﺎت ﺻﺤﻴﺢ و ﻣﻨﺴﺠﻢ ﻳﻜﻲ از ﻣﻠﺰوﻣﺎﺗﻲ اﺳﺖ ﻛﻪ در داده ﻛﺎوي ﺑﻪ‬
‫آن ﻧﻴﺎزﻣﻨﺪﻳﻢ . اﺷﺘﺒﺎه و ﻋﺪم وﺟﻮد اﻃﻼﻋﺎت ﺻﺤﻴﺢ ﺑﺎﻋﺚ ﻧﺘﻴﺠﻪ ﮔﻴﺮي ﻏﻠﻂ و‬


                                                         ‫9 ‪Data Warehousing‬‬
‫در ﻧﺘﻴﺠﻪ اﺧﺬ ﺗﺼﻤﻴﻤﺎت ﻧﺎﺻﺤﻴﺢ در ﺳﺎزﻣﺎﻧﻬﺎ ﻣﻲ ﮔﺮدد و ﻣﻨﺘﺞ ﺑﻪ ﻧﺘﺎﻳﺞ‬
                      ‫ﺧﻄﺮﻧﺎﻛﻲ ﺧﻮاﻫﺪ ﮔﺮدﻳﺪ ﻛﻪ ﻧﻤﻮﻧﻪ ﻫﺎي آن ﻛﻢ ﻧﻴﺴﺘﻨﺪ .‬
‫اﻛﺜﺮ ﺳﺎزﻣﺎﻧﻬﺎ دﭼﺎر ﻳﻚ ﺧﻼ اﻃﻼﻋﺎﺗﻲ01 ﻫﺴﺘﻨﺪ . در اﻳﻨﮕﻮﻧﻪ ﺳﺎزﻣﺎﻧﻬﺎ ﻣﻌﻤﻮﻻ‬
‫ﺳﻴﺴﺘﻢ ﻫﺎي اﻃﻼﻋﺎﺗﻲ در ﻃﻮل زﻣﺎن و ﺑﺎ ﻣﻌﻤﺎري و ﻣﺪﻳﺮﻳﺖ ﻫﺎي ﮔﻮﻧﺎﮔﻮن‬
‫ﺳﺎﺧﺘﻪ ﺷﺪه اﻧﺪ ، ﺑﻪ ﻃﻮري ﻛﻪ ﺳﺎزﻣﺎن اﻃﻼﻋﺎﺗﻲ ﻳﻜﭙﺎرﭼﻪ و ﻣﺸﺨﺼﻲ ﻣﺸﺎﻫﺪه‬
‫ﻧﻤﻲ ﮔﺮدد . ﻋﻼوه ﺑﺮ اﻳﻦ ﺑﺮاي ﻓﺮاﻳﻨﺪ داده ﻛﺎوي ﺑﻪ اﻃﻼﻋﺎت ﺧﻼﺻﻪ و ﻣﻬﻢ در‬
                                   ‫زﻣﻴﻨﻪ ﺗﺼﻤﻴﻢ ﮔﻴﺮﻳﻬﺎي ﺣﻴﺎﺗﻲ ﻧﻴﺎزﻣﻨﺪﻳﻢ .‬
‫ﻫﺪف از ﻓﺮاﻳﻨﺪ اﻧﺒﺎرش داده ﻫﺎ ﻓﺮاﻫﻢ ﻛﺮدن ﻳﻚ ﻣﺤﻴﻂ ﻳﻜﭙﺎرﭼﻪ ﺟﻬﺖ‬
‫ﭘﺮدازش اﻃﻼﻋﺎت اﺳﺖ . در اﻳﻦ ﻓﺮاﻳﻨﺪ ، اﻃﻼﻋﺎت ﺗﺤﻠﻴﻠﻲ و ﻣﻮﺟﺰ در دوره‬
‫ﻫﺎي ﻣﻨﺎﺳﺐ زﻣﺎﻧﻲ ﺳﺎزﻣﺎﻧﺪﻫﻲ و ذﺧﻴﺮه ﻣﻲ ﺷﻮد ﺗﺎ ﺑﺘﻮان از آﻧﻬﺎ در ﻓﺮاﻳﻨﺪ‬
‫ﻫﺎي ﺗﺼﻤﻴﻢ ﮔﻴﺮي ﻛﻪ از ﻣﻠﺰوﻣﺎت آن داده ﻛﺎوي اﺳﺖ ، اﺳﺘﻔﺎده ﺷﻮد . ﺑﻪ ﻃﻮر‬
                            ‫ﻛﻠﻲ ﺗﻌﺮﻳﻒ زﻳﺮ ﺑﺮاي اﻧﺒﺎر داده ﻫﺎ اراﺋﻪ ﻣﻲ ﮔﺮدد :‬
‫اﻧﺒﺎر داده ﻫﺎ ، ﻣﺠﻤﻮﻋﻪ اي اﺳﺖ ﻣﻮﺿﻮﻋﻲ 11 ، ﻣﺠﺘﻤﻊ 21 ، ﻣﺘﻐﻴﺮ در زﻣﺎن31 و‬
‫ﭘﺎﻳﺪار 41 از داده ﻫﺎ ﻛﻪ ﺑﻪ ﻣﻨﻈﻮر ﭘﺸﺘﻴﺒﺎﻧﻲ از ﻓﺮاﻳﻨﺪ ﻣﺪﻳﺮﻳﺖ ﺗﺼﻤﻴﻢ ﮔﻴﺮي‬
                                             ‫ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﻣﻲ ﮔﻴﺮد .]1[‬
‫اﻧﺒﺎرش داده ﻫﺎ ﺧﻮد ﻣﻮﺿﻮع ﻣﻔﺼﻠﻲ اﺳﺖ ﻛﻪ ﻣﻘﺎﻟﻪ ﻫﺎ و رﺳﺎﻟﻪ ﻫﺎ ي ﮔﻮﻧﺎﮔﻮﻧﻲ‬
‫در ﻣﻮرد آن ﻧﮕﺎﺷﺘﻪ ﺷﺪه اﻧﺪ . در اﻳﻦ ﻓﺼﻞ ﺑﻪ ﻣﻨﻈﻮر آﺷﻨﺎﻳﻲ ﺑﺎ اﻳﻦ ﻓﺮاﻳﻨﺪ ﺑﻪ‬
                                                            ‫آن اﺷﺎره اي ﺷﺪ .‬
                                              ‫• اﻧﺘﺨﺎب داده ﻫﺎ‬
‫اﻧﺒﺎر داده ﻫﺎ ﺷﺎﻣﻞ اﻧﻮاع ﻣﺨﺘﻠﻒ و ﮔﻮﻧﺎﮔﻮﻧﻲ از داده ﻫﺎ اﺳﺖ ﻛﻪ ﻫﻤﻪ آﻧﻬﺎ در‬
‫داده ﻛﺎوي ﻣﻮرد ﻧﻴﺎز ﻧﻴﺴﺘﻨﺪ . ﺑﺮاي ﻓﺮاﻳﻨﺪ داده ﻛﺎوي ﺑﺎﻳﺪ داده ﻫﺎ ي ﻣﻮرد‬
‫ﻧﻴﺎز اﻧﺘﺨﺎب ﺷﻮﻧﺪ . ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل در ﻳﻚ ﭘﺎﻳﮕﺎه داده ﻫﺎي ﻣﺮﺑﻮط ﺑﻪ ﺳﻴﺴﺘﻢ‬
‫ﻓﺮوﺷﮕﺎﻫﻲ ، اﻃﻼﻋﺎﺗﻲ در ﻣﻮرد ﺧﺮﻳﺪ ﻣﺸﺘﺮﻳﺎن ، ﺧﺼﻮﺻﻴﺎت آﻣﺎري آﻧﻬﺎ ،‬

                                                             ‫01 ‪Information Gap‬‬
                                                             ‫11 ‪Subject Oriented‬‬
                                                                   ‫21 ‪Integrated‬‬
                                                                ‫31 ‪Time Variant‬‬
                                                                 ‫41 ‪NonVolatile‬‬
‫ﺗﺎﻣﻴﻦ ﻛﻨﻨﺪﮔﺎن ، ﺧﺮﻳﺪ ، ﺣﺴﺎﺑﺪاري و ... وﺟﻮد دارﻧﺪ . ﺑﺮاي ﺗﻌﻴﻴﻦ ﻧﺤﻮه‬
‫ﭼﻴﺪن ﻗﻔﺴﻪ ﻫﺎ ﺗﻨﻬﺎ ﺑﻪ داده ﻫﺎ ﻳﻲ در ﻣﻮرد ﺧﺮﻳﺪ ﻣﺸﺘﺮﻳﺎن و ﺧﺼﻮﺻﻴﺎت‬
‫آﻣﺎري آﻧﻬﺎ ﻧﻴﺎز اﺳﺖ . ﺣﺘﻲ در ﻣﻮاردي ﻧﻴﺎز ﺑﻪ ﻛﺎوش در ﺗﻤﺎم ﻣﺤﺘﻮﻳﺎت ﭘﺎﻳﮕﺎه‬
‫ﻧﻴﺴﺖ ﺑﻠﻜﻪ ﻣﻤﻜﻦ اﺳﺖ ﺑﻪ ﻣﻨﻈﻮر ﻛﺎﻫﺶ ﻫﺰﻳﻨﻪ ﻋﻤﻠﻴﺎت ، ﻧﻤﻮﻧﻪ ﻫﺎﻳﻲ از‬
                                           ‫ﻋﻨﺎﺻﺮ اﻧﺘﺨﺎب و ﻛﺎوش ﺷﻮﻧﺪ .‬
                                            ‫• ﺗﺒﺪﻳﻞ داده ﻫﺎ‬
‫ﻫﻨﮕﺎﻣﻲ ﻛﻪ داده ﻫﺎي ﻣﻮرد ﻧﻴﺎز اﻧﺘﺨﺎب ﺷﺪﻧﺪ و داده ﻫﺎ ي ﻣﻮرد ﻛﺎوش‬
‫ﻣﺸﺨﺺ ﮔﺮدﻳﺪﻧﺪ ، ﻣﻌﻤﻼ ﺑﻪ ﺗﺒﺪﻳﻼت ﺧﺎﺻﻲ روي داده ﻫﺎ ﻧﻴﺎز اﺳﺖ . ﻧﻮع‬
‫ﺗﺒﺪﻳﻞ ﺑﻪ ﻋﻤﻠﻴﺎت و ﺗﻜﻨﻴﻚ داده ﻛﺎوي ﻣﻮرد اﺳﺘﻔﺎده ﺑﺴﺘﮕﻲ دارد : ﺗﺒﺪﻳﻼﺗﻲ‬
‫ﺳﺎده ﻫﻤﭽﻮن ﺗﺒﺪﻳﻞ ﻧﻮع داده اي ﺑﻪ ﻧﻮع دﻳﮕﺮ ﺗﺎ ﺗﺒﺪﻳﻼت ﭘﻴﭽﻴﺪه ﺗﺮ ﻫﻤﭽﻮن‬
‫ﺗﻌﺮﻳﻒ ﺻﻔﺎت ﺟﺪﻳﺪ ﺑﺎ اﻧﺠﺎم ﻋﻤﻠﻴﺎﺗﻬﺎي رﻳﺎﺿﻲ و ﻣﻨﻄﻘﻲ روي ﺻﻔﺎت ﻣﻮﺟﻮد .‬
                                         ‫• ﻛﺎوش در داده ﻫﺎ‬
‫داده ﻫﺎي ﺗﺒﺪﻳﻞ ﺷﺪه ﺑﺎ اﺳﺘﻔﺎده از ﺗﻜﻨﻴﻜﻬﺎ و ﻋﻤﻠﻴﺎﺗﻬﺎي داده ﻛﺎوي ﻣﻮرد‬
                  ‫ﻛﺎوش ﻗﺮار ﻣﻲ ﮔﻴﺮﻧﺪ ﺗﺎ اﻟﮕﻮﻫﺎي ﻣﻮرد ﻧﻈﺮ ﻛﺸﻒ ﺷﻮﻧﺪ .‬
                                             ‫• ﺗﻔﺴﻴﺮ ﻧﺘﻴﺠﻪ‬
‫اﻃﻼﻋﺎت اﺳﺘﺨﺮاج ﺷﺪه ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻫﺪف ﻛﺎرﺑﺮ ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ و ﺑﻬﺘﺮﻳﻦ ﻧﺘﺎﻳﺞ‬
‫ﻣﻌﻴﻦ ﻣﻲ ﮔﺮدﻧﺪ . ﻫﺪف از اﻳﻦ ﻣﺮﺣﻠﻪ ﺗﻨﻬﺎ اراﺋﻪ ﻧﺘﻴﺠﻪ )ﺑﺼﻮرت ﻣﻨﻄﻘﻲ و ﻳﺎ‬
‫ﻧﻤﻮداري( ﻧﻴﺴﺖ ، ﺑﻠﻜﻪ ﭘﺎﻻﻳﺶ اﻃﻼﻋﺎت اراﻳﻪ ﺷﺪه ﺑﻪ ﻛﺎرﺑﺮ ﻧﻴﺰ از اﻫﺪاف ﻣﻬﻢ‬
                                                       ‫اﻳﻦ ﻣﺮﺣﻠﻪ اﺳﺖ .‬
                                                 ‫ﻋﻤﻠﻴﺎﺗﻬﺎي داده ﻛﺎوي‬
          ‫در داده ﻛﺎوي ، ﭼﻬﺎر ﻋﻤﻞ اﺻﻠﻲ اﻧﺠﺎم ﻣﻲ ﺷﻮد ﻛﻪ ﻋﺒﺎرﺗﻨﺪ از ]1[‬
                                        ‫1. ﻣﺪﻟﺴﺎزي ﭘﻴﺸﮕﻮﻳﻲ ﻛﻨﻨﺪه‬
                                             ‫2. ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ‬
                                                     ‫3. ﺗﺤﻠﻴﻞ ﭘﻴﻮﻧﺪ‬
                                                 ‫4. ﺗﺸﺨﻴﺺ اﻧﺤﺮاف‬
‫از ﻋﻤﻠﻴﺎﺗﻬﺎي اﺻﻠﻲ ﻣﺬﻛﻮر ، ﻳﻚ ﻳﺎ ﺑﻴﺶ از ﻳﻜﻲ از آﻧﻬﺎ در ﭘﻴﺎده ﺳﺎزي ﻛﺎرﺑﺮد‬
‫ﻫﺎي ﮔﻮﻧﺎﮔﻮن داده ﻛﺎوي اﺳﺘﻔﺎده ﻣﻲ ﺷﻮﻧﺪ . ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل ﺑﺮاي ﻛﺎرﺑﺮد ﻫﺎي‬
‫ﺧﺮده ﻓﺮوﺷﻲ ﻣﻌﻤﻮﻻ از ﻋﻤﻠﻴﺎت ﺗﻘﻄﻴﻊ و ﺗﺤﻠﻴﻞ ﭘﻴﻮﻧﺪ اﺳﺘﻔﺎده ﻣﻲ ﺷﻮد در‬
‫ﺣﺎﻟﻲ ﻛﻪ ﺑﺮاي ﺗﺸﺨﻴﺺ ﻛﻼﻫﺒﺮداري ، ﻣﻲ ﺗﻮان از ﻫﺮ ﻳﻚ از ﭼﻬﺎر ﻋﻤﻠﻴﺎت‬
‫ﻣﺬﻛﻮر اﺳﺘﻔﺎده ﻧﻤﻮد . ﻋﻼوه ﺑﺮا ﻳﻦ ﻣﻲ ﺗﻮان از دﻧﺒﺎﻟﻪ اي از ﻋﻤﻠﻴﺎﺗﻬﺎ ﺑﺮاي ﻳﻚ‬
‫ﻣﻨﻈﻮر ﺧﺎص اﺳﺘﻔﺎده ﻛﺮد . ﻣﺜﻼ ﺑﺮاي ﺷﻨﺎﺳﺎﻳﻲ ﻣﺸﺘﺮﻳﺎن ، اﺑﺘﺪا ﭘﺎﻳﮕﺎه ﺗﻘﻄﻴﻊ‬
‫ﻣﻲ ﺷﻮد و ﺳﭙﺲ ﻣﺪﻟﺴﺎزي ﭘﻴﺸﮕﻮﻳﻲ ﻛﻨﻨﺪه در ﻗﻄﻌﺎت اﻳﺠﺎد ﺷﺪه اﻋﻤﺎل ﻣﻲ‬
                                                                      ‫ﮔﺮدد .‬
‫ﺗﻜﻨﻴﻜﻬﺎ ، روﺷﻬﺎ و اﻟﮕﻮرﻳﺘﻤﻬﺎي داده ﻛﺎوي ، راﻫﻬﺎي ﭘﻴﺎده ﺳﺎزي ﻋﻤﻠﻴﺎﺗﻬﺎي‬
‫داده ﻛﺎوي ﻫﺴﺘﻨﺪ . اﮔﺮ ﭼﻪ ﻫﺮ ﻋﻤﻠﻴﺎت ﻧﻘﺎط ﺿﻌﻒ و ﻗﻮت ﺧﻮد را دارد ،‬
‫اﺑﺰارﻫﺎي ﮔﻮﻧﺎﮔﻮن داده ﻛﺎوي ﻋﻤﻠﻴﺎﺗﻬﺎ را ﺑﺮ اﺳﺎس ﻣﻌﻴﺎرﻫﺎي ﺧﺎﺻﻲ ، اﻧﺘﺨﺎب‬
                                         ‫ﻣﻲ ﻛﻨﻨﺪ . اﻳﻦ ﻣﻌﻴﺎرﻫﺎ ﻋﺒﺎرﺗﻨﺪ از :‬
                                ‫• ﺗﻨﺎﺳﺐ ﺑﺎ ﻧﻮع داده ﻫﺎي ورودي‬
                                   ‫• ﺷﻔﺎﻓﻴﺖ ﺧﺮوﺟﻲ داده ﻛﺎوي‬
                     ‫• ﻣﻘﺎوﻣﺖ در ﻣﻘﺎﺑﻞ اﺷﺘﺒﺎه در ﻣﻘﺎدﻳﺮ داده ﻫﺎ‬
                                         ‫• ﻣﻴﺰان ﺻﺤﺖ ﺧﺮوﺟﻲ‬
                  ‫• ﺗﻮاﻧﺎﻳﻲ ﻛﺎر ﻛﺮدن ﺑﺎ ﺣﺠﻢ ﺑﺎﻻي داده ﻫﺎ‬
‫در ﺟﺪول زﻳﺮﺗﻜﻨﻴﻜﻬﺎي واﺑﺴﺘﻪ ﺑﻪ ﻫﺮ ﻳﻚ از ﻋﻤﻠﻴﺎﺗﻬﺎي ﭼﻬﺎر ﮔﺎﻧﻪ ﻣﺸﺨﺺ‬
                                                         ‫ﺷﺪه اﻧﺪ‬
‫ﺗﻜﻨﻴﻚ ﻫﺎي داده ﻛﺎوي‬                               ‫ﻧﺎم ﻋﻤﻠﻴﺎت‬
         ‫رده ﺑﻨﺪي ، ﭘﻴﺸﮕﻮﻳﻲ ﻣﻘﺪار‬               ‫ﻣﺪﻟﺴﺎزي ﭘﻴﺸﮕﻮﻳﻲ ﻛﻨﻨﺪه‬
   ‫ﺧﻮﺷﻪ ﺑﻨﺪي آﻣﺎري ، ﺧﻮﺷﻪ ﺑﻨﺪي‬                       ‫ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ‬
‫ﻛﺸﻒ ﺑﺴﺘﮕﻲ ، ﻛﺸﻒ اﻟﮕﻮﻫﺎي ﻣﺘﻮاﻟﻲ‬                               ‫ﺗﺤﻠﻴﻞ ﭘﻴﻮﻧﺪ‬
      ‫، ﻛﺸﻒ دﻧﺒﺎﻟﻪ ﻫﺎي زﻣﺎﻧﻲ ﻣﺸﺎﺑﻪ‬
                   ‫آﻣﺎر ، ﺗﺠﺴﻢ ﻣﺪل‬                       ‫ﺗﺸﺨﻴﺺ اﻧﺤﺮاف‬
                     ‫ﻋﻤﻠﻴﺎﺗﻬﺎ و ﺗﻜﻨﻴﻜﻬﺎي داده ﻛﺎوي‬
                                             ‫ﻣﺪﻟﺴﺎزي ﭘﻴﺸﮕﻮﻳﻲ ﻛﻨﻨﺪه‬
‫ﻣﺪﻟﺴﺎزي ﭘﻴﺸﮕﻮﻳﻲ ﻛﻨﻨﺪه ، ﺷﺒﻴﻪ ﺗﺠﺮﺑﻪ ﻳﺎدﮔﻴﺮي اﻧﺴﺎن در ﺑﻪ ﻛﺎر ﺑﺮدن‬
‫ﻣﺸﺎﻫﺪات ﺑﺮاي اﻳﺠﺎد ﻳﻚ ﻣﺪل از ﺧﺼﻮﺻﻴﺎت ﻣﻬﻢ ﭘﺪﻳﺪه ﻫﺎ اﺳﺖ . در اﻳﻦ‬
‫روش از ﺗﻌﻤﻴﻢ دﻧﻴﺎي واﻗﻌﻲ و ﺗﻌﻤﻴﻢ دﻧﻴﺎي واﻗﻌﻲ و ﻗﺎﺑﻠﻴﺖ ﺗﻄﺒﻴﻖ داده ﻫﺎي‬
                                ‫ﺟﺪﻳﺪ ﺑﺎ ﻳﻚ ﻗﺎﻟﺐ ﻛﻠﻲ ، اﺳﺘﻔﺎده ﻣﻲ ﺷﻮد .‬
‫در اﻳﻦ ﻣﺪل ، ﻣﻲ ﺗﻮان ﺑﺎ ﺗﺤﻠﻴﻞ ﻳﻚ ﭘﺎﻳﮕﺎه داده ﻫﺎي ﻣﻮﺟﻮد ، ﺧﺼﻮﺻﻴﺎت‬
‫ﻣﺠﻤﻮﻋﻪ ﻫﺎي داده را ﺗﻌﻴﻴﻦ ﻛﺮد . اﻳﻦ ﻣﺪل ﺑﺎ اﺳﺘﻔﺎده از روش ﻳﺎدﮔﻴﺮي‬
‫ﻧﻈﺎرت ﺷﺪه، ﺷﺎﻣﻞ دو ﻓﺎز آﻣﻮزش و آزﻣﺎﻳﺶ اﻳﺠﺎد ﺷﺪه اﺳﺖ . در ﻓﺎز آﻣﻮزش‬
‫ﺑﺎ اﺳﺘﻔﺎده از ﻧﻤﻮﻧﻪ ﻫﺎي ﻋﻈﻴﻤﻲ از داده ﻫﺎي ﺳﺎﺑﻘﻪ اي ، ﻣﺪﻟﻲ ﺳﺎﺧﺘﻪ ﻣﻲ‬
‫ﺷﻮد ﻛﻪ ﻛﻪ ﺑﻪ آن ﻣﺠﻤﻮﻋﻪ آﻣﻮزﺷﻲ ﮔﻮ ﻳﻨﺪ . در ﻓﺎز آزﻣﺎﻳﺶ اﻳﻦ ﻣﺪل روي‬
‫داده ﻫﺎﻳﻲ ﻛﻪ در ﻣﺠﻤﻮﻋﻪ آﻣﻮزﺷﻲ ﻗﺮار ﻧﺪارﻧﺪ ، اﻋﻤﺎل ﻣﻲ ﺷﻮد ﺗﺎ ﺻﺤﺖ و‬
                                               ‫ﺧﺼﻮ ﺻﻴﺎت آن ﺗﺎﻳﻴﺪ ﮔﺮدد .‬
‫از ﻛﺎرﺑﺮدﻫﺎي ﻋﻤﺪه اﻳﻦ ﻣﺪل ﻣﻲ ﺗﻮان ﺑﻪ ﻣﺪﻳﺮﻳﺖ ﻣﺸﺘﺮﻳﺎن ، ﺗﺼﻮﻳﺐ اﻋﺘﺒﺎر ،‬
                         ‫ﺑﺎزارﻳﺎﺑﻲ ﻣﺴﺘﻘﻴﻢ در ﺧﺮده ﻓﺮوﺷﻲ و ... اﺷﺎره ﻛﺮد .‬
                                                   ‫ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ‬
‫ﻫﺪف از ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ ، ﺗﻘﺴﻴﻢ آن ﺑﻪ ﺗﻌﺪاد ﻧﺎﻣﻌﻴﻨﻲ از ﻗﻄﻌﺎت ﻳﺎ‬
‫ﺧﻮﺷﻪ ﻫﺎﻳﻲ 51 از رﻛﻮردﻫﺎي ﻣﺸﺎﺑﻪ اﺳﺖ ، ﻳﻌﻨﻲ رﻛﻮردﻫﺎﻳﻲ ﻛﻪ ﺧﺼﻮﺻﻴﺎﺗﻲ‬


                                                                 ‫51 ‪Clusters‬‬
‫ﻣﺸﺎﺑﻪ دارﻧﺪ و ﻣﻲ ﺗﻮان آﻧﻬﺎ را ﻫﻤﮕﻦ ﻓﺮض ﻛﺮد . ﭘﻴﻮﺳﺘﮕﻲ داﺧﻠﻲ اﻳﻦ‬
‫ﻗﻄﻌﺎت ﺑﺴﻴﺎر زﻳﺎد اﺳﺖ در ﺣﺎﻟﻲ ﻛﻪ ﻫﻤﺒﺴﺘﮕﻲ ﺧﺎرﺟﻲ ﻣﻴﺎن آﻧﻬﺎ ﻛﻢ ﻣﻲ‬
                                                                    ‫ﺑﺎﺷﺪ .‬
‫در اﻳﻦ ﻣﺪل ﺑﺮ ﺧﻼف ﻣﺪل ﻗﺒﻞ ، از ﻳﺎدﮔﻴﺮي ﻧﻈﺎرت ﻧﺸﺪه ﺑﺮاي ﺗﻌﻴﻴﻦ‬
‫زﻳﺮﺷﺎﺧﻪ ﻫﺎي ﻣﻤﻜﻦ از ﺟﻤﻌﻴﺖ داده اي اﺳﺘﻔﺎده ﻣﻲ ﺷﻮد . دﻗﺖ ﺗﻘﻄﻴﻊ‬
‫ﭘﺎﻳﮕﺎه داده ﻫﺎ از روﺷﻬﺎي دﻳﮕﺮ ﻛﻤﺘﺮ اﺳﺖ ، ﺑﻨﺎﺑﺮاﻳﻦ در ﻣﻘﺎﺑﻞ ﺧﺼﻮﺻﻴﺎت‬
                 ‫ﻧﺎﻣﺮﺑﻮط و اﻓﺰوﻧﮕﻲ ، ﺣﺴﺎﺳﻴﺖ ﻛﻤﺘﺮي از ﺧﻮد ﻧﺸﺎن ﻣﻲ دﻫﺪ .‬
‫از ﻛﺎرﺑﺮدﻫﺎي اﻳﻦ روش ﻣﻲ ﺗﻮان ﺑﻪ ﺷﻨﺎﺳﺎﻳﻲ ﻣﺸﺘﺮﻳﺎن ، ﺑﺎزارﻳﺎﺑﻲ ﻣﺴﺘﻘﻴﻢ و ...‬
  ‫اﺷﺎره ﻛﺮد . در ﺷﻜﻞ 4-1 ﻣﺜﺎﻟﻲ از ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ دﻳﺪه ﻣﻲ ﺷﻮد . ]1[‬
‫در اﻳﻦ ﻣﺜﺎل ، ﭘﺎﻳﮕﺎه داده ﻫﺎ ﺷﺎﻣﻞ 002 ﻣﺸﺎﻫﺪه اﺳﺖ ﻛﻪ در آن 001‬
‫اﺳﻜﻨﺎس ﺗﻘﻠﺒﻲ و 001 اﺳﻜﻨﺎس واﻗﻌﻲ ﻫﺴﺘﻨﺪ . داده ﻫﺎ داراي ﺷﺶ ﺑﻌﺪ ﻣﻲ‬
‫ﺑﺎﺷﻨﺪ ﻛﻪ ﻫﺮ ﺑﻌﺪ ﻣﺮﺑﻮط ﺑﻪ ﻳﻚ ﻣﻌﻴﺎر از اﻧﺪازه اﺳﻜﻨﺎس ﻫﺎ اﺳﺖ . ﺑﺎ اﺳﺘﻔﺎده از‬
‫ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ ﻣﻲ ﺗﻮان ﺧﻮﺷﻪ ﻫﺎي ﻣﺘﻨﺎﻇﺮ ﺑﺎ اﺳﻜﻨﺎﺳﻬﺎي ﻣﻌﺘﺒﺮ و‬
‫ﺗﻘﻠﺒﻲ را ﺗﺸﺨﻴﺺ داد . دو ﺧﻮﺷﻪ از اﺳﻜﻨﺎﺳﻬﺎي ﺗﻘﻠﺒﻲ وﺟﻮد دارﻧﺪ و اﻳﻦ ﺑﺪان‬
‫ﻣﻌﻨﻲ اﺳﺖ ﻛﻪ ﺣﺪاﻗﻞ دو ﮔﺮوه ﻣﺒﺎدرت ﺑﻪ ﺗﻮﻟﻴﺪ و ﭼﺎپ اﺳﻜﻨﺎﺳﻬﺎي ﺗﻘﻠﺒﻲ‬
                                                                ‫ﻣﻲ ﻛﻨﻨﺪ .‬
‫ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ ﺑﺎ آﻣﺎرﮔﻴﺮي ﻣﺮﺗﺒﻂ اﺳﺖ ﻛﻪ در ان از ﻓﺎﺻﻠﻪ ﻣﻴﺎن‬
‫رﻛﻮردﻫﺎ و درﺻﺪ ﻗﺮار ﮔﺮﻓﺘﻦ داده ﻫﺎي ورودي در ﺧﻮﺷﻪ ﻫﺎ ، ﺟﻬﺖ ﺗﺠﺰﻳﻪ و‬
                                                  ‫ﺗﺤﻠﻴﻞ اﺳﺘﻔﺎده ﻣﻲ ﺷﻮد .‬
                                                              ‫ﺗﺤﻠﻴﻞ ﭘﻴﻮﻧﺪ‬
‫در اﻳﻦ روش ﭘﻴﻮﻧﺪ ﻫﺎﻳﻲ ﻣﺮﺳﻮم ﺑﻪ ﺑﺴﺘﮕﻲ 61 ﻣﻴﺎن رﻛﻮردﻫﺎ و ﻳﺎ ﻣﺠﻤﻮﻋﻪ اي‬
‫از رﻛﻮردﻫﺎ ﺑﺎزﺷﻨﺎﺳﻲ ﻣﻲ ﺷﻮﻧﺪ . ﺳﻪ رده وﻳﮋه از ﺗﺤﻠﻴﻞ ﭘﻴﻮﻧﺪ وﺟﻮد دارﻧﺪ ﻛﻪ‬
                                                           ‫ﻋﺒﺎرﺗﻨﺪ از :‬
                                                 ‫71‬
                                                    ‫1. ﻛﺸﻒ ﺑﺴﺘﮕﻲ‬

                                                                  ‫61 ‪Association‬‬
                                                        ‫71 ‪Association Discovery‬‬
18
          ‫2. ﻛﺸﻒ اﻟﮕﻮﻫﺎي ﻣﺘﻮاﻟﻲ‬
19
   ‫3. ﻛﺸﻒ دﻧﺒﺎﻟﻪ ﻫﺎي زﻣﺎﻧﻲ ﻣﺸﺎﺑﻪ‬




              Sequential Pattern Discovery 18
                  Similar time Sequences 19
‫ﺑﺮاي ﻗﻮاﻧﻴﻦ واﺑﺴﺘﮕﻲ دو ﭘﺎراﻣﺘﺮ ﻣﻌﺮﻓﻲ ﻣﻲ ﮔﺮدﻧﺪ :‬
‫1. درﺟﻪ ﭘﺸﺘﻴﺒﺎﻧﻲ 02 : ﻛﺴﺮي از ﺟﻤﻌﻴﺖ اﺳﺖ ﻛﻪ در ﻳﻚ ﻗﺎﻋﺪه ، ﻫﻢ‬
‫ﻣﻘﺪم و ﻫﻢ ﺗﺎﻟﻲ را دارﻧﺪ . در واﻗﻊ درﺻﺪي از ﺗﺮاﻛﻨﺸﻬﺎ ﻛﻪ ﺷﺎﻣﻞ ﻫﻤﻪ‬
‫اﻗﻼم ﻇﺎﻫﺮ ﺷﺪه در ﻣﻘﺪم و ﺗﺎﻟﻲ ﺑﺎﺷﻨﺪ . ﻓﺮض ﻛﻨﻴﻢ ﻛﻪ ﺗﻨﻬﺎ در‬
‫1000/ . % از ﺗﺮاﻛﻨﺸﻬﺎي ﺧﺮﻳﺪ ، ﺷﻴﺮ و ﭘﻴﭻ ﮔﻮﺷﺘﻲ ﺑﺎ ﻫﻢ ﺑﺎﺷﻨﺪ ،‬
‫ﺑﻨﺎﺑﺮاﻳﻦ درﺟﻪ ﭘﺸﺘﻴﺒﺎﻧﻲ ﺑﺮاي ﻗﺎﻧﻮن quot; ﭘﻴﭻ ﮔﻮﺷﺘﻲ → ﺷﻴﺮ quot; ﺑﺴﻴﺎر‬
‫ﭘﺎﻳﻴﻦ اﺳﺖ . اﻳﻦ ﻣﺴﺎﻟﻪ ﻧﺸﺎن ﻣﻲ دﻫﺪ ﻛﻪ ﻣﺪرﻛﻲ ﺑﺮاي اﺛﺒﺎت راﺑﻄﻪ‬
                      ‫ﻣﻴﺎن quot; ﺷﻴﺮ quot; و quot; ﭘﻴﭻ ﮔﻮﺷﺘﻲ quot; وﺟﻮد ﻧﺪارد .‬
‫2. درﺟﻪ اﻃﻤﻴﻨﺎن 12 : در ﻳﻚ ﺟﻤﻌﻴﺖ ﻣﻮرد ﺑﺮرﺳﻲ ، ﻛﺴﺮي از ﻣﻮارد‬
‫اﺳﺖ ﻛﻪ وﻗﺘﻲ ﻣﻘﺪم ﻗﺎﻋﺪه در آﻧﻬﺎ ﻇﺎﻫﺮ ﺷﺪه اﺳﺖ ، ﺗﺎﻟﻲ ﻧﻴﺰ در آﻧﻬﺎ‬
‫وﺟﻮد دارد . ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل در ﻗﺎﻧﻮن quot; ﭘﻨﻴﺮ → ﻧﺎن quot; اﮔﺮ درﺟﻪ‬
‫اﻃﻤﻴﻨﺎن ﺑﺮاﺑﺮ 08% ﺗﺮاﻛﻨﺸﻬﺎي ﺧﺮﻳﺪ ، اﮔﺮ ﻧﺎن وﺟﻮد داﺷﺘﻪ ﺑﺎﺷﺪ ،‬
‫ﭘﻨﻴﺮ ﻧﻴﺰ وﺟﻮد دارد . ﺑﺎﻳﺪ ﺗﻮﺟﻪ داﺷﺖ ﻛﻪ ﻣﻘﺪار درﺟﻪ اﻃﻤﻴﻨﺎن ﺑﺎ‬
      ‫ﺗﻌﻮﻳﺾ ﻣﻘﺪم و ﺗﺎﻟﻲ در ﻗﺎﻋﺪه ، ﻣﻤﻜﻦ اﺳﺖ ﺑﻪ ﺷﺪت ﺗﻐﻴﻴﺮ ﻛﻨﺪ .‬

‫داﻣﻨﻪ اﻧﺪازه ﭘﺎﻳﮕﺎه ﻫﺎي داده اﻣﺮوزه ﺑﻪ ﺗﺮا ﺑﺎﻳﺖ رﺳﻴﺪه اﺳﺖ اﻳﻦ ﭘﺎﻳﮕﺎه داده ﺑﻪ‬
‫ﻫﻤﺮاه اﻃﻼﻋﺎت ﻓﺮاواﻧﻲ ﻛﻪ ﺑﻪ ﺻﻮرت ﻧﺎﺷﻨﺎﺧﺘﻪ در آن ﺗﻌﺒﻴﻪ ﮔﺮدﻳﺪه ﻣﻲ ﺑﺎﻳﺸﺪ‬
‫ﻣﺴﺎﻟﻪ اﻳﻦ اﺳﺖ ﻛﻪ ﭼﮕﻮﻧﻪ ﻣﻲ ﺗﻮان از ﻣﻴﺎن اﻳﻦ ﺟﻨﮕﻞ ﻋﻈﻴﻢ اﻃﻼﻋﺎﺗﻲ ﺑﻪ‬
‫ﻫﻤﺮاه درﺧﺘﻬﺎي ﭘﻴﭽﻴﺪه آن اﻃﻼﻋﺎﺗﻲ را اﺳﺘﻨﺘﺎج ﻧﻤﻮد؟ﺑﺎ اﺳﺘﻔﺎده از داده‬
‫ﻛﺎوي ﻣﻲ ﺗﻮان اﻳﻦ ﻫﺰﻳﻨﻪ را ﻛﻢ ﻧﻤﻮد و در ﻋﻮض ﺑﺎزدﻫﻲ ﺑﻴﺸﺘﺮي ﺑﺪﺳﺖ‬
‫آورد.در ﺣﺎل ﺣﺎﺿﺮ ﺷﺮﻛﺘﻬﺎي ﺑﻲ ﺷﻤﺎري ﺳﻌﻲ دارﻧﺪ ﺑﺎ اﺳﺘﻔﺎده از اﻳﻦ روش‬
‫ﺑﻪ ﻣﺸﺘﺮﻳﺎن ﺧﻮد ﭘﻴﺸﻨﻬﺎدات ﺑﻬﺘﺮي ﺑﺮاي ﺧﺮﻳﺪ اراﺋﻪ دﻫﻨﺪ ﺗﺎ ﻓﺮوش آﻧﻬﺎ ﺑﺎﻻﺗﺮ‬
                ‫رﻓﺘﻪ و در ﻋﻮض ﺿﺮر و زﻳﺎن ﻣﻮﺟﻮد از اﻳﻦ ﻃﺮﻳﻖ ﻛﻤﻴﻨﻪ ﮔﺮدد.‬



                                                                    ‫02 ‪Support‬‬
                                                                 ‫12 ‪Confidence‬‬
‫داده ﻛﺎوي ﻓﺮآﻳﻨﺪي اﺳﺖ ﻛﻪ ﻃﻲ آن ﺑﺎ اﺳﺘﻔﺎده از اﻧﻮاع ﻣﺨﺘﻠﻒ اﺑﺰار ﺗﺤﻠﻴﻞ‬
‫داده ﺑﻪ دﻧﺒﺎل ﻛﺸﻒ اﻟﮕﻮﻫﺎ و ارﺗﺒﺎﻃﺎت ﻣﻴﺎن داده ﻫﺎي ﻣﻮﺟﻮد ﻛﻪ ﻣﻤﻜﻦ اﺳﺖ‬
            ‫ﻣﻨﺠﺮ ﺑﻪ اﺳﺘﺨﺮاج اﻃﻼﻋﺎت ﺟﺪﻳﺪي از ﭘﺎﻳﮕﺎه داده ﮔﺮدﻧﺪ ﻣﻲ ﺑﺎﺷﺪ.‬
‫اوﻟﻴﻦ وﺳﺎده ﺗﺮﻳﻦ ﮔﺎم ﺗﺤﻠﻴﻞ داده در داده ﻛﺎوي ﺗﻮﺿﻴﺢ و ﺷﺮح ﻣﺸﺨﺺ داده‬
‫)از ﺟﻤﻠﻪ ﻣﻌﻨﻲ داده واﻧﺤﺮاف اﺳﺘﺎﻧﺪارد ﻛﻠﻤﻪ(ﻣﻲ ﺑﺎﺷﺪ ﻛﻪ اﻳﻦ ﻛﺎر ﻣﻲ ﺗﻮاﻧﺪ ﺑﻪ‬
‫وﺳﻴﻠﻪ ﻧﻤﺪارﻫﺎ و ﮔﺮاف ﻫﺎﻳﻴﻮﻫﻤﭽﻨﻴﻦ ﻛﻠﻤﺎﺗﻲ ﻛﻪ ﺑﺎ اﻳﻦ ﻛﻠﻤﻪ ارﺗﺒﺎط ﻣﻌﻨﺎﻳﻲ‬
‫ﻧﺰدﻳﻜﻲ دارﻧﺪ اﻧﺠﺎم ﮔﺮدد در ﻧﻴﺠﻪ ﺟﻤﻊ آوري ﺟﺴﺘﺠﻮ و اﻧﺘﺨﺎب داده درﺳﺖ‬
                                 ‫در اﻳﻦ ﺑﺨﺶ ﺑﺴﻴﺎر ﻣﻬﻢ و ﺣﻴﺎﺗﻲ ﻣﻲ ﺑﺎﺷﺪ.‬
‫اﻣﺎ اﻳﻦ ﻛﺎر ﺑﻪ ﺗﻨﻬﺎﻳﻲ ﻛﺎر ﺧﺎﺻﻲ اﻧﺠﺎم ﻧﻤﻲ دﻫﺪ ﺷﻤﺎ ﺑﺎﻳﺪ ﻳﻚ ﻣﺪل ﭘﻴﺶ‬
‫ﺑﻴﻨﻲ ﻛﻨﻨﺪه ﺑﺮ اﺳﺎس اﻟﮕﻬﺎﻳﻲ ﻛﻪ از ﻧﺘﺎﻳﺞ داﻧﺶ ﺑﻪ دﺳﺖ آورده ﺷﺪه ﺑﺴﺎزﻳﺪ‬
‫ﺳﭙﺲ آزﻣﺎﻳﺶ ﻛﻨﻴﺪ ﻛﻪ آﻳﺎ ان ﻣﺪل ﺑﺎ ﻧﻤﻮﻧﻪ اﺻﻠﻲ ﺳﺎزﮔﺎر اﺳﺖ ﻳﻚ ﻣﺪل‬
                      ‫ﺧﻮب ﻧﺒﺎﻳﺪ ﺑﺎ ﺟﻬﺎن واﻗﻊ ﺗﻔﺎوت ﭼﻨﺪاﻧﻲ داﺷﺘﻪ ﺑﺎﺷﺪ.]1[‬
‫آﺧﺮﻳﻦ ﮔﺎم ﻧﻴﺰ ﺗﺸﺨﻴﺺ ﺻﺤﺖ وﺳﻘﻢ ﻋﻤﻠﻜﺮد ﻣﺪل ﺑﺼﻮرت ﺗﺠﺮﺑﻲ ﻣﻲ‬
‫ﺑﺎﺷﺪم.ﺑﺮاي ﻣﺜﺎل از ﻳﻚ ﺑﺎﻧﻚ ﻣﺮﺑﻮط ﺑﻪ ﻣﺸﺘﺮﻳﺎن وﭘﺎﺳﺦ ﻫﺎﻳﻲ ﻛﻪ ﺑﻪ ﻳﻚ‬
‫ﭘﻴﺸﻨﻬﺎد ﺧﺎص داده اﻧﺪ ﻳﻚ ﻣﺪل ﻣﻲ ﺳﺎزﻳﺪ ﻛﻪ ﺑﺮ اﺳﺎس آن ﻣﺸﺨﺺ ﻣﻲ‬
‫ﺷﻮد ﻛﻪ ﻛﺪام ﺣﺪس واﻧﺘﻈﺎر ﺑﻴﺸﺘﺮﻳﻦ ﻧﺰدﻳﻜﻲ را ﺑﺎ ﻳﻚ ﭘﻴﺸﻨﻬﺎد ﻣﺎﻧﻨﺪ‬
‫ﭘﻴﺸﻨﻬﺎد ﻗﺒﻠﻲ دارد و اﻳﻨﻜﻪ آﻳﺎ ﺷﻤﺎ ﻣﻲ ﺗﻮاﻧﻴﺪ ﺑﺮ اﻳﻦ ﺣﺪس اﻋﺘﻤﺎد ﻛﻨﻴﺪ ﻳﺎ‬
                                                                      ‫ﻧﻪ؟‬
                                            ‫ﻗﺎﺑﻠﻴﺘﻬﺎي ‪: DataMining‬‬
‫ﺑﺎﻳﺪ ﺗﻮﺟﻪ داﺷﺘﻪ ﺑﺎﺷﻴﺪ ﻛﻪ داده ﻛﺎوي ﻳﻚ اﺑﺰار ﺟﺎدوﻳﻲ ﻧﻴﺴﺖ ﻛﻪ ﺑﺘﻮاﻧﺪ در‬
‫ﭘﺎﻳﮕﺎه داده ﺷﻤﺎ ﺑﻪ دﻧﺒﺎل اﻟﮕﻮﻫﺎي ﺟﺎﻟﺐ ﺑﮕﺮدد و اﮔﺮ ﺑﻪ اﻟﮕﻮﻳﻲ ﺟﺪﻳﺪي‬
‫ﺑﺮﺧﻮرد ﻛﺮد آن را ﺑﻪ ﺷﻤﺎ اﻋﻼم ﻛﻨﺪ ﺑﻠﻜﻪ ﺻﺮﻓﺎ اﻟﮕﻮﻫﺎ و رواﺑﻂ ﺑﻴﻦ داده ﻫﺎ را‬
‫ﺑﻪ ﺷﻤﺎ اﻋﻼم ﻣﻲ ﻛﻨﺪ ﺑﺪون ﺗﻮﺟﻪ ﺑﻪ ارزش آﻧﻬﺎ. ﺑﻨﺎﺑﺮاﻳﻦ اﻟﮕﻮﻫﺎﻳﻲ ﻛﻪ ﺑﻪ اﻳﻦ‬
‫وﺳﻴﻠﻪ ﻛﺸﻒ ﻣﻲ ﺷﻮﻧﺪ ﺑﺎﻳﺪ ﺑﺎ ﺟﻬﺎن واﻗﻊ ﺗﻄﺎﺑﻖ داﺷﺘﻪ ﺑﺎﺷﻨﺪ. ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل‬
‫داده ﻛﺎوي ﻣﻲ ﺗﻮاﻧﺪ ﺑﺎ ﺗﻌﻴﻴﻦ ﻧﺮخ در آﻣﺪﻫﺎﻳﻲ ﻛﻪ ﺑﻄﻮر ﻣﺜﺎل ﺑﻴﻦ $000/05‬
‫و $000/56 اﺳﺖ ﻛﻪ ﺑﺮاي ﺧﺮﻳﺪ روزﻧﺎﻣﻪ ﺧﺎﺻﻲ در ﻣﻴﺎن ﻓﺮوﺷﻨﺪﮔﺎن اﺳﺖ‬
‫ﺗﻌﻴﻴﻦ ﻛﻨﺪ ﻛﻪ اﻛﺜﺮ ﻛﺎﻻﻫﺎي ﻣﻮرد ﻧﻴﺎز ﻣﺮدم ﭼﻪ رﻧﺠﻲ از ﻗﻴﻤﺖ ﺑﻮده وﻛﺪام ﻫﺎ‬
                                                                    ‫ﻫﺴﺘﻨﺪ؟‬
‫ﺑﻪ اﻳﻦ ﺗﺮﺗﻴﺐ ﺷﻤﺎ ﻣﻲ ﺗﻮاﻧﻴﺪ از ﻫﺪف ﺧﺮﻳﺪ ﻣﺮدم ﺑﺪون اﻳﻨﻜﻪ ﻓﺎﻛﺘﻮرﻫﺎﻳﻲ‬
                         ‫ﺑﺮاي ﺧﺮﻳﺪ ﻛﺎﻻﻫﺎي ﺧﻮد در ﻧﻈﺮ ﺑﮕﻴﺮﻳﺪ ﻣﻄﻠﻊ ﺷﻮﻳﺪ؟‬
‫ﺑﺮاي ﺗﻀﻤﻴﻦ ﺑﺪﺳﺖ آﻣﺪن ﻧﺘﺎﻳﺞ ﺑﺎ ﻣﻌﻨﻲ ﻻزم اﺳﺖ ﻛﻪ ﺷﻤﺎ ﺑﺘﻮاﻧﻴﺪ داده ﻫﺎي‬
‫ﺧﻮد را ﺗﺤﻠﻴﻞ ﻛﻨﻴﺪ ﻛﻴﻔﻴﺖ ﺧﺮوﺟﻲ ﺷﻤﺎ ﺑﻪ اﻃﻼﻋﺎت ﺧﺎرج از ﭘﺎﻳﮕﺎه داده ) ﺑﻪ‬
‫ﻋﻨﻮان ﻣﺜﺎل داده اي ﺑﺎارزﺷﻲ ﻛﻪ ﻣﺘﻔﺎوت از داده ﻫﺎي ﻧﻮﻋﻲ در ﭘﺎﻳﮕﺎه داده‬
‫ﺷﻤﺎﺳﺖ( ﺳﺘﻮﻧﻬﺎي ﻇﺎﻫﺮا ﺑﻲ ارﺗﺒﺎط ﻳﺎ ﺑﺎ ارﺗﺒﺎط ﻧﺰدﻳﻚ ﺑﻪ ﺑﻘﻴﻪ ﭘﺎﻳﮕﺎه‬
‫داده)ﻣﺎﻧﻨﺪ ﺗﺎرﻳﺦ ﺗﻮﻟﻴﺪ ﻳﺎ اﻧﻘﻀﺎي ﻛﺎﻻ( ﺑﺴﺘﮕﻲ ﻧﺰدﻳﻜﻲ دارﻧﺪ .اﻟﮕﻮرﻳﺘﻢ ﺑﺮ‬
‫اﺳﺎس ﺣﺴﺎﺳﻴﺘﺸﺎن ﺑﻪ داده ﻫﺎ روﺷﻬﺎي ﻣﺘﻔﺎوﺗﻲ دارﻧﺪ. اﻣﺎ ﻏﻴﺮ ﻋﺎﻗﻼﻧﻪ اﺳﺖ‬
‫ﻛﻪ ﺑﻪ ﻣﺤﺼﻮل داده ﻛﺎوي ﺻﺮﻓﺎ ﺑﻪ ﺑﺮاي ﺗﻤﺎم ﺗﺼﻤﻴﻢ ﮔﻴﺮي ﻫﺎﻳﻤﺎن ﺗﻜﻴﻪ‬
                                                                       ‫ﻛﻨﻴﻢ.‬
‫داده ﻛﺎوي ﺑﻄﻮر اﺗﻮﻣﺎﺗﻴﻚ و ﺑﺪون رﻫﻨﻤﺎﻳﻲ ﻗﺎدر ﺑﻪ ﻛﺸﻒ راه ﺣﻞ ﻫﺎ ﻧﻴﺴﺖ.‬
‫ﺷﻤﺎ ﺗﺮﺟﻴﺤﺎ ﺑﻪ ﺟﺎي ﺑﻴﺎن ﻳﻚ ﻫﺪف ﻣﺒﻬﻢ ﻣﺎﻧﻨﺪ quot;ﻛﻤﻚ ﺑﻪ ارﺗﻘﺎي ﭘﺎﺳﺦ دﻫﻲ‬
‫ﺑﻪ در ﺧﻮاﺳﺖ ﻫﺎ ‪ mail‬ﻣﻦ quot; ﺷﻤﺎ ﺑﺎﻳﺪ از داده ﻛﺎوي ﺑﺮاي ﻳﺎﻓﺘﻦ ﺧﺼﻴﺼﻪ‬
                                                             ‫ﻫﺎي اﻓﺮادي ﻛﻪ‬
                                   ‫)1(: ﺑﻪ درﺧﻮاﺳﺖ ﻫﺎي ﺷﻤﺎ ﭘﺎﺳﺦ ﻣﻲ دﻫﻨﺪ‬
               ‫)2(: ﺑﻪ درﺧﻮاﺳﺖ ﻫﺎي ﺷﻤﺎ ﭘﺎﺳﺦ داده و ﺧﺮﻳﺪ زﻳﺎدي ﻣﻲ ﻛﻨﻨﺪ‬
‫اﺳﺘﻔﺎده ﻛﻨﻴﺪ. اﻟﮕﻮ ﻫﺎﻳﻲ ﻛﻪ داده ﻛﺎوي ﺑﺮاي ﻳﺎﻓﺘﻦ ﺑﻪ اﻳﻦ دو ﻫﺪف اﺳﺘﻔﺎده‬
                                                     ‫ﻣﻲ ﻛﻨﻨﺪ ﻣﺘﻔﺎوت اﺳﺖ.‬
‫اﮔﺮ ﭼﻪ ﻳﻚ اﺑﺰار ﺧﻮب ﺑﺮاي داده ﻛﺎوي ﺷﻤﺎ را از ﭘﻴﭽﻴﺪﮔﻲ ﻫﺎي ﺗﻜﻨﻴﻜﻬﺎي‬
‫آﻣﺎري راﺣﺖ ﻣﻲ ﺳﺎزد اﻣﺎ ﺑﻪ ﺷﻤﺎ ﺑﺮاي ﻓﻬﻤﻴﺪن ﻛﺎر ﻫﺎي اﺑﺰاري ﻛﻪ اﻧﺘﺨﺎب‬
‫ﻛﺮده اﻳﺪ و ﻫﻤﭽﻨﻴﻦ اﻟﮕﻮرﻳﺘﻤﻬﺎﻳﻲ ﻛﻪ ﺑﺮ ﭘﺎﻳﻪ آن ﻛﺎر ﻣﻲ ﻛﻨﺪ ﻧﻴﺎزﻣﻨﺪ اﺳﺖ.‬
‫اﻧﺘﺨﺎﺑﻲ ﻛﻪ ﺷﻤﺎ ﺑﺮاي اﺑﺰار ﻣﻮرد ﻧﻴﺎز اﻧﺠﺎم ﻣﻲ دﻫﻴﺪ و ﺑﻬﻴﻨﻪ ﺳﺎزي ﻫﺎﻳﻲ را ﻛﻪ‬
                ‫ﺷﻤﺎ اﻧﺠﺎم ﻣﻲ دﻫﻴﺪ در دﻗﺖ و ﺳﺮﻋﺖ ﻛﺎر ﺑﺴﻴﺎر ﺗﺎﺛﻴﺮ دارد.]2[‬
                                                 ‫داده ﻛﺎوي و اﻧﺒﺎر داده ﻫﺎ :‬
‫اﻏﻠﺐ داده اي ﻛﻪ ﻣﻮرد ﻛﺎوش ﻗﺮار ﻣﻲ ﮔﻴﺮد اﺑﺘﺪا از ﻳﻚ اﻧﺒﺎر داده آﻣﺎده ﺷﺪه‬
‫ﺑﻪ داﺧﻞ ﻳﻚ ﭘﺎﻳﮕﺎه داده ﻛﺎوي ﺳﺮازﻳﺮ ﻣﻲ ﺷﻮد. اﻳﻦ ﻛﺎر ﻣﺰاﻳﺎي زﻳﺎدي دارد.‬
‫ﭘﺎﻳﮕﺎه داده ﻛﺎوي ﻣﻲ ﺗﻮاﻧﺪ ﺑﻪ ﺟﺎي ﻳﻚ اﻧﺒﺎر ﻓﻴﺰﻳﻜﻲ داده ﻳﻚ اﻧﺒﺎر ﻣﻨﻄﻘﻲ از‬
‫داده ﻫﺎ ﺑﺎﺷﺪ. ﺑﻪ ﺷﺮط آﻧﻜﻪ اﻧﺒﺎر داده ‪ DBMS‬ﺑﺘﻮاﻧﺪ داﻣﻨﻪ ﻫﺎي ﻣﻨﺎﺑﻊ اﺿﺎﻓﻲ‬
 ‫از داده ﻛﺎوي را ﻧﻴﺰ ﭘﻮﺷﺶ دﻫﺪ. روﻧﺪ ﺷﺮح داده ﺷﺪه در ﺷﻜﻞ زﻳﺮ آﻣﺪه اﺳﺖ:‬

                 ‫‪Data Sources‬‬




                                             ‫‪Data‬‬
                                           ‫‪Warehouse‬‬
                                   ‫‪Analysis‬‬
                                  ‫‪Data Mart‬‬
                ‫‪Geographic‬‬                             ‫‪Data Mining‬‬
                ‫‪Data Mart‬‬                              ‫‪Data Mart‬‬




                                                ‫داده ﻛﺎوي و ‪: OLAP‬‬
‫ﻳﻜﻲ از ﺳﻮاﻟﻬﺎي راﻳﺞ در ﻣﻴﺎن ﻣﺘﺨﺼﺼﺎن ﭘﺮدازش داده در ﻣﻮرد ﺗﻔﺎوت ﻣﻴﺎن‬
                         ‫داده ﻛﺎوي و‪) OLAP‬ﭘﺮدازش آﻧﺎﻟﻴﺰي ‪. ( on-line‬‬
‫‪ Olap‬ﻗﺴﻤﺘﻲ از ﻗﺎﻟﺐ اﺑﺰارﻫﺎي ﺗﺼﻤﻴﻢ ﮔﻴﺮي اﺳﺖ. ﭘﺮس وﺟﻮ ﻫﺎي ﺳﻨﺘﻲ و‬
‫اﺑﺰارﻫﺎي ﮔﺰارش ﮔﻴﺮي ﻛﻪ ﭼﻪ ﭼﻴﺰي در داﺧﻞ ﻳﻚ ﭘﺎﻳﮕﺎه داده اﺳﺖ. ‪ olap‬از‬
‫اﻳﻦ ﻓﺮاﺗﺮ ﻣﻴﺮود و ﺑﺮاي ﺟﻮاب دادن ﺑﻪ ﻋﻠﺖ درﺳﺘﻲ ﺑﺮﺧﻲ ﻣﻮارد اﺳﺘﻔﺎده دارد.‬
                                   ‫داده ﻛﺎوي , آﻣﺎر و ﻳﺎدﮔﻴﺮي ﻣﺎﺷﻴﻦ‬
‫داده ﻛﺎوي ﻓﻮاﻳﺪي از ﭘﻴﺸﺮﻓﺘﻬﺎي رﺷﺘﻪ ﻫﻮش ﻣﺼﻨﻮﻋﻲ را در ﺧﻮد ﺟﺎي داده‬
‫اﺳﺖ ﻛﻪ ﻫﻢ ﺷﺎﻣﻞ ﻗﻮاﻋﺪي ﺑﺮاي ﻣﺴﺎﺋﻞ ﺗﺸﺨﻴﺺ اﻟﮕﻮ و ﻃﺒﻘﻪ ﺑﻨﺪي ﻣﻲ ﺑﺎﺷﺪ‬
‫وﻫﻢ ارﺗﺒﺎﻃﺎﺗﻲ ﻛﻪ از ﻃﺮﻳﻖ ﻛﺎرﺑﺮد ﺷﺒﻜﻪ ﻫﺎي ﻋﺼﺒﻲ و درﺧﺘﻬﺎي ﺗﺼﻤﻴﻢ‬
                        ‫ﮔﻴﺮي ﺑﺮاي ﻓﻬﻢ ﻣﺴﺎﺋﻞ ﺻﻮرت ﻣﻲ ﮔﻴﺮد ﻣﻲ ﺑﺎﺷﺪ.‬
‫داده ﻛﺎوي در اﻳﻦ زﻣﻴﻨﻪ داراي اﻟﮕﻮرﻳﺘﻢ ﻫﺎي ﻧﺴﺒﺘﺎ ﺟﺪﻳﺪي ﻣﺎﻧﻨﺪ ﺷﺒﻜﻪ‬
‫ﻋﺼﺒﻲ و درﺧﺖ ﺗﺼﻤﻴﻢ ورﻫﻴﺎﻓﺖ ﻫﺎي ﺟﺪﻳﺪي ﺑﺮاي اﻟﮕﻮرﻳﺘﻢ ﻫﺎي ﻗﺪﻳﻤﻴﺘﺮ‬
                                 ‫ﻣﺎﻧﻨﺪ اﻟﮕﻮرﻳﺘﻢ ﻫﺎي ﺗﻔﻜﻴﻚ ﻛﻨﻨﺪه دارد.‬
‫ﻧﻜﺘﻪ ﻣﻬﻢ آﻧﻜﻪ داده ﻛﺎوي ﻛﺎرﺑﺮد اﻳﻦ ﺗﻜﻨﻴﻜﻬﺎ را ﺑﺮاي ﻣﺴﺎﺋﻞ ﺗﺠﺎري ﻣﺸﺎﺑﻪ‬
‫ﺑﺎﻻ ﺑﻪ ﻃﺮﻳﻘﻲ ﻛﻪ اﻳﻦ ﺗﻜﻨﻴﻜﻬﺎ را ﺑﺮاي ﻛﺎرﺑﺮ ﺧﺒﺮه داﻧﺶ و آﻣﺎرﮔﻴﺮ ﻣﺘﺨﺼﺺ‬
                                    ‫ﻗﺎﺑﻞ دﺳﺘﺮس ﺳﺎزد اﺳﺘﻔﺎده ﻣﻲ ﺷﻮد.‬
                                               ‫ﻛﺎرﺑﺮدﻫﺎي داده ﻛﺎوي‬
 ‫داده ﻛﺎوي ﺑﻪ ﺳﺮﻋﺖ در ﺣﺎل ﻣﺤﺒﻮﺑﻴﺖ اﺳﺖ ﺑﻪ ﺧﺎﻃﺮ ﻛﻤﻚ ﻫﺎي اﺳﺎﺳﻲ آن.‬
‫ﺳﺎزﻣﺎﻧﻬﺎي زﻳﺎدي در ﺣﺎل اﺳﺘﻔﺎده از داده ﻛﺎوي ﺑﺮاي ﻛﻤﻚ ﺑﻪ ﻣﺪﻳﺮﻳﺖ ﺗﻤﺎم‬
‫ﻓﺎزﻫﺎي ارﺗﺒﺎط ﺑﺎ ﻣﺸﺘﺮي ﺷﺎﻣﻞ ﺑﻪ دﺳﺖ آوردن ﻣﺸﺘﺮﻳﺎن ﺟﺪﻳﺪ, اﻓﺰاﻳﺶ ﺳﻮد‬
‫از ﻃﺮﻳﻖ ﻣﺸﺘﺮﻳﺎن ﻣﻮﺟﻮد و ﺣﻔﻆ ﻛﺮدن ﻣﺸﺘﺮﻳﺎن ﺧﻮب ﻫﺴﺘﻨﺪ.ﺑﺎ ﺗﻌﻴﻴﻦ‬
‫ﻣﺸﺨﺼﺎت ﻳﻚ ﻣﺸﺘﺮي ﺧﻮب ﻳﻚ ﺷﺮﻛﺖ ﻣﻲ ﺗﻮاﻧﺪ ﺑﺎ ﻫﻤﺎن ﻣﺸﺨﺼﺎت اﻫﺪاف‬
‫آﻳﻨﺪه ﺧﻮﻳﺶ را ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻨﺪ. ﺑﺎ ﭘﺮوﻧﺪه ﺳﺎزي ﺑﺮاي ﻣﺸﺘﺮي ﻛﻪ ﻳﻚ‬
‫ﻣﺤﺼﻮل ﺧﺎص را ﺧﺮدي ﻣﻲ ﻧﻤﺎﻳﺪ اﻳﻦ ﺷﺮﻛﺖ ﻣﻲ ﺗﻮاﻧﺪ ﺗﻮﺟﻪ ﺧﻮد را ﺑﻪ‬
‫ﻣﺸﺘﺮﻳﺎن ﻣﺸﺎﺑﻬﻲ ﻛﻪ از اﻳﻦ ﻣﺤﺼﻮل ﺧﺮﻳﺪ ﻧﻜﺮده اﻧﺪ ﻣﻌﻄﻮف دارد ﺑﺎ ﭘﺮوﻧﺪه‬
‫ﺳﺎزي ﺑﺮاي ﻣﺸﺘﺮﻳﺎﻧﻲ ﻛﻪ اﻳﻦ ﺳﺎزﻣﺎن را ﺗﺮك ﻛﺮده اﻧﺪ ﻳﻚ ﺷﺮﻛﺖ ﻣﻲ ﺗﻮاﻧﺪ‬
‫ﻣﺸﺘﺮﻳﺎﻧﻲ را ﻛﻪ ﺧﻄﺮ رﻓﺘﻦ آﻧﻬﺎ ﻧﻴﺰ وﺟﻮد دارد را ﻧﮕﻪ دارد ﭼﺮا ﻛﻪ ﻧﮕﻬﺪاري‬
‫ﻳﻚ ﻣﺸﺘﺮي ﻣﻮﺟﻮد ﺑﺴﻴﺎر ﻛﻢ ﻫﺰﻳﻨﻪ ﺗﺮ از ﺑﺪﺳﺖ آوردن ﻳﻚ ﻣﺸﺘﺮي ﺟﺪﻳﺪ‬
‫ﻫﺰﻳﻨﻪ ﻣﻲ ﺑﺮد. داده ﻛﺎوي ارزﺷﻬﺎﻳﻲ را از ﻃﺮﻳﻖ ﺑﺮرﺳﻲ ﻳﻚ ﻃﻴﻒ وﺳﻴﻌﻲ از‬
‫ﻛﺎرﺧﺎﻧﻪ ﻫﺎ ﭘﻴﺸﻨﻬﺎد ﻣﻲ ﻛﻨﺪ.ﺷﺮﻛﺘﻬﺎي ارﺗﺒﺎﻃﺎت از راه دور و ﻛﺎرت ﻫﺎي‬
‫اﻋﺘﺒﺎري دو ﺷﺎﺧﻪ ﺑﺰرگ در اﺳﺘﻔﺎده از داده ﻛﺎوي ﺑﺮاي ﺗﺸﺨﻴﺺ اﺳﺘﻔﺎده ﻛﻼه‬
‫ﺑﺮداراﻧﻪ از ﺧﺪﻣﺎت آﻧﻬﺎ ﻣﻲ ﺑﺎﺷﻨﺪ. ﺷﺮﻛﺘﻬﺎي ﺑﻴﻤﻪ و درآﻣﺪ ﻫﻢ ﻋﻼﻗﻤﻨﺪ ﺑﻪ‬
‫اﺳﺘﻔﺎده از اﻳﻦ ﺗﻜﻨﻮﻟﻮژي ﺑﺮاي ﻛﺎﻫﺶ ﻛﻼه ﺑﺮداري ﻣﻲ ﺑﺎﺷﻨﺪ. ﻛﺎرﺑﺮدﻫﺎي‬
‫داروﻳﻲ ﻧﻮاﺣﻲ ﻣﻔﻴﺪ دﻳﮕﺮي ﻫﺴﺘﻨﺪ ﻛﻪ داده ﻛﺎوي در آﻧﻬﺎ دﺳﺖ دارد داده‬
‫ﻛﺎوي ﻣﻲ ﺗﻮاﻧﺪ ﺑﺮاي ﺗﺸﺨﻴﺺ ﺗﺎﺛﻴﺮ اﻋﻤﺎل ﺟﺮاﺣﻲ, آزﻣﺎﻳﺶ ﻫﺎي داروﻳﻲ‬
‫ودرﻣﺎن اﺳﺘﻔﺎده ﮔﺮدد. ﺷﺮﻛﺘﻬﺎﻳﻲ ﻛﻪ در ﺧﺮﻳﺪ و ﻓﺮوﺷﻬﺎي ﻣﺎﻟﻲ ﻓﻌﺎﻟﻴﺖ ﻣﻲ‬
‫ﻛﻨﻨﺪ از داده ﻛﺎوي ﺑﺮاي ﺗﻌﻴﻴﻦ ﺷﺎﺧﺼﻪ ﻫﺎي ﺑﺎزار و ﺻﻨﻌﺖ ﺑﺮاي ﺗﺸﺨﻴﺺ‬
‫ﻛﺎراﻳﻲ درآﻣﺪ اﺳﺘﻔﺎده ﻣﻲ ﻛﻨﻨﺪ. ﺧﺮده ﻓﺮوﺷﻬﺎ از داده ﻛﺎوي ﺑﺮاي ﺗﺼﻤﻴﻢ در‬
‫ﻣﻮرد اﻳﻨﻜﻪ ﻛﺪام ﻣﺤﺼﻮل در ﻓﺮوﺷﮕﺎه ﻫﺎ در آﻣﺪ زاﺳﺖ ﺑﻪ ﻣﻨﻈﻮر دﺳﺘﺮﺳﻲ ﺑﻪ‬
‫ارﺗﻘﺎي ﻛﻴﻔﻴﺖ ﻛﺎر ﺧﻮد اﺳﺘﻔﺎده ﺑﻴﺸﺘﺮي ﻣﻲ ﻧﻤﺎﻳﻨﺪ. ﺷﺮﻛﺘﻬﺎي داروﻳﻲ در‬
‫ﺣﺎل ﻛﺎوش ﭘﺎﻳﮕﺎﻫﻬﺎي داده ﺑﺰرﮔﻲ از ﺗﺮﻛﻴﺒﺎت ﺷﻴﻤﻴﺎﻳﻲ و ﻣﻮاد ژﻧﺘﻴﻜﻲ ﺑﺮاي‬
  ‫ﻛﺸﻒ ﻣﻮاد ﻛﻪ ﻣﻲ ﺗﻮاﻧﻨﺪ ﮔﺰﻳﻨﻪ ﺧﻮﺑﻲ ﺑﺮاي ﺳﺎﺧﺖ ﺑﻪ ﻋﻨﻮان دارو ﺑﺎﺷﻨﺪ. ]1[‬




                                                    ‫داده ﻛﺎوي ﻣﻮﻓﻖ:‬
‫دو ﻧﻜﺘﻪ ﺑﺮاي ﻣﻮﻓﻖ ﺑﻮدن ﻳﻚ داده ﻛﺎوي وﺟﻮد دارد. اول اﻳﻨﻜﻪ ﻳﻚ ﻓﺮﻣﻮﻟﻪ‬
‫ﺳﺎزي دﻗﻴﻖ از ﻣﺴﺎﻟﻪ اي اﺳﺖ ﻛﻪ ﺷﻤﺎ ﺑﺎﻳﺪ ﺣﻞ ﻛﻨﻴﺪ. دوﻣﻴﻦ ﻧﻜﺘﻪ اﺳﺘﻔﺎده از‬
‫داده ﺻﺤﻴﺢ اﺳﺖ. ﭘﺲ از اﻧﺘﺨﺎب داده اي ﻛﻪ در دﺳﺘﺮس ﺷﻤﺎﺳﺖ ﻳﺎ ﺷﺎﻳﺪ‬
‫ﺧﺮﻳﺪ داده ﺧﺎرﺟﻲ ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ ﻧﻴﺎزﻣﻨﺪ ﺷﻮﻳﺪ آ ن را ﺑﻪ روﺷﻬﺎﻳﻲ اﻧﺘﻘﺎل‬
                                              ‫داده ﻳﺎ دﺳﺘﻪ ﺑﻨﺪي ﻛﻨﻴﺪ.‬
                                                    ‫ﺗﺤﻠﻴﻞ ارﺗﺒﺎﻃﺎت:‬
‫ﺗﺤﻠﻴﻞ ارﺗﺒﺎط ﻳﻚ رﻫﻴﺎﻓﺖ ﺗﻮﺻﻴﻔﻲ ﺑﺮاي اﻛﺘﺸﺎف داده اﺳﺖ ﻛﻪ ﻣﻲ ﺗﻮاﻧﺪ ﺑﻪ‬
‫ﻣﺸﺨﺺ ﺳﺎزي ارﺗﺒﺎﻃﺎت ﻣﻴﺎن ﻣﻘﺎدﻳﺮ در ﭘﺎﻳﮕﺎه داده ﻛﻤﻚ ﻧﻤﺎﻳﺪ.دو رﻫﻴﺎﻓﺖ‬
‫ﻋﺎم ﺑﺮاي رﺳﻴﺪن ﺑﻪ ﺗﺤﻠﻴﻞ ارﺗﺒﺎﻃﻲ اﻛﺘﺸﺎف ارﺗﺒﺎﻃﻲ و اﻛﺘﺸﺎف ﺗﻮاﻟﻲ ﻣﻲ‬
‫ﺑﺎﺷﺪ.اﻛﺘﺸﺎف ارﺗﺒﺎﻃﺎت ﻗﻮاﻧﻴﻨﻲ را در ﻣﻮرد ﻣﻮاردي را ﻛﻪ ﺑﺎﻳﺪ ﺑﺎ ﻫﻢ در ﻳﻚ‬
‫روﻳﺪاد ﻇﺎﻫﺮﺷﻮﻧﺪ ﻣﺎﻧﻨﺪ ﺗﺮاﻛﻨﺶ ﺧﺮﻳﺪ را ﻣﻲ ِاﺑﺪ.ﺗﺤﻠﻴﻞ ﺳﺒﺪ ﻋﺮﺿﻪ ﻳﻚ ﻧﻤﻮﻧﻪ‬
‫ﺷﻨﺎﺧﺘﻪ ﺷﺪه از ﻛﺸﻒ ارﺗﺒﺎط ﻣﻲ ﺑﺎﺷﺪ.ﻛﺸﻒ ﺗﻮاﻟﻲ ﺑﺴﻴﺒﺎر ﺷﺒﻴﻪ ﻛﺸﻒ ارﺗﺒﺎط‬
‫اﺳﺖ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﻳﻦ ﻧﻜﺘﻪ ﻛﻪ در اﻳﻨﺠﺎ ﺗﻮاﻟﻲ ﻳﻚ ارﺗﺒﺎط اﺳﺖ ﻛﻪ در ﻃﻮل ﻳﻚ‬
                                             ‫ﺑﺎزه زﻣﺎﻧﻲ ﺻﻮرت ﻣﻲ ﮔﻴﺮد.‬
‫ارﺗﺒﺎﻃﺎت ﺑﻪ ﺻﻮرت ‪ A=>B‬ﻧﻮﺷﺘﻪ ﻣﻲ ﺷﻮد ﻛﻪ ﺑﻪ ‪ A‬ﻣﻘﺪم ﻳﺎ ﻃﺮف ﺳﻤﺖ‬
‫ﭼﭗ و ﺑﻪ ‪ B‬ﺗﺎﻟﻲ ﻳﺎ ﻃﺮف ﺳﻤﺖ راﺳﺖ ﻣﻲ ﮔﻮﻳﻨﺪ.ﺑﺮاي ﻣﺜﺎل در ﻗﺎﻧﻮن ارﺗﺒﺎﻃﻲ‬
‫quot;اﮔﺮ ﻣﺮدم ﻳﻚ ﭼﻜﺶ ﺑﺨﺮﻧﺪ آﻧﮕﺎه ﻣﻲ ﺗﻮاﻧﻨﺪ ﻣﻴﺦ ﺑﺨﺮﻧﺪquot; ﺟﻤﻠﻪ ﻣﻘﺪم quot;ﺧﺮﻳﺪ‬
                                ‫ﭼﻜﺶquot; و ﺟﻤﻠﻪ ﺗﺎﻟﻲ quot;ﺧﺮﻳﺪ ﻣﻴﺦquot; ﻣﻲ ﺑﺎﺷﺪ.‬
‫ﺑﺮاﺣﺘﻲ ﻣﻴﺘﻮان ﻧﺴﺒﺖ ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ را ﻛﻪ ﺷﺎﻣﻞ ﻣﻮرد ﻳﺎ ﻟﻴﺴﺘﻲ ازﻣﻮارد ﺧﺎص‬
‫ﻣﻲ ﺑﺎﺷﺪ ﺑﺎ ﺷﻤﺮدن آﻧﻬﺎ ﺗﻌﻴﻴﻦ ﻛﺮد )ﻛﻪ در اﻃﻨﺠﺎ ﻣﻮارد ﻣﻴﺦ ﻫﺎ و ﭼﻜﺶ‬
‫ﻫﺎﻣﻲ ﺑﺎﺷﺪ( را ﺗﻌﻴﻴﻦ ﻛﺮد.ﺗﻌﺪاد ﻣﻮﺟﻮد از ﻳﻚ ﻧﻮع ارﺗﺒﺎط ﺧﺎص ﻛﻪ در ﻳﻚ‬
‫ﭘﺎﻳﮕﺎه داده ﺑﻪ ﻧﻈﺮ ﻣﻲ رﺳﺪ را ﻣﻮﺟﻮدي ﻳﺎ ﺷﻴﻮع آن ﻣﻮرد ﻣﻲ ﮔﻮﻳﻨﺪ.اﮔﺮ ﺑﺮاي‬
‫ﻣﺜﺎل ﮔﻔﺘﻪ ﺷﻮد ﻛﻪ از ﻫﺮ 0001 ﺗﺮاﻛﻨﺶ 51 ﺗﺎي آن ﺷﺎﻣﻞ quot;ﻣﻴﺦ و ﭼﻜﺶquot;‬
‫ﻣﻲ ﺑﺎﺷﺪ ﻣﻮﺟﻮدي اﻳﻦ ارﺗﺒﺎط 5,1%ﺧﻮاﻫﺪ ﺑﻮد.ﻳﻚ ﻣﻮﺟﻮدي ﻛﻢ)ﻣﺜﻼ ﻳﻚ در‬
‫ﻣﻴﻠﻴﻮن( ﻣﻲ ﺗﻮاﻧﺪ ﺑﻴﺎﻧﮕﺮ اﻳﻦ ﺑﺎﺷﺪ ﻛﻪ ان ارﺗﺒﺎط ﺧﺎص در ﭘﺎﻳﮕﺎه داده ﭼﻨﺪان‬
                                                               ‫ﻣﻬﻢ ﻧﻴﺴﺖ.‬
‫ﺑﺮاي ﻛﺸﻒ ﻗﻮاﻧﻴﻦ ﻣﻌﻨﺎ دار ﻣﺎ ﺑﺎﻳﺪ ﺑﻪ ﻓﺮاواﻧﻲ ﻣﺘﻨﺎﺳﺐ دﻓﻌﺎت اﺗﻔﺎق ﻣﻮارد و‬
‫ﺗﺮﻛﻴﺒﺎﺗﺸﺎن ﻧﻴﺰ ﺑﻨﮕﺮﻳﻢ.ﺑﺎداﺷﺘﻦ ﺗﻌﺪاد دﻓﻌﺎت اﺗﻔﺎق ﻣﻮرد ‪ A‬ﻣﻮرد ‪ B‬ﭼﻨﺪ ﺑﺎر‬
‫اﺗﻔﺎق ﻣﻲ اﻓﺘﺪ؟ﺑﻪ ﻋﺒﺎرت دﻳﮕﺮ ﺳﻮال اﻳﻦ اﺳﺖ ﻛﻪ ﺑﺒﻴﻨﻴﻢ quot;ﻫﻨﮕﺎﻣﻲ ﻛﻪ ﻣﺮدم‬
‫ﻳﻚ ﭼﻜﺶ ﻣﻲ ﺧﺮﻧﺪ ﭼﻪ ﺗﻌﺪاد از اﻳﻦ اﻓﺮاد ﻣﻴﺦ ﻫﻢ ﻣﻲ ﺧﺮﻧﺪ؟ ﻋﺒﺎرت دﻳﮕﺮ‬
                              ‫ﺑﺮاي اﻳﻦ ﭘﻴﺶ ﺑﻴﻨﻲ ﺷﺮﻃﻲ اﻃﻤﻴﻨﺎن ﻧﺎم دارد.‬
‫ﻓﺮض ﻛﻨﻴﺪ ﭘﺎﻳﮕﺎه داده ﻓﺮﺿﻲ ﻣﺎن راﺑﻪ ﺻﻮرت زﻳﺮ و ﺑﺎ ﺟﺰﺋﻴﺎت ﺑﻴﺸﺘﺮ ﺑﺮاي‬
                                            ‫ﺑﻴﺎن اﻳﻦ ﻣﻔﺎﻫﻴﻢ در ﻧﻈﺮ ﺑﮕﻴﺮﻳﻢ:‬
                                         ‫ﺗﻤﺎم ﺗﺮاﻛﻨﺸﻬﺎي ﺳﺨﺖ اﻓﺰار :0001‬
                        ‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot;ﭼﻜﺶ quot; ﻣﻲ ﺑﺎﺷﺪ:05‬
                           ‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot;ﻣﻴﺦquot; ﻣﻲ ﺑﺎﺷﺪ:08‬
                          ‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot;ﺗﺨﺘﻪ quot; ﻣﻲ ﺑﺎﺷﺪ:02‬
                   ‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot; ﻣﻴﺦ و ﭼﻜﺶquot;ﻣﻲ ﺑﺎﺷﺪ:51‬
                   ‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot; ﻣﻴﺦ و ﺗﺨﺘﻪ quot; ﻣﻲ ﺑﺎﺷﺪ:01‬
                 ‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot; ﭼﻜﺶ و ﺗﺨﺘﻪquot; ﻣﻲ ﺑﺎﺷﺪ: 01‬
‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot; ﭼﻜﺶ و ﺗﺨﺘﻪ و ﻣﻴﺦ quot; ﻣﻲ ﺑﺎﺷﺪ:5‬
                                             ‫ﺣﺎل ﻗﺎدر ﺑﻪ ﻣﺤﺎﺳﺒﻪ اﻳﻢ:‬
                                       ‫ﻣﻮﺟﻮدي quot;ﻣﻴﺦ و ﭼﻜﺶquot;=5,1%‬
                                 ‫ﻣﻮﺟﻮدي quot; ﻣﻴﺦ و ﭼﻜﺶ وﺗﺨﺘﻪquot;=5,0%‬
                                 ‫درﺻﺪ اﻃﻤﻴﻨﺎن quot;ﭼﻜﺶ=<ﻣﻴﺦquot; = 03%‬
                                ‫درﺻﺪ اﻃﻤﻴﻨﺎن quot; ﻣﻴﺦ=< ﭼﻜﺶquot; = 91%‬
                          ‫درﺻﺪ اﻃﻤﻴﻨﺎن quot; ﭼﻜﺶ و ﻣﻴﺦ=<ﺗﺨﺘﻪquot; = 33%‬
                         ‫درﺻﺪ اﻃﻤﻴﻨﺎن quot; ﺗﺨﺘﻪ=< ﭼﻜﺶ و ﻣﻴﺦ quot; =52%‬

‫ﺑﻨﺎﺑﺮاﻳﻦ ﻣﺎ ﻣﻲ ﺑﻴﻨﻴﻢ ﻛﻪ اﺣﺘﻤﺎل اﻳﻨﻜﻪ ﻳﻚ ﺧﺮﻧﺪه ﭼﻜﺶ ﻣﻴﺦ ﻫﻢ ﺑﺨﺮد)03%(‬
‫ﺑﻴﺸﺘﺮ از اﺣﺘﻤﺎل آن اﺳﺖ ﻛﻪ ﻓﺮدي ﻛﻪ ﻣﻴﺦ ﻣﻲ ﺧﺮد ﭼﻜﺶ ﻫﻢ‬
‫ﺑﺨﺮد)91%(.ارﺗﺒﺎط ﭼﻜﺶ و ﻣﻴﺦ ﺑﻪ اﻧﺪازه اي ﺑﺰرگ اﺳﺖ ﻛﻪ ﻳﻚ ﻗﺎﻧﻮن ﺑﺎ‬
                                                               ‫ﻣﻌﻨﻲ ﺑﺎﺷﺪ.‬
‫‪)Lift‬ﻧﺴﺒﺘﺎ ﭘﻴﺸﺮﻓﺖ( ﻳﻜﻲ از ﻣﻌﻴﺎرﻫﺎي اﻧﺪازه ﮔﻴﺮي ﻗﺪرت ﻳﻚ ارﺗﺒﺎط‬
‫اﺳﺖ.ﻫﺮ ﭼﻪ ‪ lift‬ﺑﺰرﮔﺘﺮ ﺑﺎﺷﺪ ﺗﺎﺛﻴﺮ اﺗﻔﺎﻗﺎت ‪ A‬ﺑﺮ اﺣﺘﻤﺎل اﻳﻨﻜﻪ ‪ B‬اﺗﻔﺎق ﺑﻴﻔﺘﺪ‬
                                            ‫ﺑﻴﺸﺘﺮ اﺳﺖ.‪ lift‬ﺑﺼﻮرت ﻧﺴﺒﺖ‬
                 ‫)اﻃﻤﻴﻨﺎن ‪ (A=>B‬ﺗﻘﺴﻴﻢ ﺑﺮ ﻓﺮاواﻧﻲ ‪ B‬ﻣﺤﺎﺳﺒﻪ ﻣﻲ ﺷﻮد:‬
                                                             ‫ﺑﺮاي ﻣﺜﺎل ﻣﺎ:‬
                                              ‫‪quot; Lift‬ﭼﻜﺶ=<ﻣﻴﺦquot; :57,3‬
                                    ‫‪ quot; Lift‬ﭼﻜﺶ و ﻣﻴﺦ =<ﺗﺨﺘﻪ quot;:5,61‬
‫اﻟﮕﻮرﻳﺘﻤﻬﺎي ارﺗﺒﺎط اﻳﻦ ﻗﻮاﻧﻴﻦ را ﺑﺎ ﻣﻌﺎدل ﻣﺮﺗﺐ ﺳﺎزي داده ﻫﻨﮕﺎم ﺷﻤﺎرش‬
‫دﻓﻌﺎﺗﻲ ﻛﻪ ﻣﻲ ﺗﻮاﻧﻨﺪ درﺻﺪ اﻃﻤﻴﻨﺎن و ﻣﻮﺟﻮدي را ﻣﺤﺎﺳﺒﻪ ﻛﻨﻨﺪ ﻣﻲ ﻳﺎﺑﺪ.‬
‫اﺛﺮاﺗﻲ ﻛﻪ ﻫﺮ ﻳﻚ از اﻳﻦ ﻗﻮاﻧﻴﻦ ﻣﻲ ﺗﻮاﻧﻨﺪ داﺷﺘﻪ ﺑﺎﺷﻨﺪ ﻳﻜﻲ از ﻣﻌﻴﺎرﻫﺎي‬
‫ﺗﻔﺎوت اﻳﻦ اﻟﮕﻮرﻳﺘﻢ ﻫﺎﺳﺖ. اﻳﻦ ﻣﻌﻴﺎر ﻣﻬﻢ اﺳﺖ زﻳﺮا ﻛﻪ ﻧﺘﺎﻳﺞ ﺗﺮﻛﻴﺒﻲ ﺑﺴﻴﺎر‬
‫زﻳﺎدي از ﺗﻌﺪاد ﺑﻲ ﺷﻤﺎري از ﻗﻮاﻧﻴﻦ ﺑﺪﺳﺖ ﻣﻲ آﻳﺪ ﺣﺘﻲ ﺑﺮاي ﺳﺒﺪ ﻫﺎي‬
‫ﺧﺮﻳﺪ. ﺑﺮﺧﻲ از اﻟﮕﻮرﻳﺘﻤﻬﺎ ﻳﻚ ﭘﺎﻳﮕﺎه داده از ﻗﻮاﻧﻴﻦ, ﻓﺎﻛﺘﻮرﻫﺎي اﻳﻤﻦ, و‬
‫ﻓﺮاﻫﻢ آوردن اﻣﻜﺎن ﺟﺴﺘﺠﻮ)ﺑﺮاي ﻣﺜﺎل ﺗﻤﺎم ارﺗﺒﺎﻃﺎﺗﻲ ﻛﻪ در آن ﻛﻠﻤﻪ ﺑﺴﺘﻨﻲ‬
‫در ﻗﻮاﻧﻴﻦ ﺑﻪ ﻋﻨﻮان ﻧﺘﻴﺠﻪ آﻣﺪه و ﻓﺎﻛﺘﻮري ﺑﺮاﺑﺮ 08%را دارﻧﺪ ﻧﺸﺎن ﺑﺪه(را‬
                                                          ‫اﻳﺠﺎد ﻣﻲ ﻧﻤﺎﻳﻨﺪ.‬
‫اﻏﻠﺐ ﺗﺼﻤﻴﻢ ﮔﻴﺮي در ﻣﻮرد ﻛﺎر ﺑﺎ ﻗﻮاﻧﻴﻨﻲ ﻛﻪ ﺷﻤﺎ ﻛﺸﻒ ﻛﺮده اﻳﺪ دﺷﻮار‬
‫اﺳﺖ.ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل در ﻳﻚ ﻧﻘﺸﻪ ﺧﺮﻳﺪ ﺑﺮاي ﻣﺸﺘﺮﻳﺎن در ﻳﻚ ﻓﺮوﺷﮕﺎه‬
‫ﻗﺮاردادن ﺗﻤﺎم اﺟﻨﺎس ﻣﺮﺗﺒﻂ ﻣﻨﻄﻘﻲ ﺑﻪ ﺻﻮرت ﻓﻴﺰﻳﻜﻲ در ﻛﻨﺎر ﻳﻜﺪﻳﮕﺮ‬
‫ﻣﻤﻜﻦ اﺳﺖ ارزش ﻛﺎﻣﻞ ﺳﺒﺪ ﺧﺮﻳﺪ را ﻛﺎﻫﺶ دﻫﺪ – ﻣﺸﺘﺮﻳﺎن ﻣﻤﻜﻦ اﺳﺖ‬
‫در ﻣﺠﻤﻮع ارزش ﻛﻤﺘﺮي ﺧﺮﻳﺪ ﻛﻨﻨﺪ ﭼﻮن آﻧﻬﺎ ﺑﺮ ﺧﻼف ﻧﻘﺸﻪ ﺧﺮﻳﺪ ﻣﻮرد‬
‫ﻧﻈﺮ ﺷﻤﺎ در ﺣﻴﻦ راه رﻓﺘﻦ در ﻣﻐﺎزه اﺟﻨﺎس ﻣﻮرد دﻟﺨﻮاه ﺧﻮد را ﺧﺮﻳﺪ ﻣﻲ‬
‫ﻛﻨﻨﺪ. در ﭼﻨﻴﻦ ﺣﺎﻟﺘﻲ ﺗﻘﺮﻳﺐ و ﺗﺤﻠﻴﻞ ارﺗﺒﺎﻃﺎت ﻣﻌﻤﻮﻻ ﺑﺮاي ﺑﺪﺳﺖ آوردن‬
                 ‫ﻫﺮ ﮔﻮﻧﻪ ﺳﻮدي از ﻗﻮاﻧﻴﻦ ﻣﺮﺗﺒﻂ ﺑﺎ ﻫﻢ ﻣﻮرد ﻧﻴﺎز ﺧﻮاﻫﺪ ﺑﻮد.‬
‫روﺷﻬﺎي ﮔﺮاﻓﻴﻜﻲ ﻣﻲ ﺗﻮاﻧﻨﺪ در ﻧﻤﺎﻳﺶ ﺳﺎﺧﺘﺎر ارﺗﺒﺎﻃﺎت ﻧﻘﺶ داﺷﺘﻪ ﺑﺎﺷﻨﺪ.‬
‫در ﺷﻜﻞ زﻳﺮ ﻫﺮ ﻳﻚ از دواﻳﺮ ﻳﻚ ﻣﻘﺪار ﻳﺎ ﻳﻚ روﻳﺪاد را ﻧﻤﺎﻳﺶ ﻣﻲ دﻫﺪ.‬
‫ﺧﻄﻮط ارﺗﺒﺎﻃﻲ ﻣﻴﺎن اﻳﻦ داﻳﺮه ﻫﺎ ﻳﻚ ارﺗﺒﺎط را ﻧﺸﺎن ﻣﻲ دﻫﻨﺪ. ﺧﻄﻮط‬
            ‫ﻛﻠﻔﺖ ﺗﺮ ارﺗﺒﺎﻃﺎت ﻗﻮي ﺗﺮ و ﻓﺮاوان ﺗﺮي را ﻧﻤﺎﻳﺶ ﻣﻲ دﻫﻨﺪ. ]4[‬




                                            ‫ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﻲ از اﻧﺘﺨﺎب ﻫﺎ‬
‫ﻫﺪف داده ﻛﺎوي ﺗﻮﻟﻴﺪ داﻧﺶ ﺟﺪﻳﺪي اﺳﺖ ﻛﻪ ﻛﺎرﺑﺮ ﺑﺘﻮاﻧﺪ ﺑﺮ اﺳﺎس آن ﻛﺎر‬
‫ﺧﻮد را ﺟﻠﻮ ﺑﺮد. اﻳﻦ ﻛﺎر ﺑﻮﺳﻴﻠﻪ ﺳﺎﺧﺘﻦ ﻣﺪﻟﻲ از ﺟﻬﺎن واﻗﻌﻲ ﺑﺮ ﭘﺎﻳﻪ داده‬
‫ﻫﺎﻳﻲ ﻛﻪ از ﻣﻨﺎﺑﻊ ﮔﻮﻧﺎﮔﻮن ﺑﺪﺳﺖ ﻣﻲ آﻳﺪ ﺻﻮرت ﮔﻴﺮد ﻛﻪ اﻳﻦ ﻣﻨﺎﺑﻊ ﻣﻲ ﺗﻮاﻧﺪ‬
‫ﺷﺎﻣﻞ ﺗﺮاﻛﻨﺸﻬﺎي ﻫﻤﺎﻫﻨﮓ, ﺗﺎرﻳﺦ ﻣﺮﺑﻮط ﺑﻪ ﻫﺮ ﻣﺸﺘﺮي, اﻃﻼﻋﺎت ﻧﻤﺎﻳﺶ‬
‫ﮔﺮاﻓﻴﻜﻲ, داده ﻛﻨﺘﺮل ﻓﺮآﻳﻨﺪ و ﭘﺎﻳﮕﺎه داده ﻫﺎي ﻣﺮﺗﺒﻂ ﺧﺎرﺟﻲ ﻣﺎﻧﻨﺪ اﻃﻼﻋﺎت‬
‫اﻋﺘﺒﺎر اداري و ... ﺑﺎﺷﺪ. ﻧﺘﻴﺠﻪ ﻣﺪل ﺳﺎزي ﻳﻚ ﺳﺮي ﺗﻮﺿﻴﺤﺎت در ﻣﻮرد اﻟﮕﻮﻫﺎ‬
‫و ارﺗﺒﺎﻃﺎت داده اي ﻛﻪ ﻣﻲ ﺗﻮاﻧﺪ ﺑﻪ ﺻﻮرت ﻣﻄﻤﺌﻨﻲ ﺟﻬﺖ ﭘﻴﺶ ﺑﻴﻨﻲ آﻳﻨﺪه‬
                                                ‫ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﮔﻴﺮد.‬
‫ﺑﺮاي ﺟﻠﻮﮔﻴﺮي از ﺳﺮﮔﺮداﻧﻲ در ﻣﺮاﺣﻞ ﻣﺨﺘﻠﻒ داده ﻛﺎوي اﻳﺠﺎد ﺗﺼﻮﻳﺮي از‬
‫ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﻲ از اﻧﺘﺨﺎﺑﺎت و ﺗﺼﻤﻴﻢ ﻫﺎ ﻛﻪ ﻧﻴﺎز ﻣﻨﺪ آن ﻫﺴﺘﻴﺪ در ذﻫﻦ ﻗﺒﻞ از‬
                                     ‫ﺷﺮوع ﻛﺎر ﺑﻪ ﺷﻤﺎ ﻛﻤﻚ ﺧﻮاﻫﺪ ﻛﺮد:‬
                                                           ‫- ﻫﺪف ﻛﺎر‬
                                                     ‫- ﻧﻮع ﭘﻴﺶ ﺑﻴﻨﻲ‬
                                                   ‫- ﻧﻮع ﻣﺪل اﻧﺘﺨﺎﺑﻲ‬
                                                           ‫- اﻟﮕﻮرﻳﺘﻢ‬
                                                            ‫- ﻣﺤﺼﻮل‬


                         ‫اوﻟﻴﻦ ﮔﺎم ﻣﺸﺨﺺ ﻧﻤﻮدن ﻫﺪف ﻛﺎر ﻣﻲ ﺑﺎﺷﺪ :‬
‫ﻫﺪف ﻧﻬﺎﻳﻲ از ﺟﺴﺘﺠﻮي اﻳﻦ داده ﭼﻴﺴﺖ؟ ﺑﺮاي ﻣﺜﺎل ﺟﻬﺖ ﻳﺎﻓﺘﻦ اﻟﮕﻮﻫﺎي‬
‫ﻣﻔﻴﺪي در داده ﺧﻮد ﺑﺮاي اﻳﻦ ﻛﻪ ﺑﻪ ﺷﻤﺎ ﻛﻤﻚ ﻛﻨﺪ ﻣﺸﺘﺮﻳﺎن ﺧﻮد را ﺣﻔﻆ‬
‫ﻛﻨﻴﺪ ﺷﻤﺎ ﺑﺎﻳﺪ ﻳﻚ ﻣﺪل ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ ﺳﻮدﺑﺨﺸﻲ ﺑﻪ ﻣﺸﺘﺮي و ﻣﺪل‬
‫دﻳﮕﺮي ﺑﺮاي ﺷﻨﺎﺳﺎﻳﻲ ﻣﺸﺘﺮﻳﺎﻧﻲ ﻛﻪ آﻧﺠﺎ را ﺗﺮك ﻛﺮده اﻧﺪ ﻃﺮاﺣﻲ ﻛﻨﻴﺪ.‬
‫داﻧﺶ ﺷﻤﺎ از اﺣﺘﻴﺎﺟﺎت و اﻫﺪاف ﺳﺎزﻣﺎﻧﺘﺎن ﺷﻤﺎ را ﺑﻪ ﺳﻤﺖ ﻓﺮﻣﻮﻟﻪ ﻛﺮدن‬
                                ‫اﻫﺪاف ﻣﺪﻟﻬﺎﻳﺘﺎن راﻫﻨﻤﺎﻳﻲ ﺧﻮاﻫﺪ ﻛﺮد.‬
‫ﮔﺎم ﺑﻌﺪي ﺗﺼﻤﻴﻢ در ﻣﻮرد اﻧﺘﺨﺎب ﻧﻮﻋﻲ ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻪ از ﻫﻤﻪ ﻣﻨﺎﺳﺐ ﺗﺮ‬
                                                     ‫اﺳﺖ ﻣﻲ ﺑﺎﺷﺪ:‬
‫)1( ﻃﺒﻘﻪ ﺑﻨﺪي: ﺗﻌﻴﻴﻦ اﻳﻦ ﻛﻪ اﻳﻦ ﻣﻮرد ﺧﺎص در ﻛﺪام ﻛﻼس ﻳﺎ دﺳﺘﻪ ﻗﺮار‬
                                                                  ‫ﻣﻲ ﮔﻴﺮد.‬
‫)2( ﺣﺪس زدن اﻳﻨﻜﻪ ﻳﻚ ﻣﺘﻐﻴﺮ ﭼﻪ ﻣﻘﺪار ﻋﺪدي ﺧﻮاﻫﺪ داﺷﺖ)اﮔﺮ ﻣﺘﻐﻴﺮي‬
‫ﺑﺎﺷﺪ ﻛﻪ ﺑﺎ زﻣﺎن ﺗﻐﻴﻴﺮ ﻛﻨﺪ اﻳﻦ ﻛﺎر ﺣﺪس ﺳﺮﻳﻬﺎي زﻣﺎﻧﻲ ﻧﺎﻣﻴﺪه ﻣﻲ ﺷﻮد(.در‬
‫ﻣﺜﺎل ﺑﺎﻻ ﺷﻤﺎ ﻣﻲ ﺗﻮاﻧﻴﺪ از اﻳﻦ ﺣﺪس ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ ﻣﻘﺪار ﺳﻮددﻫﻲ و‬
‫ﻃﺒﻘﻪ ﺑﻨﺪي ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ اﻳﻨﻜﻪ ﻛﺪام ﻣﺸﺘﺮﻳﺎن ﻣﻤﻜﻦ اﺳﺖ ﺧﺮﻳﺪ ﺷﻤﺎ را‬
                                                   ‫ﺗﺮك ﻛﻨﻨﺪ اﺳﺘﻔﺎده ﻛﻨﻴﺪ.‬
                                             ‫ﺣﺎﻻ ﻧﻮﺑﺖ ﺑﻪ ﻧﻮع ﻣﺪل ﻣﻲ رﺳﺪ:‬
‫ﻛﻪ ﻋﺒﺎرت اﺳﺖ از ﻳﻚ ﺷﺒﻜﻪ ﻋﺼﺒﻲ ﺑﺮاي اﻧﺠﺎم ﺣﺪس ﻓﻮق اﻟﺬﻛﺮ و ﻳﻚ‬
‫درﺧﺖ ﺗﺼﻤﻴﻢ ﺑﺮاي ﻃﺒﻘﻪ ﺑﻨﺪي. ﻣﺪﻟﻬﺎي آﻣﺎري ﺳﻨﺘﻲ ﻧﻴﺰ ﺑﺮاي اﻧﺘﺨﺎب از‬
‫ﻣﺪﻟﻬﺎي ﻣﻌﻤﻮﻟﻲ ﺧﻄﻲ , ﺗﺤﻠﻴﻞ ﺗﻔﻜﻴﻜﻲ و ﺣﺪس ﻣﻨﻄﻘﻲ وﺟﻮد دارد.‬
‫ﻣﻬﻤﺘﺮﻳﻦ ﻧﻮع اﻳﻦ ﻣﺪﻟﻬﺎ ﺑﺮاي داده ﻛﺎوي در ﺑﺨﺶ ﺑﻌﺪ )اﻟﮕﻮرﻳﺘﻤﻬﺎ و ﻣﺪﻟﻬﺎي‬
                                            ‫داده ﻛﺎوي(ﺗﻮﺿﻴﺢ داده ﻣﻲ ﺷﻮد.‬
‫اﻟﮕﻮرﻳﺘﻤﻬﺎي زﻳﺎدي ﺑﺮاي ﺳﺎﺧﺖ ﻣﺪﻟﻬﺎﻳﺘﺎن در دﺳﺘﺮس ﻫﺴﺘﻨﺪ. ﺷﻤﺎ ﻣﻲ‬
‫ﺗﻮاﻧﻴﺪ ﺑﺎ اﺳﺘﻔﺎده از ﺗﻮاﺑﻊ ﺷﻌﺎﻋﻲ ﻳﺎ اﻧﺘﺸﺎري ﺷﺒﻜﻪ ﻋﺼﺒﻲ ﺑﺴﺎزﻳﺪ. ﺑﺮاي درﺧﺖ‬
‫ﺗﺼﻤﻴﻢ ﺷﻤﺎ ﻣﻲ ﺗﻮاﻧﻴﺪ از ﻣﻴﺎن ﻃﺮق ‪ CHAID , Quest , c5.0 , cart‬ﻳﻜﻲ‬
‫را اﻧﺘﺨﺎب ﻛﻨﻴﺪ. ﺑﺮﺧﻲ از اﻳﻦ اﻟﮕﻮرﻳﺘﻢ ﻫﺎ در ﻣﺪﻟﻬﺎ و اﻟﮕﻮرﻳﺘﻤﻬﺎي داده ﻛﺎوي‬
                                                     ‫ﺗﻮﺿﻴﺢ داده ﺷﺪه اﺳﺖ.‬
‫ﻫﻨﮕﺎم اﻧﺘﺨﺎب ﻳﻚ ﻣﺤﺼﻮل داده ﻛﺎوي ﺑﺎﻳﺪ ﺗﻮﺟﻪ داﺷﺖ ﻛﻪ اﻳﻦ ﻣﺤﺼﻮﻻت‬
‫ﭘﻴﺎده ﺳﺎزﻳﻬﺎي ﻣﺨﺘﻠﻔﻲ از ﻳﻚ اﻟﮕﻮرﻳﺘﻢ ﺧﺎص دارﻧﺪ ﺣﺘﻲ اﮔﺮ اﻳﻦ اﻟﮕﻮرﻳﺘﻢ‬
‫ﺑﺮاي ﻫﻤﻪ آﻧﻬﺎ ﻧﺎم ﻳﻜﺴﺎﻧﻲ داﺷﺘﻪ ﺑﺎﺷﺪ. اﻳﻦ ﺗﻔﺎوﺗﻬﺎ در ﭘﻴﺎده ﺳﺎزي ﻣﻲ ﺗﻮاﻧﺪ ﺑﺮ‬
‫روي ﻣﺸﺨﺼﻪ ﻫﺎي ﻗﺎﺑﻞ اﺳﺘﻔﺎده ﻣﺎﻧﻨﺪ اﺳﺘﻔﺎده از ﺣﺎﻓﻈﻪ و ذﺧﻴﺮه داده و‬
     ‫ﻫﻤﭽﻨﻴﻦ ﺑﺮ روي ﻣﺸﺨﺼﻪ ﻫﺎي ﻛﺎراﻳﻲ ﻣﺎﻧﻨﺪ ﺳﺮﻋﺖ و دﻗﺖ ﺗﺎﺛﻴﺮ ﺑﮕﺬارﻧﺪ.‬
‫ﺑﺴﻴﺎري از اﻫﺪاف ﺗﺠﺎري ﺑﻪ ﺑﻬﺘﺮﻳﻦ ﺷﻜﻞ ﺑﻪ وﺳﻴﻠﻪ ﺳﺎﺧﺖ اﻧﻮاع ﻣﺨﺘﻠﻔﻲ از‬
‫ﻣﺪﻟﻬﺎ ﺑﺎ اﺳﺘﻔﺎده از اﻟﮕﻮرﻳﺘﻤﻬﺎي ﻣﺨﺘﻠﻒ ﺑﻪ دﺳﺖ ﻣﻲ آﻳﻨﺪ. ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ‬
‫ﺗﺎ زﻣﺎﻧﻲ ﻛﻪ راه ﻫﺎي ﻣﺨﺘﻠﻔﻲ را اﻣﺘﺤﺎن ﻧﻜﻨﻴﺪ ﻗﺎدر ﻧﺒﺎﺷﻴﺪ ﺗﻌﻴﻴﻦ ﻛﻨﻴﺪ ﻛﺪام‬
                                             ‫ﻧﻮع ﻣﺪل ﺑﻬﺘﺮﻳﻦ اﺳﺖ. ]1[‬


                                                           ‫ﻃﺒﻘﻪ ﺑﻨﺪي‬
‫ﻣﺴﺎﺋﻞ ﻃﺒﻘﻪ ﺑﻨﺪي ﺑﻪ ﺷﻨﺎﺳﺎﻳﻲ ﺧﺼﻮﺻﻴﺎﺗﻲ ﻣﻨﺠﺮ ﻣﻲ ﺷﻮﻧﺪ ﻛﻪ ﻣﺸﺨﺺ ﻣﻲ‬
‫ﻧﻤﺎﻳﻨﺪ ﻫﺮ ﻣﻮرد ﺑﻪ ﻛﺪام ﮔﺮوه ﺗﻌﻠﻖ دارد.اﻳﻦ اﻟﮕﻮ ﻫﻢ ﻣﻲ ﺗﻮاﻧﺪ ﺑﺮاي ﻓﻬﻢ داده‬
‫ﻣﻮﺟﻮد و ﻫﻢ ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ اﻳﻨﻜﻪ ﻫﺮ ﻧﻤﻮﻧﻪ ﺟﺪﻳﺪ ﭼﮕﻮﻧﻪ ﻛﺎر ﻣﻲ ﻛﻨﺪ‬
‫اﺳﺘﻔﺎده ﺷﻮد. ﺑﺮاي ﻣﺜﺎل ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ ﺑﺨﻮاﻫﻴﺪ ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻨﻴﺪ ﻛﻪ آﻳﺎ‬
‫اﺷﺨﺎص ﺑﺮاي ﭘﺎﺳﺨﮕﻮﻳﻲ ﺑﻪ درﺧﻮاﺳﺖ ﻳﻚ ﻣﻴﻞ ﻣﺴﺘﻘﻴﻢ ﻛﻪ ﻣﻤﻜﻦ اﺳﺖ ﺑﻪ‬
‫ﻳﻚ دﺳﺘﮕﺎه ﺗﻠﻔﻦ ﺑﺎ ﻣﺴﺎﻓﺖ زﻳﺎد آﺳﻴﺐ ﺑﺮﺳﺎﻧﺪ ﻣﻲ ﺗﻮاﻧﻨﺪ ﮔﺮوه ﺑﻨﺪي ﺷﻮﻧﺪ ﻳﺎ‬
                              ‫ﺑﺮاي ﻳﻚ ﻋﻤﻞ ﺟﺮاﺣﻲ ﺑﺎﻳﺪ ﮔﺮوه ﺑﻨﺪي ﺷﻮﻧﺪ.‬
‫داده ﻛﺎوي ﻣﺪﻟﻬﺎي ﻃﺒﻘﻪ ﺑﻨﺪي را ﺑﻮس ي ﻟﻪ اﻣﺘﺤﺎن ﻛﺮدن داده ﻃﺒﻘﻪ ﺑﻨﺪي‬
‫ﺷﺪه)ﻣﻮارد( و ﻧﻬﺎ ي ﺗﺎ ي اﻓﺘﻦ ي ك اﻟﮕﻮي پ ي ش ﮔﻮ ا ي ﺟﺎد ﻣﻲ ﻛﻨﺪ. ا ي ن‬
‫ﻣﻮارد ﻣﻮﺟﻮد ﻣﻲ ﺗﻮاﻧﺪ از ﻳﻚ ﭘﺎﻳﮕﺎه داده ﺗﺎرﻳﺨﻲ ﻧﺎﺷﻲ ﺷﻮد ﻣﺎﻧﻨﺪ اﻃﻼﻋﺎت‬
‫اﻓﺮادي ﻛﻪ ﺗﺤﺖ ﻣﻌﺎﻟﺠﻪ داروﻳﻲ ﺧﺎﺻﻲ ﻫﺴﺘﻨﺪ و ﻳﺎ ﺑﻪ ﺳﻤﺖ ﻳﻚ ﺧﺪﻣﺖ ﺑﺎ‬
‫ﻣﺴﺎﻓﺖ دور ﺟﺬب ﺷﺪه اﻧﺪ.ﻳﺎ اﻳﻨﻜﻪ از ﺗﺠﺮﺑﻪ ﻫﺎﻳﻲ ﻛﻪ ﻃﻲ آن ﻳﻚ ﻧﻤﻮﻧﻪ از‬
‫ﺗﻤﺎم ﭘﺎﻳﮕﺎه داده در ﺟﻬﺎن واﻗﻌﻲ ﺗﺴﺖ ﺷﺪه ﺑﺎﺷﺪ و ﻧﺘﺎﻳﺞ آن ﺑﺮاي اﻳﺠﺎد ﻳﻚ‬
‫ﮔﺮوه ﺑﻨﺪ اﺳﺘﻔﺎده ﺷﺪه ﺑﺎﺷﻨﺪ ﻣﻨﺘﺞ ﺷﻮد. ﺑﺮاي ﻣﺜﺎل ﻳﻚ ﻧﻤﻮﻧﻪ از ﻟﻴﺴﺘﻲ‬
‫از ﭘﻴﺎﻣﻬﺎ ﺑﻪ ﻋﻨﻮان ﭘﻴﺸﻨﻬﺎد ﻓﺮﺳﺘﺎده ﺧﻮاﻫﺪ ﺷﺪ و ﻧﺘﺎﻳﺞ ﭘﻴﺎم رﺳﺎﻧﻲ ﺑﺮاي‬
‫ﺳﺎﺧﺖ ﻳﻚ ﻣﺪل ﻃﺒﻘﻪ ﺑﻨﺪي ﺟﻬﺖ ﺑﻜﺎر ﮔﺮﻓﺘﻪ ﺷﺪن در ﺗﻤﺎم ﭘﺎﻳﮕﺎه داده‬
                                                      ‫اﺳﺘﻔﺎده ﺧﻮاﻫﺪ ﺷﺪ.‬
                                                       ‫ﺣﺪس ﺑﺎزﮔﺸﺘﻲ‬
‫ﺣﺪس ﺑﺎزﮔﺸﺘﻲ از داده ﻫﺎي ﻣﻮﺟﻮد ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ اﻳﻦ ﻛﻪ ﻣﻘﺎدﻳﺮ داده ﻫﺎي‬
‫دﻳﮕﺮ ﭼﻪ ﺧﻮاﻫﺪ ﺑﻮد اﺳﺘﻔﺎده ﻣﻲ ﻛﻨﺪ. در ﺳﺎده ﺗﺮﻳﻦ ﺣﺎﻟﺖ ﺣﺪس ﻣﺬﻛﻮر از‬
‫ﺗﻜﻨﻴﻜﻬﺎي آﻣﺎري ﻣﺎﻧﻨﺪ ﺣﺪس ﺧﻄﻲ اﺳﺘﻔﺎده ﻣﻲ ﻛﻨﺪ. ﻣﺘﺎﺳﻔﺎﻧﻪ ﺑﺴﻴﺎري از‬
‫ﻣﺴﺎﺋﻞ ﺟﻬﺎن واﻗﻊ ﺗﺼﻮﻳﺮي ﺧﻄﻲ از ﻣﻘﺎدﻳﺮ ﻗﺒﻠﻲ ﻧﻴﺴﺘﻨﺪ. ﺑﺮاي ﻧﻤﻮﻧﻪ ﻣﻘﺎدﻳﺮ‬
‫ﻓﺮوش, ارزش ﻓﺮوش, ارزش ﺳﻬﺎم و ﻧﺮخ ورﺷﻜﺴﺘﮕﻲ ﻣﺤﺼﻮل ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ‬
‫ﺳﺨﺖ ﻣﻲ ﺑﺎﺷﺪ زﻳﺮا آﻧﻬﺎ ﻣﻤﻜﻦ اﺳﺖ ﺑﺮ ﻓﻌﻞ و اﻧﻔﻌﺎﻻت ﭘﻴﭽﻴﺪه ﺣﺎﺻﻞ از‬
‫ﭼﻨﺪﻳﻦ ﻣﺘﻐﻴﺮ ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻨﻨﺪه ﻣﺘﻜﻲ ﺑﺎﺷﻨﺪ. ﺑﻨﺎﺑﺮاﻳﻦ ﺗﻜﻨﻴﻜﻬﺎي ﭘﻴﭽﻴﺪه ﺗﺮي‬
‫ﻣﻤﻜﻦ اﺳﺖ ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ ﻣﺘﻐﻴﺮﻫﺎي آﻳﻨﺪه ﺿﺮوري ﺑﺎﺷﻨﺪ. اﻧﻮاع ﻣﺪل‬
‫ﻳﻜﺴﺎن اﻏﻠﺐ ﻣﻲ ﺗﻮاﻧﻨﺪ ﻫﻢ ﺑﺮاي ﺣﺪس ﺑﺎزﮔﺸﺘﻲ وﻫﻢ ﺑﺮاي ﻃﺒﻘﻪ ﺑﻨﺪي‬
‫اﺳﺘﻔﺎده ﺷﻮﻧﺪ. ﺑﺮاي ﻣﺜﺎل اﻟﮕﻮرﻳﺘﻢ درﺧﺖ ﺗﺼﻤﻴﻢ ‪) CART‬درﺧﺘﻬﺎي ﺣﺪس‬
‫وﻃﺒﻘﻪ ﺑﻨﺪي (ﻫﻢ ﺑﺮاي ﺳﺎﺧﺖ درﺧﺘﻬﺎي ﺣﺪس و ﻫﻢ ﺑﺮاي ﺳﺎﺧﺖ درﺧﺘﻬﺎي‬
‫ﻃﺒﻘﻪ ﺑﻨﺪي ﺑﻪ ﻛﺎر ﻣﻲ رود. ﺷﺒﻜﻪ ﻫﺎي ﻋﺼﺒﻲ ﻫﻢ ﻣﻲ ﺗﻮاﻧﻨﺪ ﻫﺮ دو ﻧﻮع ﻣﺪل‬
                                           ‫ﻧﺎم ﺑﺮده ﺷﺪه را اﻳﺠﺎد ﻧﻤﺎﻳﻨﺪ.‬
                                                      ‫ﺳﺮي ﻫﺎي زﻣﺎﻧﻲ‬
‫ﺳﺮي ﻫﺎي زﻣﺎﻧﻲ ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻨﻨﺪه ﻣﻘﺎدﻳﺮي را ﻛﻪ ﻫﻨﻮز ﻣﻘﺪارﺷﺎن ﻣﺸﺨﺺ‬
‫ﻧﻴﺴﺖ ﺑﺮ اﺳﺎس ﻳﻚ ﺳﺮي از ﭘﻴﺸﮕﻮﻫﺎي ﻣﺘﻐﻴﺮ ﺑﺎ زﻣﺎن ﭘﻴﺶ ﺑﻴﻨﻲ ﻣﻲ ﻛﻨﻨﺪ.‬
‫ﻣﺎﻧﻨﺪ ﺣﺪس ﺑﺎزﮔﺸﺘﻲ اﻳﻦ روش ﻫﻢ از ﻧﺘﺎﻳﺞ ﻣﻌﻠﻮم ﻗﺒﻠﻲ ﺑﺮاي اﻋﻤﺎل‬
‫ﭘﻴﺸﮕﻮﻳﻲ ﻫﺎي ﺑﻌﺪي اش ﺑﻬﺮه ﻣﻲ ﺑﺮد. ﻣﺪﻟﻬﺎ ﺑﺎﻳﺪ ﺧﻮاص ﻣﻨﺤﺼﺮ ﺑﻔﺮد زﻣﺎن‬
‫ﻋﻠﻲ اﻟﺨﺼﻮص ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺐ دوره ﻫﺎي زﻣﺎﻧﻲ ﻣﺎﻧﻨﺪ دوره ﻫﺎي ﻓﺼﻠﻲ ﺗﺎﺛﻴﺮات‬
‫ﺗﻘﻮﻳﻤﻲ ﻣﺎﻧﻨﺪ ﺗﻌﻄﻴﻼت ﻣﺤﺎﺳﺒﺎت ﺗﺎرﻳﺨﻲ و ﻣﻼﺣﻈﺎت ﺧﺎص ﻣﺎﻧﻨﺪ ﺗﻄﺒﻴﻖ‬
                                         ‫ﮔﺬﺷﺘﻪ ﺑﺎ ﺣﺎل را ذﺧﻴﺮه ﻧﻤﺎﻳﻨﺪ.‬
                                       ‫ﻣﺪﻟﻬﺎ و اﻟﮕﻮرﻳﺘﻤﻬﺎي داده ﻛﺎوي‬
‫ﺣﺎل ﺑﻴﺎﻳﻴﺪ ﺑﺮﺧﻲ از اﻟﮕﻮرﻳﺘﻤﻬﺎ و ﻣﺪﻟﻬﺎﻳﻲ را ﻛﻪ ﺑﺮاي ﻛﺎوش داده اﺳﺘﻔﺎده ﻣﻲ‬
‫ﺷﻮد را ﺑﺮرﺳﻲ ﻛﻨﻴﻢ. اﻏﻠﺐ ﻣﺤﺼﻮﻻت از اﻧﻮاع ﮔﻮﻧﺎﮔﻮﻧﻲ از اﻟﮕﻮرﻳﺘﻤﻬﺎ ﻛﻪ در‬
‫ﻋﻠﻢ ﻛﺎﻣﭙﻴﻮﺗﺮ ﻳﺎ ﻣﻘﺎﻻت آﻣﺎري اراﺋﻪ ﺷﺪه ﺑﻪ ﻫﻤﺮاه ﭘﻴﺎده ﺳﺎزي ﺧﺎص آﻧﻬﺎ ﻛﻪ‬
‫ﺟﻬﺖ رﺳﻴﺪن ﺑﻪ ﻫﺪف ﻓﺮوﺷﻨﺪه ﻣﻲ ﺑﺎﺷﺪ اﺳﺘﻔﺎده ﻣﻲ ﻧﻤﺎﻳﻨﺪ. ﺑﺮاي ﻣﺜﺎل‬
‫ﺑﺴﻴﺎري از ﻓﺮوﺷﻨﺪﮔﺎن ﻧﺴﺨﻪ ﻫﺎﻳﻲ از درﺧﺘﻬﺎي ﺗﺼﻤﻴﻢ ‪ CART‬ﻳﺎ‬
‫‪ CHAID‬را ﺑﻪ ﻫﻤﺮاه اﻣﻜﺎﻧﺎﺗﻲ ﺑﺮاي ﻛﺎر ﺑﺮ روي ﻛﺎﻣﭙﻴﻮﺗﺮﻫﺎي ﻣﻮازي ﻣﻲ‬
‫ﻓﺮوﺷﻨﺪ. ﺑﺮﺧﻲ از ﻓﺮوﺷﻨﺪﮔﺎن اﻟﮕﻮرﻳﺘﻤﻬﺎي ﻣﺨﺘﺺ ﺧﻮد دارﻧﺪ ﻛﻪ ﮔﺮﭼﻪ‬
‫ﻣﻤﻜﻦ اﺳﺖ واﺑﺴﺘﮕﻲ ﻫﺎ ﻳﺎ اﻣﻜﺎﻧﺎت اﺿﺎﻓﻲ ﻧﺪاﺷﺘﻪ ﺑﺎﺷﺪ اﻣﺎ ﻣﻲ ﺗﻮاﻧﺪ ﺧﻮب ﻛﺎر‬
                                                                   ‫ﻛﻨﺪ.‬
‫ﺷﺎﻳﺪ ﻣﻬﻤﺘﺮﻳﻦ ﻧﻜﻨﻪ اي ﺑﺎﺷﺪ ﻛﻪ ﻫﻴﭻ ﻣﺪل ﻳﺎ اﻟﮕﻮرﻳﺘﻤﻲ ﻧﻤﻲ ﺗﻮاﻧﺪ و ﻧﺒﺎﻳﺪ ﺑﻪ‬
‫ﺗﻨﻬﺎﻳﻲ اﺳﺘﻔﺎده ﺷﻮد. ﺑﺮاي ﻫﺮ ﻣﺴﺎﻟﻪ داده ﺷﺪه ﻃﺒﻴﻌﺖ داده اﺳﺘﻔﺎده ﺷﺪه ﺑﺮ‬
‫روي اﻧﺘﺨﺎب ﻣﺪﻟﻬﺎ و اﻟﮕﻮرﻳﺘﻤﻬﺎﻳﻲ ﻛﻪ ﺷﻤﺎ ﺑﺮ ﻣﻲ ﮔﺰﻳﻨﻴﺪ ﺗﺎﺛﻴﺮ ﺧﻮاﻫﺪ‬
‫ﮔﺬاﺷﺖ. ﻧﻤﻲ ﺗﻮان ﻫﻴﭻ ﻣﺪل ﻳﺎ اﻟﮕﻮرﻳﺘﻤﻲ را در اﻳﻦ زﻣﻴﻨﻪ ﺑﻬﺘﺮﻳﻦ ﻧﺎﻣﻴﺪ.‬
‫ﻧﺘﻴﺠﺘﺎ ﺷﻤﺎ ﺑﻪ ﻳﻚ ﺳﺮي اﺑﺰار و ﺗﻜﻨﻮﻟﻮژي ﺟﻬﺖ ﻳﺎﻓﺘﻦ ﺑﻬﺘﺮﻳﻦ ﻣﺪل ﻣﻤﻜﻨﻪ‬
                                                   ‫ﻧﻴﺎز ﺧﻮاﻫﻴﺪ داﺷﺖ. ]3[‬
                                                     ‫ﺷﺒﻜﻪ ﻫﺎي ﻋﺼﺒﻲ‬
‫ﺷﺒﻜﻪ ﻫﺎي ﻋﺼﺒﻲ ﺑﻪ ﻃﻮر ﺧﺎﺻﻲ ﻣﻮرد اﺳﺘﻔﺎده اﻧﺪ ﭼﺮا ﻛﻪ آﻧﻬﺎ اﺑﺰاري ﻣﻮﺛﺮ‬
‫ﺑﺮاي ﻣﺪﻟﺴﺎزي ﻣﺴﺎﺋﻞ ﺑﺰرگ و ﭘﻴﭽﻴﺪه ﻛﻪ ﻣﻤﻜﻦ اﺳﺖ در آﻧﻬﺎ ﺻﺪﻫﺎ ﻣﺘﻐﻴﺮ‬
‫ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻨﻨﺪه ﻛﻪ ﻓﻌﻞ و اﻧﻔﻌﺎﻻت زﻳﺎدي دارﻧﺪ وﺟﻮد داﺷﺘﻪ ﺑﺎﺷﺪ.)ﺷﺒﻜﻪ‬
‫ﻫﺎي ﻋﺼﺒﻲ زﻳﺴﺘﻲ ﺑﻄﻮر ﻏﻴﺮ ﻗﺎﺑﻞ ﻣﻘﺎﻳﺴﻪ اي ﭘﻴﭽﻴﺪه ﺗﺮ ﻫﺴﺘﻨﺪ.(ﺷﺒﻜﻪ ﻫﺎي‬
‫ﻋﺼﺒﻲ ﻣﻲ ﺗﻮاﻧﻨﺪ در ﻣﺴﺎﺋﻞ ﻃﺒﻘﻪ ﺑﻨﺪي ﻳﺎ ﺣﺪﺳﻬﺎي ﺑﺎزﮔﺸﺘﻲ)ﻛﻪ در آﻧﻬﺎ‬
                                 ‫ﻣﺘﻐﻴﺮ ﺧﺮوﺟﻲ ﭘﻴﻮﺳﺘﻪ اﺳﺖ( اﺳﺘﻔﺎده ﺷﻮﻧﺪ.‬
‫ﻳﻚ ﺷﺒﻜﻪ ﻋﺼﺒﻲ ﺑﺎ ﻳﻚ ﻻﻳﻪ داﺧﻠﻲ ﺷﺮوع ﻣﻲ ﺷﻮد ﻛﻪ در آن ﻫﺮ ﮔﺮه ﺑﻪ ﻳﻚ‬
‫ﻣﺘﻐﻴﺮ ﭘﻴﺸﮕﻮ ﻣﻨﺴﻮب ﻣﻲ ﮔﺮدد. اﻳﻦ ﮔﺮه ﻫﺎي ورودي ﺑﻪ ﻳﻚ ﺗﻌﺪاد از ﮔﺮه ﻫﺎ‬
‫در ﻻﻳﻪ ﭘﻨﻬﺎن ﻣﺘﺼﻞ ﻣﻲ ﺷﻮﻧﺪ.ﮔﺮه ﻫﺎ در ﻻﻳﻪ ﭘﻨﻬﺎن ﻣﻲ ﺗﻮاﻧﻨﺪ ﺑﻪ ﮔﺮه ﻫﺎﻳﻲ‬
‫در ﻳﻚ ﻻﻳﻪ ﭘﻨﻬﺎن دﻳﮕﺮ ﻳﺎ ﺑﻪ ﻳﻚ ﻻﻳﻪ ﺧﺮوﺟﻲ ﻣﺘﺼﻞ ﺷﻮد. ﻻﻳﻪ ﺧﺮوﺟﻲ ﺧﻮد‬
                              ‫ﺷﺎﻣﻞ ﻳﻚ ﻳﺎ ﺑﻴﺸﺘﺮ ﻣﺘﻐﻴﺮﻫﺎي ﺟﻮاب ﻣﻲ ﺑﺎﺷﺪ.‬
‫ﻳﻚ ﺷﺒﻜﻪ ﻋﺼﺒﻲ ﺑﺎ ﻳﻚ ﻻﻳﻪ ﭘﻨﻬﺎن‬

                                                      ‫درﺧﺖ ﻫﺎي اﻧﺘﺨﺎب‬
‫درﺧﺖ ﻫﺎي اﻧﺘﺨﺎب راﻫﻲ ﺑﺮاي ﻧﻤﺎﻳﺶ ﻳﻚ ﺳﺮي از ﻗﻮاﻧﻴﻦ ﻛﻪ ﺑﻪ ﻳﻚ ﻛﻼس‬
‫ﻳﺎ ﻣﻘﺪار ﻣﻨﺠﺮ ﻣﻲ ﺷﻮد ﻣﻲ ﺑﺎﺷﻨﺪ. ﺑﺮاي ﻣﺜﺎل ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ ﺑﺨﻮاﻫﻴﺪ‬
‫درﺧﻮاﺳﺘﻬﺎي وام را ﺑﺮﺣﺴﺐ رﻳﺴﻚ اﻋﺘﺒﺎر ﺧﻮب ﻳﺎ ﺑﺪ ﻃﺒﻘﻪ ﺑﻨﺪي ﻛﻨﻴﺪ. ﺷﻜﻞ‬
‫ﺑﻌﺪ ﻳﻚ ﻣﺪل ﺳﺎده از ﻳﻚ درﺧﺖ اﻧﺘﺨﺎب ﺑﻪ ﻫﻤﺮاه ﺗﻮﺿﻴﺢ در ﻣﻮرد ﺗﻤﺎم ﺑﺴﺘﻪ‬
‫ﻫﺎي ﭘﺎﻳﻪ آن ﻳﻌﻨﻲ ﮔﺮه اﻧﺘﺨﺎب, ﺷﺎﺧﻪ ﻫﺎ و ﺑﺮﮔﻬﺎي آن ﻛﻪ اﻳﻦ ﻣﺴﺎﻟﻪ را ﺣﻞ‬
                                               ‫ﻣﻲ ﻛﻨﺪ ﻧﺸﺎن ﻣﻲ دﻫﺪ.‬




‫اوﻟﻴﻦ ﺑﺴﺘﻪ ﮔﺮه ﺑﺎﻻﻳﻲ ﺗﺼﻤﻴﻢ ﻳﺎ رﻳﺸﻪ ﻣﻲ ﺑﺎﺷﺪ ﻛﻪ ﻳﻚ ﺑﺮرﺳﻲ ﺟﻬﺖ‬
‫ﺑﺮﻗﺮاري ﺷﺮط ﺧﺎﺻﻲ ﻣﻲ ﻧﻤﺎﻳﺪ. ﮔﺮه رﻳﺸﻪ در اﻳﻦ ﻣﺜﺎل‬
‫“ 000,04$>‪ ” Income‬ﻣﻲ ﺑﺎﺷﺪ. ﻧﺘﺎﻳﺞ اﻳﻦ ﺑﺮرﺳﻲ ﻣﻨﺠﺮ ﻣﻲ ﺷﻮد ﻛﻪ‬
‫درﺧﺖ ﺑﻪ دوﺷﺎﺧﻪ ﺗﻘﺴﻴﻢ ﮔﺮددﻛﻪ ﻫﺮ ﻳﻚ ﻧﺸﺎن دﻫﻨﺪه ﺟﻮاﺑﻬﺎي ﻣﻤﻜﻦ‬
‫اﺳﺖ.در اﻳﻦ ﻣﻮرد ﺑﺮرﺳﻲ ﺷﺮط ﻣﺬﻛﻮر ﻣﻲ ﺗﻮاﻧﺪ داراي ﺟﻮاب ﺧﻴﺮ ﻳﺎ ﺑﻠﻪ ﺑﺎﺷﺪ‬
                                                ‫در ﻧﺘﻴﺠﻪ دو ﺷﺎﺧﻪ دارﻳﻢ.‬
‫ﺑﺮاﺳﺎس ﻧﻮع اﻟﮕﻮرﻳﺘﻢ ﻫﺮ ﮔﺮه ﻣﻲ ﺗﻮاﻧﺪ دو ﻳﺎ ﺗﻌﺪاد ﺑﻴﺸﺘﺮي ﺷﺎﺧﻪ داﺷﺘﻪ‬
‫ﺑﺎﺷﺪ. ﺑﺮاي ﻣﺜﺎل ‪ CART‬درﺧﺘﻬﺎﻳﻲ ﺑﺎ ﺗﻨﻬﺎ دوﺷﺎﺧﻪ در ﻫﺮ ﮔﺮه ﺗﻮﻟﻴﺪ ﻣﻲ‬
                          ‫ﻛﻨﺪ.ﭼﻨﻴﻦ درﺧﺘﻲ ﻳﻚ درﺧﺖ دودوﻳﻲ ﻣﻲ ﺑﺎﺷﺪ.‬
‫ﻣﺪﻟﻬﺎي ﻣﺨﺘﻠﻒ درﺧﺖ ﺗﺼﻤﻴﻢ ﺑﻄﻮر ﻋﻤﻮﻣﻲ در داده ﻛﺎوي ﺑﺮاي ﻛﺎوش داده و‬
‫ﺑﺮاي اﺳﺘﻨﺘﺎج درﺧﺖ و ﻗﻮاﻧﻴﻦ آن ﻛﻪ ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﻣﻲ‬
‫ﮔﻴﺮد اﺳﺘﻔﺎده ﻣﻲ ﺷﻮﻧﺪ. ﻳﻚ ﺗﻌﺪاد از اﻟﮕﻮرﻳﺘﻤﻬﺎي ﻣﺨﺘﻠﻒ ﻣﻲ ﺗﻮاﻧﻨﺪ ﺑﺮاي‬
‫ﺳﺎﺧﺖ درﺧﺘﻬﺎي ﺗﺼﻤﻴﻢ ﺷﺎﻣﻞ ‪ Quest , CART , CHAID‬و 0.5‪ C‬ﺑﻜﺎر‬
                                                                  ‫روﻧﺪ.‬
‫اﻧﺪازه درﺧﺖ ﻣﻲ ﺗﻮاﻧﺪ از ﻃﺮﻳﻖ ﻗﻮاﻧﻴﻦ ﻣﺘﻮﻗﻒ ﺷﻮﻧﺪه ﻛﻪ رﺷﺪ درﺧﺖ را‬
                                        ‫ﻣﺤﺪود ﻣﻲ ﻛﻨﻨﺪ ﻛﻨﺘﺮل ﺷﻮد. ]3[‬
                                                        ‫اﺳﺘﻨﺘﺎج ﻗﺎﻧﻮن‬
‫اﺳﺘﻨﺘﺎج ﻗﺎﻧﻮن روﺷﻲ ﺑﺮاي ﺑﺪﺳﺖ آوردن ﻳﻚ ﺳﺮي از ﻗﻮاﻧﻴﻦ ﺑﺮاي ﻃﺒﻘﻪ ﺑﻨﺪي‬
‫ﻣﻮارد ﻣﻲ ﺑﺎﺷﺪ. اﮔﺮﭼﻪ درﺧﺘﻬﺎي ﺗﺼﻤﻴﻢ ﻣﻲ ﺗﻮاﻧﻨﺪ ﻳﻚ ﺳﺮي ﻗﻮاﻧﻴﻦ ﺗﻮﻟﻴﺪ‬
‫ﻛﻨﻨﺪ روﺷﻬﺎي اﺳﺘﻨﺘﺎج ﻗﺎﻧﻮن ﻳﻚ ﻣﺠﻤﻮﻋﻪ از ﻗﻮاﻧﻴﻦ واﺑﺴﺘﻪ ﻛﻪ ﺿﺮورﺗﺎ‬
‫درﺧﺘﻲ ﺗﺸﻜﻴﻞ ﻧﻤﻲ دﻫﻨﺪ را ﺗﻮﻟﻴﺪ ﻣﻲ ﻧﻤﺎﻳﺪ. ﭼﻮن اﺳﺘﻨﺘﺎج ﻛﻨﻨﺪه ﻗﻮاﻧﻴﻦ‬
‫ﻟﺰوﻣﺎ اﻧﺸﻌﺎﺑﻲ در ﻫﺮ ﺳﻄﺢ ﻗﺮار ﻧﻤﻲ دﻫﺪ و ﻣﻲ ﺗﻮاﻧﺪ ﮔﺎم ﺑﻌﺪي را ﺗﺸﺨﻴﺺ‬
‫دﻫﺪ ﮔﺎﻫﻲ اوﻗﺎت ﻣﻲ ﺗﻮاﻧﺪ اﻟﮕﻮﻫﺎي ﻣﺨﺘﻠﻒ و ﺑﻬﺘﺮي را ﺑﺮاي ﻃﺒﻘﻪ ﺑﻨﺪي‬
‫ﺑﻴﺎﺑﺪ. ﺑﺮﺧﻼف درﺧﺘﺎن ﻗﻮاﻧﻴﻦ ﺗﻮﻟﻴﺪي ﻣﻤﻜﻦ اﺳﺖ ﺗﻤﺎم ﺣﺎﻟﺘﻬﺎي ﻣﻤﻜﻦ را‬
                                                      ‫ﭘﻮﺷﺶ ﻧﺪﻫﻨﺪ.‬
                                                  ‫اﻟﮕﻮرﻳﺘﻤﻬﺎي ژﻧﺘﻴﻚ‬
‫اﻟﮕﻮرﻳﺘﻤﻬﺎي ژﻧﺘﻴﻚ ﺑﺮاي ﻳﺎﻓﺖ اﻟﮕﻮﻫﺎ اﺳﺘﻔﺎده ﻧﻤﻲ ﺷﻮد ﺑﻠﻜﻪ ﺑﻴﺸﺘﺮ ﺑﻪ ﻣﻨﻈﻮر‬
‫راﻫﻨﻤﺎﻳﻲ در ﻣﻮرد ﻓﺮآﻳﻨﺪ ﻳﺎدﮔﻴﺮي اﻟﮕﻮرﻳﺘﻤﻬﺎي داده ﻛﺎوي ﻣﺎﻧﻨﺪ ﺷﺒﻜﻪ ﻫﺎي‬
‫ﻋﺼﺒﻲ ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﻣﻲ ﮔﻴﺮد. اﻟﮕﻮرﻳﺘﻤﻬﺎي ژﻧﺘﻴﻚ ﺑﻪ ﻋﻨﻮان ﻳﻚ ﻣﺘﺪ‬
‫ﺟﻬﺖ اﻧﺠﺎم ﻳﻚ ﺟﺴﺘﺠﻮي ﻫﺪاﻳﺖ ﺷﺪه ﺑﺮاي ﻣﺪﻟﻬﺎي ﺧﻮب در ﻓﻀﺎي ﺣﻞ‬
                                                  ‫ﻣﺴﺎﻟﻪ ﻋﻤﻞ ﻣﻲ ﻛﻨﺪ.‬
‫اﻳﻦ اﻟﮕﻮرﻳﺘﻤﻬﺎ, اﻟﮕﻮرﻳﺘﻤﻬﺎي ژﻧﺘﻴﻚ ﻧﺎﻣﻴﺪه ﻣﻲ ﺷﻮﻧﺪ ﭼﻮن ﺑﻄﻮر ﺑﻲ ﻗﺎﻋﺪه اي‬
‫اﻟﮕﻮي ﺗﻜﺎﻣﻞ زﻳﺴﺘﻲ ﻛﻪ در آن اﻋﻀﺎي ﻳﻚ ﻧﺴﻞ ﺑﺮ ﺳﺮ اﻧﺘﻘﺎل ﺧﺼﻮﺻﻴﺎت‬
‫ﺧﻮد ﺑﻪ ﻧﺴﻞ ﺑﻌﺪ رﻗﺎﺑﺖ ﻣﻲ ﻛﻨﻨﺪ ﺗﺎ ﻧﻬﺎﻳﺘﺎ ﺑﻬﺘﺮﻳﻦ ﻣﺪل ﻳﺎﻓﺖ ﺷﻮد را دﻧﺒﺎل‬
‫ﻣﻲ ﻛﻨﻨﺪ. اﻃﻼﻋﺎﺗﻲ ﻛﻪ ﺑﺎﻳﺪ اﻧﺘﻘﺎل داده ﺷﻮد در ﻗﺎﻟﺐ ﻛﺮوﻣﻮزﻣﻬﺎ ﻛﻪ ﺷﺎﻣﻞ‬
                    ‫ﭘﺎراﻣﺘﺮﻫﺎﻳﻲ ﺑﺮاي ﺳﺎﺧﺘﻦ ﻣﺪل ﻣﻲ ﺑﺎﺷﺪ ﻗﺮار ﻣﻲ ﮔﻴﺮد.‬
                                                    ‫ﻓﺮآﻳﻨﺪ داده ﻛﺎوي‬
                                                       ‫ﻣﺪﻟﻬﺎي ﻓﺮآﻳﻨﺪ‬
‫ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﻳﻨﻜﻪ ﻳﻚ ﻓﺮآﻳﻨﺪ ﺳﻴﺴﺘﻤﺎﺗﻴﻚ ﺑﺮاي داده ﻛﺎوي ﻣﻮﻓﻖ ﺿﺮوري اﺳﺖ‬
‫ﺑﺴﻴﺎري از ﻓﺮوﺷﻨﺪﮔﺎن و ﻫﻤﻔﻜﺮان ﻣﺸﺎور آﻧﻬﺎ ﻳﻚ ﻣﺪل ﻓﺮآﻳﻨﺪ ﺑﺮاي راﻫﻨﻤﺎﻳﻲ‬
‫ﻛﺎرﺑﺮ ﺧﻮد ﻛﻪ از ﻃﺮﻳﻖ ﻳﻚ ﺳﺮي ﻣﺮاﺣﻞ ﻣﺸﺨﺺ او را ﺑﻪ ﻧﺘﺎﻳﺞ ﺧﻮﺑﻲ ﻫﺪاﻳﺖ‬
‫ﺧﻮاﻫﺪ ﻛﺮد ﻃﺮاﺣﻲ ﻛﺮدﻧﺪ. ﺑﺮاي ﻣﺜﺎل ‪ SPSS‬از ﻣﺮاﺣﻞ ﭘﻨﺠﮕﺎﻧﻪ ﺗﺸﺨﻴﺺ‬
‫دﺳﺘﺮﺳﻲ ﺗﺤﻠﻴﻞ ﻋﻤﻞ و اﺗﻮﻣﺎﺳﻴﻮن و ‪ SAS‬از ﻣﺮاﺣﻞ ﻧﻤﻮﻧﻪ ﮔﻴﺮي, ﺟﺴﺘﺠﻮ,‬
                      ‫ﺗﻐﻴﻴﺮ و ﺑﻬﺒﻮد, ﻣﺪل ﺳﺎزي و ﺗﻌﻴﻴﻦ اﺳﺘﻔﺎده ﻣﻲ ﻧﻤﺎﻳﺪ.‬
‫اﺧﻴﺮا اﺋﺘﻼف ﻓﺮوﺷﻨﺪﮔﺎن وﻛﺎرﺑﺮان ﺷﺎﻣﻞ ﺳﻴﺴﺘﻤﻬﺎي ﻣﻬﻨﺪﺳﻲ ‪NCR‬‬
‫ﻛﭙﻨﻬﺎك, راه ﺣﻠﻬﺎي ﺟﺎﻣﻊ ‪ SPSS‬و ﺑﺎﻧﻚ ‪ OHRA‬در ﺣﺎل ﺳﺎﺧﺘﻦ ﻳﻚ‬
‫ﻓﺮآﻳﻨﺪ ﺧﺎص ﻛﻪ ﺑﻪ ﻓﺮآﻳﻨﺪ اﺳﺘﺎﻧﺪارد ﺻﻨﻌﺘﻲ داده ﻛﺎوي )‪(CRISP-DM‬‬
‫ﻣﻮﺳﻮم اﺳﺖ ﻣﻲ ﺑﺎﺷﻨﺪ. اﻳﻦ ﻓﺮآﻳﻨﺪ ﺑﺮاي ﭘﺮدازش ﻣﺪﻟﻬﺎي ﺷﺮﻛﺘﻬﺎي دﻳﮕﺮ ﻛﻪ‬
‫ﻳﻚ ﻛﺎره ﻳﺎ دو ﻛﺎره ﻫﺴﺘﻨﺪ ﻳﻜﺴﺎن ﻣﻲ ﺑﺎﺷﺪ. اﻳﻦ ﻓﺮآﻳﻨﺪ ﺷﺮوع ﺧﻮﺑﻲ ﺑﺮاي‬
  ‫ﻛﻤﻚ ﺑﻪ ﻣﺮدم ﺟﻬﺖ ﻓﻬﻢ ﻣﺮاﺣﻞ ﺿﺮوري در داده ﻛﺎوي ﻣﻮﻓﻖ ﻣﻲ ﺑﺎﺷﺪ. ]1[‬
                                                 ‫ﻣﺪل ﻓﺮآﻳﻨﺪ دو ﺳﻮﻳﻪ‬
‫ﻣﺪل ﻓﺮآﻳﻨﺪ دو ﺳﻮﻳﻪ ﻛﻪ در زﻳﺮ ﺗﻮﺿﻴﺢ داده ﺷﺪه اﺳﺖ ﺑﺮﺧﻲ از ﻣﻮارد ﭘﻴﺶ‬
                           ‫ﺑﻴﻨﻲ را از ﻣﺪل ‪ CRISP-DM‬ﺑﻪ ارث ﻣﻲ ﺑﺮد.‬
                   ‫ﮔﺎﻣﻬﺎي اﺻﻠﻲ داده ﻛﺎوي ﺟﻬﺖ ﻛﺸﻒ داﻧﺶ ﻋﺒﺎرﺗﻨﺪ از:‬
‫1- ﺗﻌﺮﻳﻒ ﻣﺴﺎﻟﻪ‬
                         ‫2- ﺳﺎﺧﺘﻦ ﭘﺎﻳﮕﺎه داده ﻣﺮﺑﻮط ﺑﻪ داده ﻛﺎوي‬
                                                ‫3- ﺟﺴﺘﺠﻮي داده‬
                            ‫4- آﻣﺎده ﺳﺎﺧﺘﻦ داده ﺑﺮاي ﻣﺪل ﺳﺎزي‬
                                                  ‫5- ﺳﺎﺧﺘﻦ ﻣﺪل‬
                                                   ‫6- ارزﻳﺎﺑﻲ ﻣﺪل‬
                                            ‫7- ﺳﺎﺧﺖ ﻣﺪل وﻧﺘﺎﻳﺞ‬
     ‫ﺑﻪ ﺳﺮاغ اﻳﻦ ﮔﺎﻣﻬﺎ ﻣﻲ روﻳﻢ ﺗﺎ ﻓﺮآﻳﻨﺪ ﻛﺸﻒ داﻧﺶ را ﺑﻬﺘﺮ ﻣﺘﻮﺟﻪ ﺷﻮﻳﻢ.‬
                                                   ‫1- ﺗﻌﺮﻳﻒ ﻣﺴﺎﻟﻪ‬
‫در اﺑﺘﺪاي اﻣﺮ ﭘﻴﺶ زﻣﻴﻨﻪ ﻛﺸﻒ داﻧﺶ ﻓﻬﻢ درﺳﺖ داده و ﻣﺴﺎﻟﻪ ﻣﻲ ﺑﺎﺷﺪ.‬
‫ﺑﺪون اﻳﻦ ﻓﻬﻢ درﺳﺖ ﻫﻴﭻ اﻟﮕﻮرﻳﺘﻤﻲ ﺻﺮف ﻧﻈﺮ از ﺧﺒﺮه ﺑﻮدن آن ﻧﻤﻲ‬
‫ﺗﻮاﻧﺪ ﻧﺘﻴﺠﻪ ﻣﻄﻤﺌﻨﻲ ﺑﺮاي ﺷﻤﺎ ﺣﺎﺻﻞ ﻧﻤﺎﻳﺪ و ﻫﻤﭽﻨﻴﻦ ﺷﻤﺎ ﻗﺎدر ﻧﺨﻮاﻫﻴﺪ‬
‫ﺑﻮد ﻛﻪ ﻣﺴﺎﺋﻠﻲ را ﻛﻪ ﺳﻌﻲ در ﺣﻞ آن دارﻳﺪ ﺗﻌﺮﻳﻒ ﻛﺮده و ﻫﻤﭽﻨﻴﻦ داده‬
‫را ﺟﻬﺖ ﻛﺎوش آﻣﺎده ﻧﻤﻮده و ﻳﺎ ﻧﺘﺎﻳﺞ را ﺑﻪ ﻃﻮر ﺻﺤﻴﺢ ﺗﻔﺴﻴﺮ ﻧﻤﺎﺋﻴﺪ.‬
‫ﺑﺮاي اﺳﺘﻔﺎده ﺑﻬﺘﺮ از داده ﻛﺎوي ﺷﻤﺎ ﺑﺎﻳﺪ ﻳﻚ ﺑﻴﺎن واﺿﺢ از ﻫﺪف ﺧﻮد‬
                                                   ‫داﺷﺘﻪ ﺑﺎﺷﻴﺪ. ]1[‬
                                   ‫ﺳﺎﺧﺘﻦ ﻳﻚ ﭘﺎﻳﮕﺎه داده داده ﻛﺎوي‬
‫اﻳﻦ ﮔﺎم ﺑﻪ ﻫﻤﺮاه دو ﮔﺎم ﺑﻌﺪي ﻫﺴﺘﻪ آﻣﺎده ﺳﺎزي داده را ﺗﺸﻜﻴﻞ ﻣﻲ‬
‫دﻫﻨﺪ. در ﻣﺠﻤﻮع ﮔﺎﻣﻬﺎي ﮔﻔﺘﻪ ﺷﺪه وﻗﺖ و ﻛﺎر ﺑﻴﺸﺘﺮي از ﺳﺎﻳﺮ ﮔﺎﻣﻬﺎ ﻣﻲ‬
‫ﺑﺮﻧﺪ. ﻣﻤﻜﻦ اﺳﺖ ﺷﻤﺎ ﮔﺎﻣﻬﺎي ﺗﻜﺮاري در آﻣﺎده ﺳﺎزي داده و ﺳﺎﺧﺘﻦ ﻣﺪل‬
‫داﺷﺘﻪ ﺑﺎﺷﻴﺪ ﭼﺮا ﻛﻪ در ﻫﺮ ﻣﺮﺣﻠﻪ ﻣﻤﻜﻦ اﺳﺖ ﺑﻪ ﻧﻜﺘﻪ اي ﺑﺮﺳﻴﺪ ﻛﻪ ﺷﻤﺎ‬
‫را ﺑﺮ آن دارد داده ﺧﻮد را ﺑﻬﺒﻮد ﺑﺨﺸﻴﺪ. اﻳﻦ ﮔﺎﻣﻬﺎي آﻣﺎده ﺳﺎزي داده ﻣﻲ‬
‫ﺗﻮاﻧﺪ 05% ﺗﺎ 09% وﻗﺖ و ﻛﺎر از ﺗﻤﺎم ﻓﺮآﻳﻨﺪ ﻛﺸﻒ داﻧﺶ را ﺑﻪ ﺧﻮد‬
                                               ‫اﺧﺘﺼﺎص دﻫﺪ.‬
‫داده اي ﻛﻪ ﻣﻲ ﺧﻮاﻫﺪ ﻛﺎوش ﺷﻮد ﺑﺎﻳﺪ در ﻳﻚ ﭘﺎﻳﮕﺎه داده ذﺧﻴﺮه ﺷﻮد. ﺑﺮ‬
‫اﺳﺎس ﻣﻘﺪار داده, ﭘﻴﭽﻴﺪﮔﻲ داده و اﺳﺘﻔﺎده ﻫﺎﻳﻲ ﻛﻪ ﻗﺮار اﺳﺖ از آن ﺷﻮد‬
     ‫ﻳﻚ ﻓﺎﻳﻞ ﻣﻌﻤﻮﻟﻲ و ﻳﺎ ﻳﻚ ‪ SpreadSheet‬ﺑﺮاي اﻳﻦ ﻛﺎر ﻛﺎﻓﻲ اﺳﺖ.‬
‫ﺑﻪ اﺣﺘﻤﺎل زﻳﺎد ﺷﻤﺎ ﻣﻲ ﺧﻮاﻫﻴﺪ داده ﻣﻮﺟﻮد در اﻧﺒﺎره داده را ﺗﻐﻴﻴﺮ دﻫﻴﺪ.‬
‫ﺑﻪ ﻋﻼوه ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ ﺑﺨﻮاﻫﻴﺪ ﻓﻴﻠﺪﻫﺎي ﺟﺪﻳﺪي ﻛﻪ از ﻓﻴﻠﺪﻫﺎي‬
‫ﻣﻮﺟﻮد ﻣﺤﺎﺳﺒﻪ ﺷﺪه اﺳﺖ را ﺑﻪ اﻧﺒﺎر داده ﺧﻮد ﺑﻴﺎﻓﺰاﻳﻴﺪ.اﻳﻦ ﻳﻜﻲ از دﻻﻳﻞ‬
                                  ‫اﺳﺘﻔﺎده از ﻳﻚ ﭘﺎﻳﮕﺎه داده ﺟﺪاﮔﺎﻧﻪ اﺳﺖ.‬
‫دﻟﻴﻞ دﻳﮕﺮ ﺑﺮاي اﻳﻦ ﻛﺎر آن اﺳﺖ ﻛﻪ اﻧﺒﺎر داده ﻫﺎي ﻳﻜﻲ ﺷﺪه ﻣﻤﻜﻦ اﺳﺖ‬
‫ﺑﻪ آﺳﺎﻧﻲ اﻧﻮاع ﺟﺴﺘﺠﻮﻫﺎﻳﻲ را ﻛﻪ ﺷﻤﺎ ﺑﺮاي ﻓﻬﻢ داده ﺑﻪ آﻧﻬﺎ ﻧﻴﺎز دارﻳﺪ‬
‫اﻧﺠﺎم ﻧﺪﻫﺪ. ﻣﺎﻧﻨﺪ ﭘﺮس و ﺟﻮﻫﺎﻳﻲ ﻛﻪ داده را ﺧﻼﺻﻪ ﻣﻲ ﻛﻨﺪ, ﮔﺰارﺷﺎت‬
                    ‫ﭼﻨﺪ ﺑﻌﺪي و ﺑﺴﻴﺎري از اﻧﻮاع دﻳﮕﺮ از ﮔﺮاﻓﻬﺎ ﻳﺎ ﻣﺼﻮرات.‬
‫و دﻟﻴﻞ آﺧﺮ اﻳﻨﻜﻪ ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ ﺑﺨﻮاﻫﻴﺪ اﻳﻦ داده را در ﻳﻚ ﺳﻴﺴﺘﻢ‬
‫ﻣﺪﻳﺮﻳﺖ ﭘﺎﻳﮕﺎه داده ﺑﻪ ﻫﻤﺮاه ﻳﻚ ﻃﺮاﺣﻲ ﻓﻴﺰﻳﻜﻲ ﻣﺘﻔﺎوت از اﻧﺒﺎر داده‬
‫ﺧﻮد ذﺧﻴﺮه ﻛﻨﻴﺪ. ﻣﺮدم ﺑﻪ ﻃﻮر روز اﻓﺰوﻧﻲ در ﺣﺎل اﻧﺘﺨﺎب ﭘﺎﻳﮕﺎه داده‬
‫ﻫﺎي ﺧﺎص ﻣﻨﻈﻮره اي ﻫﺴﺘﻨﺪ ﻛﻪ اﻳﻦ ﻧﻴﺎزﻫﺎي داده ﻛﺎوي را ﺑﻪ ﻧﺤﻮ‬
‫ﻣﻨﺎﺳﺒﻲ ﺣﻤﺎﻳﺖ ﻛﻨﺪ. ﺑﻪ ﻫﺮﺣﺎل اﮔﺮ داده ﻣﻮﺟﻮد در اﻧﺒﺎر داده ﺷﻤﺎ اﺟﺎزه‬
‫ﻣﻲ دﻫﺪ ﻛﻪ ﻣﺮاﻛﺰ ﻣﻨﻄﻘﻲ داده اي اﻳﺠﺎدﻛﻨﻴﺪ و اﮔﺮ ﺷﻤﺎ ﻣﻲ ﺗﻮاﻧﻴﺪ‬
‫ﺗﻘﺎﺿﺎي داده ﻛﺎوي را ارﺿﺎ ﻧﻤﺎﻳﻴﺪ ﭘﺎﻳﮕﺎه داده ﺷﻤﺎ ﺑﻪ ﺧﻮﺑﻲ وﻇﻴﻔﻪ ﺧﻮد را‬
                                                         ‫اﻧﺠﺎم ﻣﻲ دﻫﺪ. ]2[‬
 ‫ﻣﺮاﺣﻞ ﻻزم ﺑﺮاي ﺳﺎﺧﺖ ﻳﻚ ﭘﺎﻳﮕﺎه داده داده ﻛﺎوي ﺑﻪ ﺷﻜﻞ زﻳﺮ ﻣﻲ ﺑﺎﺷﺪ:‬
                                                 ‫1- ﺟﻤﻊ آوري داده ﻫﺎ‬
                                                      ‫2- ﺗﻮﺿﻴﺢ داده ﻫﺎ‬
                                                      ‫3- اﻧﺘﺨﺎب داده ﻫﺎ‬
                             ‫4- ﺗﻌﻴﻴﻦ ﻛﻴﻔﻴﺖ داده ﻫﺎ و ﭘﺎك ﻛﺮدن آن‬
                                                ‫5- ﺗﺜﺒﻴﺖ و ﻳﻜﭙﺎرﭼﮕﻲ‬
مقدمه ای بر داده کاوی و اکتشاف دانش
مقدمه ای بر داده کاوی و اکتشاف دانش
مقدمه ای بر داده کاوی و اکتشاف دانش
مقدمه ای بر داده کاوی و اکتشاف دانش
مقدمه ای بر داده کاوی و اکتشاف دانش

Contenu connexe

Tendances

الحرم الابراهيمي
الحرم الابراهيميالحرم الابراهيمي
الحرم الابراهيميMohammed Algarni
 
pamfelet amozesh hamegani
pamfelet amozesh hameganipamfelet amozesh hamegani
pamfelet amozesh hameganiabjam201045
 
The President’s Speech in Cairo: A New Beginning - Urdu
The President’s Speech in Cairo: A New Beginning - UrduThe President’s Speech in Cairo: A New Beginning - Urdu
The President’s Speech in Cairo: A New Beginning - UrduObama White House
 
online learning
online learningonline learning
online learningahamidp
 
Article Weblog
Article WeblogArticle Weblog
Article Weblogahamidp
 
The President’s Speech in Cairo: A New Beginning - Pashto
The President’s Speech in Cairo: A New Beginning - PashtoThe President’s Speech in Cairo: A New Beginning - Pashto
The President’s Speech in Cairo: A New Beginning - PashtoObama White House
 
العادات السبع في العمل الناجح
العادات السبع في العمل الناجحالعادات السبع في العمل الناجح
العادات السبع في العمل الناجحAhmed Zeen EL Abeden
 
الدليل لفهم مرض الزهايمر
الدليل لفهم مرض الزهايمر الدليل لفهم مرض الزهايمر
الدليل لفهم مرض الزهايمر alzheimer.tunisie
 
حقائق علمية وطبية في القرآن
حقائق علمية وطبية في القرآنحقائق علمية وطبية في القرآن
حقائق علمية وطبية في القرآنguest30004e2c
 
The President’s Speech in Cairo: A New Beginning - Punjabi
The President’s Speech in Cairo: A New Beginning - PunjabiThe President’s Speech in Cairo: A New Beginning - Punjabi
The President’s Speech in Cairo: A New Beginning - PunjabiObama White House
 
مختصر معهد عمان
مختصر معهد عمانمختصر معهد عمان
مختصر معهد عمانAmman.institute
 
037 Khaterate Roospiane Sodazade
037 Khaterate Roospiane Sodazade037 Khaterate Roospiane Sodazade
037 Khaterate Roospiane SodazadeRevoloution
 
7secret
7secret7secret
7secretpaown
 
Wadi Amman Presentation Arabic 090512 Reduced
Wadi Amman Presentation  Arabic 090512 ReducedWadi Amman Presentation  Arabic 090512 Reduced
Wadi Amman Presentation Arabic 090512 ReducedAmman.institute
 
The President’s Speech in Cairo: A New Beginning - Dari
The President’s Speech in Cairo: A New Beginning - DariThe President’s Speech in Cairo: A New Beginning - Dari
The President’s Speech in Cairo: A New Beginning - DariObama White House
 
د. نجوى سمك - ملتقى سيدات الأعمال الثقافي الثالث
د. نجوى سمك - ملتقى سيدات الأعمال الثقافي الثالثد. نجوى سمك - ملتقى سيدات الأعمال الثقافي الثالث
د. نجوى سمك - ملتقى سيدات الأعمال الثقافي الثالثRiyadhBWF
 

Tendances (19)

الحرم الابراهيمي
الحرم الابراهيميالحرم الابراهيمي
الحرم الابراهيمي
 
pamfelet amozesh hamegani
pamfelet amozesh hameganipamfelet amozesh hamegani
pamfelet amozesh hamegani
 
The President’s Speech in Cairo: A New Beginning - Urdu
The President’s Speech in Cairo: A New Beginning - UrduThe President’s Speech in Cairo: A New Beginning - Urdu
The President’s Speech in Cairo: A New Beginning - Urdu
 
online learning
online learningonline learning
online learning
 
Article Weblog
Article WeblogArticle Weblog
Article Weblog
 
The President’s Speech in Cairo: A New Beginning - Pashto
The President’s Speech in Cairo: A New Beginning - PashtoThe President’s Speech in Cairo: A New Beginning - Pashto
The President’s Speech in Cairo: A New Beginning - Pashto
 
العادات السبع في العمل الناجح
العادات السبع في العمل الناجحالعادات السبع في العمل الناجح
العادات السبع في العمل الناجح
 
الدليل لفهم مرض الزهايمر
الدليل لفهم مرض الزهايمر الدليل لفهم مرض الزهايمر
الدليل لفهم مرض الزهايمر
 
حقائق علمية وطبية في القرآن
حقائق علمية وطبية في القرآنحقائق علمية وطبية في القرآن
حقائق علمية وطبية في القرآن
 
The President’s Speech in Cairo: A New Beginning - Punjabi
The President’s Speech in Cairo: A New Beginning - PunjabiThe President’s Speech in Cairo: A New Beginning - Punjabi
The President’s Speech in Cairo: A New Beginning - Punjabi
 
مختصر معهد عمان
مختصر معهد عمانمختصر معهد عمان
مختصر معهد عمان
 
037 Khaterate Roospiane Sodazade
037 Khaterate Roospiane Sodazade037 Khaterate Roospiane Sodazade
037 Khaterate Roospiane Sodazade
 
7secret
7secret7secret
7secret
 
Wadi Amman Presentation Arabic 090512 Reduced
Wadi Amman Presentation  Arabic 090512 ReducedWadi Amman Presentation  Arabic 090512 Reduced
Wadi Amman Presentation Arabic 090512 Reduced
 
51313820316
5131382031651313820316
51313820316
 
The President’s Speech in Cairo: A New Beginning - Dari
The President’s Speech in Cairo: A New Beginning - DariThe President’s Speech in Cairo: A New Beginning - Dari
The President’s Speech in Cairo: A New Beginning - Dari
 
الرؤية
الرؤيةالرؤية
الرؤية
 
5s
5s5s
5s
 
د. نجوى سمك - ملتقى سيدات الأعمال الثقافي الثالث
د. نجوى سمك - ملتقى سيدات الأعمال الثقافي الثالثد. نجوى سمك - ملتقى سيدات الأعمال الثقافي الثالث
د. نجوى سمك - ملتقى سيدات الأعمال الثقافي الثالث
 

Similaire à مقدمه ای بر داده کاوی و اکتشاف دانش

حقائق علمية وطبية في القرآن
حقائق علمية وطبية في القرآنحقائق علمية وطبية في القرآن
حقائق علمية وطبية في القرآنguest30004e2c
 
اگر خواستید یادم کنید
اگر خواستید یادم کنیداگر خواستید یادم کنید
اگر خواستید یادم کنیدBita B
 
كيف تكسب مهارة التركيز
كيف تكسب مهارة التركيزكيف تكسب مهارة التركيز
كيف تكسب مهارة التركيزAhmed Zeen EL Abeden
 
Shah jo risalo
Shah jo risaloShah jo risalo
Shah jo risalosahirali
 
الهیئة العلمیة لمؤتمر الشباب و الصحوة الاسلامیة 1
الهیئة العلمیة لمؤتمر الشباب و الصحوة الاسلامیة 1الهیئة العلمیة لمؤتمر الشباب و الصحوة الاسلامیة 1
الهیئة العلمیة لمؤتمر الشباب و الصحوة الاسلامیة 1islamic-awakening
 
الايديولوجية الصهيونية - دراسة حالة في علم اجتماع المعرفة - الدكتور عبد الوها...
الايديولوجية الصهيونية - دراسة حالة في علم اجتماع المعرفة - الدكتور عبد الوها...الايديولوجية الصهيونية - دراسة حالة في علم اجتماع المعرفة - الدكتور عبد الوها...
الايديولوجية الصهيونية - دراسة حالة في علم اجتماع المعرفة - الدكتور عبد الوها...osamakanaan
 
Oracle
OracleOracle
Oraclensah
 
كشكول واحد عبقري
كشكول واحد عبقريكشكول واحد عبقري
كشكول واحد عبقريMohammed Algarni
 
سيكولوجيه اللغه والمرض العقلى
سيكولوجيه اللغه والمرض العقلىسيكولوجيه اللغه والمرض العقلى
سيكولوجيه اللغه والمرض العقلىmshary mshary
 
الکرد والحمدانیون
الکرد والحمدانیونالکرد والحمدانیون
الکرد والحمدانیونChalak Muhamad
 

Similaire à مقدمه ای بر داده کاوی و اکتشاف دانش (20)

حقائق علمية وطبية في القرآن
حقائق علمية وطبية في القرآنحقائق علمية وطبية في القرآن
حقائق علمية وطبية في القرآن
 
اگر خواستید یادم کنید
اگر خواستید یادم کنیداگر خواستید یادم کنید
اگر خواستید یادم کنید
 
هل تعلم أن
هل تعلم أنهل تعلم أن
هل تعلم أن
 
كيف تكسب مهارة التركيز
كيف تكسب مهارة التركيزكيف تكسب مهارة التركيز
كيف تكسب مهارة التركيز
 
Shah jo risalo
Shah jo risaloShah jo risalo
Shah jo risalo
 
هل تعلم أن
هل تعلم أنهل تعلم أن
هل تعلم أن
 
Adabiate Esfahani
Adabiate EsfahaniAdabiate Esfahani
Adabiate Esfahani
 
asda
asdaasda
asda
 
asda
asdaasda
asda
 
Aiin Nameh
Aiin NamehAiin Nameh
Aiin Nameh
 
Hafezipoor
HafezipoorHafezipoor
Hafezipoor
 
الهیئة العلمیة لمؤتمر الشباب و الصحوة الاسلامیة 1
الهیئة العلمیة لمؤتمر الشباب و الصحوة الاسلامیة 1الهیئة العلمیة لمؤتمر الشباب و الصحوة الاسلامیة 1
الهیئة العلمیة لمؤتمر الشباب و الصحوة الاسلامیة 1
 
الايديولوجية الصهيونية - دراسة حالة في علم اجتماع المعرفة - الدكتور عبد الوها...
الايديولوجية الصهيونية - دراسة حالة في علم اجتماع المعرفة - الدكتور عبد الوها...الايديولوجية الصهيونية - دراسة حالة في علم اجتماع المعرفة - الدكتور عبد الوها...
الايديولوجية الصهيونية - دراسة حالة في علم اجتماع المعرفة - الدكتور عبد الوها...
 
Oracle
OracleOracle
Oracle
 
Ar sahih al_bokhary
Ar sahih al_bokharyAr sahih al_bokhary
Ar sahih al_bokhary
 
كشكول واحد عبقري
كشكول واحد عبقريكشكول واحد عبقري
كشكول واحد عبقري
 
Altfsir almisr-
Altfsir almisr-Altfsir almisr-
Altfsir almisr-
 
H Yoli
H YoliH Yoli
H Yoli
 
سيكولوجيه اللغه والمرض العقلى
سيكولوجيه اللغه والمرض العقلىسيكولوجيه اللغه والمرض العقلى
سيكولوجيه اللغه والمرض العقلى
 
الکرد والحمدانیون
الکرد والحمدانیونالکرد والحمدانیون
الکرد والحمدانیون
 

مقدمه ای بر داده کاوی و اکتشاف دانش

  • 1. ‫ﺑﻪ ﻧﺎم ﺧﺪا‬ ‫ﻣﻘﺪﻣﻪ اي ﺑﺮ داده ﻛﺎوي و اﻛﺘﺸﺎف‬ ‫داﻧﺶ‬ ‫ﺗﻬﻴﻪ ﻛﻨﻨﺪﮔﺎن : ﻳﻮﺣﻨﺎ ﻗﺪﻳﻤﻲ‬ ‫ﻋﻠﻲ ﻋﺒﺎﺳﻲ‬ ‫ﻛﺎوه ﭘﺎﺷﺎﻳﻲ‬
  • 2. ‫ﻣﻘﺪﻣﻪ‬ ‫اﻣﺮوزه ﺑﺎ ﮔﺴﺘﺮش ﺳﻴﺴﺘﻢ ﻫﺎي ﭘﺎﻳﮕﺎﻫﻲ و ﺣﺠﻢ ﺑﺎﻻي داده ﻫﺎ ي ذﺧﻴﺮه ﺷﺪه‬ ‫در اﻳﻦ ﺳﻴﺴﺘﻢ ﻫﺎ ، ﻧﻴﺎز ﺑﻪ اﺑﺰاري اﺳﺖ ﺗﺎ ﺑﺘﻮان داده ﻫﺎي ذﺧﻴﺮه ﺷﺪه‬ ‫ﭘﺮدازش ﻛﺮد و اﻃﻼﻋﺎت ﺣﺎﺻﻞ از اﻳﻦ ﭘﺮدازش را در اﺧﺘﻴﺎر ﻛﺎرﺑﺮان ﻗﺮار داد .‬ ‫ﺑﺎ اﺳﺘﻔﺎده ار ﭘﺮﺳﺶ ﻫﺎي ﺳﺎده در ‪ SQL‬و اﺑﺰارﻫﺎي ﮔﻮﻧﺎﮔﻮن ﮔﺰارش ﮔﻴﺮي‬ ‫ﻣﻌﻤﻮﻟﻲ ، ﻣﻲ ﺗﻮان اﻃﻼﻋﺎﺗﻲ را در اﺧﺘﻴﺎر ﻛﺎرﺑﺮان ﻗﺮار داد ﺗﺎ ﺑﺘﻮاﻧﻨﺪ ﺑﻪ ﻧﺘﻴﺠﻪ‬ ‫ﮔﻴﺮي در ﻣﻮرد داده ﻫﺎ و رواﺑﻂ ﻣﻨﻄﻘﻲ ﻣﻴﺎن آﻧﻬﺎ ﺑﭙﺮدازﻧﺪ اﻣﺎ وﻗﺘﻲ ﻛﻪ ﺣﺠﻢ‬ ‫داده ﻫﺎ ﺑﺎﻻ ﺑﺎﺷﺪ ، ﻛﺎرﺑﺮان ﻫﺮ ﭼﻨﺪ زﺑﺮ دﺳﺖ و ﺑﺎ ﺗﺠﺮﺑﻪ ﺑﺎﺷﻨﺪ ﻧﻤﻲ ﺗﻮاﻧﻨﺪ‬ ‫اﻟﮕﻮﻫﺎي ﻣﻔﻴﺪ را در ﻣﻴﺎن ﺣﺠﻢ اﻧﺒﻮه داده ﻫﺎ ﺗﺸﺨﻴﺺ دﻫﻨﺪ و ﻳﺎ اﮔﺮ ﻗﺎدر ﺑﻪ‬ ‫اﻳﻦ ﻛﺎر ﻫﻢ ﺑﺎ ﺷﻨﺪ ، ﻫﺰﻳﻨﻪ ﻋﻤﻠﻴﺎت از ﻧﻈﺮ ﻧﻴﺮوي اﻧﺴﺎﻧﻲ و ﻣﺎدي ﺑﺴﻴﺎر ﺑﺎﻻ‬ ‫اﺳﺖ .‬ ‫از ﺳﻮي دﻳﮕﺮ ﻛﺎرﺑﺮان ﻣﻌﻤﻮﻻ ﻓﺮﺿﻴﻪ اي را ﻣﻄﺮح ﻣﻲ ﻛﻨﻨﺪ و ﺳﭙﺲ ﺑﺮ اﺳﺎس‬ ‫ﮔﺰارﺷﺎت ﻣﺸﺎﻫﺪه ﺷﺪه ﺑﻪ اﺛﺒﺎت ﻳﺎ رد ﻓﺮﺿﻴﻪ ﻣﻲ ﭘﺮدازﻧﺪ ، در ﺣﺎﻟﻲ ﻛﻪ اﻣﺮوزه‬ ‫ﻧﻴﺎز ﺑﻪ روﺷﻬﺎﻳﻲ اﺳﺖ ﻛﻪ اﺻﻄﻼﺣﺎ ﺑﻪ ﻛﺸﻒ داﻧﺶ 1 ﺑﭙﺮدازﻧﺪ ﻳﻌﻨﻲ ﺑﺎ ﻛﻤﺘﺮﻳﻦ‬ ‫دﺧﺎﻟﺖ ﻛﺎرﺑﺮ و ﺑﻪ ﺻﻮرت ﺧﻮدﻛﺎر اﻟﮕﻮﻫﺎ و راﺑﻄﻪ ﻫﺎي ﻣﻨﻄﻘﻲ را ﺑﻴﺎن ﻧﻤﺎﻳﻨﺪ .‬ ‫داده ﻛﺎوي2 ﻳﻜﻲ از ﻣﻬﻤﺘﺮﻳﻦ اﻳﻦ روﺷﻬﺎ اﺳﺖ ﻛﻪ ﺑﻪ وﺳﻴﻠﻪ آن اﻟﮕﻮﻫﺎي ﻣﻔﻴﺪ‬ ‫در داده ﻫﺎ ﺑﺎ ﺣﺪاﻗﻞ دﺧﺎﻟﺖ ﻛﺎرﺑﺮان ﺷﻨﺎﺧﺘﻪ ﻣﻲ ﺷﻮﻧﺪ و اﻃﻼﻋﺎﺗﻲ را در‬ ‫اﺧﺘﻴﺎر ﻛﺎرﺑﺮان و ﺗﺤﻠﻴﻞ ﮔﺮان ﻗﺮار ﻣﻲ دﻫﻨﺪ ﺗﺎ ﺑﺮاﺳﺎس آﻧﻬﺎ ﺗﺼﻤﻴﻤﺎت ﻣﻬﻢ و‬ ‫ﺣﻴﺎﺗﻲ در ﺳﺎزﻣﺎﻧﻬﺎ اﺗﺨﺎذ ﺷﻮﻧﺪ .‬ ‫در داده ﻛﺎوي از ﺑﺨﺸﻲ از ﻋﻠﻢ آﻣﺎر ﺑﻪ ﻧﺎم ﺗﺤﻠﻴﻞ اﻛﺘﺸﺎﻓﻲ داده ﻫﺎ 3 اﺳﺘﻔﺎده‬ ‫ﻣﻲ ﺷﻮد ﻛﻪ در آن ﺑﺮ ﻛﺸﻒ اﻃﻼﻋﺎت ﻧﻬﻔﺘﻪ و ﻧﺎﺷﻨﺎﺧﺘﻪ از درون ﺣﺠﻢ اﻧﺒﻮه‬ ‫داده ﻫﺎ ﺗﺎﻛﻴﺪ ﻣﻲ ﺷﻮد . ﻋﻼوه ﺑﺮ اﻳﻦ داده ﻛﺎوي ﺑﺎ ﻫﻮش ﻣﺼﻨﻮﻋﻲ و ﻳﺎدﮔﻴﺮي‬ ‫1 ‪Knowledge Discovery‬‬ ‫2 ‪Data Mining‬‬ ‫3 ‪Exploratory Data Analysis‬‬
  • 3. ‫ﻣﺎﺷﻴﻦ ﻧﻴﺰ ارﺗﺒﺎط ﺗﻨﮕﺎﺗﻨﮕﻲ دارد ، ﺑﻨﺎﺑﺮاﻳﻦ ﻣﻲ ﺗﻮان ﮔﻔﺖ در داده ﻛﺎوي‬ ‫ﺗﺌﻮرﻳﻬﺎي ﭘﺎﻳﮕﺎه داده ﻫﺎ ، ﻫﻮش ﻣﺼﻨﻮﻋﻲ ، ﻳﺎدﮔﻴﺮي ﻣﺎﺷﻴﻦ و ﻋﻠﻢ آﻣﺎر را در‬ ‫ﻫﻢ ﻣﻲ آﻣﻴﺰﻧﺪ ﺗﺎ زﻣﻴﻨﻪ ﻛﺎرﺑﺮدي ﻓﺮاﻫﻢ ﺷﻮد .‬ ‫ﺑﺎﻳﺪ ﺗﻮﺟﻪ داﺷﺖ ﻛﻪ اﺻﻄﻼح داده ﻛﺎوي زﻣﺎﻧﻲ ﺑﻪ ﻛﺎر ﺑﺮده ﻣﻲ ﺷﻮد ﻛﻪ ﺑﺎ‬ ‫ﺣﺠﻢ ﺑﺰرﮔﻲ از داده ﻫﺎ ، در ﺣﺪ ﻣﮕﺎ ﻳﺎ ﺗﺮاﺑﺎﻳﺖ ، ﻣﻮاﺟﻪ ﺑﺎﺷﻴﻢ . در ﺗﻤﺎﻣﻲ‬ ‫ﻣﻨﺎﺑﻊ داده ﻛﺎوي ﺑﺮ اﻳﻦ ﻣﻄﻠﺐ ﺗﺎﻛﻴﺪ ﺷﺪه اﺳﺖ .‬ ‫ﻫﺮ ﭼﻪ ﺣﺠﻢ داده ﻫﺎ ﺑﻴﺸﺘﺮ و رواﺑﻂ ﻣﻴﺎن آﻧﻬﺎ ﭘﻴﭽﻴﺪه ﺗﺮ ﺑﺎﺷﺪ دﺳﺘﺮﺳﻲ ﺑﻪ‬ ‫اﻃﻼﻋﺎت ﻧﻬﻔﺘﻪ در ﻣﻴﺎن داده ﻫﺎ ﻣﺸﻜﻠﺘﺮ ﻣﻲ ﺷﻮد و ﻧﻘﺶ داده ﻛﺎوي ﺑﻪ ﻋﻨﻮان‬ ‫ﻳﻜﻲ از روﺷﻬﺎي ﻛﺸﻒ داﻧﺶ ، روﺷﻦ ﺗﺮ ﻣﻲ ﮔﺮدد .‬ ‫ﻣﻔﺎﻫﻴﻢ ﭘﺎﻳﻪ در داده ﻛﺎوي‬ ‫در داده ﻛﺎوي ﻣﻌﻤﻮﻻ ﺑﻪ ﻛﺸﻒ اﻟﮕﻮﻫﺎي ﻣﻔﻴﺪ از ﻣﻴﺎن داده ﻫﺎ اﺷﺎره ﻣﻲ ﺷﻮد .‬ ‫ﻣﻨﻈﻮر از اﻟﮕﻮي ﻣﻔﻴﺪ ، ﻣﺪﻟﻲ در داده ﻫﺎ اﺳﺖ ﻛﻪ ارﺗﺒﺎط ﻣﻴﺎن ﻳﻚ زﻳﺮ‬ ‫ﻣﺠﻤﻮﻋﻪ از داده ﻫﺎ را ﺗﻮﺻﻴﻒ ﻣﻲ ﻛﻨﺪ و ﻣﻌﺘﺒﺮ ، ﺳﺎده ، ﻗﺎﺑﻞ ﻓﻬﻢ و ﺟﺪﻳﺪ‬ ‫اﺳﺖ .‬ ‫ﺗﻌﺮﻳﻒ داده ﻛﺎوي‬ ‫در ﻣﺘﻮن آﻛﺎدﻣﻴﻚ ﺗﻌﺎرﻳﻒ ﮔﻮﻧﺎﮔﻮﻧﻲ ﺑﺮاي داده ﻛﺎوي اراﺋﻪ ﺷﺪه اﻧﺪ . در ﺑﺮﺧﻲ‬ ‫از اﻳﻦ ﺗﻌﺎرﻳﻒ داده ﻛﺎوي در ﺣﺪ اﺑﺰاري ﻛﻪ ﻛﺎرﺑﺮان را ﻗﺎدر ﺑﻪ ارﺗﺒﺎط ﻣﺴﺘﻘﻴﻢ‬ ‫ﺑﺎ ﺣﺠﻢ ﻋﻈﻴﻢ داده ﻫﺎ ﻣﻲ ﺳﺎزد ﻣﻌﺮﻓﻲ ﮔﺮدﻳﺪه اﺳﺖ و در ﺑﺮﺧﻲ دﻳﮕﺮ ،‬ ‫ﺗﻌﺎرﻳﻒ دﻗﻴﻘﺘﺮ ﻛﻪ درآﻧﻬﺎ ﺑﻪ ﻛﺎوش در داده ﻫﺎ ﺗﻮﺟﻪ ﻣﻲ ﺷﻮد ﻣﻮﺟﻮد اﺳﺖ .‬ ‫ﺑﺮﺧﻲ از اﻳﻦ ﺗﻌﺎرﻳﻒ ﻋﺒﺎرﺗﻨﺪ از :‬ ‫• داده ﻛﺎوي ﻋﺒﺎرت اﺳﺖ از ﻓﺮاﻳﻨﺪ اﺳﺘﺨﺮاج اﻃﻼﻋﺎت ﻣﻌﺘﺒﺮ ، از ﭘﻴﺶ‬ ‫ﻧﺎﺷﻨﺎﺧﺘﻪ ، ﻗﺎﺑﻞ ﻓﻬﻢ و ﻗﺎﺑﻞ اﻋﺘﻤﺎد از ﭘﺎﻳﮕﺎه داده ﻫﺎي ﺑﺰرگ و‬ ‫اﺳﺘﻔﺎده از آن در ﺗﺼﻤﻴﻢ ﮔﻴﺮي در ﻓﻌﺎﻟﻴﺖ ﻫﺎي ﺗﺠﺎري ﻣﻬﻢ. ]1[‬ ‫• اﺻﻄﻼح داده ﻛﺎوي ﺑﻪ ﻓﺮاﻳﻨﺪ ﻧﻴﻢ ﺧﻮدﻛﺎر ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ ﭘﺎﻳﮕﺎه‬ ‫داده ﻫﺎي ﺑﺰرگ ﺑﻪ ﻣﻨﻈﻮر ﻳﺎﻓﺘﻦ اﻟﮕﻮﻫﺎي ﻣﻔﻴﺪ اﻃﻼق ﻣﻲ ﺷﻮد ]2[.‬
  • 4. ‫• داده ﻛﺎوي ﻳﻌﻨﻲ ﺟﺴﺘﺠﻮ در ﻳﻚ ﭘﺎﻳﮕﺎه داده ﻫﺎ ﺑﺮاي ﻳﺎﻓﺘﻦ اﻟﮕﻮﻫﺎﻳﻲ‬ ‫ﻣﻴﺎن داده ﻫﺎ .]3[‬ ‫• داده ﻛﺎوي ﻳﻌﻨﻲ اﺳﺘﺨﺮاج داﻧﺶ ﻛﻼن ، ﻗﺎﺑﻞ اﺳﺘﻨﺎد و ﺟﺪﻳﺪ از‬ ‫ﭘﺎﻳﮕﺎه داده ﻫﺎ ي ﺑﺰرگ .‬ ‫• داده ﻛﺎوي ﻳﻌﻨﻲ ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ ﻣﺠﻤﻮﻋﻪ داده ﻫﺎي ﻗﺎﺑﻞ ﻣﺸﺎﻫﺪه‬ ‫ﺑﺮاي ﻳﺎﻓﺘﻦ رواﺑﻂ ﻣﻄﻤﺌﻦ ﺑﻴﻦ داده ﻫﺎ .‬ ‫ﻫﻤﺎﻧﮕﻮﻧﻪ ﻛﻪ در ﺗﻌﺎرﻳﻒ ﮔﻮﻧﺎﮔﻮن داده ﻛﺎوي ﻣﺸﺎﻫﺪه ﻣﻲ ﺷﻮد ، ﺗﻘﺮﻳﺒﺎ در‬ ‫ﺗﻤﺎﻣﻲ ﺗﻌﺎرﻳﻒ ﺑﻪ ﻣﻔﺎﻫﻴﻤﻲ ﭼﻮن اﺳﺘﺨﺮاج داﻧﺶ ، ﺗﺤﻠﻴﻞ و ﻳﺎﻓﺘﻦ اﻟﮕﻮي ﺑﻴﻦ‬ ‫داده ﻫﺎ اﺷﺎره ﺷﺪه اﺳﺖ .‬ ‫ﺗﺎرﻳﺨﭽﻪ داده ﻛﺎوي‬ ‫اﺧﻴﺮا داده ﻛﺎوي ﻣﻮﺿﻮع ﺑﺴﻴﺎري از ﻣﻘﺎﻻت ، ﻛﻨﻔﺮاﻧﺲ ﻫﺎ و رﺳﺎﻟﻪ ﻫﺎ ي ﻋﻤﻠﻲ‬ ‫ﺷﺪه اﺳﺖ ، اﻣﺎ اﻳﻦ واژه ﺗﺎ اواﻳﻞ دﻫﻪ ﻧﻮد ﻣﻔﻬﻮﻣﻲ ﻧﺪاﺷﺖ وﺑﻪ ﻛﺎر ﺑﺮده ﻧﻤﻲ‬ ‫ﺷﺪ .‬ ‫در دﻫﻪ ﺷﺼﺖ و ﭘﻴﺶ از آن زﻣﻴﻨﻪ ﻫﺎﻳﻲ ﺑﺮاي اﻳﺠﺎد ﺳﻴﺴﺘﻢ ﻫﺎ ي ﺟﻤﻊ آوري‬ ‫و ﻣﺪﻳﺮﻳﺖ داده ﻫﺎ اﻳﺠﺎد ﺷﺪ و ﺗﺤﻘﻴﻘﺎﺗﻲ در اﻳﻦ زﻣﻴﻨﻪ اﻧﺠﺎم ﭘﺬﻳﺮﻓﺖ ﻛﻪ ﻣﻨﺠﺮ‬ ‫ﺑﻪ ﻣﻌﺮﻓﻲ و اﻳﺠﺎد ﺳﻴﺴﺘﻢ ﻫﺎي ﻣﺪﻳﺮﻳﺖ ﭘﺎﻳﮕﺎه داده ﻫﺎ ﮔﺮدﻳﺪ .‬ ‫اﻳﺠﺎد و ﺗﻮﺳﻌﻪ ﻣﺪﻟﻬﺎي داده اي ﺑﺮاي ﭘﺎﻳﮕﺎه ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﻲ ، ﺷﺒﻜﻪ اي و‬ ‫ﺑﺨﺼﻮص راﺑﻄﻪ اي در دﻫﻪ ﻫﻔﺘﺎد ، ﻣﻨﺠﺮ ﺑﻪ ﻣﻌﺮﻓﻲ ﻣﻔﺎﻫﻴﻤﻲ ﻫﻤﭽﻮن ﺷﺎﺧﺺ‬ ‫ﮔﺬاري و ﺳﺎزﻣﺎﻧﺪﻫﻲ داده ﻫﺎ و در ﻧﻬﺎﻳﺖ اﻳﺠﺎد زﺑﺎن ﭘﺮﺳﺶ ‪ SQL‬در اواﻳﻞ‬ ‫دﻫﻪ ﻫﺸﺘﺎد ﮔﺮدﻳﺪ ﺗﺎ ﻛﺎرﺑﺮان ﺑﺘﻮاﻧﻨﺪ ﮔﺰارﺷﺎت و ﻓﺮﻣﻬﺎي اﻃﻼﻋﺎﺗﻲ ﻣﻮرد ﻧﻈﺮ‬ ‫ﺧﻮد را ، از اﻳﻦ ﻃﺮﻳﻖ اﻳﺠﺎد ﻧﻤﺎﻳﻨﺪ .‬ ‫ﺗﻮﺳﻌﻪ ﺳﻴﺴﺘﻢ ﻫﺎي ﭘﺎﻳﮕﺎﻫﻲ ﭘﻴﺸﺮﻓﺘﻪ در دﻫﻪ ﻫﺸﺘﺎد و اﻳﺠﺎد ﭘﺎﻳﮕﺎه ﻫﺎي ﺷﻲ‬ ‫ﮔﺮا ، ﻛﺎرﺑﺮد ﮔﺮا 4 و ﻓﻌﺎل 5 ﺑﺎﻋﺚ ﺗﻮﺳﻌﻪ ﻫﻤﻪ ﺟﺎﻧﺒﻪ و ﻛﺎرﺑﺮدي ﺷﺪن اﻳﻦ‬ ‫ﺳﻴﺴﺘﻢ ﻫﺎ در ﺳﺮاﺳﺮ ﺟﻬﺎن ﮔﺮدﻳﺪ . ﺑﺪﻳﻦ ﺗﺮﺗﻴﺐ ‪ DBMS‬ﻫﺎﻳﻲ ﻫﻤﭽﻮن‬ ‫4 ‪Application Oriented‬‬ ‫5 ‪Active DBMS‬‬
  • 5. ‫2‪ ... ، Sybase ، Oracle ، DB‬اﻳﺠﺎد ﺷﺪﻧﺪ و ﺣﺠﻢ زﻳﺎدي از اﻃﻼﻋﺎت ﺑﺎ‬ ‫اﺳﺘﻔﺎده از اﻳﻦ ﺳﻴﺴﺘﻢ ﻫﺎ ﻣﻮرد ﭘﺮدازش ﻗﺮار ﮔﺮﻓﺘﻨﺪ . ﺷﺎﻳﺪ ﺑﺘﻮان ﻣﻬﻤﺘﺮﻳﻦ‬ ‫ﺟﻨﺒﻪ در ﻣﻌﺮﻓﻲ داده ﻛﺎوي را ﻣﺒﺤﺚ ﻛﺸﻒ داﻧﺶ از ﭘﺎﻳﮕﺎه داده ﻫﺎ )‪(6KDD‬‬ ‫داﻧﺴﺖ ﺑﻄﻮري ﻛﻪ در ﺑﺴﻴﺎري ﻣﻮارد ‪ DM‬و ‪ KDD‬ﺑﺼﻮرت ﻣﺘﺮادف ﻣﻮرد‬ ‫اﺳﺘﻔﺎده ﻗﺮار ﻣﻲ ﮔﻴﺮﻧﺪ .‬ ‫ﻫﻤﺎﻧﻄﻮر ﻛﻪ در ﺗﻌﺮﻳﻒ داده ﻛﺎوي ذﻛﺮ ﺷﺪ ، ﻫﺪف از ﺟﺴﺘﺠﻮ و ﻛﺸﻒ‬ ‫اﻟﮕﻮﻫﺎﻳﻲ در ﭘﺎﻳﮕﺎه داده ﻫﺎ و اﺳﺘﻔﺎده از آﻧﻬﺎ در اﺧﺬ ﺗﺼﻤﻴﻤﺎت ﺣﻴﺎﺗﻲ اﺳﺖ ،‬ ‫ﺑﻨﺎﺑﺮاﻳﻦ ﻣﻲ ﺗﻮان ﮔﻔﺖ ﻛﻪ ‪ DM‬ﺑﺨﺸﻲ از ﻓﺮاﻳﻨﺪ ‪ KDD‬اﺳﺖ ﻛﻪ در ﻧﻬﺎﻳﺖ‬ ‫ﺑﻪ اﻳﺠﺎد ﺳﻴﺴﺘﻢ ﻫﺎي 7‪ DSS‬ﺷﻜﻞ 1-1 ﻧﻘﺶ داده ﻛﺎوي در ﻓﺮاﻳﻨﺪ ﻛﺸﻒ‬ ‫داﻧﺶ از ﭘﺎﻳﮕﺎه داده ﻫﺎ را ﻧﺸﺎن ﻣﻲ دﻫﺪ . ]4[‬ ‫ﺑﺮاي اوﻟﻴﻦ ﺑﺎر ﻣﻔﻬﻮم داده ﻛﺎوي در ﻛﺎرﮔﺎه 8 ‪ IJCAI‬در زﻣﻴﻨﻪ ‪ KDD‬ﺗﻮﺳﻂ‬ ‫‪ Shapir‬ﻣﻄﺮح ﮔﺮدﻳﺪ . ﺑﻪ دﻧﺒﺎل آن در ﺳﺎﻟﻬﺎي 1991 ﺗﺎ 4991 ، ﻛﺎرﮔﺎﻫﻬﺎي‬ ‫‪ KDD‬ﻣﻔﺎﻫﻴﻢ ﺟﺪﻳﺪي را در اﻳﻦ ﺷﺎﺧﻪ از ﻋﻠﻢ اراﺋﻪ ﻛﺮدﻧﺪ ﺑﻄﻮري ﻛﻪ‬ ‫ﺑﺴﻴﺎري از ﻋﻠﻮم و ﻣﻔﺎﻫﻴﻢ ﺑﺎ آن ﻣﺮﺗﺒﻂ ﮔﺮدﻳﺪﻧﺪ ﻛﻪ ﻣﻲ ﺗﻮان آﻧﻬﺎ را در ﺷﻜﻞ‬ ‫2-1 ﻣﺸﺎﻫﺪه ﻧﻤﻮد .‬ ‫ﺑﺮﺧﻲ از ﻛﺎرﺑﺮدﻫﺎي داده ﻛﺎوي در ﻣﺤﻴﻄﻬﺎي واﻗﻌﻲ ﻋﺒﺎرﺗﻨﺪ از :‬ ‫1. ﺧﺮده ﻓﺮوﺷﻲ : از ﻛﺎرﺑﺮدﻫﺎي ﻛﻼﺳﻴﻚ داده ﻛﺎوي اﺳﺖ ﻛﻪ ﻣﻲ ﺗﻮان ﺑﻪ‬ ‫ﻣﻮارد زﻳﺮ اﺷﺎره ﻛﺮد :‬ ‫• ﺗﻌﻴﻴﻦ اﻟﮕﻮﻫﺎي ﺧﺮﻳﺪ ﻣﺸﺘﺮﻳﺎن‬ ‫• ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ ﺳﺒﺪ ﺧﺮﻳﺪ ﺑﺎزار‬ ‫• ﭘﻴﺸﮕﻮﻳﻲ ﻣﻴﺰان ﺧﺮﻳﺪ ﻣﺸﺘﺮﻳﺎن از ﻃﺮﻳﻖ ﭘﺴﺖ)ﻓﺮوش‬ ‫اﻟﻜﺘﺮوﻧﻴﻜﻲ(‬ ‫2. ﺑﺎﻧﻜﺪاري :‬ ‫• ﭘﻴﺶ ﺑﻴﻨﻲ اﻟﮕﻮﻫﺎي ﻛﻼﻫﺒﺮداري از ﻃﺮﻳﻖ ﻛﺎرﺗﻬﺎي اﻋﺘﺒﺎري‬ ‫6 ‪Knowledge Discovery From Database‬‬ ‫7 ‪Decision Support System‬‬ ‫8 ‪Workshop‬‬
  • 6. ‫• ﺗﺸﺨﻴﺺ ﻣﺸﺘﺮﻳﺎن ﺛﺎﺑﺖ‬ ‫• ﺗﻌﻴﻴﻦ ﻣﻴﺰان اﺳﺘﻔﺎده از ﻛﺎرﺗﻬﺎي اﻋﺘﺒﺎري ﺑﺮ اﺳﺎس ﮔﺮوﻫﻬﺎي‬ ‫اﺟﺘﻤﺎﻋﻲ‬ ‫3. ﺑﻴﻤﻪ :‬ ‫• ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ دﻋﺎوي‬ ‫• ﭘﻴﺸﮕﻮﻳﻲ ﻣﻴﺰان ﺧﺮﻳﺪ ﺑﻴﻤﻪ ﻧﺎﻣﻪ ﻫﺎي ﺟﺪﻳﺪ ﺗﻮﺳﻂ ﻣﺸﺘﺮﻳﺎن‬ ‫4. ﭘﺰﺷﻜﻲ :‬ ‫• ﺗﻌﻴﻴﻦ ﻧﻮع رﻓﺘﺎر ﺑﺎ ﺑﻴﻤﺎران و ﭘﻴﺸﮕﻮﻳﻲ ﻣﻴﺰان ﻣﻮﻓﻘﻴﺖ اﻋﻤﺎل‬ ‫ﺟﺮاﺣﻲ‬ ‫• ﺗﻌﻴﻴﻦ ﻣﻴﺰان ﻣﻮﻓﻘﻴﺖ روﺷﻬﺎي درﻣﺎﻧﻲ در ﺑﺮﺧﻮرد ﺑﺎ ﺑﻴﻤﺎرﻳﻬﺎي‬ ‫ﺳﺨﺖ‬ ‫ﻣﺮاﺣﻞ ﻓﺮاﻳﻨﺪ ﻛﺸﻒ داﻧﺶ از ﭘﺎﻳﮕﺎه داده ﻫﺎ‬ ‫ﻓﺮاﻳﻨﺪ ﻛﺸﻒ داﻧﺶ از ﭘﺎﻳﮕﺎه داده ﻫﺎ ﺷﺎﻣﻞ ﭘﻨﺞ ﻣﺮﺣﻠﻪ اﺳﺖ ﻛﻪ ﻋﺒﺎرﺗﻨﺪ از :‬ ‫9‬ ‫1. اﻧﺒﺎرش داده ﻫﺎ‬ ‫2. اﻧﺘﺨﺎب داده ﻫﺎ‬ ‫3. ﺗﺒﺪﻳﻞ داده ﻫﺎ‬ ‫4. ﻛﺎوش در داده ﻫﺎ‬ ‫5. ﺗﻔﺴﻴﺮ ﻧﺘﻴﺠﻪ‬ ‫ﻫﻤﺎﻧﮕﻮﻧﻪ ﻛﻪ ﻣﺸﺎﻫﺪه ﻣﻲ ﺷﻮد داده ﻛﺎوي ﻳﻜﻲ از ﻣﺮاﺣﻞ اﻳﻦ ﻓﺮاﻳﻨﺪ اﺳﺖ ﻛﻪ‬ ‫ﺑﻪ ﻋﻨﻮان ﺑﺨﺶ ﭼﻬﺎرم آن ﻧﻘﺶ ﻣﻬﻤﻲ در ﻛﺸﻒ داﻧﺶ از داده ﻫﺎ اﻳﻔﺎ ﻣﻲ ﻛﻨﺪ‬ ‫.‬ ‫• اﻧﺒﺎرش داده ﻫﺎ‬ ‫وﺟﻮد اﻃﻼﻋﺎت ﺻﺤﻴﺢ و ﻣﻨﺴﺠﻢ ﻳﻜﻲ از ﻣﻠﺰوﻣﺎﺗﻲ اﺳﺖ ﻛﻪ در داده ﻛﺎوي ﺑﻪ‬ ‫آن ﻧﻴﺎزﻣﻨﺪﻳﻢ . اﺷﺘﺒﺎه و ﻋﺪم وﺟﻮد اﻃﻼﻋﺎت ﺻﺤﻴﺢ ﺑﺎﻋﺚ ﻧﺘﻴﺠﻪ ﮔﻴﺮي ﻏﻠﻂ و‬ ‫9 ‪Data Warehousing‬‬
  • 7. ‫در ﻧﺘﻴﺠﻪ اﺧﺬ ﺗﺼﻤﻴﻤﺎت ﻧﺎﺻﺤﻴﺢ در ﺳﺎزﻣﺎﻧﻬﺎ ﻣﻲ ﮔﺮدد و ﻣﻨﺘﺞ ﺑﻪ ﻧﺘﺎﻳﺞ‬ ‫ﺧﻄﺮﻧﺎﻛﻲ ﺧﻮاﻫﺪ ﮔﺮدﻳﺪ ﻛﻪ ﻧﻤﻮﻧﻪ ﻫﺎي آن ﻛﻢ ﻧﻴﺴﺘﻨﺪ .‬ ‫اﻛﺜﺮ ﺳﺎزﻣﺎﻧﻬﺎ دﭼﺎر ﻳﻚ ﺧﻼ اﻃﻼﻋﺎﺗﻲ01 ﻫﺴﺘﻨﺪ . در اﻳﻨﮕﻮﻧﻪ ﺳﺎزﻣﺎﻧﻬﺎ ﻣﻌﻤﻮﻻ‬ ‫ﺳﻴﺴﺘﻢ ﻫﺎي اﻃﻼﻋﺎﺗﻲ در ﻃﻮل زﻣﺎن و ﺑﺎ ﻣﻌﻤﺎري و ﻣﺪﻳﺮﻳﺖ ﻫﺎي ﮔﻮﻧﺎﮔﻮن‬ ‫ﺳﺎﺧﺘﻪ ﺷﺪه اﻧﺪ ، ﺑﻪ ﻃﻮري ﻛﻪ ﺳﺎزﻣﺎن اﻃﻼﻋﺎﺗﻲ ﻳﻜﭙﺎرﭼﻪ و ﻣﺸﺨﺼﻲ ﻣﺸﺎﻫﺪه‬ ‫ﻧﻤﻲ ﮔﺮدد . ﻋﻼوه ﺑﺮ اﻳﻦ ﺑﺮاي ﻓﺮاﻳﻨﺪ داده ﻛﺎوي ﺑﻪ اﻃﻼﻋﺎت ﺧﻼﺻﻪ و ﻣﻬﻢ در‬ ‫زﻣﻴﻨﻪ ﺗﺼﻤﻴﻢ ﮔﻴﺮﻳﻬﺎي ﺣﻴﺎﺗﻲ ﻧﻴﺎزﻣﻨﺪﻳﻢ .‬ ‫ﻫﺪف از ﻓﺮاﻳﻨﺪ اﻧﺒﺎرش داده ﻫﺎ ﻓﺮاﻫﻢ ﻛﺮدن ﻳﻚ ﻣﺤﻴﻂ ﻳﻜﭙﺎرﭼﻪ ﺟﻬﺖ‬ ‫ﭘﺮدازش اﻃﻼﻋﺎت اﺳﺖ . در اﻳﻦ ﻓﺮاﻳﻨﺪ ، اﻃﻼﻋﺎت ﺗﺤﻠﻴﻠﻲ و ﻣﻮﺟﺰ در دوره‬ ‫ﻫﺎي ﻣﻨﺎﺳﺐ زﻣﺎﻧﻲ ﺳﺎزﻣﺎﻧﺪﻫﻲ و ذﺧﻴﺮه ﻣﻲ ﺷﻮد ﺗﺎ ﺑﺘﻮان از آﻧﻬﺎ در ﻓﺮاﻳﻨﺪ‬ ‫ﻫﺎي ﺗﺼﻤﻴﻢ ﮔﻴﺮي ﻛﻪ از ﻣﻠﺰوﻣﺎت آن داده ﻛﺎوي اﺳﺖ ، اﺳﺘﻔﺎده ﺷﻮد . ﺑﻪ ﻃﻮر‬ ‫ﻛﻠﻲ ﺗﻌﺮﻳﻒ زﻳﺮ ﺑﺮاي اﻧﺒﺎر داده ﻫﺎ اراﺋﻪ ﻣﻲ ﮔﺮدد :‬ ‫اﻧﺒﺎر داده ﻫﺎ ، ﻣﺠﻤﻮﻋﻪ اي اﺳﺖ ﻣﻮﺿﻮﻋﻲ 11 ، ﻣﺠﺘﻤﻊ 21 ، ﻣﺘﻐﻴﺮ در زﻣﺎن31 و‬ ‫ﭘﺎﻳﺪار 41 از داده ﻫﺎ ﻛﻪ ﺑﻪ ﻣﻨﻈﻮر ﭘﺸﺘﻴﺒﺎﻧﻲ از ﻓﺮاﻳﻨﺪ ﻣﺪﻳﺮﻳﺖ ﺗﺼﻤﻴﻢ ﮔﻴﺮي‬ ‫ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﻣﻲ ﮔﻴﺮد .]1[‬ ‫اﻧﺒﺎرش داده ﻫﺎ ﺧﻮد ﻣﻮﺿﻮع ﻣﻔﺼﻠﻲ اﺳﺖ ﻛﻪ ﻣﻘﺎﻟﻪ ﻫﺎ و رﺳﺎﻟﻪ ﻫﺎ ي ﮔﻮﻧﺎﮔﻮﻧﻲ‬ ‫در ﻣﻮرد آن ﻧﮕﺎﺷﺘﻪ ﺷﺪه اﻧﺪ . در اﻳﻦ ﻓﺼﻞ ﺑﻪ ﻣﻨﻈﻮر آﺷﻨﺎﻳﻲ ﺑﺎ اﻳﻦ ﻓﺮاﻳﻨﺪ ﺑﻪ‬ ‫آن اﺷﺎره اي ﺷﺪ .‬ ‫• اﻧﺘﺨﺎب داده ﻫﺎ‬ ‫اﻧﺒﺎر داده ﻫﺎ ﺷﺎﻣﻞ اﻧﻮاع ﻣﺨﺘﻠﻒ و ﮔﻮﻧﺎﮔﻮﻧﻲ از داده ﻫﺎ اﺳﺖ ﻛﻪ ﻫﻤﻪ آﻧﻬﺎ در‬ ‫داده ﻛﺎوي ﻣﻮرد ﻧﻴﺎز ﻧﻴﺴﺘﻨﺪ . ﺑﺮاي ﻓﺮاﻳﻨﺪ داده ﻛﺎوي ﺑﺎﻳﺪ داده ﻫﺎ ي ﻣﻮرد‬ ‫ﻧﻴﺎز اﻧﺘﺨﺎب ﺷﻮﻧﺪ . ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل در ﻳﻚ ﭘﺎﻳﮕﺎه داده ﻫﺎي ﻣﺮﺑﻮط ﺑﻪ ﺳﻴﺴﺘﻢ‬ ‫ﻓﺮوﺷﮕﺎﻫﻲ ، اﻃﻼﻋﺎﺗﻲ در ﻣﻮرد ﺧﺮﻳﺪ ﻣﺸﺘﺮﻳﺎن ، ﺧﺼﻮﺻﻴﺎت آﻣﺎري آﻧﻬﺎ ،‬ ‫01 ‪Information Gap‬‬ ‫11 ‪Subject Oriented‬‬ ‫21 ‪Integrated‬‬ ‫31 ‪Time Variant‬‬ ‫41 ‪NonVolatile‬‬
  • 8. ‫ﺗﺎﻣﻴﻦ ﻛﻨﻨﺪﮔﺎن ، ﺧﺮﻳﺪ ، ﺣﺴﺎﺑﺪاري و ... وﺟﻮد دارﻧﺪ . ﺑﺮاي ﺗﻌﻴﻴﻦ ﻧﺤﻮه‬ ‫ﭼﻴﺪن ﻗﻔﺴﻪ ﻫﺎ ﺗﻨﻬﺎ ﺑﻪ داده ﻫﺎ ﻳﻲ در ﻣﻮرد ﺧﺮﻳﺪ ﻣﺸﺘﺮﻳﺎن و ﺧﺼﻮﺻﻴﺎت‬ ‫آﻣﺎري آﻧﻬﺎ ﻧﻴﺎز اﺳﺖ . ﺣﺘﻲ در ﻣﻮاردي ﻧﻴﺎز ﺑﻪ ﻛﺎوش در ﺗﻤﺎم ﻣﺤﺘﻮﻳﺎت ﭘﺎﻳﮕﺎه‬ ‫ﻧﻴﺴﺖ ﺑﻠﻜﻪ ﻣﻤﻜﻦ اﺳﺖ ﺑﻪ ﻣﻨﻈﻮر ﻛﺎﻫﺶ ﻫﺰﻳﻨﻪ ﻋﻤﻠﻴﺎت ، ﻧﻤﻮﻧﻪ ﻫﺎﻳﻲ از‬ ‫ﻋﻨﺎﺻﺮ اﻧﺘﺨﺎب و ﻛﺎوش ﺷﻮﻧﺪ .‬ ‫• ﺗﺒﺪﻳﻞ داده ﻫﺎ‬ ‫ﻫﻨﮕﺎﻣﻲ ﻛﻪ داده ﻫﺎي ﻣﻮرد ﻧﻴﺎز اﻧﺘﺨﺎب ﺷﺪﻧﺪ و داده ﻫﺎ ي ﻣﻮرد ﻛﺎوش‬ ‫ﻣﺸﺨﺺ ﮔﺮدﻳﺪﻧﺪ ، ﻣﻌﻤﻼ ﺑﻪ ﺗﺒﺪﻳﻼت ﺧﺎﺻﻲ روي داده ﻫﺎ ﻧﻴﺎز اﺳﺖ . ﻧﻮع‬ ‫ﺗﺒﺪﻳﻞ ﺑﻪ ﻋﻤﻠﻴﺎت و ﺗﻜﻨﻴﻚ داده ﻛﺎوي ﻣﻮرد اﺳﺘﻔﺎده ﺑﺴﺘﮕﻲ دارد : ﺗﺒﺪﻳﻼﺗﻲ‬ ‫ﺳﺎده ﻫﻤﭽﻮن ﺗﺒﺪﻳﻞ ﻧﻮع داده اي ﺑﻪ ﻧﻮع دﻳﮕﺮ ﺗﺎ ﺗﺒﺪﻳﻼت ﭘﻴﭽﻴﺪه ﺗﺮ ﻫﻤﭽﻮن‬ ‫ﺗﻌﺮﻳﻒ ﺻﻔﺎت ﺟﺪﻳﺪ ﺑﺎ اﻧﺠﺎم ﻋﻤﻠﻴﺎﺗﻬﺎي رﻳﺎﺿﻲ و ﻣﻨﻄﻘﻲ روي ﺻﻔﺎت ﻣﻮﺟﻮد .‬ ‫• ﻛﺎوش در داده ﻫﺎ‬ ‫داده ﻫﺎي ﺗﺒﺪﻳﻞ ﺷﺪه ﺑﺎ اﺳﺘﻔﺎده از ﺗﻜﻨﻴﻜﻬﺎ و ﻋﻤﻠﻴﺎﺗﻬﺎي داده ﻛﺎوي ﻣﻮرد‬ ‫ﻛﺎوش ﻗﺮار ﻣﻲ ﮔﻴﺮﻧﺪ ﺗﺎ اﻟﮕﻮﻫﺎي ﻣﻮرد ﻧﻈﺮ ﻛﺸﻒ ﺷﻮﻧﺪ .‬ ‫• ﺗﻔﺴﻴﺮ ﻧﺘﻴﺠﻪ‬ ‫اﻃﻼﻋﺎت اﺳﺘﺨﺮاج ﺷﺪه ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻫﺪف ﻛﺎرﺑﺮ ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ و ﺑﻬﺘﺮﻳﻦ ﻧﺘﺎﻳﺞ‬ ‫ﻣﻌﻴﻦ ﻣﻲ ﮔﺮدﻧﺪ . ﻫﺪف از اﻳﻦ ﻣﺮﺣﻠﻪ ﺗﻨﻬﺎ اراﺋﻪ ﻧﺘﻴﺠﻪ )ﺑﺼﻮرت ﻣﻨﻄﻘﻲ و ﻳﺎ‬ ‫ﻧﻤﻮداري( ﻧﻴﺴﺖ ، ﺑﻠﻜﻪ ﭘﺎﻻﻳﺶ اﻃﻼﻋﺎت اراﻳﻪ ﺷﺪه ﺑﻪ ﻛﺎرﺑﺮ ﻧﻴﺰ از اﻫﺪاف ﻣﻬﻢ‬ ‫اﻳﻦ ﻣﺮﺣﻠﻪ اﺳﺖ .‬ ‫ﻋﻤﻠﻴﺎﺗﻬﺎي داده ﻛﺎوي‬ ‫در داده ﻛﺎوي ، ﭼﻬﺎر ﻋﻤﻞ اﺻﻠﻲ اﻧﺠﺎم ﻣﻲ ﺷﻮد ﻛﻪ ﻋﺒﺎرﺗﻨﺪ از ]1[‬ ‫1. ﻣﺪﻟﺴﺎزي ﭘﻴﺸﮕﻮﻳﻲ ﻛﻨﻨﺪه‬ ‫2. ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ‬ ‫3. ﺗﺤﻠﻴﻞ ﭘﻴﻮﻧﺪ‬ ‫4. ﺗﺸﺨﻴﺺ اﻧﺤﺮاف‬
  • 9. ‫از ﻋﻤﻠﻴﺎﺗﻬﺎي اﺻﻠﻲ ﻣﺬﻛﻮر ، ﻳﻚ ﻳﺎ ﺑﻴﺶ از ﻳﻜﻲ از آﻧﻬﺎ در ﭘﻴﺎده ﺳﺎزي ﻛﺎرﺑﺮد‬ ‫ﻫﺎي ﮔﻮﻧﺎﮔﻮن داده ﻛﺎوي اﺳﺘﻔﺎده ﻣﻲ ﺷﻮﻧﺪ . ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل ﺑﺮاي ﻛﺎرﺑﺮد ﻫﺎي‬ ‫ﺧﺮده ﻓﺮوﺷﻲ ﻣﻌﻤﻮﻻ از ﻋﻤﻠﻴﺎت ﺗﻘﻄﻴﻊ و ﺗﺤﻠﻴﻞ ﭘﻴﻮﻧﺪ اﺳﺘﻔﺎده ﻣﻲ ﺷﻮد در‬ ‫ﺣﺎﻟﻲ ﻛﻪ ﺑﺮاي ﺗﺸﺨﻴﺺ ﻛﻼﻫﺒﺮداري ، ﻣﻲ ﺗﻮان از ﻫﺮ ﻳﻚ از ﭼﻬﺎر ﻋﻤﻠﻴﺎت‬ ‫ﻣﺬﻛﻮر اﺳﺘﻔﺎده ﻧﻤﻮد . ﻋﻼوه ﺑﺮا ﻳﻦ ﻣﻲ ﺗﻮان از دﻧﺒﺎﻟﻪ اي از ﻋﻤﻠﻴﺎﺗﻬﺎ ﺑﺮاي ﻳﻚ‬ ‫ﻣﻨﻈﻮر ﺧﺎص اﺳﺘﻔﺎده ﻛﺮد . ﻣﺜﻼ ﺑﺮاي ﺷﻨﺎﺳﺎﻳﻲ ﻣﺸﺘﺮﻳﺎن ، اﺑﺘﺪا ﭘﺎﻳﮕﺎه ﺗﻘﻄﻴﻊ‬ ‫ﻣﻲ ﺷﻮد و ﺳﭙﺲ ﻣﺪﻟﺴﺎزي ﭘﻴﺸﮕﻮﻳﻲ ﻛﻨﻨﺪه در ﻗﻄﻌﺎت اﻳﺠﺎد ﺷﺪه اﻋﻤﺎل ﻣﻲ‬ ‫ﮔﺮدد .‬ ‫ﺗﻜﻨﻴﻜﻬﺎ ، روﺷﻬﺎ و اﻟﮕﻮرﻳﺘﻤﻬﺎي داده ﻛﺎوي ، راﻫﻬﺎي ﭘﻴﺎده ﺳﺎزي ﻋﻤﻠﻴﺎﺗﻬﺎي‬ ‫داده ﻛﺎوي ﻫﺴﺘﻨﺪ . اﮔﺮ ﭼﻪ ﻫﺮ ﻋﻤﻠﻴﺎت ﻧﻘﺎط ﺿﻌﻒ و ﻗﻮت ﺧﻮد را دارد ،‬ ‫اﺑﺰارﻫﺎي ﮔﻮﻧﺎﮔﻮن داده ﻛﺎوي ﻋﻤﻠﻴﺎﺗﻬﺎ را ﺑﺮ اﺳﺎس ﻣﻌﻴﺎرﻫﺎي ﺧﺎﺻﻲ ، اﻧﺘﺨﺎب‬ ‫ﻣﻲ ﻛﻨﻨﺪ . اﻳﻦ ﻣﻌﻴﺎرﻫﺎ ﻋﺒﺎرﺗﻨﺪ از :‬ ‫• ﺗﻨﺎﺳﺐ ﺑﺎ ﻧﻮع داده ﻫﺎي ورودي‬ ‫• ﺷﻔﺎﻓﻴﺖ ﺧﺮوﺟﻲ داده ﻛﺎوي‬ ‫• ﻣﻘﺎوﻣﺖ در ﻣﻘﺎﺑﻞ اﺷﺘﺒﺎه در ﻣﻘﺎدﻳﺮ داده ﻫﺎ‬ ‫• ﻣﻴﺰان ﺻﺤﺖ ﺧﺮوﺟﻲ‬ ‫• ﺗﻮاﻧﺎﻳﻲ ﻛﺎر ﻛﺮدن ﺑﺎ ﺣﺠﻢ ﺑﺎﻻي داده ﻫﺎ‬ ‫در ﺟﺪول زﻳﺮﺗﻜﻨﻴﻜﻬﺎي واﺑﺴﺘﻪ ﺑﻪ ﻫﺮ ﻳﻚ از ﻋﻤﻠﻴﺎﺗﻬﺎي ﭼﻬﺎر ﮔﺎﻧﻪ ﻣﺸﺨﺺ‬ ‫ﺷﺪه اﻧﺪ‬
  • 10. ‫ﺗﻜﻨﻴﻚ ﻫﺎي داده ﻛﺎوي‬ ‫ﻧﺎم ﻋﻤﻠﻴﺎت‬ ‫رده ﺑﻨﺪي ، ﭘﻴﺸﮕﻮﻳﻲ ﻣﻘﺪار‬ ‫ﻣﺪﻟﺴﺎزي ﭘﻴﺸﮕﻮﻳﻲ ﻛﻨﻨﺪه‬ ‫ﺧﻮﺷﻪ ﺑﻨﺪي آﻣﺎري ، ﺧﻮﺷﻪ ﺑﻨﺪي‬ ‫ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ‬ ‫ﻛﺸﻒ ﺑﺴﺘﮕﻲ ، ﻛﺸﻒ اﻟﮕﻮﻫﺎي ﻣﺘﻮاﻟﻲ‬ ‫ﺗﺤﻠﻴﻞ ﭘﻴﻮﻧﺪ‬ ‫، ﻛﺸﻒ دﻧﺒﺎﻟﻪ ﻫﺎي زﻣﺎﻧﻲ ﻣﺸﺎﺑﻪ‬ ‫آﻣﺎر ، ﺗﺠﺴﻢ ﻣﺪل‬ ‫ﺗﺸﺨﻴﺺ اﻧﺤﺮاف‬ ‫ﻋﻤﻠﻴﺎﺗﻬﺎ و ﺗﻜﻨﻴﻜﻬﺎي داده ﻛﺎوي‬ ‫ﻣﺪﻟﺴﺎزي ﭘﻴﺸﮕﻮﻳﻲ ﻛﻨﻨﺪه‬ ‫ﻣﺪﻟﺴﺎزي ﭘﻴﺸﮕﻮﻳﻲ ﻛﻨﻨﺪه ، ﺷﺒﻴﻪ ﺗﺠﺮﺑﻪ ﻳﺎدﮔﻴﺮي اﻧﺴﺎن در ﺑﻪ ﻛﺎر ﺑﺮدن‬ ‫ﻣﺸﺎﻫﺪات ﺑﺮاي اﻳﺠﺎد ﻳﻚ ﻣﺪل از ﺧﺼﻮﺻﻴﺎت ﻣﻬﻢ ﭘﺪﻳﺪه ﻫﺎ اﺳﺖ . در اﻳﻦ‬ ‫روش از ﺗﻌﻤﻴﻢ دﻧﻴﺎي واﻗﻌﻲ و ﺗﻌﻤﻴﻢ دﻧﻴﺎي واﻗﻌﻲ و ﻗﺎﺑﻠﻴﺖ ﺗﻄﺒﻴﻖ داده ﻫﺎي‬ ‫ﺟﺪﻳﺪ ﺑﺎ ﻳﻚ ﻗﺎﻟﺐ ﻛﻠﻲ ، اﺳﺘﻔﺎده ﻣﻲ ﺷﻮد .‬ ‫در اﻳﻦ ﻣﺪل ، ﻣﻲ ﺗﻮان ﺑﺎ ﺗﺤﻠﻴﻞ ﻳﻚ ﭘﺎﻳﮕﺎه داده ﻫﺎي ﻣﻮﺟﻮد ، ﺧﺼﻮﺻﻴﺎت‬ ‫ﻣﺠﻤﻮﻋﻪ ﻫﺎي داده را ﺗﻌﻴﻴﻦ ﻛﺮد . اﻳﻦ ﻣﺪل ﺑﺎ اﺳﺘﻔﺎده از روش ﻳﺎدﮔﻴﺮي‬ ‫ﻧﻈﺎرت ﺷﺪه، ﺷﺎﻣﻞ دو ﻓﺎز آﻣﻮزش و آزﻣﺎﻳﺶ اﻳﺠﺎد ﺷﺪه اﺳﺖ . در ﻓﺎز آﻣﻮزش‬ ‫ﺑﺎ اﺳﺘﻔﺎده از ﻧﻤﻮﻧﻪ ﻫﺎي ﻋﻈﻴﻤﻲ از داده ﻫﺎي ﺳﺎﺑﻘﻪ اي ، ﻣﺪﻟﻲ ﺳﺎﺧﺘﻪ ﻣﻲ‬ ‫ﺷﻮد ﻛﻪ ﻛﻪ ﺑﻪ آن ﻣﺠﻤﻮﻋﻪ آﻣﻮزﺷﻲ ﮔﻮ ﻳﻨﺪ . در ﻓﺎز آزﻣﺎﻳﺶ اﻳﻦ ﻣﺪل روي‬ ‫داده ﻫﺎﻳﻲ ﻛﻪ در ﻣﺠﻤﻮﻋﻪ آﻣﻮزﺷﻲ ﻗﺮار ﻧﺪارﻧﺪ ، اﻋﻤﺎل ﻣﻲ ﺷﻮد ﺗﺎ ﺻﺤﺖ و‬ ‫ﺧﺼﻮ ﺻﻴﺎت آن ﺗﺎﻳﻴﺪ ﮔﺮدد .‬ ‫از ﻛﺎرﺑﺮدﻫﺎي ﻋﻤﺪه اﻳﻦ ﻣﺪل ﻣﻲ ﺗﻮان ﺑﻪ ﻣﺪﻳﺮﻳﺖ ﻣﺸﺘﺮﻳﺎن ، ﺗﺼﻮﻳﺐ اﻋﺘﺒﺎر ،‬ ‫ﺑﺎزارﻳﺎﺑﻲ ﻣﺴﺘﻘﻴﻢ در ﺧﺮده ﻓﺮوﺷﻲ و ... اﺷﺎره ﻛﺮد .‬ ‫ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ‬ ‫ﻫﺪف از ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ ، ﺗﻘﺴﻴﻢ آن ﺑﻪ ﺗﻌﺪاد ﻧﺎﻣﻌﻴﻨﻲ از ﻗﻄﻌﺎت ﻳﺎ‬ ‫ﺧﻮﺷﻪ ﻫﺎﻳﻲ 51 از رﻛﻮردﻫﺎي ﻣﺸﺎﺑﻪ اﺳﺖ ، ﻳﻌﻨﻲ رﻛﻮردﻫﺎﻳﻲ ﻛﻪ ﺧﺼﻮﺻﻴﺎﺗﻲ‬ ‫51 ‪Clusters‬‬
  • 11. ‫ﻣﺸﺎﺑﻪ دارﻧﺪ و ﻣﻲ ﺗﻮان آﻧﻬﺎ را ﻫﻤﮕﻦ ﻓﺮض ﻛﺮد . ﭘﻴﻮﺳﺘﮕﻲ داﺧﻠﻲ اﻳﻦ‬ ‫ﻗﻄﻌﺎت ﺑﺴﻴﺎر زﻳﺎد اﺳﺖ در ﺣﺎﻟﻲ ﻛﻪ ﻫﻤﺒﺴﺘﮕﻲ ﺧﺎرﺟﻲ ﻣﻴﺎن آﻧﻬﺎ ﻛﻢ ﻣﻲ‬ ‫ﺑﺎﺷﺪ .‬ ‫در اﻳﻦ ﻣﺪل ﺑﺮ ﺧﻼف ﻣﺪل ﻗﺒﻞ ، از ﻳﺎدﮔﻴﺮي ﻧﻈﺎرت ﻧﺸﺪه ﺑﺮاي ﺗﻌﻴﻴﻦ‬ ‫زﻳﺮﺷﺎﺧﻪ ﻫﺎي ﻣﻤﻜﻦ از ﺟﻤﻌﻴﺖ داده اي اﺳﺘﻔﺎده ﻣﻲ ﺷﻮد . دﻗﺖ ﺗﻘﻄﻴﻊ‬ ‫ﭘﺎﻳﮕﺎه داده ﻫﺎ از روﺷﻬﺎي دﻳﮕﺮ ﻛﻤﺘﺮ اﺳﺖ ، ﺑﻨﺎﺑﺮاﻳﻦ در ﻣﻘﺎﺑﻞ ﺧﺼﻮﺻﻴﺎت‬ ‫ﻧﺎﻣﺮﺑﻮط و اﻓﺰوﻧﮕﻲ ، ﺣﺴﺎﺳﻴﺖ ﻛﻤﺘﺮي از ﺧﻮد ﻧﺸﺎن ﻣﻲ دﻫﺪ .‬ ‫از ﻛﺎرﺑﺮدﻫﺎي اﻳﻦ روش ﻣﻲ ﺗﻮان ﺑﻪ ﺷﻨﺎﺳﺎﻳﻲ ﻣﺸﺘﺮﻳﺎن ، ﺑﺎزارﻳﺎﺑﻲ ﻣﺴﺘﻘﻴﻢ و ...‬ ‫اﺷﺎره ﻛﺮد . در ﺷﻜﻞ 4-1 ﻣﺜﺎﻟﻲ از ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ دﻳﺪه ﻣﻲ ﺷﻮد . ]1[‬ ‫در اﻳﻦ ﻣﺜﺎل ، ﭘﺎﻳﮕﺎه داده ﻫﺎ ﺷﺎﻣﻞ 002 ﻣﺸﺎﻫﺪه اﺳﺖ ﻛﻪ در آن 001‬ ‫اﺳﻜﻨﺎس ﺗﻘﻠﺒﻲ و 001 اﺳﻜﻨﺎس واﻗﻌﻲ ﻫﺴﺘﻨﺪ . داده ﻫﺎ داراي ﺷﺶ ﺑﻌﺪ ﻣﻲ‬ ‫ﺑﺎﺷﻨﺪ ﻛﻪ ﻫﺮ ﺑﻌﺪ ﻣﺮﺑﻮط ﺑﻪ ﻳﻚ ﻣﻌﻴﺎر از اﻧﺪازه اﺳﻜﻨﺎس ﻫﺎ اﺳﺖ . ﺑﺎ اﺳﺘﻔﺎده از‬ ‫ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ ﻣﻲ ﺗﻮان ﺧﻮﺷﻪ ﻫﺎي ﻣﺘﻨﺎﻇﺮ ﺑﺎ اﺳﻜﻨﺎﺳﻬﺎي ﻣﻌﺘﺒﺮ و‬ ‫ﺗﻘﻠﺒﻲ را ﺗﺸﺨﻴﺺ داد . دو ﺧﻮﺷﻪ از اﺳﻜﻨﺎﺳﻬﺎي ﺗﻘﻠﺒﻲ وﺟﻮد دارﻧﺪ و اﻳﻦ ﺑﺪان‬ ‫ﻣﻌﻨﻲ اﺳﺖ ﻛﻪ ﺣﺪاﻗﻞ دو ﮔﺮوه ﻣﺒﺎدرت ﺑﻪ ﺗﻮﻟﻴﺪ و ﭼﺎپ اﺳﻜﻨﺎﺳﻬﺎي ﺗﻘﻠﺒﻲ‬ ‫ﻣﻲ ﻛﻨﻨﺪ .‬ ‫ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ ﺑﺎ آﻣﺎرﮔﻴﺮي ﻣﺮﺗﺒﻂ اﺳﺖ ﻛﻪ در ان از ﻓﺎﺻﻠﻪ ﻣﻴﺎن‬ ‫رﻛﻮردﻫﺎ و درﺻﺪ ﻗﺮار ﮔﺮﻓﺘﻦ داده ﻫﺎي ورودي در ﺧﻮﺷﻪ ﻫﺎ ، ﺟﻬﺖ ﺗﺠﺰﻳﻪ و‬ ‫ﺗﺤﻠﻴﻞ اﺳﺘﻔﺎده ﻣﻲ ﺷﻮد .‬ ‫ﺗﺤﻠﻴﻞ ﭘﻴﻮﻧﺪ‬ ‫در اﻳﻦ روش ﭘﻴﻮﻧﺪ ﻫﺎﻳﻲ ﻣﺮﺳﻮم ﺑﻪ ﺑﺴﺘﮕﻲ 61 ﻣﻴﺎن رﻛﻮردﻫﺎ و ﻳﺎ ﻣﺠﻤﻮﻋﻪ اي‬ ‫از رﻛﻮردﻫﺎ ﺑﺎزﺷﻨﺎﺳﻲ ﻣﻲ ﺷﻮﻧﺪ . ﺳﻪ رده وﻳﮋه از ﺗﺤﻠﻴﻞ ﭘﻴﻮﻧﺪ وﺟﻮد دارﻧﺪ ﻛﻪ‬ ‫ﻋﺒﺎرﺗﻨﺪ از :‬ ‫71‬ ‫1. ﻛﺸﻒ ﺑﺴﺘﮕﻲ‬ ‫61 ‪Association‬‬ ‫71 ‪Association Discovery‬‬
  • 12. 18 ‫2. ﻛﺸﻒ اﻟﮕﻮﻫﺎي ﻣﺘﻮاﻟﻲ‬ 19 ‫3. ﻛﺸﻒ دﻧﺒﺎﻟﻪ ﻫﺎي زﻣﺎﻧﻲ ﻣﺸﺎﺑﻪ‬ Sequential Pattern Discovery 18 Similar time Sequences 19
  • 13. ‫ﺑﺮاي ﻗﻮاﻧﻴﻦ واﺑﺴﺘﮕﻲ دو ﭘﺎراﻣﺘﺮ ﻣﻌﺮﻓﻲ ﻣﻲ ﮔﺮدﻧﺪ :‬ ‫1. درﺟﻪ ﭘﺸﺘﻴﺒﺎﻧﻲ 02 : ﻛﺴﺮي از ﺟﻤﻌﻴﺖ اﺳﺖ ﻛﻪ در ﻳﻚ ﻗﺎﻋﺪه ، ﻫﻢ‬ ‫ﻣﻘﺪم و ﻫﻢ ﺗﺎﻟﻲ را دارﻧﺪ . در واﻗﻊ درﺻﺪي از ﺗﺮاﻛﻨﺸﻬﺎ ﻛﻪ ﺷﺎﻣﻞ ﻫﻤﻪ‬ ‫اﻗﻼم ﻇﺎﻫﺮ ﺷﺪه در ﻣﻘﺪم و ﺗﺎﻟﻲ ﺑﺎﺷﻨﺪ . ﻓﺮض ﻛﻨﻴﻢ ﻛﻪ ﺗﻨﻬﺎ در‬ ‫1000/ . % از ﺗﺮاﻛﻨﺸﻬﺎي ﺧﺮﻳﺪ ، ﺷﻴﺮ و ﭘﻴﭻ ﮔﻮﺷﺘﻲ ﺑﺎ ﻫﻢ ﺑﺎﺷﻨﺪ ،‬ ‫ﺑﻨﺎﺑﺮاﻳﻦ درﺟﻪ ﭘﺸﺘﻴﺒﺎﻧﻲ ﺑﺮاي ﻗﺎﻧﻮن quot; ﭘﻴﭻ ﮔﻮﺷﺘﻲ → ﺷﻴﺮ quot; ﺑﺴﻴﺎر‬ ‫ﭘﺎﻳﻴﻦ اﺳﺖ . اﻳﻦ ﻣﺴﺎﻟﻪ ﻧﺸﺎن ﻣﻲ دﻫﺪ ﻛﻪ ﻣﺪرﻛﻲ ﺑﺮاي اﺛﺒﺎت راﺑﻄﻪ‬ ‫ﻣﻴﺎن quot; ﺷﻴﺮ quot; و quot; ﭘﻴﭻ ﮔﻮﺷﺘﻲ quot; وﺟﻮد ﻧﺪارد .‬ ‫2. درﺟﻪ اﻃﻤﻴﻨﺎن 12 : در ﻳﻚ ﺟﻤﻌﻴﺖ ﻣﻮرد ﺑﺮرﺳﻲ ، ﻛﺴﺮي از ﻣﻮارد‬ ‫اﺳﺖ ﻛﻪ وﻗﺘﻲ ﻣﻘﺪم ﻗﺎﻋﺪه در آﻧﻬﺎ ﻇﺎﻫﺮ ﺷﺪه اﺳﺖ ، ﺗﺎﻟﻲ ﻧﻴﺰ در آﻧﻬﺎ‬ ‫وﺟﻮد دارد . ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل در ﻗﺎﻧﻮن quot; ﭘﻨﻴﺮ → ﻧﺎن quot; اﮔﺮ درﺟﻪ‬ ‫اﻃﻤﻴﻨﺎن ﺑﺮاﺑﺮ 08% ﺗﺮاﻛﻨﺸﻬﺎي ﺧﺮﻳﺪ ، اﮔﺮ ﻧﺎن وﺟﻮد داﺷﺘﻪ ﺑﺎﺷﺪ ،‬ ‫ﭘﻨﻴﺮ ﻧﻴﺰ وﺟﻮد دارد . ﺑﺎﻳﺪ ﺗﻮﺟﻪ داﺷﺖ ﻛﻪ ﻣﻘﺪار درﺟﻪ اﻃﻤﻴﻨﺎن ﺑﺎ‬ ‫ﺗﻌﻮﻳﺾ ﻣﻘﺪم و ﺗﺎﻟﻲ در ﻗﺎﻋﺪه ، ﻣﻤﻜﻦ اﺳﺖ ﺑﻪ ﺷﺪت ﺗﻐﻴﻴﺮ ﻛﻨﺪ .‬ ‫داﻣﻨﻪ اﻧﺪازه ﭘﺎﻳﮕﺎه ﻫﺎي داده اﻣﺮوزه ﺑﻪ ﺗﺮا ﺑﺎﻳﺖ رﺳﻴﺪه اﺳﺖ اﻳﻦ ﭘﺎﻳﮕﺎه داده ﺑﻪ‬ ‫ﻫﻤﺮاه اﻃﻼﻋﺎت ﻓﺮاواﻧﻲ ﻛﻪ ﺑﻪ ﺻﻮرت ﻧﺎﺷﻨﺎﺧﺘﻪ در آن ﺗﻌﺒﻴﻪ ﮔﺮدﻳﺪه ﻣﻲ ﺑﺎﻳﺸﺪ‬ ‫ﻣﺴﺎﻟﻪ اﻳﻦ اﺳﺖ ﻛﻪ ﭼﮕﻮﻧﻪ ﻣﻲ ﺗﻮان از ﻣﻴﺎن اﻳﻦ ﺟﻨﮕﻞ ﻋﻈﻴﻢ اﻃﻼﻋﺎﺗﻲ ﺑﻪ‬ ‫ﻫﻤﺮاه درﺧﺘﻬﺎي ﭘﻴﭽﻴﺪه آن اﻃﻼﻋﺎﺗﻲ را اﺳﺘﻨﺘﺎج ﻧﻤﻮد؟ﺑﺎ اﺳﺘﻔﺎده از داده‬ ‫ﻛﺎوي ﻣﻲ ﺗﻮان اﻳﻦ ﻫﺰﻳﻨﻪ را ﻛﻢ ﻧﻤﻮد و در ﻋﻮض ﺑﺎزدﻫﻲ ﺑﻴﺸﺘﺮي ﺑﺪﺳﺖ‬ ‫آورد.در ﺣﺎل ﺣﺎﺿﺮ ﺷﺮﻛﺘﻬﺎي ﺑﻲ ﺷﻤﺎري ﺳﻌﻲ دارﻧﺪ ﺑﺎ اﺳﺘﻔﺎده از اﻳﻦ روش‬ ‫ﺑﻪ ﻣﺸﺘﺮﻳﺎن ﺧﻮد ﭘﻴﺸﻨﻬﺎدات ﺑﻬﺘﺮي ﺑﺮاي ﺧﺮﻳﺪ اراﺋﻪ دﻫﻨﺪ ﺗﺎ ﻓﺮوش آﻧﻬﺎ ﺑﺎﻻﺗﺮ‬ ‫رﻓﺘﻪ و در ﻋﻮض ﺿﺮر و زﻳﺎن ﻣﻮﺟﻮد از اﻳﻦ ﻃﺮﻳﻖ ﻛﻤﻴﻨﻪ ﮔﺮدد.‬ ‫02 ‪Support‬‬ ‫12 ‪Confidence‬‬
  • 14. ‫داده ﻛﺎوي ﻓﺮآﻳﻨﺪي اﺳﺖ ﻛﻪ ﻃﻲ آن ﺑﺎ اﺳﺘﻔﺎده از اﻧﻮاع ﻣﺨﺘﻠﻒ اﺑﺰار ﺗﺤﻠﻴﻞ‬ ‫داده ﺑﻪ دﻧﺒﺎل ﻛﺸﻒ اﻟﮕﻮﻫﺎ و ارﺗﺒﺎﻃﺎت ﻣﻴﺎن داده ﻫﺎي ﻣﻮﺟﻮد ﻛﻪ ﻣﻤﻜﻦ اﺳﺖ‬ ‫ﻣﻨﺠﺮ ﺑﻪ اﺳﺘﺨﺮاج اﻃﻼﻋﺎت ﺟﺪﻳﺪي از ﭘﺎﻳﮕﺎه داده ﮔﺮدﻧﺪ ﻣﻲ ﺑﺎﺷﺪ.‬ ‫اوﻟﻴﻦ وﺳﺎده ﺗﺮﻳﻦ ﮔﺎم ﺗﺤﻠﻴﻞ داده در داده ﻛﺎوي ﺗﻮﺿﻴﺢ و ﺷﺮح ﻣﺸﺨﺺ داده‬ ‫)از ﺟﻤﻠﻪ ﻣﻌﻨﻲ داده واﻧﺤﺮاف اﺳﺘﺎﻧﺪارد ﻛﻠﻤﻪ(ﻣﻲ ﺑﺎﺷﺪ ﻛﻪ اﻳﻦ ﻛﺎر ﻣﻲ ﺗﻮاﻧﺪ ﺑﻪ‬ ‫وﺳﻴﻠﻪ ﻧﻤﺪارﻫﺎ و ﮔﺮاف ﻫﺎﻳﻴﻮﻫﻤﭽﻨﻴﻦ ﻛﻠﻤﺎﺗﻲ ﻛﻪ ﺑﺎ اﻳﻦ ﻛﻠﻤﻪ ارﺗﺒﺎط ﻣﻌﻨﺎﻳﻲ‬ ‫ﻧﺰدﻳﻜﻲ دارﻧﺪ اﻧﺠﺎم ﮔﺮدد در ﻧﻴﺠﻪ ﺟﻤﻊ آوري ﺟﺴﺘﺠﻮ و اﻧﺘﺨﺎب داده درﺳﺖ‬ ‫در اﻳﻦ ﺑﺨﺶ ﺑﺴﻴﺎر ﻣﻬﻢ و ﺣﻴﺎﺗﻲ ﻣﻲ ﺑﺎﺷﺪ.‬ ‫اﻣﺎ اﻳﻦ ﻛﺎر ﺑﻪ ﺗﻨﻬﺎﻳﻲ ﻛﺎر ﺧﺎﺻﻲ اﻧﺠﺎم ﻧﻤﻲ دﻫﺪ ﺷﻤﺎ ﺑﺎﻳﺪ ﻳﻚ ﻣﺪل ﭘﻴﺶ‬ ‫ﺑﻴﻨﻲ ﻛﻨﻨﺪه ﺑﺮ اﺳﺎس اﻟﮕﻬﺎﻳﻲ ﻛﻪ از ﻧﺘﺎﻳﺞ داﻧﺶ ﺑﻪ دﺳﺖ آورده ﺷﺪه ﺑﺴﺎزﻳﺪ‬ ‫ﺳﭙﺲ آزﻣﺎﻳﺶ ﻛﻨﻴﺪ ﻛﻪ آﻳﺎ ان ﻣﺪل ﺑﺎ ﻧﻤﻮﻧﻪ اﺻﻠﻲ ﺳﺎزﮔﺎر اﺳﺖ ﻳﻚ ﻣﺪل‬ ‫ﺧﻮب ﻧﺒﺎﻳﺪ ﺑﺎ ﺟﻬﺎن واﻗﻊ ﺗﻔﺎوت ﭼﻨﺪاﻧﻲ داﺷﺘﻪ ﺑﺎﺷﺪ.]1[‬ ‫آﺧﺮﻳﻦ ﮔﺎم ﻧﻴﺰ ﺗﺸﺨﻴﺺ ﺻﺤﺖ وﺳﻘﻢ ﻋﻤﻠﻜﺮد ﻣﺪل ﺑﺼﻮرت ﺗﺠﺮﺑﻲ ﻣﻲ‬ ‫ﺑﺎﺷﺪم.ﺑﺮاي ﻣﺜﺎل از ﻳﻚ ﺑﺎﻧﻚ ﻣﺮﺑﻮط ﺑﻪ ﻣﺸﺘﺮﻳﺎن وﭘﺎﺳﺦ ﻫﺎﻳﻲ ﻛﻪ ﺑﻪ ﻳﻚ‬ ‫ﭘﻴﺸﻨﻬﺎد ﺧﺎص داده اﻧﺪ ﻳﻚ ﻣﺪل ﻣﻲ ﺳﺎزﻳﺪ ﻛﻪ ﺑﺮ اﺳﺎس آن ﻣﺸﺨﺺ ﻣﻲ‬ ‫ﺷﻮد ﻛﻪ ﻛﺪام ﺣﺪس واﻧﺘﻈﺎر ﺑﻴﺸﺘﺮﻳﻦ ﻧﺰدﻳﻜﻲ را ﺑﺎ ﻳﻚ ﭘﻴﺸﻨﻬﺎد ﻣﺎﻧﻨﺪ‬ ‫ﭘﻴﺸﻨﻬﺎد ﻗﺒﻠﻲ دارد و اﻳﻨﻜﻪ آﻳﺎ ﺷﻤﺎ ﻣﻲ ﺗﻮاﻧﻴﺪ ﺑﺮ اﻳﻦ ﺣﺪس اﻋﺘﻤﺎد ﻛﻨﻴﺪ ﻳﺎ‬ ‫ﻧﻪ؟‬ ‫ﻗﺎﺑﻠﻴﺘﻬﺎي ‪: DataMining‬‬ ‫ﺑﺎﻳﺪ ﺗﻮﺟﻪ داﺷﺘﻪ ﺑﺎﺷﻴﺪ ﻛﻪ داده ﻛﺎوي ﻳﻚ اﺑﺰار ﺟﺎدوﻳﻲ ﻧﻴﺴﺖ ﻛﻪ ﺑﺘﻮاﻧﺪ در‬ ‫ﭘﺎﻳﮕﺎه داده ﺷﻤﺎ ﺑﻪ دﻧﺒﺎل اﻟﮕﻮﻫﺎي ﺟﺎﻟﺐ ﺑﮕﺮدد و اﮔﺮ ﺑﻪ اﻟﮕﻮﻳﻲ ﺟﺪﻳﺪي‬ ‫ﺑﺮﺧﻮرد ﻛﺮد آن را ﺑﻪ ﺷﻤﺎ اﻋﻼم ﻛﻨﺪ ﺑﻠﻜﻪ ﺻﺮﻓﺎ اﻟﮕﻮﻫﺎ و رواﺑﻂ ﺑﻴﻦ داده ﻫﺎ را‬ ‫ﺑﻪ ﺷﻤﺎ اﻋﻼم ﻣﻲ ﻛﻨﺪ ﺑﺪون ﺗﻮﺟﻪ ﺑﻪ ارزش آﻧﻬﺎ. ﺑﻨﺎﺑﺮاﻳﻦ اﻟﮕﻮﻫﺎﻳﻲ ﻛﻪ ﺑﻪ اﻳﻦ‬ ‫وﺳﻴﻠﻪ ﻛﺸﻒ ﻣﻲ ﺷﻮﻧﺪ ﺑﺎﻳﺪ ﺑﺎ ﺟﻬﺎن واﻗﻊ ﺗﻄﺎﺑﻖ داﺷﺘﻪ ﺑﺎﺷﻨﺪ. ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل‬ ‫داده ﻛﺎوي ﻣﻲ ﺗﻮاﻧﺪ ﺑﺎ ﺗﻌﻴﻴﻦ ﻧﺮخ در آﻣﺪﻫﺎﻳﻲ ﻛﻪ ﺑﻄﻮر ﻣﺜﺎل ﺑﻴﻦ $000/05‬ ‫و $000/56 اﺳﺖ ﻛﻪ ﺑﺮاي ﺧﺮﻳﺪ روزﻧﺎﻣﻪ ﺧﺎﺻﻲ در ﻣﻴﺎن ﻓﺮوﺷﻨﺪﮔﺎن اﺳﺖ‬
  • 15. ‫ﺗﻌﻴﻴﻦ ﻛﻨﺪ ﻛﻪ اﻛﺜﺮ ﻛﺎﻻﻫﺎي ﻣﻮرد ﻧﻴﺎز ﻣﺮدم ﭼﻪ رﻧﺠﻲ از ﻗﻴﻤﺖ ﺑﻮده وﻛﺪام ﻫﺎ‬ ‫ﻫﺴﺘﻨﺪ؟‬ ‫ﺑﻪ اﻳﻦ ﺗﺮﺗﻴﺐ ﺷﻤﺎ ﻣﻲ ﺗﻮاﻧﻴﺪ از ﻫﺪف ﺧﺮﻳﺪ ﻣﺮدم ﺑﺪون اﻳﻨﻜﻪ ﻓﺎﻛﺘﻮرﻫﺎﻳﻲ‬ ‫ﺑﺮاي ﺧﺮﻳﺪ ﻛﺎﻻﻫﺎي ﺧﻮد در ﻧﻈﺮ ﺑﮕﻴﺮﻳﺪ ﻣﻄﻠﻊ ﺷﻮﻳﺪ؟‬ ‫ﺑﺮاي ﺗﻀﻤﻴﻦ ﺑﺪﺳﺖ آﻣﺪن ﻧﺘﺎﻳﺞ ﺑﺎ ﻣﻌﻨﻲ ﻻزم اﺳﺖ ﻛﻪ ﺷﻤﺎ ﺑﺘﻮاﻧﻴﺪ داده ﻫﺎي‬ ‫ﺧﻮد را ﺗﺤﻠﻴﻞ ﻛﻨﻴﺪ ﻛﻴﻔﻴﺖ ﺧﺮوﺟﻲ ﺷﻤﺎ ﺑﻪ اﻃﻼﻋﺎت ﺧﺎرج از ﭘﺎﻳﮕﺎه داده ) ﺑﻪ‬ ‫ﻋﻨﻮان ﻣﺜﺎل داده اي ﺑﺎارزﺷﻲ ﻛﻪ ﻣﺘﻔﺎوت از داده ﻫﺎي ﻧﻮﻋﻲ در ﭘﺎﻳﮕﺎه داده‬ ‫ﺷﻤﺎﺳﺖ( ﺳﺘﻮﻧﻬﺎي ﻇﺎﻫﺮا ﺑﻲ ارﺗﺒﺎط ﻳﺎ ﺑﺎ ارﺗﺒﺎط ﻧﺰدﻳﻚ ﺑﻪ ﺑﻘﻴﻪ ﭘﺎﻳﮕﺎه‬ ‫داده)ﻣﺎﻧﻨﺪ ﺗﺎرﻳﺦ ﺗﻮﻟﻴﺪ ﻳﺎ اﻧﻘﻀﺎي ﻛﺎﻻ( ﺑﺴﺘﮕﻲ ﻧﺰدﻳﻜﻲ دارﻧﺪ .اﻟﮕﻮرﻳﺘﻢ ﺑﺮ‬ ‫اﺳﺎس ﺣﺴﺎﺳﻴﺘﺸﺎن ﺑﻪ داده ﻫﺎ روﺷﻬﺎي ﻣﺘﻔﺎوﺗﻲ دارﻧﺪ. اﻣﺎ ﻏﻴﺮ ﻋﺎﻗﻼﻧﻪ اﺳﺖ‬ ‫ﻛﻪ ﺑﻪ ﻣﺤﺼﻮل داده ﻛﺎوي ﺻﺮﻓﺎ ﺑﻪ ﺑﺮاي ﺗﻤﺎم ﺗﺼﻤﻴﻢ ﮔﻴﺮي ﻫﺎﻳﻤﺎن ﺗﻜﻴﻪ‬ ‫ﻛﻨﻴﻢ.‬ ‫داده ﻛﺎوي ﺑﻄﻮر اﺗﻮﻣﺎﺗﻴﻚ و ﺑﺪون رﻫﻨﻤﺎﻳﻲ ﻗﺎدر ﺑﻪ ﻛﺸﻒ راه ﺣﻞ ﻫﺎ ﻧﻴﺴﺖ.‬ ‫ﺷﻤﺎ ﺗﺮﺟﻴﺤﺎ ﺑﻪ ﺟﺎي ﺑﻴﺎن ﻳﻚ ﻫﺪف ﻣﺒﻬﻢ ﻣﺎﻧﻨﺪ quot;ﻛﻤﻚ ﺑﻪ ارﺗﻘﺎي ﭘﺎﺳﺦ دﻫﻲ‬ ‫ﺑﻪ در ﺧﻮاﺳﺖ ﻫﺎ ‪ mail‬ﻣﻦ quot; ﺷﻤﺎ ﺑﺎﻳﺪ از داده ﻛﺎوي ﺑﺮاي ﻳﺎﻓﺘﻦ ﺧﺼﻴﺼﻪ‬ ‫ﻫﺎي اﻓﺮادي ﻛﻪ‬ ‫)1(: ﺑﻪ درﺧﻮاﺳﺖ ﻫﺎي ﺷﻤﺎ ﭘﺎﺳﺦ ﻣﻲ دﻫﻨﺪ‬ ‫)2(: ﺑﻪ درﺧﻮاﺳﺖ ﻫﺎي ﺷﻤﺎ ﭘﺎﺳﺦ داده و ﺧﺮﻳﺪ زﻳﺎدي ﻣﻲ ﻛﻨﻨﺪ‬ ‫اﺳﺘﻔﺎده ﻛﻨﻴﺪ. اﻟﮕﻮ ﻫﺎﻳﻲ ﻛﻪ داده ﻛﺎوي ﺑﺮاي ﻳﺎﻓﺘﻦ ﺑﻪ اﻳﻦ دو ﻫﺪف اﺳﺘﻔﺎده‬ ‫ﻣﻲ ﻛﻨﻨﺪ ﻣﺘﻔﺎوت اﺳﺖ.‬ ‫اﮔﺮ ﭼﻪ ﻳﻚ اﺑﺰار ﺧﻮب ﺑﺮاي داده ﻛﺎوي ﺷﻤﺎ را از ﭘﻴﭽﻴﺪﮔﻲ ﻫﺎي ﺗﻜﻨﻴﻜﻬﺎي‬ ‫آﻣﺎري راﺣﺖ ﻣﻲ ﺳﺎزد اﻣﺎ ﺑﻪ ﺷﻤﺎ ﺑﺮاي ﻓﻬﻤﻴﺪن ﻛﺎر ﻫﺎي اﺑﺰاري ﻛﻪ اﻧﺘﺨﺎب‬ ‫ﻛﺮده اﻳﺪ و ﻫﻤﭽﻨﻴﻦ اﻟﮕﻮرﻳﺘﻤﻬﺎﻳﻲ ﻛﻪ ﺑﺮ ﭘﺎﻳﻪ آن ﻛﺎر ﻣﻲ ﻛﻨﺪ ﻧﻴﺎزﻣﻨﺪ اﺳﺖ.‬ ‫اﻧﺘﺨﺎﺑﻲ ﻛﻪ ﺷﻤﺎ ﺑﺮاي اﺑﺰار ﻣﻮرد ﻧﻴﺎز اﻧﺠﺎم ﻣﻲ دﻫﻴﺪ و ﺑﻬﻴﻨﻪ ﺳﺎزي ﻫﺎﻳﻲ را ﻛﻪ‬ ‫ﺷﻤﺎ اﻧﺠﺎم ﻣﻲ دﻫﻴﺪ در دﻗﺖ و ﺳﺮﻋﺖ ﻛﺎر ﺑﺴﻴﺎر ﺗﺎﺛﻴﺮ دارد.]2[‬ ‫داده ﻛﺎوي و اﻧﺒﺎر داده ﻫﺎ :‬
  • 16. ‫اﻏﻠﺐ داده اي ﻛﻪ ﻣﻮرد ﻛﺎوش ﻗﺮار ﻣﻲ ﮔﻴﺮد اﺑﺘﺪا از ﻳﻚ اﻧﺒﺎر داده آﻣﺎده ﺷﺪه‬ ‫ﺑﻪ داﺧﻞ ﻳﻚ ﭘﺎﻳﮕﺎه داده ﻛﺎوي ﺳﺮازﻳﺮ ﻣﻲ ﺷﻮد. اﻳﻦ ﻛﺎر ﻣﺰاﻳﺎي زﻳﺎدي دارد.‬ ‫ﭘﺎﻳﮕﺎه داده ﻛﺎوي ﻣﻲ ﺗﻮاﻧﺪ ﺑﻪ ﺟﺎي ﻳﻚ اﻧﺒﺎر ﻓﻴﺰﻳﻜﻲ داده ﻳﻚ اﻧﺒﺎر ﻣﻨﻄﻘﻲ از‬ ‫داده ﻫﺎ ﺑﺎﺷﺪ. ﺑﻪ ﺷﺮط آﻧﻜﻪ اﻧﺒﺎر داده ‪ DBMS‬ﺑﺘﻮاﻧﺪ داﻣﻨﻪ ﻫﺎي ﻣﻨﺎﺑﻊ اﺿﺎﻓﻲ‬ ‫از داده ﻛﺎوي را ﻧﻴﺰ ﭘﻮﺷﺶ دﻫﺪ. روﻧﺪ ﺷﺮح داده ﺷﺪه در ﺷﻜﻞ زﻳﺮ آﻣﺪه اﺳﺖ:‬ ‫‪Data Sources‬‬ ‫‪Data‬‬ ‫‪Warehouse‬‬ ‫‪Analysis‬‬ ‫‪Data Mart‬‬ ‫‪Geographic‬‬ ‫‪Data Mining‬‬ ‫‪Data Mart‬‬ ‫‪Data Mart‬‬ ‫داده ﻛﺎوي و ‪: OLAP‬‬ ‫ﻳﻜﻲ از ﺳﻮاﻟﻬﺎي راﻳﺞ در ﻣﻴﺎن ﻣﺘﺨﺼﺼﺎن ﭘﺮدازش داده در ﻣﻮرد ﺗﻔﺎوت ﻣﻴﺎن‬ ‫داده ﻛﺎوي و‪) OLAP‬ﭘﺮدازش آﻧﺎﻟﻴﺰي ‪. ( on-line‬‬ ‫‪ Olap‬ﻗﺴﻤﺘﻲ از ﻗﺎﻟﺐ اﺑﺰارﻫﺎي ﺗﺼﻤﻴﻢ ﮔﻴﺮي اﺳﺖ. ﭘﺮس وﺟﻮ ﻫﺎي ﺳﻨﺘﻲ و‬ ‫اﺑﺰارﻫﺎي ﮔﺰارش ﮔﻴﺮي ﻛﻪ ﭼﻪ ﭼﻴﺰي در داﺧﻞ ﻳﻚ ﭘﺎﻳﮕﺎه داده اﺳﺖ. ‪ olap‬از‬ ‫اﻳﻦ ﻓﺮاﺗﺮ ﻣﻴﺮود و ﺑﺮاي ﺟﻮاب دادن ﺑﻪ ﻋﻠﺖ درﺳﺘﻲ ﺑﺮﺧﻲ ﻣﻮارد اﺳﺘﻔﺎده دارد.‬ ‫داده ﻛﺎوي , آﻣﺎر و ﻳﺎدﮔﻴﺮي ﻣﺎﺷﻴﻦ‬ ‫داده ﻛﺎوي ﻓﻮاﻳﺪي از ﭘﻴﺸﺮﻓﺘﻬﺎي رﺷﺘﻪ ﻫﻮش ﻣﺼﻨﻮﻋﻲ را در ﺧﻮد ﺟﺎي داده‬ ‫اﺳﺖ ﻛﻪ ﻫﻢ ﺷﺎﻣﻞ ﻗﻮاﻋﺪي ﺑﺮاي ﻣﺴﺎﺋﻞ ﺗﺸﺨﻴﺺ اﻟﮕﻮ و ﻃﺒﻘﻪ ﺑﻨﺪي ﻣﻲ ﺑﺎﺷﺪ‬ ‫وﻫﻢ ارﺗﺒﺎﻃﺎﺗﻲ ﻛﻪ از ﻃﺮﻳﻖ ﻛﺎرﺑﺮد ﺷﺒﻜﻪ ﻫﺎي ﻋﺼﺒﻲ و درﺧﺘﻬﺎي ﺗﺼﻤﻴﻢ‬ ‫ﮔﻴﺮي ﺑﺮاي ﻓﻬﻢ ﻣﺴﺎﺋﻞ ﺻﻮرت ﻣﻲ ﮔﻴﺮد ﻣﻲ ﺑﺎﺷﺪ.‬
  • 17. ‫داده ﻛﺎوي در اﻳﻦ زﻣﻴﻨﻪ داراي اﻟﮕﻮرﻳﺘﻢ ﻫﺎي ﻧﺴﺒﺘﺎ ﺟﺪﻳﺪي ﻣﺎﻧﻨﺪ ﺷﺒﻜﻪ‬ ‫ﻋﺼﺒﻲ و درﺧﺖ ﺗﺼﻤﻴﻢ ورﻫﻴﺎﻓﺖ ﻫﺎي ﺟﺪﻳﺪي ﺑﺮاي اﻟﮕﻮرﻳﺘﻢ ﻫﺎي ﻗﺪﻳﻤﻴﺘﺮ‬ ‫ﻣﺎﻧﻨﺪ اﻟﮕﻮرﻳﺘﻢ ﻫﺎي ﺗﻔﻜﻴﻚ ﻛﻨﻨﺪه دارد.‬ ‫ﻧﻜﺘﻪ ﻣﻬﻢ آﻧﻜﻪ داده ﻛﺎوي ﻛﺎرﺑﺮد اﻳﻦ ﺗﻜﻨﻴﻜﻬﺎ را ﺑﺮاي ﻣﺴﺎﺋﻞ ﺗﺠﺎري ﻣﺸﺎﺑﻪ‬ ‫ﺑﺎﻻ ﺑﻪ ﻃﺮﻳﻘﻲ ﻛﻪ اﻳﻦ ﺗﻜﻨﻴﻜﻬﺎ را ﺑﺮاي ﻛﺎرﺑﺮ ﺧﺒﺮه داﻧﺶ و آﻣﺎرﮔﻴﺮ ﻣﺘﺨﺼﺺ‬ ‫ﻗﺎﺑﻞ دﺳﺘﺮس ﺳﺎزد اﺳﺘﻔﺎده ﻣﻲ ﺷﻮد.‬ ‫ﻛﺎرﺑﺮدﻫﺎي داده ﻛﺎوي‬ ‫داده ﻛﺎوي ﺑﻪ ﺳﺮﻋﺖ در ﺣﺎل ﻣﺤﺒﻮﺑﻴﺖ اﺳﺖ ﺑﻪ ﺧﺎﻃﺮ ﻛﻤﻚ ﻫﺎي اﺳﺎﺳﻲ آن.‬ ‫ﺳﺎزﻣﺎﻧﻬﺎي زﻳﺎدي در ﺣﺎل اﺳﺘﻔﺎده از داده ﻛﺎوي ﺑﺮاي ﻛﻤﻚ ﺑﻪ ﻣﺪﻳﺮﻳﺖ ﺗﻤﺎم‬ ‫ﻓﺎزﻫﺎي ارﺗﺒﺎط ﺑﺎ ﻣﺸﺘﺮي ﺷﺎﻣﻞ ﺑﻪ دﺳﺖ آوردن ﻣﺸﺘﺮﻳﺎن ﺟﺪﻳﺪ, اﻓﺰاﻳﺶ ﺳﻮد‬ ‫از ﻃﺮﻳﻖ ﻣﺸﺘﺮﻳﺎن ﻣﻮﺟﻮد و ﺣﻔﻆ ﻛﺮدن ﻣﺸﺘﺮﻳﺎن ﺧﻮب ﻫﺴﺘﻨﺪ.ﺑﺎ ﺗﻌﻴﻴﻦ‬ ‫ﻣﺸﺨﺼﺎت ﻳﻚ ﻣﺸﺘﺮي ﺧﻮب ﻳﻚ ﺷﺮﻛﺖ ﻣﻲ ﺗﻮاﻧﺪ ﺑﺎ ﻫﻤﺎن ﻣﺸﺨﺼﺎت اﻫﺪاف‬ ‫آﻳﻨﺪه ﺧﻮﻳﺶ را ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻨﺪ. ﺑﺎ ﭘﺮوﻧﺪه ﺳﺎزي ﺑﺮاي ﻣﺸﺘﺮي ﻛﻪ ﻳﻚ‬ ‫ﻣﺤﺼﻮل ﺧﺎص را ﺧﺮدي ﻣﻲ ﻧﻤﺎﻳﺪ اﻳﻦ ﺷﺮﻛﺖ ﻣﻲ ﺗﻮاﻧﺪ ﺗﻮﺟﻪ ﺧﻮد را ﺑﻪ‬ ‫ﻣﺸﺘﺮﻳﺎن ﻣﺸﺎﺑﻬﻲ ﻛﻪ از اﻳﻦ ﻣﺤﺼﻮل ﺧﺮﻳﺪ ﻧﻜﺮده اﻧﺪ ﻣﻌﻄﻮف دارد ﺑﺎ ﭘﺮوﻧﺪه‬ ‫ﺳﺎزي ﺑﺮاي ﻣﺸﺘﺮﻳﺎﻧﻲ ﻛﻪ اﻳﻦ ﺳﺎزﻣﺎن را ﺗﺮك ﻛﺮده اﻧﺪ ﻳﻚ ﺷﺮﻛﺖ ﻣﻲ ﺗﻮاﻧﺪ‬ ‫ﻣﺸﺘﺮﻳﺎﻧﻲ را ﻛﻪ ﺧﻄﺮ رﻓﺘﻦ آﻧﻬﺎ ﻧﻴﺰ وﺟﻮد دارد را ﻧﮕﻪ دارد ﭼﺮا ﻛﻪ ﻧﮕﻬﺪاري‬ ‫ﻳﻚ ﻣﺸﺘﺮي ﻣﻮﺟﻮد ﺑﺴﻴﺎر ﻛﻢ ﻫﺰﻳﻨﻪ ﺗﺮ از ﺑﺪﺳﺖ آوردن ﻳﻚ ﻣﺸﺘﺮي ﺟﺪﻳﺪ‬ ‫ﻫﺰﻳﻨﻪ ﻣﻲ ﺑﺮد. داده ﻛﺎوي ارزﺷﻬﺎﻳﻲ را از ﻃﺮﻳﻖ ﺑﺮرﺳﻲ ﻳﻚ ﻃﻴﻒ وﺳﻴﻌﻲ از‬ ‫ﻛﺎرﺧﺎﻧﻪ ﻫﺎ ﭘﻴﺸﻨﻬﺎد ﻣﻲ ﻛﻨﺪ.ﺷﺮﻛﺘﻬﺎي ارﺗﺒﺎﻃﺎت از راه دور و ﻛﺎرت ﻫﺎي‬ ‫اﻋﺘﺒﺎري دو ﺷﺎﺧﻪ ﺑﺰرگ در اﺳﺘﻔﺎده از داده ﻛﺎوي ﺑﺮاي ﺗﺸﺨﻴﺺ اﺳﺘﻔﺎده ﻛﻼه‬ ‫ﺑﺮداراﻧﻪ از ﺧﺪﻣﺎت آﻧﻬﺎ ﻣﻲ ﺑﺎﺷﻨﺪ. ﺷﺮﻛﺘﻬﺎي ﺑﻴﻤﻪ و درآﻣﺪ ﻫﻢ ﻋﻼﻗﻤﻨﺪ ﺑﻪ‬ ‫اﺳﺘﻔﺎده از اﻳﻦ ﺗﻜﻨﻮﻟﻮژي ﺑﺮاي ﻛﺎﻫﺶ ﻛﻼه ﺑﺮداري ﻣﻲ ﺑﺎﺷﻨﺪ. ﻛﺎرﺑﺮدﻫﺎي‬ ‫داروﻳﻲ ﻧﻮاﺣﻲ ﻣﻔﻴﺪ دﻳﮕﺮي ﻫﺴﺘﻨﺪ ﻛﻪ داده ﻛﺎوي در آﻧﻬﺎ دﺳﺖ دارد داده‬ ‫ﻛﺎوي ﻣﻲ ﺗﻮاﻧﺪ ﺑﺮاي ﺗﺸﺨﻴﺺ ﺗﺎﺛﻴﺮ اﻋﻤﺎل ﺟﺮاﺣﻲ, آزﻣﺎﻳﺶ ﻫﺎي داروﻳﻲ‬ ‫ودرﻣﺎن اﺳﺘﻔﺎده ﮔﺮدد. ﺷﺮﻛﺘﻬﺎﻳﻲ ﻛﻪ در ﺧﺮﻳﺪ و ﻓﺮوﺷﻬﺎي ﻣﺎﻟﻲ ﻓﻌﺎﻟﻴﺖ ﻣﻲ‬
  • 18. ‫ﻛﻨﻨﺪ از داده ﻛﺎوي ﺑﺮاي ﺗﻌﻴﻴﻦ ﺷﺎﺧﺼﻪ ﻫﺎي ﺑﺎزار و ﺻﻨﻌﺖ ﺑﺮاي ﺗﺸﺨﻴﺺ‬ ‫ﻛﺎراﻳﻲ درآﻣﺪ اﺳﺘﻔﺎده ﻣﻲ ﻛﻨﻨﺪ. ﺧﺮده ﻓﺮوﺷﻬﺎ از داده ﻛﺎوي ﺑﺮاي ﺗﺼﻤﻴﻢ در‬ ‫ﻣﻮرد اﻳﻨﻜﻪ ﻛﺪام ﻣﺤﺼﻮل در ﻓﺮوﺷﮕﺎه ﻫﺎ در آﻣﺪ زاﺳﺖ ﺑﻪ ﻣﻨﻈﻮر دﺳﺘﺮﺳﻲ ﺑﻪ‬ ‫ارﺗﻘﺎي ﻛﻴﻔﻴﺖ ﻛﺎر ﺧﻮد اﺳﺘﻔﺎده ﺑﻴﺸﺘﺮي ﻣﻲ ﻧﻤﺎﻳﻨﺪ. ﺷﺮﻛﺘﻬﺎي داروﻳﻲ در‬ ‫ﺣﺎل ﻛﺎوش ﭘﺎﻳﮕﺎﻫﻬﺎي داده ﺑﺰرﮔﻲ از ﺗﺮﻛﻴﺒﺎت ﺷﻴﻤﻴﺎﻳﻲ و ﻣﻮاد ژﻧﺘﻴﻜﻲ ﺑﺮاي‬ ‫ﻛﺸﻒ ﻣﻮاد ﻛﻪ ﻣﻲ ﺗﻮاﻧﻨﺪ ﮔﺰﻳﻨﻪ ﺧﻮﺑﻲ ﺑﺮاي ﺳﺎﺧﺖ ﺑﻪ ﻋﻨﻮان دارو ﺑﺎﺷﻨﺪ. ]1[‬ ‫داده ﻛﺎوي ﻣﻮﻓﻖ:‬ ‫دو ﻧﻜﺘﻪ ﺑﺮاي ﻣﻮﻓﻖ ﺑﻮدن ﻳﻚ داده ﻛﺎوي وﺟﻮد دارد. اول اﻳﻨﻜﻪ ﻳﻚ ﻓﺮﻣﻮﻟﻪ‬ ‫ﺳﺎزي دﻗﻴﻖ از ﻣﺴﺎﻟﻪ اي اﺳﺖ ﻛﻪ ﺷﻤﺎ ﺑﺎﻳﺪ ﺣﻞ ﻛﻨﻴﺪ. دوﻣﻴﻦ ﻧﻜﺘﻪ اﺳﺘﻔﺎده از‬ ‫داده ﺻﺤﻴﺢ اﺳﺖ. ﭘﺲ از اﻧﺘﺨﺎب داده اي ﻛﻪ در دﺳﺘﺮس ﺷﻤﺎﺳﺖ ﻳﺎ ﺷﺎﻳﺪ‬ ‫ﺧﺮﻳﺪ داده ﺧﺎرﺟﻲ ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ ﻧﻴﺎزﻣﻨﺪ ﺷﻮﻳﺪ آ ن را ﺑﻪ روﺷﻬﺎﻳﻲ اﻧﺘﻘﺎل‬ ‫داده ﻳﺎ دﺳﺘﻪ ﺑﻨﺪي ﻛﻨﻴﺪ.‬ ‫ﺗﺤﻠﻴﻞ ارﺗﺒﺎﻃﺎت:‬ ‫ﺗﺤﻠﻴﻞ ارﺗﺒﺎط ﻳﻚ رﻫﻴﺎﻓﺖ ﺗﻮﺻﻴﻔﻲ ﺑﺮاي اﻛﺘﺸﺎف داده اﺳﺖ ﻛﻪ ﻣﻲ ﺗﻮاﻧﺪ ﺑﻪ‬ ‫ﻣﺸﺨﺺ ﺳﺎزي ارﺗﺒﺎﻃﺎت ﻣﻴﺎن ﻣﻘﺎدﻳﺮ در ﭘﺎﻳﮕﺎه داده ﻛﻤﻚ ﻧﻤﺎﻳﺪ.دو رﻫﻴﺎﻓﺖ‬ ‫ﻋﺎم ﺑﺮاي رﺳﻴﺪن ﺑﻪ ﺗﺤﻠﻴﻞ ارﺗﺒﺎﻃﻲ اﻛﺘﺸﺎف ارﺗﺒﺎﻃﻲ و اﻛﺘﺸﺎف ﺗﻮاﻟﻲ ﻣﻲ‬ ‫ﺑﺎﺷﺪ.اﻛﺘﺸﺎف ارﺗﺒﺎﻃﺎت ﻗﻮاﻧﻴﻨﻲ را در ﻣﻮرد ﻣﻮاردي را ﻛﻪ ﺑﺎﻳﺪ ﺑﺎ ﻫﻢ در ﻳﻚ‬ ‫روﻳﺪاد ﻇﺎﻫﺮﺷﻮﻧﺪ ﻣﺎﻧﻨﺪ ﺗﺮاﻛﻨﺶ ﺧﺮﻳﺪ را ﻣﻲ ِاﺑﺪ.ﺗﺤﻠﻴﻞ ﺳﺒﺪ ﻋﺮﺿﻪ ﻳﻚ ﻧﻤﻮﻧﻪ‬ ‫ﺷﻨﺎﺧﺘﻪ ﺷﺪه از ﻛﺸﻒ ارﺗﺒﺎط ﻣﻲ ﺑﺎﺷﺪ.ﻛﺸﻒ ﺗﻮاﻟﻲ ﺑﺴﻴﺒﺎر ﺷﺒﻴﻪ ﻛﺸﻒ ارﺗﺒﺎط‬ ‫اﺳﺖ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﻳﻦ ﻧﻜﺘﻪ ﻛﻪ در اﻳﻨﺠﺎ ﺗﻮاﻟﻲ ﻳﻚ ارﺗﺒﺎط اﺳﺖ ﻛﻪ در ﻃﻮل ﻳﻚ‬ ‫ﺑﺎزه زﻣﺎﻧﻲ ﺻﻮرت ﻣﻲ ﮔﻴﺮد.‬
  • 19. ‫ارﺗﺒﺎﻃﺎت ﺑﻪ ﺻﻮرت ‪ A=>B‬ﻧﻮﺷﺘﻪ ﻣﻲ ﺷﻮد ﻛﻪ ﺑﻪ ‪ A‬ﻣﻘﺪم ﻳﺎ ﻃﺮف ﺳﻤﺖ‬ ‫ﭼﭗ و ﺑﻪ ‪ B‬ﺗﺎﻟﻲ ﻳﺎ ﻃﺮف ﺳﻤﺖ راﺳﺖ ﻣﻲ ﮔﻮﻳﻨﺪ.ﺑﺮاي ﻣﺜﺎل در ﻗﺎﻧﻮن ارﺗﺒﺎﻃﻲ‬ ‫quot;اﮔﺮ ﻣﺮدم ﻳﻚ ﭼﻜﺶ ﺑﺨﺮﻧﺪ آﻧﮕﺎه ﻣﻲ ﺗﻮاﻧﻨﺪ ﻣﻴﺦ ﺑﺨﺮﻧﺪquot; ﺟﻤﻠﻪ ﻣﻘﺪم quot;ﺧﺮﻳﺪ‬ ‫ﭼﻜﺶquot; و ﺟﻤﻠﻪ ﺗﺎﻟﻲ quot;ﺧﺮﻳﺪ ﻣﻴﺦquot; ﻣﻲ ﺑﺎﺷﺪ.‬ ‫ﺑﺮاﺣﺘﻲ ﻣﻴﺘﻮان ﻧﺴﺒﺖ ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ را ﻛﻪ ﺷﺎﻣﻞ ﻣﻮرد ﻳﺎ ﻟﻴﺴﺘﻲ ازﻣﻮارد ﺧﺎص‬ ‫ﻣﻲ ﺑﺎﺷﺪ ﺑﺎ ﺷﻤﺮدن آﻧﻬﺎ ﺗﻌﻴﻴﻦ ﻛﺮد )ﻛﻪ در اﻃﻨﺠﺎ ﻣﻮارد ﻣﻴﺦ ﻫﺎ و ﭼﻜﺶ‬ ‫ﻫﺎﻣﻲ ﺑﺎﺷﺪ( را ﺗﻌﻴﻴﻦ ﻛﺮد.ﺗﻌﺪاد ﻣﻮﺟﻮد از ﻳﻚ ﻧﻮع ارﺗﺒﺎط ﺧﺎص ﻛﻪ در ﻳﻚ‬ ‫ﭘﺎﻳﮕﺎه داده ﺑﻪ ﻧﻈﺮ ﻣﻲ رﺳﺪ را ﻣﻮﺟﻮدي ﻳﺎ ﺷﻴﻮع آن ﻣﻮرد ﻣﻲ ﮔﻮﻳﻨﺪ.اﮔﺮ ﺑﺮاي‬ ‫ﻣﺜﺎل ﮔﻔﺘﻪ ﺷﻮد ﻛﻪ از ﻫﺮ 0001 ﺗﺮاﻛﻨﺶ 51 ﺗﺎي آن ﺷﺎﻣﻞ quot;ﻣﻴﺦ و ﭼﻜﺶquot;‬ ‫ﻣﻲ ﺑﺎﺷﺪ ﻣﻮﺟﻮدي اﻳﻦ ارﺗﺒﺎط 5,1%ﺧﻮاﻫﺪ ﺑﻮد.ﻳﻚ ﻣﻮﺟﻮدي ﻛﻢ)ﻣﺜﻼ ﻳﻚ در‬ ‫ﻣﻴﻠﻴﻮن( ﻣﻲ ﺗﻮاﻧﺪ ﺑﻴﺎﻧﮕﺮ اﻳﻦ ﺑﺎﺷﺪ ﻛﻪ ان ارﺗﺒﺎط ﺧﺎص در ﭘﺎﻳﮕﺎه داده ﭼﻨﺪان‬ ‫ﻣﻬﻢ ﻧﻴﺴﺖ.‬ ‫ﺑﺮاي ﻛﺸﻒ ﻗﻮاﻧﻴﻦ ﻣﻌﻨﺎ دار ﻣﺎ ﺑﺎﻳﺪ ﺑﻪ ﻓﺮاواﻧﻲ ﻣﺘﻨﺎﺳﺐ دﻓﻌﺎت اﺗﻔﺎق ﻣﻮارد و‬ ‫ﺗﺮﻛﻴﺒﺎﺗﺸﺎن ﻧﻴﺰ ﺑﻨﮕﺮﻳﻢ.ﺑﺎداﺷﺘﻦ ﺗﻌﺪاد دﻓﻌﺎت اﺗﻔﺎق ﻣﻮرد ‪ A‬ﻣﻮرد ‪ B‬ﭼﻨﺪ ﺑﺎر‬ ‫اﺗﻔﺎق ﻣﻲ اﻓﺘﺪ؟ﺑﻪ ﻋﺒﺎرت دﻳﮕﺮ ﺳﻮال اﻳﻦ اﺳﺖ ﻛﻪ ﺑﺒﻴﻨﻴﻢ quot;ﻫﻨﮕﺎﻣﻲ ﻛﻪ ﻣﺮدم‬ ‫ﻳﻚ ﭼﻜﺶ ﻣﻲ ﺧﺮﻧﺪ ﭼﻪ ﺗﻌﺪاد از اﻳﻦ اﻓﺮاد ﻣﻴﺦ ﻫﻢ ﻣﻲ ﺧﺮﻧﺪ؟ ﻋﺒﺎرت دﻳﮕﺮ‬ ‫ﺑﺮاي اﻳﻦ ﭘﻴﺶ ﺑﻴﻨﻲ ﺷﺮﻃﻲ اﻃﻤﻴﻨﺎن ﻧﺎم دارد.‬ ‫ﻓﺮض ﻛﻨﻴﺪ ﭘﺎﻳﮕﺎه داده ﻓﺮﺿﻲ ﻣﺎن راﺑﻪ ﺻﻮرت زﻳﺮ و ﺑﺎ ﺟﺰﺋﻴﺎت ﺑﻴﺸﺘﺮ ﺑﺮاي‬ ‫ﺑﻴﺎن اﻳﻦ ﻣﻔﺎﻫﻴﻢ در ﻧﻈﺮ ﺑﮕﻴﺮﻳﻢ:‬ ‫ﺗﻤﺎم ﺗﺮاﻛﻨﺸﻬﺎي ﺳﺨﺖ اﻓﺰار :0001‬ ‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot;ﭼﻜﺶ quot; ﻣﻲ ﺑﺎﺷﺪ:05‬ ‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot;ﻣﻴﺦquot; ﻣﻲ ﺑﺎﺷﺪ:08‬ ‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot;ﺗﺨﺘﻪ quot; ﻣﻲ ﺑﺎﺷﺪ:02‬ ‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot; ﻣﻴﺦ و ﭼﻜﺶquot;ﻣﻲ ﺑﺎﺷﺪ:51‬ ‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot; ﻣﻴﺦ و ﺗﺨﺘﻪ quot; ﻣﻲ ﺑﺎﺷﺪ:01‬ ‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot; ﭼﻜﺶ و ﺗﺨﺘﻪquot; ﻣﻲ ﺑﺎﺷﺪ: 01‬
  • 20. ‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot; ﭼﻜﺶ و ﺗﺨﺘﻪ و ﻣﻴﺦ quot; ﻣﻲ ﺑﺎﺷﺪ:5‬ ‫ﺣﺎل ﻗﺎدر ﺑﻪ ﻣﺤﺎﺳﺒﻪ اﻳﻢ:‬ ‫ﻣﻮﺟﻮدي quot;ﻣﻴﺦ و ﭼﻜﺶquot;=5,1%‬ ‫ﻣﻮﺟﻮدي quot; ﻣﻴﺦ و ﭼﻜﺶ وﺗﺨﺘﻪquot;=5,0%‬ ‫درﺻﺪ اﻃﻤﻴﻨﺎن quot;ﭼﻜﺶ=<ﻣﻴﺦquot; = 03%‬ ‫درﺻﺪ اﻃﻤﻴﻨﺎن quot; ﻣﻴﺦ=< ﭼﻜﺶquot; = 91%‬ ‫درﺻﺪ اﻃﻤﻴﻨﺎن quot; ﭼﻜﺶ و ﻣﻴﺦ=<ﺗﺨﺘﻪquot; = 33%‬ ‫درﺻﺪ اﻃﻤﻴﻨﺎن quot; ﺗﺨﺘﻪ=< ﭼﻜﺶ و ﻣﻴﺦ quot; =52%‬ ‫ﺑﻨﺎﺑﺮاﻳﻦ ﻣﺎ ﻣﻲ ﺑﻴﻨﻴﻢ ﻛﻪ اﺣﺘﻤﺎل اﻳﻨﻜﻪ ﻳﻚ ﺧﺮﻧﺪه ﭼﻜﺶ ﻣﻴﺦ ﻫﻢ ﺑﺨﺮد)03%(‬ ‫ﺑﻴﺸﺘﺮ از اﺣﺘﻤﺎل آن اﺳﺖ ﻛﻪ ﻓﺮدي ﻛﻪ ﻣﻴﺦ ﻣﻲ ﺧﺮد ﭼﻜﺶ ﻫﻢ‬ ‫ﺑﺨﺮد)91%(.ارﺗﺒﺎط ﭼﻜﺶ و ﻣﻴﺦ ﺑﻪ اﻧﺪازه اي ﺑﺰرگ اﺳﺖ ﻛﻪ ﻳﻚ ﻗﺎﻧﻮن ﺑﺎ‬ ‫ﻣﻌﻨﻲ ﺑﺎﺷﺪ.‬ ‫‪)Lift‬ﻧﺴﺒﺘﺎ ﭘﻴﺸﺮﻓﺖ( ﻳﻜﻲ از ﻣﻌﻴﺎرﻫﺎي اﻧﺪازه ﮔﻴﺮي ﻗﺪرت ﻳﻚ ارﺗﺒﺎط‬ ‫اﺳﺖ.ﻫﺮ ﭼﻪ ‪ lift‬ﺑﺰرﮔﺘﺮ ﺑﺎﺷﺪ ﺗﺎﺛﻴﺮ اﺗﻔﺎﻗﺎت ‪ A‬ﺑﺮ اﺣﺘﻤﺎل اﻳﻨﻜﻪ ‪ B‬اﺗﻔﺎق ﺑﻴﻔﺘﺪ‬ ‫ﺑﻴﺸﺘﺮ اﺳﺖ.‪ lift‬ﺑﺼﻮرت ﻧﺴﺒﺖ‬ ‫)اﻃﻤﻴﻨﺎن ‪ (A=>B‬ﺗﻘﺴﻴﻢ ﺑﺮ ﻓﺮاواﻧﻲ ‪ B‬ﻣﺤﺎﺳﺒﻪ ﻣﻲ ﺷﻮد:‬ ‫ﺑﺮاي ﻣﺜﺎل ﻣﺎ:‬ ‫‪quot; Lift‬ﭼﻜﺶ=<ﻣﻴﺦquot; :57,3‬ ‫‪ quot; Lift‬ﭼﻜﺶ و ﻣﻴﺦ =<ﺗﺨﺘﻪ quot;:5,61‬ ‫اﻟﮕﻮرﻳﺘﻤﻬﺎي ارﺗﺒﺎط اﻳﻦ ﻗﻮاﻧﻴﻦ را ﺑﺎ ﻣﻌﺎدل ﻣﺮﺗﺐ ﺳﺎزي داده ﻫﻨﮕﺎم ﺷﻤﺎرش‬ ‫دﻓﻌﺎﺗﻲ ﻛﻪ ﻣﻲ ﺗﻮاﻧﻨﺪ درﺻﺪ اﻃﻤﻴﻨﺎن و ﻣﻮﺟﻮدي را ﻣﺤﺎﺳﺒﻪ ﻛﻨﻨﺪ ﻣﻲ ﻳﺎﺑﺪ.‬ ‫اﺛﺮاﺗﻲ ﻛﻪ ﻫﺮ ﻳﻚ از اﻳﻦ ﻗﻮاﻧﻴﻦ ﻣﻲ ﺗﻮاﻧﻨﺪ داﺷﺘﻪ ﺑﺎﺷﻨﺪ ﻳﻜﻲ از ﻣﻌﻴﺎرﻫﺎي‬ ‫ﺗﻔﺎوت اﻳﻦ اﻟﮕﻮرﻳﺘﻢ ﻫﺎﺳﺖ. اﻳﻦ ﻣﻌﻴﺎر ﻣﻬﻢ اﺳﺖ زﻳﺮا ﻛﻪ ﻧﺘﺎﻳﺞ ﺗﺮﻛﻴﺒﻲ ﺑﺴﻴﺎر‬ ‫زﻳﺎدي از ﺗﻌﺪاد ﺑﻲ ﺷﻤﺎري از ﻗﻮاﻧﻴﻦ ﺑﺪﺳﺖ ﻣﻲ آﻳﺪ ﺣﺘﻲ ﺑﺮاي ﺳﺒﺪ ﻫﺎي‬ ‫ﺧﺮﻳﺪ. ﺑﺮﺧﻲ از اﻟﮕﻮرﻳﺘﻤﻬﺎ ﻳﻚ ﭘﺎﻳﮕﺎه داده از ﻗﻮاﻧﻴﻦ, ﻓﺎﻛﺘﻮرﻫﺎي اﻳﻤﻦ, و‬
  • 21. ‫ﻓﺮاﻫﻢ آوردن اﻣﻜﺎن ﺟﺴﺘﺠﻮ)ﺑﺮاي ﻣﺜﺎل ﺗﻤﺎم ارﺗﺒﺎﻃﺎﺗﻲ ﻛﻪ در آن ﻛﻠﻤﻪ ﺑﺴﺘﻨﻲ‬ ‫در ﻗﻮاﻧﻴﻦ ﺑﻪ ﻋﻨﻮان ﻧﺘﻴﺠﻪ آﻣﺪه و ﻓﺎﻛﺘﻮري ﺑﺮاﺑﺮ 08%را دارﻧﺪ ﻧﺸﺎن ﺑﺪه(را‬ ‫اﻳﺠﺎد ﻣﻲ ﻧﻤﺎﻳﻨﺪ.‬ ‫اﻏﻠﺐ ﺗﺼﻤﻴﻢ ﮔﻴﺮي در ﻣﻮرد ﻛﺎر ﺑﺎ ﻗﻮاﻧﻴﻨﻲ ﻛﻪ ﺷﻤﺎ ﻛﺸﻒ ﻛﺮده اﻳﺪ دﺷﻮار‬ ‫اﺳﺖ.ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل در ﻳﻚ ﻧﻘﺸﻪ ﺧﺮﻳﺪ ﺑﺮاي ﻣﺸﺘﺮﻳﺎن در ﻳﻚ ﻓﺮوﺷﮕﺎه‬ ‫ﻗﺮاردادن ﺗﻤﺎم اﺟﻨﺎس ﻣﺮﺗﺒﻂ ﻣﻨﻄﻘﻲ ﺑﻪ ﺻﻮرت ﻓﻴﺰﻳﻜﻲ در ﻛﻨﺎر ﻳﻜﺪﻳﮕﺮ‬ ‫ﻣﻤﻜﻦ اﺳﺖ ارزش ﻛﺎﻣﻞ ﺳﺒﺪ ﺧﺮﻳﺪ را ﻛﺎﻫﺶ دﻫﺪ – ﻣﺸﺘﺮﻳﺎن ﻣﻤﻜﻦ اﺳﺖ‬ ‫در ﻣﺠﻤﻮع ارزش ﻛﻤﺘﺮي ﺧﺮﻳﺪ ﻛﻨﻨﺪ ﭼﻮن آﻧﻬﺎ ﺑﺮ ﺧﻼف ﻧﻘﺸﻪ ﺧﺮﻳﺪ ﻣﻮرد‬ ‫ﻧﻈﺮ ﺷﻤﺎ در ﺣﻴﻦ راه رﻓﺘﻦ در ﻣﻐﺎزه اﺟﻨﺎس ﻣﻮرد دﻟﺨﻮاه ﺧﻮد را ﺧﺮﻳﺪ ﻣﻲ‬ ‫ﻛﻨﻨﺪ. در ﭼﻨﻴﻦ ﺣﺎﻟﺘﻲ ﺗﻘﺮﻳﺐ و ﺗﺤﻠﻴﻞ ارﺗﺒﺎﻃﺎت ﻣﻌﻤﻮﻻ ﺑﺮاي ﺑﺪﺳﺖ آوردن‬ ‫ﻫﺮ ﮔﻮﻧﻪ ﺳﻮدي از ﻗﻮاﻧﻴﻦ ﻣﺮﺗﺒﻂ ﺑﺎ ﻫﻢ ﻣﻮرد ﻧﻴﺎز ﺧﻮاﻫﺪ ﺑﻮد.‬ ‫روﺷﻬﺎي ﮔﺮاﻓﻴﻜﻲ ﻣﻲ ﺗﻮاﻧﻨﺪ در ﻧﻤﺎﻳﺶ ﺳﺎﺧﺘﺎر ارﺗﺒﺎﻃﺎت ﻧﻘﺶ داﺷﺘﻪ ﺑﺎﺷﻨﺪ.‬ ‫در ﺷﻜﻞ زﻳﺮ ﻫﺮ ﻳﻚ از دواﻳﺮ ﻳﻚ ﻣﻘﺪار ﻳﺎ ﻳﻚ روﻳﺪاد را ﻧﻤﺎﻳﺶ ﻣﻲ دﻫﺪ.‬ ‫ﺧﻄﻮط ارﺗﺒﺎﻃﻲ ﻣﻴﺎن اﻳﻦ داﻳﺮه ﻫﺎ ﻳﻚ ارﺗﺒﺎط را ﻧﺸﺎن ﻣﻲ دﻫﻨﺪ. ﺧﻄﻮط‬ ‫ﻛﻠﻔﺖ ﺗﺮ ارﺗﺒﺎﻃﺎت ﻗﻮي ﺗﺮ و ﻓﺮاوان ﺗﺮي را ﻧﻤﺎﻳﺶ ﻣﻲ دﻫﻨﺪ. ]4[‬ ‫ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﻲ از اﻧﺘﺨﺎب ﻫﺎ‬ ‫ﻫﺪف داده ﻛﺎوي ﺗﻮﻟﻴﺪ داﻧﺶ ﺟﺪﻳﺪي اﺳﺖ ﻛﻪ ﻛﺎرﺑﺮ ﺑﺘﻮاﻧﺪ ﺑﺮ اﺳﺎس آن ﻛﺎر‬ ‫ﺧﻮد را ﺟﻠﻮ ﺑﺮد. اﻳﻦ ﻛﺎر ﺑﻮﺳﻴﻠﻪ ﺳﺎﺧﺘﻦ ﻣﺪﻟﻲ از ﺟﻬﺎن واﻗﻌﻲ ﺑﺮ ﭘﺎﻳﻪ داده‬
  • 22. ‫ﻫﺎﻳﻲ ﻛﻪ از ﻣﻨﺎﺑﻊ ﮔﻮﻧﺎﮔﻮن ﺑﺪﺳﺖ ﻣﻲ آﻳﺪ ﺻﻮرت ﮔﻴﺮد ﻛﻪ اﻳﻦ ﻣﻨﺎﺑﻊ ﻣﻲ ﺗﻮاﻧﺪ‬ ‫ﺷﺎﻣﻞ ﺗﺮاﻛﻨﺸﻬﺎي ﻫﻤﺎﻫﻨﮓ, ﺗﺎرﻳﺦ ﻣﺮﺑﻮط ﺑﻪ ﻫﺮ ﻣﺸﺘﺮي, اﻃﻼﻋﺎت ﻧﻤﺎﻳﺶ‬ ‫ﮔﺮاﻓﻴﻜﻲ, داده ﻛﻨﺘﺮل ﻓﺮآﻳﻨﺪ و ﭘﺎﻳﮕﺎه داده ﻫﺎي ﻣﺮﺗﺒﻂ ﺧﺎرﺟﻲ ﻣﺎﻧﻨﺪ اﻃﻼﻋﺎت‬ ‫اﻋﺘﺒﺎر اداري و ... ﺑﺎﺷﺪ. ﻧﺘﻴﺠﻪ ﻣﺪل ﺳﺎزي ﻳﻚ ﺳﺮي ﺗﻮﺿﻴﺤﺎت در ﻣﻮرد اﻟﮕﻮﻫﺎ‬ ‫و ارﺗﺒﺎﻃﺎت داده اي ﻛﻪ ﻣﻲ ﺗﻮاﻧﺪ ﺑﻪ ﺻﻮرت ﻣﻄﻤﺌﻨﻲ ﺟﻬﺖ ﭘﻴﺶ ﺑﻴﻨﻲ آﻳﻨﺪه‬ ‫ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﮔﻴﺮد.‬ ‫ﺑﺮاي ﺟﻠﻮﮔﻴﺮي از ﺳﺮﮔﺮداﻧﻲ در ﻣﺮاﺣﻞ ﻣﺨﺘﻠﻒ داده ﻛﺎوي اﻳﺠﺎد ﺗﺼﻮﻳﺮي از‬ ‫ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﻲ از اﻧﺘﺨﺎﺑﺎت و ﺗﺼﻤﻴﻢ ﻫﺎ ﻛﻪ ﻧﻴﺎز ﻣﻨﺪ آن ﻫﺴﺘﻴﺪ در ذﻫﻦ ﻗﺒﻞ از‬ ‫ﺷﺮوع ﻛﺎر ﺑﻪ ﺷﻤﺎ ﻛﻤﻚ ﺧﻮاﻫﺪ ﻛﺮد:‬ ‫- ﻫﺪف ﻛﺎر‬ ‫- ﻧﻮع ﭘﻴﺶ ﺑﻴﻨﻲ‬ ‫- ﻧﻮع ﻣﺪل اﻧﺘﺨﺎﺑﻲ‬ ‫- اﻟﮕﻮرﻳﺘﻢ‬ ‫- ﻣﺤﺼﻮل‬ ‫اوﻟﻴﻦ ﮔﺎم ﻣﺸﺨﺺ ﻧﻤﻮدن ﻫﺪف ﻛﺎر ﻣﻲ ﺑﺎﺷﺪ :‬ ‫ﻫﺪف ﻧﻬﺎﻳﻲ از ﺟﺴﺘﺠﻮي اﻳﻦ داده ﭼﻴﺴﺖ؟ ﺑﺮاي ﻣﺜﺎل ﺟﻬﺖ ﻳﺎﻓﺘﻦ اﻟﮕﻮﻫﺎي‬ ‫ﻣﻔﻴﺪي در داده ﺧﻮد ﺑﺮاي اﻳﻦ ﻛﻪ ﺑﻪ ﺷﻤﺎ ﻛﻤﻚ ﻛﻨﺪ ﻣﺸﺘﺮﻳﺎن ﺧﻮد را ﺣﻔﻆ‬ ‫ﻛﻨﻴﺪ ﺷﻤﺎ ﺑﺎﻳﺪ ﻳﻚ ﻣﺪل ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ ﺳﻮدﺑﺨﺸﻲ ﺑﻪ ﻣﺸﺘﺮي و ﻣﺪل‬ ‫دﻳﮕﺮي ﺑﺮاي ﺷﻨﺎﺳﺎﻳﻲ ﻣﺸﺘﺮﻳﺎﻧﻲ ﻛﻪ آﻧﺠﺎ را ﺗﺮك ﻛﺮده اﻧﺪ ﻃﺮاﺣﻲ ﻛﻨﻴﺪ.‬ ‫داﻧﺶ ﺷﻤﺎ از اﺣﺘﻴﺎﺟﺎت و اﻫﺪاف ﺳﺎزﻣﺎﻧﺘﺎن ﺷﻤﺎ را ﺑﻪ ﺳﻤﺖ ﻓﺮﻣﻮﻟﻪ ﻛﺮدن‬ ‫اﻫﺪاف ﻣﺪﻟﻬﺎﻳﺘﺎن راﻫﻨﻤﺎﻳﻲ ﺧﻮاﻫﺪ ﻛﺮد.‬ ‫ﮔﺎم ﺑﻌﺪي ﺗﺼﻤﻴﻢ در ﻣﻮرد اﻧﺘﺨﺎب ﻧﻮﻋﻲ ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻪ از ﻫﻤﻪ ﻣﻨﺎﺳﺐ ﺗﺮ‬ ‫اﺳﺖ ﻣﻲ ﺑﺎﺷﺪ:‬
  • 23. ‫)1( ﻃﺒﻘﻪ ﺑﻨﺪي: ﺗﻌﻴﻴﻦ اﻳﻦ ﻛﻪ اﻳﻦ ﻣﻮرد ﺧﺎص در ﻛﺪام ﻛﻼس ﻳﺎ دﺳﺘﻪ ﻗﺮار‬ ‫ﻣﻲ ﮔﻴﺮد.‬ ‫)2( ﺣﺪس زدن اﻳﻨﻜﻪ ﻳﻚ ﻣﺘﻐﻴﺮ ﭼﻪ ﻣﻘﺪار ﻋﺪدي ﺧﻮاﻫﺪ داﺷﺖ)اﮔﺮ ﻣﺘﻐﻴﺮي‬ ‫ﺑﺎﺷﺪ ﻛﻪ ﺑﺎ زﻣﺎن ﺗﻐﻴﻴﺮ ﻛﻨﺪ اﻳﻦ ﻛﺎر ﺣﺪس ﺳﺮﻳﻬﺎي زﻣﺎﻧﻲ ﻧﺎﻣﻴﺪه ﻣﻲ ﺷﻮد(.در‬ ‫ﻣﺜﺎل ﺑﺎﻻ ﺷﻤﺎ ﻣﻲ ﺗﻮاﻧﻴﺪ از اﻳﻦ ﺣﺪس ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ ﻣﻘﺪار ﺳﻮددﻫﻲ و‬ ‫ﻃﺒﻘﻪ ﺑﻨﺪي ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ اﻳﻨﻜﻪ ﻛﺪام ﻣﺸﺘﺮﻳﺎن ﻣﻤﻜﻦ اﺳﺖ ﺧﺮﻳﺪ ﺷﻤﺎ را‬ ‫ﺗﺮك ﻛﻨﻨﺪ اﺳﺘﻔﺎده ﻛﻨﻴﺪ.‬ ‫ﺣﺎﻻ ﻧﻮﺑﺖ ﺑﻪ ﻧﻮع ﻣﺪل ﻣﻲ رﺳﺪ:‬ ‫ﻛﻪ ﻋﺒﺎرت اﺳﺖ از ﻳﻚ ﺷﺒﻜﻪ ﻋﺼﺒﻲ ﺑﺮاي اﻧﺠﺎم ﺣﺪس ﻓﻮق اﻟﺬﻛﺮ و ﻳﻚ‬ ‫درﺧﺖ ﺗﺼﻤﻴﻢ ﺑﺮاي ﻃﺒﻘﻪ ﺑﻨﺪي. ﻣﺪﻟﻬﺎي آﻣﺎري ﺳﻨﺘﻲ ﻧﻴﺰ ﺑﺮاي اﻧﺘﺨﺎب از‬ ‫ﻣﺪﻟﻬﺎي ﻣﻌﻤﻮﻟﻲ ﺧﻄﻲ , ﺗﺤﻠﻴﻞ ﺗﻔﻜﻴﻜﻲ و ﺣﺪس ﻣﻨﻄﻘﻲ وﺟﻮد دارد.‬ ‫ﻣﻬﻤﺘﺮﻳﻦ ﻧﻮع اﻳﻦ ﻣﺪﻟﻬﺎ ﺑﺮاي داده ﻛﺎوي در ﺑﺨﺶ ﺑﻌﺪ )اﻟﮕﻮرﻳﺘﻤﻬﺎ و ﻣﺪﻟﻬﺎي‬ ‫داده ﻛﺎوي(ﺗﻮﺿﻴﺢ داده ﻣﻲ ﺷﻮد.‬ ‫اﻟﮕﻮرﻳﺘﻤﻬﺎي زﻳﺎدي ﺑﺮاي ﺳﺎﺧﺖ ﻣﺪﻟﻬﺎﻳﺘﺎن در دﺳﺘﺮس ﻫﺴﺘﻨﺪ. ﺷﻤﺎ ﻣﻲ‬ ‫ﺗﻮاﻧﻴﺪ ﺑﺎ اﺳﺘﻔﺎده از ﺗﻮاﺑﻊ ﺷﻌﺎﻋﻲ ﻳﺎ اﻧﺘﺸﺎري ﺷﺒﻜﻪ ﻋﺼﺒﻲ ﺑﺴﺎزﻳﺪ. ﺑﺮاي درﺧﺖ‬ ‫ﺗﺼﻤﻴﻢ ﺷﻤﺎ ﻣﻲ ﺗﻮاﻧﻴﺪ از ﻣﻴﺎن ﻃﺮق ‪ CHAID , Quest , c5.0 , cart‬ﻳﻜﻲ‬ ‫را اﻧﺘﺨﺎب ﻛﻨﻴﺪ. ﺑﺮﺧﻲ از اﻳﻦ اﻟﮕﻮرﻳﺘﻢ ﻫﺎ در ﻣﺪﻟﻬﺎ و اﻟﮕﻮرﻳﺘﻤﻬﺎي داده ﻛﺎوي‬ ‫ﺗﻮﺿﻴﺢ داده ﺷﺪه اﺳﺖ.‬ ‫ﻫﻨﮕﺎم اﻧﺘﺨﺎب ﻳﻚ ﻣﺤﺼﻮل داده ﻛﺎوي ﺑﺎﻳﺪ ﺗﻮﺟﻪ داﺷﺖ ﻛﻪ اﻳﻦ ﻣﺤﺼﻮﻻت‬ ‫ﭘﻴﺎده ﺳﺎزﻳﻬﺎي ﻣﺨﺘﻠﻔﻲ از ﻳﻚ اﻟﮕﻮرﻳﺘﻢ ﺧﺎص دارﻧﺪ ﺣﺘﻲ اﮔﺮ اﻳﻦ اﻟﮕﻮرﻳﺘﻢ‬ ‫ﺑﺮاي ﻫﻤﻪ آﻧﻬﺎ ﻧﺎم ﻳﻜﺴﺎﻧﻲ داﺷﺘﻪ ﺑﺎﺷﺪ. اﻳﻦ ﺗﻔﺎوﺗﻬﺎ در ﭘﻴﺎده ﺳﺎزي ﻣﻲ ﺗﻮاﻧﺪ ﺑﺮ‬ ‫روي ﻣﺸﺨﺼﻪ ﻫﺎي ﻗﺎﺑﻞ اﺳﺘﻔﺎده ﻣﺎﻧﻨﺪ اﺳﺘﻔﺎده از ﺣﺎﻓﻈﻪ و ذﺧﻴﺮه داده و‬ ‫ﻫﻤﭽﻨﻴﻦ ﺑﺮ روي ﻣﺸﺨﺼﻪ ﻫﺎي ﻛﺎراﻳﻲ ﻣﺎﻧﻨﺪ ﺳﺮﻋﺖ و دﻗﺖ ﺗﺎﺛﻴﺮ ﺑﮕﺬارﻧﺪ.‬ ‫ﺑﺴﻴﺎري از اﻫﺪاف ﺗﺠﺎري ﺑﻪ ﺑﻬﺘﺮﻳﻦ ﺷﻜﻞ ﺑﻪ وﺳﻴﻠﻪ ﺳﺎﺧﺖ اﻧﻮاع ﻣﺨﺘﻠﻔﻲ از‬ ‫ﻣﺪﻟﻬﺎ ﺑﺎ اﺳﺘﻔﺎده از اﻟﮕﻮرﻳﺘﻤﻬﺎي ﻣﺨﺘﻠﻒ ﺑﻪ دﺳﺖ ﻣﻲ آﻳﻨﺪ. ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ‬
  • 24. ‫ﺗﺎ زﻣﺎﻧﻲ ﻛﻪ راه ﻫﺎي ﻣﺨﺘﻠﻔﻲ را اﻣﺘﺤﺎن ﻧﻜﻨﻴﺪ ﻗﺎدر ﻧﺒﺎﺷﻴﺪ ﺗﻌﻴﻴﻦ ﻛﻨﻴﺪ ﻛﺪام‬ ‫ﻧﻮع ﻣﺪل ﺑﻬﺘﺮﻳﻦ اﺳﺖ. ]1[‬ ‫ﻃﺒﻘﻪ ﺑﻨﺪي‬ ‫ﻣﺴﺎﺋﻞ ﻃﺒﻘﻪ ﺑﻨﺪي ﺑﻪ ﺷﻨﺎﺳﺎﻳﻲ ﺧﺼﻮﺻﻴﺎﺗﻲ ﻣﻨﺠﺮ ﻣﻲ ﺷﻮﻧﺪ ﻛﻪ ﻣﺸﺨﺺ ﻣﻲ‬ ‫ﻧﻤﺎﻳﻨﺪ ﻫﺮ ﻣﻮرد ﺑﻪ ﻛﺪام ﮔﺮوه ﺗﻌﻠﻖ دارد.اﻳﻦ اﻟﮕﻮ ﻫﻢ ﻣﻲ ﺗﻮاﻧﺪ ﺑﺮاي ﻓﻬﻢ داده‬ ‫ﻣﻮﺟﻮد و ﻫﻢ ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ اﻳﻨﻜﻪ ﻫﺮ ﻧﻤﻮﻧﻪ ﺟﺪﻳﺪ ﭼﮕﻮﻧﻪ ﻛﺎر ﻣﻲ ﻛﻨﺪ‬ ‫اﺳﺘﻔﺎده ﺷﻮد. ﺑﺮاي ﻣﺜﺎل ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ ﺑﺨﻮاﻫﻴﺪ ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻨﻴﺪ ﻛﻪ آﻳﺎ‬ ‫اﺷﺨﺎص ﺑﺮاي ﭘﺎﺳﺨﮕﻮﻳﻲ ﺑﻪ درﺧﻮاﺳﺖ ﻳﻚ ﻣﻴﻞ ﻣﺴﺘﻘﻴﻢ ﻛﻪ ﻣﻤﻜﻦ اﺳﺖ ﺑﻪ‬ ‫ﻳﻚ دﺳﺘﮕﺎه ﺗﻠﻔﻦ ﺑﺎ ﻣﺴﺎﻓﺖ زﻳﺎد آﺳﻴﺐ ﺑﺮﺳﺎﻧﺪ ﻣﻲ ﺗﻮاﻧﻨﺪ ﮔﺮوه ﺑﻨﺪي ﺷﻮﻧﺪ ﻳﺎ‬ ‫ﺑﺮاي ﻳﻚ ﻋﻤﻞ ﺟﺮاﺣﻲ ﺑﺎﻳﺪ ﮔﺮوه ﺑﻨﺪي ﺷﻮﻧﺪ.‬ ‫داده ﻛﺎوي ﻣﺪﻟﻬﺎي ﻃﺒﻘﻪ ﺑﻨﺪي را ﺑﻮس ي ﻟﻪ اﻣﺘﺤﺎن ﻛﺮدن داده ﻃﺒﻘﻪ ﺑﻨﺪي‬ ‫ﺷﺪه)ﻣﻮارد( و ﻧﻬﺎ ي ﺗﺎ ي اﻓﺘﻦ ي ك اﻟﮕﻮي پ ي ش ﮔﻮ ا ي ﺟﺎد ﻣﻲ ﻛﻨﺪ. ا ي ن‬ ‫ﻣﻮارد ﻣﻮﺟﻮد ﻣﻲ ﺗﻮاﻧﺪ از ﻳﻚ ﭘﺎﻳﮕﺎه داده ﺗﺎرﻳﺨﻲ ﻧﺎﺷﻲ ﺷﻮد ﻣﺎﻧﻨﺪ اﻃﻼﻋﺎت‬ ‫اﻓﺮادي ﻛﻪ ﺗﺤﺖ ﻣﻌﺎﻟﺠﻪ داروﻳﻲ ﺧﺎﺻﻲ ﻫﺴﺘﻨﺪ و ﻳﺎ ﺑﻪ ﺳﻤﺖ ﻳﻚ ﺧﺪﻣﺖ ﺑﺎ‬ ‫ﻣﺴﺎﻓﺖ دور ﺟﺬب ﺷﺪه اﻧﺪ.ﻳﺎ اﻳﻨﻜﻪ از ﺗﺠﺮﺑﻪ ﻫﺎﻳﻲ ﻛﻪ ﻃﻲ آن ﻳﻚ ﻧﻤﻮﻧﻪ از‬ ‫ﺗﻤﺎم ﭘﺎﻳﮕﺎه داده در ﺟﻬﺎن واﻗﻌﻲ ﺗﺴﺖ ﺷﺪه ﺑﺎﺷﺪ و ﻧﺘﺎﻳﺞ آن ﺑﺮاي اﻳﺠﺎد ﻳﻚ‬ ‫ﮔﺮوه ﺑﻨﺪ اﺳﺘﻔﺎده ﺷﺪه ﺑﺎﺷﻨﺪ ﻣﻨﺘﺞ ﺷﻮد. ﺑﺮاي ﻣﺜﺎل ﻳﻚ ﻧﻤﻮﻧﻪ از ﻟﻴﺴﺘﻲ‬ ‫از ﭘﻴﺎﻣﻬﺎ ﺑﻪ ﻋﻨﻮان ﭘﻴﺸﻨﻬﺎد ﻓﺮﺳﺘﺎده ﺧﻮاﻫﺪ ﺷﺪ و ﻧﺘﺎﻳﺞ ﭘﻴﺎم رﺳﺎﻧﻲ ﺑﺮاي‬ ‫ﺳﺎﺧﺖ ﻳﻚ ﻣﺪل ﻃﺒﻘﻪ ﺑﻨﺪي ﺟﻬﺖ ﺑﻜﺎر ﮔﺮﻓﺘﻪ ﺷﺪن در ﺗﻤﺎم ﭘﺎﻳﮕﺎه داده‬ ‫اﺳﺘﻔﺎده ﺧﻮاﻫﺪ ﺷﺪ.‬ ‫ﺣﺪس ﺑﺎزﮔﺸﺘﻲ‬ ‫ﺣﺪس ﺑﺎزﮔﺸﺘﻲ از داده ﻫﺎي ﻣﻮﺟﻮد ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ اﻳﻦ ﻛﻪ ﻣﻘﺎدﻳﺮ داده ﻫﺎي‬ ‫دﻳﮕﺮ ﭼﻪ ﺧﻮاﻫﺪ ﺑﻮد اﺳﺘﻔﺎده ﻣﻲ ﻛﻨﺪ. در ﺳﺎده ﺗﺮﻳﻦ ﺣﺎﻟﺖ ﺣﺪس ﻣﺬﻛﻮر از‬ ‫ﺗﻜﻨﻴﻜﻬﺎي آﻣﺎري ﻣﺎﻧﻨﺪ ﺣﺪس ﺧﻄﻲ اﺳﺘﻔﺎده ﻣﻲ ﻛﻨﺪ. ﻣﺘﺎﺳﻔﺎﻧﻪ ﺑﺴﻴﺎري از‬ ‫ﻣﺴﺎﺋﻞ ﺟﻬﺎن واﻗﻊ ﺗﺼﻮﻳﺮي ﺧﻄﻲ از ﻣﻘﺎدﻳﺮ ﻗﺒﻠﻲ ﻧﻴﺴﺘﻨﺪ. ﺑﺮاي ﻧﻤﻮﻧﻪ ﻣﻘﺎدﻳﺮ‬
  • 25. ‫ﻓﺮوش, ارزش ﻓﺮوش, ارزش ﺳﻬﺎم و ﻧﺮخ ورﺷﻜﺴﺘﮕﻲ ﻣﺤﺼﻮل ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ‬ ‫ﺳﺨﺖ ﻣﻲ ﺑﺎﺷﺪ زﻳﺮا آﻧﻬﺎ ﻣﻤﻜﻦ اﺳﺖ ﺑﺮ ﻓﻌﻞ و اﻧﻔﻌﺎﻻت ﭘﻴﭽﻴﺪه ﺣﺎﺻﻞ از‬ ‫ﭼﻨﺪﻳﻦ ﻣﺘﻐﻴﺮ ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻨﻨﺪه ﻣﺘﻜﻲ ﺑﺎﺷﻨﺪ. ﺑﻨﺎﺑﺮاﻳﻦ ﺗﻜﻨﻴﻜﻬﺎي ﭘﻴﭽﻴﺪه ﺗﺮي‬ ‫ﻣﻤﻜﻦ اﺳﺖ ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ ﻣﺘﻐﻴﺮﻫﺎي آﻳﻨﺪه ﺿﺮوري ﺑﺎﺷﻨﺪ. اﻧﻮاع ﻣﺪل‬ ‫ﻳﻜﺴﺎن اﻏﻠﺐ ﻣﻲ ﺗﻮاﻧﻨﺪ ﻫﻢ ﺑﺮاي ﺣﺪس ﺑﺎزﮔﺸﺘﻲ وﻫﻢ ﺑﺮاي ﻃﺒﻘﻪ ﺑﻨﺪي‬ ‫اﺳﺘﻔﺎده ﺷﻮﻧﺪ. ﺑﺮاي ﻣﺜﺎل اﻟﮕﻮرﻳﺘﻢ درﺧﺖ ﺗﺼﻤﻴﻢ ‪) CART‬درﺧﺘﻬﺎي ﺣﺪس‬ ‫وﻃﺒﻘﻪ ﺑﻨﺪي (ﻫﻢ ﺑﺮاي ﺳﺎﺧﺖ درﺧﺘﻬﺎي ﺣﺪس و ﻫﻢ ﺑﺮاي ﺳﺎﺧﺖ درﺧﺘﻬﺎي‬ ‫ﻃﺒﻘﻪ ﺑﻨﺪي ﺑﻪ ﻛﺎر ﻣﻲ رود. ﺷﺒﻜﻪ ﻫﺎي ﻋﺼﺒﻲ ﻫﻢ ﻣﻲ ﺗﻮاﻧﻨﺪ ﻫﺮ دو ﻧﻮع ﻣﺪل‬ ‫ﻧﺎم ﺑﺮده ﺷﺪه را اﻳﺠﺎد ﻧﻤﺎﻳﻨﺪ.‬ ‫ﺳﺮي ﻫﺎي زﻣﺎﻧﻲ‬ ‫ﺳﺮي ﻫﺎي زﻣﺎﻧﻲ ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻨﻨﺪه ﻣﻘﺎدﻳﺮي را ﻛﻪ ﻫﻨﻮز ﻣﻘﺪارﺷﺎن ﻣﺸﺨﺺ‬ ‫ﻧﻴﺴﺖ ﺑﺮ اﺳﺎس ﻳﻚ ﺳﺮي از ﭘﻴﺸﮕﻮﻫﺎي ﻣﺘﻐﻴﺮ ﺑﺎ زﻣﺎن ﭘﻴﺶ ﺑﻴﻨﻲ ﻣﻲ ﻛﻨﻨﺪ.‬ ‫ﻣﺎﻧﻨﺪ ﺣﺪس ﺑﺎزﮔﺸﺘﻲ اﻳﻦ روش ﻫﻢ از ﻧﺘﺎﻳﺞ ﻣﻌﻠﻮم ﻗﺒﻠﻲ ﺑﺮاي اﻋﻤﺎل‬ ‫ﭘﻴﺸﮕﻮﻳﻲ ﻫﺎي ﺑﻌﺪي اش ﺑﻬﺮه ﻣﻲ ﺑﺮد. ﻣﺪﻟﻬﺎ ﺑﺎﻳﺪ ﺧﻮاص ﻣﻨﺤﺼﺮ ﺑﻔﺮد زﻣﺎن‬ ‫ﻋﻠﻲ اﻟﺨﺼﻮص ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺐ دوره ﻫﺎي زﻣﺎﻧﻲ ﻣﺎﻧﻨﺪ دوره ﻫﺎي ﻓﺼﻠﻲ ﺗﺎﺛﻴﺮات‬ ‫ﺗﻘﻮﻳﻤﻲ ﻣﺎﻧﻨﺪ ﺗﻌﻄﻴﻼت ﻣﺤﺎﺳﺒﺎت ﺗﺎرﻳﺨﻲ و ﻣﻼﺣﻈﺎت ﺧﺎص ﻣﺎﻧﻨﺪ ﺗﻄﺒﻴﻖ‬ ‫ﮔﺬﺷﺘﻪ ﺑﺎ ﺣﺎل را ذﺧﻴﺮه ﻧﻤﺎﻳﻨﺪ.‬ ‫ﻣﺪﻟﻬﺎ و اﻟﮕﻮرﻳﺘﻤﻬﺎي داده ﻛﺎوي‬ ‫ﺣﺎل ﺑﻴﺎﻳﻴﺪ ﺑﺮﺧﻲ از اﻟﮕﻮرﻳﺘﻤﻬﺎ و ﻣﺪﻟﻬﺎﻳﻲ را ﻛﻪ ﺑﺮاي ﻛﺎوش داده اﺳﺘﻔﺎده ﻣﻲ‬ ‫ﺷﻮد را ﺑﺮرﺳﻲ ﻛﻨﻴﻢ. اﻏﻠﺐ ﻣﺤﺼﻮﻻت از اﻧﻮاع ﮔﻮﻧﺎﮔﻮﻧﻲ از اﻟﮕﻮرﻳﺘﻤﻬﺎ ﻛﻪ در‬ ‫ﻋﻠﻢ ﻛﺎﻣﭙﻴﻮﺗﺮ ﻳﺎ ﻣﻘﺎﻻت آﻣﺎري اراﺋﻪ ﺷﺪه ﺑﻪ ﻫﻤﺮاه ﭘﻴﺎده ﺳﺎزي ﺧﺎص آﻧﻬﺎ ﻛﻪ‬ ‫ﺟﻬﺖ رﺳﻴﺪن ﺑﻪ ﻫﺪف ﻓﺮوﺷﻨﺪه ﻣﻲ ﺑﺎﺷﺪ اﺳﺘﻔﺎده ﻣﻲ ﻧﻤﺎﻳﻨﺪ. ﺑﺮاي ﻣﺜﺎل‬ ‫ﺑﺴﻴﺎري از ﻓﺮوﺷﻨﺪﮔﺎن ﻧﺴﺨﻪ ﻫﺎﻳﻲ از درﺧﺘﻬﺎي ﺗﺼﻤﻴﻢ ‪ CART‬ﻳﺎ‬ ‫‪ CHAID‬را ﺑﻪ ﻫﻤﺮاه اﻣﻜﺎﻧﺎﺗﻲ ﺑﺮاي ﻛﺎر ﺑﺮ روي ﻛﺎﻣﭙﻴﻮﺗﺮﻫﺎي ﻣﻮازي ﻣﻲ‬ ‫ﻓﺮوﺷﻨﺪ. ﺑﺮﺧﻲ از ﻓﺮوﺷﻨﺪﮔﺎن اﻟﮕﻮرﻳﺘﻤﻬﺎي ﻣﺨﺘﺺ ﺧﻮد دارﻧﺪ ﻛﻪ ﮔﺮﭼﻪ‬
  • 26. ‫ﻣﻤﻜﻦ اﺳﺖ واﺑﺴﺘﮕﻲ ﻫﺎ ﻳﺎ اﻣﻜﺎﻧﺎت اﺿﺎﻓﻲ ﻧﺪاﺷﺘﻪ ﺑﺎﺷﺪ اﻣﺎ ﻣﻲ ﺗﻮاﻧﺪ ﺧﻮب ﻛﺎر‬ ‫ﻛﻨﺪ.‬ ‫ﺷﺎﻳﺪ ﻣﻬﻤﺘﺮﻳﻦ ﻧﻜﻨﻪ اي ﺑﺎﺷﺪ ﻛﻪ ﻫﻴﭻ ﻣﺪل ﻳﺎ اﻟﮕﻮرﻳﺘﻤﻲ ﻧﻤﻲ ﺗﻮاﻧﺪ و ﻧﺒﺎﻳﺪ ﺑﻪ‬ ‫ﺗﻨﻬﺎﻳﻲ اﺳﺘﻔﺎده ﺷﻮد. ﺑﺮاي ﻫﺮ ﻣﺴﺎﻟﻪ داده ﺷﺪه ﻃﺒﻴﻌﺖ داده اﺳﺘﻔﺎده ﺷﺪه ﺑﺮ‬ ‫روي اﻧﺘﺨﺎب ﻣﺪﻟﻬﺎ و اﻟﮕﻮرﻳﺘﻤﻬﺎﻳﻲ ﻛﻪ ﺷﻤﺎ ﺑﺮ ﻣﻲ ﮔﺰﻳﻨﻴﺪ ﺗﺎﺛﻴﺮ ﺧﻮاﻫﺪ‬ ‫ﮔﺬاﺷﺖ. ﻧﻤﻲ ﺗﻮان ﻫﻴﭻ ﻣﺪل ﻳﺎ اﻟﮕﻮرﻳﺘﻤﻲ را در اﻳﻦ زﻣﻴﻨﻪ ﺑﻬﺘﺮﻳﻦ ﻧﺎﻣﻴﺪ.‬ ‫ﻧﺘﻴﺠﺘﺎ ﺷﻤﺎ ﺑﻪ ﻳﻚ ﺳﺮي اﺑﺰار و ﺗﻜﻨﻮﻟﻮژي ﺟﻬﺖ ﻳﺎﻓﺘﻦ ﺑﻬﺘﺮﻳﻦ ﻣﺪل ﻣﻤﻜﻨﻪ‬ ‫ﻧﻴﺎز ﺧﻮاﻫﻴﺪ داﺷﺖ. ]3[‬ ‫ﺷﺒﻜﻪ ﻫﺎي ﻋﺼﺒﻲ‬ ‫ﺷﺒﻜﻪ ﻫﺎي ﻋﺼﺒﻲ ﺑﻪ ﻃﻮر ﺧﺎﺻﻲ ﻣﻮرد اﺳﺘﻔﺎده اﻧﺪ ﭼﺮا ﻛﻪ آﻧﻬﺎ اﺑﺰاري ﻣﻮﺛﺮ‬ ‫ﺑﺮاي ﻣﺪﻟﺴﺎزي ﻣﺴﺎﺋﻞ ﺑﺰرگ و ﭘﻴﭽﻴﺪه ﻛﻪ ﻣﻤﻜﻦ اﺳﺖ در آﻧﻬﺎ ﺻﺪﻫﺎ ﻣﺘﻐﻴﺮ‬ ‫ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻨﻨﺪه ﻛﻪ ﻓﻌﻞ و اﻧﻔﻌﺎﻻت زﻳﺎدي دارﻧﺪ وﺟﻮد داﺷﺘﻪ ﺑﺎﺷﺪ.)ﺷﺒﻜﻪ‬ ‫ﻫﺎي ﻋﺼﺒﻲ زﻳﺴﺘﻲ ﺑﻄﻮر ﻏﻴﺮ ﻗﺎﺑﻞ ﻣﻘﺎﻳﺴﻪ اي ﭘﻴﭽﻴﺪه ﺗﺮ ﻫﺴﺘﻨﺪ.(ﺷﺒﻜﻪ ﻫﺎي‬ ‫ﻋﺼﺒﻲ ﻣﻲ ﺗﻮاﻧﻨﺪ در ﻣﺴﺎﺋﻞ ﻃﺒﻘﻪ ﺑﻨﺪي ﻳﺎ ﺣﺪﺳﻬﺎي ﺑﺎزﮔﺸﺘﻲ)ﻛﻪ در آﻧﻬﺎ‬ ‫ﻣﺘﻐﻴﺮ ﺧﺮوﺟﻲ ﭘﻴﻮﺳﺘﻪ اﺳﺖ( اﺳﺘﻔﺎده ﺷﻮﻧﺪ.‬ ‫ﻳﻚ ﺷﺒﻜﻪ ﻋﺼﺒﻲ ﺑﺎ ﻳﻚ ﻻﻳﻪ داﺧﻠﻲ ﺷﺮوع ﻣﻲ ﺷﻮد ﻛﻪ در آن ﻫﺮ ﮔﺮه ﺑﻪ ﻳﻚ‬ ‫ﻣﺘﻐﻴﺮ ﭘﻴﺸﮕﻮ ﻣﻨﺴﻮب ﻣﻲ ﮔﺮدد. اﻳﻦ ﮔﺮه ﻫﺎي ورودي ﺑﻪ ﻳﻚ ﺗﻌﺪاد از ﮔﺮه ﻫﺎ‬ ‫در ﻻﻳﻪ ﭘﻨﻬﺎن ﻣﺘﺼﻞ ﻣﻲ ﺷﻮﻧﺪ.ﮔﺮه ﻫﺎ در ﻻﻳﻪ ﭘﻨﻬﺎن ﻣﻲ ﺗﻮاﻧﻨﺪ ﺑﻪ ﮔﺮه ﻫﺎﻳﻲ‬ ‫در ﻳﻚ ﻻﻳﻪ ﭘﻨﻬﺎن دﻳﮕﺮ ﻳﺎ ﺑﻪ ﻳﻚ ﻻﻳﻪ ﺧﺮوﺟﻲ ﻣﺘﺼﻞ ﺷﻮد. ﻻﻳﻪ ﺧﺮوﺟﻲ ﺧﻮد‬ ‫ﺷﺎﻣﻞ ﻳﻚ ﻳﺎ ﺑﻴﺸﺘﺮ ﻣﺘﻐﻴﺮﻫﺎي ﺟﻮاب ﻣﻲ ﺑﺎﺷﺪ.‬
  • 27. ‫ﻳﻚ ﺷﺒﻜﻪ ﻋﺼﺒﻲ ﺑﺎ ﻳﻚ ﻻﻳﻪ ﭘﻨﻬﺎن‬ ‫درﺧﺖ ﻫﺎي اﻧﺘﺨﺎب‬ ‫درﺧﺖ ﻫﺎي اﻧﺘﺨﺎب راﻫﻲ ﺑﺮاي ﻧﻤﺎﻳﺶ ﻳﻚ ﺳﺮي از ﻗﻮاﻧﻴﻦ ﻛﻪ ﺑﻪ ﻳﻚ ﻛﻼس‬ ‫ﻳﺎ ﻣﻘﺪار ﻣﻨﺠﺮ ﻣﻲ ﺷﻮد ﻣﻲ ﺑﺎﺷﻨﺪ. ﺑﺮاي ﻣﺜﺎل ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ ﺑﺨﻮاﻫﻴﺪ‬ ‫درﺧﻮاﺳﺘﻬﺎي وام را ﺑﺮﺣﺴﺐ رﻳﺴﻚ اﻋﺘﺒﺎر ﺧﻮب ﻳﺎ ﺑﺪ ﻃﺒﻘﻪ ﺑﻨﺪي ﻛﻨﻴﺪ. ﺷﻜﻞ‬ ‫ﺑﻌﺪ ﻳﻚ ﻣﺪل ﺳﺎده از ﻳﻚ درﺧﺖ اﻧﺘﺨﺎب ﺑﻪ ﻫﻤﺮاه ﺗﻮﺿﻴﺢ در ﻣﻮرد ﺗﻤﺎم ﺑﺴﺘﻪ‬ ‫ﻫﺎي ﭘﺎﻳﻪ آن ﻳﻌﻨﻲ ﮔﺮه اﻧﺘﺨﺎب, ﺷﺎﺧﻪ ﻫﺎ و ﺑﺮﮔﻬﺎي آن ﻛﻪ اﻳﻦ ﻣﺴﺎﻟﻪ را ﺣﻞ‬ ‫ﻣﻲ ﻛﻨﺪ ﻧﺸﺎن ﻣﻲ دﻫﺪ.‬ ‫اوﻟﻴﻦ ﺑﺴﺘﻪ ﮔﺮه ﺑﺎﻻﻳﻲ ﺗﺼﻤﻴﻢ ﻳﺎ رﻳﺸﻪ ﻣﻲ ﺑﺎﺷﺪ ﻛﻪ ﻳﻚ ﺑﺮرﺳﻲ ﺟﻬﺖ‬ ‫ﺑﺮﻗﺮاري ﺷﺮط ﺧﺎﺻﻲ ﻣﻲ ﻧﻤﺎﻳﺪ. ﮔﺮه رﻳﺸﻪ در اﻳﻦ ﻣﺜﺎل‬ ‫“ 000,04$>‪ ” Income‬ﻣﻲ ﺑﺎﺷﺪ. ﻧﺘﺎﻳﺞ اﻳﻦ ﺑﺮرﺳﻲ ﻣﻨﺠﺮ ﻣﻲ ﺷﻮد ﻛﻪ‬ ‫درﺧﺖ ﺑﻪ دوﺷﺎﺧﻪ ﺗﻘﺴﻴﻢ ﮔﺮددﻛﻪ ﻫﺮ ﻳﻚ ﻧﺸﺎن دﻫﻨﺪه ﺟﻮاﺑﻬﺎي ﻣﻤﻜﻦ‬
  • 28. ‫اﺳﺖ.در اﻳﻦ ﻣﻮرد ﺑﺮرﺳﻲ ﺷﺮط ﻣﺬﻛﻮر ﻣﻲ ﺗﻮاﻧﺪ داراي ﺟﻮاب ﺧﻴﺮ ﻳﺎ ﺑﻠﻪ ﺑﺎﺷﺪ‬ ‫در ﻧﺘﻴﺠﻪ دو ﺷﺎﺧﻪ دارﻳﻢ.‬ ‫ﺑﺮاﺳﺎس ﻧﻮع اﻟﮕﻮرﻳﺘﻢ ﻫﺮ ﮔﺮه ﻣﻲ ﺗﻮاﻧﺪ دو ﻳﺎ ﺗﻌﺪاد ﺑﻴﺸﺘﺮي ﺷﺎﺧﻪ داﺷﺘﻪ‬ ‫ﺑﺎﺷﺪ. ﺑﺮاي ﻣﺜﺎل ‪ CART‬درﺧﺘﻬﺎﻳﻲ ﺑﺎ ﺗﻨﻬﺎ دوﺷﺎﺧﻪ در ﻫﺮ ﮔﺮه ﺗﻮﻟﻴﺪ ﻣﻲ‬ ‫ﻛﻨﺪ.ﭼﻨﻴﻦ درﺧﺘﻲ ﻳﻚ درﺧﺖ دودوﻳﻲ ﻣﻲ ﺑﺎﺷﺪ.‬ ‫ﻣﺪﻟﻬﺎي ﻣﺨﺘﻠﻒ درﺧﺖ ﺗﺼﻤﻴﻢ ﺑﻄﻮر ﻋﻤﻮﻣﻲ در داده ﻛﺎوي ﺑﺮاي ﻛﺎوش داده و‬ ‫ﺑﺮاي اﺳﺘﻨﺘﺎج درﺧﺖ و ﻗﻮاﻧﻴﻦ آن ﻛﻪ ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﻣﻲ‬ ‫ﮔﻴﺮد اﺳﺘﻔﺎده ﻣﻲ ﺷﻮﻧﺪ. ﻳﻚ ﺗﻌﺪاد از اﻟﮕﻮرﻳﺘﻤﻬﺎي ﻣﺨﺘﻠﻒ ﻣﻲ ﺗﻮاﻧﻨﺪ ﺑﺮاي‬ ‫ﺳﺎﺧﺖ درﺧﺘﻬﺎي ﺗﺼﻤﻴﻢ ﺷﺎﻣﻞ ‪ Quest , CART , CHAID‬و 0.5‪ C‬ﺑﻜﺎر‬ ‫روﻧﺪ.‬ ‫اﻧﺪازه درﺧﺖ ﻣﻲ ﺗﻮاﻧﺪ از ﻃﺮﻳﻖ ﻗﻮاﻧﻴﻦ ﻣﺘﻮﻗﻒ ﺷﻮﻧﺪه ﻛﻪ رﺷﺪ درﺧﺖ را‬ ‫ﻣﺤﺪود ﻣﻲ ﻛﻨﻨﺪ ﻛﻨﺘﺮل ﺷﻮد. ]3[‬ ‫اﺳﺘﻨﺘﺎج ﻗﺎﻧﻮن‬ ‫اﺳﺘﻨﺘﺎج ﻗﺎﻧﻮن روﺷﻲ ﺑﺮاي ﺑﺪﺳﺖ آوردن ﻳﻚ ﺳﺮي از ﻗﻮاﻧﻴﻦ ﺑﺮاي ﻃﺒﻘﻪ ﺑﻨﺪي‬ ‫ﻣﻮارد ﻣﻲ ﺑﺎﺷﺪ. اﮔﺮﭼﻪ درﺧﺘﻬﺎي ﺗﺼﻤﻴﻢ ﻣﻲ ﺗﻮاﻧﻨﺪ ﻳﻚ ﺳﺮي ﻗﻮاﻧﻴﻦ ﺗﻮﻟﻴﺪ‬ ‫ﻛﻨﻨﺪ روﺷﻬﺎي اﺳﺘﻨﺘﺎج ﻗﺎﻧﻮن ﻳﻚ ﻣﺠﻤﻮﻋﻪ از ﻗﻮاﻧﻴﻦ واﺑﺴﺘﻪ ﻛﻪ ﺿﺮورﺗﺎ‬ ‫درﺧﺘﻲ ﺗﺸﻜﻴﻞ ﻧﻤﻲ دﻫﻨﺪ را ﺗﻮﻟﻴﺪ ﻣﻲ ﻧﻤﺎﻳﺪ. ﭼﻮن اﺳﺘﻨﺘﺎج ﻛﻨﻨﺪه ﻗﻮاﻧﻴﻦ‬ ‫ﻟﺰوﻣﺎ اﻧﺸﻌﺎﺑﻲ در ﻫﺮ ﺳﻄﺢ ﻗﺮار ﻧﻤﻲ دﻫﺪ و ﻣﻲ ﺗﻮاﻧﺪ ﮔﺎم ﺑﻌﺪي را ﺗﺸﺨﻴﺺ‬ ‫دﻫﺪ ﮔﺎﻫﻲ اوﻗﺎت ﻣﻲ ﺗﻮاﻧﺪ اﻟﮕﻮﻫﺎي ﻣﺨﺘﻠﻒ و ﺑﻬﺘﺮي را ﺑﺮاي ﻃﺒﻘﻪ ﺑﻨﺪي‬ ‫ﺑﻴﺎﺑﺪ. ﺑﺮﺧﻼف درﺧﺘﺎن ﻗﻮاﻧﻴﻦ ﺗﻮﻟﻴﺪي ﻣﻤﻜﻦ اﺳﺖ ﺗﻤﺎم ﺣﺎﻟﺘﻬﺎي ﻣﻤﻜﻦ را‬ ‫ﭘﻮﺷﺶ ﻧﺪﻫﻨﺪ.‬ ‫اﻟﮕﻮرﻳﺘﻤﻬﺎي ژﻧﺘﻴﻚ‬ ‫اﻟﮕﻮرﻳﺘﻤﻬﺎي ژﻧﺘﻴﻚ ﺑﺮاي ﻳﺎﻓﺖ اﻟﮕﻮﻫﺎ اﺳﺘﻔﺎده ﻧﻤﻲ ﺷﻮد ﺑﻠﻜﻪ ﺑﻴﺸﺘﺮ ﺑﻪ ﻣﻨﻈﻮر‬ ‫راﻫﻨﻤﺎﻳﻲ در ﻣﻮرد ﻓﺮآﻳﻨﺪ ﻳﺎدﮔﻴﺮي اﻟﮕﻮرﻳﺘﻤﻬﺎي داده ﻛﺎوي ﻣﺎﻧﻨﺪ ﺷﺒﻜﻪ ﻫﺎي‬ ‫ﻋﺼﺒﻲ ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﻣﻲ ﮔﻴﺮد. اﻟﮕﻮرﻳﺘﻤﻬﺎي ژﻧﺘﻴﻚ ﺑﻪ ﻋﻨﻮان ﻳﻚ ﻣﺘﺪ‬
  • 29. ‫ﺟﻬﺖ اﻧﺠﺎم ﻳﻚ ﺟﺴﺘﺠﻮي ﻫﺪاﻳﺖ ﺷﺪه ﺑﺮاي ﻣﺪﻟﻬﺎي ﺧﻮب در ﻓﻀﺎي ﺣﻞ‬ ‫ﻣﺴﺎﻟﻪ ﻋﻤﻞ ﻣﻲ ﻛﻨﺪ.‬ ‫اﻳﻦ اﻟﮕﻮرﻳﺘﻤﻬﺎ, اﻟﮕﻮرﻳﺘﻤﻬﺎي ژﻧﺘﻴﻚ ﻧﺎﻣﻴﺪه ﻣﻲ ﺷﻮﻧﺪ ﭼﻮن ﺑﻄﻮر ﺑﻲ ﻗﺎﻋﺪه اي‬ ‫اﻟﮕﻮي ﺗﻜﺎﻣﻞ زﻳﺴﺘﻲ ﻛﻪ در آن اﻋﻀﺎي ﻳﻚ ﻧﺴﻞ ﺑﺮ ﺳﺮ اﻧﺘﻘﺎل ﺧﺼﻮﺻﻴﺎت‬ ‫ﺧﻮد ﺑﻪ ﻧﺴﻞ ﺑﻌﺪ رﻗﺎﺑﺖ ﻣﻲ ﻛﻨﻨﺪ ﺗﺎ ﻧﻬﺎﻳﺘﺎ ﺑﻬﺘﺮﻳﻦ ﻣﺪل ﻳﺎﻓﺖ ﺷﻮد را دﻧﺒﺎل‬ ‫ﻣﻲ ﻛﻨﻨﺪ. اﻃﻼﻋﺎﺗﻲ ﻛﻪ ﺑﺎﻳﺪ اﻧﺘﻘﺎل داده ﺷﻮد در ﻗﺎﻟﺐ ﻛﺮوﻣﻮزﻣﻬﺎ ﻛﻪ ﺷﺎﻣﻞ‬ ‫ﭘﺎراﻣﺘﺮﻫﺎﻳﻲ ﺑﺮاي ﺳﺎﺧﺘﻦ ﻣﺪل ﻣﻲ ﺑﺎﺷﺪ ﻗﺮار ﻣﻲ ﮔﻴﺮد.‬ ‫ﻓﺮآﻳﻨﺪ داده ﻛﺎوي‬ ‫ﻣﺪﻟﻬﺎي ﻓﺮآﻳﻨﺪ‬ ‫ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﻳﻨﻜﻪ ﻳﻚ ﻓﺮآﻳﻨﺪ ﺳﻴﺴﺘﻤﺎﺗﻴﻚ ﺑﺮاي داده ﻛﺎوي ﻣﻮﻓﻖ ﺿﺮوري اﺳﺖ‬ ‫ﺑﺴﻴﺎري از ﻓﺮوﺷﻨﺪﮔﺎن و ﻫﻤﻔﻜﺮان ﻣﺸﺎور آﻧﻬﺎ ﻳﻚ ﻣﺪل ﻓﺮآﻳﻨﺪ ﺑﺮاي راﻫﻨﻤﺎﻳﻲ‬ ‫ﻛﺎرﺑﺮ ﺧﻮد ﻛﻪ از ﻃﺮﻳﻖ ﻳﻚ ﺳﺮي ﻣﺮاﺣﻞ ﻣﺸﺨﺺ او را ﺑﻪ ﻧﺘﺎﻳﺞ ﺧﻮﺑﻲ ﻫﺪاﻳﺖ‬ ‫ﺧﻮاﻫﺪ ﻛﺮد ﻃﺮاﺣﻲ ﻛﺮدﻧﺪ. ﺑﺮاي ﻣﺜﺎل ‪ SPSS‬از ﻣﺮاﺣﻞ ﭘﻨﺠﮕﺎﻧﻪ ﺗﺸﺨﻴﺺ‬ ‫دﺳﺘﺮﺳﻲ ﺗﺤﻠﻴﻞ ﻋﻤﻞ و اﺗﻮﻣﺎﺳﻴﻮن و ‪ SAS‬از ﻣﺮاﺣﻞ ﻧﻤﻮﻧﻪ ﮔﻴﺮي, ﺟﺴﺘﺠﻮ,‬ ‫ﺗﻐﻴﻴﺮ و ﺑﻬﺒﻮد, ﻣﺪل ﺳﺎزي و ﺗﻌﻴﻴﻦ اﺳﺘﻔﺎده ﻣﻲ ﻧﻤﺎﻳﺪ.‬ ‫اﺧﻴﺮا اﺋﺘﻼف ﻓﺮوﺷﻨﺪﮔﺎن وﻛﺎرﺑﺮان ﺷﺎﻣﻞ ﺳﻴﺴﺘﻤﻬﺎي ﻣﻬﻨﺪﺳﻲ ‪NCR‬‬ ‫ﻛﭙﻨﻬﺎك, راه ﺣﻠﻬﺎي ﺟﺎﻣﻊ ‪ SPSS‬و ﺑﺎﻧﻚ ‪ OHRA‬در ﺣﺎل ﺳﺎﺧﺘﻦ ﻳﻚ‬ ‫ﻓﺮآﻳﻨﺪ ﺧﺎص ﻛﻪ ﺑﻪ ﻓﺮآﻳﻨﺪ اﺳﺘﺎﻧﺪارد ﺻﻨﻌﺘﻲ داده ﻛﺎوي )‪(CRISP-DM‬‬ ‫ﻣﻮﺳﻮم اﺳﺖ ﻣﻲ ﺑﺎﺷﻨﺪ. اﻳﻦ ﻓﺮآﻳﻨﺪ ﺑﺮاي ﭘﺮدازش ﻣﺪﻟﻬﺎي ﺷﺮﻛﺘﻬﺎي دﻳﮕﺮ ﻛﻪ‬ ‫ﻳﻚ ﻛﺎره ﻳﺎ دو ﻛﺎره ﻫﺴﺘﻨﺪ ﻳﻜﺴﺎن ﻣﻲ ﺑﺎﺷﺪ. اﻳﻦ ﻓﺮآﻳﻨﺪ ﺷﺮوع ﺧﻮﺑﻲ ﺑﺮاي‬ ‫ﻛﻤﻚ ﺑﻪ ﻣﺮدم ﺟﻬﺖ ﻓﻬﻢ ﻣﺮاﺣﻞ ﺿﺮوري در داده ﻛﺎوي ﻣﻮﻓﻖ ﻣﻲ ﺑﺎﺷﺪ. ]1[‬ ‫ﻣﺪل ﻓﺮآﻳﻨﺪ دو ﺳﻮﻳﻪ‬ ‫ﻣﺪل ﻓﺮآﻳﻨﺪ دو ﺳﻮﻳﻪ ﻛﻪ در زﻳﺮ ﺗﻮﺿﻴﺢ داده ﺷﺪه اﺳﺖ ﺑﺮﺧﻲ از ﻣﻮارد ﭘﻴﺶ‬ ‫ﺑﻴﻨﻲ را از ﻣﺪل ‪ CRISP-DM‬ﺑﻪ ارث ﻣﻲ ﺑﺮد.‬ ‫ﮔﺎﻣﻬﺎي اﺻﻠﻲ داده ﻛﺎوي ﺟﻬﺖ ﻛﺸﻒ داﻧﺶ ﻋﺒﺎرﺗﻨﺪ از:‬
  • 30. ‫1- ﺗﻌﺮﻳﻒ ﻣﺴﺎﻟﻪ‬ ‫2- ﺳﺎﺧﺘﻦ ﭘﺎﻳﮕﺎه داده ﻣﺮﺑﻮط ﺑﻪ داده ﻛﺎوي‬ ‫3- ﺟﺴﺘﺠﻮي داده‬ ‫4- آﻣﺎده ﺳﺎﺧﺘﻦ داده ﺑﺮاي ﻣﺪل ﺳﺎزي‬ ‫5- ﺳﺎﺧﺘﻦ ﻣﺪل‬ ‫6- ارزﻳﺎﺑﻲ ﻣﺪل‬ ‫7- ﺳﺎﺧﺖ ﻣﺪل وﻧﺘﺎﻳﺞ‬ ‫ﺑﻪ ﺳﺮاغ اﻳﻦ ﮔﺎﻣﻬﺎ ﻣﻲ روﻳﻢ ﺗﺎ ﻓﺮآﻳﻨﺪ ﻛﺸﻒ داﻧﺶ را ﺑﻬﺘﺮ ﻣﺘﻮﺟﻪ ﺷﻮﻳﻢ.‬ ‫1- ﺗﻌﺮﻳﻒ ﻣﺴﺎﻟﻪ‬ ‫در اﺑﺘﺪاي اﻣﺮ ﭘﻴﺶ زﻣﻴﻨﻪ ﻛﺸﻒ داﻧﺶ ﻓﻬﻢ درﺳﺖ داده و ﻣﺴﺎﻟﻪ ﻣﻲ ﺑﺎﺷﺪ.‬ ‫ﺑﺪون اﻳﻦ ﻓﻬﻢ درﺳﺖ ﻫﻴﭻ اﻟﮕﻮرﻳﺘﻤﻲ ﺻﺮف ﻧﻈﺮ از ﺧﺒﺮه ﺑﻮدن آن ﻧﻤﻲ‬ ‫ﺗﻮاﻧﺪ ﻧﺘﻴﺠﻪ ﻣﻄﻤﺌﻨﻲ ﺑﺮاي ﺷﻤﺎ ﺣﺎﺻﻞ ﻧﻤﺎﻳﺪ و ﻫﻤﭽﻨﻴﻦ ﺷﻤﺎ ﻗﺎدر ﻧﺨﻮاﻫﻴﺪ‬ ‫ﺑﻮد ﻛﻪ ﻣﺴﺎﺋﻠﻲ را ﻛﻪ ﺳﻌﻲ در ﺣﻞ آن دارﻳﺪ ﺗﻌﺮﻳﻒ ﻛﺮده و ﻫﻤﭽﻨﻴﻦ داده‬ ‫را ﺟﻬﺖ ﻛﺎوش آﻣﺎده ﻧﻤﻮده و ﻳﺎ ﻧﺘﺎﻳﺞ را ﺑﻪ ﻃﻮر ﺻﺤﻴﺢ ﺗﻔﺴﻴﺮ ﻧﻤﺎﺋﻴﺪ.‬ ‫ﺑﺮاي اﺳﺘﻔﺎده ﺑﻬﺘﺮ از داده ﻛﺎوي ﺷﻤﺎ ﺑﺎﻳﺪ ﻳﻚ ﺑﻴﺎن واﺿﺢ از ﻫﺪف ﺧﻮد‬ ‫داﺷﺘﻪ ﺑﺎﺷﻴﺪ. ]1[‬ ‫ﺳﺎﺧﺘﻦ ﻳﻚ ﭘﺎﻳﮕﺎه داده داده ﻛﺎوي‬ ‫اﻳﻦ ﮔﺎم ﺑﻪ ﻫﻤﺮاه دو ﮔﺎم ﺑﻌﺪي ﻫﺴﺘﻪ آﻣﺎده ﺳﺎزي داده را ﺗﺸﻜﻴﻞ ﻣﻲ‬ ‫دﻫﻨﺪ. در ﻣﺠﻤﻮع ﮔﺎﻣﻬﺎي ﮔﻔﺘﻪ ﺷﺪه وﻗﺖ و ﻛﺎر ﺑﻴﺸﺘﺮي از ﺳﺎﻳﺮ ﮔﺎﻣﻬﺎ ﻣﻲ‬ ‫ﺑﺮﻧﺪ. ﻣﻤﻜﻦ اﺳﺖ ﺷﻤﺎ ﮔﺎﻣﻬﺎي ﺗﻜﺮاري در آﻣﺎده ﺳﺎزي داده و ﺳﺎﺧﺘﻦ ﻣﺪل‬ ‫داﺷﺘﻪ ﺑﺎﺷﻴﺪ ﭼﺮا ﻛﻪ در ﻫﺮ ﻣﺮﺣﻠﻪ ﻣﻤﻜﻦ اﺳﺖ ﺑﻪ ﻧﻜﺘﻪ اي ﺑﺮﺳﻴﺪ ﻛﻪ ﺷﻤﺎ‬ ‫را ﺑﺮ آن دارد داده ﺧﻮد را ﺑﻬﺒﻮد ﺑﺨﺸﻴﺪ. اﻳﻦ ﮔﺎﻣﻬﺎي آﻣﺎده ﺳﺎزي داده ﻣﻲ‬ ‫ﺗﻮاﻧﺪ 05% ﺗﺎ 09% وﻗﺖ و ﻛﺎر از ﺗﻤﺎم ﻓﺮآﻳﻨﺪ ﻛﺸﻒ داﻧﺶ را ﺑﻪ ﺧﻮد‬ ‫اﺧﺘﺼﺎص دﻫﺪ.‬
  • 31. ‫داده اي ﻛﻪ ﻣﻲ ﺧﻮاﻫﺪ ﻛﺎوش ﺷﻮد ﺑﺎﻳﺪ در ﻳﻚ ﭘﺎﻳﮕﺎه داده ذﺧﻴﺮه ﺷﻮد. ﺑﺮ‬ ‫اﺳﺎس ﻣﻘﺪار داده, ﭘﻴﭽﻴﺪﮔﻲ داده و اﺳﺘﻔﺎده ﻫﺎﻳﻲ ﻛﻪ ﻗﺮار اﺳﺖ از آن ﺷﻮد‬ ‫ﻳﻚ ﻓﺎﻳﻞ ﻣﻌﻤﻮﻟﻲ و ﻳﺎ ﻳﻚ ‪ SpreadSheet‬ﺑﺮاي اﻳﻦ ﻛﺎر ﻛﺎﻓﻲ اﺳﺖ.‬ ‫ﺑﻪ اﺣﺘﻤﺎل زﻳﺎد ﺷﻤﺎ ﻣﻲ ﺧﻮاﻫﻴﺪ داده ﻣﻮﺟﻮد در اﻧﺒﺎره داده را ﺗﻐﻴﻴﺮ دﻫﻴﺪ.‬ ‫ﺑﻪ ﻋﻼوه ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ ﺑﺨﻮاﻫﻴﺪ ﻓﻴﻠﺪﻫﺎي ﺟﺪﻳﺪي ﻛﻪ از ﻓﻴﻠﺪﻫﺎي‬ ‫ﻣﻮﺟﻮد ﻣﺤﺎﺳﺒﻪ ﺷﺪه اﺳﺖ را ﺑﻪ اﻧﺒﺎر داده ﺧﻮد ﺑﻴﺎﻓﺰاﻳﻴﺪ.اﻳﻦ ﻳﻜﻲ از دﻻﻳﻞ‬ ‫اﺳﺘﻔﺎده از ﻳﻚ ﭘﺎﻳﮕﺎه داده ﺟﺪاﮔﺎﻧﻪ اﺳﺖ.‬ ‫دﻟﻴﻞ دﻳﮕﺮ ﺑﺮاي اﻳﻦ ﻛﺎر آن اﺳﺖ ﻛﻪ اﻧﺒﺎر داده ﻫﺎي ﻳﻜﻲ ﺷﺪه ﻣﻤﻜﻦ اﺳﺖ‬ ‫ﺑﻪ آﺳﺎﻧﻲ اﻧﻮاع ﺟﺴﺘﺠﻮﻫﺎﻳﻲ را ﻛﻪ ﺷﻤﺎ ﺑﺮاي ﻓﻬﻢ داده ﺑﻪ آﻧﻬﺎ ﻧﻴﺎز دارﻳﺪ‬ ‫اﻧﺠﺎم ﻧﺪﻫﺪ. ﻣﺎﻧﻨﺪ ﭘﺮس و ﺟﻮﻫﺎﻳﻲ ﻛﻪ داده را ﺧﻼﺻﻪ ﻣﻲ ﻛﻨﺪ, ﮔﺰارﺷﺎت‬ ‫ﭼﻨﺪ ﺑﻌﺪي و ﺑﺴﻴﺎري از اﻧﻮاع دﻳﮕﺮ از ﮔﺮاﻓﻬﺎ ﻳﺎ ﻣﺼﻮرات.‬ ‫و دﻟﻴﻞ آﺧﺮ اﻳﻨﻜﻪ ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ ﺑﺨﻮاﻫﻴﺪ اﻳﻦ داده را در ﻳﻚ ﺳﻴﺴﺘﻢ‬ ‫ﻣﺪﻳﺮﻳﺖ ﭘﺎﻳﮕﺎه داده ﺑﻪ ﻫﻤﺮاه ﻳﻚ ﻃﺮاﺣﻲ ﻓﻴﺰﻳﻜﻲ ﻣﺘﻔﺎوت از اﻧﺒﺎر داده‬ ‫ﺧﻮد ذﺧﻴﺮه ﻛﻨﻴﺪ. ﻣﺮدم ﺑﻪ ﻃﻮر روز اﻓﺰوﻧﻲ در ﺣﺎل اﻧﺘﺨﺎب ﭘﺎﻳﮕﺎه داده‬ ‫ﻫﺎي ﺧﺎص ﻣﻨﻈﻮره اي ﻫﺴﺘﻨﺪ ﻛﻪ اﻳﻦ ﻧﻴﺎزﻫﺎي داده ﻛﺎوي را ﺑﻪ ﻧﺤﻮ‬ ‫ﻣﻨﺎﺳﺒﻲ ﺣﻤﺎﻳﺖ ﻛﻨﺪ. ﺑﻪ ﻫﺮﺣﺎل اﮔﺮ داده ﻣﻮﺟﻮد در اﻧﺒﺎر داده ﺷﻤﺎ اﺟﺎزه‬ ‫ﻣﻲ دﻫﺪ ﻛﻪ ﻣﺮاﻛﺰ ﻣﻨﻄﻘﻲ داده اي اﻳﺠﺎدﻛﻨﻴﺪ و اﮔﺮ ﺷﻤﺎ ﻣﻲ ﺗﻮاﻧﻴﺪ‬ ‫ﺗﻘﺎﺿﺎي داده ﻛﺎوي را ارﺿﺎ ﻧﻤﺎﻳﻴﺪ ﭘﺎﻳﮕﺎه داده ﺷﻤﺎ ﺑﻪ ﺧﻮﺑﻲ وﻇﻴﻔﻪ ﺧﻮد را‬ ‫اﻧﺠﺎم ﻣﻲ دﻫﺪ. ]2[‬ ‫ﻣﺮاﺣﻞ ﻻزم ﺑﺮاي ﺳﺎﺧﺖ ﻳﻚ ﭘﺎﻳﮕﺎه داده داده ﻛﺎوي ﺑﻪ ﺷﻜﻞ زﻳﺮ ﻣﻲ ﺑﺎﺷﺪ:‬ ‫1- ﺟﻤﻊ آوري داده ﻫﺎ‬ ‫2- ﺗﻮﺿﻴﺢ داده ﻫﺎ‬ ‫3- اﻧﺘﺨﺎب داده ﻫﺎ‬ ‫4- ﺗﻌﻴﻴﻦ ﻛﻴﻔﻴﺖ داده ﻫﺎ و ﭘﺎك ﻛﺮدن آن‬ ‫5- ﺗﺜﺒﻴﺖ و ﻳﻜﭙﺎرﭼﮕﻲ‬