مقدمه ای بر داده کاوی و اکتشاف دانش

‫ﺑﻪ ﻧﺎم ﺧﺪا‬

‫ﻣﻘﺪﻣﻪ اي ﺑﺮ داده ﻛﺎوي و اﻛﺘﺸﺎف‬
‫داﻧﺶ‬

‫ﺗﻬﻴﻪ ﻛﻨﻨﺪﮔﺎن : ﻳﻮﺣﻨﺎ ﻗﺪﻳﻤﻲ‬

‫ﻋﻠﻲ ﻋﺒﺎﺳﻲ‬

‫ﻛﺎوه ﭘﺎﺷﺎﻳﻲ‬

‫ﻣﻘﺪﻣﻪ‬
‫اﻣﺮوزه ﺑﺎ ﮔﺴﺘﺮش ﺳﻴﺴﺘﻢ ﻫﺎي ﭘﺎﻳﮕﺎﻫﻲ و ﺣﺠﻢ ﺑﺎﻻي داده ﻫﺎ ي ذﺧﻴﺮه ﺷﺪه‬
‫در اﻳﻦ ﺳﻴﺴﺘﻢ ﻫﺎ ، ﻧﻴﺎز ﺑﻪ اﺑﺰاري اﺳﺖ ﺗﺎ ﺑﺘﻮان داده ﻫﺎي ذﺧﻴﺮه ﺷﺪه‬
‫ﭘﺮدازش ﻛﺮد و اﻃﻼﻋﺎت ﺣﺎﺻﻞ از اﻳﻦ ﭘﺮدازش را در اﺧﺘﻴﺎر ﻛﺎرﺑﺮان ﻗﺮار داد .‬
‫ﺑﺎ اﺳﺘﻔﺎده ار ﭘﺮﺳﺶ ﻫﺎي ﺳﺎده در ‪ SQL‬و اﺑﺰارﻫﺎي ﮔﻮﻧﺎﮔﻮن ﮔﺰارش ﮔﻴﺮي‬
‫ﻣﻌﻤﻮﻟﻲ ، ﻣﻲ ﺗﻮان اﻃﻼﻋﺎﺗﻲ را در اﺧﺘﻴﺎر ﻛﺎرﺑﺮان ﻗﺮار داد ﺗﺎ ﺑﺘﻮاﻧﻨﺪ ﺑﻪ ﻧﺘﻴﺠﻪ‬
‫ﮔﻴﺮي در ﻣﻮرد داده ﻫﺎ و رواﺑﻂ ﻣﻨﻄﻘﻲ ﻣﻴﺎن آﻧﻬﺎ ﺑﭙﺮدازﻧﺪ اﻣﺎ وﻗﺘﻲ ﻛﻪ ﺣﺠﻢ‬
‫داده ﻫﺎ ﺑﺎﻻ ﺑﺎﺷﺪ ، ﻛﺎرﺑﺮان ﻫﺮ ﭼﻨﺪ زﺑﺮ دﺳﺖ و ﺑﺎ ﺗﺠﺮﺑﻪ ﺑﺎﺷﻨﺪ ﻧﻤﻲ ﺗﻮاﻧﻨﺪ‬
‫اﻟﮕﻮﻫﺎي ﻣﻔﻴﺪ را در ﻣﻴﺎن ﺣﺠﻢ اﻧﺒﻮه داده ﻫﺎ ﺗﺸﺨﻴﺺ دﻫﻨﺪ و ﻳﺎ اﮔﺮ ﻗﺎدر ﺑﻪ‬
‫اﻳﻦ ﻛﺎر ﻫﻢ ﺑﺎ ﺷﻨﺪ ، ﻫﺰﻳﻨﻪ ﻋﻤﻠﻴﺎت از ﻧﻈﺮ ﻧﻴﺮوي اﻧﺴﺎﻧﻲ و ﻣﺎدي ﺑﺴﻴﺎر ﺑﺎﻻ‬
‫اﺳﺖ .‬
‫از ﺳﻮي دﻳﮕﺮ ﻛﺎرﺑﺮان ﻣﻌﻤﻮﻻ ﻓﺮﺿﻴﻪ اي را ﻣﻄﺮح ﻣﻲ ﻛﻨﻨﺪ و ﺳﭙﺲ ﺑﺮ اﺳﺎس‬
‫ﮔﺰارﺷﺎت ﻣﺸﺎﻫﺪه ﺷﺪه ﺑﻪ اﺛﺒﺎت ﻳﺎ رد ﻓﺮﺿﻴﻪ ﻣﻲ ﭘﺮدازﻧﺪ ، در ﺣﺎﻟﻲ ﻛﻪ اﻣﺮوزه‬
‫ﻧﻴﺎز ﺑﻪ روﺷﻬﺎﻳﻲ اﺳﺖ ﻛﻪ اﺻﻄﻼﺣﺎ ﺑﻪ ﻛﺸﻒ داﻧﺶ 1 ﺑﭙﺮدازﻧﺪ ﻳﻌﻨﻲ ﺑﺎ ﻛﻤﺘﺮﻳﻦ‬
‫دﺧﺎﻟﺖ ﻛﺎرﺑﺮ و ﺑﻪ ﺻﻮرت ﺧﻮدﻛﺎر اﻟﮕﻮﻫﺎ و راﺑﻄﻪ ﻫﺎي ﻣﻨﻄﻘﻲ را ﺑﻴﺎن ﻧﻤﺎﻳﻨﺪ .‬
‫داده ﻛﺎوي2 ﻳﻜﻲ از ﻣﻬﻤﺘﺮﻳﻦ اﻳﻦ روﺷﻬﺎ اﺳﺖ ﻛﻪ ﺑﻪ وﺳﻴﻠﻪ آن اﻟﮕﻮﻫﺎي ﻣﻔﻴﺪ‬
‫در داده ﻫﺎ ﺑﺎ ﺣﺪاﻗﻞ دﺧﺎﻟﺖ ﻛﺎرﺑﺮان ﺷﻨﺎﺧﺘﻪ ﻣﻲ ﺷﻮﻧﺪ و اﻃﻼﻋﺎﺗﻲ را در‬
‫اﺧﺘﻴﺎر ﻛﺎرﺑﺮان و ﺗﺤﻠﻴﻞ ﮔﺮان ﻗﺮار ﻣﻲ دﻫﻨﺪ ﺗﺎ ﺑﺮاﺳﺎس آﻧﻬﺎ ﺗﺼﻤﻴﻤﺎت ﻣﻬﻢ و‬
‫ﺣﻴﺎﺗﻲ در ﺳﺎزﻣﺎﻧﻬﺎ اﺗﺨﺎذ ﺷﻮﻧﺪ .‬
‫در داده ﻛﺎوي از ﺑﺨﺸﻲ از ﻋﻠﻢ آﻣﺎر ﺑﻪ ﻧﺎم ﺗﺤﻠﻴﻞ اﻛﺘﺸﺎﻓﻲ داده ﻫﺎ 3 اﺳﺘﻔﺎده‬
‫ﻣﻲ ﺷﻮد ﻛﻪ در آن ﺑﺮ ﻛﺸﻒ اﻃﻼﻋﺎت ﻧﻬﻔﺘﻪ و ﻧﺎﺷﻨﺎﺧﺘﻪ از درون ﺣﺠﻢ اﻧﺒﻮه‬
‫داده ﻫﺎ ﺗﺎﻛﻴﺪ ﻣﻲ ﺷﻮد . ﻋﻼوه ﺑﺮ اﻳﻦ داده ﻛﺎوي ﺑﺎ ﻫﻮش ﻣﺼﻨﻮﻋﻲ و ﻳﺎدﮔﻴﺮي‬

‫1 ‪Knowledge Discovery‬‬
‫2 ‪Data Mining‬‬
‫3 ‪Exploratory Data Analysis‬‬

‫ﻣﺎﺷﻴﻦ ﻧﻴﺰ ارﺗﺒﺎط ﺗﻨﮕﺎﺗﻨﮕﻲ دارد ، ﺑﻨﺎﺑﺮاﻳﻦ ﻣﻲ ﺗﻮان ﮔﻔﺖ در داده ﻛﺎوي‬
‫ﺗﺌﻮرﻳﻬﺎي ﭘﺎﻳﮕﺎه داده ﻫﺎ ، ﻫﻮش ﻣﺼﻨﻮﻋﻲ ، ﻳﺎدﮔﻴﺮي ﻣﺎﺷﻴﻦ و ﻋﻠﻢ آﻣﺎر را در‬
‫ﻫﻢ ﻣﻲ آﻣﻴﺰﻧﺪ ﺗﺎ زﻣﻴﻨﻪ ﻛﺎرﺑﺮدي ﻓﺮاﻫﻢ ﺷﻮد .‬
‫ﺑﺎﻳﺪ ﺗﻮﺟﻪ داﺷﺖ ﻛﻪ اﺻﻄﻼح داده ﻛﺎوي زﻣﺎﻧﻲ ﺑﻪ ﻛﺎر ﺑﺮده ﻣﻲ ﺷﻮد ﻛﻪ ﺑﺎ‬
‫ﺣﺠﻢ ﺑﺰرﮔﻲ از داده ﻫﺎ ، در ﺣﺪ ﻣﮕﺎ ﻳﺎ ﺗﺮاﺑﺎﻳﺖ ، ﻣﻮاﺟﻪ ﺑﺎﺷﻴﻢ . در ﺗﻤﺎﻣﻲ‬
‫ﻣﻨﺎﺑﻊ داده ﻛﺎوي ﺑﺮ اﻳﻦ ﻣﻄﻠﺐ ﺗﺎﻛﻴﺪ ﺷﺪه اﺳﺖ .‬
‫ﻫﺮ ﭼﻪ ﺣﺠﻢ داده ﻫﺎ ﺑﻴﺸﺘﺮ و رواﺑﻂ ﻣﻴﺎن آﻧﻬﺎ ﭘﻴﭽﻴﺪه ﺗﺮ ﺑﺎﺷﺪ دﺳﺘﺮﺳﻲ ﺑﻪ‬
‫اﻃﻼﻋﺎت ﻧﻬﻔﺘﻪ در ﻣﻴﺎن داده ﻫﺎ ﻣﺸﻜﻠﺘﺮ ﻣﻲ ﺷﻮد و ﻧﻘﺶ داده ﻛﺎوي ﺑﻪ ﻋﻨﻮان‬
‫ﻳﻜﻲ از روﺷﻬﺎي ﻛﺸﻒ داﻧﺶ ، روﺷﻦ ﺗﺮ ﻣﻲ ﮔﺮدد .‬
‫ﻣﻔﺎﻫﻴﻢ ﭘﺎﻳﻪ در داده ﻛﺎوي‬
‫در داده ﻛﺎوي ﻣﻌﻤﻮﻻ ﺑﻪ ﻛﺸﻒ اﻟﮕﻮﻫﺎي ﻣﻔﻴﺪ از ﻣﻴﺎن داده ﻫﺎ اﺷﺎره ﻣﻲ ﺷﻮد .‬
‫ﻣﻨﻈﻮر از اﻟﮕﻮي ﻣﻔﻴﺪ ، ﻣﺪﻟﻲ در داده ﻫﺎ اﺳﺖ ﻛﻪ ارﺗﺒﺎط ﻣﻴﺎن ﻳﻚ زﻳﺮ‬
‫ﻣﺠﻤﻮﻋﻪ از داده ﻫﺎ را ﺗﻮﺻﻴﻒ ﻣﻲ ﻛﻨﺪ و ﻣﻌﺘﺒﺮ ، ﺳﺎده ، ﻗﺎﺑﻞ ﻓﻬﻢ و ﺟﺪﻳﺪ‬
‫اﺳﺖ .‬
‫ﺗﻌﺮﻳﻒ داده ﻛﺎوي‬
‫در ﻣﺘﻮن آﻛﺎدﻣﻴﻚ ﺗﻌﺎرﻳﻒ ﮔﻮﻧﺎﮔﻮﻧﻲ ﺑﺮاي داده ﻛﺎوي اراﺋﻪ ﺷﺪه اﻧﺪ . در ﺑﺮﺧﻲ‬
‫از اﻳﻦ ﺗﻌﺎرﻳﻒ داده ﻛﺎوي در ﺣﺪ اﺑﺰاري ﻛﻪ ﻛﺎرﺑﺮان را ﻗﺎدر ﺑﻪ ارﺗﺒﺎط ﻣﺴﺘﻘﻴﻢ‬
‫ﺑﺎ ﺣﺠﻢ ﻋﻈﻴﻢ داده ﻫﺎ ﻣﻲ ﺳﺎزد ﻣﻌﺮﻓﻲ ﮔﺮدﻳﺪه اﺳﺖ و در ﺑﺮﺧﻲ دﻳﮕﺮ ،‬
‫ﺗﻌﺎرﻳﻒ دﻗﻴﻘﺘﺮ ﻛﻪ درآﻧﻬﺎ ﺑﻪ ﻛﺎوش در داده ﻫﺎ ﺗﻮﺟﻪ ﻣﻲ ﺷﻮد ﻣﻮﺟﻮد اﺳﺖ .‬
‫ﺑﺮﺧﻲ از اﻳﻦ ﺗﻌﺎرﻳﻒ ﻋﺒﺎرﺗﻨﺪ از :‬
‫• داده ﻛﺎوي ﻋﺒﺎرت اﺳﺖ از ﻓﺮاﻳﻨﺪ اﺳﺘﺨﺮاج اﻃﻼﻋﺎت ﻣﻌﺘﺒﺮ ، از ﭘﻴﺶ‬
‫ﻧﺎﺷﻨﺎﺧﺘﻪ ، ﻗﺎﺑﻞ ﻓﻬﻢ و ﻗﺎﺑﻞ اﻋﺘﻤﺎد از ﭘﺎﻳﮕﺎه داده ﻫﺎي ﺑﺰرگ و‬
‫اﺳﺘﻔﺎده از آن در ﺗﺼﻤﻴﻢ ﮔﻴﺮي در ﻓﻌﺎﻟﻴﺖ ﻫﺎي ﺗﺠﺎري ﻣﻬﻢ. ]1[‬
‫• اﺻﻄﻼح داده ﻛﺎوي ﺑﻪ ﻓﺮاﻳﻨﺪ ﻧﻴﻢ ﺧﻮدﻛﺎر ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ ﭘﺎﻳﮕﺎه‬
‫داده ﻫﺎي ﺑﺰرگ ﺑﻪ ﻣﻨﻈﻮر ﻳﺎﻓﺘﻦ اﻟﮕﻮﻫﺎي ﻣﻔﻴﺪ اﻃﻼق ﻣﻲ ﺷﻮد ]2[.‬

‫• داده ﻛﺎوي ﻳﻌﻨﻲ ﺟﺴﺘﺠﻮ در ﻳﻚ ﭘﺎﻳﮕﺎه داده ﻫﺎ ﺑﺮاي ﻳﺎﻓﺘﻦ اﻟﮕﻮﻫﺎﻳﻲ‬
‫ﻣﻴﺎن داده ﻫﺎ .]3[‬
‫• داده ﻛﺎوي ﻳﻌﻨﻲ اﺳﺘﺨﺮاج داﻧﺶ ﻛﻼن ، ﻗﺎﺑﻞ اﺳﺘﻨﺎد و ﺟﺪﻳﺪ از‬
‫ﭘﺎﻳﮕﺎه داده ﻫﺎ ي ﺑﺰرگ .‬
‫• داده ﻛﺎوي ﻳﻌﻨﻲ ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ ﻣﺠﻤﻮﻋﻪ داده ﻫﺎي ﻗﺎﺑﻞ ﻣﺸﺎﻫﺪه‬
‫ﺑﺮاي ﻳﺎﻓﺘﻦ رواﺑﻂ ﻣﻄﻤﺌﻦ ﺑﻴﻦ داده ﻫﺎ .‬
‫ﻫﻤﺎﻧﮕﻮﻧﻪ ﻛﻪ در ﺗﻌﺎرﻳﻒ ﮔﻮﻧﺎﮔﻮن داده ﻛﺎوي ﻣﺸﺎﻫﺪه ﻣﻲ ﺷﻮد ، ﺗﻘﺮﻳﺒﺎ در‬
‫ﺗﻤﺎﻣﻲ ﺗﻌﺎرﻳﻒ ﺑﻪ ﻣﻔﺎﻫﻴﻤﻲ ﭼﻮن اﺳﺘﺨﺮاج داﻧﺶ ، ﺗﺤﻠﻴﻞ و ﻳﺎﻓﺘﻦ اﻟﮕﻮي ﺑﻴﻦ‬
‫داده ﻫﺎ اﺷﺎره ﺷﺪه اﺳﺖ .‬
‫ﺗﺎرﻳﺨﭽﻪ داده ﻛﺎوي‬
‫اﺧﻴﺮا داده ﻛﺎوي ﻣﻮﺿﻮع ﺑﺴﻴﺎري از ﻣﻘﺎﻻت ، ﻛﻨﻔﺮاﻧﺲ ﻫﺎ و رﺳﺎﻟﻪ ﻫﺎ ي ﻋﻤﻠﻲ‬
‫ﺷﺪه اﺳﺖ ، اﻣﺎ اﻳﻦ واژه ﺗﺎ اواﻳﻞ دﻫﻪ ﻧﻮد ﻣﻔﻬﻮﻣﻲ ﻧﺪاﺷﺖ وﺑﻪ ﻛﺎر ﺑﺮده ﻧﻤﻲ‬
‫ﺷﺪ .‬
‫در دﻫﻪ ﺷﺼﺖ و ﭘﻴﺶ از آن زﻣﻴﻨﻪ ﻫﺎﻳﻲ ﺑﺮاي اﻳﺠﺎد ﺳﻴﺴﺘﻢ ﻫﺎ ي ﺟﻤﻊ آوري‬
‫و ﻣﺪﻳﺮﻳﺖ داده ﻫﺎ اﻳﺠﺎد ﺷﺪ و ﺗﺤﻘﻴﻘﺎﺗﻲ در اﻳﻦ زﻣﻴﻨﻪ اﻧﺠﺎم ﭘﺬﻳﺮﻓﺖ ﻛﻪ ﻣﻨﺠﺮ‬
‫ﺑﻪ ﻣﻌﺮﻓﻲ و اﻳﺠﺎد ﺳﻴﺴﺘﻢ ﻫﺎي ﻣﺪﻳﺮﻳﺖ ﭘﺎﻳﮕﺎه داده ﻫﺎ ﮔﺮدﻳﺪ .‬
‫اﻳﺠﺎد و ﺗﻮﺳﻌﻪ ﻣﺪﻟﻬﺎي داده اي ﺑﺮاي ﭘﺎﻳﮕﺎه ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﻲ ، ﺷﺒﻜﻪ اي و‬
‫ﺑﺨﺼﻮص راﺑﻄﻪ اي در دﻫﻪ ﻫﻔﺘﺎد ، ﻣﻨﺠﺮ ﺑﻪ ﻣﻌﺮﻓﻲ ﻣﻔﺎﻫﻴﻤﻲ ﻫﻤﭽﻮن ﺷﺎﺧﺺ‬
‫ﮔﺬاري و ﺳﺎزﻣﺎﻧﺪﻫﻲ داده ﻫﺎ و در ﻧﻬﺎﻳﺖ اﻳﺠﺎد زﺑﺎن ﭘﺮﺳﺶ ‪ SQL‬در اواﻳﻞ‬
‫دﻫﻪ ﻫﺸﺘﺎد ﮔﺮدﻳﺪ ﺗﺎ ﻛﺎرﺑﺮان ﺑﺘﻮاﻧﻨﺪ ﮔﺰارﺷﺎت و ﻓﺮﻣﻬﺎي اﻃﻼﻋﺎﺗﻲ ﻣﻮرد ﻧﻈﺮ‬
‫ﺧﻮد را ، از اﻳﻦ ﻃﺮﻳﻖ اﻳﺠﺎد ﻧﻤﺎﻳﻨﺪ .‬
‫ﺗﻮﺳﻌﻪ ﺳﻴﺴﺘﻢ ﻫﺎي ﭘﺎﻳﮕﺎﻫﻲ ﭘﻴﺸﺮﻓﺘﻪ در دﻫﻪ ﻫﺸﺘﺎد و اﻳﺠﺎد ﭘﺎﻳﮕﺎه ﻫﺎي ﺷﻲ‬
‫ﮔﺮا ، ﻛﺎرﺑﺮد ﮔﺮا 4 و ﻓﻌﺎل 5 ﺑﺎﻋﺚ ﺗﻮﺳﻌﻪ ﻫﻤﻪ ﺟﺎﻧﺒﻪ و ﻛﺎرﺑﺮدي ﺷﺪن اﻳﻦ‬
‫ﺳﻴﺴﺘﻢ ﻫﺎ در ﺳﺮاﺳﺮ ﺟﻬﺎن ﮔﺮدﻳﺪ . ﺑﺪﻳﻦ ﺗﺮﺗﻴﺐ ‪ DBMS‬ﻫﺎﻳﻲ ﻫﻤﭽﻮن‬

‫4 ‪Application Oriented‬‬
‫5 ‪Active DBMS‬‬

‫2‪ ... ، Sybase ، Oracle ، DB‬اﻳﺠﺎد ﺷﺪﻧﺪ و ﺣﺠﻢ زﻳﺎدي از اﻃﻼﻋﺎت ﺑﺎ‬
‫اﺳﺘﻔﺎده از اﻳﻦ ﺳﻴﺴﺘﻢ ﻫﺎ ﻣﻮرد ﭘﺮدازش ﻗﺮار ﮔﺮﻓﺘﻨﺪ . ﺷﺎﻳﺪ ﺑﺘﻮان ﻣﻬﻤﺘﺮﻳﻦ‬
‫ﺟﻨﺒﻪ در ﻣﻌﺮﻓﻲ داده ﻛﺎوي را ﻣﺒﺤﺚ ﻛﺸﻒ داﻧﺶ از ﭘﺎﻳﮕﺎه داده ﻫﺎ )‪(6KDD‬‬
‫داﻧﺴﺖ ﺑﻄﻮري ﻛﻪ در ﺑﺴﻴﺎري ﻣﻮارد ‪ DM‬و ‪ KDD‬ﺑﺼﻮرت ﻣﺘﺮادف ﻣﻮرد‬
‫اﺳﺘﻔﺎده ﻗﺮار ﻣﻲ ﮔﻴﺮﻧﺪ .‬
‫ﻫﻤﺎﻧﻄﻮر ﻛﻪ در ﺗﻌﺮﻳﻒ داده ﻛﺎوي ذﻛﺮ ﺷﺪ ، ﻫﺪف از ﺟﺴﺘﺠﻮ و ﻛﺸﻒ‬
‫اﻟﮕﻮﻫﺎﻳﻲ در ﭘﺎﻳﮕﺎه داده ﻫﺎ و اﺳﺘﻔﺎده از آﻧﻬﺎ در اﺧﺬ ﺗﺼﻤﻴﻤﺎت ﺣﻴﺎﺗﻲ اﺳﺖ ،‬
‫ﺑﻨﺎﺑﺮاﻳﻦ ﻣﻲ ﺗﻮان ﮔﻔﺖ ﻛﻪ ‪ DM‬ﺑﺨﺸﻲ از ﻓﺮاﻳﻨﺪ ‪ KDD‬اﺳﺖ ﻛﻪ در ﻧﻬﺎﻳﺖ‬
‫ﺑﻪ اﻳﺠﺎد ﺳﻴﺴﺘﻢ ﻫﺎي 7‪ DSS‬ﺷﻜﻞ 1-1 ﻧﻘﺶ داده ﻛﺎوي در ﻓﺮاﻳﻨﺪ ﻛﺸﻒ‬
‫داﻧﺶ از ﭘﺎﻳﮕﺎه داده ﻫﺎ را ﻧﺸﺎن ﻣﻲ دﻫﺪ . ]4[‬
‫ﺑﺮاي اوﻟﻴﻦ ﺑﺎر ﻣﻔﻬﻮم داده ﻛﺎوي در ﻛﺎرﮔﺎه 8 ‪ IJCAI‬در زﻣﻴﻨﻪ ‪ KDD‬ﺗﻮﺳﻂ‬
‫‪ Shapir‬ﻣﻄﺮح ﮔﺮدﻳﺪ . ﺑﻪ دﻧﺒﺎل آن در ﺳﺎﻟﻬﺎي 1991 ﺗﺎ 4991 ، ﻛﺎرﮔﺎﻫﻬﺎي‬
‫‪ KDD‬ﻣﻔﺎﻫﻴﻢ ﺟﺪﻳﺪي را در اﻳﻦ ﺷﺎﺧﻪ از ﻋﻠﻢ اراﺋﻪ ﻛﺮدﻧﺪ ﺑﻄﻮري ﻛﻪ‬
‫ﺑﺴﻴﺎري از ﻋﻠﻮم و ﻣﻔﺎﻫﻴﻢ ﺑﺎ آن ﻣﺮﺗﺒﻂ ﮔﺮدﻳﺪﻧﺪ ﻛﻪ ﻣﻲ ﺗﻮان آﻧﻬﺎ را در ﺷﻜﻞ‬
‫2-1 ﻣﺸﺎﻫﺪه ﻧﻤﻮد .‬
‫ﺑﺮﺧﻲ از ﻛﺎرﺑﺮدﻫﺎي داده ﻛﺎوي در ﻣﺤﻴﻄﻬﺎي واﻗﻌﻲ ﻋﺒﺎرﺗﻨﺪ از :‬
‫1. ﺧﺮده ﻓﺮوﺷﻲ : از ﻛﺎرﺑﺮدﻫﺎي ﻛﻼﺳﻴﻚ داده ﻛﺎوي اﺳﺖ ﻛﻪ ﻣﻲ ﺗﻮان ﺑﻪ‬
‫ﻣﻮارد زﻳﺮ اﺷﺎره ﻛﺮد :‬
‫• ﺗﻌﻴﻴﻦ اﻟﮕﻮﻫﺎي ﺧﺮﻳﺪ ﻣﺸﺘﺮﻳﺎن‬
‫• ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ ﺳﺒﺪ ﺧﺮﻳﺪ ﺑﺎزار‬
‫• ﭘﻴﺸﮕﻮﻳﻲ ﻣﻴﺰان ﺧﺮﻳﺪ ﻣﺸﺘﺮﻳﺎن از ﻃﺮﻳﻖ ﭘﺴﺖ)ﻓﺮوش‬
‫اﻟﻜﺘﺮوﻧﻴﻜﻲ(‬
‫2. ﺑﺎﻧﻜﺪاري :‬
‫• ﭘﻴﺶ ﺑﻴﻨﻲ اﻟﮕﻮﻫﺎي ﻛﻼﻫﺒﺮداري از ﻃﺮﻳﻖ ﻛﺎرﺗﻬﺎي اﻋﺘﺒﺎري‬

‫6 ‪Knowledge Discovery From Database‬‬
‫7 ‪Decision Support System‬‬
‫8 ‪Workshop‬‬

‫• ﺗﺸﺨﻴﺺ ﻣﺸﺘﺮﻳﺎن ﺛﺎﺑﺖ‬
‫• ﺗﻌﻴﻴﻦ ﻣﻴﺰان اﺳﺘﻔﺎده از ﻛﺎرﺗﻬﺎي اﻋﺘﺒﺎري ﺑﺮ اﺳﺎس ﮔﺮوﻫﻬﺎي‬
‫اﺟﺘﻤﺎﻋﻲ‬
‫3. ﺑﻴﻤﻪ :‬
‫• ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ دﻋﺎوي‬
‫• ﭘﻴﺸﮕﻮﻳﻲ ﻣﻴﺰان ﺧﺮﻳﺪ ﺑﻴﻤﻪ ﻧﺎﻣﻪ ﻫﺎي ﺟﺪﻳﺪ ﺗﻮﺳﻂ ﻣﺸﺘﺮﻳﺎن‬
‫4. ﭘﺰﺷﻜﻲ :‬
‫• ﺗﻌﻴﻴﻦ ﻧﻮع رﻓﺘﺎر ﺑﺎ ﺑﻴﻤﺎران و ﭘﻴﺸﮕﻮﻳﻲ ﻣﻴﺰان ﻣﻮﻓﻘﻴﺖ اﻋﻤﺎل‬
‫ﺟﺮاﺣﻲ‬
‫• ﺗﻌﻴﻴﻦ ﻣﻴﺰان ﻣﻮﻓﻘﻴﺖ روﺷﻬﺎي درﻣﺎﻧﻲ در ﺑﺮﺧﻮرد ﺑﺎ ﺑﻴﻤﺎرﻳﻬﺎي‬
‫ﺳﺨﺖ‬
‫ﻣﺮاﺣﻞ ﻓﺮاﻳﻨﺪ ﻛﺸﻒ داﻧﺶ از ﭘﺎﻳﮕﺎه داده ﻫﺎ‬
‫ﻓﺮاﻳﻨﺪ ﻛﺸﻒ داﻧﺶ از ﭘﺎﻳﮕﺎه داده ﻫﺎ ﺷﺎﻣﻞ ﭘﻨﺞ ﻣﺮﺣﻠﻪ اﺳﺖ ﻛﻪ ﻋﺒﺎرﺗﻨﺪ از :‬
‫9‬
‫1. اﻧﺒﺎرش داده ﻫﺎ‬
‫2. اﻧﺘﺨﺎب داده ﻫﺎ‬
‫3. ﺗﺒﺪﻳﻞ داده ﻫﺎ‬
‫4. ﻛﺎوش در داده ﻫﺎ‬
‫5. ﺗﻔﺴﻴﺮ ﻧﺘﻴﺠﻪ‬
‫ﻫﻤﺎﻧﮕﻮﻧﻪ ﻛﻪ ﻣﺸﺎﻫﺪه ﻣﻲ ﺷﻮد داده ﻛﺎوي ﻳﻜﻲ از ﻣﺮاﺣﻞ اﻳﻦ ﻓﺮاﻳﻨﺪ اﺳﺖ ﻛﻪ‬
‫ﺑﻪ ﻋﻨﻮان ﺑﺨﺶ ﭼﻬﺎرم آن ﻧﻘﺶ ﻣﻬﻤﻲ در ﻛﺸﻒ داﻧﺶ از داده ﻫﺎ اﻳﻔﺎ ﻣﻲ ﻛﻨﺪ‬
‫.‬
‫• اﻧﺒﺎرش داده ﻫﺎ‬
‫وﺟﻮد اﻃﻼﻋﺎت ﺻﺤﻴﺢ و ﻣﻨﺴﺠﻢ ﻳﻜﻲ از ﻣﻠﺰوﻣﺎﺗﻲ اﺳﺖ ﻛﻪ در داده ﻛﺎوي ﺑﻪ‬
‫آن ﻧﻴﺎزﻣﻨﺪﻳﻢ . اﺷﺘﺒﺎه و ﻋﺪم وﺟﻮد اﻃﻼﻋﺎت ﺻﺤﻴﺢ ﺑﺎﻋﺚ ﻧﺘﻴﺠﻪ ﮔﻴﺮي ﻏﻠﻂ و‬

‫9 ‪Data Warehousing‬‬

‫در ﻧﺘﻴﺠﻪ اﺧﺬ ﺗﺼﻤﻴﻤﺎت ﻧﺎﺻﺤﻴﺢ در ﺳﺎزﻣﺎﻧﻬﺎ ﻣﻲ ﮔﺮدد و ﻣﻨﺘﺞ ﺑﻪ ﻧﺘﺎﻳﺞ‬
‫ﺧﻄﺮﻧﺎﻛﻲ ﺧﻮاﻫﺪ ﮔﺮدﻳﺪ ﻛﻪ ﻧﻤﻮﻧﻪ ﻫﺎي آن ﻛﻢ ﻧﻴﺴﺘﻨﺪ .‬
‫اﻛﺜﺮ ﺳﺎزﻣﺎﻧﻬﺎ دﭼﺎر ﻳﻚ ﺧﻼ اﻃﻼﻋﺎﺗﻲ01 ﻫﺴﺘﻨﺪ . در اﻳﻨﮕﻮﻧﻪ ﺳﺎزﻣﺎﻧﻬﺎ ﻣﻌﻤﻮﻻ‬
‫ﺳﻴﺴﺘﻢ ﻫﺎي اﻃﻼﻋﺎﺗﻲ در ﻃﻮل زﻣﺎن و ﺑﺎ ﻣﻌﻤﺎري و ﻣﺪﻳﺮﻳﺖ ﻫﺎي ﮔﻮﻧﺎﮔﻮن‬
‫ﺳﺎﺧﺘﻪ ﺷﺪه اﻧﺪ ، ﺑﻪ ﻃﻮري ﻛﻪ ﺳﺎزﻣﺎن اﻃﻼﻋﺎﺗﻲ ﻳﻜﭙﺎرﭼﻪ و ﻣﺸﺨﺼﻲ ﻣﺸﺎﻫﺪه‬
‫ﻧﻤﻲ ﮔﺮدد . ﻋﻼوه ﺑﺮ اﻳﻦ ﺑﺮاي ﻓﺮاﻳﻨﺪ داده ﻛﺎوي ﺑﻪ اﻃﻼﻋﺎت ﺧﻼﺻﻪ و ﻣﻬﻢ در‬
‫زﻣﻴﻨﻪ ﺗﺼﻤﻴﻢ ﮔﻴﺮﻳﻬﺎي ﺣﻴﺎﺗﻲ ﻧﻴﺎزﻣﻨﺪﻳﻢ .‬
‫ﻫﺪف از ﻓﺮاﻳﻨﺪ اﻧﺒﺎرش داده ﻫﺎ ﻓﺮاﻫﻢ ﻛﺮدن ﻳﻚ ﻣﺤﻴﻂ ﻳﻜﭙﺎرﭼﻪ ﺟﻬﺖ‬
‫ﭘﺮدازش اﻃﻼﻋﺎت اﺳﺖ . در اﻳﻦ ﻓﺮاﻳﻨﺪ ، اﻃﻼﻋﺎت ﺗﺤﻠﻴﻠﻲ و ﻣﻮﺟﺰ در دوره‬
‫ﻫﺎي ﻣﻨﺎﺳﺐ زﻣﺎﻧﻲ ﺳﺎزﻣﺎﻧﺪﻫﻲ و ذﺧﻴﺮه ﻣﻲ ﺷﻮد ﺗﺎ ﺑﺘﻮان از آﻧﻬﺎ در ﻓﺮاﻳﻨﺪ‬
‫ﻫﺎي ﺗﺼﻤﻴﻢ ﮔﻴﺮي ﻛﻪ از ﻣﻠﺰوﻣﺎت آن داده ﻛﺎوي اﺳﺖ ، اﺳﺘﻔﺎده ﺷﻮد . ﺑﻪ ﻃﻮر‬
‫ﻛﻠﻲ ﺗﻌﺮﻳﻒ زﻳﺮ ﺑﺮاي اﻧﺒﺎر داده ﻫﺎ اراﺋﻪ ﻣﻲ ﮔﺮدد :‬
‫اﻧﺒﺎر داده ﻫﺎ ، ﻣﺠﻤﻮﻋﻪ اي اﺳﺖ ﻣﻮﺿﻮﻋﻲ 11 ، ﻣﺠﺘﻤﻊ 21 ، ﻣﺘﻐﻴﺮ در زﻣﺎن31 و‬
‫ﭘﺎﻳﺪار 41 از داده ﻫﺎ ﻛﻪ ﺑﻪ ﻣﻨﻈﻮر ﭘﺸﺘﻴﺒﺎﻧﻲ از ﻓﺮاﻳﻨﺪ ﻣﺪﻳﺮﻳﺖ ﺗﺼﻤﻴﻢ ﮔﻴﺮي‬
‫ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﻣﻲ ﮔﻴﺮد .]1[‬
‫اﻧﺒﺎرش داده ﻫﺎ ﺧﻮد ﻣﻮﺿﻮع ﻣﻔﺼﻠﻲ اﺳﺖ ﻛﻪ ﻣﻘﺎﻟﻪ ﻫﺎ و رﺳﺎﻟﻪ ﻫﺎ ي ﮔﻮﻧﺎﮔﻮﻧﻲ‬
‫در ﻣﻮرد آن ﻧﮕﺎﺷﺘﻪ ﺷﺪه اﻧﺪ . در اﻳﻦ ﻓﺼﻞ ﺑﻪ ﻣﻨﻈﻮر آﺷﻨﺎﻳﻲ ﺑﺎ اﻳﻦ ﻓﺮاﻳﻨﺪ ﺑﻪ‬
‫آن اﺷﺎره اي ﺷﺪ .‬
‫• اﻧﺘﺨﺎب داده ﻫﺎ‬
‫اﻧﺒﺎر داده ﻫﺎ ﺷﺎﻣﻞ اﻧﻮاع ﻣﺨﺘﻠﻒ و ﮔﻮﻧﺎﮔﻮﻧﻲ از داده ﻫﺎ اﺳﺖ ﻛﻪ ﻫﻤﻪ آﻧﻬﺎ در‬
‫داده ﻛﺎوي ﻣﻮرد ﻧﻴﺎز ﻧﻴﺴﺘﻨﺪ . ﺑﺮاي ﻓﺮاﻳﻨﺪ داده ﻛﺎوي ﺑﺎﻳﺪ داده ﻫﺎ ي ﻣﻮرد‬
‫ﻧﻴﺎز اﻧﺘﺨﺎب ﺷﻮﻧﺪ . ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل در ﻳﻚ ﭘﺎﻳﮕﺎه داده ﻫﺎي ﻣﺮﺑﻮط ﺑﻪ ﺳﻴﺴﺘﻢ‬
‫ﻓﺮوﺷﮕﺎﻫﻲ ، اﻃﻼﻋﺎﺗﻲ در ﻣﻮرد ﺧﺮﻳﺪ ﻣﺸﺘﺮﻳﺎن ، ﺧﺼﻮﺻﻴﺎت آﻣﺎري آﻧﻬﺎ ،‬

‫01 ‪Information Gap‬‬
‫11 ‪Subject Oriented‬‬
‫21 ‪Integrated‬‬
‫31 ‪Time Variant‬‬
‫41 ‪NonVolatile‬‬

‫ﺗﺎﻣﻴﻦ ﻛﻨﻨﺪﮔﺎن ، ﺧﺮﻳﺪ ، ﺣﺴﺎﺑﺪاري و ... وﺟﻮد دارﻧﺪ . ﺑﺮاي ﺗﻌﻴﻴﻦ ﻧﺤﻮه‬
‫ﭼﻴﺪن ﻗﻔﺴﻪ ﻫﺎ ﺗﻨﻬﺎ ﺑﻪ داده ﻫﺎ ﻳﻲ در ﻣﻮرد ﺧﺮﻳﺪ ﻣﺸﺘﺮﻳﺎن و ﺧﺼﻮﺻﻴﺎت‬
‫آﻣﺎري آﻧﻬﺎ ﻧﻴﺎز اﺳﺖ . ﺣﺘﻲ در ﻣﻮاردي ﻧﻴﺎز ﺑﻪ ﻛﺎوش در ﺗﻤﺎم ﻣﺤﺘﻮﻳﺎت ﭘﺎﻳﮕﺎه‬
‫ﻧﻴﺴﺖ ﺑﻠﻜﻪ ﻣﻤﻜﻦ اﺳﺖ ﺑﻪ ﻣﻨﻈﻮر ﻛﺎﻫﺶ ﻫﺰﻳﻨﻪ ﻋﻤﻠﻴﺎت ، ﻧﻤﻮﻧﻪ ﻫﺎﻳﻲ از‬
‫ﻋﻨﺎﺻﺮ اﻧﺘﺨﺎب و ﻛﺎوش ﺷﻮﻧﺪ .‬
‫• ﺗﺒﺪﻳﻞ داده ﻫﺎ‬
‫ﻫﻨﮕﺎﻣﻲ ﻛﻪ داده ﻫﺎي ﻣﻮرد ﻧﻴﺎز اﻧﺘﺨﺎب ﺷﺪﻧﺪ و داده ﻫﺎ ي ﻣﻮرد ﻛﺎوش‬
‫ﻣﺸﺨﺺ ﮔﺮدﻳﺪﻧﺪ ، ﻣﻌﻤﻼ ﺑﻪ ﺗﺒﺪﻳﻼت ﺧﺎﺻﻲ روي داده ﻫﺎ ﻧﻴﺎز اﺳﺖ . ﻧﻮع‬
‫ﺗﺒﺪﻳﻞ ﺑﻪ ﻋﻤﻠﻴﺎت و ﺗﻜﻨﻴﻚ داده ﻛﺎوي ﻣﻮرد اﺳﺘﻔﺎده ﺑﺴﺘﮕﻲ دارد : ﺗﺒﺪﻳﻼﺗﻲ‬
‫ﺳﺎده ﻫﻤﭽﻮن ﺗﺒﺪﻳﻞ ﻧﻮع داده اي ﺑﻪ ﻧﻮع دﻳﮕﺮ ﺗﺎ ﺗﺒﺪﻳﻼت ﭘﻴﭽﻴﺪه ﺗﺮ ﻫﻤﭽﻮن‬
‫ﺗﻌﺮﻳﻒ ﺻﻔﺎت ﺟﺪﻳﺪ ﺑﺎ اﻧﺠﺎم ﻋﻤﻠﻴﺎﺗﻬﺎي رﻳﺎﺿﻲ و ﻣﻨﻄﻘﻲ روي ﺻﻔﺎت ﻣﻮﺟﻮد .‬
‫• ﻛﺎوش در داده ﻫﺎ‬
‫داده ﻫﺎي ﺗﺒﺪﻳﻞ ﺷﺪه ﺑﺎ اﺳﺘﻔﺎده از ﺗﻜﻨﻴﻜﻬﺎ و ﻋﻤﻠﻴﺎﺗﻬﺎي داده ﻛﺎوي ﻣﻮرد‬
‫ﻛﺎوش ﻗﺮار ﻣﻲ ﮔﻴﺮﻧﺪ ﺗﺎ اﻟﮕﻮﻫﺎي ﻣﻮرد ﻧﻈﺮ ﻛﺸﻒ ﺷﻮﻧﺪ .‬
‫• ﺗﻔﺴﻴﺮ ﻧﺘﻴﺠﻪ‬
‫اﻃﻼﻋﺎت اﺳﺘﺨﺮاج ﺷﺪه ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻫﺪف ﻛﺎرﺑﺮ ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ و ﺑﻬﺘﺮﻳﻦ ﻧﺘﺎﻳﺞ‬
‫ﻣﻌﻴﻦ ﻣﻲ ﮔﺮدﻧﺪ . ﻫﺪف از اﻳﻦ ﻣﺮﺣﻠﻪ ﺗﻨﻬﺎ اراﺋﻪ ﻧﺘﻴﺠﻪ )ﺑﺼﻮرت ﻣﻨﻄﻘﻲ و ﻳﺎ‬
‫ﻧﻤﻮداري( ﻧﻴﺴﺖ ، ﺑﻠﻜﻪ ﭘﺎﻻﻳﺶ اﻃﻼﻋﺎت اراﻳﻪ ﺷﺪه ﺑﻪ ﻛﺎرﺑﺮ ﻧﻴﺰ از اﻫﺪاف ﻣﻬﻢ‬
‫اﻳﻦ ﻣﺮﺣﻠﻪ اﺳﺖ .‬
‫ﻋﻤﻠﻴﺎﺗﻬﺎي داده ﻛﺎوي‬
‫در داده ﻛﺎوي ، ﭼﻬﺎر ﻋﻤﻞ اﺻﻠﻲ اﻧﺠﺎم ﻣﻲ ﺷﻮد ﻛﻪ ﻋﺒﺎرﺗﻨﺪ از ]1[‬
‫1. ﻣﺪﻟﺴﺎزي ﭘﻴﺸﮕﻮﻳﻲ ﻛﻨﻨﺪه‬
‫2. ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ‬
‫3. ﺗﺤﻠﻴﻞ ﭘﻴﻮﻧﺪ‬
‫4. ﺗﺸﺨﻴﺺ اﻧﺤﺮاف‬

‫از ﻋﻤﻠﻴﺎﺗﻬﺎي اﺻﻠﻲ ﻣﺬﻛﻮر ، ﻳﻚ ﻳﺎ ﺑﻴﺶ از ﻳﻜﻲ از آﻧﻬﺎ در ﭘﻴﺎده ﺳﺎزي ﻛﺎرﺑﺮد‬
‫ﻫﺎي ﮔﻮﻧﺎﮔﻮن داده ﻛﺎوي اﺳﺘﻔﺎده ﻣﻲ ﺷﻮﻧﺪ . ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل ﺑﺮاي ﻛﺎرﺑﺮد ﻫﺎي‬
‫ﺧﺮده ﻓﺮوﺷﻲ ﻣﻌﻤﻮﻻ از ﻋﻤﻠﻴﺎت ﺗﻘﻄﻴﻊ و ﺗﺤﻠﻴﻞ ﭘﻴﻮﻧﺪ اﺳﺘﻔﺎده ﻣﻲ ﺷﻮد در‬
‫ﺣﺎﻟﻲ ﻛﻪ ﺑﺮاي ﺗﺸﺨﻴﺺ ﻛﻼﻫﺒﺮداري ، ﻣﻲ ﺗﻮان از ﻫﺮ ﻳﻚ از ﭼﻬﺎر ﻋﻤﻠﻴﺎت‬
‫ﻣﺬﻛﻮر اﺳﺘﻔﺎده ﻧﻤﻮد . ﻋﻼوه ﺑﺮا ﻳﻦ ﻣﻲ ﺗﻮان از دﻧﺒﺎﻟﻪ اي از ﻋﻤﻠﻴﺎﺗﻬﺎ ﺑﺮاي ﻳﻚ‬
‫ﻣﻨﻈﻮر ﺧﺎص اﺳﺘﻔﺎده ﻛﺮد . ﻣﺜﻼ ﺑﺮاي ﺷﻨﺎﺳﺎﻳﻲ ﻣﺸﺘﺮﻳﺎن ، اﺑﺘﺪا ﭘﺎﻳﮕﺎه ﺗﻘﻄﻴﻊ‬
‫ﻣﻲ ﺷﻮد و ﺳﭙﺲ ﻣﺪﻟﺴﺎزي ﭘﻴﺸﮕﻮﻳﻲ ﻛﻨﻨﺪه در ﻗﻄﻌﺎت اﻳﺠﺎد ﺷﺪه اﻋﻤﺎل ﻣﻲ‬
‫ﮔﺮدد .‬
‫ﺗﻜﻨﻴﻜﻬﺎ ، روﺷﻬﺎ و اﻟﮕﻮرﻳﺘﻤﻬﺎي داده ﻛﺎوي ، راﻫﻬﺎي ﭘﻴﺎده ﺳﺎزي ﻋﻤﻠﻴﺎﺗﻬﺎي‬
‫داده ﻛﺎوي ﻫﺴﺘﻨﺪ . اﮔﺮ ﭼﻪ ﻫﺮ ﻋﻤﻠﻴﺎت ﻧﻘﺎط ﺿﻌﻒ و ﻗﻮت ﺧﻮد را دارد ،‬
‫اﺑﺰارﻫﺎي ﮔﻮﻧﺎﮔﻮن داده ﻛﺎوي ﻋﻤﻠﻴﺎﺗﻬﺎ را ﺑﺮ اﺳﺎس ﻣﻌﻴﺎرﻫﺎي ﺧﺎﺻﻲ ، اﻧﺘﺨﺎب‬
‫ﻣﻲ ﻛﻨﻨﺪ . اﻳﻦ ﻣﻌﻴﺎرﻫﺎ ﻋﺒﺎرﺗﻨﺪ از :‬
‫• ﺗﻨﺎﺳﺐ ﺑﺎ ﻧﻮع داده ﻫﺎي ورودي‬
‫• ﺷﻔﺎﻓﻴﺖ ﺧﺮوﺟﻲ داده ﻛﺎوي‬
‫• ﻣﻘﺎوﻣﺖ در ﻣﻘﺎﺑﻞ اﺷﺘﺒﺎه در ﻣﻘﺎدﻳﺮ داده ﻫﺎ‬
‫• ﻣﻴﺰان ﺻﺤﺖ ﺧﺮوﺟﻲ‬
‫• ﺗﻮاﻧﺎﻳﻲ ﻛﺎر ﻛﺮدن ﺑﺎ ﺣﺠﻢ ﺑﺎﻻي داده ﻫﺎ‬
‫در ﺟﺪول زﻳﺮﺗﻜﻨﻴﻜﻬﺎي واﺑﺴﺘﻪ ﺑﻪ ﻫﺮ ﻳﻚ از ﻋﻤﻠﻴﺎﺗﻬﺎي ﭼﻬﺎر ﮔﺎﻧﻪ ﻣﺸﺨﺺ‬
‫ﺷﺪه اﻧﺪ‬

‫ﺗﻜﻨﻴﻚ ﻫﺎي داده ﻛﺎوي‬ ‫ﻧﺎم ﻋﻤﻠﻴﺎت‬
‫رده ﺑﻨﺪي ، ﭘﻴﺸﮕﻮﻳﻲ ﻣﻘﺪار‬ ‫ﻣﺪﻟﺴﺎزي ﭘﻴﺸﮕﻮﻳﻲ ﻛﻨﻨﺪه‬
‫ﺧﻮﺷﻪ ﺑﻨﺪي آﻣﺎري ، ﺧﻮﺷﻪ ﺑﻨﺪي‬ ‫ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ‬
‫ﻛﺸﻒ ﺑﺴﺘﮕﻲ ، ﻛﺸﻒ اﻟﮕﻮﻫﺎي ﻣﺘﻮاﻟﻲ‬ ‫ﺗﺤﻠﻴﻞ ﭘﻴﻮﻧﺪ‬
‫، ﻛﺸﻒ دﻧﺒﺎﻟﻪ ﻫﺎي زﻣﺎﻧﻲ ﻣﺸﺎﺑﻪ‬
‫آﻣﺎر ، ﺗﺠﺴﻢ ﻣﺪل‬ ‫ﺗﺸﺨﻴﺺ اﻧﺤﺮاف‬
‫ﻋﻤﻠﻴﺎﺗﻬﺎ و ﺗﻜﻨﻴﻜﻬﺎي داده ﻛﺎوي‬
‫ﻣﺪﻟﺴﺎزي ﭘﻴﺸﮕﻮﻳﻲ ﻛﻨﻨﺪه‬
‫ﻣﺪﻟﺴﺎزي ﭘﻴﺸﮕﻮﻳﻲ ﻛﻨﻨﺪه ، ﺷﺒﻴﻪ ﺗﺠﺮﺑﻪ ﻳﺎدﮔﻴﺮي اﻧﺴﺎن در ﺑﻪ ﻛﺎر ﺑﺮدن‬
‫ﻣﺸﺎﻫﺪات ﺑﺮاي اﻳﺠﺎد ﻳﻚ ﻣﺪل از ﺧﺼﻮﺻﻴﺎت ﻣﻬﻢ ﭘﺪﻳﺪه ﻫﺎ اﺳﺖ . در اﻳﻦ‬
‫روش از ﺗﻌﻤﻴﻢ دﻧﻴﺎي واﻗﻌﻲ و ﺗﻌﻤﻴﻢ دﻧﻴﺎي واﻗﻌﻲ و ﻗﺎﺑﻠﻴﺖ ﺗﻄﺒﻴﻖ داده ﻫﺎي‬
‫ﺟﺪﻳﺪ ﺑﺎ ﻳﻚ ﻗﺎﻟﺐ ﻛﻠﻲ ، اﺳﺘﻔﺎده ﻣﻲ ﺷﻮد .‬
‫در اﻳﻦ ﻣﺪل ، ﻣﻲ ﺗﻮان ﺑﺎ ﺗﺤﻠﻴﻞ ﻳﻚ ﭘﺎﻳﮕﺎه داده ﻫﺎي ﻣﻮﺟﻮد ، ﺧﺼﻮﺻﻴﺎت‬
‫ﻣﺠﻤﻮﻋﻪ ﻫﺎي داده را ﺗﻌﻴﻴﻦ ﻛﺮد . اﻳﻦ ﻣﺪل ﺑﺎ اﺳﺘﻔﺎده از روش ﻳﺎدﮔﻴﺮي‬
‫ﻧﻈﺎرت ﺷﺪه، ﺷﺎﻣﻞ دو ﻓﺎز آﻣﻮزش و آزﻣﺎﻳﺶ اﻳﺠﺎد ﺷﺪه اﺳﺖ . در ﻓﺎز آﻣﻮزش‬
‫ﺑﺎ اﺳﺘﻔﺎده از ﻧﻤﻮﻧﻪ ﻫﺎي ﻋﻈﻴﻤﻲ از داده ﻫﺎي ﺳﺎﺑﻘﻪ اي ، ﻣﺪﻟﻲ ﺳﺎﺧﺘﻪ ﻣﻲ‬
‫ﺷﻮد ﻛﻪ ﻛﻪ ﺑﻪ آن ﻣﺠﻤﻮﻋﻪ آﻣﻮزﺷﻲ ﮔﻮ ﻳﻨﺪ . در ﻓﺎز آزﻣﺎﻳﺶ اﻳﻦ ﻣﺪل روي‬
‫داده ﻫﺎﻳﻲ ﻛﻪ در ﻣﺠﻤﻮﻋﻪ آﻣﻮزﺷﻲ ﻗﺮار ﻧﺪارﻧﺪ ، اﻋﻤﺎل ﻣﻲ ﺷﻮد ﺗﺎ ﺻﺤﺖ و‬
‫ﺧﺼﻮ ﺻﻴﺎت آن ﺗﺎﻳﻴﺪ ﮔﺮدد .‬
‫از ﻛﺎرﺑﺮدﻫﺎي ﻋﻤﺪه اﻳﻦ ﻣﺪل ﻣﻲ ﺗﻮان ﺑﻪ ﻣﺪﻳﺮﻳﺖ ﻣﺸﺘﺮﻳﺎن ، ﺗﺼﻮﻳﺐ اﻋﺘﺒﺎر ،‬
‫ﺑﺎزارﻳﺎﺑﻲ ﻣﺴﺘﻘﻴﻢ در ﺧﺮده ﻓﺮوﺷﻲ و ... اﺷﺎره ﻛﺮد .‬
‫ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ‬
‫ﻫﺪف از ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ ، ﺗﻘﺴﻴﻢ آن ﺑﻪ ﺗﻌﺪاد ﻧﺎﻣﻌﻴﻨﻲ از ﻗﻄﻌﺎت ﻳﺎ‬
‫ﺧﻮﺷﻪ ﻫﺎﻳﻲ 51 از رﻛﻮردﻫﺎي ﻣﺸﺎﺑﻪ اﺳﺖ ، ﻳﻌﻨﻲ رﻛﻮردﻫﺎﻳﻲ ﻛﻪ ﺧﺼﻮﺻﻴﺎﺗﻲ‬

‫51 ‪Clusters‬‬

‫ﻣﺸﺎﺑﻪ دارﻧﺪ و ﻣﻲ ﺗﻮان آﻧﻬﺎ را ﻫﻤﮕﻦ ﻓﺮض ﻛﺮد . ﭘﻴﻮﺳﺘﮕﻲ داﺧﻠﻲ اﻳﻦ‬
‫ﻗﻄﻌﺎت ﺑﺴﻴﺎر زﻳﺎد اﺳﺖ در ﺣﺎﻟﻲ ﻛﻪ ﻫﻤﺒﺴﺘﮕﻲ ﺧﺎرﺟﻲ ﻣﻴﺎن آﻧﻬﺎ ﻛﻢ ﻣﻲ‬
‫ﺑﺎﺷﺪ .‬
‫در اﻳﻦ ﻣﺪل ﺑﺮ ﺧﻼف ﻣﺪل ﻗﺒﻞ ، از ﻳﺎدﮔﻴﺮي ﻧﻈﺎرت ﻧﺸﺪه ﺑﺮاي ﺗﻌﻴﻴﻦ‬
‫زﻳﺮﺷﺎﺧﻪ ﻫﺎي ﻣﻤﻜﻦ از ﺟﻤﻌﻴﺖ داده اي اﺳﺘﻔﺎده ﻣﻲ ﺷﻮد . دﻗﺖ ﺗﻘﻄﻴﻊ‬
‫ﭘﺎﻳﮕﺎه داده ﻫﺎ از روﺷﻬﺎي دﻳﮕﺮ ﻛﻤﺘﺮ اﺳﺖ ، ﺑﻨﺎﺑﺮاﻳﻦ در ﻣﻘﺎﺑﻞ ﺧﺼﻮﺻﻴﺎت‬
‫ﻧﺎﻣﺮﺑﻮط و اﻓﺰوﻧﮕﻲ ، ﺣﺴﺎﺳﻴﺖ ﻛﻤﺘﺮي از ﺧﻮد ﻧﺸﺎن ﻣﻲ دﻫﺪ .‬
‫از ﻛﺎرﺑﺮدﻫﺎي اﻳﻦ روش ﻣﻲ ﺗﻮان ﺑﻪ ﺷﻨﺎﺳﺎﻳﻲ ﻣﺸﺘﺮﻳﺎن ، ﺑﺎزارﻳﺎﺑﻲ ﻣﺴﺘﻘﻴﻢ و ...‬
‫اﺷﺎره ﻛﺮد . در ﺷﻜﻞ 4-1 ﻣﺜﺎﻟﻲ از ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ دﻳﺪه ﻣﻲ ﺷﻮد . ]1[‬
‫در اﻳﻦ ﻣﺜﺎل ، ﭘﺎﻳﮕﺎه داده ﻫﺎ ﺷﺎﻣﻞ 002 ﻣﺸﺎﻫﺪه اﺳﺖ ﻛﻪ در آن 001‬
‫اﺳﻜﻨﺎس ﺗﻘﻠﺒﻲ و 001 اﺳﻜﻨﺎس واﻗﻌﻲ ﻫﺴﺘﻨﺪ . داده ﻫﺎ داراي ﺷﺶ ﺑﻌﺪ ﻣﻲ‬
‫ﺑﺎﺷﻨﺪ ﻛﻪ ﻫﺮ ﺑﻌﺪ ﻣﺮﺑﻮط ﺑﻪ ﻳﻚ ﻣﻌﻴﺎر از اﻧﺪازه اﺳﻜﻨﺎس ﻫﺎ اﺳﺖ . ﺑﺎ اﺳﺘﻔﺎده از‬
‫ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ ﻣﻲ ﺗﻮان ﺧﻮﺷﻪ ﻫﺎي ﻣﺘﻨﺎﻇﺮ ﺑﺎ اﺳﻜﻨﺎﺳﻬﺎي ﻣﻌﺘﺒﺮ و‬
‫ﺗﻘﻠﺒﻲ را ﺗﺸﺨﻴﺺ داد . دو ﺧﻮﺷﻪ از اﺳﻜﻨﺎﺳﻬﺎي ﺗﻘﻠﺒﻲ وﺟﻮد دارﻧﺪ و اﻳﻦ ﺑﺪان‬
‫ﻣﻌﻨﻲ اﺳﺖ ﻛﻪ ﺣﺪاﻗﻞ دو ﮔﺮوه ﻣﺒﺎدرت ﺑﻪ ﺗﻮﻟﻴﺪ و ﭼﺎپ اﺳﻜﻨﺎﺳﻬﺎي ﺗﻘﻠﺒﻲ‬
‫ﻣﻲ ﻛﻨﻨﺪ .‬
‫ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ ﺑﺎ آﻣﺎرﮔﻴﺮي ﻣﺮﺗﺒﻂ اﺳﺖ ﻛﻪ در ان از ﻓﺎﺻﻠﻪ ﻣﻴﺎن‬
‫رﻛﻮردﻫﺎ و درﺻﺪ ﻗﺮار ﮔﺮﻓﺘﻦ داده ﻫﺎي ورودي در ﺧﻮﺷﻪ ﻫﺎ ، ﺟﻬﺖ ﺗﺠﺰﻳﻪ و‬
‫ﺗﺤﻠﻴﻞ اﺳﺘﻔﺎده ﻣﻲ ﺷﻮد .‬
‫ﺗﺤﻠﻴﻞ ﭘﻴﻮﻧﺪ‬
‫در اﻳﻦ روش ﭘﻴﻮﻧﺪ ﻫﺎﻳﻲ ﻣﺮﺳﻮم ﺑﻪ ﺑﺴﺘﮕﻲ 61 ﻣﻴﺎن رﻛﻮردﻫﺎ و ﻳﺎ ﻣﺠﻤﻮﻋﻪ اي‬
‫از رﻛﻮردﻫﺎ ﺑﺎزﺷﻨﺎﺳﻲ ﻣﻲ ﺷﻮﻧﺪ . ﺳﻪ رده وﻳﮋه از ﺗﺤﻠﻴﻞ ﭘﻴﻮﻧﺪ وﺟﻮد دارﻧﺪ ﻛﻪ‬
‫ﻋﺒﺎرﺗﻨﺪ از :‬
‫71‬
‫1. ﻛﺸﻒ ﺑﺴﺘﮕﻲ‬

‫61 ‪Association‬‬
‫71 ‪Association Discovery‬‬

18
‫2. ﻛﺸﻒ اﻟﮕﻮﻫﺎي ﻣﺘﻮاﻟﻲ‬
19
‫3. ﻛﺸﻒ دﻧﺒﺎﻟﻪ ﻫﺎي زﻣﺎﻧﻲ ﻣﺸﺎﺑﻪ‬

Sequential Pattern Discovery 18
Similar time Sequences 19

‫ﺑﺮاي ﻗﻮاﻧﻴﻦ واﺑﺴﺘﮕﻲ دو ﭘﺎراﻣﺘﺮ ﻣﻌﺮﻓﻲ ﻣﻲ ﮔﺮدﻧﺪ :‬
‫1. درﺟﻪ ﭘﺸﺘﻴﺒﺎﻧﻲ 02 : ﻛﺴﺮي از ﺟﻤﻌﻴﺖ اﺳﺖ ﻛﻪ در ﻳﻚ ﻗﺎﻋﺪه ، ﻫﻢ‬
‫ﻣﻘﺪم و ﻫﻢ ﺗﺎﻟﻲ را دارﻧﺪ . در واﻗﻊ درﺻﺪي از ﺗﺮاﻛﻨﺸﻬﺎ ﻛﻪ ﺷﺎﻣﻞ ﻫﻤﻪ‬
‫اﻗﻼم ﻇﺎﻫﺮ ﺷﺪه در ﻣﻘﺪم و ﺗﺎﻟﻲ ﺑﺎﺷﻨﺪ . ﻓﺮض ﻛﻨﻴﻢ ﻛﻪ ﺗﻨﻬﺎ در‬
‫1000/ . % از ﺗﺮاﻛﻨﺸﻬﺎي ﺧﺮﻳﺪ ، ﺷﻴﺮ و ﭘﻴﭻ ﮔﻮﺷﺘﻲ ﺑﺎ ﻫﻢ ﺑﺎﺷﻨﺪ ،‬
‫ﺑﻨﺎﺑﺮاﻳﻦ درﺟﻪ ﭘﺸﺘﻴﺒﺎﻧﻲ ﺑﺮاي ﻗﺎﻧﻮن quot; ﭘﻴﭻ ﮔﻮﺷﺘﻲ → ﺷﻴﺮ quot; ﺑﺴﻴﺎر‬
‫ﭘﺎﻳﻴﻦ اﺳﺖ . اﻳﻦ ﻣﺴﺎﻟﻪ ﻧﺸﺎن ﻣﻲ دﻫﺪ ﻛﻪ ﻣﺪرﻛﻲ ﺑﺮاي اﺛﺒﺎت راﺑﻄﻪ‬
‫ﻣﻴﺎن quot; ﺷﻴﺮ quot; و quot; ﭘﻴﭻ ﮔﻮﺷﺘﻲ quot; وﺟﻮد ﻧﺪارد .‬
‫2. درﺟﻪ اﻃﻤﻴﻨﺎن 12 : در ﻳﻚ ﺟﻤﻌﻴﺖ ﻣﻮرد ﺑﺮرﺳﻲ ، ﻛﺴﺮي از ﻣﻮارد‬
‫اﺳﺖ ﻛﻪ وﻗﺘﻲ ﻣﻘﺪم ﻗﺎﻋﺪه در آﻧﻬﺎ ﻇﺎﻫﺮ ﺷﺪه اﺳﺖ ، ﺗﺎﻟﻲ ﻧﻴﺰ در آﻧﻬﺎ‬
‫وﺟﻮد دارد . ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل در ﻗﺎﻧﻮن quot; ﭘﻨﻴﺮ → ﻧﺎن quot; اﮔﺮ درﺟﻪ‬
‫اﻃﻤﻴﻨﺎن ﺑﺮاﺑﺮ 08% ﺗﺮاﻛﻨﺸﻬﺎي ﺧﺮﻳﺪ ، اﮔﺮ ﻧﺎن وﺟﻮد داﺷﺘﻪ ﺑﺎﺷﺪ ،‬
‫ﭘﻨﻴﺮ ﻧﻴﺰ وﺟﻮد دارد . ﺑﺎﻳﺪ ﺗﻮﺟﻪ داﺷﺖ ﻛﻪ ﻣﻘﺪار درﺟﻪ اﻃﻤﻴﻨﺎن ﺑﺎ‬
‫ﺗﻌﻮﻳﺾ ﻣﻘﺪم و ﺗﺎﻟﻲ در ﻗﺎﻋﺪه ، ﻣﻤﻜﻦ اﺳﺖ ﺑﻪ ﺷﺪت ﺗﻐﻴﻴﺮ ﻛﻨﺪ .‬

‫داﻣﻨﻪ اﻧﺪازه ﭘﺎﻳﮕﺎه ﻫﺎي داده اﻣﺮوزه ﺑﻪ ﺗﺮا ﺑﺎﻳﺖ رﺳﻴﺪه اﺳﺖ اﻳﻦ ﭘﺎﻳﮕﺎه داده ﺑﻪ‬
‫ﻫﻤﺮاه اﻃﻼﻋﺎت ﻓﺮاواﻧﻲ ﻛﻪ ﺑﻪ ﺻﻮرت ﻧﺎﺷﻨﺎﺧﺘﻪ در آن ﺗﻌﺒﻴﻪ ﮔﺮدﻳﺪه ﻣﻲ ﺑﺎﻳﺸﺪ‬
‫ﻣﺴﺎﻟﻪ اﻳﻦ اﺳﺖ ﻛﻪ ﭼﮕﻮﻧﻪ ﻣﻲ ﺗﻮان از ﻣﻴﺎن اﻳﻦ ﺟﻨﮕﻞ ﻋﻈﻴﻢ اﻃﻼﻋﺎﺗﻲ ﺑﻪ‬
‫ﻫﻤﺮاه درﺧﺘﻬﺎي ﭘﻴﭽﻴﺪه آن اﻃﻼﻋﺎﺗﻲ را اﺳﺘﻨﺘﺎج ﻧﻤﻮد؟ﺑﺎ اﺳﺘﻔﺎده از داده‬
‫ﻛﺎوي ﻣﻲ ﺗﻮان اﻳﻦ ﻫﺰﻳﻨﻪ را ﻛﻢ ﻧﻤﻮد و در ﻋﻮض ﺑﺎزدﻫﻲ ﺑﻴﺸﺘﺮي ﺑﺪﺳﺖ‬
‫آورد.در ﺣﺎل ﺣﺎﺿﺮ ﺷﺮﻛﺘﻬﺎي ﺑﻲ ﺷﻤﺎري ﺳﻌﻲ دارﻧﺪ ﺑﺎ اﺳﺘﻔﺎده از اﻳﻦ روش‬
‫ﺑﻪ ﻣﺸﺘﺮﻳﺎن ﺧﻮد ﭘﻴﺸﻨﻬﺎدات ﺑﻬﺘﺮي ﺑﺮاي ﺧﺮﻳﺪ اراﺋﻪ دﻫﻨﺪ ﺗﺎ ﻓﺮوش آﻧﻬﺎ ﺑﺎﻻﺗﺮ‬
‫رﻓﺘﻪ و در ﻋﻮض ﺿﺮر و زﻳﺎن ﻣﻮﺟﻮد از اﻳﻦ ﻃﺮﻳﻖ ﻛﻤﻴﻨﻪ ﮔﺮدد.‬

‫02 ‪Support‬‬
‫12 ‪Confidence‬‬

‫داده ﻛﺎوي ﻓﺮآﻳﻨﺪي اﺳﺖ ﻛﻪ ﻃﻲ آن ﺑﺎ اﺳﺘﻔﺎده از اﻧﻮاع ﻣﺨﺘﻠﻒ اﺑﺰار ﺗﺤﻠﻴﻞ‬
‫داده ﺑﻪ دﻧﺒﺎل ﻛﺸﻒ اﻟﮕﻮﻫﺎ و ارﺗﺒﺎﻃﺎت ﻣﻴﺎن داده ﻫﺎي ﻣﻮﺟﻮد ﻛﻪ ﻣﻤﻜﻦ اﺳﺖ‬
‫ﻣﻨﺠﺮ ﺑﻪ اﺳﺘﺨﺮاج اﻃﻼﻋﺎت ﺟﺪﻳﺪي از ﭘﺎﻳﮕﺎه داده ﮔﺮدﻧﺪ ﻣﻲ ﺑﺎﺷﺪ.‬
‫اوﻟﻴﻦ وﺳﺎده ﺗﺮﻳﻦ ﮔﺎم ﺗﺤﻠﻴﻞ داده در داده ﻛﺎوي ﺗﻮﺿﻴﺢ و ﺷﺮح ﻣﺸﺨﺺ داده‬
‫)از ﺟﻤﻠﻪ ﻣﻌﻨﻲ داده واﻧﺤﺮاف اﺳﺘﺎﻧﺪارد ﻛﻠﻤﻪ(ﻣﻲ ﺑﺎﺷﺪ ﻛﻪ اﻳﻦ ﻛﺎر ﻣﻲ ﺗﻮاﻧﺪ ﺑﻪ‬
‫وﺳﻴﻠﻪ ﻧﻤﺪارﻫﺎ و ﮔﺮاف ﻫﺎﻳﻴﻮﻫﻤﭽﻨﻴﻦ ﻛﻠﻤﺎﺗﻲ ﻛﻪ ﺑﺎ اﻳﻦ ﻛﻠﻤﻪ ارﺗﺒﺎط ﻣﻌﻨﺎﻳﻲ‬
‫ﻧﺰدﻳﻜﻲ دارﻧﺪ اﻧﺠﺎم ﮔﺮدد در ﻧﻴﺠﻪ ﺟﻤﻊ آوري ﺟﺴﺘﺠﻮ و اﻧﺘﺨﺎب داده درﺳﺖ‬
‫در اﻳﻦ ﺑﺨﺶ ﺑﺴﻴﺎر ﻣﻬﻢ و ﺣﻴﺎﺗﻲ ﻣﻲ ﺑﺎﺷﺪ.‬
‫اﻣﺎ اﻳﻦ ﻛﺎر ﺑﻪ ﺗﻨﻬﺎﻳﻲ ﻛﺎر ﺧﺎﺻﻲ اﻧﺠﺎم ﻧﻤﻲ دﻫﺪ ﺷﻤﺎ ﺑﺎﻳﺪ ﻳﻚ ﻣﺪل ﭘﻴﺶ‬
‫ﺑﻴﻨﻲ ﻛﻨﻨﺪه ﺑﺮ اﺳﺎس اﻟﮕﻬﺎﻳﻲ ﻛﻪ از ﻧﺘﺎﻳﺞ داﻧﺶ ﺑﻪ دﺳﺖ آورده ﺷﺪه ﺑﺴﺎزﻳﺪ‬
‫ﺳﭙﺲ آزﻣﺎﻳﺶ ﻛﻨﻴﺪ ﻛﻪ آﻳﺎ ان ﻣﺪل ﺑﺎ ﻧﻤﻮﻧﻪ اﺻﻠﻲ ﺳﺎزﮔﺎر اﺳﺖ ﻳﻚ ﻣﺪل‬
‫ﺧﻮب ﻧﺒﺎﻳﺪ ﺑﺎ ﺟﻬﺎن واﻗﻊ ﺗﻔﺎوت ﭼﻨﺪاﻧﻲ داﺷﺘﻪ ﺑﺎﺷﺪ.]1[‬
‫آﺧﺮﻳﻦ ﮔﺎم ﻧﻴﺰ ﺗﺸﺨﻴﺺ ﺻﺤﺖ وﺳﻘﻢ ﻋﻤﻠﻜﺮد ﻣﺪل ﺑﺼﻮرت ﺗﺠﺮﺑﻲ ﻣﻲ‬
‫ﺑﺎﺷﺪم.ﺑﺮاي ﻣﺜﺎل از ﻳﻚ ﺑﺎﻧﻚ ﻣﺮﺑﻮط ﺑﻪ ﻣﺸﺘﺮﻳﺎن وﭘﺎﺳﺦ ﻫﺎﻳﻲ ﻛﻪ ﺑﻪ ﻳﻚ‬
‫ﭘﻴﺸﻨﻬﺎد ﺧﺎص داده اﻧﺪ ﻳﻚ ﻣﺪل ﻣﻲ ﺳﺎزﻳﺪ ﻛﻪ ﺑﺮ اﺳﺎس آن ﻣﺸﺨﺺ ﻣﻲ‬
‫ﺷﻮد ﻛﻪ ﻛﺪام ﺣﺪس واﻧﺘﻈﺎر ﺑﻴﺸﺘﺮﻳﻦ ﻧﺰدﻳﻜﻲ را ﺑﺎ ﻳﻚ ﭘﻴﺸﻨﻬﺎد ﻣﺎﻧﻨﺪ‬
‫ﭘﻴﺸﻨﻬﺎد ﻗﺒﻠﻲ دارد و اﻳﻨﻜﻪ آﻳﺎ ﺷﻤﺎ ﻣﻲ ﺗﻮاﻧﻴﺪ ﺑﺮ اﻳﻦ ﺣﺪس اﻋﺘﻤﺎد ﻛﻨﻴﺪ ﻳﺎ‬
‫ﻧﻪ؟‬
‫ﻗﺎﺑﻠﻴﺘﻬﺎي ‪: DataMining‬‬
‫ﺑﺎﻳﺪ ﺗﻮﺟﻪ داﺷﺘﻪ ﺑﺎﺷﻴﺪ ﻛﻪ داده ﻛﺎوي ﻳﻚ اﺑﺰار ﺟﺎدوﻳﻲ ﻧﻴﺴﺖ ﻛﻪ ﺑﺘﻮاﻧﺪ در‬
‫ﭘﺎﻳﮕﺎه داده ﺷﻤﺎ ﺑﻪ دﻧﺒﺎل اﻟﮕﻮﻫﺎي ﺟﺎﻟﺐ ﺑﮕﺮدد و اﮔﺮ ﺑﻪ اﻟﮕﻮﻳﻲ ﺟﺪﻳﺪي‬
‫ﺑﺮﺧﻮرد ﻛﺮد آن را ﺑﻪ ﺷﻤﺎ اﻋﻼم ﻛﻨﺪ ﺑﻠﻜﻪ ﺻﺮﻓﺎ اﻟﮕﻮﻫﺎ و رواﺑﻂ ﺑﻴﻦ داده ﻫﺎ را‬
‫ﺑﻪ ﺷﻤﺎ اﻋﻼم ﻣﻲ ﻛﻨﺪ ﺑﺪون ﺗﻮﺟﻪ ﺑﻪ ارزش آﻧﻬﺎ. ﺑﻨﺎﺑﺮاﻳﻦ اﻟﮕﻮﻫﺎﻳﻲ ﻛﻪ ﺑﻪ اﻳﻦ‬
‫وﺳﻴﻠﻪ ﻛﺸﻒ ﻣﻲ ﺷﻮﻧﺪ ﺑﺎﻳﺪ ﺑﺎ ﺟﻬﺎن واﻗﻊ ﺗﻄﺎﺑﻖ داﺷﺘﻪ ﺑﺎﺷﻨﺪ. ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل‬
‫داده ﻛﺎوي ﻣﻲ ﺗﻮاﻧﺪ ﺑﺎ ﺗﻌﻴﻴﻦ ﻧﺮخ در آﻣﺪﻫﺎﻳﻲ ﻛﻪ ﺑﻄﻮر ﻣﺜﺎل ﺑﻴﻦ $000/05‬
‫و $000/56 اﺳﺖ ﻛﻪ ﺑﺮاي ﺧﺮﻳﺪ روزﻧﺎﻣﻪ ﺧﺎﺻﻲ در ﻣﻴﺎن ﻓﺮوﺷﻨﺪﮔﺎن اﺳﺖ‬

‫ﺗﻌﻴﻴﻦ ﻛﻨﺪ ﻛﻪ اﻛﺜﺮ ﻛﺎﻻﻫﺎي ﻣﻮرد ﻧﻴﺎز ﻣﺮدم ﭼﻪ رﻧﺠﻲ از ﻗﻴﻤﺖ ﺑﻮده وﻛﺪام ﻫﺎ‬
‫ﻫﺴﺘﻨﺪ؟‬
‫ﺑﻪ اﻳﻦ ﺗﺮﺗﻴﺐ ﺷﻤﺎ ﻣﻲ ﺗﻮاﻧﻴﺪ از ﻫﺪف ﺧﺮﻳﺪ ﻣﺮدم ﺑﺪون اﻳﻨﻜﻪ ﻓﺎﻛﺘﻮرﻫﺎﻳﻲ‬
‫ﺑﺮاي ﺧﺮﻳﺪ ﻛﺎﻻﻫﺎي ﺧﻮد در ﻧﻈﺮ ﺑﮕﻴﺮﻳﺪ ﻣﻄﻠﻊ ﺷﻮﻳﺪ؟‬
‫ﺑﺮاي ﺗﻀﻤﻴﻦ ﺑﺪﺳﺖ آﻣﺪن ﻧﺘﺎﻳﺞ ﺑﺎ ﻣﻌﻨﻲ ﻻزم اﺳﺖ ﻛﻪ ﺷﻤﺎ ﺑﺘﻮاﻧﻴﺪ داده ﻫﺎي‬
‫ﺧﻮد را ﺗﺤﻠﻴﻞ ﻛﻨﻴﺪ ﻛﻴﻔﻴﺖ ﺧﺮوﺟﻲ ﺷﻤﺎ ﺑﻪ اﻃﻼﻋﺎت ﺧﺎرج از ﭘﺎﻳﮕﺎه داده ) ﺑﻪ‬
‫ﻋﻨﻮان ﻣﺜﺎل داده اي ﺑﺎارزﺷﻲ ﻛﻪ ﻣﺘﻔﺎوت از داده ﻫﺎي ﻧﻮﻋﻲ در ﭘﺎﻳﮕﺎه داده‬
‫ﺷﻤﺎﺳﺖ( ﺳﺘﻮﻧﻬﺎي ﻇﺎﻫﺮا ﺑﻲ ارﺗﺒﺎط ﻳﺎ ﺑﺎ ارﺗﺒﺎط ﻧﺰدﻳﻚ ﺑﻪ ﺑﻘﻴﻪ ﭘﺎﻳﮕﺎه‬
‫داده)ﻣﺎﻧﻨﺪ ﺗﺎرﻳﺦ ﺗﻮﻟﻴﺪ ﻳﺎ اﻧﻘﻀﺎي ﻛﺎﻻ( ﺑﺴﺘﮕﻲ ﻧﺰدﻳﻜﻲ دارﻧﺪ .اﻟﮕﻮرﻳﺘﻢ ﺑﺮ‬
‫اﺳﺎس ﺣﺴﺎﺳﻴﺘﺸﺎن ﺑﻪ داده ﻫﺎ روﺷﻬﺎي ﻣﺘﻔﺎوﺗﻲ دارﻧﺪ. اﻣﺎ ﻏﻴﺮ ﻋﺎﻗﻼﻧﻪ اﺳﺖ‬
‫ﻛﻪ ﺑﻪ ﻣﺤﺼﻮل داده ﻛﺎوي ﺻﺮﻓﺎ ﺑﻪ ﺑﺮاي ﺗﻤﺎم ﺗﺼﻤﻴﻢ ﮔﻴﺮي ﻫﺎﻳﻤﺎن ﺗﻜﻴﻪ‬
‫ﻛﻨﻴﻢ.‬
‫داده ﻛﺎوي ﺑﻄﻮر اﺗﻮﻣﺎﺗﻴﻚ و ﺑﺪون رﻫﻨﻤﺎﻳﻲ ﻗﺎدر ﺑﻪ ﻛﺸﻒ راه ﺣﻞ ﻫﺎ ﻧﻴﺴﺖ.‬
‫ﺷﻤﺎ ﺗﺮﺟﻴﺤﺎ ﺑﻪ ﺟﺎي ﺑﻴﺎن ﻳﻚ ﻫﺪف ﻣﺒﻬﻢ ﻣﺎﻧﻨﺪ quot;ﻛﻤﻚ ﺑﻪ ارﺗﻘﺎي ﭘﺎﺳﺦ دﻫﻲ‬
‫ﺑﻪ در ﺧﻮاﺳﺖ ﻫﺎ ‪ mail‬ﻣﻦ quot; ﺷﻤﺎ ﺑﺎﻳﺪ از داده ﻛﺎوي ﺑﺮاي ﻳﺎﻓﺘﻦ ﺧﺼﻴﺼﻪ‬
‫ﻫﺎي اﻓﺮادي ﻛﻪ‬
‫)1(: ﺑﻪ درﺧﻮاﺳﺖ ﻫﺎي ﺷﻤﺎ ﭘﺎﺳﺦ ﻣﻲ دﻫﻨﺪ‬
‫)2(: ﺑﻪ درﺧﻮاﺳﺖ ﻫﺎي ﺷﻤﺎ ﭘﺎﺳﺦ داده و ﺧﺮﻳﺪ زﻳﺎدي ﻣﻲ ﻛﻨﻨﺪ‬
‫اﺳﺘﻔﺎده ﻛﻨﻴﺪ. اﻟﮕﻮ ﻫﺎﻳﻲ ﻛﻪ داده ﻛﺎوي ﺑﺮاي ﻳﺎﻓﺘﻦ ﺑﻪ اﻳﻦ دو ﻫﺪف اﺳﺘﻔﺎده‬
‫ﻣﻲ ﻛﻨﻨﺪ ﻣﺘﻔﺎوت اﺳﺖ.‬
‫اﮔﺮ ﭼﻪ ﻳﻚ اﺑﺰار ﺧﻮب ﺑﺮاي داده ﻛﺎوي ﺷﻤﺎ را از ﭘﻴﭽﻴﺪﮔﻲ ﻫﺎي ﺗﻜﻨﻴﻜﻬﺎي‬
‫آﻣﺎري راﺣﺖ ﻣﻲ ﺳﺎزد اﻣﺎ ﺑﻪ ﺷﻤﺎ ﺑﺮاي ﻓﻬﻤﻴﺪن ﻛﺎر ﻫﺎي اﺑﺰاري ﻛﻪ اﻧﺘﺨﺎب‬
‫ﻛﺮده اﻳﺪ و ﻫﻤﭽﻨﻴﻦ اﻟﮕﻮرﻳﺘﻤﻬﺎﻳﻲ ﻛﻪ ﺑﺮ ﭘﺎﻳﻪ آن ﻛﺎر ﻣﻲ ﻛﻨﺪ ﻧﻴﺎزﻣﻨﺪ اﺳﺖ.‬
‫اﻧﺘﺨﺎﺑﻲ ﻛﻪ ﺷﻤﺎ ﺑﺮاي اﺑﺰار ﻣﻮرد ﻧﻴﺎز اﻧﺠﺎم ﻣﻲ دﻫﻴﺪ و ﺑﻬﻴﻨﻪ ﺳﺎزي ﻫﺎﻳﻲ را ﻛﻪ‬
‫ﺷﻤﺎ اﻧﺠﺎم ﻣﻲ دﻫﻴﺪ در دﻗﺖ و ﺳﺮﻋﺖ ﻛﺎر ﺑﺴﻴﺎر ﺗﺎﺛﻴﺮ دارد.]2[‬
‫داده ﻛﺎوي و اﻧﺒﺎر داده ﻫﺎ :‬

‫اﻏﻠﺐ داده اي ﻛﻪ ﻣﻮرد ﻛﺎوش ﻗﺮار ﻣﻲ ﮔﻴﺮد اﺑﺘﺪا از ﻳﻚ اﻧﺒﺎر داده آﻣﺎده ﺷﺪه‬
‫ﺑﻪ داﺧﻞ ﻳﻚ ﭘﺎﻳﮕﺎه داده ﻛﺎوي ﺳﺮازﻳﺮ ﻣﻲ ﺷﻮد. اﻳﻦ ﻛﺎر ﻣﺰاﻳﺎي زﻳﺎدي دارد.‬
‫ﭘﺎﻳﮕﺎه داده ﻛﺎوي ﻣﻲ ﺗﻮاﻧﺪ ﺑﻪ ﺟﺎي ﻳﻚ اﻧﺒﺎر ﻓﻴﺰﻳﻜﻲ داده ﻳﻚ اﻧﺒﺎر ﻣﻨﻄﻘﻲ از‬
‫داده ﻫﺎ ﺑﺎﺷﺪ. ﺑﻪ ﺷﺮط آﻧﻜﻪ اﻧﺒﺎر داده ‪ DBMS‬ﺑﺘﻮاﻧﺪ داﻣﻨﻪ ﻫﺎي ﻣﻨﺎﺑﻊ اﺿﺎﻓﻲ‬
‫از داده ﻛﺎوي را ﻧﻴﺰ ﭘﻮﺷﺶ دﻫﺪ. روﻧﺪ ﺷﺮح داده ﺷﺪه در ﺷﻜﻞ زﻳﺮ آﻣﺪه اﺳﺖ:‬

‫‪Data Sources‬‬

‫‪Data‬‬
‫‪Warehouse‬‬
‫‪Analysis‬‬
‫‪Data Mart‬‬
‫‪Geographic‬‬ ‫‪Data Mining‬‬
‫‪Data Mart‬‬ ‫‪Data Mart‬‬

‫داده ﻛﺎوي و ‪: OLAP‬‬
‫ﻳﻜﻲ از ﺳﻮاﻟﻬﺎي راﻳﺞ در ﻣﻴﺎن ﻣﺘﺨﺼﺼﺎن ﭘﺮدازش داده در ﻣﻮرد ﺗﻔﺎوت ﻣﻴﺎن‬
‫داده ﻛﺎوي و‪) OLAP‬ﭘﺮدازش آﻧﺎﻟﻴﺰي ‪. ( on-line‬‬
‫‪ Olap‬ﻗﺴﻤﺘﻲ از ﻗﺎﻟﺐ اﺑﺰارﻫﺎي ﺗﺼﻤﻴﻢ ﮔﻴﺮي اﺳﺖ. ﭘﺮس وﺟﻮ ﻫﺎي ﺳﻨﺘﻲ و‬
‫اﺑﺰارﻫﺎي ﮔﺰارش ﮔﻴﺮي ﻛﻪ ﭼﻪ ﭼﻴﺰي در داﺧﻞ ﻳﻚ ﭘﺎﻳﮕﺎه داده اﺳﺖ. ‪ olap‬از‬
‫اﻳﻦ ﻓﺮاﺗﺮ ﻣﻴﺮود و ﺑﺮاي ﺟﻮاب دادن ﺑﻪ ﻋﻠﺖ درﺳﺘﻲ ﺑﺮﺧﻲ ﻣﻮارد اﺳﺘﻔﺎده دارد.‬
‫داده ﻛﺎوي , آﻣﺎر و ﻳﺎدﮔﻴﺮي ﻣﺎﺷﻴﻦ‬
‫داده ﻛﺎوي ﻓﻮاﻳﺪي از ﭘﻴﺸﺮﻓﺘﻬﺎي رﺷﺘﻪ ﻫﻮش ﻣﺼﻨﻮﻋﻲ را در ﺧﻮد ﺟﺎي داده‬
‫اﺳﺖ ﻛﻪ ﻫﻢ ﺷﺎﻣﻞ ﻗﻮاﻋﺪي ﺑﺮاي ﻣﺴﺎﺋﻞ ﺗﺸﺨﻴﺺ اﻟﮕﻮ و ﻃﺒﻘﻪ ﺑﻨﺪي ﻣﻲ ﺑﺎﺷﺪ‬
‫وﻫﻢ ارﺗﺒﺎﻃﺎﺗﻲ ﻛﻪ از ﻃﺮﻳﻖ ﻛﺎرﺑﺮد ﺷﺒﻜﻪ ﻫﺎي ﻋﺼﺒﻲ و درﺧﺘﻬﺎي ﺗﺼﻤﻴﻢ‬
‫ﮔﻴﺮي ﺑﺮاي ﻓﻬﻢ ﻣﺴﺎﺋﻞ ﺻﻮرت ﻣﻲ ﮔﻴﺮد ﻣﻲ ﺑﺎﺷﺪ.‬

‫داده ﻛﺎوي در اﻳﻦ زﻣﻴﻨﻪ داراي اﻟﮕﻮرﻳﺘﻢ ﻫﺎي ﻧﺴﺒﺘﺎ ﺟﺪﻳﺪي ﻣﺎﻧﻨﺪ ﺷﺒﻜﻪ‬
‫ﻋﺼﺒﻲ و درﺧﺖ ﺗﺼﻤﻴﻢ ورﻫﻴﺎﻓﺖ ﻫﺎي ﺟﺪﻳﺪي ﺑﺮاي اﻟﮕﻮرﻳﺘﻢ ﻫﺎي ﻗﺪﻳﻤﻴﺘﺮ‬
‫ﻣﺎﻧﻨﺪ اﻟﮕﻮرﻳﺘﻢ ﻫﺎي ﺗﻔﻜﻴﻚ ﻛﻨﻨﺪه دارد.‬
‫ﻧﻜﺘﻪ ﻣﻬﻢ آﻧﻜﻪ داده ﻛﺎوي ﻛﺎرﺑﺮد اﻳﻦ ﺗﻜﻨﻴﻜﻬﺎ را ﺑﺮاي ﻣﺴﺎﺋﻞ ﺗﺠﺎري ﻣﺸﺎﺑﻪ‬
‫ﺑﺎﻻ ﺑﻪ ﻃﺮﻳﻘﻲ ﻛﻪ اﻳﻦ ﺗﻜﻨﻴﻜﻬﺎ را ﺑﺮاي ﻛﺎرﺑﺮ ﺧﺒﺮه داﻧﺶ و آﻣﺎرﮔﻴﺮ ﻣﺘﺨﺼﺺ‬
‫ﻗﺎﺑﻞ دﺳﺘﺮس ﺳﺎزد اﺳﺘﻔﺎده ﻣﻲ ﺷﻮد.‬
‫ﻛﺎرﺑﺮدﻫﺎي داده ﻛﺎوي‬
‫داده ﻛﺎوي ﺑﻪ ﺳﺮﻋﺖ در ﺣﺎل ﻣﺤﺒﻮﺑﻴﺖ اﺳﺖ ﺑﻪ ﺧﺎﻃﺮ ﻛﻤﻚ ﻫﺎي اﺳﺎﺳﻲ آن.‬
‫ﺳﺎزﻣﺎﻧﻬﺎي زﻳﺎدي در ﺣﺎل اﺳﺘﻔﺎده از داده ﻛﺎوي ﺑﺮاي ﻛﻤﻚ ﺑﻪ ﻣﺪﻳﺮﻳﺖ ﺗﻤﺎم‬
‫ﻓﺎزﻫﺎي ارﺗﺒﺎط ﺑﺎ ﻣﺸﺘﺮي ﺷﺎﻣﻞ ﺑﻪ دﺳﺖ آوردن ﻣﺸﺘﺮﻳﺎن ﺟﺪﻳﺪ, اﻓﺰاﻳﺶ ﺳﻮد‬
‫از ﻃﺮﻳﻖ ﻣﺸﺘﺮﻳﺎن ﻣﻮﺟﻮد و ﺣﻔﻆ ﻛﺮدن ﻣﺸﺘﺮﻳﺎن ﺧﻮب ﻫﺴﺘﻨﺪ.ﺑﺎ ﺗﻌﻴﻴﻦ‬
‫ﻣﺸﺨﺼﺎت ﻳﻚ ﻣﺸﺘﺮي ﺧﻮب ﻳﻚ ﺷﺮﻛﺖ ﻣﻲ ﺗﻮاﻧﺪ ﺑﺎ ﻫﻤﺎن ﻣﺸﺨﺼﺎت اﻫﺪاف‬
‫آﻳﻨﺪه ﺧﻮﻳﺶ را ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻨﺪ. ﺑﺎ ﭘﺮوﻧﺪه ﺳﺎزي ﺑﺮاي ﻣﺸﺘﺮي ﻛﻪ ﻳﻚ‬
‫ﻣﺤﺼﻮل ﺧﺎص را ﺧﺮدي ﻣﻲ ﻧﻤﺎﻳﺪ اﻳﻦ ﺷﺮﻛﺖ ﻣﻲ ﺗﻮاﻧﺪ ﺗﻮﺟﻪ ﺧﻮد را ﺑﻪ‬
‫ﻣﺸﺘﺮﻳﺎن ﻣﺸﺎﺑﻬﻲ ﻛﻪ از اﻳﻦ ﻣﺤﺼﻮل ﺧﺮﻳﺪ ﻧﻜﺮده اﻧﺪ ﻣﻌﻄﻮف دارد ﺑﺎ ﭘﺮوﻧﺪه‬
‫ﺳﺎزي ﺑﺮاي ﻣﺸﺘﺮﻳﺎﻧﻲ ﻛﻪ اﻳﻦ ﺳﺎزﻣﺎن را ﺗﺮك ﻛﺮده اﻧﺪ ﻳﻚ ﺷﺮﻛﺖ ﻣﻲ ﺗﻮاﻧﺪ‬
‫ﻣﺸﺘﺮﻳﺎﻧﻲ را ﻛﻪ ﺧﻄﺮ رﻓﺘﻦ آﻧﻬﺎ ﻧﻴﺰ وﺟﻮد دارد را ﻧﮕﻪ دارد ﭼﺮا ﻛﻪ ﻧﮕﻬﺪاري‬
‫ﻳﻚ ﻣﺸﺘﺮي ﻣﻮﺟﻮد ﺑﺴﻴﺎر ﻛﻢ ﻫﺰﻳﻨﻪ ﺗﺮ از ﺑﺪﺳﺖ آوردن ﻳﻚ ﻣﺸﺘﺮي ﺟﺪﻳﺪ‬
‫ﻫﺰﻳﻨﻪ ﻣﻲ ﺑﺮد. داده ﻛﺎوي ارزﺷﻬﺎﻳﻲ را از ﻃﺮﻳﻖ ﺑﺮرﺳﻲ ﻳﻚ ﻃﻴﻒ وﺳﻴﻌﻲ از‬
‫ﻛﺎرﺧﺎﻧﻪ ﻫﺎ ﭘﻴﺸﻨﻬﺎد ﻣﻲ ﻛﻨﺪ.ﺷﺮﻛﺘﻬﺎي ارﺗﺒﺎﻃﺎت از راه دور و ﻛﺎرت ﻫﺎي‬
‫اﻋﺘﺒﺎري دو ﺷﺎﺧﻪ ﺑﺰرگ در اﺳﺘﻔﺎده از داده ﻛﺎوي ﺑﺮاي ﺗﺸﺨﻴﺺ اﺳﺘﻔﺎده ﻛﻼه‬
‫ﺑﺮداراﻧﻪ از ﺧﺪﻣﺎت آﻧﻬﺎ ﻣﻲ ﺑﺎﺷﻨﺪ. ﺷﺮﻛﺘﻬﺎي ﺑﻴﻤﻪ و درآﻣﺪ ﻫﻢ ﻋﻼﻗﻤﻨﺪ ﺑﻪ‬
‫اﺳﺘﻔﺎده از اﻳﻦ ﺗﻜﻨﻮﻟﻮژي ﺑﺮاي ﻛﺎﻫﺶ ﻛﻼه ﺑﺮداري ﻣﻲ ﺑﺎﺷﻨﺪ. ﻛﺎرﺑﺮدﻫﺎي‬
‫داروﻳﻲ ﻧﻮاﺣﻲ ﻣﻔﻴﺪ دﻳﮕﺮي ﻫﺴﺘﻨﺪ ﻛﻪ داده ﻛﺎوي در آﻧﻬﺎ دﺳﺖ دارد داده‬
‫ﻛﺎوي ﻣﻲ ﺗﻮاﻧﺪ ﺑﺮاي ﺗﺸﺨﻴﺺ ﺗﺎﺛﻴﺮ اﻋﻤﺎل ﺟﺮاﺣﻲ, آزﻣﺎﻳﺶ ﻫﺎي داروﻳﻲ‬
‫ودرﻣﺎن اﺳﺘﻔﺎده ﮔﺮدد. ﺷﺮﻛﺘﻬﺎﻳﻲ ﻛﻪ در ﺧﺮﻳﺪ و ﻓﺮوﺷﻬﺎي ﻣﺎﻟﻲ ﻓﻌﺎﻟﻴﺖ ﻣﻲ‬

‫ﻛﻨﻨﺪ از داده ﻛﺎوي ﺑﺮاي ﺗﻌﻴﻴﻦ ﺷﺎﺧﺼﻪ ﻫﺎي ﺑﺎزار و ﺻﻨﻌﺖ ﺑﺮاي ﺗﺸﺨﻴﺺ‬
‫ﻛﺎراﻳﻲ درآﻣﺪ اﺳﺘﻔﺎده ﻣﻲ ﻛﻨﻨﺪ. ﺧﺮده ﻓﺮوﺷﻬﺎ از داده ﻛﺎوي ﺑﺮاي ﺗﺼﻤﻴﻢ در‬
‫ﻣﻮرد اﻳﻨﻜﻪ ﻛﺪام ﻣﺤﺼﻮل در ﻓﺮوﺷﮕﺎه ﻫﺎ در آﻣﺪ زاﺳﺖ ﺑﻪ ﻣﻨﻈﻮر دﺳﺘﺮﺳﻲ ﺑﻪ‬
‫ارﺗﻘﺎي ﻛﻴﻔﻴﺖ ﻛﺎر ﺧﻮد اﺳﺘﻔﺎده ﺑﻴﺸﺘﺮي ﻣﻲ ﻧﻤﺎﻳﻨﺪ. ﺷﺮﻛﺘﻬﺎي داروﻳﻲ در‬
‫ﺣﺎل ﻛﺎوش ﭘﺎﻳﮕﺎﻫﻬﺎي داده ﺑﺰرﮔﻲ از ﺗﺮﻛﻴﺒﺎت ﺷﻴﻤﻴﺎﻳﻲ و ﻣﻮاد ژﻧﺘﻴﻜﻲ ﺑﺮاي‬
‫ﻛﺸﻒ ﻣﻮاد ﻛﻪ ﻣﻲ ﺗﻮاﻧﻨﺪ ﮔﺰﻳﻨﻪ ﺧﻮﺑﻲ ﺑﺮاي ﺳﺎﺧﺖ ﺑﻪ ﻋﻨﻮان دارو ﺑﺎﺷﻨﺪ. ]1[‬

‫داده ﻛﺎوي ﻣﻮﻓﻖ:‬
‫دو ﻧﻜﺘﻪ ﺑﺮاي ﻣﻮﻓﻖ ﺑﻮدن ﻳﻚ داده ﻛﺎوي وﺟﻮد دارد. اول اﻳﻨﻜﻪ ﻳﻚ ﻓﺮﻣﻮﻟﻪ‬
‫ﺳﺎزي دﻗﻴﻖ از ﻣﺴﺎﻟﻪ اي اﺳﺖ ﻛﻪ ﺷﻤﺎ ﺑﺎﻳﺪ ﺣﻞ ﻛﻨﻴﺪ. دوﻣﻴﻦ ﻧﻜﺘﻪ اﺳﺘﻔﺎده از‬
‫داده ﺻﺤﻴﺢ اﺳﺖ. ﭘﺲ از اﻧﺘﺨﺎب داده اي ﻛﻪ در دﺳﺘﺮس ﺷﻤﺎﺳﺖ ﻳﺎ ﺷﺎﻳﺪ‬
‫ﺧﺮﻳﺪ داده ﺧﺎرﺟﻲ ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ ﻧﻴﺎزﻣﻨﺪ ﺷﻮﻳﺪ آ ن را ﺑﻪ روﺷﻬﺎﻳﻲ اﻧﺘﻘﺎل‬
‫داده ﻳﺎ دﺳﺘﻪ ﺑﻨﺪي ﻛﻨﻴﺪ.‬
‫ﺗﺤﻠﻴﻞ ارﺗﺒﺎﻃﺎت:‬
‫ﺗﺤﻠﻴﻞ ارﺗﺒﺎط ﻳﻚ رﻫﻴﺎﻓﺖ ﺗﻮﺻﻴﻔﻲ ﺑﺮاي اﻛﺘﺸﺎف داده اﺳﺖ ﻛﻪ ﻣﻲ ﺗﻮاﻧﺪ ﺑﻪ‬
‫ﻣﺸﺨﺺ ﺳﺎزي ارﺗﺒﺎﻃﺎت ﻣﻴﺎن ﻣﻘﺎدﻳﺮ در ﭘﺎﻳﮕﺎه داده ﻛﻤﻚ ﻧﻤﺎﻳﺪ.دو رﻫﻴﺎﻓﺖ‬
‫ﻋﺎم ﺑﺮاي رﺳﻴﺪن ﺑﻪ ﺗﺤﻠﻴﻞ ارﺗﺒﺎﻃﻲ اﻛﺘﺸﺎف ارﺗﺒﺎﻃﻲ و اﻛﺘﺸﺎف ﺗﻮاﻟﻲ ﻣﻲ‬
‫ﺑﺎﺷﺪ.اﻛﺘﺸﺎف ارﺗﺒﺎﻃﺎت ﻗﻮاﻧﻴﻨﻲ را در ﻣﻮرد ﻣﻮاردي را ﻛﻪ ﺑﺎﻳﺪ ﺑﺎ ﻫﻢ در ﻳﻚ‬
‫روﻳﺪاد ﻇﺎﻫﺮﺷﻮﻧﺪ ﻣﺎﻧﻨﺪ ﺗﺮاﻛﻨﺶ ﺧﺮﻳﺪ را ﻣﻲ ِاﺑﺪ.ﺗﺤﻠﻴﻞ ﺳﺒﺪ ﻋﺮﺿﻪ ﻳﻚ ﻧﻤﻮﻧﻪ‬
‫ﺷﻨﺎﺧﺘﻪ ﺷﺪه از ﻛﺸﻒ ارﺗﺒﺎط ﻣﻲ ﺑﺎﺷﺪ.ﻛﺸﻒ ﺗﻮاﻟﻲ ﺑﺴﻴﺒﺎر ﺷﺒﻴﻪ ﻛﺸﻒ ارﺗﺒﺎط‬
‫اﺳﺖ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﻳﻦ ﻧﻜﺘﻪ ﻛﻪ در اﻳﻨﺠﺎ ﺗﻮاﻟﻲ ﻳﻚ ارﺗﺒﺎط اﺳﺖ ﻛﻪ در ﻃﻮل ﻳﻚ‬
‫ﺑﺎزه زﻣﺎﻧﻲ ﺻﻮرت ﻣﻲ ﮔﻴﺮد.‬

‫ارﺗﺒﺎﻃﺎت ﺑﻪ ﺻﻮرت ‪ A=>B‬ﻧﻮﺷﺘﻪ ﻣﻲ ﺷﻮد ﻛﻪ ﺑﻪ ‪ A‬ﻣﻘﺪم ﻳﺎ ﻃﺮف ﺳﻤﺖ‬
‫ﭼﭗ و ﺑﻪ ‪ B‬ﺗﺎﻟﻲ ﻳﺎ ﻃﺮف ﺳﻤﺖ راﺳﺖ ﻣﻲ ﮔﻮﻳﻨﺪ.ﺑﺮاي ﻣﺜﺎل در ﻗﺎﻧﻮن ارﺗﺒﺎﻃﻲ‬
‫quot;اﮔﺮ ﻣﺮدم ﻳﻚ ﭼﻜﺶ ﺑﺨﺮﻧﺪ آﻧﮕﺎه ﻣﻲ ﺗﻮاﻧﻨﺪ ﻣﻴﺦ ﺑﺨﺮﻧﺪquot; ﺟﻤﻠﻪ ﻣﻘﺪم quot;ﺧﺮﻳﺪ‬
‫ﭼﻜﺶquot; و ﺟﻤﻠﻪ ﺗﺎﻟﻲ quot;ﺧﺮﻳﺪ ﻣﻴﺦquot; ﻣﻲ ﺑﺎﺷﺪ.‬
‫ﺑﺮاﺣﺘﻲ ﻣﻴﺘﻮان ﻧﺴﺒﺖ ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ را ﻛﻪ ﺷﺎﻣﻞ ﻣﻮرد ﻳﺎ ﻟﻴﺴﺘﻲ ازﻣﻮارد ﺧﺎص‬
‫ﻣﻲ ﺑﺎﺷﺪ ﺑﺎ ﺷﻤﺮدن آﻧﻬﺎ ﺗﻌﻴﻴﻦ ﻛﺮد )ﻛﻪ در اﻃﻨﺠﺎ ﻣﻮارد ﻣﻴﺦ ﻫﺎ و ﭼﻜﺶ‬
‫ﻫﺎﻣﻲ ﺑﺎﺷﺪ( را ﺗﻌﻴﻴﻦ ﻛﺮد.ﺗﻌﺪاد ﻣﻮﺟﻮد از ﻳﻚ ﻧﻮع ارﺗﺒﺎط ﺧﺎص ﻛﻪ در ﻳﻚ‬
‫ﭘﺎﻳﮕﺎه داده ﺑﻪ ﻧﻈﺮ ﻣﻲ رﺳﺪ را ﻣﻮﺟﻮدي ﻳﺎ ﺷﻴﻮع آن ﻣﻮرد ﻣﻲ ﮔﻮﻳﻨﺪ.اﮔﺮ ﺑﺮاي‬
‫ﻣﺜﺎل ﮔﻔﺘﻪ ﺷﻮد ﻛﻪ از ﻫﺮ 0001 ﺗﺮاﻛﻨﺶ 51 ﺗﺎي آن ﺷﺎﻣﻞ quot;ﻣﻴﺦ و ﭼﻜﺶquot;‬
‫ﻣﻲ ﺑﺎﺷﺪ ﻣﻮﺟﻮدي اﻳﻦ ارﺗﺒﺎط 5,1%ﺧﻮاﻫﺪ ﺑﻮد.ﻳﻚ ﻣﻮﺟﻮدي ﻛﻢ)ﻣﺜﻼ ﻳﻚ در‬
‫ﻣﻴﻠﻴﻮن( ﻣﻲ ﺗﻮاﻧﺪ ﺑﻴﺎﻧﮕﺮ اﻳﻦ ﺑﺎﺷﺪ ﻛﻪ ان ارﺗﺒﺎط ﺧﺎص در ﭘﺎﻳﮕﺎه داده ﭼﻨﺪان‬
‫ﻣﻬﻢ ﻧﻴﺴﺖ.‬
‫ﺑﺮاي ﻛﺸﻒ ﻗﻮاﻧﻴﻦ ﻣﻌﻨﺎ دار ﻣﺎ ﺑﺎﻳﺪ ﺑﻪ ﻓﺮاواﻧﻲ ﻣﺘﻨﺎﺳﺐ دﻓﻌﺎت اﺗﻔﺎق ﻣﻮارد و‬
‫ﺗﺮﻛﻴﺒﺎﺗﺸﺎن ﻧﻴﺰ ﺑﻨﮕﺮﻳﻢ.ﺑﺎداﺷﺘﻦ ﺗﻌﺪاد دﻓﻌﺎت اﺗﻔﺎق ﻣﻮرد ‪ A‬ﻣﻮرد ‪ B‬ﭼﻨﺪ ﺑﺎر‬
‫اﺗﻔﺎق ﻣﻲ اﻓﺘﺪ؟ﺑﻪ ﻋﺒﺎرت دﻳﮕﺮ ﺳﻮال اﻳﻦ اﺳﺖ ﻛﻪ ﺑﺒﻴﻨﻴﻢ quot;ﻫﻨﮕﺎﻣﻲ ﻛﻪ ﻣﺮدم‬
‫ﻳﻚ ﭼﻜﺶ ﻣﻲ ﺧﺮﻧﺪ ﭼﻪ ﺗﻌﺪاد از اﻳﻦ اﻓﺮاد ﻣﻴﺦ ﻫﻢ ﻣﻲ ﺧﺮﻧﺪ؟ ﻋﺒﺎرت دﻳﮕﺮ‬
‫ﺑﺮاي اﻳﻦ ﭘﻴﺶ ﺑﻴﻨﻲ ﺷﺮﻃﻲ اﻃﻤﻴﻨﺎن ﻧﺎم دارد.‬
‫ﻓﺮض ﻛﻨﻴﺪ ﭘﺎﻳﮕﺎه داده ﻓﺮﺿﻲ ﻣﺎن راﺑﻪ ﺻﻮرت زﻳﺮ و ﺑﺎ ﺟﺰﺋﻴﺎت ﺑﻴﺸﺘﺮ ﺑﺮاي‬
‫ﺑﻴﺎن اﻳﻦ ﻣﻔﺎﻫﻴﻢ در ﻧﻈﺮ ﺑﮕﻴﺮﻳﻢ:‬
‫ﺗﻤﺎم ﺗﺮاﻛﻨﺸﻬﺎي ﺳﺨﺖ اﻓﺰار :0001‬
‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot;ﭼﻜﺶ quot; ﻣﻲ ﺑﺎﺷﺪ:05‬
‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot;ﻣﻴﺦquot; ﻣﻲ ﺑﺎﺷﺪ:08‬
‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot;ﺗﺨﺘﻪ quot; ﻣﻲ ﺑﺎﺷﺪ:02‬
‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot; ﻣﻴﺦ و ﭼﻜﺶquot;ﻣﻲ ﺑﺎﺷﺪ:51‬
‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot; ﻣﻴﺦ و ﺗﺨﺘﻪ quot; ﻣﻲ ﺑﺎﺷﺪ:01‬
‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot; ﭼﻜﺶ و ﺗﺨﺘﻪquot; ﻣﻲ ﺑﺎﺷﺪ: 01‬

‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot; ﭼﻜﺶ و ﺗﺨﺘﻪ و ﻣﻴﺦ quot; ﻣﻲ ﺑﺎﺷﺪ:5‬
‫ﺣﺎل ﻗﺎدر ﺑﻪ ﻣﺤﺎﺳﺒﻪ اﻳﻢ:‬
‫ﻣﻮﺟﻮدي quot;ﻣﻴﺦ و ﭼﻜﺶquot;=5,1%‬
‫ﻣﻮﺟﻮدي quot; ﻣﻴﺦ و ﭼﻜﺶ وﺗﺨﺘﻪquot;=5,0%‬
‫درﺻﺪ اﻃﻤﻴﻨﺎن quot;ﭼﻜﺶ=<ﻣﻴﺦquot; = 03%‬
‫درﺻﺪ اﻃﻤﻴﻨﺎن quot; ﻣﻴﺦ=< ﭼﻜﺶquot; = 91%‬
‫درﺻﺪ اﻃﻤﻴﻨﺎن quot; ﭼﻜﺶ و ﻣﻴﺦ=<ﺗﺨﺘﻪquot; = 33%‬
‫درﺻﺪ اﻃﻤﻴﻨﺎن quot; ﺗﺨﺘﻪ=< ﭼﻜﺶ و ﻣﻴﺦ quot; =52%‬

‫ﺑﻨﺎﺑﺮاﻳﻦ ﻣﺎ ﻣﻲ ﺑﻴﻨﻴﻢ ﻛﻪ اﺣﺘﻤﺎل اﻳﻨﻜﻪ ﻳﻚ ﺧﺮﻧﺪه ﭼﻜﺶ ﻣﻴﺦ ﻫﻢ ﺑﺨﺮد)03%(‬
‫ﺑﻴﺸﺘﺮ از اﺣﺘﻤﺎل آن اﺳﺖ ﻛﻪ ﻓﺮدي ﻛﻪ ﻣﻴﺦ ﻣﻲ ﺧﺮد ﭼﻜﺶ ﻫﻢ‬
‫ﺑﺨﺮد)91%(.ارﺗﺒﺎط ﭼﻜﺶ و ﻣﻴﺦ ﺑﻪ اﻧﺪازه اي ﺑﺰرگ اﺳﺖ ﻛﻪ ﻳﻚ ﻗﺎﻧﻮن ﺑﺎ‬
‫ﻣﻌﻨﻲ ﺑﺎﺷﺪ.‬
‫‪)Lift‬ﻧﺴﺒﺘﺎ ﭘﻴﺸﺮﻓﺖ( ﻳﻜﻲ از ﻣﻌﻴﺎرﻫﺎي اﻧﺪازه ﮔﻴﺮي ﻗﺪرت ﻳﻚ ارﺗﺒﺎط‬
‫اﺳﺖ.ﻫﺮ ﭼﻪ ‪ lift‬ﺑﺰرﮔﺘﺮ ﺑﺎﺷﺪ ﺗﺎﺛﻴﺮ اﺗﻔﺎﻗﺎت ‪ A‬ﺑﺮ اﺣﺘﻤﺎل اﻳﻨﻜﻪ ‪ B‬اﺗﻔﺎق ﺑﻴﻔﺘﺪ‬
‫ﺑﻴﺸﺘﺮ اﺳﺖ.‪ lift‬ﺑﺼﻮرت ﻧﺴﺒﺖ‬
‫)اﻃﻤﻴﻨﺎن ‪ (A=>B‬ﺗﻘﺴﻴﻢ ﺑﺮ ﻓﺮاواﻧﻲ ‪ B‬ﻣﺤﺎﺳﺒﻪ ﻣﻲ ﺷﻮد:‬
‫ﺑﺮاي ﻣﺜﺎل ﻣﺎ:‬
‫‪quot; Lift‬ﭼﻜﺶ=<ﻣﻴﺦquot; :57,3‬
‫‪ quot; Lift‬ﭼﻜﺶ و ﻣﻴﺦ =<ﺗﺨﺘﻪ quot;:5,61‬
‫اﻟﮕﻮرﻳﺘﻤﻬﺎي ارﺗﺒﺎط اﻳﻦ ﻗﻮاﻧﻴﻦ را ﺑﺎ ﻣﻌﺎدل ﻣﺮﺗﺐ ﺳﺎزي داده ﻫﻨﮕﺎم ﺷﻤﺎرش‬
‫دﻓﻌﺎﺗﻲ ﻛﻪ ﻣﻲ ﺗﻮاﻧﻨﺪ درﺻﺪ اﻃﻤﻴﻨﺎن و ﻣﻮﺟﻮدي را ﻣﺤﺎﺳﺒﻪ ﻛﻨﻨﺪ ﻣﻲ ﻳﺎﺑﺪ.‬
‫اﺛﺮاﺗﻲ ﻛﻪ ﻫﺮ ﻳﻚ از اﻳﻦ ﻗﻮاﻧﻴﻦ ﻣﻲ ﺗﻮاﻧﻨﺪ داﺷﺘﻪ ﺑﺎﺷﻨﺪ ﻳﻜﻲ از ﻣﻌﻴﺎرﻫﺎي‬
‫ﺗﻔﺎوت اﻳﻦ اﻟﮕﻮرﻳﺘﻢ ﻫﺎﺳﺖ. اﻳﻦ ﻣﻌﻴﺎر ﻣﻬﻢ اﺳﺖ زﻳﺮا ﻛﻪ ﻧﺘﺎﻳﺞ ﺗﺮﻛﻴﺒﻲ ﺑﺴﻴﺎر‬
‫زﻳﺎدي از ﺗﻌﺪاد ﺑﻲ ﺷﻤﺎري از ﻗﻮاﻧﻴﻦ ﺑﺪﺳﺖ ﻣﻲ آﻳﺪ ﺣﺘﻲ ﺑﺮاي ﺳﺒﺪ ﻫﺎي‬
‫ﺧﺮﻳﺪ. ﺑﺮﺧﻲ از اﻟﮕﻮرﻳﺘﻤﻬﺎ ﻳﻚ ﭘﺎﻳﮕﺎه داده از ﻗﻮاﻧﻴﻦ, ﻓﺎﻛﺘﻮرﻫﺎي اﻳﻤﻦ, و‬

‫ﻓﺮاﻫﻢ آوردن اﻣﻜﺎن ﺟﺴﺘﺠﻮ)ﺑﺮاي ﻣﺜﺎل ﺗﻤﺎم ارﺗﺒﺎﻃﺎﺗﻲ ﻛﻪ در آن ﻛﻠﻤﻪ ﺑﺴﺘﻨﻲ‬
‫در ﻗﻮاﻧﻴﻦ ﺑﻪ ﻋﻨﻮان ﻧﺘﻴﺠﻪ آﻣﺪه و ﻓﺎﻛﺘﻮري ﺑﺮاﺑﺮ 08%را دارﻧﺪ ﻧﺸﺎن ﺑﺪه(را‬
‫اﻳﺠﺎد ﻣﻲ ﻧﻤﺎﻳﻨﺪ.‬
‫اﻏﻠﺐ ﺗﺼﻤﻴﻢ ﮔﻴﺮي در ﻣﻮرد ﻛﺎر ﺑﺎ ﻗﻮاﻧﻴﻨﻲ ﻛﻪ ﺷﻤﺎ ﻛﺸﻒ ﻛﺮده اﻳﺪ دﺷﻮار‬
‫اﺳﺖ.ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل در ﻳﻚ ﻧﻘﺸﻪ ﺧﺮﻳﺪ ﺑﺮاي ﻣﺸﺘﺮﻳﺎن در ﻳﻚ ﻓﺮوﺷﮕﺎه‬
‫ﻗﺮاردادن ﺗﻤﺎم اﺟﻨﺎس ﻣﺮﺗﺒﻂ ﻣﻨﻄﻘﻲ ﺑﻪ ﺻﻮرت ﻓﻴﺰﻳﻜﻲ در ﻛﻨﺎر ﻳﻜﺪﻳﮕﺮ‬
‫ﻣﻤﻜﻦ اﺳﺖ ارزش ﻛﺎﻣﻞ ﺳﺒﺪ ﺧﺮﻳﺪ را ﻛﺎﻫﺶ دﻫﺪ – ﻣﺸﺘﺮﻳﺎن ﻣﻤﻜﻦ اﺳﺖ‬
‫در ﻣﺠﻤﻮع ارزش ﻛﻤﺘﺮي ﺧﺮﻳﺪ ﻛﻨﻨﺪ ﭼﻮن آﻧﻬﺎ ﺑﺮ ﺧﻼف ﻧﻘﺸﻪ ﺧﺮﻳﺪ ﻣﻮرد‬
‫ﻧﻈﺮ ﺷﻤﺎ در ﺣﻴﻦ راه رﻓﺘﻦ در ﻣﻐﺎزه اﺟﻨﺎس ﻣﻮرد دﻟﺨﻮاه ﺧﻮد را ﺧﺮﻳﺪ ﻣﻲ‬
‫ﻛﻨﻨﺪ. در ﭼﻨﻴﻦ ﺣﺎﻟﺘﻲ ﺗﻘﺮﻳﺐ و ﺗﺤﻠﻴﻞ ارﺗﺒﺎﻃﺎت ﻣﻌﻤﻮﻻ ﺑﺮاي ﺑﺪﺳﺖ آوردن‬
‫ﻫﺮ ﮔﻮﻧﻪ ﺳﻮدي از ﻗﻮاﻧﻴﻦ ﻣﺮﺗﺒﻂ ﺑﺎ ﻫﻢ ﻣﻮرد ﻧﻴﺎز ﺧﻮاﻫﺪ ﺑﻮد.‬
‫روﺷﻬﺎي ﮔﺮاﻓﻴﻜﻲ ﻣﻲ ﺗﻮاﻧﻨﺪ در ﻧﻤﺎﻳﺶ ﺳﺎﺧﺘﺎر ارﺗﺒﺎﻃﺎت ﻧﻘﺶ داﺷﺘﻪ ﺑﺎﺷﻨﺪ.‬
‫در ﺷﻜﻞ زﻳﺮ ﻫﺮ ﻳﻚ از دواﻳﺮ ﻳﻚ ﻣﻘﺪار ﻳﺎ ﻳﻚ روﻳﺪاد را ﻧﻤﺎﻳﺶ ﻣﻲ دﻫﺪ.‬
‫ﺧﻄﻮط ارﺗﺒﺎﻃﻲ ﻣﻴﺎن اﻳﻦ داﻳﺮه ﻫﺎ ﻳﻚ ارﺗﺒﺎط را ﻧﺸﺎن ﻣﻲ دﻫﻨﺪ. ﺧﻄﻮط‬
‫ﻛﻠﻔﺖ ﺗﺮ ارﺗﺒﺎﻃﺎت ﻗﻮي ﺗﺮ و ﻓﺮاوان ﺗﺮي را ﻧﻤﺎﻳﺶ ﻣﻲ دﻫﻨﺪ. ]4[‬

‫ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﻲ از اﻧﺘﺨﺎب ﻫﺎ‬
‫ﻫﺪف داده ﻛﺎوي ﺗﻮﻟﻴﺪ داﻧﺶ ﺟﺪﻳﺪي اﺳﺖ ﻛﻪ ﻛﺎرﺑﺮ ﺑﺘﻮاﻧﺪ ﺑﺮ اﺳﺎس آن ﻛﺎر‬
‫ﺧﻮد را ﺟﻠﻮ ﺑﺮد. اﻳﻦ ﻛﺎر ﺑﻮﺳﻴﻠﻪ ﺳﺎﺧﺘﻦ ﻣﺪﻟﻲ از ﺟﻬﺎن واﻗﻌﻲ ﺑﺮ ﭘﺎﻳﻪ داده‬

‫ﻫﺎﻳﻲ ﻛﻪ از ﻣﻨﺎﺑﻊ ﮔﻮﻧﺎﮔﻮن ﺑﺪﺳﺖ ﻣﻲ آﻳﺪ ﺻﻮرت ﮔﻴﺮد ﻛﻪ اﻳﻦ ﻣﻨﺎﺑﻊ ﻣﻲ ﺗﻮاﻧﺪ‬
‫ﺷﺎﻣﻞ ﺗﺮاﻛﻨﺸﻬﺎي ﻫﻤﺎﻫﻨﮓ, ﺗﺎرﻳﺦ ﻣﺮﺑﻮط ﺑﻪ ﻫﺮ ﻣﺸﺘﺮي, اﻃﻼﻋﺎت ﻧﻤﺎﻳﺶ‬
‫ﮔﺮاﻓﻴﻜﻲ, داده ﻛﻨﺘﺮل ﻓﺮآﻳﻨﺪ و ﭘﺎﻳﮕﺎه داده ﻫﺎي ﻣﺮﺗﺒﻂ ﺧﺎرﺟﻲ ﻣﺎﻧﻨﺪ اﻃﻼﻋﺎت‬
‫اﻋﺘﺒﺎر اداري و ... ﺑﺎﺷﺪ. ﻧﺘﻴﺠﻪ ﻣﺪل ﺳﺎزي ﻳﻚ ﺳﺮي ﺗﻮﺿﻴﺤﺎت در ﻣﻮرد اﻟﮕﻮﻫﺎ‬
‫و ارﺗﺒﺎﻃﺎت داده اي ﻛﻪ ﻣﻲ ﺗﻮاﻧﺪ ﺑﻪ ﺻﻮرت ﻣﻄﻤﺌﻨﻲ ﺟﻬﺖ ﭘﻴﺶ ﺑﻴﻨﻲ آﻳﻨﺪه‬
‫ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﮔﻴﺮد.‬
‫ﺑﺮاي ﺟﻠﻮﮔﻴﺮي از ﺳﺮﮔﺮداﻧﻲ در ﻣﺮاﺣﻞ ﻣﺨﺘﻠﻒ داده ﻛﺎوي اﻳﺠﺎد ﺗﺼﻮﻳﺮي از‬
‫ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﻲ از اﻧﺘﺨﺎﺑﺎت و ﺗﺼﻤﻴﻢ ﻫﺎ ﻛﻪ ﻧﻴﺎز ﻣﻨﺪ آن ﻫﺴﺘﻴﺪ در ذﻫﻦ ﻗﺒﻞ از‬
‫ﺷﺮوع ﻛﺎر ﺑﻪ ﺷﻤﺎ ﻛﻤﻚ ﺧﻮاﻫﺪ ﻛﺮد:‬
‫- ﻫﺪف ﻛﺎر‬
‫- ﻧﻮع ﭘﻴﺶ ﺑﻴﻨﻲ‬
‫- ﻧﻮع ﻣﺪل اﻧﺘﺨﺎﺑﻲ‬
‫- اﻟﮕﻮرﻳﺘﻢ‬
‫- ﻣﺤﺼﻮل‬

‫اوﻟﻴﻦ ﮔﺎم ﻣﺸﺨﺺ ﻧﻤﻮدن ﻫﺪف ﻛﺎر ﻣﻲ ﺑﺎﺷﺪ :‬
‫ﻫﺪف ﻧﻬﺎﻳﻲ از ﺟﺴﺘﺠﻮي اﻳﻦ داده ﭼﻴﺴﺖ؟ ﺑﺮاي ﻣﺜﺎل ﺟﻬﺖ ﻳﺎﻓﺘﻦ اﻟﮕﻮﻫﺎي‬
‫ﻣﻔﻴﺪي در داده ﺧﻮد ﺑﺮاي اﻳﻦ ﻛﻪ ﺑﻪ ﺷﻤﺎ ﻛﻤﻚ ﻛﻨﺪ ﻣﺸﺘﺮﻳﺎن ﺧﻮد را ﺣﻔﻆ‬
‫ﻛﻨﻴﺪ ﺷﻤﺎ ﺑﺎﻳﺪ ﻳﻚ ﻣﺪل ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ ﺳﻮدﺑﺨﺸﻲ ﺑﻪ ﻣﺸﺘﺮي و ﻣﺪل‬
‫دﻳﮕﺮي ﺑﺮاي ﺷﻨﺎﺳﺎﻳﻲ ﻣﺸﺘﺮﻳﺎﻧﻲ ﻛﻪ آﻧﺠﺎ را ﺗﺮك ﻛﺮده اﻧﺪ ﻃﺮاﺣﻲ ﻛﻨﻴﺪ.‬
‫داﻧﺶ ﺷﻤﺎ از اﺣﺘﻴﺎﺟﺎت و اﻫﺪاف ﺳﺎزﻣﺎﻧﺘﺎن ﺷﻤﺎ را ﺑﻪ ﺳﻤﺖ ﻓﺮﻣﻮﻟﻪ ﻛﺮدن‬
‫اﻫﺪاف ﻣﺪﻟﻬﺎﻳﺘﺎن راﻫﻨﻤﺎﻳﻲ ﺧﻮاﻫﺪ ﻛﺮد.‬
‫ﮔﺎم ﺑﻌﺪي ﺗﺼﻤﻴﻢ در ﻣﻮرد اﻧﺘﺨﺎب ﻧﻮﻋﻲ ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻪ از ﻫﻤﻪ ﻣﻨﺎﺳﺐ ﺗﺮ‬
‫اﺳﺖ ﻣﻲ ﺑﺎﺷﺪ:‬

‫)1( ﻃﺒﻘﻪ ﺑﻨﺪي: ﺗﻌﻴﻴﻦ اﻳﻦ ﻛﻪ اﻳﻦ ﻣﻮرد ﺧﺎص در ﻛﺪام ﻛﻼس ﻳﺎ دﺳﺘﻪ ﻗﺮار‬
‫ﻣﻲ ﮔﻴﺮد.‬
‫)2( ﺣﺪس زدن اﻳﻨﻜﻪ ﻳﻚ ﻣﺘﻐﻴﺮ ﭼﻪ ﻣﻘﺪار ﻋﺪدي ﺧﻮاﻫﺪ داﺷﺖ)اﮔﺮ ﻣﺘﻐﻴﺮي‬
‫ﺑﺎﺷﺪ ﻛﻪ ﺑﺎ زﻣﺎن ﺗﻐﻴﻴﺮ ﻛﻨﺪ اﻳﻦ ﻛﺎر ﺣﺪس ﺳﺮﻳﻬﺎي زﻣﺎﻧﻲ ﻧﺎﻣﻴﺪه ﻣﻲ ﺷﻮد(.در‬
‫ﻣﺜﺎل ﺑﺎﻻ ﺷﻤﺎ ﻣﻲ ﺗﻮاﻧﻴﺪ از اﻳﻦ ﺣﺪس ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ ﻣﻘﺪار ﺳﻮددﻫﻲ و‬
‫ﻃﺒﻘﻪ ﺑﻨﺪي ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ اﻳﻨﻜﻪ ﻛﺪام ﻣﺸﺘﺮﻳﺎن ﻣﻤﻜﻦ اﺳﺖ ﺧﺮﻳﺪ ﺷﻤﺎ را‬
‫ﺗﺮك ﻛﻨﻨﺪ اﺳﺘﻔﺎده ﻛﻨﻴﺪ.‬
‫ﺣﺎﻻ ﻧﻮﺑﺖ ﺑﻪ ﻧﻮع ﻣﺪل ﻣﻲ رﺳﺪ:‬
‫ﻛﻪ ﻋﺒﺎرت اﺳﺖ از ﻳﻚ ﺷﺒﻜﻪ ﻋﺼﺒﻲ ﺑﺮاي اﻧﺠﺎم ﺣﺪس ﻓﻮق اﻟﺬﻛﺮ و ﻳﻚ‬
‫درﺧﺖ ﺗﺼﻤﻴﻢ ﺑﺮاي ﻃﺒﻘﻪ ﺑﻨﺪي. ﻣﺪﻟﻬﺎي آﻣﺎري ﺳﻨﺘﻲ ﻧﻴﺰ ﺑﺮاي اﻧﺘﺨﺎب از‬
‫ﻣﺪﻟﻬﺎي ﻣﻌﻤﻮﻟﻲ ﺧﻄﻲ , ﺗﺤﻠﻴﻞ ﺗﻔﻜﻴﻜﻲ و ﺣﺪس ﻣﻨﻄﻘﻲ وﺟﻮد دارد.‬
‫ﻣﻬﻤﺘﺮﻳﻦ ﻧﻮع اﻳﻦ ﻣﺪﻟﻬﺎ ﺑﺮاي داده ﻛﺎوي در ﺑﺨﺶ ﺑﻌﺪ )اﻟﮕﻮرﻳﺘﻤﻬﺎ و ﻣﺪﻟﻬﺎي‬
‫داده ﻛﺎوي(ﺗﻮﺿﻴﺢ داده ﻣﻲ ﺷﻮد.‬
‫اﻟﮕﻮرﻳﺘﻤﻬﺎي زﻳﺎدي ﺑﺮاي ﺳﺎﺧﺖ ﻣﺪﻟﻬﺎﻳﺘﺎن در دﺳﺘﺮس ﻫﺴﺘﻨﺪ. ﺷﻤﺎ ﻣﻲ‬
‫ﺗﻮاﻧﻴﺪ ﺑﺎ اﺳﺘﻔﺎده از ﺗﻮاﺑﻊ ﺷﻌﺎﻋﻲ ﻳﺎ اﻧﺘﺸﺎري ﺷﺒﻜﻪ ﻋﺼﺒﻲ ﺑﺴﺎزﻳﺪ. ﺑﺮاي درﺧﺖ‬
‫ﺗﺼﻤﻴﻢ ﺷﻤﺎ ﻣﻲ ﺗﻮاﻧﻴﺪ از ﻣﻴﺎن ﻃﺮق ‪ CHAID , Quest , c5.0 , cart‬ﻳﻜﻲ‬
‫را اﻧﺘﺨﺎب ﻛﻨﻴﺪ. ﺑﺮﺧﻲ از اﻳﻦ اﻟﮕﻮرﻳﺘﻢ ﻫﺎ در ﻣﺪﻟﻬﺎ و اﻟﮕﻮرﻳﺘﻤﻬﺎي داده ﻛﺎوي‬
‫ﺗﻮﺿﻴﺢ داده ﺷﺪه اﺳﺖ.‬
‫ﻫﻨﮕﺎم اﻧﺘﺨﺎب ﻳﻚ ﻣﺤﺼﻮل داده ﻛﺎوي ﺑﺎﻳﺪ ﺗﻮﺟﻪ داﺷﺖ ﻛﻪ اﻳﻦ ﻣﺤﺼﻮﻻت‬
‫ﭘﻴﺎده ﺳﺎزﻳﻬﺎي ﻣﺨﺘﻠﻔﻲ از ﻳﻚ اﻟﮕﻮرﻳﺘﻢ ﺧﺎص دارﻧﺪ ﺣﺘﻲ اﮔﺮ اﻳﻦ اﻟﮕﻮرﻳﺘﻢ‬
‫ﺑﺮاي ﻫﻤﻪ آﻧﻬﺎ ﻧﺎم ﻳﻜﺴﺎﻧﻲ داﺷﺘﻪ ﺑﺎﺷﺪ. اﻳﻦ ﺗﻔﺎوﺗﻬﺎ در ﭘﻴﺎده ﺳﺎزي ﻣﻲ ﺗﻮاﻧﺪ ﺑﺮ‬
‫روي ﻣﺸﺨﺼﻪ ﻫﺎي ﻗﺎﺑﻞ اﺳﺘﻔﺎده ﻣﺎﻧﻨﺪ اﺳﺘﻔﺎده از ﺣﺎﻓﻈﻪ و ذﺧﻴﺮه داده و‬
‫ﻫﻤﭽﻨﻴﻦ ﺑﺮ روي ﻣﺸﺨﺼﻪ ﻫﺎي ﻛﺎراﻳﻲ ﻣﺎﻧﻨﺪ ﺳﺮﻋﺖ و دﻗﺖ ﺗﺎﺛﻴﺮ ﺑﮕﺬارﻧﺪ.‬
‫ﺑﺴﻴﺎري از اﻫﺪاف ﺗﺠﺎري ﺑﻪ ﺑﻬﺘﺮﻳﻦ ﺷﻜﻞ ﺑﻪ وﺳﻴﻠﻪ ﺳﺎﺧﺖ اﻧﻮاع ﻣﺨﺘﻠﻔﻲ از‬
‫ﻣﺪﻟﻬﺎ ﺑﺎ اﺳﺘﻔﺎده از اﻟﮕﻮرﻳﺘﻤﻬﺎي ﻣﺨﺘﻠﻒ ﺑﻪ دﺳﺖ ﻣﻲ آﻳﻨﺪ. ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ‬

‫ﺗﺎ زﻣﺎﻧﻲ ﻛﻪ راه ﻫﺎي ﻣﺨﺘﻠﻔﻲ را اﻣﺘﺤﺎن ﻧﻜﻨﻴﺪ ﻗﺎدر ﻧﺒﺎﺷﻴﺪ ﺗﻌﻴﻴﻦ ﻛﻨﻴﺪ ﻛﺪام‬
‫ﻧﻮع ﻣﺪل ﺑﻬﺘﺮﻳﻦ اﺳﺖ. ]1[‬

‫ﻃﺒﻘﻪ ﺑﻨﺪي‬
‫ﻣﺴﺎﺋﻞ ﻃﺒﻘﻪ ﺑﻨﺪي ﺑﻪ ﺷﻨﺎﺳﺎﻳﻲ ﺧﺼﻮﺻﻴﺎﺗﻲ ﻣﻨﺠﺮ ﻣﻲ ﺷﻮﻧﺪ ﻛﻪ ﻣﺸﺨﺺ ﻣﻲ‬
‫ﻧﻤﺎﻳﻨﺪ ﻫﺮ ﻣﻮرد ﺑﻪ ﻛﺪام ﮔﺮوه ﺗﻌﻠﻖ دارد.اﻳﻦ اﻟﮕﻮ ﻫﻢ ﻣﻲ ﺗﻮاﻧﺪ ﺑﺮاي ﻓﻬﻢ داده‬
‫ﻣﻮﺟﻮد و ﻫﻢ ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ اﻳﻨﻜﻪ ﻫﺮ ﻧﻤﻮﻧﻪ ﺟﺪﻳﺪ ﭼﮕﻮﻧﻪ ﻛﺎر ﻣﻲ ﻛﻨﺪ‬
‫اﺳﺘﻔﺎده ﺷﻮد. ﺑﺮاي ﻣﺜﺎل ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ ﺑﺨﻮاﻫﻴﺪ ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻨﻴﺪ ﻛﻪ آﻳﺎ‬
‫اﺷﺨﺎص ﺑﺮاي ﭘﺎﺳﺨﮕﻮﻳﻲ ﺑﻪ درﺧﻮاﺳﺖ ﻳﻚ ﻣﻴﻞ ﻣﺴﺘﻘﻴﻢ ﻛﻪ ﻣﻤﻜﻦ اﺳﺖ ﺑﻪ‬
‫ﻳﻚ دﺳﺘﮕﺎه ﺗﻠﻔﻦ ﺑﺎ ﻣﺴﺎﻓﺖ زﻳﺎد آﺳﻴﺐ ﺑﺮﺳﺎﻧﺪ ﻣﻲ ﺗﻮاﻧﻨﺪ ﮔﺮوه ﺑﻨﺪي ﺷﻮﻧﺪ ﻳﺎ‬
‫ﺑﺮاي ﻳﻚ ﻋﻤﻞ ﺟﺮاﺣﻲ ﺑﺎﻳﺪ ﮔﺮوه ﺑﻨﺪي ﺷﻮﻧﺪ.‬
‫داده ﻛﺎوي ﻣﺪﻟﻬﺎي ﻃﺒﻘﻪ ﺑﻨﺪي را ﺑﻮس ي ﻟﻪ اﻣﺘﺤﺎن ﻛﺮدن داده ﻃﺒﻘﻪ ﺑﻨﺪي‬
‫ﺷﺪه)ﻣﻮارد( و ﻧﻬﺎ ي ﺗﺎ ي اﻓﺘﻦ ي ك اﻟﮕﻮي پ ي ش ﮔﻮ ا ي ﺟﺎد ﻣﻲ ﻛﻨﺪ. ا ي ن‬
‫ﻣﻮارد ﻣﻮﺟﻮد ﻣﻲ ﺗﻮاﻧﺪ از ﻳﻚ ﭘﺎﻳﮕﺎه داده ﺗﺎرﻳﺨﻲ ﻧﺎﺷﻲ ﺷﻮد ﻣﺎﻧﻨﺪ اﻃﻼﻋﺎت‬
‫اﻓﺮادي ﻛﻪ ﺗﺤﺖ ﻣﻌﺎﻟﺠﻪ داروﻳﻲ ﺧﺎﺻﻲ ﻫﺴﺘﻨﺪ و ﻳﺎ ﺑﻪ ﺳﻤﺖ ﻳﻚ ﺧﺪﻣﺖ ﺑﺎ‬
‫ﻣﺴﺎﻓﺖ دور ﺟﺬب ﺷﺪه اﻧﺪ.ﻳﺎ اﻳﻨﻜﻪ از ﺗﺠﺮﺑﻪ ﻫﺎﻳﻲ ﻛﻪ ﻃﻲ آن ﻳﻚ ﻧﻤﻮﻧﻪ از‬
‫ﺗﻤﺎم ﭘﺎﻳﮕﺎه داده در ﺟﻬﺎن واﻗﻌﻲ ﺗﺴﺖ ﺷﺪه ﺑﺎﺷﺪ و ﻧﺘﺎﻳﺞ آن ﺑﺮاي اﻳﺠﺎد ﻳﻚ‬
‫ﮔﺮوه ﺑﻨﺪ اﺳﺘﻔﺎده ﺷﺪه ﺑﺎﺷﻨﺪ ﻣﻨﺘﺞ ﺷﻮد. ﺑﺮاي ﻣﺜﺎل ﻳﻚ ﻧﻤﻮﻧﻪ از ﻟﻴﺴﺘﻲ‬
‫از ﭘﻴﺎﻣﻬﺎ ﺑﻪ ﻋﻨﻮان ﭘﻴﺸﻨﻬﺎد ﻓﺮﺳﺘﺎده ﺧﻮاﻫﺪ ﺷﺪ و ﻧﺘﺎﻳﺞ ﭘﻴﺎم رﺳﺎﻧﻲ ﺑﺮاي‬
‫ﺳﺎﺧﺖ ﻳﻚ ﻣﺪل ﻃﺒﻘﻪ ﺑﻨﺪي ﺟﻬﺖ ﺑﻜﺎر ﮔﺮﻓﺘﻪ ﺷﺪن در ﺗﻤﺎم ﭘﺎﻳﮕﺎه داده‬
‫اﺳﺘﻔﺎده ﺧﻮاﻫﺪ ﺷﺪ.‬
‫ﺣﺪس ﺑﺎزﮔﺸﺘﻲ‬
‫ﺣﺪس ﺑﺎزﮔﺸﺘﻲ از داده ﻫﺎي ﻣﻮﺟﻮد ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ اﻳﻦ ﻛﻪ ﻣﻘﺎدﻳﺮ داده ﻫﺎي‬
‫دﻳﮕﺮ ﭼﻪ ﺧﻮاﻫﺪ ﺑﻮد اﺳﺘﻔﺎده ﻣﻲ ﻛﻨﺪ. در ﺳﺎده ﺗﺮﻳﻦ ﺣﺎﻟﺖ ﺣﺪس ﻣﺬﻛﻮر از‬
‫ﺗﻜﻨﻴﻜﻬﺎي آﻣﺎري ﻣﺎﻧﻨﺪ ﺣﺪس ﺧﻄﻲ اﺳﺘﻔﺎده ﻣﻲ ﻛﻨﺪ. ﻣﺘﺎﺳﻔﺎﻧﻪ ﺑﺴﻴﺎري از‬
‫ﻣﺴﺎﺋﻞ ﺟﻬﺎن واﻗﻊ ﺗﺼﻮﻳﺮي ﺧﻄﻲ از ﻣﻘﺎدﻳﺮ ﻗﺒﻠﻲ ﻧﻴﺴﺘﻨﺪ. ﺑﺮاي ﻧﻤﻮﻧﻪ ﻣﻘﺎدﻳﺮ‬

‫ﻓﺮوش, ارزش ﻓﺮوش, ارزش ﺳﻬﺎم و ﻧﺮخ ورﺷﻜﺴﺘﮕﻲ ﻣﺤﺼﻮل ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ‬
‫ﺳﺨﺖ ﻣﻲ ﺑﺎﺷﺪ زﻳﺮا آﻧﻬﺎ ﻣﻤﻜﻦ اﺳﺖ ﺑﺮ ﻓﻌﻞ و اﻧﻔﻌﺎﻻت ﭘﻴﭽﻴﺪه ﺣﺎﺻﻞ از‬
‫ﭼﻨﺪﻳﻦ ﻣﺘﻐﻴﺮ ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻨﻨﺪه ﻣﺘﻜﻲ ﺑﺎﺷﻨﺪ. ﺑﻨﺎﺑﺮاﻳﻦ ﺗﻜﻨﻴﻜﻬﺎي ﭘﻴﭽﻴﺪه ﺗﺮي‬
‫ﻣﻤﻜﻦ اﺳﺖ ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ ﻣﺘﻐﻴﺮﻫﺎي آﻳﻨﺪه ﺿﺮوري ﺑﺎﺷﻨﺪ. اﻧﻮاع ﻣﺪل‬
‫ﻳﻜﺴﺎن اﻏﻠﺐ ﻣﻲ ﺗﻮاﻧﻨﺪ ﻫﻢ ﺑﺮاي ﺣﺪس ﺑﺎزﮔﺸﺘﻲ وﻫﻢ ﺑﺮاي ﻃﺒﻘﻪ ﺑﻨﺪي‬
‫اﺳﺘﻔﺎده ﺷﻮﻧﺪ. ﺑﺮاي ﻣﺜﺎل اﻟﮕﻮرﻳﺘﻢ درﺧﺖ ﺗﺼﻤﻴﻢ ‪) CART‬درﺧﺘﻬﺎي ﺣﺪس‬
‫وﻃﺒﻘﻪ ﺑﻨﺪي (ﻫﻢ ﺑﺮاي ﺳﺎﺧﺖ درﺧﺘﻬﺎي ﺣﺪس و ﻫﻢ ﺑﺮاي ﺳﺎﺧﺖ درﺧﺘﻬﺎي‬
‫ﻃﺒﻘﻪ ﺑﻨﺪي ﺑﻪ ﻛﺎر ﻣﻲ رود. ﺷﺒﻜﻪ ﻫﺎي ﻋﺼﺒﻲ ﻫﻢ ﻣﻲ ﺗﻮاﻧﻨﺪ ﻫﺮ دو ﻧﻮع ﻣﺪل‬
‫ﻧﺎم ﺑﺮده ﺷﺪه را اﻳﺠﺎد ﻧﻤﺎﻳﻨﺪ.‬
‫ﺳﺮي ﻫﺎي زﻣﺎﻧﻲ‬
‫ﺳﺮي ﻫﺎي زﻣﺎﻧﻲ ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻨﻨﺪه ﻣﻘﺎدﻳﺮي را ﻛﻪ ﻫﻨﻮز ﻣﻘﺪارﺷﺎن ﻣﺸﺨﺺ‬
‫ﻧﻴﺴﺖ ﺑﺮ اﺳﺎس ﻳﻚ ﺳﺮي از ﭘﻴﺸﮕﻮﻫﺎي ﻣﺘﻐﻴﺮ ﺑﺎ زﻣﺎن ﭘﻴﺶ ﺑﻴﻨﻲ ﻣﻲ ﻛﻨﻨﺪ.‬
‫ﻣﺎﻧﻨﺪ ﺣﺪس ﺑﺎزﮔﺸﺘﻲ اﻳﻦ روش ﻫﻢ از ﻧﺘﺎﻳﺞ ﻣﻌﻠﻮم ﻗﺒﻠﻲ ﺑﺮاي اﻋﻤﺎل‬
‫ﭘﻴﺸﮕﻮﻳﻲ ﻫﺎي ﺑﻌﺪي اش ﺑﻬﺮه ﻣﻲ ﺑﺮد. ﻣﺪﻟﻬﺎ ﺑﺎﻳﺪ ﺧﻮاص ﻣﻨﺤﺼﺮ ﺑﻔﺮد زﻣﺎن‬
‫ﻋﻠﻲ اﻟﺨﺼﻮص ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺐ دوره ﻫﺎي زﻣﺎﻧﻲ ﻣﺎﻧﻨﺪ دوره ﻫﺎي ﻓﺼﻠﻲ ﺗﺎﺛﻴﺮات‬
‫ﺗﻘﻮﻳﻤﻲ ﻣﺎﻧﻨﺪ ﺗﻌﻄﻴﻼت ﻣﺤﺎﺳﺒﺎت ﺗﺎرﻳﺨﻲ و ﻣﻼﺣﻈﺎت ﺧﺎص ﻣﺎﻧﻨﺪ ﺗﻄﺒﻴﻖ‬
‫ﮔﺬﺷﺘﻪ ﺑﺎ ﺣﺎل را ذﺧﻴﺮه ﻧﻤﺎﻳﻨﺪ.‬
‫ﻣﺪﻟﻬﺎ و اﻟﮕﻮرﻳﺘﻤﻬﺎي داده ﻛﺎوي‬
‫ﺣﺎل ﺑﻴﺎﻳﻴﺪ ﺑﺮﺧﻲ از اﻟﮕﻮرﻳﺘﻤﻬﺎ و ﻣﺪﻟﻬﺎﻳﻲ را ﻛﻪ ﺑﺮاي ﻛﺎوش داده اﺳﺘﻔﺎده ﻣﻲ‬
‫ﺷﻮد را ﺑﺮرﺳﻲ ﻛﻨﻴﻢ. اﻏﻠﺐ ﻣﺤﺼﻮﻻت از اﻧﻮاع ﮔﻮﻧﺎﮔﻮﻧﻲ از اﻟﮕﻮرﻳﺘﻤﻬﺎ ﻛﻪ در‬
‫ﻋﻠﻢ ﻛﺎﻣﭙﻴﻮﺗﺮ ﻳﺎ ﻣﻘﺎﻻت آﻣﺎري اراﺋﻪ ﺷﺪه ﺑﻪ ﻫﻤﺮاه ﭘﻴﺎده ﺳﺎزي ﺧﺎص آﻧﻬﺎ ﻛﻪ‬
‫ﺟﻬﺖ رﺳﻴﺪن ﺑﻪ ﻫﺪف ﻓﺮوﺷﻨﺪه ﻣﻲ ﺑﺎﺷﺪ اﺳﺘﻔﺎده ﻣﻲ ﻧﻤﺎﻳﻨﺪ. ﺑﺮاي ﻣﺜﺎل‬
‫ﺑﺴﻴﺎري از ﻓﺮوﺷﻨﺪﮔﺎن ﻧﺴﺨﻪ ﻫﺎﻳﻲ از درﺧﺘﻬﺎي ﺗﺼﻤﻴﻢ ‪ CART‬ﻳﺎ‬
‫‪ CHAID‬را ﺑﻪ ﻫﻤﺮاه اﻣﻜﺎﻧﺎﺗﻲ ﺑﺮاي ﻛﺎر ﺑﺮ روي ﻛﺎﻣﭙﻴﻮﺗﺮﻫﺎي ﻣﻮازي ﻣﻲ‬
‫ﻓﺮوﺷﻨﺪ. ﺑﺮﺧﻲ از ﻓﺮوﺷﻨﺪﮔﺎن اﻟﮕﻮرﻳﺘﻤﻬﺎي ﻣﺨﺘﺺ ﺧﻮد دارﻧﺪ ﻛﻪ ﮔﺮﭼﻪ‬

‫ﻣﻤﻜﻦ اﺳﺖ واﺑﺴﺘﮕﻲ ﻫﺎ ﻳﺎ اﻣﻜﺎﻧﺎت اﺿﺎﻓﻲ ﻧﺪاﺷﺘﻪ ﺑﺎﺷﺪ اﻣﺎ ﻣﻲ ﺗﻮاﻧﺪ ﺧﻮب ﻛﺎر‬
‫ﻛﻨﺪ.‬
‫ﺷﺎﻳﺪ ﻣﻬﻤﺘﺮﻳﻦ ﻧﻜﻨﻪ اي ﺑﺎﺷﺪ ﻛﻪ ﻫﻴﭻ ﻣﺪل ﻳﺎ اﻟﮕﻮرﻳﺘﻤﻲ ﻧﻤﻲ ﺗﻮاﻧﺪ و ﻧﺒﺎﻳﺪ ﺑﻪ‬
‫ﺗﻨﻬﺎﻳﻲ اﺳﺘﻔﺎده ﺷﻮد. ﺑﺮاي ﻫﺮ ﻣﺴﺎﻟﻪ داده ﺷﺪه ﻃﺒﻴﻌﺖ داده اﺳﺘﻔﺎده ﺷﺪه ﺑﺮ‬
‫روي اﻧﺘﺨﺎب ﻣﺪﻟﻬﺎ و اﻟﮕﻮرﻳﺘﻤﻬﺎﻳﻲ ﻛﻪ ﺷﻤﺎ ﺑﺮ ﻣﻲ ﮔﺰﻳﻨﻴﺪ ﺗﺎﺛﻴﺮ ﺧﻮاﻫﺪ‬
‫ﮔﺬاﺷﺖ. ﻧﻤﻲ ﺗﻮان ﻫﻴﭻ ﻣﺪل ﻳﺎ اﻟﮕﻮرﻳﺘﻤﻲ را در اﻳﻦ زﻣﻴﻨﻪ ﺑﻬﺘﺮﻳﻦ ﻧﺎﻣﻴﺪ.‬
‫ﻧﺘﻴﺠﺘﺎ ﺷﻤﺎ ﺑﻪ ﻳﻚ ﺳﺮي اﺑﺰار و ﺗﻜﻨﻮﻟﻮژي ﺟﻬﺖ ﻳﺎﻓﺘﻦ ﺑﻬﺘﺮﻳﻦ ﻣﺪل ﻣﻤﻜﻨﻪ‬
‫ﻧﻴﺎز ﺧﻮاﻫﻴﺪ داﺷﺖ. ]3[‬
‫ﺷﺒﻜﻪ ﻫﺎي ﻋﺼﺒﻲ‬
‫ﺷﺒﻜﻪ ﻫﺎي ﻋﺼﺒﻲ ﺑﻪ ﻃﻮر ﺧﺎﺻﻲ ﻣﻮرد اﺳﺘﻔﺎده اﻧﺪ ﭼﺮا ﻛﻪ آﻧﻬﺎ اﺑﺰاري ﻣﻮﺛﺮ‬
‫ﺑﺮاي ﻣﺪﻟﺴﺎزي ﻣﺴﺎﺋﻞ ﺑﺰرگ و ﭘﻴﭽﻴﺪه ﻛﻪ ﻣﻤﻜﻦ اﺳﺖ در آﻧﻬﺎ ﺻﺪﻫﺎ ﻣﺘﻐﻴﺮ‬
‫ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻨﻨﺪه ﻛﻪ ﻓﻌﻞ و اﻧﻔﻌﺎﻻت زﻳﺎدي دارﻧﺪ وﺟﻮد داﺷﺘﻪ ﺑﺎﺷﺪ.)ﺷﺒﻜﻪ‬
‫ﻫﺎي ﻋﺼﺒﻲ زﻳﺴﺘﻲ ﺑﻄﻮر ﻏﻴﺮ ﻗﺎﺑﻞ ﻣﻘﺎﻳﺴﻪ اي ﭘﻴﭽﻴﺪه ﺗﺮ ﻫﺴﺘﻨﺪ.(ﺷﺒﻜﻪ ﻫﺎي‬
‫ﻋﺼﺒﻲ ﻣﻲ ﺗﻮاﻧﻨﺪ در ﻣﺴﺎﺋﻞ ﻃﺒﻘﻪ ﺑﻨﺪي ﻳﺎ ﺣﺪﺳﻬﺎي ﺑﺎزﮔﺸﺘﻲ)ﻛﻪ در آﻧﻬﺎ‬
‫ﻣﺘﻐﻴﺮ ﺧﺮوﺟﻲ ﭘﻴﻮﺳﺘﻪ اﺳﺖ( اﺳﺘﻔﺎده ﺷﻮﻧﺪ.‬
‫ﻳﻚ ﺷﺒﻜﻪ ﻋﺼﺒﻲ ﺑﺎ ﻳﻚ ﻻﻳﻪ داﺧﻠﻲ ﺷﺮوع ﻣﻲ ﺷﻮد ﻛﻪ در آن ﻫﺮ ﮔﺮه ﺑﻪ ﻳﻚ‬
‫ﻣﺘﻐﻴﺮ ﭘﻴﺸﮕﻮ ﻣﻨﺴﻮب ﻣﻲ ﮔﺮدد. اﻳﻦ ﮔﺮه ﻫﺎي ورودي ﺑﻪ ﻳﻚ ﺗﻌﺪاد از ﮔﺮه ﻫﺎ‬
‫در ﻻﻳﻪ ﭘﻨﻬﺎن ﻣﺘﺼﻞ ﻣﻲ ﺷﻮﻧﺪ.ﮔﺮه ﻫﺎ در ﻻﻳﻪ ﭘﻨﻬﺎن ﻣﻲ ﺗﻮاﻧﻨﺪ ﺑﻪ ﮔﺮه ﻫﺎﻳﻲ‬
‫در ﻳﻚ ﻻﻳﻪ ﭘﻨﻬﺎن دﻳﮕﺮ ﻳﺎ ﺑﻪ ﻳﻚ ﻻﻳﻪ ﺧﺮوﺟﻲ ﻣﺘﺼﻞ ﺷﻮد. ﻻﻳﻪ ﺧﺮوﺟﻲ ﺧﻮد‬
‫ﺷﺎﻣﻞ ﻳﻚ ﻳﺎ ﺑﻴﺸﺘﺮ ﻣﺘﻐﻴﺮﻫﺎي ﺟﻮاب ﻣﻲ ﺑﺎﺷﺪ.‬

‫ﻳﻚ ﺷﺒﻜﻪ ﻋﺼﺒﻲ ﺑﺎ ﻳﻚ ﻻﻳﻪ ﭘﻨﻬﺎن‬

‫درﺧﺖ ﻫﺎي اﻧﺘﺨﺎب‬
‫درﺧﺖ ﻫﺎي اﻧﺘﺨﺎب راﻫﻲ ﺑﺮاي ﻧﻤﺎﻳﺶ ﻳﻚ ﺳﺮي از ﻗﻮاﻧﻴﻦ ﻛﻪ ﺑﻪ ﻳﻚ ﻛﻼس‬
‫ﻳﺎ ﻣﻘﺪار ﻣﻨﺠﺮ ﻣﻲ ﺷﻮد ﻣﻲ ﺑﺎﺷﻨﺪ. ﺑﺮاي ﻣﺜﺎل ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ ﺑﺨﻮاﻫﻴﺪ‬
‫درﺧﻮاﺳﺘﻬﺎي وام را ﺑﺮﺣﺴﺐ رﻳﺴﻚ اﻋﺘﺒﺎر ﺧﻮب ﻳﺎ ﺑﺪ ﻃﺒﻘﻪ ﺑﻨﺪي ﻛﻨﻴﺪ. ﺷﻜﻞ‬
‫ﺑﻌﺪ ﻳﻚ ﻣﺪل ﺳﺎده از ﻳﻚ درﺧﺖ اﻧﺘﺨﺎب ﺑﻪ ﻫﻤﺮاه ﺗﻮﺿﻴﺢ در ﻣﻮرد ﺗﻤﺎم ﺑﺴﺘﻪ‬
‫ﻫﺎي ﭘﺎﻳﻪ آن ﻳﻌﻨﻲ ﮔﺮه اﻧﺘﺨﺎب, ﺷﺎﺧﻪ ﻫﺎ و ﺑﺮﮔﻬﺎي آن ﻛﻪ اﻳﻦ ﻣﺴﺎﻟﻪ را ﺣﻞ‬
‫ﻣﻲ ﻛﻨﺪ ﻧﺸﺎن ﻣﻲ دﻫﺪ.‬

‫اوﻟﻴﻦ ﺑﺴﺘﻪ ﮔﺮه ﺑﺎﻻﻳﻲ ﺗﺼﻤﻴﻢ ﻳﺎ رﻳﺸﻪ ﻣﻲ ﺑﺎﺷﺪ ﻛﻪ ﻳﻚ ﺑﺮرﺳﻲ ﺟﻬﺖ‬
‫ﺑﺮﻗﺮاري ﺷﺮط ﺧﺎﺻﻲ ﻣﻲ ﻧﻤﺎﻳﺪ. ﮔﺮه رﻳﺸﻪ در اﻳﻦ ﻣﺜﺎل‬
‫“ 000,04$>‪ ” Income‬ﻣﻲ ﺑﺎﺷﺪ. ﻧﺘﺎﻳﺞ اﻳﻦ ﺑﺮرﺳﻲ ﻣﻨﺠﺮ ﻣﻲ ﺷﻮد ﻛﻪ‬
‫درﺧﺖ ﺑﻪ دوﺷﺎﺧﻪ ﺗﻘﺴﻴﻢ ﮔﺮددﻛﻪ ﻫﺮ ﻳﻚ ﻧﺸﺎن دﻫﻨﺪه ﺟﻮاﺑﻬﺎي ﻣﻤﻜﻦ‬

‫اﺳﺖ.در اﻳﻦ ﻣﻮرد ﺑﺮرﺳﻲ ﺷﺮط ﻣﺬﻛﻮر ﻣﻲ ﺗﻮاﻧﺪ داراي ﺟﻮاب ﺧﻴﺮ ﻳﺎ ﺑﻠﻪ ﺑﺎﺷﺪ‬
‫در ﻧﺘﻴﺠﻪ دو ﺷﺎﺧﻪ دارﻳﻢ.‬
‫ﺑﺮاﺳﺎس ﻧﻮع اﻟﮕﻮرﻳﺘﻢ ﻫﺮ ﮔﺮه ﻣﻲ ﺗﻮاﻧﺪ دو ﻳﺎ ﺗﻌﺪاد ﺑﻴﺸﺘﺮي ﺷﺎﺧﻪ داﺷﺘﻪ‬
‫ﺑﺎﺷﺪ. ﺑﺮاي ﻣﺜﺎل ‪ CART‬درﺧﺘﻬﺎﻳﻲ ﺑﺎ ﺗﻨﻬﺎ دوﺷﺎﺧﻪ در ﻫﺮ ﮔﺮه ﺗﻮﻟﻴﺪ ﻣﻲ‬
‫ﻛﻨﺪ.ﭼﻨﻴﻦ درﺧﺘﻲ ﻳﻚ درﺧﺖ دودوﻳﻲ ﻣﻲ ﺑﺎﺷﺪ.‬
‫ﻣﺪﻟﻬﺎي ﻣﺨﺘﻠﻒ درﺧﺖ ﺗﺼﻤﻴﻢ ﺑﻄﻮر ﻋﻤﻮﻣﻲ در داده ﻛﺎوي ﺑﺮاي ﻛﺎوش داده و‬
‫ﺑﺮاي اﺳﺘﻨﺘﺎج درﺧﺖ و ﻗﻮاﻧﻴﻦ آن ﻛﻪ ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﻣﻲ‬
‫ﮔﻴﺮد اﺳﺘﻔﺎده ﻣﻲ ﺷﻮﻧﺪ. ﻳﻚ ﺗﻌﺪاد از اﻟﮕﻮرﻳﺘﻤﻬﺎي ﻣﺨﺘﻠﻒ ﻣﻲ ﺗﻮاﻧﻨﺪ ﺑﺮاي‬
‫ﺳﺎﺧﺖ درﺧﺘﻬﺎي ﺗﺼﻤﻴﻢ ﺷﺎﻣﻞ ‪ Quest , CART , CHAID‬و 0.5‪ C‬ﺑﻜﺎر‬
‫روﻧﺪ.‬
‫اﻧﺪازه درﺧﺖ ﻣﻲ ﺗﻮاﻧﺪ از ﻃﺮﻳﻖ ﻗﻮاﻧﻴﻦ ﻣﺘﻮﻗﻒ ﺷﻮﻧﺪه ﻛﻪ رﺷﺪ درﺧﺖ را‬
‫ﻣﺤﺪود ﻣﻲ ﻛﻨﻨﺪ ﻛﻨﺘﺮل ﺷﻮد. ]3[‬
‫اﺳﺘﻨﺘﺎج ﻗﺎﻧﻮن‬
‫اﺳﺘﻨﺘﺎج ﻗﺎﻧﻮن روﺷﻲ ﺑﺮاي ﺑﺪﺳﺖ آوردن ﻳﻚ ﺳﺮي از ﻗﻮاﻧﻴﻦ ﺑﺮاي ﻃﺒﻘﻪ ﺑﻨﺪي‬
‫ﻣﻮارد ﻣﻲ ﺑﺎﺷﺪ. اﮔﺮﭼﻪ درﺧﺘﻬﺎي ﺗﺼﻤﻴﻢ ﻣﻲ ﺗﻮاﻧﻨﺪ ﻳﻚ ﺳﺮي ﻗﻮاﻧﻴﻦ ﺗﻮﻟﻴﺪ‬
‫ﻛﻨﻨﺪ روﺷﻬﺎي اﺳﺘﻨﺘﺎج ﻗﺎﻧﻮن ﻳﻚ ﻣﺠﻤﻮﻋﻪ از ﻗﻮاﻧﻴﻦ واﺑﺴﺘﻪ ﻛﻪ ﺿﺮورﺗﺎ‬
‫درﺧﺘﻲ ﺗﺸﻜﻴﻞ ﻧﻤﻲ دﻫﻨﺪ را ﺗﻮﻟﻴﺪ ﻣﻲ ﻧﻤﺎﻳﺪ. ﭼﻮن اﺳﺘﻨﺘﺎج ﻛﻨﻨﺪه ﻗﻮاﻧﻴﻦ‬
‫ﻟﺰوﻣﺎ اﻧﺸﻌﺎﺑﻲ در ﻫﺮ ﺳﻄﺢ ﻗﺮار ﻧﻤﻲ دﻫﺪ و ﻣﻲ ﺗﻮاﻧﺪ ﮔﺎم ﺑﻌﺪي را ﺗﺸﺨﻴﺺ‬
‫دﻫﺪ ﮔﺎﻫﻲ اوﻗﺎت ﻣﻲ ﺗﻮاﻧﺪ اﻟﮕﻮﻫﺎي ﻣﺨﺘﻠﻒ و ﺑﻬﺘﺮي را ﺑﺮاي ﻃﺒﻘﻪ ﺑﻨﺪي‬
‫ﺑﻴﺎﺑﺪ. ﺑﺮﺧﻼف درﺧﺘﺎن ﻗﻮاﻧﻴﻦ ﺗﻮﻟﻴﺪي ﻣﻤﻜﻦ اﺳﺖ ﺗﻤﺎم ﺣﺎﻟﺘﻬﺎي ﻣﻤﻜﻦ را‬
‫ﭘﻮﺷﺶ ﻧﺪﻫﻨﺪ.‬
‫اﻟﮕﻮرﻳﺘﻤﻬﺎي ژﻧﺘﻴﻚ‬
‫اﻟﮕﻮرﻳﺘﻤﻬﺎي ژﻧﺘﻴﻚ ﺑﺮاي ﻳﺎﻓﺖ اﻟﮕﻮﻫﺎ اﺳﺘﻔﺎده ﻧﻤﻲ ﺷﻮد ﺑﻠﻜﻪ ﺑﻴﺸﺘﺮ ﺑﻪ ﻣﻨﻈﻮر‬
‫راﻫﻨﻤﺎﻳﻲ در ﻣﻮرد ﻓﺮآﻳﻨﺪ ﻳﺎدﮔﻴﺮي اﻟﮕﻮرﻳﺘﻤﻬﺎي داده ﻛﺎوي ﻣﺎﻧﻨﺪ ﺷﺒﻜﻪ ﻫﺎي‬
‫ﻋﺼﺒﻲ ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﻣﻲ ﮔﻴﺮد. اﻟﮕﻮرﻳﺘﻤﻬﺎي ژﻧﺘﻴﻚ ﺑﻪ ﻋﻨﻮان ﻳﻚ ﻣﺘﺪ‬

‫ﺟﻬﺖ اﻧﺠﺎم ﻳﻚ ﺟﺴﺘﺠﻮي ﻫﺪاﻳﺖ ﺷﺪه ﺑﺮاي ﻣﺪﻟﻬﺎي ﺧﻮب در ﻓﻀﺎي ﺣﻞ‬
‫ﻣﺴﺎﻟﻪ ﻋﻤﻞ ﻣﻲ ﻛﻨﺪ.‬
‫اﻳﻦ اﻟﮕﻮرﻳﺘﻤﻬﺎ, اﻟﮕﻮرﻳﺘﻤﻬﺎي ژﻧﺘﻴﻚ ﻧﺎﻣﻴﺪه ﻣﻲ ﺷﻮﻧﺪ ﭼﻮن ﺑﻄﻮر ﺑﻲ ﻗﺎﻋﺪه اي‬
‫اﻟﮕﻮي ﺗﻜﺎﻣﻞ زﻳﺴﺘﻲ ﻛﻪ در آن اﻋﻀﺎي ﻳﻚ ﻧﺴﻞ ﺑﺮ ﺳﺮ اﻧﺘﻘﺎل ﺧﺼﻮﺻﻴﺎت‬
‫ﺧﻮد ﺑﻪ ﻧﺴﻞ ﺑﻌﺪ رﻗﺎﺑﺖ ﻣﻲ ﻛﻨﻨﺪ ﺗﺎ ﻧﻬﺎﻳﺘﺎ ﺑﻬﺘﺮﻳﻦ ﻣﺪل ﻳﺎﻓﺖ ﺷﻮد را دﻧﺒﺎل‬
‫ﻣﻲ ﻛﻨﻨﺪ. اﻃﻼﻋﺎﺗﻲ ﻛﻪ ﺑﺎﻳﺪ اﻧﺘﻘﺎل داده ﺷﻮد در ﻗﺎﻟﺐ ﻛﺮوﻣﻮزﻣﻬﺎ ﻛﻪ ﺷﺎﻣﻞ‬
‫ﭘﺎراﻣﺘﺮﻫﺎﻳﻲ ﺑﺮاي ﺳﺎﺧﺘﻦ ﻣﺪل ﻣﻲ ﺑﺎﺷﺪ ﻗﺮار ﻣﻲ ﮔﻴﺮد.‬
‫ﻓﺮآﻳﻨﺪ داده ﻛﺎوي‬
‫ﻣﺪﻟﻬﺎي ﻓﺮآﻳﻨﺪ‬
‫ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﻳﻨﻜﻪ ﻳﻚ ﻓﺮآﻳﻨﺪ ﺳﻴﺴﺘﻤﺎﺗﻴﻚ ﺑﺮاي داده ﻛﺎوي ﻣﻮﻓﻖ ﺿﺮوري اﺳﺖ‬
‫ﺑﺴﻴﺎري از ﻓﺮوﺷﻨﺪﮔﺎن و ﻫﻤﻔﻜﺮان ﻣﺸﺎور آﻧﻬﺎ ﻳﻚ ﻣﺪل ﻓﺮآﻳﻨﺪ ﺑﺮاي راﻫﻨﻤﺎﻳﻲ‬
‫ﻛﺎرﺑﺮ ﺧﻮد ﻛﻪ از ﻃﺮﻳﻖ ﻳﻚ ﺳﺮي ﻣﺮاﺣﻞ ﻣﺸﺨﺺ او را ﺑﻪ ﻧﺘﺎﻳﺞ ﺧﻮﺑﻲ ﻫﺪاﻳﺖ‬
‫ﺧﻮاﻫﺪ ﻛﺮد ﻃﺮاﺣﻲ ﻛﺮدﻧﺪ. ﺑﺮاي ﻣﺜﺎل ‪ SPSS‬از ﻣﺮاﺣﻞ ﭘﻨﺠﮕﺎﻧﻪ ﺗﺸﺨﻴﺺ‬
‫دﺳﺘﺮﺳﻲ ﺗﺤﻠﻴﻞ ﻋﻤﻞ و اﺗﻮﻣﺎﺳﻴﻮن و ‪ SAS‬از ﻣﺮاﺣﻞ ﻧﻤﻮﻧﻪ ﮔﻴﺮي, ﺟﺴﺘﺠﻮ,‬
‫ﺗﻐﻴﻴﺮ و ﺑﻬﺒﻮد, ﻣﺪل ﺳﺎزي و ﺗﻌﻴﻴﻦ اﺳﺘﻔﺎده ﻣﻲ ﻧﻤﺎﻳﺪ.‬
‫اﺧﻴﺮا اﺋﺘﻼف ﻓﺮوﺷﻨﺪﮔﺎن وﻛﺎرﺑﺮان ﺷﺎﻣﻞ ﺳﻴﺴﺘﻤﻬﺎي ﻣﻬﻨﺪﺳﻲ ‪NCR‬‬
‫ﻛﭙﻨﻬﺎك, راه ﺣﻠﻬﺎي ﺟﺎﻣﻊ ‪ SPSS‬و ﺑﺎﻧﻚ ‪ OHRA‬در ﺣﺎل ﺳﺎﺧﺘﻦ ﻳﻚ‬
‫ﻓﺮآﻳﻨﺪ ﺧﺎص ﻛﻪ ﺑﻪ ﻓﺮآﻳﻨﺪ اﺳﺘﺎﻧﺪارد ﺻﻨﻌﺘﻲ داده ﻛﺎوي )‪(CRISP-DM‬‬
‫ﻣﻮﺳﻮم اﺳﺖ ﻣﻲ ﺑﺎﺷﻨﺪ. اﻳﻦ ﻓﺮآﻳﻨﺪ ﺑﺮاي ﭘﺮدازش ﻣﺪﻟﻬﺎي ﺷﺮﻛﺘﻬﺎي دﻳﮕﺮ ﻛﻪ‬
‫ﻳﻚ ﻛﺎره ﻳﺎ دو ﻛﺎره ﻫﺴﺘﻨﺪ ﻳﻜﺴﺎن ﻣﻲ ﺑﺎﺷﺪ. اﻳﻦ ﻓﺮآﻳﻨﺪ ﺷﺮوع ﺧﻮﺑﻲ ﺑﺮاي‬
‫ﻛﻤﻚ ﺑﻪ ﻣﺮدم ﺟﻬﺖ ﻓﻬﻢ ﻣﺮاﺣﻞ ﺿﺮوري در داده ﻛﺎوي ﻣﻮﻓﻖ ﻣﻲ ﺑﺎﺷﺪ. ]1[‬
‫ﻣﺪل ﻓﺮآﻳﻨﺪ دو ﺳﻮﻳﻪ‬
‫ﻣﺪل ﻓﺮآﻳﻨﺪ دو ﺳﻮﻳﻪ ﻛﻪ در زﻳﺮ ﺗﻮﺿﻴﺢ داده ﺷﺪه اﺳﺖ ﺑﺮﺧﻲ از ﻣﻮارد ﭘﻴﺶ‬
‫ﺑﻴﻨﻲ را از ﻣﺪل ‪ CRISP-DM‬ﺑﻪ ارث ﻣﻲ ﺑﺮد.‬
‫ﮔﺎﻣﻬﺎي اﺻﻠﻲ داده ﻛﺎوي ﺟﻬﺖ ﻛﺸﻒ داﻧﺶ ﻋﺒﺎرﺗﻨﺪ از:‬

‫1- ﺗﻌﺮﻳﻒ ﻣﺴﺎﻟﻪ‬
‫2- ﺳﺎﺧﺘﻦ ﭘﺎﻳﮕﺎه داده ﻣﺮﺑﻮط ﺑﻪ داده ﻛﺎوي‬
‫3- ﺟﺴﺘﺠﻮي داده‬
‫4- آﻣﺎده ﺳﺎﺧﺘﻦ داده ﺑﺮاي ﻣﺪل ﺳﺎزي‬
‫5- ﺳﺎﺧﺘﻦ ﻣﺪل‬
‫6- ارزﻳﺎﺑﻲ ﻣﺪل‬
‫7- ﺳﺎﺧﺖ ﻣﺪل وﻧﺘﺎﻳﺞ‬
‫ﺑﻪ ﺳﺮاغ اﻳﻦ ﮔﺎﻣﻬﺎ ﻣﻲ روﻳﻢ ﺗﺎ ﻓﺮآﻳﻨﺪ ﻛﺸﻒ داﻧﺶ را ﺑﻬﺘﺮ ﻣﺘﻮﺟﻪ ﺷﻮﻳﻢ.‬
‫1- ﺗﻌﺮﻳﻒ ﻣﺴﺎﻟﻪ‬
‫در اﺑﺘﺪاي اﻣﺮ ﭘﻴﺶ زﻣﻴﻨﻪ ﻛﺸﻒ داﻧﺶ ﻓﻬﻢ درﺳﺖ داده و ﻣﺴﺎﻟﻪ ﻣﻲ ﺑﺎﺷﺪ.‬
‫ﺑﺪون اﻳﻦ ﻓﻬﻢ درﺳﺖ ﻫﻴﭻ اﻟﮕﻮرﻳﺘﻤﻲ ﺻﺮف ﻧﻈﺮ از ﺧﺒﺮه ﺑﻮدن آن ﻧﻤﻲ‬
‫ﺗﻮاﻧﺪ ﻧﺘﻴﺠﻪ ﻣﻄﻤﺌﻨﻲ ﺑﺮاي ﺷﻤﺎ ﺣﺎﺻﻞ ﻧﻤﺎﻳﺪ و ﻫﻤﭽﻨﻴﻦ ﺷﻤﺎ ﻗﺎدر ﻧﺨﻮاﻫﻴﺪ‬
‫ﺑﻮد ﻛﻪ ﻣﺴﺎﺋﻠﻲ را ﻛﻪ ﺳﻌﻲ در ﺣﻞ آن دارﻳﺪ ﺗﻌﺮﻳﻒ ﻛﺮده و ﻫﻤﭽﻨﻴﻦ داده‬
‫را ﺟﻬﺖ ﻛﺎوش آﻣﺎده ﻧﻤﻮده و ﻳﺎ ﻧﺘﺎﻳﺞ را ﺑﻪ ﻃﻮر ﺻﺤﻴﺢ ﺗﻔﺴﻴﺮ ﻧﻤﺎﺋﻴﺪ.‬
‫ﺑﺮاي اﺳﺘﻔﺎده ﺑﻬﺘﺮ از داده ﻛﺎوي ﺷﻤﺎ ﺑﺎﻳﺪ ﻳﻚ ﺑﻴﺎن واﺿﺢ از ﻫﺪف ﺧﻮد‬
‫داﺷﺘﻪ ﺑﺎﺷﻴﺪ. ]1[‬
‫ﺳﺎﺧﺘﻦ ﻳﻚ ﭘﺎﻳﮕﺎه داده داده ﻛﺎوي‬
‫اﻳﻦ ﮔﺎم ﺑﻪ ﻫﻤﺮاه دو ﮔﺎم ﺑﻌﺪي ﻫﺴﺘﻪ آﻣﺎده ﺳﺎزي داده را ﺗﺸﻜﻴﻞ ﻣﻲ‬
‫دﻫﻨﺪ. در ﻣﺠﻤﻮع ﮔﺎﻣﻬﺎي ﮔﻔﺘﻪ ﺷﺪه وﻗﺖ و ﻛﺎر ﺑﻴﺸﺘﺮي از ﺳﺎﻳﺮ ﮔﺎﻣﻬﺎ ﻣﻲ‬
‫ﺑﺮﻧﺪ. ﻣﻤﻜﻦ اﺳﺖ ﺷﻤﺎ ﮔﺎﻣﻬﺎي ﺗﻜﺮاري در آﻣﺎده ﺳﺎزي داده و ﺳﺎﺧﺘﻦ ﻣﺪل‬
‫داﺷﺘﻪ ﺑﺎﺷﻴﺪ ﭼﺮا ﻛﻪ در ﻫﺮ ﻣﺮﺣﻠﻪ ﻣﻤﻜﻦ اﺳﺖ ﺑﻪ ﻧﻜﺘﻪ اي ﺑﺮﺳﻴﺪ ﻛﻪ ﺷﻤﺎ‬
‫را ﺑﺮ آن دارد داده ﺧﻮد را ﺑﻬﺒﻮد ﺑﺨﺸﻴﺪ. اﻳﻦ ﮔﺎﻣﻬﺎي آﻣﺎده ﺳﺎزي داده ﻣﻲ‬
‫ﺗﻮاﻧﺪ 05% ﺗﺎ 09% وﻗﺖ و ﻛﺎر از ﺗﻤﺎم ﻓﺮآﻳﻨﺪ ﻛﺸﻒ داﻧﺶ را ﺑﻪ ﺧﻮد‬
‫اﺧﺘﺼﺎص دﻫﺪ.‬

‫داده اي ﻛﻪ ﻣﻲ ﺧﻮاﻫﺪ ﻛﺎوش ﺷﻮد ﺑﺎﻳﺪ در ﻳﻚ ﭘﺎﻳﮕﺎه داده ذﺧﻴﺮه ﺷﻮد. ﺑﺮ‬
‫اﺳﺎس ﻣﻘﺪار داده, ﭘﻴﭽﻴﺪﮔﻲ داده و اﺳﺘﻔﺎده ﻫﺎﻳﻲ ﻛﻪ ﻗﺮار اﺳﺖ از آن ﺷﻮد‬
‫ﻳﻚ ﻓﺎﻳﻞ ﻣﻌﻤﻮﻟﻲ و ﻳﺎ ﻳﻚ ‪ SpreadSheet‬ﺑﺮاي اﻳﻦ ﻛﺎر ﻛﺎﻓﻲ اﺳﺖ.‬
‫ﺑﻪ اﺣﺘﻤﺎل زﻳﺎد ﺷﻤﺎ ﻣﻲ ﺧﻮاﻫﻴﺪ داده ﻣﻮﺟﻮد در اﻧﺒﺎره داده را ﺗﻐﻴﻴﺮ دﻫﻴﺪ.‬
‫ﺑﻪ ﻋﻼوه ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ ﺑﺨﻮاﻫﻴﺪ ﻓﻴﻠﺪﻫﺎي ﺟﺪﻳﺪي ﻛﻪ از ﻓﻴﻠﺪﻫﺎي‬
‫ﻣﻮﺟﻮد ﻣﺤﺎﺳﺒﻪ ﺷﺪه اﺳﺖ را ﺑﻪ اﻧﺒﺎر داده ﺧﻮد ﺑﻴﺎﻓﺰاﻳﻴﺪ.اﻳﻦ ﻳﻜﻲ از دﻻﻳﻞ‬
‫اﺳﺘﻔﺎده از ﻳﻚ ﭘﺎﻳﮕﺎه داده ﺟﺪاﮔﺎﻧﻪ اﺳﺖ.‬
‫دﻟﻴﻞ دﻳﮕﺮ ﺑﺮاي اﻳﻦ ﻛﺎر آن اﺳﺖ ﻛﻪ اﻧﺒﺎر داده ﻫﺎي ﻳﻜﻲ ﺷﺪه ﻣﻤﻜﻦ اﺳﺖ‬
‫ﺑﻪ آﺳﺎﻧﻲ اﻧﻮاع ﺟﺴﺘﺠﻮﻫﺎﻳﻲ را ﻛﻪ ﺷﻤﺎ ﺑﺮاي ﻓﻬﻢ داده ﺑﻪ آﻧﻬﺎ ﻧﻴﺎز دارﻳﺪ‬
‫اﻧﺠﺎم ﻧﺪﻫﺪ. ﻣﺎﻧﻨﺪ ﭘﺮس و ﺟﻮﻫﺎﻳﻲ ﻛﻪ داده را ﺧﻼﺻﻪ ﻣﻲ ﻛﻨﺪ, ﮔﺰارﺷﺎت‬
‫ﭼﻨﺪ ﺑﻌﺪي و ﺑﺴﻴﺎري از اﻧﻮاع دﻳﮕﺮ از ﮔﺮاﻓﻬﺎ ﻳﺎ ﻣﺼﻮرات.‬
‫و دﻟﻴﻞ آﺧﺮ اﻳﻨﻜﻪ ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ ﺑﺨﻮاﻫﻴﺪ اﻳﻦ داده را در ﻳﻚ ﺳﻴﺴﺘﻢ‬
‫ﻣﺪﻳﺮﻳﺖ ﭘﺎﻳﮕﺎه داده ﺑﻪ ﻫﻤﺮاه ﻳﻚ ﻃﺮاﺣﻲ ﻓﻴﺰﻳﻜﻲ ﻣﺘﻔﺎوت از اﻧﺒﺎر داده‬
‫ﺧﻮد ذﺧﻴﺮه ﻛﻨﻴﺪ. ﻣﺮدم ﺑﻪ ﻃﻮر روز اﻓﺰوﻧﻲ در ﺣﺎل اﻧﺘﺨﺎب ﭘﺎﻳﮕﺎه داده‬
‫ﻫﺎي ﺧﺎص ﻣﻨﻈﻮره اي ﻫﺴﺘﻨﺪ ﻛﻪ اﻳﻦ ﻧﻴﺎزﻫﺎي داده ﻛﺎوي را ﺑﻪ ﻧﺤﻮ‬
‫ﻣﻨﺎﺳﺒﻲ ﺣﻤﺎﻳﺖ ﻛﻨﺪ. ﺑﻪ ﻫﺮﺣﺎل اﮔﺮ داده ﻣﻮﺟﻮد در اﻧﺒﺎر داده ﺷﻤﺎ اﺟﺎزه‬
‫ﻣﻲ دﻫﺪ ﻛﻪ ﻣﺮاﻛﺰ ﻣﻨﻄﻘﻲ داده اي اﻳﺠﺎدﻛﻨﻴﺪ و اﮔﺮ ﺷﻤﺎ ﻣﻲ ﺗﻮاﻧﻴﺪ‬
‫ﺗﻘﺎﺿﺎي داده ﻛﺎوي را ارﺿﺎ ﻧﻤﺎﻳﻴﺪ ﭘﺎﻳﮕﺎه داده ﺷﻤﺎ ﺑﻪ ﺧﻮﺑﻲ وﻇﻴﻔﻪ ﺧﻮد را‬
‫اﻧﺠﺎم ﻣﻲ دﻫﺪ. ]2[‬
‫ﻣﺮاﺣﻞ ﻻزم ﺑﺮاي ﺳﺎﺧﺖ ﻳﻚ ﭘﺎﻳﮕﺎه داده داده ﻛﺎوي ﺑﻪ ﺷﻜﻞ زﻳﺮ ﻣﻲ ﺑﺎﺷﺪ:‬
‫1- ﺟﻤﻊ آوري داده ﻫﺎ‬
‫2- ﺗﻮﺿﻴﺢ داده ﻫﺎ‬
‫3- اﻧﺘﺨﺎب داده ﻫﺎ‬
‫4- ﺗﻌﻴﻴﻦ ﻛﻴﻔﻴﺖ داده ﻫﺎ و ﭘﺎك ﻛﺮدن آن‬
‫5- ﺗﺜﺒﻴﺖ و ﻳﻜﭙﺎرﭼﮕﻲ‬

مقدمه ای بر داده کاوی و اکتشاف دانش

مقدمه ای بر داده کاوی و اکتشاف دانش

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (19)

Similaire à مقدمه ای بر داده کاوی و اکتشاف دانش

Similaire à مقدمه ای بر داده کاوی و اکتشاف دانش (20)

مقدمه ای بر داده کاوی و اکتشاف دانش