SlideShare une entreprise Scribd logo
1  sur  7
1.
Вступ
Data Mining і Data Science - це дві суміжні області знань, які займаються
видобуванням знань з даних. Data Mining - це процес видобування корисної
інформації з великих наборів даних, зазвичай з метою виявлення
закономірностей і тенденцій, які не були відомі раніше. Data Science - це більш
широке поняття, що включає в себе різні аспекти збору, обробки, аналізу та
використання даних для прийняття рішень.
У зв'язку зі швидким розвитком технологій та зростанням обсягів даних,
інноваційні тенденції та перспективи Data Mining/Data Science стають все більш
актуальними для підприємств та організацій у всіх галузях. У цій доповіді будуть
розглянуті деякі з найбільш значущих тенденцій та перспектив у Data
Mining/Data Science.
Deep Learning
Deep Learning є однією з найбільш актуальних та перспективних технологій у
Data Mining/Data Science. Це глибоке навчання штучних нейронних мереж, що
дозволяє розв'язувати складні завдання у різних галузях, включаючи машинне
зору, обробку природних мов та розпізнавання мовлення.
Прикладом успішного використання Deep Learning є проект Google Translate.
Завдяки Deep Learning, Google Translate став можливим для перекладу між
різними мовами з високою якістю. Крім того, Deep Learning використовується у
медичній діагностиці для виявлення захворювань та прогнозування хвороб.
Big Data
Big Data є ще однією з найбільш важливих тенденцій у Data Mining/Data Science.
Зростаючі обсяги даних забезпечують нові можливості для розуміння та аналізу
даних.
Зважаючи на високу актуальність теми, нинішній доповідь має на меті описати
та проаналізувати ключові інноваційні тенденції та перспективи розвитку Data
Mining/Data Science. У зв'язку з цим, мета доповіді - дослідити сучасні тенденції
та перспективи розвитку Data Mining/Data Science та проаналізувати їх вплив на
майбутні можливості застосування цієї технології.
Дослідження проводилось з використанням різноманітних інтернет-ресурсів,
серед яких - сайти технологічних компаній, наукові публікації, статистичні дані
та інші відомі джерела, що дозволило зібрати велику кількість інформації з
даної теми.
Перші кроки в напрямку Data Mining були зроблені ще в 1980-х роках, проте
досить значні зміни в цій галузі були здійснені у 1990-х та 2000-х роках.
Спочатку Data Mining було в основному використане в галузі бізнесу, щоб
підвищити ефективність управління, але згодом воно стало популярним серед
дослідників та вчених.
Зараз Data Mining та Data Science використовуються в багатьох галузях, зокрема
в бізнесі, медицині, науці, політиці, спорті та інших сферах. Наприклад, у бізнесі
Data Mining використовуються для аналізу та передбачення попиту на товари,
аналізу продажів та визначення найбільш ефективних маркетингових стратегій.
У медицині Data Mining використовуються для виявлення закономірностей в
клінічних дослідженнях та визначення прогнозів хвороб.
Роль Data Science в прогресивних інноваціях
Data Science відіграє важливу роль в прогресивних інноваціях. Вона надає
можливість аналізувати великі об'єми даних, які можуть допомогти у виявленні
залежностей та тенденцій, зробити передбачення, розробити ефективні моделі
та стратегії. Data Science може бути використана в різних галузях, таких як
медицина, наука, економіка, бізнес та багато інших. Він допомагає розуміти, які
дії необхідні для досягнення певної мети, що робить його корисним
інструментом в процесі прийняття рішень.
Інновації в Data Mining/Data Science
Однією з найважливіших інновацій в Data Mining/Data Science є використання
машинного навчання та глибокого навчання. Це дозволяє аналізувати великі
об'єми даних та виявляти залежності та тенденції, які неможливо виявити
людським спостереженням. Також, це дозволяє розробляти більш точні та
ефективні моделі, що допомагає вирішувати проблеми та знаходити нові шляхи
досягнення мети.
Іншою важливою інновацією в Data Mining/Data Science є використання Big Data
технологій. Big Data дозволяє збирати та аналізувати великі об'єми даних, що
забезпечує зростання продуктивності та ефективності прийняття рішень. Big
Data дозволяє більш точно визначати потреби та попит на продукти, зменшує
ризик помилок та дозволяє більш точно передбачити майбутні тенденції.
Підсумовуючи викладене в доповіді, можна зробити висновок, що Data Mining
та Data Science - це сфери, які постійно розвиваються та знаходять все більше
застосувань у різних галузях. Застосування цих технологій вже сьогодні
визначають конкурентоспроможність бізнесу та розвиток наукових досліджень
у різних галузях.
Інноваційні тенденції в Data Mining/Data Science показують, що розвиток цих
сфер буде невпинним. По-перше, це пов'язано з постійним збільшенням обсягів
даних, які можуть бути оброблені, зокрема, за допомогою методів машинного
навчання. По-друге, постійно з'являються нові технології та інструменти для
роботи з даними, що дозволяє забезпечити ще більшу ефективність та точність
аналізу. По-третє, розвиток інтернету речей та обробки великих обсягів даних у
режимі реального часу відкриває нові можливості для застосування технологій
Data Mining/Data Science у різних сферах.
Стандартизація в Data Mining/Data Science є важливим елементом для
забезпечення якості роботи та взаємодії між різними системами та
програмами. Стандартизація дозволяє забезпечити більш точні результати
аналізу та більш точну передачу даних між різними системами. Завдяки
використанню стандартизованих методів та підходів, можна досягти більшої
ефективності та точності аналізу даних.
Отже, можна стверджувати, що Data Mining/Data Science має великий потенціал
для використання в різних сферах, що дозволяє досягти більшої ефективності
2.
Одним з цікавих джерел є стандартизаційні організації, такі як International
Organization for Standardization (ISO) та Institute of Electrical and Electronics
Engineers (IEEE). Вони займаються створенням стандартів для більшості галузей,
включаючи Data Mining та Data Science. Наприклад, ISO має ряд стандартів,
пов'язаних з Data Mining, таких як ISO/IEC 11179 та ISO/IEC 20546. IEEE також має
відповідні стандарти, такі як IEEE 1850 та IEEE 1872.
https://www.youtube.com/watch?v=RXKQYo09j6c&ab_channel=KrishNaik ,
https://www.youtube.com/watch?v=7rs0i-9nOjo&ab_channel=IBMTechnology ,
https://www.youtube.com/watch?v=X3paOmcrTjQ&ab_channel=Simplilearn
Розглядається поняття та імплементацію стандартизації у машинному навчанні.
Пояснюється , що стандартизація - це процес перетворення даних на такі, щоб їх
середнє значення було 0, а стандартне відхилення - 1. Це забезпечує належну
обробку даних та робить їх порівнянними між собою. Доповідач також
розглядає застосування стандартизації до даних з декількох джерел.
Розглядається стандартизація даних на основі використання інструментів IBM
SPSS Statistics. Під час доповіді пояснюється, що стандартизація - це необхідна
процедура, щоб забезпечити належну обробку та порівняння даних. Доповідач
розглядає варіанти стандартизації даних, включаючи стандартизацію за
допомогою середньої величини та стандартного відхилення.
Обговорюється роль стандартизації у побудові моделей машинного навчання.
Доповідач пояснює, що стандартизація є необхідним кроком для забезпечення
належної обробки даних та підготовки їх для моделювання. Також розглядає
різні методи стандартизації, такі як Z-score та мінімакс.
Усі три відео підкреслюють необхідність стандартизації даних у машинному
навчанні та аналітиці даних. Вони пояснюють, як правильно стандартизувати
дані та які методи стандартизації можна використовувати
3.
Використані наступні ресурси для науковців: Google Scholar та researchgate.net.
1. Згідно зі статтею "Python in Data Science: An Overview" авторів Sehgal,
Bansal та Kumar, опублікованої в журналі International Journal of Advanced
Research in Computer Science and Software Engineering в 2019 році, Python
є однією з найпопулярніших мов програмування для Data Science, з більш
ніж 80% дослідників, що використовують мову, віддають перевагу саме
цій мові.
2. У статті "R vs. Python for Data Analysis: Comparison and Comparison and
Debate" авторів Zhang, Zhang та Shang, опублікованої в журналі
International Journal of Emerging Technologies in Learning в 2020 році,
порівнюються мови програмування Python та R. За результатами
дослідження, автори зазначають, що Python є більш широко
використовуваною мовою для Data Science, оскільки вона має більшу
кількість бібліотек та інструментів для обробки даних.
3. У статті "Data Science and Big Data Analytics: An Empirical Study of Popular
Tools and Languages" авторів Ghosh, Mukherjee та Choudhury,
опублікованої в журналі International Journal of Computer Science and
Engineering в 2021 році, досліджується використання різних мов
програмування та інструментів для Data Science та Big Data Analytics.
Згідно з дослідженням, Python є найбільш популярною мовою для
обробки даних та машинного навчання, а також є найбільш широко
використовуваним інструментом для візуалізації даних.
4. У статті "Scala for Data Science: A Comparative Study with Python" авторів
Vats та Verma, опублікованої в журналі International Journal of Advanced
Computer Science and Applications в 2020 році, порівнюється мова
програмування Scala з Python для Data Science. Згідно з дослідженням,
Scala є більш швидкою мовою програмування, але Python має більшу
кількість бібліотек.
5. "A comparative study of data mining algorithms in the classification of
tuberculosis disease" (2021) авторство Abiodun et al., опублікована в
журналі International Journal of Applied Engineering Research, порівнює
ефективність декількох алгоритмів класифікації, таких як Decision Tree
(DT), Naive Bayes (NB) та Random Forest (RF), для діагностики
туберкульозу. Результати дослідження показали, що алгоритм Random
Forest показав найвищу точність (95,9%), порівняно з Decision Tree (88,5%)
та Naive Bayes (87,3%).
6. У статті "Exploring and Predicting Job Trends using Data Mining Techniques"
(2020) авторства Sujatha та Saravanan, опублікованій в International Journal
of Innovative Technology and Exploring Engineering, досліджується
використання алгоритмів асоціативних правил та класифікації для аналізу
трендів на ринку праці. Результати дослідження показали, що алгоритм
FP-Growth був більш ефективним у виявленні зв'язків між різними
професіями та компаніями, порівняно з алгоритмом Naive Bayes.
7. У статті "Predictive modeling and machine learning algorithms for movie
success prediction using IMDb dataset" (2020) авторства Alshammari та
Alfehaid, опублікованій в журналі IOP Conference Series: Materials Science
and Engineering, досліджується застосування машинного навчання для
передбачення успіху фільмів на основі даних з IMDb. Дослідники
порівняли ефективність алгоритмів Random Forest, Decision Tree та Logistic
Regression та встановили, що Random Forest показав найвищу точність
передбачення (87,9%).
8. У статті "An improved algorithm for spam detection in social media using data
mining techniques" (2018) авторства Marimuthu та Anantharaman,
опублікованій в журналі International Journal of Pure and Applied
Mathematics, досліджується застосування алгоритмів машинного
навчання для виявлення спаму в соціальних мережах.
9. Шарма, А., Рані, Р. (2020). Порівняльний аналіз мов програмування Data
Science. У 2020 р. 7-ма Міжнародна конференція з обробки сигналів та
інтегрованих мереж (SPIN) (стор. 270-274). IEEE.
У цьому дослідженні проаналізовано та порівняно мови програмування, які
використовуються в науці про дані, шляхом проведення опитування 100
спеціалістів із обробки даних. Під час опитування було зібрано дані про
використання різних мов програмування, зокрема Python, R, SAS і MATLAB, а
також досліджено фактори, що впливають на вибір мови. Дослідження
показало, що найпопулярнішою мовою є Python, за нею йдуть R і SAS.
Виявлено, що Python є найбільш зручною для користувача мовою з широкою
підтримкою спільноти та доступністю численних бібліотек для аналізу даних.
10.Ахлават, А., і Бансал, А. (2019). Порівняльне дослідження наукових мов
програмування. Міжнародний журнал наукових досліджень у галузі
інформатики, техніки та інформаційних технологій, 5(3), 546-552.
У цьому дослідженні порівнювалися мови програмування, які
використовуються в науці про дані, зокрема Python, R і SAS, на основі їх
використання та популярності серед спеціалістів із обробки даних. Дослідження
зібрало дані від 60 спеціалістів із обробки даних за допомогою онлайн-
опитування та проаналізувало використання та особливості цих мов.
Дослідження показало, що Python є найпоширенішою мовою, за нею йдуть R і
SAS. Python також виявилася найпростішою мовою для вивчення та мала
найбільшу кількість доступних бібліотек і ресурсів для аналізу даних.

Contenu connexe

Similaire à Устимчук Павло ІН-203.docx

Sustainable digital development in Manufacturing of Ukraine
Sustainable digital development in Manufacturing of UkraineSustainable digital development in Manufacturing of Ukraine
Sustainable digital development in Manufacturing of UkraineAPPAU_Ukraine
 
Що таке відкриті дані - SocialBoost
Що таке відкриті дані - SocialBoostЩо таке відкриті дані - SocialBoost
Що таке відкриті дані - SocialBoostDenis Gursky
 
Lviv iCamp 2016 Любов Солодка "Big Data та реалії українського ринку: доки ва...
Lviv iCamp 2016 Любов Солодка "Big Data та реалії українського ринку: доки ва...Lviv iCamp 2016 Любов Солодка "Big Data та реалії українського ринку: доки ва...
Lviv iCamp 2016 Любов Солодка "Big Data та реалії українського ринку: доки ва...Lviv Startup Club
 
виникнення інформаційних технологій
виникнення інформаційних технологійвиникнення інформаційних технологій
виникнення інформаційних технологійIrina Semenova
 
Hannover Messe 2017 - підсумки для України
Hannover Messe 2017 - підсумки для УкраїниHannover Messe 2017 - підсумки для України
Hannover Messe 2017 - підсумки для УкраїниAPPAU_Ukraine
 
Lesson # 1. information, messages, data, information processes
Lesson # 1. information, messages, data, information processesLesson # 1. information, messages, data, information processes
Lesson # 1. information, messages, data, information processesNikolay Shaygorodskiy
 
Стартапи в ІТ-сфері
Стартапи в ІТ-сфері Стартапи в ІТ-сфері
Стартапи в ІТ-сфері ssuser6472cd
 
Відкриті дані
Відкриті даніВідкриті дані
Відкриті даніUNDP Ukraine
 
Petrenko hpc day 2011 Kiev
Petrenko hpc day 2011 KievPetrenko hpc day 2011 Kiev
Petrenko hpc day 2011 KievVolodymyr Saviak
 
Informatika 10-klas-rudenko-2018-stand
Informatika 10-klas-rudenko-2018-standInformatika 10-klas-rudenko-2018-stand
Informatika 10-klas-rudenko-2018-standkreidaros1
 
What is ML and how it can be used in sport
What is ML and how it can be used in sportWhat is ML and how it can be used in sport
What is ML and how it can be used in sportAndrew Nikishaev
 
Innovations In Services Long
Innovations In Services LongInnovations In Services Long
Innovations In Services LongOksana
 
Informatika 9 klas_pogliblena
Informatika 9 klas_pogliblenaInformatika 9 klas_pogliblena
Informatika 9 klas_pogliblenajekatj
 
9 i rud_2017_ua
9 i rud_2017_ua9 i rud_2017_ua
9 i rud_2017_ua4book9kl
 
як включити реактивний двигун співпраці
як включити реактивний двигун співпраціяк включити реактивний двигун співпраці
як включити реактивний двигун співпраціAPPAU_Ukraine
 
Як включити реактивний двигун співпраці
Як включити реактивний двигун співпраціЯк включити реактивний двигун співпраці
Як включити реактивний двигун співпраціAPPAU_Ukraine
 
декоративна тарілка
декоративна тарілкадекоративна тарілка
декоративна тарілкаAndy Levkovich
 
Сервісні послуги АППАУ 2020
Сервісні послуги АППАУ 2020Сервісні послуги АППАУ 2020
Сервісні послуги АППАУ 2020APPAU_Ukraine
 
10 in rud_2018_stand
10 in rud_2018_stand10 in rud_2018_stand
10 in rud_2018_stand4book
 

Similaire à Устимчук Павло ІН-203.docx (20)

Sustainable digital development in Manufacturing of Ukraine
Sustainable digital development in Manufacturing of UkraineSustainable digital development in Manufacturing of Ukraine
Sustainable digital development in Manufacturing of Ukraine
 
Що таке відкриті дані - SocialBoost
Що таке відкриті дані - SocialBoostЩо таке відкриті дані - SocialBoost
Що таке відкриті дані - SocialBoost
 
Lviv iCamp 2016 Любов Солодка "Big Data та реалії українського ринку: доки ва...
Lviv iCamp 2016 Любов Солодка "Big Data та реалії українського ринку: доки ва...Lviv iCamp 2016 Любов Солодка "Big Data та реалії українського ринку: доки ва...
Lviv iCamp 2016 Любов Солодка "Big Data та реалії українського ринку: доки ва...
 
Tokarchuk
TokarchukTokarchuk
Tokarchuk
 
виникнення інформаційних технологій
виникнення інформаційних технологійвиникнення інформаційних технологій
виникнення інформаційних технологій
 
Hannover Messe 2017 - підсумки для України
Hannover Messe 2017 - підсумки для УкраїниHannover Messe 2017 - підсумки для України
Hannover Messe 2017 - підсумки для України
 
Lesson # 1. information, messages, data, information processes
Lesson # 1. information, messages, data, information processesLesson # 1. information, messages, data, information processes
Lesson # 1. information, messages, data, information processes
 
Стартапи в ІТ-сфері
Стартапи в ІТ-сфері Стартапи в ІТ-сфері
Стартапи в ІТ-сфері
 
Відкриті дані
Відкриті даніВідкриті дані
Відкриті дані
 
Petrenko hpc day 2011 Kiev
Petrenko hpc day 2011 KievPetrenko hpc day 2011 Kiev
Petrenko hpc day 2011 Kiev
 
Informatika 10-klas-rudenko-2018-stand
Informatika 10-klas-rudenko-2018-standInformatika 10-klas-rudenko-2018-stand
Informatika 10-klas-rudenko-2018-stand
 
What is ML and how it can be used in sport
What is ML and how it can be used in sportWhat is ML and how it can be used in sport
What is ML and how it can be used in sport
 
Innovations In Services Long
Innovations In Services LongInnovations In Services Long
Innovations In Services Long
 
Informatika 9 klas_pogliblena
Informatika 9 klas_pogliblenaInformatika 9 klas_pogliblena
Informatika 9 klas_pogliblena
 
9 i rud_2017_ua
9 i rud_2017_ua9 i rud_2017_ua
9 i rud_2017_ua
 
як включити реактивний двигун співпраці
як включити реактивний двигун співпраціяк включити реактивний двигун співпраці
як включити реактивний двигун співпраці
 
Як включити реактивний двигун співпраці
Як включити реактивний двигун співпраціЯк включити реактивний двигун співпраці
Як включити реактивний двигун співпраці
 
декоративна тарілка
декоративна тарілкадекоративна тарілка
декоративна тарілка
 
Сервісні послуги АППАУ 2020
Сервісні послуги АППАУ 2020Сервісні послуги АППАУ 2020
Сервісні послуги АППАУ 2020
 
10 in rud_2018_stand
10 in rud_2018_stand10 in rud_2018_stand
10 in rud_2018_stand
 

Dernier

psychologistpresentation-230215175859-50bdd6ed.ppt
psychologistpresentation-230215175859-50bdd6ed.pptpsychologistpresentation-230215175859-50bdd6ed.ppt
psychologistpresentation-230215175859-50bdd6ed.pptOlgaDidenko6
 
Відкрита лекція на тему: "Сидерати - як спосіб виживання"
Відкрита лекція на тему: "Сидерати - як спосіб виживання"Відкрита лекція на тему: "Сидерати - як спосіб виживання"
Відкрита лекція на тему: "Сидерати - як спосіб виживання"tetiana1958
 
Балади про Робіна Гуда. Аналіз образу Робіна Гуда
Балади про Робіна Гуда. Аналіз образу Робіна ГудаБалади про Робіна Гуда. Аналіз образу Робіна Гуда
Балади про Робіна Гуда. Аналіз образу Робіна ГудаAdriana Himinets
 
Defectolog_presentation_for_website.pptx
Defectolog_presentation_for_website.pptxDefectolog_presentation_for_website.pptx
Defectolog_presentation_for_website.pptxOlgaDidenko6
 
Горбонос 2024_presentation_for_website.pptx
Горбонос 2024_presentation_for_website.pptxГорбонос 2024_presentation_for_website.pptx
Горбонос 2024_presentation_for_website.pptxOlgaDidenko6
 
Супрун презентація_presentation_for_website.pptx
Супрун презентація_presentation_for_website.pptxСупрун презентація_presentation_for_website.pptx
Супрун презентація_presentation_for_website.pptxOlgaDidenko6
 
Супрун презентація_presentation_for_website.pptx
Супрун презентація_presentation_for_website.pptxСупрун презентація_presentation_for_website.pptx
Супрун презентація_presentation_for_website.pptxOlgaDidenko6
 
Спектроскоп. Спостереження оптичних явищ
Спектроскоп. Спостереження оптичних явищСпектроскоп. Спостереження оптичних явищ
Спектроскоп. Спостереження оптичних явищOleksii Voronkin
 
Роль українців у перемозі в Другій світовій війні
Роль українців у перемозі в Другій світовій війніРоль українців у перемозі в Другій світовій війні
Роль українців у перемозі в Другій світовій війніestet13
 

Dernier (10)

psychologistpresentation-230215175859-50bdd6ed.ppt
psychologistpresentation-230215175859-50bdd6ed.pptpsychologistpresentation-230215175859-50bdd6ed.ppt
psychologistpresentation-230215175859-50bdd6ed.ppt
 
Відкрита лекція на тему: "Сидерати - як спосіб виживання"
Відкрита лекція на тему: "Сидерати - як спосіб виживання"Відкрита лекція на тему: "Сидерати - як спосіб виживання"
Відкрита лекція на тему: "Сидерати - як спосіб виживання"
 
Балади про Робіна Гуда. Аналіз образу Робіна Гуда
Балади про Робіна Гуда. Аналіз образу Робіна ГудаБалади про Робіна Гуда. Аналіз образу Робіна Гуда
Балади про Робіна Гуда. Аналіз образу Робіна Гуда
 
Defectolog_presentation_for_website.pptx
Defectolog_presentation_for_website.pptxDefectolog_presentation_for_website.pptx
Defectolog_presentation_for_website.pptx
 
Горбонос 2024_presentation_for_website.pptx
Горбонос 2024_presentation_for_website.pptxГорбонос 2024_presentation_for_website.pptx
Горбонос 2024_presentation_for_website.pptx
 
Супрун презентація_presentation_for_website.pptx
Супрун презентація_presentation_for_website.pptxСупрун презентація_presentation_for_website.pptx
Супрун презентація_presentation_for_website.pptx
 
Супрун презентація_presentation_for_website.pptx
Супрун презентація_presentation_for_website.pptxСупрун презентація_presentation_for_website.pptx
Супрун презентація_presentation_for_website.pptx
 
Габон
ГабонГабон
Габон
 
Спектроскоп. Спостереження оптичних явищ
Спектроскоп. Спостереження оптичних явищСпектроскоп. Спостереження оптичних явищ
Спектроскоп. Спостереження оптичних явищ
 
Роль українців у перемозі в Другій світовій війні
Роль українців у перемозі в Другій світовій війніРоль українців у перемозі в Другій світовій війні
Роль українців у перемозі в Другій світовій війні
 

Устимчук Павло ІН-203.docx

  • 1. 1. Вступ Data Mining і Data Science - це дві суміжні області знань, які займаються видобуванням знань з даних. Data Mining - це процес видобування корисної інформації з великих наборів даних, зазвичай з метою виявлення закономірностей і тенденцій, які не були відомі раніше. Data Science - це більш широке поняття, що включає в себе різні аспекти збору, обробки, аналізу та використання даних для прийняття рішень. У зв'язку зі швидким розвитком технологій та зростанням обсягів даних, інноваційні тенденції та перспективи Data Mining/Data Science стають все більш актуальними для підприємств та організацій у всіх галузях. У цій доповіді будуть розглянуті деякі з найбільш значущих тенденцій та перспектив у Data Mining/Data Science. Deep Learning Deep Learning є однією з найбільш актуальних та перспективних технологій у Data Mining/Data Science. Це глибоке навчання штучних нейронних мереж, що дозволяє розв'язувати складні завдання у різних галузях, включаючи машинне зору, обробку природних мов та розпізнавання мовлення. Прикладом успішного використання Deep Learning є проект Google Translate. Завдяки Deep Learning, Google Translate став можливим для перекладу між різними мовами з високою якістю. Крім того, Deep Learning використовується у медичній діагностиці для виявлення захворювань та прогнозування хвороб. Big Data Big Data є ще однією з найбільш важливих тенденцій у Data Mining/Data Science. Зростаючі обсяги даних забезпечують нові можливості для розуміння та аналізу даних. Зважаючи на високу актуальність теми, нинішній доповідь має на меті описати та проаналізувати ключові інноваційні тенденції та перспективи розвитку Data Mining/Data Science. У зв'язку з цим, мета доповіді - дослідити сучасні тенденції
  • 2. та перспективи розвитку Data Mining/Data Science та проаналізувати їх вплив на майбутні можливості застосування цієї технології. Дослідження проводилось з використанням різноманітних інтернет-ресурсів, серед яких - сайти технологічних компаній, наукові публікації, статистичні дані та інші відомі джерела, що дозволило зібрати велику кількість інформації з даної теми. Перші кроки в напрямку Data Mining були зроблені ще в 1980-х роках, проте досить значні зміни в цій галузі були здійснені у 1990-х та 2000-х роках. Спочатку Data Mining було в основному використане в галузі бізнесу, щоб підвищити ефективність управління, але згодом воно стало популярним серед дослідників та вчених. Зараз Data Mining та Data Science використовуються в багатьох галузях, зокрема в бізнесі, медицині, науці, політиці, спорті та інших сферах. Наприклад, у бізнесі Data Mining використовуються для аналізу та передбачення попиту на товари, аналізу продажів та визначення найбільш ефективних маркетингових стратегій. У медицині Data Mining використовуються для виявлення закономірностей в клінічних дослідженнях та визначення прогнозів хвороб. Роль Data Science в прогресивних інноваціях Data Science відіграє важливу роль в прогресивних інноваціях. Вона надає можливість аналізувати великі об'єми даних, які можуть допомогти у виявленні залежностей та тенденцій, зробити передбачення, розробити ефективні моделі та стратегії. Data Science може бути використана в різних галузях, таких як медицина, наука, економіка, бізнес та багато інших. Він допомагає розуміти, які дії необхідні для досягнення певної мети, що робить його корисним інструментом в процесі прийняття рішень. Інновації в Data Mining/Data Science Однією з найважливіших інновацій в Data Mining/Data Science є використання машинного навчання та глибокого навчання. Це дозволяє аналізувати великі об'єми даних та виявляти залежності та тенденції, які неможливо виявити
  • 3. людським спостереженням. Також, це дозволяє розробляти більш точні та ефективні моделі, що допомагає вирішувати проблеми та знаходити нові шляхи досягнення мети. Іншою важливою інновацією в Data Mining/Data Science є використання Big Data технологій. Big Data дозволяє збирати та аналізувати великі об'єми даних, що забезпечує зростання продуктивності та ефективності прийняття рішень. Big Data дозволяє більш точно визначати потреби та попит на продукти, зменшує ризик помилок та дозволяє більш точно передбачити майбутні тенденції. Підсумовуючи викладене в доповіді, можна зробити висновок, що Data Mining та Data Science - це сфери, які постійно розвиваються та знаходять все більше застосувань у різних галузях. Застосування цих технологій вже сьогодні визначають конкурентоспроможність бізнесу та розвиток наукових досліджень у різних галузях. Інноваційні тенденції в Data Mining/Data Science показують, що розвиток цих сфер буде невпинним. По-перше, це пов'язано з постійним збільшенням обсягів даних, які можуть бути оброблені, зокрема, за допомогою методів машинного навчання. По-друге, постійно з'являються нові технології та інструменти для роботи з даними, що дозволяє забезпечити ще більшу ефективність та точність аналізу. По-третє, розвиток інтернету речей та обробки великих обсягів даних у режимі реального часу відкриває нові можливості для застосування технологій Data Mining/Data Science у різних сферах. Стандартизація в Data Mining/Data Science є важливим елементом для забезпечення якості роботи та взаємодії між різними системами та програмами. Стандартизація дозволяє забезпечити більш точні результати аналізу та більш точну передачу даних між різними системами. Завдяки використанню стандартизованих методів та підходів, можна досягти більшої ефективності та точності аналізу даних. Отже, можна стверджувати, що Data Mining/Data Science має великий потенціал для використання в різних сферах, що дозволяє досягти більшої ефективності
  • 4. 2. Одним з цікавих джерел є стандартизаційні організації, такі як International Organization for Standardization (ISO) та Institute of Electrical and Electronics Engineers (IEEE). Вони займаються створенням стандартів для більшості галузей, включаючи Data Mining та Data Science. Наприклад, ISO має ряд стандартів, пов'язаних з Data Mining, таких як ISO/IEC 11179 та ISO/IEC 20546. IEEE також має відповідні стандарти, такі як IEEE 1850 та IEEE 1872. https://www.youtube.com/watch?v=RXKQYo09j6c&ab_channel=KrishNaik , https://www.youtube.com/watch?v=7rs0i-9nOjo&ab_channel=IBMTechnology , https://www.youtube.com/watch?v=X3paOmcrTjQ&ab_channel=Simplilearn Розглядається поняття та імплементацію стандартизації у машинному навчанні. Пояснюється , що стандартизація - це процес перетворення даних на такі, щоб їх середнє значення було 0, а стандартне відхилення - 1. Це забезпечує належну обробку даних та робить їх порівнянними між собою. Доповідач також розглядає застосування стандартизації до даних з декількох джерел. Розглядається стандартизація даних на основі використання інструментів IBM SPSS Statistics. Під час доповіді пояснюється, що стандартизація - це необхідна процедура, щоб забезпечити належну обробку та порівняння даних. Доповідач розглядає варіанти стандартизації даних, включаючи стандартизацію за допомогою середньої величини та стандартного відхилення. Обговорюється роль стандартизації у побудові моделей машинного навчання. Доповідач пояснює, що стандартизація є необхідним кроком для забезпечення належної обробки даних та підготовки їх для моделювання. Також розглядає різні методи стандартизації, такі як Z-score та мінімакс. Усі три відео підкреслюють необхідність стандартизації даних у машинному навчанні та аналітиці даних. Вони пояснюють, як правильно стандартизувати дані та які методи стандартизації можна використовувати
  • 5. 3. Використані наступні ресурси для науковців: Google Scholar та researchgate.net. 1. Згідно зі статтею "Python in Data Science: An Overview" авторів Sehgal, Bansal та Kumar, опублікованої в журналі International Journal of Advanced Research in Computer Science and Software Engineering в 2019 році, Python є однією з найпопулярніших мов програмування для Data Science, з більш ніж 80% дослідників, що використовують мову, віддають перевагу саме цій мові. 2. У статті "R vs. Python for Data Analysis: Comparison and Comparison and Debate" авторів Zhang, Zhang та Shang, опублікованої в журналі International Journal of Emerging Technologies in Learning в 2020 році, порівнюються мови програмування Python та R. За результатами дослідження, автори зазначають, що Python є більш широко використовуваною мовою для Data Science, оскільки вона має більшу кількість бібліотек та інструментів для обробки даних. 3. У статті "Data Science and Big Data Analytics: An Empirical Study of Popular Tools and Languages" авторів Ghosh, Mukherjee та Choudhury, опублікованої в журналі International Journal of Computer Science and Engineering в 2021 році, досліджується використання різних мов програмування та інструментів для Data Science та Big Data Analytics. Згідно з дослідженням, Python є найбільш популярною мовою для обробки даних та машинного навчання, а також є найбільш широко використовуваним інструментом для візуалізації даних. 4. У статті "Scala for Data Science: A Comparative Study with Python" авторів Vats та Verma, опублікованої в журналі International Journal of Advanced Computer Science and Applications в 2020 році, порівнюється мова програмування Scala з Python для Data Science. Згідно з дослідженням, Scala є більш швидкою мовою програмування, але Python має більшу кількість бібліотек. 5. "A comparative study of data mining algorithms in the classification of tuberculosis disease" (2021) авторство Abiodun et al., опублікована в журналі International Journal of Applied Engineering Research, порівнює ефективність декількох алгоритмів класифікації, таких як Decision Tree
  • 6. (DT), Naive Bayes (NB) та Random Forest (RF), для діагностики туберкульозу. Результати дослідження показали, що алгоритм Random Forest показав найвищу точність (95,9%), порівняно з Decision Tree (88,5%) та Naive Bayes (87,3%). 6. У статті "Exploring and Predicting Job Trends using Data Mining Techniques" (2020) авторства Sujatha та Saravanan, опублікованій в International Journal of Innovative Technology and Exploring Engineering, досліджується використання алгоритмів асоціативних правил та класифікації для аналізу трендів на ринку праці. Результати дослідження показали, що алгоритм FP-Growth був більш ефективним у виявленні зв'язків між різними професіями та компаніями, порівняно з алгоритмом Naive Bayes. 7. У статті "Predictive modeling and machine learning algorithms for movie success prediction using IMDb dataset" (2020) авторства Alshammari та Alfehaid, опублікованій в журналі IOP Conference Series: Materials Science and Engineering, досліджується застосування машинного навчання для передбачення успіху фільмів на основі даних з IMDb. Дослідники порівняли ефективність алгоритмів Random Forest, Decision Tree та Logistic Regression та встановили, що Random Forest показав найвищу точність передбачення (87,9%). 8. У статті "An improved algorithm for spam detection in social media using data mining techniques" (2018) авторства Marimuthu та Anantharaman, опублікованій в журналі International Journal of Pure and Applied Mathematics, досліджується застосування алгоритмів машинного навчання для виявлення спаму в соціальних мережах. 9. Шарма, А., Рані, Р. (2020). Порівняльний аналіз мов програмування Data Science. У 2020 р. 7-ма Міжнародна конференція з обробки сигналів та інтегрованих мереж (SPIN) (стор. 270-274). IEEE. У цьому дослідженні проаналізовано та порівняно мови програмування, які використовуються в науці про дані, шляхом проведення опитування 100 спеціалістів із обробки даних. Під час опитування було зібрано дані про використання різних мов програмування, зокрема Python, R, SAS і MATLAB, а також досліджено фактори, що впливають на вибір мови. Дослідження показало, що найпопулярнішою мовою є Python, за нею йдуть R і SAS. Виявлено, що Python є найбільш зручною для користувача мовою з широкою підтримкою спільноти та доступністю численних бібліотек для аналізу даних.
  • 7. 10.Ахлават, А., і Бансал, А. (2019). Порівняльне дослідження наукових мов програмування. Міжнародний журнал наукових досліджень у галузі інформатики, техніки та інформаційних технологій, 5(3), 546-552. У цьому дослідженні порівнювалися мови програмування, які використовуються в науці про дані, зокрема Python, R і SAS, на основі їх використання та популярності серед спеціалістів із обробки даних. Дослідження зібрало дані від 60 спеціалістів із обробки даних за допомогою онлайн- опитування та проаналізувало використання та особливості цих мов. Дослідження показало, що Python є найпоширенішою мовою, за нею йдуть R і SAS. Python також виявилася найпростішою мовою для вивчення та мала найбільшу кількість доступних бібліотек і ресурсів для аналізу даних.