Устимчук Павло ІН-203.docx

1.
Вступ
Data Mining і Data Science - це дві суміжні області знань, які займаються
видобуванням знань з даних. Data Mining - це процес видобування корисної
інформації з великих наборів даних, зазвичай з метою виявлення
закономірностей і тенденцій, які не були відомі раніше. Data Science - це більш
широке поняття, що включає в себе різні аспекти збору, обробки, аналізу та
використання даних для прийняття рішень.
У зв'язку зі швидким розвитком технологій та зростанням обсягів даних,
інноваційні тенденції та перспективи Data Mining/Data Science стають все більш
актуальними для підприємств та організацій у всіх галузях. У цій доповіді будуть
розглянуті деякі з найбільш значущих тенденцій та перспектив у Data
Mining/Data Science.
Deep Learning
Deep Learning є однією з найбільш актуальних та перспективних технологій у
Data Mining/Data Science. Це глибоке навчання штучних нейронних мереж, що
дозволяє розв'язувати складні завдання у різних галузях, включаючи машинне
зору, обробку природних мов та розпізнавання мовлення.
Прикладом успішного використання Deep Learning є проект Google Translate.
Завдяки Deep Learning, Google Translate став можливим для перекладу між
різними мовами з високою якістю. Крім того, Deep Learning використовується у
медичній діагностиці для виявлення захворювань та прогнозування хвороб.
Big Data
Big Data є ще однією з найбільш важливих тенденцій у Data Mining/Data Science.
Зростаючі обсяги даних забезпечують нові можливості для розуміння та аналізу
даних.
Зважаючи на високу актуальність теми, нинішній доповідь має на меті описати
та проаналізувати ключові інноваційні тенденції та перспективи розвитку Data
Mining/Data Science. У зв'язку з цим, мета доповіді - дослідити сучасні тенденції

та перспективи розвитку Data Mining/Data Science та проаналізувати їх вплив на
майбутні можливості застосування цієї технології.
Дослідження проводилось з використанням різноманітних інтернет-ресурсів,
серед яких - сайти технологічних компаній, наукові публікації, статистичні дані
та інші відомі джерела, що дозволило зібрати велику кількість інформації з
даної теми.
Перші кроки в напрямку Data Mining були зроблені ще в 1980-х роках, проте
досить значні зміни в цій галузі були здійснені у 1990-х та 2000-х роках.
Спочатку Data Mining було в основному використане в галузі бізнесу, щоб
підвищити ефективність управління, але згодом воно стало популярним серед
дослідників та вчених.
Зараз Data Mining та Data Science використовуються в багатьох галузях, зокрема
в бізнесі, медицині, науці, політиці, спорті та інших сферах. Наприклад, у бізнесі
Data Mining використовуються для аналізу та передбачення попиту на товари,
аналізу продажів та визначення найбільш ефективних маркетингових стратегій.
У медицині Data Mining використовуються для виявлення закономірностей в
клінічних дослідженнях та визначення прогнозів хвороб.
Роль Data Science в прогресивних інноваціях
Data Science відіграє важливу роль в прогресивних інноваціях. Вона надає
можливість аналізувати великі об'єми даних, які можуть допомогти у виявленні
залежностей та тенденцій, зробити передбачення, розробити ефективні моделі
та стратегії. Data Science може бути використана в різних галузях, таких як
медицина, наука, економіка, бізнес та багато інших. Він допомагає розуміти, які
дії необхідні для досягнення певної мети, що робить його корисним
інструментом в процесі прийняття рішень.
Інновації в Data Mining/Data Science
Однією з найважливіших інновацій в Data Mining/Data Science є використання
машинного навчання та глибокого навчання. Це дозволяє аналізувати великі
об'єми даних та виявляти залежності та тенденції, які неможливо виявити

людським спостереженням. Також, це дозволяє розробляти більш точні та
ефективні моделі, що допомагає вирішувати проблеми та знаходити нові шляхи
досягнення мети.
Іншою важливою інновацією в Data Mining/Data Science є використання Big Data
технологій. Big Data дозволяє збирати та аналізувати великі об'єми даних, що
забезпечує зростання продуктивності та ефективності прийняття рішень. Big
Data дозволяє більш точно визначати потреби та попит на продукти, зменшує
ризик помилок та дозволяє більш точно передбачити майбутні тенденції.
Підсумовуючи викладене в доповіді, можна зробити висновок, що Data Mining
та Data Science - це сфери, які постійно розвиваються та знаходять все більше
застосувань у різних галузях. Застосування цих технологій вже сьогодні
визначають конкурентоспроможність бізнесу та розвиток наукових досліджень
у різних галузях.
Інноваційні тенденції в Data Mining/Data Science показують, що розвиток цих
сфер буде невпинним. По-перше, це пов'язано з постійним збільшенням обсягів
даних, які можуть бути оброблені, зокрема, за допомогою методів машинного
навчання. По-друге, постійно з'являються нові технології та інструменти для
роботи з даними, що дозволяє забезпечити ще більшу ефективність та точність
аналізу. По-третє, розвиток інтернету речей та обробки великих обсягів даних у
режимі реального часу відкриває нові можливості для застосування технологій
Data Mining/Data Science у різних сферах.
Стандартизація в Data Mining/Data Science є важливим елементом для
забезпечення якості роботи та взаємодії між різними системами та
програмами. Стандартизація дозволяє забезпечити більш точні результати
аналізу та більш точну передачу даних між різними системами. Завдяки
використанню стандартизованих методів та підходів, можна досягти більшої
ефективності та точності аналізу даних.
Отже, можна стверджувати, що Data Mining/Data Science має великий потенціал
для використання в різних сферах, що дозволяє досягти більшої ефективності

2.
Одним з цікавих джерел є стандартизаційні організації, такі як International
Organization for Standardization (ISO) та Institute of Electrical and Electronics
Engineers (IEEE). Вони займаються створенням стандартів для більшості галузей,
включаючи Data Mining та Data Science. Наприклад, ISO має ряд стандартів,
пов'язаних з Data Mining, таких як ISO/IEC 11179 та ISO/IEC 20546. IEEE також має
відповідні стандарти, такі як IEEE 1850 та IEEE 1872.
https://www.youtube.com/watch?v=RXKQYo09j6c&ab_channel=KrishNaik ,
https://www.youtube.com/watch?v=7rs0i-9nOjo&ab_channel=IBMTechnology ,
https://www.youtube.com/watch?v=X3paOmcrTjQ&ab_channel=Simplilearn
Розглядається поняття та імплементацію стандартизації у машинному навчанні.
Пояснюється , що стандартизація - це процес перетворення даних на такі, щоб їх
середнє значення було 0, а стандартне відхилення - 1. Це забезпечує належну
обробку даних та робить їх порівнянними між собою. Доповідач також
розглядає застосування стандартизації до даних з декількох джерел.
Розглядається стандартизація даних на основі використання інструментів IBM
SPSS Statistics. Під час доповіді пояснюється, що стандартизація - це необхідна
процедура, щоб забезпечити належну обробку та порівняння даних. Доповідач
розглядає варіанти стандартизації даних, включаючи стандартизацію за
допомогою середньої величини та стандартного відхилення.
Обговорюється роль стандартизації у побудові моделей машинного навчання.
Доповідач пояснює, що стандартизація є необхідним кроком для забезпечення
належної обробки даних та підготовки їх для моделювання. Також розглядає
різні методи стандартизації, такі як Z-score та мінімакс.
Усі три відео підкреслюють необхідність стандартизації даних у машинному
навчанні та аналітиці даних. Вони пояснюють, як правильно стандартизувати
дані та які методи стандартизації можна використовувати

3.
Використані наступні ресурси для науковців: Google Scholar та researchgate.net.
1. Згідно зі статтею "Python in Data Science: An Overview" авторів Sehgal,
Bansal та Kumar, опублікованої в журналі International Journal of Advanced
Research in Computer Science and Software Engineering в 2019 році, Python
є однією з найпопулярніших мов програмування для Data Science, з більш
ніж 80% дослідників, що використовують мову, віддають перевагу саме
цій мові.
2. У статті "R vs. Python for Data Analysis: Comparison and Comparison and
Debate" авторів Zhang, Zhang та Shang, опублікованої в журналі
International Journal of Emerging Technologies in Learning в 2020 році,
порівнюються мови програмування Python та R. За результатами
дослідження, автори зазначають, що Python є більш широко
використовуваною мовою для Data Science, оскільки вона має більшу
кількість бібліотек та інструментів для обробки даних.
3. У статті "Data Science and Big Data Analytics: An Empirical Study of Popular
Tools and Languages" авторів Ghosh, Mukherjee та Choudhury,
опублікованої в журналі International Journal of Computer Science and
Engineering в 2021 році, досліджується використання різних мов
програмування та інструментів для Data Science та Big Data Analytics.
Згідно з дослідженням, Python є найбільш популярною мовою для
обробки даних та машинного навчання, а також є найбільш широко
використовуваним інструментом для візуалізації даних.
4. У статті "Scala for Data Science: A Comparative Study with Python" авторів
Vats та Verma, опублікованої в журналі International Journal of Advanced
Computer Science and Applications в 2020 році, порівнюється мова
програмування Scala з Python для Data Science. Згідно з дослідженням,
Scala є більш швидкою мовою програмування, але Python має більшу
кількість бібліотек.
5. "A comparative study of data mining algorithms in the classification of
tuberculosis disease" (2021) авторство Abiodun et al., опублікована в
журналі International Journal of Applied Engineering Research, порівнює
ефективність декількох алгоритмів класифікації, таких як Decision Tree

(DT), Naive Bayes (NB) та Random Forest (RF), для діагностики
туберкульозу. Результати дослідження показали, що алгоритм Random
Forest показав найвищу точність (95,9%), порівняно з Decision Tree (88,5%)
та Naive Bayes (87,3%).
6. У статті "Exploring and Predicting Job Trends using Data Mining Techniques"
(2020) авторства Sujatha та Saravanan, опублікованій в International Journal
of Innovative Technology and Exploring Engineering, досліджується
використання алгоритмів асоціативних правил та класифікації для аналізу
трендів на ринку праці. Результати дослідження показали, що алгоритм
FP-Growth був більш ефективним у виявленні зв'язків між різними
професіями та компаніями, порівняно з алгоритмом Naive Bayes.
7. У статті "Predictive modeling and machine learning algorithms for movie
success prediction using IMDb dataset" (2020) авторства Alshammari та
Alfehaid, опублікованій в журналі IOP Conference Series: Materials Science
and Engineering, досліджується застосування машинного навчання для
передбачення успіху фільмів на основі даних з IMDb. Дослідники
порівняли ефективність алгоритмів Random Forest, Decision Tree та Logistic
Regression та встановили, що Random Forest показав найвищу точність
передбачення (87,9%).
8. У статті "An improved algorithm for spam detection in social media using data
mining techniques" (2018) авторства Marimuthu та Anantharaman,
опублікованій в журналі International Journal of Pure and Applied
Mathematics, досліджується застосування алгоритмів машинного
навчання для виявлення спаму в соціальних мережах.
9. Шарма, А., Рані, Р. (2020). Порівняльний аналіз мов програмування Data
Science. У 2020 р. 7-ма Міжнародна конференція з обробки сигналів та
інтегрованих мереж (SPIN) (стор. 270-274). IEEE.
У цьому дослідженні проаналізовано та порівняно мови програмування, які
використовуються в науці про дані, шляхом проведення опитування 100
спеціалістів із обробки даних. Під час опитування було зібрано дані про
використання різних мов програмування, зокрема Python, R, SAS і MATLAB, а
також досліджено фактори, що впливають на вибір мови. Дослідження
показало, що найпопулярнішою мовою є Python, за нею йдуть R і SAS.
Виявлено, що Python є найбільш зручною для користувача мовою з широкою
підтримкою спільноти та доступністю численних бібліотек для аналізу даних.

10.Ахлават, А., і Бансал, А. (2019). Порівняльне дослідження наукових мов
програмування. Міжнародний журнал наукових досліджень у галузі
інформатики, техніки та інформаційних технологій, 5(3), 546-552.
У цьому дослідженні порівнювалися мови програмування, які
використовуються в науці про дані, зокрема Python, R і SAS, на основі їх
використання та популярності серед спеціалістів із обробки даних. Дослідження
зібрало дані від 60 спеціалістів із обробки даних за допомогою онлайн-
опитування та проаналізувало використання та особливості цих мов.
Дослідження показало, що Python є найпоширенішою мовою, за нею йдуть R і
SAS. Python також виявилася найпростішою мовою для вивчення та мала
найбільшу кількість доступних бібліотек і ресурсів для аналізу даних.

Устимчук Павло ІН-203.docx

Recommandé

Recommandé

Contenu connexe

Similaire à Устимчук Павло ІН-203.docx

Similaire à Устимчук Павло ІН-203.docx (20)

Dernier

Dernier (10)

Устимчук Павло ІН-203.docx