SlideShare une entreprise Scribd logo
1  sur  27
Télécharger pour lire hors ligne
INFORMATION RETRIEVAL AND DATA
EXTRACTION IN WEB
Sahib Babaliyev | rəh. Dr.Abzetdin Adamov
İnformasiya axtarışı
Data Mining
(relevantlıq)
İnternetdə axtarış zamanı əldə olunan məlumatın sorğuya nə
qədər uyğun olması
Data Mining
• böyük miqdarda verilənlərin işlənilməsi
• böyük həcmli verilənlər çoxluğunda gizli vəziyyətdə
olan obyekt və meylləri ortaya çıxarmaq
• (mətnin içində açar sözlərin müəyyənləşdirilməsi)
Açar sözləri
Açar sözləri
• mətnin nədən bəhs etdiyini deməyə imkan verir
• sənədlərin siniflərə bölünməsi(klassifikasiyası)
• sürətli indeksləşdirmə
Qraf modelləri
(TextRank)
Qraf modellərinə əsaslanan alqoritmlər universallığı və
effektivliyi ilə seçilir.
TextRank modeli
• qrafın qurulması
• Mənalı sözlərin təyin edilməsi (isim, sifət)
• Əlaqələrin qurulması (çəkilərinin hesablanması)
• qrafın qiymətləndirilməsi (TextRank)
• qrafdan açar sözlərin seçilməsi (T sayda)
TextRank modeli (əlaqələr)
Qrafı 𝐺 = (𝐷, 𝐸).
𝐷 — qrafın düyünləri, sözlər çoxluğudur, 𝐸 — həmin sözlər
arasında əlaqələr çoxluğudur.
𝑘1 və 𝑘2 sözləri arasındakı əlaqənin çəkisi onların arasındakı məsafə
nə qədər az olsa, o qədər çox olur:
𝑊𝐸 𝑘1, 𝑘2 =
1 −
𝑑 𝑘1, 𝑘2 − 1
𝑁 − 1
, ə𝑔ə𝑟 𝑑 𝑘1, 𝑘2 ∈ (1, 𝑁)
0, ə𝑔ə𝑟 𝑑 𝑘1, 𝑘2 ≥ 𝑁
𝑁 ölçüdə parça hüdudundakı sözlərə baxılır.
TextRank modeli (alqoritm)
𝑉𝑖 düyünü üçün 𝐼𝑛 𝑉𝑖 - ona gələn,
𝑂𝑢𝑡 𝑉𝑖 - ondan çıxan əlaqələ çoxluğudur.
𝑇𝑅 𝑉𝑖 = 1 − 𝑑 + 𝑑 ∗
𝑉 𝑘∈𝐼𝑛 𝑉 𝑖
𝜔 𝑘,𝑖
𝑉 𝑗∈𝑂𝑢𝑡 𝑉 𝑘
𝜔 𝑘,𝑗
𝑇𝑅(𝑉𝑘)
𝜔 𝑘,𝑖 — 𝑉𝑘 və 𝑉𝑖 düyünlərini birləşdirən əlaqənin çəkisidir,
𝑑 — sönmə faktorudur (0.85).
𝑇𝑅 𝑘+1 𝑉𝑖 − 𝑇𝑅 𝑘 𝑉𝑖 < 𝜀 − 𝑖𝑡𝑒𝑟𝑎𝑠𝑖𝑦𝑎𝑙𝑎𝑟𝚤 𝑑𝑎𝑦𝑎𝑛𝑑𝚤𝑟𝑚𝑎𝑞 𝑜𝑙𝑎𝑟
TextRank modeli (alqoritm)
B sözünə çoxlu sayda digər söz qoşulduğundan TextRank qiyməti böyükdür. E
sözünə daha çox söz qoşulmasına baxmayaraq, C sözünün TextRank qiyməti E -dən
böyükdür. Bu, C sözünün daha vacib sözlə əlaqələndiyindən və bu əlaqənin
yeganəliyindən irəli gəlir.
TextRank modeli (alqoritm)
TextRank modeli (seçim)
• qrafı final qiymətlərinin azalması sırasına görə düzürük
• ilk 𝑇 sayda sözü açar söz kimi seçirik
𝑇 =
1
3
𝑉
Təcrübə
Nüvə hüceyrənin mərkəzində yerləşən ən əsas hissəsidir. Nüvəni ilk dəfə 1831-ci ildə
ingilis botaniki R.Braun kəşf etmişdir. Birhüceyrəli və çoxhüceyrəli bitki və heyvanların
hüceyrələrində həmişə nüvə olur. Yalnız bakteriya və göy-yaşıl yosunların
hüceyrəsində formalaşmış nüvə yoxdur. Nüvə maddələr mübadiləsinin idarə mərkəzi
və digər orqanoidlərin fəaliyyətinin tənzimetmə mərkəzidir. Nüvənin forma və ölçüsü
hüceyrənin forma və ölçüsündən asılıdır. Nüvə əksərən şar və ellips formasında, az
hallarda isə linzavarıdır. Nüvənin böyüklüyü orqanizmlərin növündən və
hüceyrələrinin yaşından asılıdır. Hüceyrə böyüdükcə nüvə də irəliləşir. Hüceyrələrdə
nüvələrin sayı müxtəlif olur. Normal halda əksər hüceyrələrin bir nüvəsi olur. Bunlar
birnüvəli hüceyrələr adlanır. İki, üç və hətta yüzlərlə nüvəli hüceyrələr də var.
Məsələn, infuzor tərlikdə iki, onurğalı heyvanların qaraciyərində, sümük iliyində və
əzələ hüceyrələrində onlarca nüvə olur.
Mətn parçası Vikipediyadan götürülmüşdür. http://az.wikipedia.org/wiki/Hüceyrə_nüvəsi
Qrafın vizual təsvirinin qurulmasında Gephi proqram təminatından istifadə olunmuşdur. http://gephi.org
Açar sözləri
Ən yüksək qiymətləndirilmiş sözlər
• Hüceyrə
• Nüvə
• Mərkəz
• Heyvan
• Botanik
• R. Braun
Açar sözləri
Ən yüksək qiymətləndirilmiş
• Hüceyrə
• Nüvə
• Mərkəz
• Heyvan
• Botanik
• R. Braun
Ən çox təkrarlanan sözlər
• Nüvə
• Hüceyrə
• Forma
• Mərkəz
• Ölçü
• Heyvan
Mətnin xülasəsinin
avtomatik tərtibi
(açar cümlələr)
TextRank alqoritmi ilə açar cümlələrin də tapılması
mümkündür. (automatic summarization)
Qısa xülasə
• lazımi informasiyanı tez tapmaq
• oxşar mətnləri klasterlərə ayırmaq (kitabxana işi)
• axtarış sistemləri WEB səhifələrinin qısa xülasəsini saxlayır
Qısa xülasə
Qısa xülasə (TextRank)
• qrafın düyünlərində cümlələr olur
• cümlələr arasında əlaqələr oxşarlıq əlamətinə görə qurulur
(cümlələrin yaxınlığı)
Cümlələrin yaxınlığı
(üst-üstə düşməsi)
Cümləni sözlər oxluğu kimi göstərmək olar
𝑆𝑖 = {𝜔1
𝑖
, 𝜔2
𝑖
, 𝜔3
𝑖
, 𝜔4
𝑖
, 𝜔5
𝑖
, … 𝜔 𝑁 𝑖
𝑖
}
Cümlələr arasında oxşarlıq
𝑂𝑥ş𝑎𝑟𝑙ı𝑞(𝑆𝑖, 𝑆𝑖) =
𝜔 𝑘, 𝜔 𝑘 ∈ 𝑆𝑖 & 𝜔 𝑘 ∈ 𝑆𝑗
𝑆𝑖 + 𝑆𝑖
eyni anlayışlarla bölüşən iki cümlə arasında əlaqə olur
Təcrübə
Bir qurumun və ya təşkilatın məqsədlərinə çatmaq üçün gördüyü işlər çoxluğuna iş prosesi, business process, biznes proses deyilir. Biznes
proses adətən bir neçə mərhələdə, addımda tamamlanır. Həmin addımlar qeyd olunmuş müəyyən bir ardıcıllıqla yerinə yetirilməlidir.
Məsələn, tutaq ki satıcı alıcılara öz mallarını satmaq istəyir. Bunun üçün əvvəlcə o özü həmin malları əldə etməlidir. Yəni ki müəyyən bir
prosesi yerinə yetirərək məqsədəçatmaq istənilirsə, bu zaman əməliyyatlar arasında müəyyən bir ardıcıllıq gözlənilməlidir. Eyni zamanda
müəyyən əməliyyatlar işin görülmə məntiqindən asılı olaraq lazım gələrsə paralel şəkildə də yerinə yetirilə bilər. Biznes Prosesin İdarə
Edilməsi (Business Process Management-BPM) biznes prosesi layihələndirmək, idarə etmək və analiz etmək üçün lazım olan alətlərin,
texnologiyaların və metodların birləşməsidir. BPM təşkilatın işini daha effektiv, daha səmərəli etmək üçün olan sistematik yanaşmadır.
BPM informasiyanın vaxtında düzgün formada yerinə çatdırılmasını təmin edir. Bu o deməkdir ki, daxili sistem, insanlar və ya xarici
partnyorlar işlərini tamalamaq üçün lazım olan informasiyanı müvafiq vaxtda əldə edə bilirlər. Yəni ki, BPM təşkilatda insanlar arasında,
onun daxili sistemleri arasında qarşılıqlı əlaqəni təmin edir. Əgər BPM-dən istifadə olunmasa müvafiq biznes prosesi tamamlamaq üçün
olan əməliyyatların bəziləri unudula və ya vaxtında yerinə yetirilməyə bilər. Buna görə də təşkilat üçün BPM-in rolu böyükdür. Hər hansı
bir təşkilatın strukturunu təsəvvür etsək, bildiyimiz kimi təşkilat daxilində görüləcək işlərin məqsədlərinə uyğun olaraq müxtəlif şöbələrə
ayrılır. Texnologiyanın inkişafı ilə əlaqədar olaraq təşkilatlarda avtomatlaşdırılmış sistemlərdən istifadə edildiyindən və bu sahədə
görüləcək işlərə böyük ehtiyac olduğundan hazırda şirkətlərin ayrıca İT şöbələri var. Hər hansı bir təşkilatda İT şöbəsinin məqsədi
texnologiya ilə bağlı olan bütün məsələlərlə məşğul olmaqdır. BPM təşkilat daxilində İT şöbəsi ilə digər şöbələr arasında bağlantı
nöqtəsidir. Yəni ki, BPM İT və digər şöbələr arasında körpü rolunu oynayır. Onlar arasında əlaqəni asanlaşdırmaq üçün biznes prosesi
modelləşdirirlər. Modelləşmə dedikdə təşkilat daxilində biznes prosesin analitik, qrafik təsviri başa düşülür. Bu məqsədlə daha çox BPMN
dən, business process modeling notation, istifadə olunur. Təşkilat daxilində biznes prosesin idarə edilməsində olan əsas problem İT
departamentinin işçiləri və digər departamentlərin işçiləri arasındakı əlaqənin çətinliyi, bir sözlə onlar arasındakı anlaşılmazlıqlardır.
Çünki digər şöbələrin işçiləri İT-nin işini anlamaqda çətinlik çəkirlər. Bu da öz növbəsində təşkilat daxilində işlərin görülməsində
problemlərə yol açır, bir sıra çətinliklər törədir. Müəyyən anlaşılmazlıqlar əmələ gəlir ki, bu da təşkilatın işinin tam, vaxtında və düzgün
yerinə yetirilməsində maneələr törədir. İT şöbəsinin işi digər şöbələrin işləri ilə sıx əlaqədə olduğundan hamı üçün ümumi olan bir
struktura ehtiyac duyulur.
İŞPROSESİZAMANI YARANA BİLƏCƏK PROBLEMLƏR VƏ ONLARIN HƏLLİ ÜÇÜN TƏKLİF OLUNAN
ARXİTEKTURA
Abzetdin ADAMOV, Aytən ZODOROVA. Gənc tədqiqatçıların II beynəlxalq elmi konfransı. 18.04.2014, Bakı
Ən yüksək qiymətləndirilmiş
cümlələr
1. Bir qurumun və ya təşkilatın məqsədlərinə çatmaq üçün gördüyü işlər
çoxluğuna iş prosesi, business process, biznes proses deyilir. (1.671)
2. Təşkilat daxilində biznes prosesin idarə edilməsində olan əsas problem
İT departamentinin işçiləri və digər departamentlərin işçiləri
arasındakı əlaqənin çətinliyi, bir sözlə onlar arasındakı
anlaşılmazlıqlardır. (1.557)
3. Hər hansı bir təşkilatın strukturunu təsəvvür etsək, bildiyimiz kimi
təşkilat daxilində görüləcək işlərin məqsədlərinə uyğun olaraq
müxtəlif şöbələrə ayrılır. (1.366)
4. BPM təşkilat daxilində İT şöbəsi ilə digər şöbələr arasında bağlantı
nöqtəsidir. (1.285)
5. İT şöbəsinin işi digər şöbələrin işləri ilə sıx əlaqədə olduğundan hamı
üçün ümumi olan bir struktura ehtiyac duyulur. (1.245)
6. BPM təşkilatın işini daha effektiv, daha səmərəli etmək üçün olan
sistematik yanaşmadır. (1.201)
İstinadlar
• NLPub — каталог лингвистических ресурсов для обработки русского
языка http://nlpub.ru/
• Grineva, M., Grinev, M., Lizorkin, D. Extracting Key Terms From Noisy
and Multi-theme Documents. Proceedings of the 18th International
Conference on World Wide Web. — 2009. — P. 661–670.
• Mihalcea, R., Tarau, P. TextRank: Bringing Order into Texts. Proceedings
of the 2004 Conference on Empirical Methods in Natural Language
Processing. — 2004. — Vol. 4. — № 4. — P. 404–411.
• S. Brin and L. Page. 1998. The anatomy of a large-scale hypertextual
Web search engine. Computer Networks and ISDN Systems, 30(1–7).
• Усталов Дмитрий Алексеевич, УрФУ, Екатеринбург, Россия
Извлечение терминов из русскоязычных текстов при помощи
графовых моделей

Contenu connexe

En vedette

Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 

En vedette (20)

Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 

TextRank

  • 1. INFORMATION RETRIEVAL AND DATA EXTRACTION IN WEB Sahib Babaliyev | rəh. Dr.Abzetdin Adamov
  • 2. İnformasiya axtarışı Data Mining (relevantlıq) İnternetdə axtarış zamanı əldə olunan məlumatın sorğuya nə qədər uyğun olması
  • 3. Data Mining • böyük miqdarda verilənlərin işlənilməsi • böyük həcmli verilənlər çoxluğunda gizli vəziyyətdə olan obyekt və meylləri ortaya çıxarmaq • (mətnin içində açar sözlərin müəyyənləşdirilməsi)
  • 5. Açar sözləri • mətnin nədən bəhs etdiyini deməyə imkan verir • sənədlərin siniflərə bölünməsi(klassifikasiyası) • sürətli indeksləşdirmə
  • 6. Qraf modelləri (TextRank) Qraf modellərinə əsaslanan alqoritmlər universallığı və effektivliyi ilə seçilir.
  • 7. TextRank modeli • qrafın qurulması • Mənalı sözlərin təyin edilməsi (isim, sifət) • Əlaqələrin qurulması (çəkilərinin hesablanması) • qrafın qiymətləndirilməsi (TextRank) • qrafdan açar sözlərin seçilməsi (T sayda)
  • 8. TextRank modeli (əlaqələr) Qrafı 𝐺 = (𝐷, 𝐸). 𝐷 — qrafın düyünləri, sözlər çoxluğudur, 𝐸 — həmin sözlər arasında əlaqələr çoxluğudur. 𝑘1 və 𝑘2 sözləri arasındakı əlaqənin çəkisi onların arasındakı məsafə nə qədər az olsa, o qədər çox olur: 𝑊𝐸 𝑘1, 𝑘2 = 1 − 𝑑 𝑘1, 𝑘2 − 1 𝑁 − 1 , ə𝑔ə𝑟 𝑑 𝑘1, 𝑘2 ∈ (1, 𝑁) 0, ə𝑔ə𝑟 𝑑 𝑘1, 𝑘2 ≥ 𝑁 𝑁 ölçüdə parça hüdudundakı sözlərə baxılır.
  • 9. TextRank modeli (alqoritm) 𝑉𝑖 düyünü üçün 𝐼𝑛 𝑉𝑖 - ona gələn, 𝑂𝑢𝑡 𝑉𝑖 - ondan çıxan əlaqələ çoxluğudur. 𝑇𝑅 𝑉𝑖 = 1 − 𝑑 + 𝑑 ∗ 𝑉 𝑘∈𝐼𝑛 𝑉 𝑖 𝜔 𝑘,𝑖 𝑉 𝑗∈𝑂𝑢𝑡 𝑉 𝑘 𝜔 𝑘,𝑗 𝑇𝑅(𝑉𝑘) 𝜔 𝑘,𝑖 — 𝑉𝑘 və 𝑉𝑖 düyünlərini birləşdirən əlaqənin çəkisidir, 𝑑 — sönmə faktorudur (0.85). 𝑇𝑅 𝑘+1 𝑉𝑖 − 𝑇𝑅 𝑘 𝑉𝑖 < 𝜀 − 𝑖𝑡𝑒𝑟𝑎𝑠𝑖𝑦𝑎𝑙𝑎𝑟𝚤 𝑑𝑎𝑦𝑎𝑛𝑑𝚤𝑟𝑚𝑎𝑞 𝑜𝑙𝑎𝑟
  • 10. TextRank modeli (alqoritm) B sözünə çoxlu sayda digər söz qoşulduğundan TextRank qiyməti böyükdür. E sözünə daha çox söz qoşulmasına baxmayaraq, C sözünün TextRank qiyməti E -dən böyükdür. Bu, C sözünün daha vacib sözlə əlaqələndiyindən və bu əlaqənin yeganəliyindən irəli gəlir.
  • 12. TextRank modeli (seçim) • qrafı final qiymətlərinin azalması sırasına görə düzürük • ilk 𝑇 sayda sözü açar söz kimi seçirik 𝑇 = 1 3 𝑉
  • 13. Təcrübə Nüvə hüceyrənin mərkəzində yerləşən ən əsas hissəsidir. Nüvəni ilk dəfə 1831-ci ildə ingilis botaniki R.Braun kəşf etmişdir. Birhüceyrəli və çoxhüceyrəli bitki və heyvanların hüceyrələrində həmişə nüvə olur. Yalnız bakteriya və göy-yaşıl yosunların hüceyrəsində formalaşmış nüvə yoxdur. Nüvə maddələr mübadiləsinin idarə mərkəzi və digər orqanoidlərin fəaliyyətinin tənzimetmə mərkəzidir. Nüvənin forma və ölçüsü hüceyrənin forma və ölçüsündən asılıdır. Nüvə əksərən şar və ellips formasında, az hallarda isə linzavarıdır. Nüvənin böyüklüyü orqanizmlərin növündən və hüceyrələrinin yaşından asılıdır. Hüceyrə böyüdükcə nüvə də irəliləşir. Hüceyrələrdə nüvələrin sayı müxtəlif olur. Normal halda əksər hüceyrələrin bir nüvəsi olur. Bunlar birnüvəli hüceyrələr adlanır. İki, üç və hətta yüzlərlə nüvəli hüceyrələr də var. Məsələn, infuzor tərlikdə iki, onurğalı heyvanların qaraciyərində, sümük iliyində və əzələ hüceyrələrində onlarca nüvə olur. Mətn parçası Vikipediyadan götürülmüşdür. http://az.wikipedia.org/wiki/Hüceyrə_nüvəsi
  • 14. Qrafın vizual təsvirinin qurulmasında Gephi proqram təminatından istifadə olunmuşdur. http://gephi.org
  • 15. Açar sözləri Ən yüksək qiymətləndirilmiş sözlər • Hüceyrə • Nüvə • Mərkəz • Heyvan • Botanik • R. Braun
  • 16. Açar sözləri Ən yüksək qiymətləndirilmiş • Hüceyrə • Nüvə • Mərkəz • Heyvan • Botanik • R. Braun Ən çox təkrarlanan sözlər • Nüvə • Hüceyrə • Forma • Mərkəz • Ölçü • Heyvan
  • 17.
  • 18. Mətnin xülasəsinin avtomatik tərtibi (açar cümlələr) TextRank alqoritmi ilə açar cümlələrin də tapılması mümkündür. (automatic summarization)
  • 19. Qısa xülasə • lazımi informasiyanı tez tapmaq • oxşar mətnləri klasterlərə ayırmaq (kitabxana işi) • axtarış sistemləri WEB səhifələrinin qısa xülasəsini saxlayır
  • 21. Qısa xülasə (TextRank) • qrafın düyünlərində cümlələr olur • cümlələr arasında əlaqələr oxşarlıq əlamətinə görə qurulur (cümlələrin yaxınlığı)
  • 22. Cümlələrin yaxınlığı (üst-üstə düşməsi) Cümləni sözlər oxluğu kimi göstərmək olar 𝑆𝑖 = {𝜔1 𝑖 , 𝜔2 𝑖 , 𝜔3 𝑖 , 𝜔4 𝑖 , 𝜔5 𝑖 , … 𝜔 𝑁 𝑖 𝑖 } Cümlələr arasında oxşarlıq 𝑂𝑥ş𝑎𝑟𝑙ı𝑞(𝑆𝑖, 𝑆𝑖) = 𝜔 𝑘, 𝜔 𝑘 ∈ 𝑆𝑖 & 𝜔 𝑘 ∈ 𝑆𝑗 𝑆𝑖 + 𝑆𝑖 eyni anlayışlarla bölüşən iki cümlə arasında əlaqə olur
  • 23. Təcrübə Bir qurumun və ya təşkilatın məqsədlərinə çatmaq üçün gördüyü işlər çoxluğuna iş prosesi, business process, biznes proses deyilir. Biznes proses adətən bir neçə mərhələdə, addımda tamamlanır. Həmin addımlar qeyd olunmuş müəyyən bir ardıcıllıqla yerinə yetirilməlidir. Məsələn, tutaq ki satıcı alıcılara öz mallarını satmaq istəyir. Bunun üçün əvvəlcə o özü həmin malları əldə etməlidir. Yəni ki müəyyən bir prosesi yerinə yetirərək məqsədəçatmaq istənilirsə, bu zaman əməliyyatlar arasında müəyyən bir ardıcıllıq gözlənilməlidir. Eyni zamanda müəyyən əməliyyatlar işin görülmə məntiqindən asılı olaraq lazım gələrsə paralel şəkildə də yerinə yetirilə bilər. Biznes Prosesin İdarə Edilməsi (Business Process Management-BPM) biznes prosesi layihələndirmək, idarə etmək və analiz etmək üçün lazım olan alətlərin, texnologiyaların və metodların birləşməsidir. BPM təşkilatın işini daha effektiv, daha səmərəli etmək üçün olan sistematik yanaşmadır. BPM informasiyanın vaxtında düzgün formada yerinə çatdırılmasını təmin edir. Bu o deməkdir ki, daxili sistem, insanlar və ya xarici partnyorlar işlərini tamalamaq üçün lazım olan informasiyanı müvafiq vaxtda əldə edə bilirlər. Yəni ki, BPM təşkilatda insanlar arasında, onun daxili sistemleri arasında qarşılıqlı əlaqəni təmin edir. Əgər BPM-dən istifadə olunmasa müvafiq biznes prosesi tamamlamaq üçün olan əməliyyatların bəziləri unudula və ya vaxtında yerinə yetirilməyə bilər. Buna görə də təşkilat üçün BPM-in rolu böyükdür. Hər hansı bir təşkilatın strukturunu təsəvvür etsək, bildiyimiz kimi təşkilat daxilində görüləcək işlərin məqsədlərinə uyğun olaraq müxtəlif şöbələrə ayrılır. Texnologiyanın inkişafı ilə əlaqədar olaraq təşkilatlarda avtomatlaşdırılmış sistemlərdən istifadə edildiyindən və bu sahədə görüləcək işlərə böyük ehtiyac olduğundan hazırda şirkətlərin ayrıca İT şöbələri var. Hər hansı bir təşkilatda İT şöbəsinin məqsədi texnologiya ilə bağlı olan bütün məsələlərlə məşğul olmaqdır. BPM təşkilat daxilində İT şöbəsi ilə digər şöbələr arasında bağlantı nöqtəsidir. Yəni ki, BPM İT və digər şöbələr arasında körpü rolunu oynayır. Onlar arasında əlaqəni asanlaşdırmaq üçün biznes prosesi modelləşdirirlər. Modelləşmə dedikdə təşkilat daxilində biznes prosesin analitik, qrafik təsviri başa düşülür. Bu məqsədlə daha çox BPMN dən, business process modeling notation, istifadə olunur. Təşkilat daxilində biznes prosesin idarə edilməsində olan əsas problem İT departamentinin işçiləri və digər departamentlərin işçiləri arasındakı əlaqənin çətinliyi, bir sözlə onlar arasındakı anlaşılmazlıqlardır. Çünki digər şöbələrin işçiləri İT-nin işini anlamaqda çətinlik çəkirlər. Bu da öz növbəsində təşkilat daxilində işlərin görülməsində problemlərə yol açır, bir sıra çətinliklər törədir. Müəyyən anlaşılmazlıqlar əmələ gəlir ki, bu da təşkilatın işinin tam, vaxtında və düzgün yerinə yetirilməsində maneələr törədir. İT şöbəsinin işi digər şöbələrin işləri ilə sıx əlaqədə olduğundan hamı üçün ümumi olan bir struktura ehtiyac duyulur. İŞPROSESİZAMANI YARANA BİLƏCƏK PROBLEMLƏR VƏ ONLARIN HƏLLİ ÜÇÜN TƏKLİF OLUNAN ARXİTEKTURA Abzetdin ADAMOV, Aytən ZODOROVA. Gənc tədqiqatçıların II beynəlxalq elmi konfransı. 18.04.2014, Bakı
  • 24.
  • 25.
  • 26. Ən yüksək qiymətləndirilmiş cümlələr 1. Bir qurumun və ya təşkilatın məqsədlərinə çatmaq üçün gördüyü işlər çoxluğuna iş prosesi, business process, biznes proses deyilir. (1.671) 2. Təşkilat daxilində biznes prosesin idarə edilməsində olan əsas problem İT departamentinin işçiləri və digər departamentlərin işçiləri arasındakı əlaqənin çətinliyi, bir sözlə onlar arasındakı anlaşılmazlıqlardır. (1.557) 3. Hər hansı bir təşkilatın strukturunu təsəvvür etsək, bildiyimiz kimi təşkilat daxilində görüləcək işlərin məqsədlərinə uyğun olaraq müxtəlif şöbələrə ayrılır. (1.366) 4. BPM təşkilat daxilində İT şöbəsi ilə digər şöbələr arasında bağlantı nöqtəsidir. (1.285) 5. İT şöbəsinin işi digər şöbələrin işləri ilə sıx əlaqədə olduğundan hamı üçün ümumi olan bir struktura ehtiyac duyulur. (1.245) 6. BPM təşkilatın işini daha effektiv, daha səmərəli etmək üçün olan sistematik yanaşmadır. (1.201)
  • 27. İstinadlar • NLPub — каталог лингвистических ресурсов для обработки русского языка http://nlpub.ru/ • Grineva, M., Grinev, M., Lizorkin, D. Extracting Key Terms From Noisy and Multi-theme Documents. Proceedings of the 18th International Conference on World Wide Web. — 2009. — P. 661–670. • Mihalcea, R., Tarau, P. TextRank: Bringing Order into Texts. Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. — 2004. — Vol. 4. — № 4. — P. 404–411. • S. Brin and L. Page. 1998. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, 30(1–7). • Усталов Дмитрий Алексеевич, УрФУ, Екатеринбург, Россия Извлечение терминов из русскоязычных текстов при помощи графовых моделей

Notes de l'éditeur

  1. This is the question that your experiment answers
  2. Summarize your research in three to five points.
  3. Summarize your research in three to five points.
  4. Summarize your research in three to five points.
  5. Summarize your research in three to five points.
  6. Summarize your research in three to five points.
  7. Summarize your research in three to five points.
  8. Summarize your research in three to five points.
  9. Write hypothesis before you begin the experiment. This should be your best educated guess based on your research.