SlideShare une entreprise Scribd logo
1  sur  68
Télécharger pour lire hors ligne
Språkteknologi
och språkmodeller
Magnus Sahlgren
magnus.sahlgren@ri.se
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Hantera språkdata i datorsystem
Automatisera repetitiva uppgifter
Möjliggöra nya insikter
• Annan skala
• Annan information
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Hantera språkdata i datorsystem
Automatisera repetitiva uppgifter
Möjliggöra nya insikter
• Annan skala
• Annan information
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Hantera språkdata i datorsystem
Automatisera repetitiva uppgifter
Möjliggöra nya insikter
• Annan skala
• Annan information
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Hantera språkdata i datorsystem
Automatisera repetitiva uppgifter
Möjliggöra nya insikter
• Annan skala
• Annan information
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Hantera språkdata i datorsystem
Automatisera repetitiva uppgifter
Möjliggöra nya insikter
• Annan skala
• Annan information
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Hantera språkdata i datorsystem
Automatisera repetitiva uppgifter
Möjliggöra nya insikter
• Annan skala
• Annan information
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Sökning
(hitta relevanta texter)
Semantisk sökning: hitta texter/meningar med liknande betydelse
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Sökning
(hitta relevanta texter)
Semantisk sökning: hitta texter/meningar med liknande betydelse
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Textkategorisering
(sätta etiketter på texter)
Rapporter, epost, nyheter...
Ämnen, relevans, sentiment...
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Textkategorisering
(sätta etiketter på texter)
Rapporter, epost, nyheter...
Ämnen, relevans, sentiment...
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Textkategorisering
(sätta etiketter på texter)
Rapporter, epost, nyheter...
Ämnen, relevans, sentiment...
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Maskininlärning
Maskinen lär sig känna igen något utifrån exempel
(övervakad inlärning)
Kräver tillräckligt många och tillräckligt representativa exempel
Att samla in exempel kallas för annotering
(vi kommer tillbaka till detta senare!)
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Maskininlärning
Maskinen lär sig känna igen något utifrån exempel
(övervakad inlärning)
Kräver tillräckligt många och tillräckligt representativa exempel
Att samla in exempel kallas för annotering
(vi kommer tillbaka till detta senare!)
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Maskininlärning
Maskinen lär sig känna igen något utifrån exempel
(övervakad inlärning)
Kräver tillräckligt många och tillräckligt representativa exempel
Att samla in exempel kallas för annotering
(vi kommer tillbaka till detta senare!)
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Maskininlärning
Maskinen lär sig känna igen något utifrån exempel
(övervakad inlärning)
Kräver tillräckligt många och tillräckligt representativa exempel
Att samla in exempel kallas för annotering
(vi kommer tillbaka till detta senare!)
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Informationsextraktion
(hitta information i texter)
Namnigenkänning: personer, platser, datum...
Kompetenser, orsakssamband, resultatbeskrivningar...
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Informationsextraktion
(hitta information i texter)
Namnigenkänning: personer, platser, datum...
Kompetenser, orsakssamband, resultatbeskrivningar...
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Informationsextraktion
(hitta information i texter)
Namnigenkänning: personer, platser, datum...
Kompetenser, orsakssamband, resultatbeskrivningar...
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Sekvensomvandling
(omvandla en sekvens till en annan)
Maskinöversättning
Språkförenkling
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Sekvensomvandling
(omvandla en sekvens till en annan)
Maskinöversättning
Språkförenkling
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Sekvensomvandling
(omvandla en sekvens till en annan)
Maskinöversättning
Språkförenkling
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Textutforskning
(vad finns det i texten?)
Klustring: gruppera liknande enheter
Ord, meningar, texter
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Textutforskning
(vad finns det i texten?)
Klustring: gruppera liknande enheter
Ord, meningar, texter
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Textutforskning
(vad finns det i texten?)
Klustring: gruppera liknande enheter
Ord, meningar, texter
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
• Sökning
• Kategorisering
• Extraktion
• Omvandling
• Utforskning
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
Machine Learning with Apache Spark Quick Start Guide by Jillur Quddus
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkteknologi
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkmodell
En modell som lär sig en sannolikhetsfördelning över språket
the cat sat on the
the cat on the mat
• Ger en sannolikhet för en mening
• Kan generera text
• Lär sig en “meningsfull” representation av text
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkmodell
En modell som lär sig en sannolikhetsfördelning över språket
the cat sat on the
the cat on the mat
• Ger en sannolikhet för en mening
• Kan generera text
• Lär sig en “meningsfull” representation av text
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkmodell
En modell som lär sig en sannolikhetsfördelning över språket
the cat sat on the
the cat on the mat
• Ger en sannolikhet för en mening
• Kan generera text
• Lär sig en “meningsfull” representation av text
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkmodell
En modell som lär sig en sannolikhetsfördelning över språket
the cat sat on the
the cat on the mat
• Ger en sannolikhet för en mening
• Kan generera text
• Lär sig en “meningsfull” representation av text
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Representationsinlärning
Elman (1990) Simple Recurrent Networks
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Representationsinlärning
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Representationsinlärning
Huth et al. in Nature, 2016
Representationsinlärning
Ordrepresentationer (embeddings) lär sig semantiska
representationer för ord
Språkmodeller lär sig kontextkänsliga semantiska representationer
för ord och meningar
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Representationsinlärning
Ordrepresentationer (embeddings) lär sig semantiska
representationer för ord
Språkmodeller lär sig kontextkänsliga semantiska representationer
för ord och meningar
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Representationsinlärning
Ordrepresentationer (embeddings) lär sig semantiska
representationer för ord
Språkmodeller lär sig kontextkänsliga semantiska representationer
för ord och meningar
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Överföringsinlärning
Erik Ylipää, RISE
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Transformers
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Transformers
Transformers crash course (svenska NLP webinariet)
youtube.com/watch?v=XpdCZprEi2w
Transformers och GPT-3
youtube.com/watch?v=lLwwB3HM1fA&t=1953s
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Transformers
willstats.com
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Transformers
stateof.ai
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Förbättrade representationer
Carlsson et al. (2021) Semantic Re-Tuning with Contrastive Tension, ICLR
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Förbättrade representationer
Carlsson et al. (2021) Semantic Re-Tuning with Contrastive Tension, ICLR
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkmodeller för svenska myndigheter
Finansierat av Vinnova, 2019-2022
RISE, LTU, AI Sweden, Peltarion, Arbetsförmedlingen,
Skatteverket, Tillväxtverket, Kungliga biblioteket
Referensgrupp: SKR, Polisen, SCB, Trafikverket,
Försäkringskassan, Socialstyrelsen, Bolagsverket, DIGG,
Riksrevisionen, PRV, ESV, Riksarkivet, E-hälsomyndigheten, SGU,
Tillväxtanalys...
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkmodeller för svenska myndigheter
Finansierat av Vinnova, 2019-2022
RISE, LTU, AI Sweden, Peltarion, Arbetsförmedlingen,
Skatteverket, Tillväxtverket, Kungliga biblioteket
Referensgrupp: SKR, Polisen, SCB, Trafikverket,
Försäkringskassan, Socialstyrelsen, Bolagsverket, DIGG,
Riksrevisionen, PRV, ESV, Riksarkivet, E-hälsomyndigheten, SGU,
Tillväxtanalys...
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkmodeller för svenska myndigheter
Finansierat av Vinnova, 2019-2022
RISE, LTU, AI Sweden, Peltarion, Arbetsförmedlingen,
Skatteverket, Tillväxtverket, Kungliga biblioteket
Referensgrupp: SKR, Polisen, SCB, Trafikverket,
Försäkringskassan, Socialstyrelsen, Bolagsverket, DIGG,
Riksrevisionen, PRV, ESV, Riksarkivet, E-hälsomyndigheten, SGU,
Tillväxtanalys...
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkmodeller för svenska myndigheter
Finansierat av Vinnova, 2019-2022
RISE, LTU, AI Sweden, Peltarion, Arbetsförmedlingen,
Skatteverket, Tillväxtverket, Kungliga biblioteket
Referensgrupp: SKR, Polisen, SCB, Trafikverket,
Försäkringskassan, Socialstyrelsen, Bolagsverket, DIGG,
Riksrevisionen, PRV, ESV, Riksarkivet, E-hälsomyndigheten, SGU,
Tillväxtanalys...
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkmodeller för svenska myndigheter
Möjliggöra för myndigheter att använda den senaste (och bästa!)
språkteknologin (dvs språkmodeller)
Bättre tjänster för medborgarna
Mer effektiva myndigheter
Bidra med algoritmer, kod, tränade modeller, data, samt
tillämpningar
Främja svensk språkteknologi generellt
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkmodeller för svenska myndigheter
Möjliggöra för myndigheter att använda den senaste (och bästa!)
språkteknologin (dvs språkmodeller)
Bättre tjänster för medborgarna
Mer effektiva myndigheter
Bidra med algoritmer, kod, tränade modeller, data, samt
tillämpningar
Främja svensk språkteknologi generellt
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkmodeller för svenska myndigheter
Möjliggöra för myndigheter att använda den senaste (och bästa!)
språkteknologin (dvs språkmodeller)
Bättre tjänster för medborgarna
Mer effektiva myndigheter
Bidra med algoritmer, kod, tränade modeller, data, samt
tillämpningar
Främja svensk språkteknologi generellt
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Språkmodeller för svenska myndigheter
Möjliggöra för myndigheter att använda den senaste (och bästa!)
språkteknologin (dvs språkmodeller)
Bättre tjänster för medborgarna
Mer effektiva myndigheter
Bidra med algoritmer, kod, tränade modeller, data, samt
tillämpningar
Främja svensk språkteknologi generellt
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Resultat (1)
Databeredskap för språkteknologi (mer om detta senare!)
(nlp-data-readiness.readthedocs.io)
SuperLim (utvärderingsramverk)
(ai.se/en/node/81535/superlim)
Svenska språkmodeller (BERT, ALBERT, ELECTRA, GPT,
DeBERTa...)
Förbättrade representationer från språkmodeller
(huggingface.co/Contrastive-Tension)
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Resultat (1)
Databeredskap för språkteknologi (mer om detta senare!)
(nlp-data-readiness.readthedocs.io)
SuperLim (utvärderingsramverk)
(ai.se/en/node/81535/superlim)
Svenska språkmodeller (BERT, ALBERT, ELECTRA, GPT,
DeBERTa...)
Förbättrade representationer från språkmodeller
(huggingface.co/Contrastive-Tension)
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Resultat (1)
Databeredskap för språkteknologi (mer om detta senare!)
(nlp-data-readiness.readthedocs.io)
SuperLim (utvärderingsramverk)
(ai.se/en/node/81535/superlim)
Svenska språkmodeller (BERT, ALBERT, ELECTRA, GPT,
DeBERTa...)
Förbättrade representationer från språkmodeller
(huggingface.co/Contrastive-Tension)
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Resultat (1)
Databeredskap för språkteknologi (mer om detta senare!)
(nlp-data-readiness.readthedocs.io)
SuperLim (utvärderingsramverk)
(ai.se/en/node/81535/superlim)
Svenska språkmodeller (BERT, ALBERT, ELECTRA, GPT,
DeBERTa...)
Förbättrade representationer från språkmodeller
(huggingface.co/Contrastive-Tension)
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Resultat (2)
NER och aktiv maskininlärning på Arbetsförmedlingen
(github.com/af-ai-center/nerblackbox)
Textkategorisering och maskinöversättning på Skatteverket
Svenska NLP-webinariet
(ai.se/en/swedish-nlp-webinars)
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Resultat (2)
NER och aktiv maskininlärning på Arbetsförmedlingen
(github.com/af-ai-center/nerblackbox)
Textkategorisering och maskinöversättning på Skatteverket
Svenska NLP-webinariet
(ai.se/en/swedish-nlp-webinars)
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Resultat (2)
NER och aktiv maskininlärning på Arbetsförmedlingen
(github.com/af-ai-center/nerblackbox)
Textkategorisering och maskinöversättning på Skatteverket
Svenska NLP-webinariet
(ai.se/en/swedish-nlp-webinars)
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Framtiden (är redan här)
Multimodala modeller
(lär sig från fler typer av data samtidigt)
Text och bild:
• Skapa text utifrån en bild (bildbeskrivningar)
• Skapa bild utifrån text
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Framtiden (är redan här)
Multimodala modeller
(lär sig från fler typer av data samtidigt)
Text och bild:
• Skapa text utifrån en bild (bildbeskrivningar)
• Skapa bild utifrån text
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Framtiden (är redan här)
Multimodala modeller
(lär sig från fler typer av data samtidigt)
Text och bild:
• Skapa text utifrån en bild (bildbeskrivningar)
• Skapa bild utifrån text
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Framtiden (är redan här)
Multimodala modeller
(lär sig från fler typer av data samtidigt)
Text och bild:
• Skapa text utifrån en bild (bildbeskrivningar)
• Skapa bild utifrån text
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Framtiden (är redan här)
fof.se/artikel/smartare-ai-nar-text-kopplas-till-bild
github.com/FreddeFrallan/Multilingual-CLIP
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Framtiden (är redan här)
Stefan Löfven looking like a zombie
(Ariel Ekgren, RISE)
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Framtiden (är redan här)
A space ship at the speed of light
(Ariel Ekgren, RISE)
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
Framtiden (är redan här)
Satan playing with skulls
(Ariel Ekgren, RISE)
RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se

Contenu connexe

En vedette

How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellSaba Software
 
Introduction to C Programming Language
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming LanguageSimplilearn
 

En vedette (20)

How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
 
Introduction to C Programming Language
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming Language
 

Intro språkteknologi

  • 1. Språkteknologi och språkmodeller Magnus Sahlgren magnus.sahlgren@ri.se RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 2. Språkteknologi Hantera språkdata i datorsystem Automatisera repetitiva uppgifter Möjliggöra nya insikter • Annan skala • Annan information RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 3. Språkteknologi Hantera språkdata i datorsystem Automatisera repetitiva uppgifter Möjliggöra nya insikter • Annan skala • Annan information RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 4. Språkteknologi Hantera språkdata i datorsystem Automatisera repetitiva uppgifter Möjliggöra nya insikter • Annan skala • Annan information RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 5. Språkteknologi Hantera språkdata i datorsystem Automatisera repetitiva uppgifter Möjliggöra nya insikter • Annan skala • Annan information RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 6. Språkteknologi Hantera språkdata i datorsystem Automatisera repetitiva uppgifter Möjliggöra nya insikter • Annan skala • Annan information RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 7. Språkteknologi Hantera språkdata i datorsystem Automatisera repetitiva uppgifter Möjliggöra nya insikter • Annan skala • Annan information RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 8. Språkteknologi Sökning (hitta relevanta texter) Semantisk sökning: hitta texter/meningar med liknande betydelse RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 9. Språkteknologi Sökning (hitta relevanta texter) Semantisk sökning: hitta texter/meningar med liknande betydelse RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 10. Språkteknologi Textkategorisering (sätta etiketter på texter) Rapporter, epost, nyheter... Ämnen, relevans, sentiment... RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 11. Språkteknologi Textkategorisering (sätta etiketter på texter) Rapporter, epost, nyheter... Ämnen, relevans, sentiment... RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 12. Språkteknologi Textkategorisering (sätta etiketter på texter) Rapporter, epost, nyheter... Ämnen, relevans, sentiment... RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 13. Maskininlärning Maskinen lär sig känna igen något utifrån exempel (övervakad inlärning) Kräver tillräckligt många och tillräckligt representativa exempel Att samla in exempel kallas för annotering (vi kommer tillbaka till detta senare!) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 14. Maskininlärning Maskinen lär sig känna igen något utifrån exempel (övervakad inlärning) Kräver tillräckligt många och tillräckligt representativa exempel Att samla in exempel kallas för annotering (vi kommer tillbaka till detta senare!) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 15. Maskininlärning Maskinen lär sig känna igen något utifrån exempel (övervakad inlärning) Kräver tillräckligt många och tillräckligt representativa exempel Att samla in exempel kallas för annotering (vi kommer tillbaka till detta senare!) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 16. Maskininlärning Maskinen lär sig känna igen något utifrån exempel (övervakad inlärning) Kräver tillräckligt många och tillräckligt representativa exempel Att samla in exempel kallas för annotering (vi kommer tillbaka till detta senare!) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 17. Språkteknologi Informationsextraktion (hitta information i texter) Namnigenkänning: personer, platser, datum... Kompetenser, orsakssamband, resultatbeskrivningar... RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 18. Språkteknologi Informationsextraktion (hitta information i texter) Namnigenkänning: personer, platser, datum... Kompetenser, orsakssamband, resultatbeskrivningar... RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 19. Språkteknologi Informationsextraktion (hitta information i texter) Namnigenkänning: personer, platser, datum... Kompetenser, orsakssamband, resultatbeskrivningar... RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 20. Språkteknologi Sekvensomvandling (omvandla en sekvens till en annan) Maskinöversättning Språkförenkling RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 21. Språkteknologi Sekvensomvandling (omvandla en sekvens till en annan) Maskinöversättning Språkförenkling RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 22. Språkteknologi Sekvensomvandling (omvandla en sekvens till en annan) Maskinöversättning Språkförenkling RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 23. Språkteknologi Textutforskning (vad finns det i texten?) Klustring: gruppera liknande enheter Ord, meningar, texter RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 24. Språkteknologi Textutforskning (vad finns det i texten?) Klustring: gruppera liknande enheter Ord, meningar, texter RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 25. Språkteknologi Textutforskning (vad finns det i texten?) Klustring: gruppera liknande enheter Ord, meningar, texter RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 26. Språkteknologi • Sökning • Kategorisering • Extraktion • Omvandling • Utforskning RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 27. Språkteknologi Machine Learning with Apache Spark Quick Start Guide by Jillur Quddus RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 28. Språkteknologi RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 29. Språkmodell En modell som lär sig en sannolikhetsfördelning över språket the cat sat on the the cat on the mat • Ger en sannolikhet för en mening • Kan generera text • Lär sig en “meningsfull” representation av text RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 30. Språkmodell En modell som lär sig en sannolikhetsfördelning över språket the cat sat on the the cat on the mat • Ger en sannolikhet för en mening • Kan generera text • Lär sig en “meningsfull” representation av text RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 31. Språkmodell En modell som lär sig en sannolikhetsfördelning över språket the cat sat on the the cat on the mat • Ger en sannolikhet för en mening • Kan generera text • Lär sig en “meningsfull” representation av text RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 32. Språkmodell En modell som lär sig en sannolikhetsfördelning över språket the cat sat on the the cat on the mat • Ger en sannolikhet för en mening • Kan generera text • Lär sig en “meningsfull” representation av text RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 33. Representationsinlärning Elman (1990) Simple Recurrent Networks RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 34. Representationsinlärning RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 36. Representationsinlärning Ordrepresentationer (embeddings) lär sig semantiska representationer för ord Språkmodeller lär sig kontextkänsliga semantiska representationer för ord och meningar RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 37. Representationsinlärning Ordrepresentationer (embeddings) lär sig semantiska representationer för ord Språkmodeller lär sig kontextkänsliga semantiska representationer för ord och meningar RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 38. Representationsinlärning Ordrepresentationer (embeddings) lär sig semantiska representationer för ord Språkmodeller lär sig kontextkänsliga semantiska representationer för ord och meningar RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 39. Överföringsinlärning Erik Ylipää, RISE RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 40. Transformers RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 41. Transformers Transformers crash course (svenska NLP webinariet) youtube.com/watch?v=XpdCZprEi2w Transformers och GPT-3 youtube.com/watch?v=lLwwB3HM1fA&t=1953s RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 42. Transformers willstats.com RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 43. Transformers stateof.ai RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 44. Förbättrade representationer Carlsson et al. (2021) Semantic Re-Tuning with Contrastive Tension, ICLR RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 45. Förbättrade representationer Carlsson et al. (2021) Semantic Re-Tuning with Contrastive Tension, ICLR RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 46. Språkmodeller för svenska myndigheter Finansierat av Vinnova, 2019-2022 RISE, LTU, AI Sweden, Peltarion, Arbetsförmedlingen, Skatteverket, Tillväxtverket, Kungliga biblioteket Referensgrupp: SKR, Polisen, SCB, Trafikverket, Försäkringskassan, Socialstyrelsen, Bolagsverket, DIGG, Riksrevisionen, PRV, ESV, Riksarkivet, E-hälsomyndigheten, SGU, Tillväxtanalys... RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 47. Språkmodeller för svenska myndigheter Finansierat av Vinnova, 2019-2022 RISE, LTU, AI Sweden, Peltarion, Arbetsförmedlingen, Skatteverket, Tillväxtverket, Kungliga biblioteket Referensgrupp: SKR, Polisen, SCB, Trafikverket, Försäkringskassan, Socialstyrelsen, Bolagsverket, DIGG, Riksrevisionen, PRV, ESV, Riksarkivet, E-hälsomyndigheten, SGU, Tillväxtanalys... RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 48. Språkmodeller för svenska myndigheter Finansierat av Vinnova, 2019-2022 RISE, LTU, AI Sweden, Peltarion, Arbetsförmedlingen, Skatteverket, Tillväxtverket, Kungliga biblioteket Referensgrupp: SKR, Polisen, SCB, Trafikverket, Försäkringskassan, Socialstyrelsen, Bolagsverket, DIGG, Riksrevisionen, PRV, ESV, Riksarkivet, E-hälsomyndigheten, SGU, Tillväxtanalys... RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 49. Språkmodeller för svenska myndigheter Finansierat av Vinnova, 2019-2022 RISE, LTU, AI Sweden, Peltarion, Arbetsförmedlingen, Skatteverket, Tillväxtverket, Kungliga biblioteket Referensgrupp: SKR, Polisen, SCB, Trafikverket, Försäkringskassan, Socialstyrelsen, Bolagsverket, DIGG, Riksrevisionen, PRV, ESV, Riksarkivet, E-hälsomyndigheten, SGU, Tillväxtanalys... RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 50. Språkmodeller för svenska myndigheter Möjliggöra för myndigheter att använda den senaste (och bästa!) språkteknologin (dvs språkmodeller) Bättre tjänster för medborgarna Mer effektiva myndigheter Bidra med algoritmer, kod, tränade modeller, data, samt tillämpningar Främja svensk språkteknologi generellt RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 51. Språkmodeller för svenska myndigheter Möjliggöra för myndigheter att använda den senaste (och bästa!) språkteknologin (dvs språkmodeller) Bättre tjänster för medborgarna Mer effektiva myndigheter Bidra med algoritmer, kod, tränade modeller, data, samt tillämpningar Främja svensk språkteknologi generellt RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 52. Språkmodeller för svenska myndigheter Möjliggöra för myndigheter att använda den senaste (och bästa!) språkteknologin (dvs språkmodeller) Bättre tjänster för medborgarna Mer effektiva myndigheter Bidra med algoritmer, kod, tränade modeller, data, samt tillämpningar Främja svensk språkteknologi generellt RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 53. Språkmodeller för svenska myndigheter Möjliggöra för myndigheter att använda den senaste (och bästa!) språkteknologin (dvs språkmodeller) Bättre tjänster för medborgarna Mer effektiva myndigheter Bidra med algoritmer, kod, tränade modeller, data, samt tillämpningar Främja svensk språkteknologi generellt RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 54. Resultat (1) Databeredskap för språkteknologi (mer om detta senare!) (nlp-data-readiness.readthedocs.io) SuperLim (utvärderingsramverk) (ai.se/en/node/81535/superlim) Svenska språkmodeller (BERT, ALBERT, ELECTRA, GPT, DeBERTa...) Förbättrade representationer från språkmodeller (huggingface.co/Contrastive-Tension) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 55. Resultat (1) Databeredskap för språkteknologi (mer om detta senare!) (nlp-data-readiness.readthedocs.io) SuperLim (utvärderingsramverk) (ai.se/en/node/81535/superlim) Svenska språkmodeller (BERT, ALBERT, ELECTRA, GPT, DeBERTa...) Förbättrade representationer från språkmodeller (huggingface.co/Contrastive-Tension) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 56. Resultat (1) Databeredskap för språkteknologi (mer om detta senare!) (nlp-data-readiness.readthedocs.io) SuperLim (utvärderingsramverk) (ai.se/en/node/81535/superlim) Svenska språkmodeller (BERT, ALBERT, ELECTRA, GPT, DeBERTa...) Förbättrade representationer från språkmodeller (huggingface.co/Contrastive-Tension) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 57. Resultat (1) Databeredskap för språkteknologi (mer om detta senare!) (nlp-data-readiness.readthedocs.io) SuperLim (utvärderingsramverk) (ai.se/en/node/81535/superlim) Svenska språkmodeller (BERT, ALBERT, ELECTRA, GPT, DeBERTa...) Förbättrade representationer från språkmodeller (huggingface.co/Contrastive-Tension) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 58. Resultat (2) NER och aktiv maskininlärning på Arbetsförmedlingen (github.com/af-ai-center/nerblackbox) Textkategorisering och maskinöversättning på Skatteverket Svenska NLP-webinariet (ai.se/en/swedish-nlp-webinars) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 59. Resultat (2) NER och aktiv maskininlärning på Arbetsförmedlingen (github.com/af-ai-center/nerblackbox) Textkategorisering och maskinöversättning på Skatteverket Svenska NLP-webinariet (ai.se/en/swedish-nlp-webinars) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 60. Resultat (2) NER och aktiv maskininlärning på Arbetsförmedlingen (github.com/af-ai-center/nerblackbox) Textkategorisering och maskinöversättning på Skatteverket Svenska NLP-webinariet (ai.se/en/swedish-nlp-webinars) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 61. Framtiden (är redan här) Multimodala modeller (lär sig från fler typer av data samtidigt) Text och bild: • Skapa text utifrån en bild (bildbeskrivningar) • Skapa bild utifrån text RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 62. Framtiden (är redan här) Multimodala modeller (lär sig från fler typer av data samtidigt) Text och bild: • Skapa text utifrån en bild (bildbeskrivningar) • Skapa bild utifrån text RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 63. Framtiden (är redan här) Multimodala modeller (lär sig från fler typer av data samtidigt) Text och bild: • Skapa text utifrån en bild (bildbeskrivningar) • Skapa bild utifrån text RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 64. Framtiden (är redan här) Multimodala modeller (lär sig från fler typer av data samtidigt) Text och bild: • Skapa text utifrån en bild (bildbeskrivningar) • Skapa bild utifrån text RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 65. Framtiden (är redan här) fof.se/artikel/smartare-ai-nar-text-kopplas-till-bild github.com/FreddeFrallan/Multilingual-CLIP RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 66. Framtiden (är redan här) Stefan Löfven looking like a zombie (Ariel Ekgren, RISE) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 67. Framtiden (är redan här) A space ship at the speed of light (Ariel Ekgren, RISE) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  • 68. Framtiden (är redan här) Satan playing with skulls (Ariel Ekgren, RISE) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se