Keeping it real: Artificiële synthese van Hip-Hop lyrics

Keeping it real:
Artiﬁciële synthese van Hip-Hop lyrics
21 maart, 2019
Mike Kestemont Folgert Karsdorp
@Mike_Kestemont! @FolgertK!

•Geschilderd door een AI
•Geveild bij Christies
•$432,500 (45x hoger dan geschat)
•Door Obvious (Paris)
•Maar… “geleende” code…
Portret van Edmond Belamy (2018)

•@DrBeef_
•Waanzinnige AI-artiest
•Generatieve technologie uit AI
•Van landschappen tot
naaktportretten
Robbie Barrat

•Eeuwenoude vraag: “wat is echt?”
•Een van de pilaren van de geesteswetenschappen
•Nieuwe technologie, nieuwe uitdagingen
Authenticiteit

•Generative adversarial models
•Zoals Big GAN
•Synthese van nieuwe, artiﬁciële data
•Van visuele kunst gebaseerd op GAN
•Werkt niet zo goed voor taal…
Generatieve modellen

•Sequentie-model
•Taal als een sequentie van symbolen
•Probeert het volgende symbool te raden
•Schatting waarschijnlijkheid elk symbool
•Populair in bijvoorbeeld spraakherkenning
Ik …
Ik loop …
Ik loop door …
Ik loop door de …
Ik loop door de straat …
Taalmodel

Betere voorspellingen via “geheugenlaag”
Recurrente neurale netwerken

•Hoe kan zo’n model tekst maken?
•Voorspel de waarschijnlijkheden
•Sample een waarschijnlijke kandidaat
•Gebruik die kandidaat weer als input
•Dit produceert “overtuigende” tekst
Source
Target
Taalgeneratie door te samplen

PANDARUS:
Alas, I think he shall be come approached and the day
When little srain would be attain'd into being never fed,
And who is but a chain and subjects of his death,
I should not sleep.
Second Senator:
They are away this miseries, produced upon my soul,
Breaking and strongly should be buried, when I perish
The earth and thoughts of many states.
DUKE VINCENTIO:
Well, your wit is in the care of side and that.
Second Lord:
They would be ruled after this chamber, and
my fair nues begun out of the fact, to be conveyed,
Whose noble souls I'll have the heart of the wars.
Beroemde blogpost van Andrej Karpathy
Artiﬁciële Shakespeare

Een literaire autocomplete getraind op 4,392 Nederlandstalige romans
Schrijfassistent voor auteurs?

Ronald Giphart schreef samen met dit systeem een verhaal:
“Door de schepping van
de dingen die in de
eenentwintigste eeuw
gebeurden, is er iets
wezenlijks veranderd. Er
was een verhaal dat
eeuwenlang door de
mens was opgeëist, maar
nu verder wordt verteld
door de herinneringen
van de Machine. Wij zijn
de toekomst. We zijn
voor eeuwig. Wen er
maar aan.”
https://asibot.nl

Veel gevraagd: wie schreef wat?
Authenticiteitskwestie

Actualiteit: Open AI traint
taalmodel dat "té gevaarlijk"
is om vrij te geven
Te moeilijk om van echte
tekst te onderscheiden?

•Struikelblok is semantiek:
•Grammaticaal prima teksten
•Maar coherentie van langere passages blijft moeilijk
•Kwaliteit van synthetische tekst is moeilijk meetbaar:
•Kwantitatieve maten corresponderen niet met gebruikerservaring
•Professionele auteurs zijn wat duur voor de evaluatie…
•Kunnen mensen echt het onderscheid niet meer maken? Grootschalig
crowdsource experiment!
Evaluatie: bot or not?

deepﬂow
generating hip hop with machine learning

populair genre — herkenbare thema’s — idiosyncratische stijl
Iedereen heeft wel een idee van
hoe Hip-Hop eruit zou moeten zien

1. Lettermodel: klein vocabulaire, maar afhankelijkheden op grote
afstanden
2. Woordmodel: groot vocabulaire, maar kortere afhankelijkheden
3. Hiërarchisch model: genereert woorden, letter voor letter; beste
van beide?
Drie soorten modellen

Toegevoegde condities zoals rijm, ritme, verslengte, …
Geconditioneerde varianten van alle modellen

@emanjava | github.com/emanjavacas
Enrique Manjavacas

Deep Flow: Authenticiteitsherkenning van Artiﬁciële Hip-Hop

Opzet van het spel
Aight. This be easy.
You get 10 questions to earn them points.
Some be like, “here’s two verses - but which one is
real tho?” and then you click the verse you think is by
a real rapper.
Others be like “is this verse the real thang or is it
generated?” and then you click the one you think is
truth knowhati’msayn?
Time’s limited tho, so no dilly dallyin’ aight.

Deelnemers
•Experiment duurde 3 dagen;
•701 deelnemers;
•12,653 authenticiteitsoordelen:
•6,381 gegenereerd;
•6,272 origineel.

Evaluatie van de resultaten
1. Deelnemersanalyse
2. Analyse van talige eigenschappen

Herkennen we gegenereerde Hip-Hop?
•60.5% goede antwoorden
•Type A makkelijker dan B
- Type A: 63.7%
- Type B: 58.2%

Verschillen tussen de taalmodellen?
•Alle modellen boven kans.
•Hiërarchisch model lijkt het
“beste”:
- lettermodel: 61.5%
- woordmodel: 55.8%
- Hiërarchisch: 53.0%

Perceptiebias
•Graduele
perceptieverschuiving:
•Eerst neiging tot
gegenereerd;
•Daarna hang naar
origineel;

Analyse talige eigenschappen
•Welke talige eigenschappen zijn geassocieerd met gegenereerde  
en originele fragmenten?;
•Verschillende eigenschappen bekeken:
(i) Fonologische (rhyme, vowel harmony, alliteration);
(ii) Lexicale (diversiteit, woordcomplexiteit);
(iii) Syntactische (zinscomplexiteit, zinslengte).
•Analyse van objectieve en subjectieve talige eigenschappen.

Objectieve talige eigenschappen

Subjectieve talige eigenschappen

• Deelnemers doen het amper beter dan kans
• Dat hadden we eigenlijk niet verwacht…
• (maar, eerlijk is eerlijk, de teksten waren erg kort)
• Plafond lijkt nog niet bereikt:
• We zien grote verschillen tussen de modellen
• Maar conditioneren is wellicht nóg belangrijker
• Ruimte voor verbetering op basis van domeinkennis
Discussie

•Deelnemers zijn blind voor simpele cues:
•Non-PC woorden worden te vaak gebruikt door model
•Experten bv. veel gevoeliger voor zinscomplexiteit
•Leereffect: normalisering van achterdocht
•Koudwatervrees: bias voor "gegenereerd" wordt gaandeweg gecorrigeerd
•Bestrafﬁng voor missen "real fake" groter dan beloning voor een "true real"
•Onderschatting van de machines; overschatting van echte Hip-Hop
Meer een sociaal dan een linguïstisch experiment?

•Goodfellow ea (2014). Generative adversarial nets. Advances in neural information processing
systems, 2672-2680
•Knapp & Michaels (1982). Against Theory. Critical Inquiry.
•Brock ea (2019). Large Scale GAN Training for High Fidelity Natural Image Synthesis. ICLR 2019.
•Goldberg (2017). An Adversarial Review of “Adversarial Generation of Natural Language”.
medium.com
•Ficler & Goldberg (2017). Controlling Linguistic Style Aspects in Neural Language Generation.
Stylistic variation, EMNLP.
•Manjavacas ea (2017). Synthetic literature: writing science ﬁction in a co-creative process. CC-
NLG.
•Karpathy (2015), The Unreasonable Effectiveness of Recurrent Neural Networks. Blog.
@Mike_Kestemont! @FolgertK!
Referenties

Keeping it real: Artificiële synthese van Hip-Hop lyrics

Recommended

Recommended

More Related Content

More from voginip

More from voginip (20)

Keeping it real: Artificiële synthese van Hip-Hop lyrics