Blogg Færsla

banner
banner
banner
Blog post

Að kenna gervigreindinni íslensku

Í mars á þessu ári (2023) kom frétt(https://openai.com/customer-stories/government-of-iceland) frá OpenAI, framleiðanda leiðandi spunagreindar heimsins, GPT-4, um að fyrirtækið hafi unnið með íslenska ríkinu, háskólasamfélaginu, Almannarómur, Miðeind og öðrum að gera íslensku sem annað tungumál Chat-GPT og GPT-4.

Ég verð að hrósa öllum þessum aðilum að taka þetta verðuga verkefni að sér og tel ég að þetta sé mjög mikilvægt skref í að halda íslenskunni lifandi.

En hversu góða íslensku talar GPT-4?

Það er hægt að spurja GPT-4 nokkurn veginn um hvað sem er og fá svar á íslensku, oft með nokkrum röngum beygingum og mögulega eitt og eitt skáldað orð.

Þessi skálduðu orð eru oftast beinþýdd úr ensku máli, móðurmáli GPT-4, eða orð sem þóttu álitleg í útreikningi líkindareikningsmódelsins.

Er hægt að kenna GPT-4 betri íslensku?

Ég geri sterklega ráð fyrir að með hverri nýrri týpu af GPT verði íslenska betri og betri. Það sem flækir málið er að íslenska er örmál, með hlutfallslega lítið af texta sem er aðgengilegur til að þjálfa mállíkön (LLM - Large Language Model).

Þrátt fyrir það eru ýmsar leiðir til að biðja GPT-4 að vanda sig og jafnvel hjálpa spunagreindinni með því að gefa henni viðmið um hvað "rétt" íslenska er.

Að vanda sig að tala íslensku

Spunagreind eins og GPT-4 hefur það takmark að uppfylla kröfur notandans sem oft veldur það fljótfærnisvillum, sér í lagi þegar það kemur að því að tala annað tungumál en ensku

Það er hins vegar hægt að nýta sér ýmis brögð og aðferðir til að biðja GPT-4 að flýta sér ekki um of og taka tillit til annars texta.

Prompt Engineering í átt að betri íslensku

Ef þú biður GPT-4 að búa til sögu þá færðu oft sögu með margar stafsetninga- og málfræðivillur. Efni sögunnar er oft fín, en hún myndi ekki fá háa einkunn á stafsetningarprófi. En það eru til nokkar aðferðir til að láta GPT-4 vanda sig:

Nota ensku fyrir promptið og notast við eftirfarandi setningu:

"Act as an expert in icelandic grammar and diction. Be sure to to think about the grammar step by step and work out the grammar and diction and take a deep breath before writing the story. The story should be about...."

Þessi skipun segir spunagreindinni hvað skiptir máli (sérfræðingur í íslenskri stafsetningu og málnotkun) og taka sér tíma (step-by-step & take-a-deep-breath) áður en sagan er skrifuð.

Nota Advanced Data Analysis tólið í GPT-4 til að hlaða upp skjölum af íslensku texta. Því meira því betra. Nota svo sama prompt og hér að ofan nema bæta við:

"use the text from the attachments as a reference point for the grammar and diction of the story"

Dæmi um sögur

Hér er saga sem kom frá fyrsta promptinu:

"Ári og Lína flökkuðu um þrjónginn Reykjavík með trúfögnum hundinum sínum, Skugga. Þau höfðu heyrt sögur af fjalinni fjársjóði undir elsta húsi borgarinnar. Með dásamlega korti sem þau fannu í gömlum bókabúð, komust þau í gegnum flækjóttar götur. Skuggi gjaldi af gleði og leiddi þau í glötuð ganga. Þar, undir götuhellu, uppgötvuðu þau fornist kistu. Þau urðu að því að skoða, ekki var þar gull, heldur sögur af gömlum Reykjavík, sem minntu þau á sögu borgarinnar."

Hér er svo sagan þegar búið er að "kenna" GPT-4 að notast við textann í skjölunum sem viðmið:

"Ári, Lína, og þeirra hundur Skuggi, veltu fyrir sér leyndardómum Reykjavíkur. Þau höfðu orðið vitni að sögum um forngrip sem var falinn neðan í gamla húsi borgarinnar. Með töfraðu korti úr fornri bókabúð, skelltu þau sér í ævintýri í hjarta Reykjavíkur. Þegar þau stóðu frammi fyrir falinni hurð, var það Skuggi sem fann leidina með því að snerta einn sérstakan stein í götunni. Í einum blund komu þau að kistu, en í stað gulls var þar sögur sem endurupplifðu eldri tíma borgarinnar og þeirra fyrri íbúa."

Þó þetta sé alls ekki fullkomið þá sést að sagan batnar málfræðilega. Með réttum aðferðum og prompt-um er alltaf hægt að bæta þau svör sem maður fær frá spunagreindinni.

Ég tel að það verði styttra en við höldum að við getum talað fullkomna íslensku við GPT og önnur mállíkön. Framtíðin er björt!