Huiskamer Huiskamer

Huiskamer

Semantle, wie speelt er mee?


SophisticatedCaribou75

SophisticatedCaribou75

04-05-2022 om 11:54

Mug schreef op 04-05-2022 om 11:50:

[..]

Ik dacht ook fonetisch, maar dan kon ik er nog niks mee eigenlijk.

Zelfs goed gespeld slaat het op hout, als je het echte woord weet.

SophisticatedCaribou75

SophisticatedCaribou75

04-05-2022 om 11:56

MoederBarberin schreef op 04-05-2022 om 11:50:

[..]

Niet echt nee. Vandaag mijn eerste keer en kijk naar de woordenlijst en hier is mijn samenvatting:

Het woord van de dag is 'lief'

Gerelateerde woorden:

Stom, stout, lieeef, lieeeeef, liiief

En daartussendoor dan: hij, zij, wij, knuffel, hondenhok, neemdetijd, willekeur, kletsen

Kortom: de stagiair mocht zich uitleven vandaag

niet_rechts schreef op 04-05-2022 om 11:56:

[..]

En daartussendoor dan: hij, zij, wij, knuffel, hondenhok, neemdetijd, willekeur, kletsen

Kortom: de stagiair mocht zich uitleven vandaag

LostJellyfish83

LostJellyfish83

04-05-2022 om 12:05

niet_rechts schreef op 04-05-2022 om 11:54:

[..]

Zelfs goed gespeld slaat het op hout, als je het echte woord weet.

Eh ja, dat zie ik nu ook. Jouw hint was wel een goede 👍

LostJellyfish83

LostJellyfish83

04-05-2022 om 12:06

niet_rechts schreef op 04-05-2022 om 11:56:

[..]

En daartussendoor dan: hij, zij, wij, knuffel, hondenhok, neemdetijd, willekeur, kletsen

Kortom: de stagiair mocht zich uitleven vandaag

Tja, de gebruikte "word2vec" dataset is vooral getraind op social media berichten (en daarnaast wat nieuws-, blog- en forumberichten). Daar komen ook woorden in voor die niet in het woordenboek staan maar wel regelmatig gebruikt worden. Dus inclusief woorden met (vaak voorkomende) spelfouten en merknamen.

Het gaat ook om gelijk gebruik in de tekst. Dus als je een zelfstandig naamwoord moet raden, zal je niet zo gauw een werkwoord bovenin de lijst vinden (bijv, als je 'lamp' moet raden, zal 'armatuur', 'gloeilamp', etc. hoog staan, maar 'schijnen' minder).
Zie ook https://www.volkskrant.nl/wetenschap/het-hels-moeilijke-semantle-is-mijn-absolute-favoriet-van-de-nieuwe-raadspelletjes-a-la-wordle~bca952a2
voor een leuk stukje erover. 

Is dat zo masatu, dat die database vooral op social media is gericht?

Ik stel me voor dat het algoritme van alle tekst op internet (van wetenschappelijke artikelen tot forumposts) deze lijsten samenstelt. Op basis van allerlei verbanden, niet puur betekenis. Ik vermoed dat het woord vandaag veel meer in social media posts voorkomt dan in wetenschappelijke artikelen, wat de ‘rare’ lijst verklaart. 

Heb hem vandaag ook wel geraden dit keer in 72 pogingen en 2 hints, had er wel wat meer moeite mee om hem te raden dan gisteren. En had de hints nu ook wel echt nodig om woord te raden. Vond hem niet zo leuk als gisteren. 
Hoop morgen ook weer op een leuker woord om te raden.

Moosey schreef op 04-05-2022 om 12:22:

Is dat zo masatu, dat die database vooral op social media is gericht?

Ik stel me voor dat het algoritme van alle tekst op internet (van wetenschappelijke artikelen tot forumposts) deze lijsten samenstelt. Op basis van allerlei verbanden, niet puur betekenis. Ik vermoed dat het woord vandaag veel meer in social media posts voorkomt dan in wetenschappelijke artikelen, wat de ‘rare’ lijst verklaart.

Deze dataset is gebruikt: https://github.com/coosto/dutch-word-embeddings

En daar staat bij: 

"The model was trained using ~600 million individual messages, comprised of Dutch social media messages (624 million messages) and Dutch news, blog and fora posts (36 million messages). All messages were published between 01/01/2017 and 31/12/2017."

Elk woord moest minimaal 300 keer voorkomen om meegenomen te worden in de uiteindelijke dataset.

Ik weet niet zo goed wat de verhouding tekst uit social media vs tekst uit andere bronnen is. Een social media bericht is in verhouding natuurlijk heel kort.

masatu schreef op 04-05-2022 om 12:33:

[..]

Deze dataset is gebruikt: https://github.com/coosto/dutch-word-embeddings

En daar staat bij:

"The model was trained using ~600 million individual messages, comprised of Dutch social media messages (624 million messages) and Dutch news, blog and fora posts (36 million messages). All messages were published between 01/01/2017 and 31/12/2017."

Elk woord moest minimaal 300 keer voorkomen om meegenomen te worden in de uiteindelijke dataset.

Ik weet niet zo goed wat de verhouding tekst uit social media vs tekst uit andere bronnen is. Een social media bericht is in verhouding natuurlijk heel kort.

Maar wat ik dan niet zo goed begrijp is dat er niet bestaande woorden als “datk” in de lijst voorkomen. Dat het vaak genoeg gebruikt is op social media snap ik nog, maar het heeft toch geen enkele betekenis. Hoe kan het dan semantisch verwant zijn aan andere woorden?

niet_rechts schreef op 04-05-2022 om 11:56:

[..]

En daartussendoor dan: hij, zij, wij, knuffel, hondenhok, neemdetijd, willekeur, kletsen

Kortom: de stagiair mocht zich uitleven vandaag

Er wordt vooral gekeken naar de zinsconstructie volgens mij. Dus datk (in bijv een zin "Hij zei datk mooi was") zal een hoge match hebben met "dat" en "ik", maar vast ook met "het", "heel", etc.

De dichtstbijzijnde woorden kan je vaak zo 1-op-1 vervangen door het juiste woord in een voorbeeldzin.

MoederBarberin schreef op 04-05-2022 om 11:50:

[..]

Niet echt nee. Vandaag mijn eerste keer en kijk naar de woordenlijst en hier is mijn samenvatting:

Het woord van de dag is 'lief'

Gerelateerde woorden:

Stom, stout, lieeef, lieeeeef, liiief

Ja dit snapte ik ook niet bij het woord van vandaag. Hoog in de lijst staan fout gespelde woorden, is dat dan omdat je het wel eens op die manier uitspreekt? Dus in het geval van lief bijvoorbeeld ‘oh wat lieeeef’?

Was dit daadwerkelijk jouw woord van 4 mei trouwens? Want ik heb een andere. 


Wel een heel leuk spel trouwens!


Edit: aha, ik zie dat het met die woordenlijst van Google te maken heeft

zit op 999 maar geen idee. oorden die ik invul kunnen zomaar negatief zijn.

ppff heb hem, eens met iedereen vaag

Sherlock schreef op 04-05-2022 om 13:06:

[..]

Ja dit snapte ik ook niet bij het woord van vandaag. Hoog in de lijst staan fout gespelde woorden, is dat dan omdat je het wel eens op die manier uitspreekt? Dus in het geval van lief bijvoorbeeld ‘oh wat lieeeef’?

Was dit daadwerkelijk jouw woord van 4 mei trouwens? Want ik heb een andere.


Wel een heel leuk spel trouwens!


Edit: aha, ik zie dat het met die woordenlijst van Google te maken heeft

Nee, maar wilde het woord niet verraden voor de andere spelers 

Reageer op dit bericht

Je moet je bericht bevestigen voor publicatie, je e-mailadres wordt niet gepubliceerd.