26. 9. 2020.

Frekventnost slova u 4 brzine

    Rezultati analize frekventnosti slova impliciraju da prosečnu ukrštenicu (i križaljku) u procentu većem od 40 čine samoglasnici, pri čemu je A za 70 – 90 % zastupljenije od drugoplasiranog I, dok je U najmanje zastupljeno (1.5 – 2.5 %, i uopšte uzev, u rangu je sa D). Trijadu najfrekventnijih suglasnika čine R, T i N. Slede ih S, K, V, L, P, što uz M, U i D čini polovinu azbuke/abecede sa frekvencijom većom od 2 %. U rasponu 1 – 2 % su B, J, C, a slede ih Z, G, Č, Ć, Š i NJ. Najmanje frekventna slova, sa stabilnim procentom ispod nule su: LJ, Ž, F, H, Đ i DŽ.

    Zanimalo me je koliko i kako sastavljačka direkcija utiče na slaganje sa statistikom i šta se može zaključiti o ukrštenici na osnovu proste analize frekventnosti slova. Izabrao sam jedan zgodan format sa 104 polja i napravio 4 ukrštenice, u 4 brzine. Prva brzina je običan zanatski nivo, tj. jedini cilj ukrštenice je da bude funkcionalna. Sastavlja se bez ikakve brige o slovnom sadržaju (slikovito: N i Ž u tom procesu imaju potpuno istu vrednost).  U drugoj brzini, pažnja je veća i postoji namera da se sadržaj tu i tamo osveži kojim nefrekventnim slovom (te ceo proces traje duže), ali bez usiljenosti, što će reći: tokom sastavljanja se ne režiraju već samo iskorišćavaju šanse da se negde uglavi F, LJ ili Ć. Režiranje šansi je treća brzina: tu postoji čvrsta namera da se pobegne od stereotipnog sadržaja i da se u što većem procentu koriste manje frekventna slova. U četvrtoj brzini, insistiranje na nefrekventnim slovima je još veće, pri čemu se izbegavaju najfrekventnija slova.

     Kao tematske pojmove sam izabrao imena Nindža kornjača tj. renesansnih slikara, pošto mi je sinula ideja da se mogu poređati u skladu sa mojim brzinama.  Ako u cilju eksperimenta zaboravim da sam ja sastavio ukrštenice,  na osnovu poretka frekventnosti o svakoj od njih mogu da izvedem manje ili više pouzdane zaključke.

     O prvoj sa velikom verovatnoćom možemo pretpostaviti da je sadržinski banalna. 6 najređih slova uopšte nema, NJ i Č se verovatno pojavljuju slučajno, na samoglasnike otpada oko 45 %, a najfrekventniji suglasnici su N, S i T. Ono što je specifično i iz čega izvire tračak nade da ipak nije reč o sasvim otrcanom sastavu je frekventnost slova A, koje je manje zastupljeno od najfrekventnijeg I za preko 4 % (u sirovim brojkama: 11 : 15), kao i relativno mala frekventnost slova R (4). Međutim, kada u obzir uzmemo činjenicu da je mreža vrlo sitna (svega 96 iskorišćenih polja), ne ostaje mnogo nade, jer je takvo odstupanje verovatno posledica slučajnog sastavljačkog izbora ili misaonog toka.

     O drugoj se može pretpostaviti da je sastavljena sa izvesnim ambicijama (posmatrano kroz brzine: ako je prva nastala za 10 minuta, na ovu je verovatno potrošeno 15-20). Upotrebljena su 22 slova, 3 od 6 najnefrekventnijih (F, LJ, Ž), pri čemu se F javlja 2 puta. Međutim, samoglasnika i ovde ima oko 45 %, pride sa vrlo stereotipnom zastupljenošću, a to se može reći i o najfrekventnijim suglasnicima. Slovo R se, kao i u prvoj ukrštenici, pojavljuje relativno retko (4 puta), a kao iznenađenje, tu je relativno frekventno D (takođe 4 puta). Nedostaju neka obična slova poput U, P i Z, ali su tu Š, Č i Ć, što skupa ide u prilog pretpostavci da verovatno nije reč o sadržinski banalnoj ukrštenici, tj. ovakav poredak frekventnih slova budi više nade nego poredak prve ukrštenice.    

     O trećoj se sa sigurnošću može naslutiti da je sklopljena sa nemalim ambicijama. Nedostaju joj samo 2 slova azbuke, ali ne najređa, već J i C. Zastupljenost samoglasnika je tek za nijansu manja nego u slučajevima 1. i 2., no može se primetiti da je U frekventnije nego ranije, dok je O osetno redukovano (javlja se 5 puta, u prvoj 9, u drugoj 11). U poretku suglasnika se kao momenat iznenađenja nameće prvoplasirano K (6 puta), ali i relativna frekventnost slova B, J i M (po 3 puta). Generalno nefrekventna slova Đ, DŽ, H i Ć sreću se po 2 puta, što nedvosmisleno ukazuje na nameru da se sadržaj ukrštenice učini što manje banalnim.

     Na osnovu frekventnosti slova, o četvrtoj se može zaključiti da takve ukrštenice viđamo vrlo retko.  Samoglasnici učestvuju sa manje od 40 %, pri čemu je poredak osetno izmenjen u odnosu na očekivani: najzastupljeniji je E sa 11.83 %, slede ga A i I sa 10.75 %, U sa 4.3 % i O sa svega 1.08 % (pojavljuje se samo jednom). Najfrekventniji suglasnik je R (8 puta, prema 4 u prvoj, 4 u drugoj i 5 u trećoj; to ukazuje na supstiticiju samoglasnika ovim slovom), a kao kuriozitet, trostruko F izbija na 10./12. mesto (uz P i K). Po dva puta se pojavljuju LJ, Ž, Č i Ć, uz M i Z (uzgred, Z je slovo koje ja iz nepoznatog razloga koristim izuzetno retko, u ovoj seriji je u rangu sa Đ, DŽ, NJ i H!).

     Ukratko, sa predviđanjem sadržaja na osnovu poretka frekventnosti slova stvari stoje ovako: sa velikom verovatnoćom možemo da zaključimo da li je i koliko taj sadržaj udaljen od trivijalnog, kakve su i kolike bile ambicije autora i u kojoj je brzini ukrštenica sklopljena (pod uslovom da autor nije početnik, naravno). Što se, pak, opšteg kvaliteta tiče, praktično ništa ne možemo sa sigurnošću da predvidimo na osnovu ovih podataka. Kvalitet ukrštenice je pre i posle svega u milosti autorovog umeća, i to što je neko ambiciozno prkosio statistici samo po sebi ne garantuje uspeh: takva ukrštenica može biti puna bezvrednih dugih i kratkih reči, skraćenica, dvoslova i jednoslova, može biti slabo prožeta, strukturalno  smešna i kojekakva... a uz sve to, može biti i nerešiva. Ni o jednom parametru kvaliteta se, dakle, ništa ne može zaključiti na osnovu slovnog sadržaja (dok bi uz potpis afirmisanog autora već mogli da formiramo ispravna očekivanja). Zato se može reći da je što šareniji slovni sadržaj ukrštenice poželjan, ali ni u kom slučaju dovoljan uslov kvaliteta.

(Premijerno objavljeno na blogu TIO)

25. 9. 2020.

(Ne)frekventna slova

    Inspirisan nedavno otvorenim sporom (ne)frekventna slova, napravio sam neku vrstu mini-reprize analize učestalosti iz 1980. godine, autora Dinka Kneževića. Koristio sam sličnu metodologiju, s tim što je moj uzorak znatno manji (zapravo, toliko mali da su rezultati samo ilustrativni), ali je zato potpuno slučajan: iz jedne velike kutije pune svakojakih enigmatskih časopisa starih do 40 godina (iz Srbije), izvukao sam 10 različitih izdanja i birao ukrštenice otvaranjem naslepo. U nekoliko navrata sam morao da promenim slučajni izbor jer se radilo o sastavima sa prevelikim brojem tematskih pojmova, a dva puta sam ponavljao otvaranje jer su mi se nudili nedovoljno afirmisani autori (tako sam, umesto izvesnog Radeta Ravića izabrao Reljića, a umesto Dragana Zlatkovića Tošića). Dakle, uslov je bio da ukrštenice imaju maksimalno po 2 tematska pojma (a slučaj je hteo da većinski ne budu tematske), da imaju iole poznati potpis, da datiraju iz različitih perioda i da su objavljene u različitim listovima (ipak, koristio sam 2 broja Enigme, jedan iz 1990. – na velikom formatu, i jedan iz 2005. – na malom). Dimenzije svih analiziranih ukrštenica su različite i nije bilo bitno da li su priređene kao skandinavke, klasične, bele, kombinovane ili mozaičke. 

    Pešački sam brojao zastupljenost svakog slova u svakoj pojedinačnoj ukrštenici, a onda pešački sabirao i računao postotke. Na kraju sam našao prosečnu frekventnost svih slova u uzorku. Ako je u tom procesu i došlo do nekog previda (moram da naglasim da sam sve radio u cugu i brzinski), to očigledno nije mnogo ugrozilo analizu – jer se ispostavilo da nema velikih odstupanja od Kneževićevih rezulatata.

    Dakle, ono što je Dinko pre 40 godina utvrdio na prigodnom uzorku od 100 križaljki (iz 7 sukcesivnih brojeva „Čvor razbibrige“), ja sam uglavnom potvrdio na desetostruko manjem slučajnom uzorku ukrštenica. Kod njega je redosled 10 najfrekventnijih slova: A I R O T E N K S L, a kod mene: A I T R O E K N S V (podvučena su slova čiji se plasman sasvim poklapa, a ostala su permutovana, izuzev para L – V; ali, gle čuda: kod Dinka je na 11. mestu V, a kod mene L). Što se tiče slova iz raspona srednje frekvencije (plasman: 11 – 20), ni tu nema većeg otklona, osim što je Z u mom uzorku bilo nešto frekventnije, pa je Č završilo na 21. mestu, dok je Dinkovo na 20 (takođe, njegovo Č premašuje 1 % za razliku od mog). Konačno, i naše grupe najmanje frekventnih slova (21- 30) poklapaju se u 9/10, s tim što su plasmani različiti (naravno, sve su to slova sa zastupljenošću manjom od 1 %, pa bi, s obzirom na mali uzorak,  bilo nerealno očekivati da se decimale poslažu na isti način). Procenti se takođe u sve tri grupe lepo podudaraju (odstupanje samo u nekoliko slučajeva prelazi 1 %).

    Evo i nekih zapažanja: kod mene je DŽ nešto zastupljenije nego Đ – samo zato što sam naleteo na Bovanovu skandinavku u Huperu sa Džonijem Vajsmilerom i džuboksom. Može se primetiti da je i F manje zastupljeno od DŽ u tih 10 ukrštenica, a zapravo, i Dž i F se sreću (samo) po 2 puta, ali DŽ u istom sastavu - što mu je povećalo postotak, a F u različitim (razlike u procentima su infinitezimalne, a prouzrokuje ih format; plastično, jedno F u velikoj mreži je manje retko od jednog DŽ u maloj mreži, i obrnuto). Uzgred, primetio sam da neki renomirani autori iz mog uzorka nisu imali običaj da uglavljuju retka slova čak ni kada se to nametalo; tako je Reljić imao varijabilno prvo slovo u nizu  _ I L, ali nije se opredelio za fil, Hil, Žil, Džil već je tu stavio T.

Reagovanje Dinka Kneževića

        Mladenov prilog me podsetio na neka moja davna istraživanja, pa bih malo da dopunim rezultate navedenih istraživanja.

    Moja prijateljica, profesorka matematike, bavi se računskom lingvistikom i korišćenjem matematičkih i informatičkih tehnika i veština obrađuje i leme u srpskom jeziku. U lingvistici reči se nazivaju leksemama (lovac i lovci su ista reč – leksema), a oblik reči koji se u zavisnosti od situacije bira zove se lema. Obrada podrazumeva učestalost pojavljivanja pojedinih lema. Pored kanonskih oblika obrađuje i složene reči, stručne termine, sve izvedene oblike itd. U različitim oblicima rezultati rada njenog tima objavljuju se u stručnoj literaturi.

    Mnogi od tih radova su interesantni za enigmate. No, mene je interesovala frekvencija pojavljivanja slova u rečima (lemama) kanonskog oblika, pa sam je zamolio da mi pripremi tu raspodelu. Kanonski oblik se koristi kod enciklopedijskih odrednica. U srpskom jeziku ima oko 135.000 kanonskih oblika reči, lema. Rezultati statističke obrade frekventnosti pojavljivanja slova u srpskom jeziku dati su u kolonama 2 i 3, u narednoj tabeli. U naredne 4 kolone dati su rezultati moga istraživanja na ukrštenim rečima, 1980. na ukrštenicama iz Čvor Razbibrige, a 2005. iz Politikine Enigmatike. U poslednje dve kolone su rezultati Mladenovog istraživanja.

    Lako se uočava da se ni u jednom ispitivanju redosled slova ne poklapa. Ako se slova podele u grupe, 7 najfrekventnijih, 8 slova koja se pojavljuju posle njih, 9 iza njih i 6 najređih dolazi se do veoma sličnih rezultata. Čak se po grupama uzorak iz Politikine Enigmatike u potpunosti poklapa sa grupama u srpskom jeziku.

    U svim ispitivanjima najfrekventnija su slova A i I. Dok se ukrštenično I pojavljuje približno jednako kao u srpskom jeziku, dotle se A koristi mnogo više (gotovo za 50%). Pet samoglasnika u srpskom čini 41,34% slova, sa slovom R gotovo 48%. U ukrštenicama samoglasnici čine Dinko 1: 42,34 (sa R:50,69), Dinko 2: 44,2 (52,92), Mladen: 45,68 (53,34).

    Šest najnefrekventnijih slova u srpskom jeziku učestvuju sa 2,88%, a u ukrštenicama Dinko 1: 1,6, Dinko 2: 0,906, Mladen: 1,435. dakle, srpski jezik ima 2-3 puta više reči u kojima se pojavljuju najnefrekventnija slova nego što se to sreće u ukrštenicama.

(Premijerno objavljeno na blogu TIO)