26. 9. 2020.

Frekventnost slova u 4 brzine

    Rezultati analize frekventnosti slova impliciraju da prosečnu ukrštenicu (i križaljku) u procentu većem od 40 čine samoglasnici, pri čemu je A za 70 – 90 % zastupljenije od drugoplasiranog I, dok je U najmanje zastupljeno (1.5 – 2.5 %, i uopšte uzev, u rangu je sa D). Trijadu najfrekventnijih suglasnika čine R, T i N. Slede ih S, K, V, L, P, što uz M, U i D čini polovinu azbuke/abecede sa frekvencijom većom od 2 %. U rasponu 1 – 2 % su B, J, C, a slede ih Z, G, Č, Ć, Š i NJ. Najmanje frekventna slova, sa stabilnim procentom ispod nule su: LJ, Ž, F, H, Đ i DŽ.

    Zanimalo me je koliko i kako sastavljačka direkcija utiče na slaganje sa statistikom i šta se može zaključiti o ukrštenici na osnovu proste analize frekventnosti slova. Izabrao sam jedan zgodan format sa 104 polja i napravio 4 ukrštenice, u 4 brzine. Prva brzina je običan zanatski nivo, tj. jedini cilj ukrštenice je da bude funkcionalna. Sastavlja se bez ikakve brige o slovnom sadržaju (slikovito: N i Ž u tom procesu imaju potpuno istu vrednost).  U drugoj brzini, pažnja je veća i postoji namera da se sadržaj tu i tamo osveži kojim nefrekventnim slovom (te ceo proces traje duže), ali bez usiljenosti, što će reći: tokom sastavljanja se ne režiraju već samo iskorišćavaju šanse da se negde uglavi F, LJ ili Ć. Režiranje šansi je treća brzina: tu postoji čvrsta namera da se pobegne od stereotipnog sadržaja i da se u što većem procentu koriste manje frekventna slova. U četvrtoj brzini, insistiranje na nefrekventnim slovima je još veće, pri čemu se izbegavaju najfrekventnija slova.

     Kao tematske pojmove sam izabrao imena Nindža kornjača tj. renesansnih slikara, pošto mi je sinula ideja da se mogu poređati u skladu sa mojim brzinama.  Ako u cilju eksperimenta zaboravim da sam ja sastavio ukrštenice,  na osnovu poretka frekventnosti o svakoj od njih mogu da izvedem manje ili više pouzdane zaključke.

     O prvoj sa velikom verovatnoćom možemo pretpostaviti da je sadržinski banalna. 6 najređih slova uopšte nema, NJ i Č se verovatno pojavljuju slučajno, na samoglasnike otpada oko 45 %, a najfrekventniji suglasnici su N, S i T. Ono što je specifično i iz čega izvire tračak nade da ipak nije reč o sasvim otrcanom sastavu je frekventnost slova A, koje je manje zastupljeno od najfrekventnijeg I za preko 4 % (u sirovim brojkama: 11 : 15), kao i relativno mala frekventnost slova R (4). Međutim, kada u obzir uzmemo činjenicu da je mreža vrlo sitna (svega 96 iskorišćenih polja), ne ostaje mnogo nade, jer je takvo odstupanje verovatno posledica slučajnog sastavljačkog izbora ili misaonog toka.

     O drugoj se može pretpostaviti da je sastavljena sa izvesnim ambicijama (posmatrano kroz brzine: ako je prva nastala za 10 minuta, na ovu je verovatno potrošeno 15-20). Upotrebljena su 22 slova, 3 od 6 najnefrekventnijih (F, LJ, Ž), pri čemu se F javlja 2 puta. Međutim, samoglasnika i ovde ima oko 45 %, pride sa vrlo stereotipnom zastupljenošću, a to se može reći i o najfrekventnijim suglasnicima. Slovo R se, kao i u prvoj ukrštenici, pojavljuje relativno retko (4 puta), a kao iznenađenje, tu je relativno frekventno D (takođe 4 puta). Nedostaju neka obična slova poput U, P i Z, ali su tu Š, Č i Ć, što skupa ide u prilog pretpostavci da verovatno nije reč o sadržinski banalnoj ukrštenici, tj. ovakav poredak frekventnih slova budi više nade nego poredak prve ukrštenice.    

     O trećoj se sa sigurnošću može naslutiti da je sklopljena sa nemalim ambicijama. Nedostaju joj samo 2 slova azbuke, ali ne najređa, već J i C. Zastupljenost samoglasnika je tek za nijansu manja nego u slučajevima 1. i 2., no može se primetiti da je U frekventnije nego ranije, dok je O osetno redukovano (javlja se 5 puta, u prvoj 9, u drugoj 11). U poretku suglasnika se kao momenat iznenađenja nameće prvoplasirano K (6 puta), ali i relativna frekventnost slova B, J i M (po 3 puta). Generalno nefrekventna slova Đ, DŽ, H i Ć sreću se po 2 puta, što nedvosmisleno ukazuje na nameru da se sadržaj ukrštenice učini što manje banalnim.

     Na osnovu frekventnosti slova, o četvrtoj se može zaključiti da takve ukrštenice viđamo vrlo retko.  Samoglasnici učestvuju sa manje od 40 %, pri čemu je poredak osetno izmenjen u odnosu na očekivani: najzastupljeniji je E sa 11.83 %, slede ga A i I sa 10.75 %, U sa 4.3 % i O sa svega 1.08 % (pojavljuje se samo jednom). Najfrekventniji suglasnik je R (8 puta, prema 4 u prvoj, 4 u drugoj i 5 u trećoj; to ukazuje na supstiticiju samoglasnika ovim slovom), a kao kuriozitet, trostruko F izbija na 10./12. mesto (uz P i K). Po dva puta se pojavljuju LJ, Ž, Č i Ć, uz M i Z (uzgred, Z je slovo koje ja iz nepoznatog razloga koristim izuzetno retko, u ovoj seriji je u rangu sa Đ, DŽ, NJ i H!).

     Ukratko, sa predviđanjem sadržaja na osnovu poretka frekventnosti slova stvari stoje ovako: sa velikom verovatnoćom možemo da zaključimo da li je i koliko taj sadržaj udaljen od trivijalnog, kakve su i kolike bile ambicije autora i u kojoj je brzini ukrštenica sklopljena (pod uslovom da autor nije početnik, naravno). Što se, pak, opšteg kvaliteta tiče, praktično ništa ne možemo sa sigurnošću da predvidimo na osnovu ovih podataka. Kvalitet ukrštenice je pre i posle svega u milosti autorovog umeća, i to što je neko ambiciozno prkosio statistici samo po sebi ne garantuje uspeh: takva ukrštenica može biti puna bezvrednih dugih i kratkih reči, skraćenica, dvoslova i jednoslova, može biti slabo prožeta, strukturalno  smešna i kojekakva... a uz sve to, može biti i nerešiva. Ni o jednom parametru kvaliteta se, dakle, ništa ne može zaključiti na osnovu slovnog sadržaja (dok bi uz potpis afirmisanog autora već mogli da formiramo ispravna očekivanja). Zato se može reći da je što šareniji slovni sadržaj ukrštenice poželjan, ali ni u kom slučaju dovoljan uslov kvaliteta.

(Premijerno objavljeno na blogu TIO)

Нема коментара: