Rezultati analize frekventnosti slova impliciraju da prosečnu ukrštenicu
(i križaljku) u procentu većem od 40 čine samoglasnici, pri čemu je A za 70 –
90 % zastupljenije od drugoplasiranog I, dok je U najmanje zastupljeno (1.5 –
2.5 %, i uopšte uzev, u rangu je sa D). Trijadu najfrekventnijih suglasnika
čine R, T i N. Slede ih S, K, V, L, P, što uz M, U i D čini polovinu
azbuke/abecede sa frekvencijom većom od 2 %. U rasponu 1 – 2 % su B, J, C, a
slede ih Z, G, Č, Ć, Š i NJ. Najmanje frekventna slova, sa stabilnim procentom
ispod nule su: LJ, Ž, F, H, Đ i DŽ.
Zanimalo me je koliko i kako sastavljačka direkcija utiče na slaganje sa
statistikom i šta se može zaključiti o ukrštenici na osnovu proste analize
frekventnosti slova. Izabrao sam jedan zgodan format sa 104 polja i napravio 4
ukrštenice, u 4 brzine. Prva brzina je običan zanatski nivo, tj. jedini cilj
ukrštenice je da bude funkcionalna. Sastavlja se bez ikakve brige o slovnom
sadržaju (slikovito: N i Ž u tom procesu imaju potpuno istu vrednost). U drugoj brzini, pažnja je veća i postoji
namera da se sadržaj tu i tamo osveži kojim nefrekventnim slovom (te ceo proces
traje duže), ali bez usiljenosti, što će reći: tokom sastavljanja se ne
režiraju već samo iskorišćavaju šanse da se negde uglavi F, LJ ili Ć. Režiranje
šansi je treća brzina: tu postoji čvrsta namera da se pobegne od stereotipnog
sadržaja i da se u što većem procentu koriste manje frekventna slova. U
četvrtoj brzini, insistiranje na nefrekventnim slovima je još veće, pri čemu se
izbegavaju najfrekventnija slova.
Kao tematske pojmove sam izabrao imena Nindža kornjača tj. renesansnih
slikara, pošto mi je sinula ideja da se mogu poređati u skladu sa mojim
brzinama. Ako u cilju eksperimenta
zaboravim da sam ja sastavio ukrštenice,
na osnovu poretka frekventnosti o svakoj od njih mogu da izvedem manje
ili više pouzdane zaključke.
O prvoj sa velikom verovatnoćom možemo pretpostaviti da je sadržinski
banalna. 6 najređih slova uopšte nema, NJ i Č se verovatno pojavljuju slučajno,
na samoglasnike otpada oko 45 %, a najfrekventniji suglasnici su N, S i T. Ono
što je specifično i iz čega izvire tračak nade da ipak nije reč o sasvim
otrcanom sastavu je frekventnost slova A, koje je manje zastupljeno od
najfrekventnijeg I za preko 4 % (u sirovim brojkama: 11 : 15), kao i relativno
mala frekventnost slova R (4). Međutim, kada u obzir uzmemo činjenicu da je
mreža vrlo sitna (svega 96 iskorišćenih polja), ne ostaje mnogo nade, jer je
takvo odstupanje verovatno posledica slučajnog sastavljačkog izbora ili misaonog
toka.
O drugoj se može pretpostaviti da je sastavljena sa izvesnim ambicijama
(posmatrano kroz brzine: ako je prva nastala za 10 minuta, na ovu je verovatno
potrošeno 15-20). Upotrebljena su 22 slova, 3 od 6 najnefrekventnijih (F, LJ,
Ž), pri čemu se F javlja 2 puta. Međutim, samoglasnika i ovde ima oko 45 %,
pride sa vrlo stereotipnom zastupljenošću, a to se može reći i o
najfrekventnijim suglasnicima. Slovo R se, kao i u prvoj ukrštenici, pojavljuje
relativno retko (4 puta), a kao iznenađenje, tu je relativno frekventno D
(takođe 4 puta). Nedostaju neka obična slova poput U, P i Z, ali su tu Š, Č i
Ć, što skupa ide u prilog pretpostavci da verovatno nije reč o sadržinski
banalnoj ukrštenici, tj. ovakav poredak frekventnih slova budi više nade nego poredak
prve ukrštenice.
O trećoj se sa sigurnošću može naslutiti da je sklopljena sa nemalim
ambicijama. Nedostaju joj samo 2 slova azbuke, ali ne najređa, već J i C.
Zastupljenost samoglasnika je tek za nijansu manja nego u slučajevima 1. i 2.,
no može se primetiti da je U frekventnije nego ranije, dok je O osetno
redukovano (javlja se 5 puta, u prvoj 9, u drugoj 11). U poretku suglasnika se
kao momenat iznenađenja nameće prvoplasirano K (6 puta), ali i relativna
frekventnost slova B, J i M (po 3 puta). Generalno nefrekventna slova Đ, DŽ, H
i Ć sreću se po 2 puta, što nedvosmisleno ukazuje na nameru da se sadržaj
ukrštenice učini što manje banalnim.
Na osnovu frekventnosti slova, o četvrtoj se može zaključiti da takve
ukrštenice viđamo vrlo retko. Samoglasnici
učestvuju sa manje od 40 %, pri čemu je poredak osetno izmenjen u odnosu na
očekivani: najzastupljeniji je E sa 11.83 %, slede ga A i I sa 10.75 %, U sa
4.3 % i O sa svega 1.08 % (pojavljuje se samo jednom). Najfrekventniji
suglasnik je R (8 puta, prema 4 u prvoj, 4 u drugoj i 5 u trećoj; to ukazuje na
supstiticiju samoglasnika ovim slovom), a kao kuriozitet, trostruko F izbija na
10./12. mesto (uz P i K). Po dva puta se pojavljuju LJ, Ž, Č i Ć, uz M i Z
(uzgred, Z je slovo koje ja iz nepoznatog razloga koristim izuzetno retko, u
ovoj seriji je u rangu sa Đ, DŽ, NJ i H!).
Ukratko, sa predviđanjem sadržaja na osnovu poretka frekventnosti slova
stvari stoje ovako: sa velikom verovatnoćom možemo da zaključimo da li je i
koliko taj sadržaj udaljen od trivijalnog, kakve su i kolike bile ambicije
autora i u kojoj je brzini ukrštenica sklopljena (pod uslovom da autor nije
početnik, naravno). Što se, pak, opšteg kvaliteta tiče, praktično ništa ne
možemo sa sigurnošću da predvidimo na osnovu ovih podataka. Kvalitet ukrštenice
je pre i posle svega u milosti autorovog umeća, i to što je neko ambiciozno
prkosio statistici samo po sebi ne garantuje uspeh: takva ukrštenica može biti
puna bezvrednih dugih i kratkih reči, skraćenica, dvoslova i jednoslova, može biti
slabo prožeta, strukturalno smešna i
kojekakva... a uz sve to, može biti i nerešiva. Ni o jednom parametru kvaliteta
se, dakle, ništa ne može zaključiti na osnovu slovnog sadržaja (dok bi uz
potpis afirmisanog autora već mogli da formiramo ispravna očekivanja). Zato se
može reći da je što šareniji slovni sadržaj ukrštenice poželjan, ali ni u kom
slučaju dovoljan uslov kvaliteta.
(Premijerno objavljeno na blogu TIO)
Нема коментара:
Постави коментар