25.09.2020.

(Ne)frekventna slova

    Inspirisan nedavno otvorenim sporom (ne)frekventna slova, napravio sam neku vrstu mini-reprize analize učestalosti iz 1980. godine, autora Dinka Kneževića. Koristio sam sličnu metodologiju, s tim što je moj uzorak znatno manji (zapravo, toliko mali da su rezultati samo ilustrativni), ali je zato potpuno slučajan: iz jedne velike kutije pune svakojakih enigmatskih časopisa starih do 40 godina (iz Srbije), izvukao sam 10 različitih izdanja i birao ukrštenice otvaranjem naslepo. U nekoliko navrata sam morao da promenim slučajni izbor jer se radilo o sastavima sa prevelikim brojem tematskih pojmova, a dva puta sam ponavljao otvaranje jer su mi se nudili nedovoljno afirmisani autori (tako sam, umesto izvesnog Radeta Ravića izabrao Reljića, a umesto Dragana Zlatkovića Tošića). Dakle, uslov je bio da ukrštenice imaju maksimalno po 2 tematska pojma (a slučaj je hteo da većinski ne budu tematske), da imaju iole poznati potpis, da datiraju iz različitih perioda i da su objavljene u različitim listovima (ipak, koristio sam 2 broja Enigme, jedan iz 1990. – na velikom formatu, i jedan iz 2005. – na malom). Dimenzije svih analiziranih ukrštenica su različite i nije bilo bitno da li su priređene kao skandinavke, klasične, bele, kombinovane ili mozaičke. 

    Pešački sam brojao zastupljenost svakog slova u svakoj pojedinačnoj ukrštenici, a onda pešački sabirao i računao postotke. Na kraju sam našao prosečnu frekventnost svih slova u uzorku. Ako je u tom procesu i došlo do nekog previda (moram da naglasim da sam sve radio u cugu i brzinski), to očigledno nije mnogo ugrozilo analizu – jer se ispostavilo da nema velikih odstupanja od Kneževićevih rezulatata.

    Dakle, ono što je Dinko pre 40 godina utvrdio na prigodnom uzorku od 100 križaljki (iz 7 sukcesivnih „Čvor razbibrige“), ja sam uglavnom potvrdio na desetostruko manjem slučajnom uzorku ukrštenica. Kod njega je redosled 10 najfrekventnijih slova: A I R O T E N K S L, a kod mene: A I T R O E K N S V (podvučena su slova čiji se plasman sasvim poklapa, a ostala su permutovana, izuzev para L – V; ali, gle čuda: kod Dinka je na 11. mestu V, a kod mene L). Što se tiče slova iz raspona srednje frekvencije (plasman: 11 – 20), ni tu nema većeg otklona, osim što je Z u mom uzorku bilo nešto frekventnije, pa je Č završilo na 21. mestu, dok je Dinkovo na 20 (takođe, njegovo Č premašuje 1 % za razliku od mog). Konačno, i naše grupe najmanje frekventnih slova (21- 30) poklapaju se u 9/10, s tim što su plasmani različiti (naravno, sve su to slova sa zastupljenošću manjom od 1 %, pa bi, s obzirom na mali uzorak,  bilo nerealno očekivati da se decimale poslažu na isti način). Procenti se takođe u sve tri grupe lepo podudaraju (odstupanje samo u nekoliko slučajeva prelazi 1 %).

    Evo i nekih zapažanja: kod mene je DŽ nešto zastupljenije nego Đ – samo zato što sam naleteo na Bovanovu skandinavku u Huperu sa Džonijem Vajsmilerom i džuboksom. Može se primetiti da je i F manje zastupljeno od DŽ u tih 10 ukrštenica, a zapravo, i Dž i F se sreću (samo) po 2 puta, ali DŽ u istom sastavu - što mu je povećalo postotak, a F u različitim (razlike u procentima su infinitezimalne, a prouzrokuje ih format; plastično, jedno F u velikoj mreži je manje retko od jednog DŽ u maloj mreži, i obrnuto). Uzgred, primetio sam da neki renomirani autori iz mog uzorka nisu imali običaj da uglavljuju retka slova čak ni kada se to nametalo; tako je Reljić imao varijabilno prvo slovo u nizu  _ I L, ali nije se opredelio za fil, Hil, Žil, Džil već je tu stavio T.

Reagovanje Dinka Kneževića

        Mladenov prilog me podsetio na neka moja davna istraživanja, pa bih malo da dopunim rezultate navedenih istraživanja.

    Moja prijateljica, profesorka matematike, bavi se računskom lingvistikom i korišćenjem matematičkih i informatičkih tehnika i veština obrađuje i leme u srpskom jeziku. U lingvistici reči se nazivaju leksemama (lovac i lovci su ista reč – leksema), a oblik reči koji se u zavisnosti od situacije bira zove se lema. Obrada podrazumeva učestalost pojavljivanja pojedinih lema. Pored kanonskih oblika obrađuje i složene reči, stručne termine, sve izvedene oblike itd. U različitim oblicima rezultati rada njenog tima objavljuju se u stručnoj literaturi.

    Mnogi od tih radova su interesantni za enigmate. No, mene je interesovala frekvencija pojavljivanja slova u rečima (lemama) kanonskog oblika, pa sam je zamolio da mi pripremi tu raspodelu. Kanonski oblik se koristi kod enciklopedijskih odrednica. U srpskom jeziku ima oko 135.000 kanonskih oblika reči, lema. Rezultati statističke obrade frekventnosti pojavljivanja slova u srpskom jeziku dati su u kolonama 2 i 3, u narednoj tabeli. U naredne 4 kolone dati su rezultati moga istraživanja na ukrštenim rečima, 1980. na ukrštenicama iz Čvor Razbibrige, a 2005. iz Politikine Enigmatike. U poslednje dve kolone su rezultati Mladenovog istraživanja.

    Lako se uočava da se ni u jednom ispitivanju redosled slova ne poklapa. Ako se slova podele u grupe, 7 najfrekventnijih, 8 slova koja se pojavljuju posle njih, 9 iza njih i 6 najređih dolazi se do veoma sličnih rezultata. Čak se po grupama uzorak iz Politikine Enigmatike u potpunosti poklapa sa grupama u srpskom jeziku.

    U svim ispitivanjima najfrekventnija su slova A i I. Dok se ukrštenično I pojavljuje približno jednako kao u srpskom jeziku, dotle se A koristi mnogo više (gotovo za 50%). Pet samoglasnika u srpskom čini 41,34% slova, sa slovom R gotovo 48%. U ukrštenicama samoglasnici čine Dinko 1: 42,34 (sa R:50,69), Dinko 2: 44,2 (52,92), Mladen: 45,68 (53,34).

    Šest najnefrekventnijih slova u srpskom jeziku učestvuju sa 2,88%, a u ukrštenicama Dinko 1: 1,6, Dinko 2: 0,906, Mladen: 1,435. dakle, srpski jezik ima 2-3 puta više reči u kojima se pojavljuju najnefrekventnija slova nego što se to sreće u ukrštenicama.

(Premijerno objavljeno na blogu TIO)

Нема коментара: