Helyes blog
Hírek, érdekességek, helyesírási kérdések

A tíz leggyakoribb tartalmas szó a magyarban

Érdekességek
2014. november 28. 10:15 | LZS & KR

Elgondolkodtak már azon, vajon mely szavakat használjuk a leggyakrabban?

Erre a kérdésre nem egyszerű valamilyen egzakt módszer segítsége nélkül hihető választ adni. Érdemes tehát valamilyen reprezentatív szöveghalmazt segítségül hívni, azonban biztosan lesznek így is kételkedők – hozzátennénk, hogy nem jogtalanul. A korpuszok elektronikusan tárolt szövegek valamilyen szempont szerint válogatott, rendezett gyűjteményét jelentik, és kiválóan alkalmasak többek között ilyen jellegű vizsgálatokra is, mivel nemcsak maguk a szövegek, hanem mindenféle metaadat is található bennük, például a szavak szófaji, alaktani elemzése is.

Az általános szógyakorisági vizsgálatokhoz olyan korpuszt célszerű használni, mint a Magyar nemzeti szövegtár, amely a teljes magyar nyelv reprezentatív korpuszaként fogható fel: többféle stílusrétegből, többféle régióból tartalmaz nagy mennyiségű szövegeket. (Az MNSz.-ről korábban már írtunk a blogban.)

Előzetes elvárásainknak megfelelően az első tíz leggyakoribb szó csupa ún. tartalmatlan szó: a, az, és, hogy, nem – azaz névelők, kötőszók, viszonyszók, tagadószók. Ennek értelmében keresési kritériumainkat úgy szűkítettük, hogy csak tartalmas szavakat kapjunk, ezek legtöbbször főnevek, esetleg melléknevek, illetve igék. További nehézséget jelentett azonban, hogy ezek között is akadnak tartalmatlan szavak, például a létige alakjai, segédigék.

Többszörös szűrés alapján végül a következő listákat kaptuk. (A gyakoriságok számolásakor a szótári alak – tehát toldalékok nélküli alak – számít.)

Főnevek: kormány, év, ember, törvény, László, úr, szó, ország, elnök, István.

Igék: mond, kerül, tud, köszön, sikerül, jelent, kap, tart, tesz, hisz.

Melléknevek: magyar, nagy, új, jó, politikai, kis, egész, gazdasági, amerikai, nemzetközi.

Tényleg a kormány szót haszáljuk a leggyakrabban? Sajnos ennek alapján láthatóvá válik a reprezentatívnak felfogható korpuszok hibája: a teljes magyar nyelvet tekintve nem tud reprezentatív lenni. Ennek oka pedig a beszélt nyelv dominanciája és különösen nehéz archiválása. Vannak beszélt nyelvi korpuszok és kezdeményezések továbbiak létrehozására, de elkészítésük túlságosan nagy erőforrásokat igényel. Maradnak tehát az újságcikkek, fórumok és a kormány mint a leggyakoribb magyar főnév.

A részletes eredmények itt találhatók.


A kép forrása: wikiszotar.hu.

(Disqus hozzászólások kikapcsolva a htp-devel.nytud.hu szerveren.)