vineri, 16 iunie 2017

De unde provin cuvintele românești?

Stimulat de o discuție cu profesorul Emil Ionescu în cadrul seminarului Limba română în era globalizării (înregistrarea completă poate fi găsită aici), am purces la sistematizarea unor cercetări mai vechi de-ale mele în care pur și simplu făceam un exercițiu simplu de clasificare (automată) a cuvintelor din DEX (2009) după etimologia indicată de autori.
Cum ne puteam aștepta, etimologiile nu sînt clar definite de DEX (acesta fiind un dicționar explicativ), uneori apar mai multe surse, alteori se oferă numai corespondențe cu alte limbi („cf.”). Totuși, rezultatele trebuie să fie corecte măcar ca ordin de mărime!

Limba de origine Număr de cuvinteProcent
dezvoltare în limba română 28659 42.85%
franceză, 21076 31.51%
franceză, latină, 3780 5.65%
latină, 2266 3.39%
etimologie necunoscută, 1159 1.73%
slavonă, 1084 1.62%
germană, 1001 1.50%
engleză, 967 1.45%
turcă, 949 1.42%
italiană, 645 0.96%
franceză, germană, 582 0.87%
engleză, franceză, 577 0.86%
bulgară, 548 0.82%
neogreacă, 544 0.81%
maghiară, 449 0.67%
franceză, italiană, 440 0.66%
rusă, 366 0.55%
ucraineană, 240 0.36%
italiană, latină, 137 0.20%
franceză, italiană, latină, 124 0.19%
franceză, rusă, 100 0.15%
franceză, germană, latină, 85 0.13%
albaneză, 79 0.12%
franceză, germană, italiană, 59 0.09%
germană, latină, 57 0.09%
franceză, neogreacă, 53 0.08%
rusă, ucraineană, 51 0.08%
germană, italiană, 51 0.08%
spaniolă, 45 0.07%
germană, rusă, 37 0.06%
țigănească, 33 0.05%
altele 635 0.95%
TOTAL 66878 100.00%

Dacă luăm limbile separat (evident, în cazul acesta suma procentelor va fi mai mare de 100% pentru că unele cuvinte corespund mai multor limbi) „clasamentul” devine:
Limba de origine Număr de cuvinteProcent
dezvoltare în limba română 28659 42.85%
franceză 27721 41.45%
latină 11131 16.64%
germană 2972 4.44%
italiană 2387 3.57%
engleză 1638 2.45%
slavonă 1229 1.84%
turcă 1116 1.67%
neogreacă 998 1.49%
rusă 979 1.46%
bulgară 681 1.02%
maghiară 523 0.78%
ucraineană 432 0.65%
spaniolă 127 0.19%
albaneză 95 0.14%
țigănească 37 0.06%
greacă (veche) 34 0.05%
portugheză 23 0.03%
latină (populară) 20 0.03%
altele 28 0.04%

Trebuie făcute măcar trei observații:
  1. este vorba de cuvintele care au reușit să pătrundă în DEX (suspectez că există cel puțin o mie de cuvinte împrumutate din engleză care nu apar în dicționare);
  2. este vorba doar de cuvinte diferite, care apar în dicționare, nu am luat în calcul frecvența cuvintelor: astfel și sau în apar cu aceeași pondere precum sternocleidomastoidian (există mai multe analize de acest tip mai vechi, dar înainte de puternica influență a limbi engleze de acum, vezi aici);
  3.  cuvintele tehnice, deși figurează cu origine engleză sau franceză (rareori germană), provin de obicei din rădăcini grecești și latine (inclusiv cele care încă nu au intrat în dicționare, dar se folosesc în vorbirea curentă);

Niciun comentariu:

Etichete

Adevărul (10) adjectiv (3) Agerpres (8) Alexandru Graur (14) Antena 3 (10) articol sportiv (4) Auchan (8) B1 (3) barbarism (20) BBC (3) beție de cuvinte (7) clasificat (3) Constituția (3) cratimă (10) cum ne exprimăm corect (51) cum pronunțăm corect (19) cum scriem corect (44) cuvinte folosite greșit (256) cuvinte inventate (17) cuvinte încîlcite (4) cuvinte pocite (4) cuvinte rar folosite (3) cuvinte redescoperite (12) cuvinte scrise greșit (53) cuvinte străine (7) decît (4) DEX (17) dexonline (36) diacritice (9) Digi (23) Digi 24 (63) DOOM (6) DOOM2 (28) Emil Grădinescu (3) eroare semantică (6) erori DEX (3) erori DOOM (1) etimologie (43) Evaluarea Națională (7) Evenimentul zilei (17) false friends (10) fotbal (10) furculision (6) Gabriela Vrînceanu Firea Pandele (4) grad de comparație (3) gramatică (5) greșeli de scriere monumentale (4) HBO (7) hipercorectitudine (5) inconsecvențe DOOM2 (7) î din i (6) jurnaliști (101) Libertatea (9) lipsă de logică (12) Liviu Pop (3) mama ei de topică! (4) marketing (11) Ministerul Educației (6) monumente (3) muta cum liquida (9) noștrii (6) nume de persoane (7) ortografie (21) oximoron (11) Parlament (3) pațachină (1) pleonasm (31) plural (10) politician (7) presă (5) prim-ministru (7) programă (3) prostul nu e prost destul... (3) publicitate (12) Radu Paraschivescu (2) Realitatea TV (16) reforma ortografică (9) reporter (2) rimel (1) România Liberă (16) s-a răsturnat căruța cu proști (5) SRI (2) statistici (10) Stelian Tănase (2) texte juridice (3) top căutări (25) traducere (18) traduceri proaste (26) virgula (9) vroiam (1)