vineri, 16 iunie 2017

De unde provin cuvintele românești?

Stimulat de o discuție cu profesorul Emil Ionescu în cadrul seminarului Limba română în era globalizării (înregistrarea completă poate fi găsită aici), am purces la sistematizarea unor cercetări mai vechi de-ale mele în care pur și simplu făceam un exercițiu simplu de clasificare (automată) a cuvintelor din DEX (2009) după etimologia indicată de autori.
Cum ne puteam aștepta, etimologiile nu sînt clar definite de DEX (acesta fiind un dicționar explicativ), uneori apar mai multe surse, alteori se oferă numai corespondențe cu alte limbi („cf.”). Totuși, rezultatele trebuie să fie corecte măcar ca ordin de mărime!

Limba de origine Număr de cuvinteProcent
dezvoltare în limba română 28659 42.85%
franceză, 21076 31.51%
franceză, latină, 3780 5.65%
latină, 2266 3.39%
etimologie necunoscută, 1159 1.73%
slavonă, 1084 1.62%
germană, 1001 1.50%
engleză, 967 1.45%
turcă, 949 1.42%
italiană, 645 0.96%
franceză, germană, 582 0.87%
engleză, franceză, 577 0.86%
bulgară, 548 0.82%
neogreacă, 544 0.81%
maghiară, 449 0.67%
franceză, italiană, 440 0.66%
rusă, 366 0.55%
ucraineană, 240 0.36%
italiană, latină, 137 0.20%
franceză, italiană, latină, 124 0.19%
franceză, rusă, 100 0.15%
franceză, germană, latină, 85 0.13%
albaneză, 79 0.12%
franceză, germană, italiană, 59 0.09%
germană, latină, 57 0.09%
franceză, neogreacă, 53 0.08%
rusă, ucraineană, 51 0.08%
germană, italiană, 51 0.08%
spaniolă, 45 0.07%
germană, rusă, 37 0.06%
țigănească, 33 0.05%
altele 635 0.95%
TOTAL 66878 100.00%

Dacă luăm limbile separat (evident, în cazul acesta suma procentelor va fi mai mare de 100% pentru că unele cuvinte corespund mai multor limbi) „clasamentul” devine:
Limba de origine Număr de cuvinteProcent
dezvoltare în limba română 28659 42.85%
franceză 27721 41.45%
latină 11131 16.64%
germană 2972 4.44%
italiană 2387 3.57%
engleză 1638 2.45%
slavonă 1229 1.84%
turcă 1116 1.67%
neogreacă 998 1.49%
rusă 979 1.46%
bulgară 681 1.02%
maghiară 523 0.78%
ucraineană 432 0.65%
spaniolă 127 0.19%
albaneză 95 0.14%
țigănească 37 0.06%
greacă (veche) 34 0.05%
portugheză 23 0.03%
latină (populară) 20 0.03%
altele 28 0.04%

Trebuie făcute măcar trei observații:
  1. este vorba de cuvintele care au reușit să pătrundă în DEX (suspectez că există cel puțin o mie de cuvinte împrumutate din engleză care nu apar în dicționare);
  2. este vorba doar de cuvinte diferite, care apar în dicționare, nu am luat în calcul frecvența cuvintelor: astfel și sau în apar cu aceeași pondere precum sternocleidomastoidian (există mai multe analize de acest tip mai vechi, dar înainte de puternica influență a limbi engleze de acum, vezi aici);
  3.  cuvintele tehnice, deși figurează cu origine engleză sau franceză (rareori germană), provin de obicei din rădăcini grecești și latine (inclusiv cele care încă nu au intrat în dicționare, dar se folosesc în vorbirea curentă);

Niciun comentariu:

Etichete

Adevărul (10) Agerpres (8) Alexandru Graur (14) Antena 3 (10) Auchan (8) B1 (3) BBC (3) Constituția (3) DEX (17) DOOM (6) DOOM2 (28) Digi (23) Digi 24 (64) Emil Grădinescu (3) Evaluarea Națională (7) Evenimentul zilei (17) Gabriela Vrînceanu Firea Pandele (4) HBO (7) Libertatea (9) Liviu Pop (3) Ministerul Educației (6) Parlament (3) Radu Paraschivescu (2) Realitatea TV (16) România Liberă (16) SRI (2) Stelian Tănase (2) adjectiv (3) articol sportiv (4) barbarism (20) beție de cuvinte (7) clasificat (3) cratimă (10) cum ne exprimăm corect (51) cum pronunțăm corect (19) cum scriem corect (44) cuvinte folosite greșit (256) cuvinte inventate (17) cuvinte pocite (4) cuvinte rar folosite (3) cuvinte redescoperite (12) cuvinte scrise greșit (53) cuvinte străine (7) cuvinte încîlcite (4) decît (4) dexonline (36) diacritice (9) eroare semantică (6) erori DEX (3) erori DOOM (1) etimologie (44) false friends (10) fotbal (10) furculision (6) grad de comparație (3) gramatică (5) greșeli de scriere monumentale (4) hipercorectitudine (5) inconsecvențe DOOM2 (7) jurnaliști (101) lipsă de logică (12) mama ei de topică! (4) marketing (11) monumente (3) muta cum liquida (9) noștrii (6) nume de persoane (7) ortografie (21) oximoron (11) pațachină (1) pleonasm (32) plural (10) politician (7) presă (5) prim-ministru (7) programă (3) prostul nu e prost destul... (3) publicitate (12) reforma ortografică (9) reporter (2) rimel (1) s-a răsturnat căruța cu proști (5) statistici (10) texte juridice (3) top căutări (25) traducere (18) traduceri proaste (26) virgula (9) vroiam (1) î din i (6)