vineri, 8 februarie 2013

Despre diacritice - partea I

   
    Nu este greu de observat că în lumea virtuală a internetului majoritatea o reprezintă cei care scriu (și citesc?!) fără diacritice, chiar dacă procentul acestora a mai scăzut ușor în ultimul timp. Dacă în comunicările informale (gen messenger, rețele sociale, eventual bloguri...) nu mi se pare a fi o problemă, în schimb, cînd este vorba de site-uri (în special de cele care se doresc profesioniste), lipsa diacriticelor este supărătoare și, în plus, oferă o notă de diletantism. Iar ca profesionist nu-ți dorești asocierea cu o atare imagine (zic eu...).

    Nu intenționez să lansez (acum) o polemică pe tema diacriticelor, dar cred că orice discuție pe tema diacriticelor trebuie să pornească de la date clare. Cum nu am descoperit absolut nici un articol relativ recent pe tema asta (aș fi recunoscător dacă îmi puteți recomanda unul), mi-am propus să fac eu ceva în această privință (probabil vor fi două sau trei articole similare, sper să nu vă plictisească!).

    Pentru început voi lua în calcul numai intrările din dicționare și, separat, formele flexionate ale acestora fără să consider și frecvențele cu care apar cuvintele în limba română, rămînînd ca în viitor să încerc același demers și pentru cazul real (estimînd frecvențele cuvintelor pe un corpus de texte). Evident, baza de date de la dexonline (din care am selectat numai dicționarele „oficiale”) este cea pe care o voi folosi (de altfel nu cunosc să existe altă bază de date disponibilă pentru limba română) și, chiar dacă aceasta este în continuă creștere, mă aștept ca modificarea acesteia să aibă efecte minore (oricum, în momentul în care voi reuși să găsesc sau să construiesc un corpus suficient de mare, voi reface statisticile).

Pentru început cîteva informații despre listele de cuvinte cu care vom lucra:
  • număr de cuvinte distincte: 135.886;
  • număr de forme distincte: 984.247;
  • semne diacritice folosite: pe lîngă cunoscute a avea diacritice  – circumflexul (ˆ) pentru â  și î, virgulița sub literă sau sedila (¸) pentru ș și ț și „căciulița” (˘) pentru ă – în limba română mai apar sporadic și alte semne (preluate ca atare din alte limbi): déjà‑vu, föhn, curaçao.

Cîteva întrebări se impun de la sine (iar răspunsul este la fel de simplu de aflat folosind cereri SQL elementare):

1. Cîte cuvinte au diacritice? R: 53.137

Asta înseamnă că avem 39,1% dintre intrările din dicționare au cel puțin un semn diacritic.

2. Cîte cuvinte (inclusiv formele flexionate) au diacritice? R: 413.352

La fel, vorbim de formele care au măcar un semn diacritic. Un calcul simplu ne duce la un procent ceva mai mare (42,0%), ceea ce era oarecum de așteptat (avînd în vedere alternanțele s/ș, t/ț de la pluralul substantivelor, în flexiunea verbelor cam jumătate din desinențe au diacritice; în schimb singura situație în care se „anulează” un semn diacritic este flexiunea substantivelor care au un singur semn diacritic și acela este ă-ul final).

    Cum mai sus am ales cele care au cel puțin un semn diacritic, e legitim să ne întrebăm și de cazurile în care avem mai multe semne diacritice pe cuvînt. Astfel:

3. Cîte diacritice avem în medie pe fiecare cuvînt? R: 77.183

Asta înseamnă în medie 0,57 diacritice pe cuvînt (și 1,45 diacritice pe cuvînt dacă vom căuta numai cuvintele care știm că au diacritice).

Dacă ne raportăm la numărul total de litere (1.159.793), vom obține valoarea 0,066, adică aproximativ un semn diacritic la 15 litere.

4. Cîte diacritice avem în medie pe fiecare formă flexionară? R: 612.111

Asta înseamnă că o formă flexionară are în medie 0,62 diacritice sau, dacă schimbăm referința, dacă vom căuta numai printre cele care au diacritice vom găsi 1,48 diacritice pe fiecare formă.

Dacă ne raportăm la numărul total de litere (10262468), vom obține valoarea 0,06, adică aproximativ un semn diacritic la 16 litere.

    Amatorii de statistici se întreabă probabil acum:

5. Care este cuvîntul care are cele mai multe diacritice? R: cămărășiță (6 diacritice)

6. Care sînt formele flexionate cu cele mai multe diacritice?

Sînt 4 forme flexionate care conțin 7 diacritice: încăpățâna(se)răți, însănătăți(se)răți. Nu întîmplător la perfect simplu și mai mult ca perfect, persoana a II-a plural (cu desinențe care au două diacritice)!


    În următorul articol pe tema asta voi analiza cazurile de coliziune. Cu alte cuvinte, cazurile în care scrierea fără diacritice dă naștere la ambiguități (paturi/pături, fata/fată/fâță/fâța/făta/fătă/față/fața etc.).




11 comentarii:

Andreea-C. spunea...

Felicitări pentru articol!

Este dificil să lansezi un website în limba română cu diacritice, mai ales când se pune baza pentru SEO.
Cine caută pe Google, spre exemplu, cu diacritice?
Eu mă pregătesc de BAC. Şi tot căutând materiale pe internet, nici pe site-ul oficial nu sunt toate cu diacritice. Este dificil de citit. Deşi ochiul este format pentru scrisul fără diacritice, doar suntem popor inteligent, sunt cazuri în care nu ştiu un anumit cuvânt şi trebuie căutat in DEX pentru a-l citi corect.
Oricum, aştept ziua când totul va fi cum trebuie. S-ar putea să nu o apuc, dar speranţa moare ultima. :))

Radu Borza spunea...

Din ce știu eu, SEO nu este chiar o problemă (Google știe diacritice, iar celelalte motoare de căutare practic nu contează): caută „stiri” pe google.ro și o să vezi că pe primul loc e Mediafax, care scrie cu diacritice.

Unknown spunea...

Am observat și eu ce spui tu legat de site-uri de știri care ignoră complet diacriticele sau le folosesc într-un mod învechit (î în loc de â la mijloc de cuvânt, de exemplu). Este trist, mai ales când astfel de site-uri sunt nume mari în televiziunea și presa din România. Din nefericire am observat și în ziare de top astfel de greșeli.

Dan spunea...

Să înțeleg că nimeni n-a citit articolul ăsta?

"Dacă în comunicările informale (gen messenger, rețele sociale, eventual bloguri...) nu mi se pare a fi o problemă, în schimb, cînd este vorba de site-uri (în special de cele care se doresc profesioniste), lipsa diacriticelor "...

Primul paragraf e neterminat.

Catalin Ap spunea...

Asta ar fi fost o scuză bună, dacă ne aflam prin anii 2000... acum (aproape) toată lumea poate vedea diacriticile (incluzându-le pe cele corecte, ș & ț cu virgulă, nu sedilă).

Google găsește și cuvinte fără diacritice, când se caută cu, și invers.

Acum, că mulți (dintre care destui din presă) nu au respectul cuvenit pentru limba română, este cu totul altceva... resurse sunt destule, fonturi cu diacritice corecte sunt, doar voința lipsește.

Scrisul fără diacritice este apanajul scrisului obișnuit, superficial, deprins și încurajat de mIRC, apoi messenger, hi5, facebook etc. În sms-uri poate fi scuzabil, deoarece nu toate telefoanele (iar existența diacriticelor cred că reduce oricum lungimea maximă a unui mesaj, din motive tehnice, ce țin de codificare), dar în alte părți, nu..

Ștefan Săftescu spunea...

Nu toate cuvintele apar la fel de des într-un text în limba română. Ar fi interesant de studiat frecvența diacriticelor pe un text (suficient de lung) în loc de un dicționar.

0sAND1s spunea...

Salut,

E interesant articolul.
Chiar ieri citeam despre diacritice și am găsit articolul ăsta: http://kitblog.com/2008/10/romanian_diacritic_marks.html . Deci adoptarea diacriticelor în mediul informatizat are probleme și din cauza greutății cu care s-a stabilit un standard.
Alta aspect interesant este că multe documente oficiale nu folosesc diacritice, sau folosesc formele greșite (ș sau ț cu sedilă în loc de virgulă), chiar și pentru nume și prenume.

Să sperăm ca problema asta va căpăta atenția cuvenită.

Valentin VALCIU spunea...

Google nu are nici o problemă în a indexa cuvintele cu diacritice și, în același timp, indexează și variantele lor fără diacritice. E ca și cum ai avea două variante ale aceleiași pagini, una cu diacritice și alta fără; la o căutare cu sau fără diacritice pagina va apărea în rezultate; poate va apărea în poziții diferite, nu știu, dar în mod sigur diacriticele nu sunt o piedică în calea SEO ci, mai degrabă, un plus.

Dacă în alte limbi (franceză, de exemplu) avem vocale a căror pronunție este modificată de prezența unui accent, în limba română literele "cu diacritice" reprezintă sunete diferite de cele "fără". Nici n-ar trebui să zicem "cu diacritice" sau "fără diacritice" deoarece a scrie "fără diacritice" înseamnă practic a înlocui unele litere cu altele cu care, întâmplător, seamănă.

Szemereczki Petru spunea...

Problema apare atunci când o pagină web nu are suport UTF-8, în loc să apară cuvântul fată apare fată sau alte caractere care înlocuiește litera ă.
Pe site-ul pe care stau eu de doi ani, cam jumătate din echipă folosesc diacriticele, iar din membrii acelei comunități mai puțin de 25% din 82267 de utilizatori folosesc diacritice.

Alexandra spunea...

Felicitari pentru acest articol, l-am citit cu mare placere. Ca specialist doresc sa fac totusi cateva constatari nu la continutul acestuia ci la exprimare: in primul paragraf exista o fraza neterminata la fel ca si in al doilea. As remarca si utilizarea sintagmei "tema asta" de trei ori in cadrul unui singur paragraf si o abundenta de paranteze care merita sa fie deschise iar continutul acestora plasat intre virgule.
Consider ca orice discutie pe teme legate de dictionar si exprimare trebuie sa se faca in prezenta unei frazeologii corespunzatoare.

Va cer scuze tuturor pentru lipsa diacriticelor din prezentul text.

Radu Borza spunea...

@Alexandra: Mersi pentru observații. Am corectat exprimarea.

@Ștefan: Urmează să fac și o analiză de genul acela (dacă nu mi-o ia înainte altcineva, sigur). Cum nu am competențe să creez de capul meu un corpus, o să mă mulțumesc cu o nișă (fie o revistă gen România Literară, fie pe autori clasici).
Mi-ar plăcea să fac și comparația cu limba franceză!

Etichete

Adevărul (8) adjectiv (3) Agerpres (3) Alexandru Graur (12) Antena 3 (4) articol sportiv (3) Auchan (6) â din a (6) B1 (3) barbarism (18) BBC (3) beție de cuvinte (4) clasificat (3) Constituția (2) cratimă (4) cum ne exprimăm corect (43) cum pronunțăm corect (12) cum scriem corect (32) cuvinte folosite greșit (126) cuvinte inventate (7) cuvinte încîlcite (3) cuvinte pocite (4) cuvinte rar folosite (3) cuvinte redescoperite (9) cuvinte scrise greșit (23) cuvinte străine (6) decît (3) DEX (8) dexonline (26) diacritice (6) Digi (6) Digi 24 (7) DOOM (3) DOOM2 (11) Emil Grădinescu (3) eroare semantică (3) erori DEX (2) erori DOOM (1) etimologie (21) Evaluarea Națională (4) Evenimentul zilei (12) false friends (5) fotbal (6) furculision (4) Gabriela Vrînceanu Firea Pandele (3) grad de comparație (3) gramatică (3) greșeli de scriere monumentale (3) HBO (3) hipercorectitudine (4) inconsecvențe DOOM2 (2) î din i (3) jurnaliști (15) Libertatea (3) lipsă de logică (10) Liviu Pop (3) mama ei de topică! (3) marketing (8) Ministerul Educației (4) monumente (3) muta cum liquida (5) noștrii (4) nume de persoane (6) ortografie (14) oximoron (7) Parlament (3) pațachină (1) pleonasm (13) plural (3) politician (4) presă (3) prim-ministru (2) programă (3) prostul nu e prost destul... (1) publicitate (11) Radu Paraschivescu (1) Realitatea TV (14) reforma ortografică (4) reporter (2) rimel (1) România Liberă (16) s-a răsturnat căruța cu proști (5) SRI (2) statistici (6) Stelian Tănase (1) texte juridice (3) top căutări (16) traducere (13) traduceri proaste (6) virgula (7) vroiam (1)