Forum du petit sténographe

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Dans la section sur les méthodes diverses, j’avais, sous la rubrique concernant le système Boyd, puis, par dérive, le système français Brouaye, renvoyé à des pages fournissant des données statistiques sur la fréquence d’usage (dans des corpus, en discours, donc des « tokens », plus que dans les dictionnaires, des « types ») des phonèmes et des syllabes du français.

Il s’agissait notamment de renvois vers le riche site lexique.org.

Mais je découvre que mes liens sont morts, car le site en question est en voie de refonte complète en mars 2019.
http://www.lexique.org

En attendant de pouvoir remettre la main sur les listes de fréquences ainsi disparues, voici où on peut se rendre.

Fréquence des phonèmes français en discours (données de Wioland), et liste des syllabes les plus fréquentes.
http://phonetiquedufle.canalblog.com/archives/2013/05/03/27067373.html

Voir aussi :
http://asl.univ-montp3.fr/e58fle/frequencesdistributionphonemes.pdf

Fréquence en discours de phonèmes et de graphèmes en français :
https://gerardpinton-ecrivainpublic.fr/J'apprends_a_lire_et_a_ecrire_la_langue_francaise-Gerard_Pinton-Phonemes_et_graphemes_du_francais.pdf

Fréquence des phonèmes du français selon leur position dans la syllabe :
http://theses.univ-lyon2.fr/documents/getpart.php?id=lyon2.2007.dossantos_c&part=131110

Les graphèmes de base de l’orthographe française :
https://hal-univ-tlse2.archives-ouvertes.fr/hal-00961511/document

Les 1500 mots les plus fréquents en français écrit selon Brunet :
http://eduscol.education.fr/cid47916/liste-des-mots-classee-par-frequence-decroissante.html

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Fréquence des lettres, bigrammes et trigrammes :

http://www.nymphomath.ch/crypto/stat/francais.html

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Schémas syllabiques du français

https://blogs.umass.edu/moiry/files/2014/01/GPF-Ch41.pdf

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Fréquence des lettres dans Wikipédia en français

https://fr.m.wikipedia.org/wiki/Fréquence_d%27apparition_des_lettres_en_français

lepetitstenographe · Posté le: Lun 08 Avr 2019 4:06 pm Sujet du message:

Contrairement à FaceBook, dans le forum, il n'y a pas de "j'aime", alors un immense "J'AIME" pour toutes ces contributions si intéressantes !
_________________
http://perso.wanadoo.fr/lepetitstenographe
https://www.facebook.com/groups/170961071494/
http://www.facebook.com/yvon.bourles

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Je recopie ici une partie d’un message que j’ai envoyé sous le fil consacré à la Méthode de Brouaye (1848).

La notation du français par l’écrit selon notre orthographe est nettement plus prolixe qu’une notation de type phonologique (par exemple avec l’Alphabet phonétique international, API / IPA, ou tout autre convention équivalente). En moyenne, quand vous notez un fragment de propos oral long d’une suite de 100 phonèmes, il faut écrire pas moins de 132 lettres dans notre système d’écriture.

Ceci veut donc dire que, quand vous transcrivez du français oral en vous basant sur la représentation phonologique, et non pas sur la représentation graphémique, vous gagnez 24 % dans le nombre des signes sur la ligne. Pour le français en tout cas, si vous considérez les segments (phonèmes et graphèmes), il est donc nettement plus économique d’utiliser une tachygraphie à base phonologique qu’à base graphémique.

Puisque l’occasion se présente de le dire, il faut bien avoir conscience de la complexité nettement plus grande des représentations orthographiques du français par rapport aux représentations phonologiques.

Phonologiquement, nous avons un français standard avec 36, 37 ou 38 phonèmes différents. En procédant à des regroupements par archiphonèmes, on descend un peu, à 31 unités phoniques essentielles (Nina Catach).

Qu’en est-il pour la graphie ? Sa complexité est très nettement sous-estimée par pratiquement tout le monde, à cause de ce qu’on pourrait appeler l’illusion alphabétique. Non, nous n’écrivons *pas* le français avec « les 26 lettres de l’alphabet » (niveau 1), mais, en considérant des signes typographiques éventuellement munis de diacritiques (niveau 2), et même enfin avec des graphèmes (niveau 3). Donc là, ça se corse carrément.

Nous avons certes 26 lettres sans diacritiques, mais en fait 44 signes typographiques en tout, une fois pris en compte les diacritiques (accents, cédille...), et cela sans tenir compte du dédoublement par les majuscules. Selon l’analyse classique de Nina Catach (voir son excellent vieux Que Sais-Je? sur l’orthographe, et voir ci-dessous), l’écriture orthographique du français nécessite pas moins de 133 (ortho-)graphèmes, dont 70 de base (si on met de côté des unités peu courantes).

Nina Catach résume ses observations ici :
https://www.persee.fr/doc/lfr_0023-8368_1973_num_20_1_5652

Donc comparons : 31 unités phoniques de base contre 70 unités graphiques de base. C’est spectaculaire.

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Mots usuels du français, annexe 2 dans :

Petruszewycz
L’histoire de la loi d’Estoup-Zipf
article de 1973

http://www.numdam.org/article/MSH_1973__44__41_0.pdf

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Les syllabes les plus fréquentes du français parlé à Montréal.

Table V, de16/29 à 29/29 dans Goodenough-Trepagnier et Frankston, 1968.

Ici :
https://www.erudit.org/fr/revues/cl/1978-n7-cl3101/800052ar.pdf

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Je recopie un extrait de mon vieux post de 2011 dans la rubrique Sténographie et vitesse d’élocution dans les langues.

Comme on peut s'y attendre, les langues varient quant au nombre de syllabes différentes qu'on peut y trouver. Mais on va voir que la disparité peut être vraiment énorme, puisque l'anglais offre 19 fois plus de syllabes différentes que le japonais. La richesse en syllabes différentes dépend du nombre de phonèmes consonantiques et vocaliques de la langue, et des règles combinatoires de construction des syllabes (phonotactique).

Nombre de syllabes différentes pour chaque langue
anglais : 7931
français : 5646
allemand : 4207
italien : 2719
espagnol : 1593
mandarin : 1191
japonais : 416

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Je recopie encore un autre passage d’un vieux post dans la rubrique Sténographie et vitesse d’élocution dans les langues.

Source : article de Pellegrino, Coupé & Marsico, 2011

Complexité syllabique moyenne (en discours, tokens, occurrences) en nombre de phonèmes par syllabe

mandarin : 3,58 [tenant compte du ton]
allemand : 2,68
anglais : 2,48
espagnol : 2,40
italien : 2,30
français : 2,21
japonais : 1,93

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Retour sur les travaux de Nina Catach

Note importante : les unités directement pertinentes pour l’analyse de l’orthographe du français sont les graphèmes, et non pas les lettres de l’alphabet. Il en va de même pour l’anglais, comme autre exemple.

26 lettres sans diacritiques
44 signes typographiques en tout une fois pris en compte les diacritiques, mais sans tenir compte des majuscules

133 graphèmes, dont 70 de base (Catach)
36, 37 ou 38 phonèmes
31 unités phoniques essentielles
(archi de Catach)

https://www.persee.fr/doc/lfr_0023-8368_1973_num_20_1_5652

Les graphèmes de Catach :
http://j-marc.muller.pagesperso-orange.fr/10-11_UE11_catach.htm
http://bbouillon.free.fr/univ/ling/fichiers/orth/ortho.htm
Et ensuite :
https://hal-univ-tlse2.archives-ouvertes.fr/hal-00961511/document

Tableau de fréquence des graphèmes de base et archigraphèmes (Nina Catach)
http://www.ac-grenoble.fr/ien.bourgoin2/IMG/pdf/Nina_Catach_-_Graphemes.pdf

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Distribution des longueurs des mots écrits en nombre de caractères, langue par langue :

http://www.ravi.io/language-word-lengths

Exemples (longueur moyenne) :

allemand 11,66
français 10,09
espagnol 8,80
anglais 8,23

Attention : il s’agit de calculs sur des listes lexicales, sur les « mots du dictionnaire » (types en anglais), et non pas sur les occurrences dans les corpus de discours (tokens en anglais), ce qui réduit quelque peu l’utilité de ces données quant aux enseignements qu’on peut en tirer par exemple pour la structure des systèmes tachygraphiques.

Dans ce genre de statistiques, on le voit, « le » et « anticonstitutionnellement » se trouvent avoir le même poids...

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Note. Dans ce qui suit, « lemma » (lemme en français) désigne un « mot du dictionnaire ». Les diverses formes conjuguées d’un verbe, par exemple, ne comptent que pour un dans le décompte du nombre de lemmes.

Based on an analysis of the literature and a large scale crowdsourcing experiment, we estimate that an average 20-year-old native speaker of American English knows 42,000 lemmas and 4,200 non-transparent multiword expressions, derived from 11,100 word families. The numbers range from 27,000 lemmas for the lowest 5% to 52,000 for the highest 5%.

Between the ages of 20 and 60, the average person learns 6,000 extra lemmas or about one new lemma every 2 days.

The knowledge of the words can be as shallow as knowing that the word exists. In addition, people learn tens of thousands of inflected forms and proper nouns (names), which account for the substantially high numbers of ‘words known’ mentioned in other publications.

Frontiers | How Many Words Do We Know? Practical Estimates of Vocabulary Size Dependent on Word Definition, the Degree of Language Input and the Participant’s Age | Psychology

https://www.frontiersin.org/articles/10.3389/fpsyg.2016.01116/full

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

On dispose maintenant d’études sur la « densité du voisinage » lexical (neighbourhood density).

Si on considère un mot oral et sa structure comme suite de phonèmes, on peut chercher à le modifier en changeant un seul phonème et voir si ça donne un mot existant dans la langue. Plus le nombre de ces autres mots est grand, plus on dira que sa densité de voisinage est grande. Il a beaucoup de « voisins », c’est-à-dire de mots qui lui ressemblent à un phonème près.

On voit par exemple que « seul » a pour voisins : sale (verbe), sale (adjectif), salle, sol, sole, saule, sel, selle. Mais « gnôle » est seul de sa classe /ɲVl/ (sans parler des formes au pluriel et au féminin). On peut continuer avec d’autres substitutions : Sam, sac, Sade, sache, sage...

Cette perspective est évidemment intéressante pour un tachygraphie. Quand il entend un mot, il doit le distinguer de tous les mots de sa famille de proximité afin de le noter vite et sans erreur.

Or apparemment, du point de vue de la psychologie de la perception, la vitesse de reconnaissance d’un mot dépend du nombre de ses voisins en concurrence avec lui, ce qui est assez intuitif.

Comme indiqué ci-dessous, ce facteur se combine avec la fréquence des mots, ce qui, là encore, est intuitif. L’association de ces deux facteurs (sans préjuger d’autres) permet de donner une interprétation numérique au concept de degré de facilité de reconnaissance d’un mot entendu.

Il est vraisemblable que les bons sténographes du passé avaient plus ou moins conscience de ces faits, même s’ils ne les exprimaient pas nécessairement, ou ne les exprimaient pas d’une façon très claire.

« One factor that affects phoneme articulation is phonological neighborhood density. In the most commonly used metric, phonological neighborhood density refers to the number of words that differ from a target word by a single phoneme.

Monosyllabic words vary greatly in the density of the neighborhoods in which they reside. The word cat has a large number of phonological neighbors, including scat, at, coat, and cap. The word choice has relatively fewer neighbors, such as voice and chase.

Neighborhood density strongly influences spoken-word recognition. Luce and Pisoni (1998) reviewed studies showing that infrequently used words with dense phonological neighborhoods (henceforth lexically difficult words) are identified less rapidly and less accurately than are frequently used words with sparse neighborhoods (lexically easy words).

This effect can be termed lexical competition, as the perceptual difficulties associated with lexically difficult words are presumed to be due to the words in dense phonological neighborhoods competing with one another as potential responses in perceptual tasks.

These results have been used to argue for a model of the lexicon in which words are organized in terms of their phonological similarity ».

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4336539/

On s’est aussi intéressé à la densité de voisinage définie non plus sur des mots sonores, mais sur des mots écrits (donc en modifiant une lettre, et non plus un phonème), mais c’est moins intéressant pour la plupart des systèmes tachygraphiques, qui notent la parole et non l’écrit.

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

« In research on spoken language processing, neighborhood density refers to the number of words that sound similar to a given word: Words with many neighbors, or similar words, are said to have dense neighborhoods, whereas words with few neighbors are said to have sparse neighborhoods.

Several studies in English have demonstrated that neighborhood density influences various aspects of spoken language processing, including lexical acquisition (e.g., Storkel, 2002, 2004), speech production (e.g., Vitevitch, 1997, 2002b; Vitevitch & Sommers, 2003), and spoken word recognition (Luce & Pisoni, 1998; see also Vitevitch & Rodríguez, 2005, for a discussion of the influence of neighborhood density on spoken word recognition in Spanish).

[...]

Vitevitch (2002c) observed a similar processing disadvantage for words with dense neighborhoods in an analysis of a corpus containing speech perception errors, known as “slips of the ear,” that were collected via naturalistic observation.

An example of a slip of the ear is erroneously hearing the correctly produced question “What’s wrong with her bike?” as “What’s wrong with her back?” (Bond, 1999). In analyzing the misperceived words in Bond’s corpus, Vitevitch (2002c) found that slips of the ear tended to occur in words with dense phonological neighborhoods, further suggesting that multiple word forms are activated and compete during spoken word recognition ».

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2553701/