Forum du petit sténographe

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Le site de Lexique3 ne permet pas une détermination rapide des corpus utilisés.

Ce passage d’une thèse fournit rapidement les indications voulues :

« Ainsi, Lexique 3 est une base de données qui fournit, entre autres, pour 135.000 mots du français, leur représentation orthographique et phonémique, leur syllabation, catégorie grammaticale, genre, nombre et, finalement, leur fréquence d’utilisation en français contemporain.

Les fréquences indiquées dans cette base sont divisées en deux sous-ensembles en fonction de la provenance des mots. Ainsi, pour un mot donné, Lexique 3 fournit sa fréquence dans un ensemble de textes littéraires récents (romans) tirés du corpus Frantext ainsi que dans un corpus de sous-titres de films.

Un des avantages indéniables des fréquences données par le corpus de sous-titres de films pour l’analyse des données de Marilyn [le sujet dont l’évolution est etudiée] est le fait que ces fréquences rendent compte des fréquences de termes caractéristiques du langage parlé tels que ça, là, bonjour, oui, ou n on qui sont bien plus fréquents dans le corpus de sous-titres que dans le corpus de livres. Ce corpus contient les sous-titres de 2960 films ou saisons de séries représentant 16,6 millions de mots (occurrences) ».

Thèse de Christophe Dos Santos, Lyon, 2007, Développement phonologique en français langue maternelle.

http://theses.univ-lyon2.fr/documents/getpart.php?id=lyon2.2007.dossantos_c&part=131110

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Mise en garde pour la décomposition morphologique des mots dans Lexique3.

« -Morphologie Dérivationnelle (morphoder) Ce champ donne la décomposition en morphèmes dérivationnels d'un mot donné. Ainsi plumage est décomposé en plume-age. Ce champs est le résultat du programme Dérif (Namer, 2003; http://www.cnrtl.fr/outils/DeriF/).

Attention pour la version actuelle de ce programme de nombreux suffixes et préfixes étant encore non traités ou traités partiellement). Par exemple, abandonner n'est pas ségmenté comme abandon-er mais comme un monomorphémique (abandonner). Nous sommes donc vivement intéressés par toute contribution concernant ce champs.

-Nombre de morphèmes (dérivationnels) (nbmorph) C'est le nombre de morphèmes dérivationnels directement calculé à partir du champs précédent. »

Manuel, page 18

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Précisions supplémentaires sur le corpus de Lexique3 de New & Pallier.

Dans un article de 2001, les concepteurs présentaient ainsi le corpus de leur base lexicale.

« Afin de constituer la base initiale de mots, nous avons sélectionné dans la base Frantext tous les textes publiés entre 1950 et 2000 : cela représentait un corpus de 31 millions d’items.

Frantext est une base de données textuelles regroupant 3200 textes représentatifs du français des 19e et 20e siècle, développée par l' INAL-FNancy, devenu aujourd' hui l' ATILF et accessible à l'adresse:http://zeus.inalf.fr/frantext.htm.

Ces textes étaient essentiellement des romans, mais comprenaient également quelques recueils de poésie, des essais et des traités scientifiques ou techniques. Nous avons obtenu une liste de 246000 items distincts ainsi que leur fréquences.

Ces items comprenaient des symboles (dont la ponctuation), des
abréviations, des mots étrangers et des noms propres.

Pour nettoyer cette liste, nous avons employé le dictionnaire Francais-Gutenberg 1.02 (Pythoud, 1996) et le dictionnaire Le Grand Robert.

Le résultat de ce filtrage a produit une liste de 130000 items ayant des formes orthographiques distinctes ».

https://www.persee.fr/doc/psy_0003-5033_2001_num_101_3_1341

En 2001, la base comportait 130’000 formes, mais en 2019, c’est monté à 142’000.

Note : le corpus FRANTEXT est lié à l’élaboration du Trésor de la Langue Française (TLF), élaboré à Nancy, et qui est accessible gratuitement ici :

http://atilf.atilf.fr/dendien/scripts/tlfiv4/showps.exe?p=combi.htm;java=no;

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

La base canadienne SyllabO+ signalée ci-dessus est constituée à partir d’un corpus d’enregistrements de 184 Québecois, répartis en trois groupes d’âge, s’exprimant dans des registres standard ou familier (ça n’est pas des cours de droit à l’université...), les enregistrements datant de 2000-2014. Le tout fait 300’000 syllabes. Ensuite les enregistrements ont été transcrits et codés en API / IPA (Alphabet Phonétique International)

La base est interrogeable en ligne.
http://syllabo.speechneurolab.ca/

A titre d’exemple, j’ai demandé les « paires de phones », ce qui permet de sélectionner les groupes CC par ordre de fréquence décroissante. Je rappelle que ce sont des « tokens », des occurrences dans des discours (et non pas des fréquences de « types » dans un lexique).

Si je regarde les 6 premières pages sur 30, les groupes CC manifestement tautosyllabiques (ceux qu’on rencontre à l’intérieur d’une même syllabe) sont, par ordre de fréquence décroissante :

tr, pr, sk, st, pl, ks, ts, sp, kl, gr, vr, bl, kr, fr.

La suite /tr/ apparaît 5791 fois (0,698 % de toutes les paires), et la suite /fr/ apparaît 786 fois (0,095 % de toutes les paires). Ainsi /tr/ est attestée 7,4 fois plus que /fr/. [La suite la plus fréquente est /se/, 8989 occurrences, soit 1,08 % de tous les diphones].

Figurent aussi ces groupes CC, qui sont manifestement hétérosyllabiquss (à cheval sur deux syllabes, et même sur deux mots enchaînés) :

rs, rd, rt, rl, rm, rk, rp, dl, lm, kt, td, pt, tl, ld, ʒv, lk, tp, rʒ, ls, lp, sd, ms, ʃp, tk, lt, rv.

Si on est interloqué de trouver telle ou telle suite dans cette deuxième liste, on devra bien se souvenir qu’elle provient du codage de discours spontanés. Par exemple /ʒv/ apparaît dans « je vous », « je vois », « je vais ».

Pour ce qui est de la première liste, elle n’étonnera pas ceux qui s’intéressent à la sténographie ou aux écritures abrégées. On observe vite l’occurrence fréquente en français de : pr br tr dr kr gr pl bl kl gl. Tous les concepteurs attentifs n’ont pu manquer de voir ça dès le XVIIe siècle.

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Fréquence des mots française les plus courants (907) selon le Trésor de la langue française (TLF) :

https://is.muni.cz/el/1421/jaro2009/FJIA023a/um/mots_frequence.txt

Ce passage est tiré de Aino Niklas-Salminen, La Lexicologie.

Le corpus textuel du TLF pour les XIXe et XXe siècles (1789-1965) est constitué de 1002 œuvres *littéraires*. Il a donné plus de 70 millions d’occurrences (tokens).

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

A. Fossé, Cours théorique et pratique de sténographie, 1829, p. 153.

« Si deux consonnes sont séparées par un é, et que d'ailleurs elles ne soient point susceptibles de composer une consonne double [un groupe consonantique, consonant cluster], on peut aussi les lier (dmokri, tzé). Il est évident qu'entre le d et le m, entre le t et le z, il faut une voyelle ; en vertu de notre convention c'est un é, on lira donc : démocri, tézé. Reste à rétablir l'orthographe ».

La première édition d’Hippolyte Prévost est de 1828. Est-ce que Fossé en a eu connaissance et s’en est inspiré pour ce passage, ou bien est-ce une observation indépendante ? Toujours est-il que, par sa prise en compte des contraintes phonotactiques (chaînes de phonèmes permises dans une langue donnée), Fossé est sur la même longueur d’onde que Prévost avec ses incompatibilités, sur lesquelles Delaunay a insisté ensuite.

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Je recopie ce passage d’un assez long post que j’avais mis sur ce forum en 2011 (rubrique Présentations pédagogiques...).

En français, en anglais, etc., on a des groupes de consonnes dont le deuxième élément est une des consonnes dites "liquides" /l/ et /r/ : pr tr kr br dr gr fr vr, pl kl bl gl sl fl vl. Ces suites peuvent commencer ou terminer la syllabe : "trappe", "pâtre". C'est l'objet de différences de traitements selon les méthodes tachygraphiques, et c'est aussi l'objet de choix divers dans la manière d'enseigner.

En français, l'intuition nous dit que certains de ces groupes sont fréquents en discours, notamment en début des mots. Cette intuition est corroborée par des études précises. On trouvera les données dans la thèse d'Olivier Crouzet, Segmentation de la parole en mots et régularités phonotactiques, 2000, ch. 4. Voir la page 146, figure 24 (échelle logarithmique), portant sur des initiales biphonématiques sélectionnées, car, dommage, Crouzet a exclu nasales, liquides et semi-voyelles initiales ("monarque", "nostalgie", "loustic", "rogaton", "ouate", "yatagan", "huître"). Pour rendre la présentation plus accessible, j'ai calculé les pourcentages des classes par rapport au total des classes, que j'ai énumérées ci-dessous par fréquence décroissante, avec ajout de deux exemples pour chaque classe.

- occlusive + voyelle, "tente", "quadrillage" : 32,0 %
- fricative + voyelle, "sang", "féodalité" : 29,2 %

- occlusive + liquide, "crête", "plastique" : 21,8 %
- fricative + liquide, "vrai", "florissant" : 7,8 %

- fricative + occlusive, "sport", "stationner" : 2,5 %
- occlusive + fricative, "psychiatre", "xylophone" : 2,1 %
- fricative + nasale, "snob", "smoking" : 1,8 %
- occlusive + nasale, "gnome", "pneumonie" : 1,4 %
- fricative + fricative, "sphérique", "svelte" : 1,1 %
- occlusive + occlusive, "cténaire", "ptérodactyle" : 0,3 %

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Sur le point d’unicité phonologique (donnée dans Lexique3) et sur le voisinage phonologique, en relation avec les modèles sur la perception de la parole, voir l’article de Dufour, Peerman, Pallier, Radeau, de 2002. Il doit dater un peu mais est clair.

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Sur le mot moyen sténographique en nombre de syllabes (1, Cool

, voir mon post du 7 juin 2019 dans la rubrique Les professeurs de sténographie, l’enseignement, et ensuite.