Forum du petit sténographe

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Pour compléter les brèves indications ci-dessus, il faut ajouter que, outre la densité de voisinage phonologique (et la densité de voisinage écrite), il y aussi la densité de voisinage sémantique.

C’est un sujet évidemment beaucoup plus difficile à explorer que les voisinages sonores et écrits. Voici le résumé d’un article très récent de Reilly & Desai (2017).
Cognition. 2017 Dec;169:46-53. doi: 10.1016/j.cognition.2017.08.004. Epub 2017 Aug 14.
Effects of semantic neighborhood density in abstract and concrete words.

Reilly M, Desai RH
Author information

Abstract
Concrete and abstract words are thought to differ along several psycholinguistic variables, such as frequency and emotional content. Here, we consider another variable, semantic neighborhood density, which has received much less attention, likely because semantic neighborhoods of abstract words are difficult to measure.

Using a corpus-based method that creates representations of words that emphasize featural information, the current investigation explores the relationship between neighborhood density and concreteness in a large set of English nouns.

Two important observations emerge. First, semantic neighborhood density is higher for concrete than for abstract words, even when other variables are accounted for, especially for smaller neighborhood sizes.

Second, the effects of semantic neighborhood density on behavior are different for concrete and abstract words.

Lexical decision reaction times are fastest for words with sparse neighborhoods; however, this effect is stronger for concrete words than for abstract words.

These results suggest that semantic neighborhood density plays a role in the cognitive and psycholinguistic differences between concrete and abstract words, and should be taken into account in studies involving lexical semantics. Furthermore, the pattern of results with the current feature-based neighborhood measure is very different from that with associatively defined neighborhoods, suggesting that these two methods should be treated as separate measures rather than two interchangeable measures of semantic neighborhoods.
Copyright © 2017 Elsevier B.V. All rights reserved.[/list]

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Un raffinement pour les obsédés des statistiques lexicales.

Voici une distribution des longueurs phonologiques des mots (donc en nombre de phonèmes) pour l’anglais, le français, l’allemand, l’espagnol, le néerlandais.

https://journals.plos.org/plosone/article/figure?id=10.1371/journal.pone.0043230.g008

C’est tiré de ce long article de Marian & aloi, 2012 :
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0043230

Ce qui est curieux, c’est la divergence ou non, parfois inattendue, pour ce qui est des modes des distributions. L’anglais et le français ont le même mode (mais pas la même moyenne, le mot moyen anglais étant plus court que le mot moyen français). Le néerlandais a un mode nettement plus élevé que les deux langues précédentes.

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

On est souvent admiratif du savoir linguistique spontané des créateurs de sténographie. C’est un élément, avec d’autres, de la panoplie nécessaire pour concevoir un bon système, mais c’est un élément non négligeable.

Comme en passant, Hippolyte Prévost découvre l’usage qu’on peut faire de ce qu’il appelle « incompatibilité » (plus précisément ici la catégorie qu’Antoine Delaunay appelle ensuite « incompatibilité matérielle ». Dans son manuel, il note ça sans lui faire le sort qu’il mérite (Delaunay n’a pas tort de dire que Prévost n’a pas toujours conscience de son talent, à moins que ce soit une modestie bonhomme).

« Essayez cette lecture, elle est matériellement impossible sr si. Vous n'arriverez à aucune articulation perceptible, au moins dans notre langue.

Prévost a eu l'idée, incontestablement très-ingénieuse, de profiter de cette circonstance pour sous-entendre, entre les deux signes dont le rapprochement est incompatible, une consonne qui fera cesser l'incompatibilité et qui, par conséquent, permettra la lecture du sténogramme ».
(Delaunay, Cours de sténographie, 1884, vues 133-134 sur la numérisation Google Books).

C’est une merveilleuse percée technique, qui prend en compte ce que les phonéticiens appellent aujourd’hui les contraintes phonotactiques, c’est-à-dire les règles quî indiquent quelles séquences de phonèmes sont permises ou pas dans telle langue.

Les exemples donnés par Delaunay concernent les suites /sr/ et /sl/. Je ne suis pas sûr que Delaunay ait raison d’interdire /sl/ en français (slave, récemment slalom), mais peu importe.

Il a raison d’observer qu’aucun mot français ne comporte la séquence /sr/ (Sri Lanka, apparu depuis, est totalement exotique). Dans ces conditions, si on écrit à la suite les signes pour /s/ et /r/ (sans possibilité de voyelle intermédiaire), c’est que nécessairement une autre consonne doit être inférée. On a ici plusieurs possibilités, à vrai dire : sprint, palestre, escrime. Mais le principe est là, dans son ingéniosité.

Les systèmes tachygraphiques fourmillent de telles beautés.

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

La base de données Lexique est en train d’être rajeunie.

http://www.lexique.org/

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Dictionnaire de fréquence des mots français (5000 mots)

http://ekladata.com/6FxXu86fl5mQwo7lEyDS5hG9NTc.pdf

Liste par fréquence décroissante, puis liste alphabétique.

À partir de la page 576, regroupement selon les parties du discours. On peut par exemple savoir la fréquence relative des prépositions.

lepetitstenographe · Posté le: Jeu 16 Mai 2019 10:34 am Sujet du message:

Merci pour toutes ces sources passionnantes !
_________________
http://perso.wanadoo.fr/lepetitstenographe
https://www.facebook.com/groups/170961071494/
http://www.facebook.com/yvon.bourles

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Liste de 640 homophones français.

Ils ont été extraits d’un dictionnaire de plus de 35000 entrées. Pas de noms propres. Les verbes sont représentés à l'infinitif, donc les formes conjuguées ne sont pas incluses dans la liste.

Chose intéressante, au lieu de se réduire à une simple énumération sèche, la liste comporte une indication de la fréquence, sous la forme du nombre d’occurrences rapporté à un corpus de 100 millions (colonne 4). Les mots sont accompagnés d’une transcription phonologique en Alphabet Phonétique International.

https://www.persee.fr/doc/psy_0003-5033_1999_num_99_4_28503

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

On trouve ici la fréquence des « mots » français (non lemmatisés, donc, entre autres, chaque forme flexionnelle d’un verbe est répertoriée pour elle-même) :

https://fr.m.wiktionary.org/wiki/Wiktionnaire:10000-wp-fr

Attention, il s’agit du corpus constitué par les entrées de Wikipedia en français en 2005.

La fréquence des mots à contenu étant sensible au domaine, on ne s’étonnera pas de trouver parmi les 1000 items le plus fréquents des choses comme : habitants, canton, commune, département, système.

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Le site dcode, conçu au départ pour les amateurs de jeux de lettres, est intéressant pour des recherches lexicales sur le français, dans la perspective de constitution de listes de mots conformes à certaines spécifications. Voici l’accès à la page concernée.

https://www.dcode.fr/recherche-mot-regexp

On doit taper dans la fenêtre une « expression régulière » comprenant les symboles voulus selon une syntaxe précise.

Prenons un exemple. Je suis concepteur d’une méthode tachygraphique et je souhaite créer un tachygramme pour le mot « important ». Supposons que je ne considère pas le mot pris comme un bloc afin de créer un logogramme (symbole unique spécifique du mot), mais que, au contraire, je veuille produire une abréviation à partir du tachygramme complet du mot. Par exemple j’envisage de conserver uniquement le début du mot, ou bien encore le début et la fin, mais en coupant une partie du milieu.

Supposons que je veuille garder « imp » du début et « ant » de la fin (les symboles des phonèmes /ɛ̃p/, puis /ɑ̃/).

Dans cette seconde perspective, je risque de créer une abréviation ambiguë si d’autres mots assez courants présentent le même début et la même fin. Je voudrais me former une idée précise de la classe de tous les mots présentant cette structure, afin de connaître les concurrents du mot « important », et d’évaluer les risques de confusion à la lecture.

Je vais taper cette chaîne de caractères :
^imp.*ant$

^ est le symbole du début de chaîne de caractères, et $ le symbole de fin.
Le point . est le symbole pour n’importe quel caractère, ici une lettre quelconque. L’astérisque * indique que . peut être répété autant de fois qu’on veut, 0, 1, 2... fois. Donc la séquence .* signifie : un nombre quelconque de lettres. [Je pourrais contraindre aussi les mots à avoir un nombre de syllabes spécifié].

Si j’appuie sur la touche Rechercher les mots, je vois apparaître à gauche la liste voulue, en l’occurrence une liste de 10 mots. Savoir :

IMPLANT
IMPLANTANT
IMPLIQUANT
IMPLORANT
IMPORTANT
IMPOSANT
IMPRESSIONNANT
IMPREVOYANT
IMPRIMANT
IMPUISSANT

Notice sur la construction des expressions régulières :
http://www.expreg.com/symbole.php

Aussi :
https://fr.m.wikipedia.org/wiki/Expression_régulière

Aussi (en anglais) :
https://carlalexander.ca/beginners-guide-regular-expressions/

Autre exemple. Tous les mots commençant par le préfixe « anti- » et finissant par le suffixe « -ique ».
Je tape :
^anti.*ique$

J’obtiens :

ANTIBIOTIQUE
ANTIDIPHTERIQUE
ANTIDYNASTIQUE
ANTIFONGIQUE
ANTINOMIQUE
ANTIPANIQUE
ANTIPATHIQUE
ANTIPATRIOTIQUE
ANTIPHILOSOPHIQUE
ANTISCIENTIFIQUE
ANTISCORBUTIQUE
ANTISEPTIQUE
ANTISPASMODIQUE

Autre exemple. Je veux tous les mots contenant à l’intérieur la suite « fect ». Je demande :
^.*fect.*$

J’obtiens alors la liste des 113 mots conformes.

Je n’ai pas pu déterminer la nature du dictionnaire interrogé, mais il est assez riche pour contenir des mots comme « abaca », « acribie », « anthracologue » et « zython ».

Note sur ce qu’il faut entendre par mot. Le lexique assemble des formes fléchies non regroupées par lemmes. Donc singuliers et pluriels séparés, formes conjuguées des verbes. Par ailleurs le logiciel n’accepte pas les diacritiques, donc « être » est sans circonflexe, etc.

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Vous pouvez effectuer les mêmes interrogations sur de l’anglais.

https://www.dcode.fr/word-search-regexp

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

On peut aussi utiliser cette page si on répugne aux expressions régulières :

https://www.dcode.fr/recherche-mot

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

SyllabO+ est une base de données sur un corpus de français québécois, qui permet d’avoir des informations sur les « phones » (speech sounds) et sur les syllabes.

Les phones, ou réalisations phonétiques, sont, peut-on dire, des sons bruts avant d’être regroupés en phonèmes, c’est-à-dire en entités permettant de distinguer les mots entre eux. Par exemple, en français, le phonème /r/ présente 3 sortes de réalisations phonétiques (phones), considérées comme des variantes d’un seul phonème : un son raclé au fond de la bouche, un son roulé au fond de la bouche, un son roulé à l’avant de la bouche (en termes impressionnistes) ; l’Alphabet Phonétique International permet de noter finement ces variantes ou d’autres.

Évidemment, ce qui importe au sténographe, ce sont les phonèmes.

https://speechneurolab.ca/fr/syllabo

Données dzns des tableaux figurant dans un mémoire de Pascale Bédard, 2016, aux pages 50-57 (vues) ici :

https://corpus.ulaval.ca/jspui/bitstream/20.500.11794/26947/1/32729.pdf

Voir aussi ce document.
https://link.springer.com/article/10.3758/s13428-016-0829-7

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Chetail & Mathey, présentation du corpus InfoSyll, 2009

https://dipot.ulb.ac.be/dspace/bitstream/2013/67408/1/ChetailMathey_JPRsp.pdf

Voir à la page 13 les deux histogrammes présentant la distribution des types de syllabes en français : syllabes orthographiques et syllabes phonologiques (ce sont ces dernières qui intéressent la plupart des tachygraphes, CV, CVC, V, CCV, etc.).

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Marc Hug a publié un article concernant la loi de Menzerath, à partir d’une étude d’un ensemble d’articles en français pris dans le journal Le Monde, publiés autour de 2000.

Ses conclusions :

« - à l'intérieur d'un même texte, la loi de Menzerath semble bien s'appliquer en ce sens que les phrases longues ont généralement des mots de longueur moyenne plus faible que les phrases courtes ;
- d'un texte à l'autre, au contraire, le type variable de texte (ce que j'ai interprété comme le degré de technicité du texte) aboutit au résultat contraire : les textes qui ont des phrases relativement longues usent aussi d'un vocabulaire composé en moyenne d'unités plus longues ».

http://lexicometrica.univ-paris3.fr/article/numero5/lexicometrica-hug.pdf

Par ailleurs, Hug indique que, dans son corpus journalistique du Monde, en moyenne,
(1) une phrase (voir la définition dans l’article) comporte 19,50 mots ;
(2) un mot oralisé comporte 3,55 phonèmes ;
(3) un mot écrit comporte 4,77 lettres.

mttiro · Inscrit le: 27 Sep 2011 Messages: 969

Utilisation de Lexique3, base lexicale du français, version révisée 2019.

Cette base admirable, mise sur pied par Boris New et Christophe Pallier, comporte 142’000 formes (voir plus loin).

Attention. Malgré sa richesse, la base Lexique3, si elle liste « couic » ou « couillon », ne connaît pas « acribie », « bétyle », « conchyliologie », « enthymème », « herméneute », « zython / zythum », tous certes termes très rares, mais qui permettent de tester un dictionnaire.

Page d’accueil de Lexique :
http://www.lexique.org

Notice rapide :
http://www.lexique.org/?page_id=166

Le manuel qui décrit de façon détaillée la base Lexique est ici :
http://lexique.org/_documentation/Manuel_Lexique.3.pdf

Séparément, le tableau du codage des phonèmes est ici (il peut être pratique de l’imprimer pour l’avoir sous les yeux) :
http://www.lexique.org/?page_id=286

Observer que le « e muet » (e mobile) est noté °. En effet on peut dire /rəgarde/ ou /rgarde/ pour « regardez ».

La notice sur les conventions d’interrogation par expressions régulières (regex) est ici :
http://www.lexique.org/?page_id=101

L’accès direct à la base est ici :
http://www.lexique.org/shiny/lexique/

Ou alors ici (voir observation plus loin) :
http://www.lexique.org/shiny/openlexicon/

Il importe de saisir que la base enregistre des formes, et donc séparément singulier et pluriel, masculin et féminin, et toutes les formes conjuguées des verbes attestées dans le corpus. Mais une colonne indique le regroupement de ces formes sous le lemme voulu, par exemple le verbe à l’infinitif, selon la convention standard des lexicographes français.

On voit apparaître par défaut à l’horizontale 10 colonnes, chacune pour une propriété (ou critère), et, à la verticale, un affichage de 20 entrées par page. Mais on peut totalement personnaliser cette présentation si on le souhaite. Dans ce cas, pour les colonnes de critères, cocher et décocher les critères voulus sur la gauche. Pour le nombre d’entrées affichées, indiquer ce qu’on veut dans la fenêtre en haut à gauche.

On peut avoir les fréquences des lemmes selon les corpus (films, livres). J’insiste sur le fait qu’il s’agir de corpus discursifs. Trop souvent en effet, les données présentées sur Internet concernent les lexiques, les dictionnaires. Les fréquences annoncées touchent donc des « types », comme on dit en anglais, et non pas des occurrences en discours, des « tokens ». Certaines publications hâtivement rédigées négligent même d’indiquer si on a à faire à des types ou à des tokens. Il va de soi que, pour un tachygraphe, ce qui compte le plus, c’est, par exemple, la fréquence des phonèmes, des syllabes en discours, plutôt que, disons, dans le Petit Larousse. Le tachygraphe ne note pas des listes lexicales, mais ce qu’il entend au fil de la parole, ou ce qu’il lit (et convertit intérieurement en sons) quand il utilise la tachygraphie pour prendre des notes de lecture sous une forme économique, ou noter des « idées » qui viennent à l’esprit.

Le corpus des livres de Lexique3 a l’avantage d’être très fourni, puisqu’il comprend 14,7 millions d’occurences de formes. Dans la perspective phonologique, le corpus livres a été, sauf erreur, automatiquement converti en représentations phonologiques standardisées.

On peut avoir pour chaque item le nombre d’homophones, d’homographes, le nombre de « voisins » phonologiques.

Une donnée intéressante pour un psychologue ou pour un tachygraphe est le « point d’unicité phonologique » (puphon), déterminé sur la base des lemmes. « Le point d’unicité phonologique correspond au rang du phonème en partant de la gauche à partir duquel le mot peut être identifié sans ambiguïté ». Ceci permet au tachygraphe de savoir à partir de quelle avancée dans la notation du mot, de quel nombre de phonèmes en séquence, il peut s’arrêter de noter le mot entendu en laissant tomber le reste, et cela sans risquer une ambiguïté à la lecture. Ceci, bien entendu, sans tenir aucun compte du contexte, qui impacte fortement la désambigüisation : dans le contexte idoine, « est un grand FIZ » sera interprété respectivement comme « physicien », « physiologiste », « physiocrate » (ce mot ne figure pas dans Lexique3...), « physionomiste »...

Dans le manuel, le tableau 9 regroupe les symboles nécessaires pour écrire des regex.

Pour une interrogation centrée sur la prononciation, si on est accablé visuellement par le nombre des colonnes, on peut par exemple ne garder que les 5 colonnes orthographique, phonétique, lemme, catégorie grammaticale, fréquence dans les lives.

Attention. Si, sur son ordinateur, on quitte la page d’entrée dans la base afin de consulter une autre fenêtre, au moment du retour vers la fenêtre de Lexique, il y a eu une déconnexion, donc on doit actionner Reload. Et dans ce cas, la personnalisation des colonnes a été perdue.

Toutefois cet inconvénient d’instabilité disparaît, au moins parfois, si on se rend sur la page suivante (OpenLexicon) :
http://www.lexique.org/shiny/openlexicon/

Néanmoins, dans ce cas-là, on se voit présenter un tableau avec 35 propriétés, donc une page extrêmement large.

Si on fait une recherche en ligne et qu’on veut conserver les données rassemblées, on peut actionner Dowload filtered data en bas à gauche. Toutefois, si les données sont bien filtrées suivant les critères choisis, toutes les colonnes apparaissent, en sorte que le tableau obtenu est présenté dans une taille de caractères très petite, et exige un zoom.

L’intérêt de Lexique est évidemment qu’on peut combiner les critères d’interrogation.

Exemple d’interrogation nº 1

Je veux tous les mots commençant par la suite de phonèmes /kɔ̃/ et finissant par la suite de phonèmes /mɑ̃/ (notations en API) avec n’importe quelle séquence de phonèmes intermédiaire (et donc des mots d’un nombre de syllabes quelconque).

Dans la petite fenêtre phon (colonne 2), je tape la regex suivante, de 8 caractères, selon les conventions du codage phonologique :
^k§.*m@$

Commentaire :
^ note le début de mot
k note le phonème /k/
§ note le phonème /ɔ̃/ (celui de « on »)
. note un phonème quelconque
le signe * note une répétition de ce phonème quelconque à partir de zéro
m note le phonème /m/
@ note le phonème /ɑ̃/ (celui de « an »)
$ note la fin de mot

Je n’ai même pas à presser la touche Retour sur mon clavier, le logiciel travaille tout de suite et affiche les 64 items qui correspondent à mon interrogation. Comme dit ci-dessus, je peux faire descendre cette liste sur mon ordinateur pour la consulter tranquillement, l’imprimer.

Exemple d’interrogation nº 2

A partir de quand puis-je m’arrêter dans la notation des sons de « strapontin » sans risquer de le confondre avec un autre mot dans la lecture de mes notes tachygraphiques ? Réponse : puphon = 5.

Donc, ce mot « strapontin », qui aligne une séquence de 8 phonèmes, peut être noté sans danger simplement comme |strap|, en laissant tomber les 3 phonèmes finaux. (Mes | | notent informellement une notation tachygraphique phonème à phonème, voyelles intérieures incluses).

Exemple d’interrogation nº 3

Même question pour « énergumène », mot long de 9 phonèmes. Je trouve puphon = 5. Donc je peux me contenter de noter |energ|.

Je peux d’ailleurs me contenter de 4 notations de phonèmes : |enrg|. En effet, Lexique me permet de savoir que les 14 items qui commencent orthographiquement par énerg..., se regroupent en 7 lemmes, et ensuite que, parmi ces 7 lemmes, seul « énergumène » comporte la consonne intérieure /g/, les autres ayant /ʒ/ (énergétique, etc.).

Exemple d’interrogation n° 4

Chercher les items qui comportent /astron/ n’importe où dans un mot. La regex est :
^.*astRon.*$

J’obtiens 20 items, comme « astronaute », « gastronomes », « plastronnaient ».

Exemple d’interrogation nº 5

Je demande tous les mots (1) terminés graphiquement par ...tre, (2) qui sont des adjectifs, et (3) qui sont des trisyllabes.

Dans la fenêtre de la première colonne, je tape la regex ^.*tre$
Dans la fenêtre de la colonne 4, cgram, je tape ADJ.
Bien plus loin à droite, dans la fenêtre de la colonne nbsyl, je tape 3...3 (le minimum, puis le maximum, ici égaux).

J’obtiens 8 items : acariâtre, ambidextre, cinquante-quatre, gastrolâtre, idolâtre, olivâtre, opiniâtre, soixante-quatre.