|
|
Forum du petit sténographe Forum d'échange et d'entr'aide autour de la sténographie
|
Voir le sujet précédent :: Voir le sujet suivant |
Auteur |
Message |
mttiro
Inscrit le: 27 Sep 2011 Messages: 969
|
Posté le: Sam 11 Mai 2019 9:40 am Sujet du message: Densité de voisinage sémantique |
|
|
Pour compléter les brèves indications ci-dessus, il faut ajouter que, outre la densité de voisinage phonologique (et la densité de voisinage écrite), il y aussi la densité de voisinage sémantique.
C’est un sujet évidemment beaucoup plus difficile à explorer que les voisinages sonores et écrits. Voici le résumé d’un article très récent de Reilly & Desai (2017).
Cognition. 2017 Dec;169:46-53. doi: 10.1016/j.cognition.2017.08.004. Epub 2017 Aug 14.
Effects of semantic neighborhood density in abstract and concrete words.
Reilly M, Desai RH
Author information
Abstract
Concrete and abstract words are thought to differ along several psycholinguistic variables, such as frequency and emotional content. Here, we consider another variable, semantic neighborhood density, which has received much less attention, likely because semantic neighborhoods of abstract words are difficult to measure.
Using a corpus-based method that creates representations of words that emphasize featural information, the current investigation explores the relationship between neighborhood density and concreteness in a large set of English nouns.
Two important observations emerge. First, semantic neighborhood density is higher for concrete than for abstract words, even when other variables are accounted for, especially for smaller neighborhood sizes.
Second, the effects of semantic neighborhood density on behavior are different for concrete and abstract words.
Lexical decision reaction times are fastest for words with sparse neighborhoods; however, this effect is stronger for concrete words than for abstract words.
These results suggest that semantic neighborhood density plays a role in the cognitive and psycholinguistic differences between concrete and abstract words, and should be taken into account in studies involving lexical semantics. Furthermore, the pattern of results with the current feature-based neighborhood measure is very different from that with associatively defined neighborhoods, suggesting that these two methods should be treated as separate measures rather than two interchangeable measures of semantic neighborhoods.
Copyright © 2017 Elsevier B.V. All rights reserved.[/list]
Dernière édition par mttiro le Jeu 16 Mai 2019 6:26 am; édité 1 fois |
|
Revenir en haut |
|
|
mttiro
Inscrit le: 27 Sep 2011 Messages: 969
|
Posté le: Sam 11 Mai 2019 12:14 pm Sujet du message: |
|
|
Un raffinement pour les obsédés des statistiques lexicales.
Voici une distribution des longueurs phonologiques des mots (donc en nombre de phonèmes) pour l’anglais, le français, l’allemand, l’espagnol, le néerlandais.
https://journals.plos.org/plosone/article/figure?id=10.1371/journal.pone.0043230.g008
C’est tiré de ce long article de Marian & aloi, 2012 :
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0043230
Ce qui est curieux, c’est la divergence ou non, parfois inattendue, pour ce qui est des modes des distributions. L’anglais et le français ont le même mode (mais pas la même moyenne, le mot moyen anglais étant plus court que le mot moyen français). Le néerlandais a un mode nettement plus élevé que les deux langues précédentes. |
|
Revenir en haut |
|
|
mttiro
Inscrit le: 27 Sep 2011 Messages: 969
|
Posté le: Sam 11 Mai 2019 1:15 pm Sujet du message: Phonotactique du français. |
|
|
On est souvent admiratif du savoir linguistique spontané des créateurs de sténographie. C’est un élément, avec d’autres, de la panoplie nécessaire pour concevoir un bon système, mais c’est un élément non négligeable.
Comme en passant, Hippolyte Prévost découvre l’usage qu’on peut faire de ce qu’il appelle « incompatibilité » (plus précisément ici la catégorie qu’Antoine Delaunay appelle ensuite « incompatibilité matérielle ». Dans son manuel, il note ça sans lui faire le sort qu’il mérite (Delaunay n’a pas tort de dire que Prévost n’a pas toujours conscience de son talent, à moins que ce soit une modestie bonhomme).
« Essayez cette lecture, elle est matériellement impossible sr si. Vous n'arriverez à aucune articulation perceptible, au moins dans notre langue.
Prévost a eu l'idée, incontestablement très-ingénieuse, de profiter de cette circonstance pour sous-entendre, entre les deux signes dont le rapprochement est incompatible, une consonne qui fera cesser l'incompatibilité et qui, par conséquent, permettra la lecture du sténogramme ».
(Delaunay, Cours de sténographie, 1884, vues 133-134 sur la numérisation Google Books).
C’est une merveilleuse percée technique, qui prend en compte ce que les phonéticiens appellent aujourd’hui les contraintes phonotactiques, c’est-à-dire les règles quî indiquent quelles séquences de phonèmes sont permises ou pas dans telle langue.
Les exemples donnés par Delaunay concernent les suites /sr/ et /sl/. Je ne suis pas sûr que Delaunay ait raison d’interdire /sl/ en français (slave, récemment slalom), mais peu importe.
Il a raison d’observer qu’aucun mot français ne comporte la séquence /sr/ (Sri Lanka, apparu depuis, est totalement exotique). Dans ces conditions, si on écrit à la suite les signes pour /s/ et /r/ (sans possibilité de voyelle intermédiaire), c’est que nécessairement une autre consonne doit être inférée. On a ici plusieurs possibilités, à vrai dire : sprint, palestre, escrime. Mais le principe est là, dans son ingéniosité.
Les systèmes tachygraphiques fourmillent de telles beautés. |
|
Revenir en haut |
|
|
mttiro
Inscrit le: 27 Sep 2011 Messages: 969
|
Posté le: Mer 15 Mai 2019 8:33 pm Sujet du message: Base Lexiue |
|
|
La base de données Lexique est en train d’être rajeunie.
http://www.lexique.org/ |
|
Revenir en haut |
|
|
mttiro
Inscrit le: 27 Sep 2011 Messages: 969
|
Posté le: Mer 15 Mai 2019 8:54 pm Sujet du message: Dictionnaire de fréquence français |
|
|
Dictionnaire de fréquence des mots français (5000 mots)
http://ekladata.com/6FxXu86fl5mQwo7lEyDS5hG9NTc.pdf
Liste par fréquence décroissante, puis liste alphabétique.
À partir de la page 576, regroupement selon les parties du discours. On peut par exemple savoir la fréquence relative des prépositions. |
|
Revenir en haut |
|
|
lepetitstenographe Site Admin
Inscrit le: 18 Mai 2006 Messages: 721 Localisation: Rennes
|
|
Revenir en haut |
|
|
mttiro
Inscrit le: 27 Sep 2011 Messages: 969
|
Posté le: Ven 17 Mai 2019 4:23 pm Sujet du message: Homophones |
|
|
Liste de 640 homophones français.
Ils ont été extraits d’un dictionnaire de plus de 35000 entrées. Pas de noms propres. Les verbes sont représentés à l'infinitif, donc les formes conjuguées ne sont pas incluses dans la liste.
Chose intéressante, au lieu de se réduire à une simple énumération sèche, la liste comporte une indication de la fréquence, sous la forme du nombre d’occurrences rapporté à un corpus de 100 millions (colonne 4). Les mots sont accompagnés d’une transcription phonologique en Alphabet Phonétique International.
https://www.persee.fr/doc/psy_0003-5033_1999_num_99_4_28503 |
|
Revenir en haut |
|
|
mttiro
Inscrit le: 27 Sep 2011 Messages: 969
|
Posté le: Sam 18 Mai 2019 6:07 pm Sujet du message: Fréquence des mots français |
|
|
On trouve ici la fréquence des « mots » français (non lemmatisés, donc, entre autres, chaque forme flexionnelle d’un verbe est répertoriée pour elle-même) :
https://fr.m.wiktionary.org/wiki/Wiktionnaire:10000-wp-fr
Attention, il s’agit du corpus constitué par les entrées de Wikipedia en français en 2005.
La fréquence des mots à contenu étant sensible au domaine, on ne s’étonnera pas de trouver parmi les 1000 items le plus fréquents des choses comme : habitants, canton, commune, département, système. |
|
Revenir en haut |
|
|
mttiro
Inscrit le: 27 Sep 2011 Messages: 969
|
Posté le: Sam 18 Mai 2019 7:29 pm Sujet du message: Constitution de listes de mots français |
|
|
Le site dcode, conçu au départ pour les amateurs de jeux de lettres, est intéressant pour des recherches lexicales sur le français, dans la perspective de constitution de listes de mots conformes à certaines spécifications. Voici l’accès à la page concernée.
https://www.dcode.fr/recherche-mot-regexp
On doit taper dans la fenêtre une « expression régulière » comprenant les symboles voulus selon une syntaxe précise.
Prenons un exemple. Je suis concepteur d’une méthode tachygraphique et je souhaite créer un tachygramme pour le mot « important ». Supposons que je ne considère pas le mot pris comme un bloc afin de créer un logogramme (symbole unique spécifique du mot), mais que, au contraire, je veuille produire une abréviation à partir du tachygramme complet du mot. Par exemple j’envisage de conserver uniquement le début du mot, ou bien encore le début et la fin, mais en coupant une partie du milieu.
Supposons que je veuille garder « imp » du début et « ant » de la fin (les symboles des phonèmes /ɛ̃p/, puis /ɑ̃/).
Dans cette seconde perspective, je risque de créer une abréviation ambiguë si d’autres mots assez courants présentent le même début et la même fin. Je voudrais me former une idée précise de la classe de tous les mots présentant cette structure, afin de connaître les concurrents du mot « important », et d’évaluer les risques de confusion à la lecture.
Je vais taper cette chaîne de caractères :
^imp.*ant$
^ est le symbole du début de chaîne de caractères, et $ le symbole de fin.
Le point . est le symbole pour n’importe quel caractère, ici une lettre quelconque. L’astérisque * indique que . peut être répété autant de fois qu’on veut, 0, 1, 2... fois. Donc la séquence .* signifie : un nombre quelconque de lettres. [Je pourrais contraindre aussi les mots à avoir un nombre de syllabes spécifié].
Si j’appuie sur la touche Rechercher les mots, je vois apparaître à gauche la liste voulue, en l’occurrence une liste de 10 mots. Savoir :
IMPLANT
IMPLANTANT
IMPLIQUANT
IMPLORANT
IMPORTANT
IMPOSANT
IMPRESSIONNANT
IMPREVOYANT
IMPRIMANT
IMPUISSANT
Notice sur la construction des expressions régulières :
http://www.expreg.com/symbole.php
Aussi :
https://fr.m.wikipedia.org/wiki/Expression_régulière
Aussi (en anglais) :
https://carlalexander.ca/beginners-guide-regular-expressions/
Autre exemple. Tous les mots commençant par le préfixe « anti- » et finissant par le suffixe « -ique ».
Je tape :
^anti.*ique$
J’obtiens :
ANTIBIOTIQUE
ANTIDIPHTERIQUE
ANTIDYNASTIQUE
ANTIFONGIQUE
ANTINOMIQUE
ANTIPANIQUE
ANTIPATHIQUE
ANTIPATRIOTIQUE
ANTIPHILOSOPHIQUE
ANTISCIENTIFIQUE
ANTISCORBUTIQUE
ANTISEPTIQUE
ANTISPASMODIQUE
Autre exemple. Je veux tous les mots contenant à l’intérieur la suite « fect ». Je demande :
^.*fect.*$
J’obtiens alors la liste des 113 mots conformes.
Je n’ai pas pu déterminer la nature du dictionnaire interrogé, mais il est assez riche pour contenir des mots comme « abaca », « acribie », « anthracologue » et « zython ».
Note sur ce qu’il faut entendre par mot. Le lexique assemble des formes fléchies non regroupées par lemmes. Donc singuliers et pluriels séparés, formes conjuguées des verbes. Par ailleurs le logiciel n’accepte pas les diacritiques, donc « être » est sans circonflexe, etc.
Dernière édition par mttiro le Sam 18 Mai 2019 10:05 pm; édité 2 fois |
|
Revenir en haut |
|
|
mttiro
Inscrit le: 27 Sep 2011 Messages: 969
|
|
Revenir en haut |
|
|
mttiro
Inscrit le: 27 Sep 2011 Messages: 969
|
|
Revenir en haut |
|
|
mttiro
Inscrit le: 27 Sep 2011 Messages: 969
|
Posté le: Dim 19 Mai 2019 11:13 am Sujet du message: SyllabO+ |
|
|
SyllabO+ est une base de données sur un corpus de français québécois, qui permet d’avoir des informations sur les « phones » (speech sounds) et sur les syllabes.
Les phones, ou réalisations phonétiques, sont, peut-on dire, des sons bruts avant d’être regroupés en phonèmes, c’est-à-dire en entités permettant de distinguer les mots entre eux. Par exemple, en français, le phonème /r/ présente 3 sortes de réalisations phonétiques (phones), considérées comme des variantes d’un seul phonème : un son raclé au fond de la bouche, un son roulé au fond de la bouche, un son roulé à l’avant de la bouche (en termes impressionnistes) ; l’Alphabet Phonétique International permet de noter finement ces variantes ou d’autres.
Évidemment, ce qui importe au sténographe, ce sont les phonèmes.
https://speechneurolab.ca/fr/syllabo
Données dzns des tableaux figurant dans un mémoire de Pascale Bédard, 2016, aux pages 50-57 (vues) ici :
https://corpus.ulaval.ca/jspui/bitstream/20.500.11794/26947/1/32729.pdf
Voir aussi ce document.
https://link.springer.com/article/10.3758/s13428-016-0829-7
Dernière édition par mttiro le Dim 19 Mai 2019 11:33 am; édité 1 fois |
|
Revenir en haut |
|
|
mttiro
Inscrit le: 27 Sep 2011 Messages: 969
|
Posté le: Dim 19 Mai 2019 11:23 am Sujet du message: InfoSyll |
|
|
Chetail & Mathey, présentation du corpus InfoSyll, 2009
https://dipot.ulb.ac.be/dspace/bitstream/2013/67408/1/ChetailMathey_JPRsp.pdf
Voir à la page 13 les deux histogrammes présentant la distribution des types de syllabes en français : syllabes orthographiques et syllabes phonologiques (ce sont ces dernières qui intéressent la plupart des tachygraphes, CV, CVC, V, CCV, etc.). |
|
Revenir en haut |
|
|
mttiro
Inscrit le: 27 Sep 2011 Messages: 969
|
Posté le: Lun 20 Mai 2019 3:16 pm Sujet du message: |
|
|
Marc Hug a publié un article concernant la loi de Menzerath, à partir d’une étude d’un ensemble d’articles en français pris dans le journal Le Monde, publiés autour de 2000.
Ses conclusions :
« - à l'intérieur d'un même texte, la loi de Menzerath semble bien s'appliquer en ce sens que les phrases longues ont généralement des mots de longueur moyenne plus faible que les phrases courtes ;
- d'un texte à l'autre, au contraire, le type variable de texte (ce que j'ai interprété comme le degré de technicité du texte) aboutit au résultat contraire : les textes qui ont des phrases relativement longues usent aussi d'un vocabulaire composé en moyenne d'unités plus longues ».
http://lexicometrica.univ-paris3.fr/article/numero5/lexicometrica-hug.pdf
Par ailleurs, Hug indique que, dans son corpus journalistique du Monde, en moyenne,
(1) une phrase (voir la définition dans l’article) comporte 19,50 mots ;
(2) un mot oralisé comporte 3,55 phonèmes ;
(3) un mot écrit comporte 4,77 lettres. |
|
Revenir en haut |
|
|
mttiro
Inscrit le: 27 Sep 2011 Messages: 969
|
Posté le: Mar 21 Mai 2019 11:14 am Sujet du message: Base lexicale Lexique3 de New & Pallier, interrogation |
|
|
Utilisation de Lexique3, base lexicale du français, version révisée 2019.
Cette base admirable, mise sur pied par Boris New et Christophe Pallier, comporte 142’000 formes (voir plus loin).
Attention. Malgré sa richesse, la base Lexique3, si elle liste « couic » ou « couillon », ne connaît pas « acribie », « bétyle », « conchyliologie », « enthymème », « herméneute », « zython / zythum », tous certes termes très rares, mais qui permettent de tester un dictionnaire.
Page d’accueil de Lexique :
http://www.lexique.org
Notice rapide :
http://www.lexique.org/?page_id=166
Le manuel qui décrit de façon détaillée la base Lexique est ici :
http://lexique.org/_documentation/Manuel_Lexique.3.pdf
Séparément, le tableau du codage des phonèmes est ici (il peut être pratique de l’imprimer pour l’avoir sous les yeux) :
http://www.lexique.org/?page_id=286
Observer que le « e muet » (e mobile) est noté °. En effet on peut dire /rəgarde/ ou /rgarde/ pour « regardez ».
La notice sur les conventions d’interrogation par expressions régulières (regex) est ici :
http://www.lexique.org/?page_id=101
L’accès direct à la base est ici :
http://www.lexique.org/shiny/lexique/
Ou alors ici (voir observation plus loin) :
http://www.lexique.org/shiny/openlexicon/
Il importe de saisir que la base enregistre des formes, et donc séparément singulier et pluriel, masculin et féminin, et toutes les formes conjuguées des verbes attestées dans le corpus. Mais une colonne indique le regroupement de ces formes sous le lemme voulu, par exemple le verbe à l’infinitif, selon la convention standard des lexicographes français.
On voit apparaître par défaut à l’horizontale 10 colonnes, chacune pour une propriété (ou critère), et, à la verticale, un affichage de 20 entrées par page. Mais on peut totalement personnaliser cette présentation si on le souhaite. Dans ce cas, pour les colonnes de critères, cocher et décocher les critères voulus sur la gauche. Pour le nombre d’entrées affichées, indiquer ce qu’on veut dans la fenêtre en haut à gauche.
On peut avoir les fréquences des lemmes selon les corpus (films, livres). J’insiste sur le fait qu’il s’agir de corpus discursifs. Trop souvent en effet, les données présentées sur Internet concernent les lexiques, les dictionnaires. Les fréquences annoncées touchent donc des « types », comme on dit en anglais, et non pas des occurrences en discours, des « tokens ». Certaines publications hâtivement rédigées négligent même d’indiquer si on a à faire à des types ou à des tokens. Il va de soi que, pour un tachygraphe, ce qui compte le plus, c’est, par exemple, la fréquence des phonèmes, des syllabes en discours, plutôt que, disons, dans le Petit Larousse. Le tachygraphe ne note pas des listes lexicales, mais ce qu’il entend au fil de la parole, ou ce qu’il lit (et convertit intérieurement en sons) quand il utilise la tachygraphie pour prendre des notes de lecture sous une forme économique, ou noter des « idées » qui viennent à l’esprit.
Le corpus des livres de Lexique3 a l’avantage d’être très fourni, puisqu’il comprend 14,7 millions d’occurences de formes. Dans la perspective phonologique, le corpus livres a été, sauf erreur, automatiquement converti en représentations phonologiques standardisées.
On peut avoir pour chaque item le nombre d’homophones, d’homographes, le nombre de « voisins » phonologiques.
Une donnée intéressante pour un psychologue ou pour un tachygraphe est le « point d’unicité phonologique » (puphon), déterminé sur la base des lemmes. « Le point d’unicité phonologique correspond au rang du phonème en partant de la gauche à partir duquel le mot peut être identifié sans ambiguïté ». Ceci permet au tachygraphe de savoir à partir de quelle avancée dans la notation du mot, de quel nombre de phonèmes en séquence, il peut s’arrêter de noter le mot entendu en laissant tomber le reste, et cela sans risquer une ambiguïté à la lecture. Ceci, bien entendu, sans tenir aucun compte du contexte, qui impacte fortement la désambigüisation : dans le contexte idoine, « est un grand FIZ » sera interprété respectivement comme « physicien », « physiologiste », « physiocrate » (ce mot ne figure pas dans Lexique3...), « physionomiste »...
Dans le manuel, le tableau 9 regroupe les symboles nécessaires pour écrire des regex.
Pour une interrogation centrée sur la prononciation, si on est accablé visuellement par le nombre des colonnes, on peut par exemple ne garder que les 5 colonnes orthographique, phonétique, lemme, catégorie grammaticale, fréquence dans les lives.
Attention. Si, sur son ordinateur, on quitte la page d’entrée dans la base afin de consulter une autre fenêtre, au moment du retour vers la fenêtre de Lexique, il y a eu une déconnexion, donc on doit actionner Reload. Et dans ce cas, la personnalisation des colonnes a été perdue.
Toutefois cet inconvénient d’instabilité disparaît, au moins parfois, si on se rend sur la page suivante (OpenLexicon) :
http://www.lexique.org/shiny/openlexicon/
Néanmoins, dans ce cas-là, on se voit présenter un tableau avec 35 propriétés, donc une page extrêmement large.
Si on fait une recherche en ligne et qu’on veut conserver les données rassemblées, on peut actionner Dowload filtered data en bas à gauche. Toutefois, si les données sont bien filtrées suivant les critères choisis, toutes les colonnes apparaissent, en sorte que le tableau obtenu est présenté dans une taille de caractères très petite, et exige un zoom.
L’intérêt de Lexique est évidemment qu’on peut combiner les critères d’interrogation.
Exemple d’interrogation nº 1
Je veux tous les mots commençant par la suite de phonèmes /kɔ̃/ et finissant par la suite de phonèmes /mɑ̃/ (notations en API) avec n’importe quelle séquence de phonèmes intermédiaire (et donc des mots d’un nombre de syllabes quelconque).
Dans la petite fenêtre phon (colonne 2), je tape la regex suivante, de 8 caractères, selon les conventions du codage phonologique :
^k§.*m@$
Commentaire :
^ note le début de mot
k note le phonème /k/
§ note le phonème /ɔ̃/ (celui de « on »)
. note un phonème quelconque
le signe * note une répétition de ce phonème quelconque à partir de zéro
m note le phonème /m/
@ note le phonème /ɑ̃/ (celui de « an »)
$ note la fin de mot
Je n’ai même pas à presser la touche Retour sur mon clavier, le logiciel travaille tout de suite et affiche les 64 items qui correspondent à mon interrogation. Comme dit ci-dessus, je peux faire descendre cette liste sur mon ordinateur pour la consulter tranquillement, l’imprimer.
Exemple d’interrogation nº 2
A partir de quand puis-je m’arrêter dans la notation des sons de « strapontin » sans risquer de le confondre avec un autre mot dans la lecture de mes notes tachygraphiques ? Réponse : puphon = 5.
Donc, ce mot « strapontin », qui aligne une séquence de 8 phonèmes, peut être noté sans danger simplement comme |strap|, en laissant tomber les 3 phonèmes finaux. (Mes | | notent informellement une notation tachygraphique phonème à phonème, voyelles intérieures incluses).
Exemple d’interrogation nº 3
Même question pour « énergumène », mot long de 9 phonèmes. Je trouve puphon = 5. Donc je peux me contenter de noter |energ|.
Je peux d’ailleurs me contenter de 4 notations de phonèmes : |enrg|. En effet, Lexique me permet de savoir que les 14 items qui commencent orthographiquement par énerg..., se regroupent en 7 lemmes, et ensuite que, parmi ces 7 lemmes, seul « énergumène » comporte la consonne intérieure /g/, les autres ayant /ʒ/ (énergétique, etc.).
Exemple d’interrogation n° 4
Chercher les items qui comportent /astron/ n’importe où dans un mot. La regex est :
^.*astRon.*$
J’obtiens 20 items, comme « astronaute », « gastronomes », « plastronnaient ».
Exemple d’interrogation nº 5
Je demande tous les mots (1) terminés graphiquement par ...tre, (2) qui sont des adjectifs, et (3) qui sont des trisyllabes.
Dans la fenêtre de la première colonne, je tape la regex ^.*tre$
Dans la fenêtre de la colonne 4, cgram, je tape ADJ.
Bien plus loin à droite, dans la fenêtre de la colonne nbsyl, je tape 3...3 (le minimum, puis le maximum, ici égaux).
J’obtiens 8 items : acariâtre, ambidextre, cinquante-quatre, gastrolâtre, idolâtre, olivâtre, opiniâtre, soixante-quatre. |
|
Revenir en haut |
|
|
|
|
Vous ne pouvez pas poster de nouveaux sujets dans ce forum Vous ne pouvez pas répondre aux sujets dans ce forum Vous ne pouvez pas éditer vos messages dans ce forum Vous ne pouvez pas supprimer vos messages dans ce forum Vous ne pouvez pas voter dans les sondages de ce forum
|
|