chrplr / openlexicon Goto Github PK

Access to lexical databases

License: Creative Commons Attribution Share Alike 4.0 International

Makefile 0.03% R 2.09% HTML 89.97% Python 0.24% TeX 4.47% Awk 0.04% Perl 0.03% Emacs Lisp 0.01% CSS 0.41% JavaScript 2.71% Shell 0.01%

openlexicon's Introduction

OpenLexicon: Open access to lexical ressources

If all you want is to access the Openlexicon App (lexical search)or the UniPseudo App (pseudoword generator), click on one of the screenshots below

| | |

This site provides:

A directory of lexical databases
Scripts to download and query lexical databases.
Apps to create dynamic graphical interfaces to the lexical databases. Some of these apps are running at http://www.lexique.org
Documents of related to the processing of lexical resources.

The source code is available at http://github.com/chrplr/openlexicon.

Unless otherwise explained by a individual readme or license file in a directory, it distributed under a CC BY-SA 4.0 LICENSE.

Crediting

The main contributors to the openlexicon project are Christophe Pallier, Boris New and Jessica Bourgin.

To cite this repository, use the following reference:

Pallier, Christophe & New, Boris & Jessica Bourgin (2019) Openlexicon, GitHub repository, https://github.com/chrplr/openlexicon

Most databases have associated publications listed in their respective README files. They must be cited in any derivative work! The same goes for some of the scripts (read their documentation for instructions).

Contributing

Everybody is warmly encouraged to contribute by submitting issues or by adding a new app, script, or databases (To add a new dataset, you must create a .json file in datasets-info/_json. Check out How-to-install-a-new-dataset).

First, check out Lexique's google-group at https://groups.google.com/forum/#!forum/lexiqueorg. You can then contact [email protected] and [email protected] privately, or, much better, fork the openlexicon repository (see How to fork a repo) and issue a pull request (see Creating a pull request from a fork).

TODO

Check out the TODO list

For maintainers

Time-stamp: <2023-04-03 09:48:32 [email protected]>

openlexicon's People

Contributors

Stargazers

Watchers

Forkers

sedufau sbibauw mathias-sm pandelis zengjatzau cglacet jbourgin alhm02 rowe-morehouse sekoudiaonlp cbedetti benadamdev tchouanga12 anchit-chandran 45858casse

openlexicon's Issues

Mauvais type de valeurs pour certains champs pour une dizaine de mots.

Bonjour à tous,

Je suis @SekouDiaoNlp et je suis l'auteur de pylexique.

C'est une librairie Pythonique et Orientée Objet pour interagir avec la base de données de Lexique383 ainsi que chaque item lexical.

Le package est installable depuis PyPi ou Anaonda.

Pour chaque ligne de la base de donnée je remplis un objet de type LexItem dont les attributs doivent respecter le type de chaque champ.

J'ai défini cette classe de la manière suivante en me référant à votre documentation en ligne ainsi que celle distribuée avec le fichier http://www.lexique.org/databases/Lexique383/Lexique383.zip

class LexEntryTypes:
    """
    Type information about all the lexical attributes in a LexItem object.

    """
    ortho = str
    phon = str
    lemme = str
    cgram = str
    genre = str
    nombre = str
    freqlemfilms2 = float
    freqlemlivres = float
    freqfilms2 = float
    freqlivres = float
    infover = str
    nbhomogr = int
    nbhomoph = int
    islem = bool
    nblettres = int
    nbphons = int
    cvcv = str
    p_cvcv = str
    voisorth = int
    voisphon = int
    puorth = int
    puphon = int
    syll = str
    nbsyll = int
    cv_cv = str
    orthrenv = str
    phonrenv = str
    orthosyll = str
    cgramortho = str
    deflem = float
    defobs = int
    old20 = float
    pld20 = float
    morphoder = str
    nbmorph = int
    id = int

Pendant le développement de pylexique, l'utilisation du typage des attributes m'a permi de découvrir une petite dizaine d'erreurs dans le cas ou il y a un mismatch entre le type de l'attribut et celui de la valeur de l'attribut.
Grace au typage, pylexique peut automatiquement détecter et sauvegarder les erreurs de mauvais type.

Veuillez trouver ci-joint une version json des mots avec leur champ/valeur qui n'ont pas le même type qui est déclaré dans
la définition de classe.
pylexique a analysé les erreurs dans le fichier

Lexique383.xlsb

qui se trouve dans le fichier zip cité auparavant.

parseerrors.txt

Voici un petit échantillon des quelques premières lignes ayant des problèmes de typage:

  {
          "a": [
              {
                  "nbphons": "V"
              },
              {
                  "puphon": "a"
              },
              {
                  "nbsyll": "V"
              }
          ]
      },
      {
          "a": [
              {
                  "nbphons": "V"
              },
              {
                  "puphon": "a"
              },
              {
                  "nbsyll": "V"
              }
          ]
      },
      {
          "a": [
              {
                  "nbphons": "V"
              },
              {
                  "puphon": "a"
              },
              {
                  "nbsyll": "V"
              }
          ]
      },
      {
          "sa": [
              {
                  "nbphons": "CV"
              },
              {
                  "puphon": "sa"
              },
              {
                  "nbsyll": "CV"
              }
          ]
      },
      {
          "sa": [
              {
                  "nbphons": "CV"
              },
              {
                  "puphon": "sa"
              },
              {
                  "nbsyll": "CV"
              }
          ]
      },
}

Le fichier json ne contient uniquement que les champs des lignes comportant un mismatch et utilise le champ 'ortho' pour les identifier.

Il ne s'agit que d'une dizaine d'erreurs et 'ai remarqué que les erreurs apparaissent toujours avec les mots dont  le champ `ortho` a toujours les valeurs 'sa', 'a', 'e' et 'o' et apparaissent tous en fin de lexique, J'imagine que cela fait peut être parti  du dernier lot de mots que vous avez ajouté au lexique et que ces quelques erreurs vous ont échappées. Nous sommes tous de faillibles humains non?

Dans tous les cas merci d'avoir mis Lexique383 en accés libre (je cite et le nom des auteurs, le lien du site, et les articles académiques).

Si vou avez besoin de contributeurs pour la partie PYTHON de OpenLexicon, je suis partant, et en plus j'ai du temps libre à cause du couvre feu :stuck_out_tongue_winking_eye:


Merci d'avance si vous pouvez régler le problème rapidement, car pour l'instant j'élimine la dizaine d'entrées problématiques.

Peace, Love and have un
@SekouDiaoNlp

potential bug report

Hi, I'm just curious that the first aurai exists in French?

imcompatible `freqlemlivres` and `freqlivres`

Hi, thanks for your awesome work!
However, when I use Lexique383.tsv, I observe the following:

From the manual I understand the freqlemlivres should be the frequency of lemma of the word and freqlivres should be the frequency of the word, right?
But as we see in the table, the lemma of danse(35155), danser(35158) and danseur(35172) are themselves, while these two fields are not equal. Why?

lignes sans catégorie grammaticale

Dans Lexique3, parmi les lignes sans catégorie grammaticale, on trouve :

'à brûle-pourpoint',
'à cloche-pied',
'à rebrousse-poil'
'à tire-larigot',
'à touche-touche',
'à tue-tête',
'à-tue-tête'

Il apparaît à la lecture de https://www.cnrtl.fr/etymologie/tue-t%C3%AAte qu'il s'agit des locutions adverbiales composées d'un verbe + d'un nom. Est-ce qu'ajouter cette catégorie aurait un sens ?

Disconnected from the server. Reload, empty spreadsheet

In the time it takes to select a language, wait for the display to update and paste an expression into the filter box, the display reverts to greyed out and the above message appears.

Clicking on the 'Download filtered data' button produces an empty spreadsheet.

Certains genre sont absent de la BDD

bonjour,

Je suis en train d'utiliser http://www.lexique.org/databases/Lexique383/Lexique383.zip pour faire https://git.sr.ht/~pierrenn/couque mais je suis en train de m'apercevoir qu'il manque le genre a certains noms.

Pour certain c'est compréhensible (ex: coca), mais pour d'autres c'est un peu étrange (pourquoi le genre de maison n'est pas f) ?

Est-ce volontaire de votre part ? Ou quelque chose a corriger ?

merci

it's not clear how to contribute to Lexique

Hello,

Ideally, I wanted to just make a pull request with an updated Lexique csv, but AFAICT, Lexique does not actually live in this repository. Is that right?

It would be useful for the root README to say how to concretely contribute fixes to Lexique.

I'm thinking of fixing things like bad phonetics like the u or ° here :

> select ortho, phon, cgram from lexique where ortho in ('télétexte', 'quadruple');
quadruple	kwadRupl	ADJ
quadruple	kwadRupl	NOM
quadruple	kwadRupl	VER
télétexte	teletEks°t	NOM

I'm also wondering (although it's currently theoretical) about whether you'd accept a new column "h aspiré" with a boolean encoded in some way.

Fréquence en millier d'occurrences ?

Quand on va à la page 11 du manuel, on peut lire que la colonne freqLivres indique une fréquence en million d'occurrences. Or le mot le plus fréquent semble être de avec une valeur de 38928.92, soit 38 milliards d'occurence. Cependant on peut aussi lire dans le manuel que le nombre total de mot est de 17 millions. Où est l'erreur ? Est-ce que freqLivres ne serait pas en millier d'occurrences plutôt qu'en million ?

La même chose semble se vérifier pour les autres formes de fréquences.