Coder Social home page Coder Social logo

chrplr / openlexicon Goto Github PK

View Code? Open in Web Editor NEW
106.0 5.0 15.0 96.93 MB

Access to lexical databases

License: Creative Commons Attribution Share Alike 4.0 International

Makefile 0.03% R 2.09% HTML 89.97% Python 0.24% TeX 4.47% Awk 0.04% Perl 0.03% Emacs Lisp 0.01% CSS 0.41% JavaScript 2.71% Shell 0.01%

openlexicon's Introduction

OpenLexicon: Open access to lexical ressources

If all you want is to access the Openlexicon App (lexical search)or the UniPseudo App (pseudoword generator), click on one of the screenshots below

| | |

This site provides:

  1. A directory of lexical databases
  2. Scripts to download and query lexical databases.
  3. Apps to create dynamic graphical interfaces to the lexical databases. Some of these apps are running at http://www.lexique.org
  4. Documents of related to the processing of lexical resources.

The source code is available at http://github.com/chrplr/openlexicon.

Unless otherwise explained by a individual readme or license file in a directory, it distributed under a CC BY-SA 4.0 LICENSE.

Crediting

The main contributors to the openlexicon project are Christophe Pallier, Boris New and Jessica Bourgin.

To cite this repository, use the following reference:

Most databases have associated publications listed in their respective README files. They must be cited in any derivative work! The same goes for some of the scripts (read their documentation for instructions).

Contributing

Everybody is warmly encouraged to contribute by submitting issues or by adding a new app, script, or databases (To add a new dataset, you must create a .json file in datasets-info/_json. Check out How-to-install-a-new-dataset).

First, check out Lexique's google-group at https://groups.google.com/forum/#!forum/lexiqueorg. You can then contact [email protected] and [email protected] privately, or, much better, fork the openlexicon repository (see How to fork a repo) and issue a pull request (see Creating a pull request from a fork).

TODO

Check out the TODO list

For maintainers


Time-stamp: <2023-04-03 09:48:32 [email protected]>

openlexicon's People

Contributors

cbedetti avatar chrplr avatar jbourgin avatar jessicabourgin avatar mathias-sm avatar pandelis avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar

openlexicon's Issues

Mauvais type de valeurs pour certains champs pour une dizaine de mots.

Bonjour à tous,

Je suis @SekouDiaoNlp et je suis l'auteur de pylexique.

C'est une librairie Pythonique et Orientée Objet pour interagir avec la base de données de Lexique383 ainsi que chaque item lexical.

Le package est installable depuis PyPi ou Anaonda.

Pour chaque ligne de la base de donnée je remplis un objet de type LexItem dont les attributs doivent respecter le type de chaque champ.

J'ai défini cette classe de la manière suivante en me référant à votre documentation en ligne ainsi que celle distribuée avec le fichier http://www.lexique.org/databases/Lexique383/Lexique383.zip

class LexEntryTypes:
    """
    Type information about all the lexical attributes in a LexItem object.

    """
    ortho = str
    phon = str
    lemme = str
    cgram = str
    genre = str
    nombre = str
    freqlemfilms2 = float
    freqlemlivres = float
    freqfilms2 = float
    freqlivres = float
    infover = str
    nbhomogr = int
    nbhomoph = int
    islem = bool
    nblettres = int
    nbphons = int
    cvcv = str
    p_cvcv = str
    voisorth = int
    voisphon = int
    puorth = int
    puphon = int
    syll = str
    nbsyll = int
    cv_cv = str
    orthrenv = str
    phonrenv = str
    orthosyll = str
    cgramortho = str
    deflem = float
    defobs = int
    old20 = float
    pld20 = float
    morphoder = str
    nbmorph = int
    id = int

Pendant le développement de pylexique, l'utilisation du typage des attributes m'a permi de découvrir une petite dizaine d'erreurs dans le cas ou il y a un mismatch entre le type de l'attribut et celui de la valeur de l'attribut.
Grace au typage, pylexique peut automatiquement détecter et sauvegarder les erreurs de mauvais type.

Veuillez trouver ci-joint une version json des mots avec leur champ/valeur qui n'ont pas le même type qui est déclaré dans
la définition de classe.
pylexique a analysé les erreurs dans le fichier

Lexique383.xlsb

qui se trouve dans le fichier zip cité auparavant.

parseerrors.txt

Voici un petit échantillon des quelques premières lignes ayant des problèmes de typage:

  {
          "a": [
              {
                  "nbphons": "V"
              },
              {
                  "puphon": "a"
              },
              {
                  "nbsyll": "V"
              }
          ]
      },
      {
          "a": [
              {
                  "nbphons": "V"
              },
              {
                  "puphon": "a"
              },
              {
                  "nbsyll": "V"
              }
          ]
      },
      {
          "a": [
              {
                  "nbphons": "V"
              },
              {
                  "puphon": "a"
              },
              {
                  "nbsyll": "V"
              }
          ]
      },
      {
          "sa": [
              {
                  "nbphons": "CV"
              },
              {
                  "puphon": "sa"
              },
              {
                  "nbsyll": "CV"
              }
          ]
      },
      {
          "sa": [
              {
                  "nbphons": "CV"
              },
              {
                  "puphon": "sa"
              },
              {
                  "nbsyll": "CV"
              }
          ]
      },
}

Le fichier json ne contient uniquement que les champs des lignes comportant un mismatch et utilise le champ 'ortho' pour les identifier.

Il ne s'agit que d'une dizaine d'erreurs et 'ai remarqué que les erreurs apparaissent toujours avec les mots dont  le champ `ortho` a toujours les valeurs 'sa', 'a', 'e' et 'o' et apparaissent tous en fin de lexique, J'imagine que cela fait peut être parti  du dernier lot de mots que vous avez ajouté au lexique et que ces quelques erreurs vous ont échappées. Nous sommes tous de faillibles humains non?

Dans tous les cas merci d'avoir mis Lexique383 en accés libre (je cite et le nom des auteurs, le lien du site, et les articles académiques).

Si vou avez besoin de contributeurs pour la partie PYTHON de OpenLexicon, je suis partant, et en plus j'ai du temps libre à cause du couvre feu :stuck_out_tongue_winking_eye:


Merci d'avance si vous pouvez régler le problème rapidement, car pour l'instant j'élimine la dizaine d'entrées problématiques.

Peace, Love and have un
@SekouDiaoNlp

imcompatible `freqlemlivres` and `freqlivres`

Hi, thanks for your awesome work!
However, when I use Lexique383.tsv, I observe the following:
image
From the manual I understand the freqlemlivres should be the frequency of lemma of the word and freqlivres should be the frequency of the word, right?
But as we see in the table, the lemma of danse(35155), danser(35158) and danseur(35172) are themselves, while these two fields are not equal. Why?

lignes sans catégorie grammaticale

Dans Lexique3, parmi les lignes sans catégorie grammaticale, on trouve :

'à brûle-pourpoint',
'à cloche-pied',
'à rebrousse-poil'
'à tire-larigot',
'à touche-touche',
'à tue-tête',
'à-tue-tête'

Il apparaît à la lecture de https://www.cnrtl.fr/etymologie/tue-t%C3%AAte qu'il s'agit des locutions adverbiales composées d'un verbe + d'un nom. Est-ce qu'ajouter cette catégorie aurait un sens ?

Disconnected from the server. Reload, empty spreadsheet

In the time it takes to select a language, wait for the display to update and paste an expression into the filter box, the display reverts to greyed out and the above message appears.

Clicking on the 'Download filtered data' button produces an empty spreadsheet.

it's not clear how to contribute to Lexique

Hello,

Ideally, I wanted to just make a pull request with an updated Lexique csv, but AFAICT, Lexique does not actually live in this repository. Is that right?

It would be useful for the root README to say how to concretely contribute fixes to Lexique.

I'm thinking of fixing things like bad phonetics like the u or ° here :

> select ortho, phon, cgram from lexique where ortho in ('télétexte', 'quadruple');
quadruple	kwadRupl	ADJ
quadruple	kwadRupl	NOM
quadruple	kwadRupl	VER
télétexte	teletEks°t	NOM

I'm also wondering (although it's currently theoretical) about whether you'd accept a new column "h aspiré" with a boolean encoded in some way.

Fréquence en millier d'occurrences ?

Quand on va à la page 11 du manuel, on peut lire que la colonne freqLivres indique une fréquence en million d'occurrences. Or le mot le plus fréquent semble être de avec une valeur de 38928.92, soit 38 milliards d'occurence. Cependant on peut aussi lire dans le manuel que le nombre total de mot est de 17 millions. Où est l'erreur ? Est-ce que freqLivres ne serait pas en millier d'occurrences plutôt qu'en million ?

La même chose semble se vérifier pour les autres formes de fréquences.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.