Coder Social home page Coder Social logo

opentaal / opentaal-wordlist Goto Github PK

View Code? Open in Web Editor NEW
136.0 9.0 24.0 38.36 MB

🇳🇱🇧🇪🇸🇷 Dutch word list by OpenTaal

Home Page: https://opentaal.org

License: Other

Shell 2.40% Python 11.06% JavaScript 86.54%
nederlands dutch words wordlist word wordlists nederland netherlands belgie belgium

opentaal-wordlist's Introduction

GitHub last commit GitHub commit activity GitHub Repo stars GitHub watchers GitHub Sponsors Liberapay patrons

for English, please see below

Nederlandse woordenlijst

Dit is de Nederlandse woordenlijst van Stichting OpenTaal. Mits aan volledige bronvermelding wordt gedaan en de licenties worden gerespecteerd, is deze lijst vrij te gebruiken. De exacte voorwaarden zijn te vinden in het bestand LICENSE.txt. Lees deze goed door.

logo Stichting OpenTaal

Deze woordenlijst is samengesteld door ontelbare individuele bijdragen, specifieke delen uit bronnen zonder auteursrecht en intensieve eindredactie. De woordenlijst heeft van de Taalunie het Keurmerk Spelling gekregen. Dit betekent dat de woorden in deze woordenlijst voldoen aan de officiële spelling.

logo Keurmerk Spelling

Het Keurmerk Spelling voor deze woordenlijst is van medio 2017, 2018. Sinds eind 2018 wordt dit keurmerk niet meer uitgegeven en zal bij volgende versies van deze woordenlijst niet meer van toepassing zijn.

Inhoud

De woordenlijst bestaat, naast de documentatie en licentie, uit de volgende bestanden:

  • wordlist.txt
  • datetimeversion.txt

Deze zijn aangevuld met een aantal hulpbestanden:

  • elements/basiswoorden-gekeurd.txt
  • elements/basiswoorden-ongekeurd.txt
  • elements/flexies-ongekeurd.txt
  • elements/wordparts.tsv
  • elements/corrections.tsv
  • elements/romeinse-cijfers.txt
  • elements/wordlist-ascii.txt
  • elements/wordlist-non-ascii.txt

De complete woordenlijst is te vinden in het UTF-8 Unicode tekstbestand genaamd wordlist.txt. Elke regel bevat een apart woord en in totaal zijn dat er meer dan 400.000 woorden. Let op, een woord kan een spatie bevatten en dat komt meer dan 4.000 keer voor. Alle woorden zijn alfabetisch gesorteerd met sort. Dit bestand is samengesteld uit de volgende drie bestanden.

De datum, de tijd en het versienummer van al deze bestanden is te vinden in datetimeversion.txt.

De door de Taalunie gekeurde basiswoorden zoals tafel zijn te vinden in elements/basiswoorden-gekeurd.txt. Dit zijn er ongeveer 200.000 stuks. Ongekeurde basiswoorden, eigennamen zoals Jansen, toponiemen zoals Schin op Geul en samenstellingen met een eigennaam zoals Facebookgroep zijn in het bestand elements/basiswoorden-ongekeurd.txt te vinden. Dit zijn er ongeveer 41.000 stuks. In het bestand elements/flexies-ongekeurd.txt zijn er ongeveer 170.000 ongekeurde flexies zoals stoeltjes te vinden.

Let op dat deze verdeling in oude versies van deze woordenlijst niet heel strikt was. Daardoor kunnen in de gekeurde basiswoorden kunnen ook eigennamen en flexies zitten. Dit gaat in een volgende major release worden opgelost omdat er dan vanaf een nieuw databasesysteem wordt gewerkt. Bijkomend voordeel is dat er dan ook informatie over woordtypen beschikbaar komt. Tot die tijd is het even behelpen met deze verdeling.

Er is een apart bestand met delen van woorden die een spatie bevatten. Dit is een TSV-bestand met in de tweede kolom een or meer woorden waar dit deel vandaag komt. Indien dat meerdere woorden zijn, zijn die gescheiden door een puntkomma. Dit bestand heet elements/wordparts.tsv en bevat 1.000 delen van woorden die vaak gebruikt worden. Een voorbeeld is hoc van ad hoc;post hoc. Let op, in dit bestand staan ook woorden in die niet in de woordenlijst staan maar in verkorte vorm worden gebruikt. Voorbeelden zijn voor- uit voor- en nadelen en -zus in tweelingbroer of -zus.

Ook is er een bestand met 16.000 fout gespelde woorden. Dit is elements/corrections.tsv en is ook in TSV-formaat. In de tweede kolom staan nul of meerdere correcties, gescheiden met een puntkomma. De meest relevante correctie staat dan vooraan.

Verder staan in het bestand elements/romeinse-cijfers.txt 4.000 Romeinse cijfers. Een versie van de woordenlijst in ASCII is te vinden in elements/wordlist-ascii.txt. Dit is geen extended ASCII, dus bevat deze lijst geen woorden met é, ï, etc. Let op: deze lijst heeft geen woorden waar accenten van letters zijn verwijderd! Het woord café zit niet in deze lijst maar cafe dus ook niet. Neem contact op als het wenselijk is woorden van accenten te strippen en op te nemen.

Woorden met niet-ASCII-karakters zijn te vinden in elements/wordlist-non-ascii.txt. Neem contact op als ook een woordenlijst in exteded ASCII gewenst is.

Optioneel

Het is mogelijk om in een volgende versie meerdere bestanden op te nemen, bijvoorbeeld bestanden met woorden:

  • die t.o.v. een vorige versie niet meer in de lijst voorkomen
  • die een flexie zijn met bijbehorende basisvorm
  • die een basiswoord zijn met bijbehorende flexies
  • die alternatieven van andere woorden zijn
  • die verouderd of archaïsch zijn
  • die om verwarring te voorkomen niet geschikt zijn voor spellingcontrole

Zie voorlopig de directory experimenteel. Het is ook mogelijk om maatwerkbestanden in een versie op te nemen.

Karakters

In het huidige tijdperk van Unicode is deze woordenlijst voorzien van karakters die niet deel uitmaken van (extended) ASCII. Voorbeelden hiervan zijn cijfers in super- en subscript zoals een in CO₂-emissie en ³ in . Let op, veelvoorkomende karakters zoals é, ë en ï maken wel deel uit van extended ASCII en Unicode maar niet van de basis ASCII.

Een ander project van OpenTaal biedt histogrammen van de letterfrequenties van de woordenlijst. Wanneer deze is bijgewerkt zal er hier een link naar worden gemaakt.

Karakters die worden gebruikt zijn:

  • a t/m z en å ç ñ
  • A t/m Z en Å
  • ä ë ï ö ü en â ê î ô û
  • á é í ó ú en à è
  • 0 t/m 9 en ² ³
  • ' . - / + & @

Installatie

Besturingssystemen bieden softwarepakketten die deze woordenlijst installeren en automatisch updaten. Voorbeelden hiervan zijn:

Na installatie is de inhoud van wordlist.txt beschikbaar als het bestand

/usr/share/dict/dutch

of via de symbolische link

/usr/share/dict/nederlands

Voor andere besturingssystemen, zie https://repology.org/project/dutch/versions

Spellingcontrole

Deze woordenlijst moet niet gebruikt woorden voor een (zelfgebouwde) spellingcontrole. Het controleren van spelling en aanbieden van suggesties is in het algemeen en vooral voor het Nederlands verre van eenvoudig. Gebruik hier speciale software voor zoals Hunspell of Nuspell. In veel software zoals Chrome, Firefox, Thunderbird, LibreOffice en Adobe-producten is dit al geïntegreerd.

OpenTaal maakt hiervoor de Nederlandse spellingcontrole, zie https://github.com/OpenTaal/opentaal-hunspell voor meer informatie.

Toetsenbord

Voor Android is er een toetsenbord dat gebruik maakt van deze woordenlijst. Zie dit artikel op onze website voor meer informatie.

Wordfeud

Of een woord wel of niet wordt geaccepteerd in Wordfeud of bepaalde andere woordspellen is niet de verantwoordelijkheid van Stichting OpenTaal. Hiervoor kan het beste contact opgenomen worden met TaalTik.

Draag bij

Help ons vrije en open Nederlandse schrijftools te ontwikkelen. Doneer belastingvrij aan onze ANBI via https://www.opentaal.org/vrienden-van-opentaal of contacteer ons als je woordenlijsten of databasevaardigheden te bieden hebt.

Doneren is ook mogelijk met Donate using Liberapay

Dutch word list

This is the Dutch word list by Stichting OpenTaal. As long as full attribution is provided and the licenses are respected, this list can be used freely. The exact conditions can be found in the file LICENSE.txt. Please, read these carefully.

logo Stichting OpenTaal

This word list has been compiled from countless individual contributions, specific parts from sources without copyright and intense final editing. This list has received from the Dutch Language Union (Taalunie) the Quality Mark Spelling (Keurmerk Spelling). This means that the words in this list conforms to the official spelling.

logo Keurmerk Spelling

The Quality Mark Spelling for this word list has been given in 2017/2018. This quality mark has stopped since the end of 2018 and will not apply to future releases of this word list.

Contents

Please, see the relevant section in Dutch

Optional

Please, see the relevant section in Dutch

Characters

Please, see the relevant section in Dutch

Installation

Operating systems offer software packages which install this word list and update it automatically. Examples of this are:

After installation, the contents of wordlist.txt will be available as the file

/usr/share/dict/dutch

or via the symbolic link

/usr/share/dict/nederlands

For other operating systems, see https://repology.org/project/dutch/versions

Spell checking

This word list should not be used for (self made) spell checking. Checking spelling and offering suggestions in general and especially for Dutch is far from easy. Use special software for this such as Hunspell or Nuspell. This is already integrated in software such as Chrome, Firefox, Thunderbird, LibreOffice and Adobe products.

OpenTaal supports Dutch for these spell checkers. That is partly based on this word list but also on many custom rules, conjugations and other special cases. Additionally, these optimized spell checkers are much faster than own implementations. In the second quarter of 2020, a new version of the Dutch support for these spell checkers will be published.

OpenTaal provides the Dutch spelling checker for this, see https://github.com/OpenTaal/opentaal-hunspell for more information.

Keyboard

A keyboard for Android which uses this word list has been developed. Please, see this article on our website for more information.

Wordfeud

Whether or not a word is accepted in the Dutch version of Wordfeud or certain other Dutch word games is not the responsibility of Stichting OpenTaal. For this, please contact TaalTik.

Contribute

Please, help us create free and open Dutch writing tools. Donate tax free to our foundation at https://www.opentaal.org/vrienden-van-opentaal or contact us is you have word lists to database skills to offer.

Donating is also possible with Donate using Liberapay

opentaal-wordlist's People

Contributors

equaeghe avatar hackedd avatar henkpoley avatar pandermusubi avatar panderopentaal avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

opentaal-wordlist's Issues

Review compounds starting with Oud

Review compounds starting with Oud- and Oud such as;

  • Oudnederlands
  • Oudsaksisch
  • Oudnederduits
  • Oudnoors
  • Ouditaliaans or Oud-Italiaans
  • Oud-Perzisch
  • Oud-Arabisch
  • etc.

Some have only one spelling (double check which one) and some might have two spellings. Additionally, review also support for possessive forms such as Oudnederlandse and Oud-Perzische.

Other prefixes with and without hyphen to review are:

  • Vroeg
  • Midden
  • Nieuw
  • Laat
  • Noord
  • Oost
  • Zuid
  • West
  • Centraal

Lijst zonder alle werkwoordvervoegingen

Wellicht valt dit samen met het andere issue #4 maar; is het ook mogelijk om een volledige lijst te krijgen maar dan zonder alle werkwoordvervoegingen? Dus zonder:

aanbelt
aanbelde
aanbelden
dagvaardde
kruidden
landde
stuntte
//etc.

Maar wel met de hele werkwoorden en zelfstandige naamwoorden

aanbellen
kruid
landen
stunt
//etc.

Opsplitsen in typen woorden mogelijk?

I ben op zoek naar woordenlijsten die opgesplitst in, of gemarkeerd zijn as:

  • meervoudsvorm
  • werkwoord
  • bijwoord
  • bijvoeglijk naamwoord

Dit is voor een frasegenerator die automatische "ids" kan genereren. In het Engels zijn deze veel te vinden, de software om dat te doen (en de onderliggende willekeurigheid en wiskunde is uitgewerkt).

In het Engels kun je dan eenvoudig termen maken als:
BeautifulFungiOrSpaghetti, AmazinglyScaryToy, NeitherTrashNorRifle, WolvesComputeBadly, NicePlantsObjectSteadily, NewBombayRisesCarefully

Om hiervan Nederlands te maken, zijn woordenlijsten met per categorie, enkele tien- tot hondertallen woorden die als meervoud, werkwoord, bijwoord, naamwoord, plaatsnaam, eignenaam enz aangemerkt zijn.

Mogelijk is dat binnen dit project niet mogelijk, maar weet iemand mij te verwijzen naar een openbron waar dit wel zo is opgezet?

Licentie problemen

De licentie vermeld nu:

Als u deze woordenlijst gebruikt bent u juridisch verplicht om de gegevens
hierboven te tonen in het colofon van u drukwerk of digitale product of dienst.

Dit lijkt een verandering te zijn van de licenties, met een nieuwe restricties. Deze restrictie is in mijn ogen niet aanvaardbaar. Beide licenties hebben verplichten van een vermelding van de auteur. Misschien is het de bedoeling om het proberen duidelijker te maken, maar het verandert de betekenis. Ik heb vooral een probleem met het woord "gebruik". Ik stel voor dat je gewoon heel de zin weg doet.

Bovendien is een van de licenties veranderd van CC-BY 3.0 naar CC-BY 4.0. In de vorige versie was er geen vermelding van "of later", en voor zover ik weet is er niet aan de houders van het auteursrecht gevraagd of die verandering aanvaardbaar is.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.