maandag 22 november 2010

Vijf jaar OpenTaal

We kennen allemaal het idee van open standaarden. Wist u dat zoiets ook bestaat specifiek gericht op de Nederlandse Taal? OpenTaal is een spellingcontrole speciaal voor open-sourcesoftware. Op dit moment bestaat deze spellingcontrole vijf jaar. Jaap de Wreede spreekt met twee van de voortrekkers van dit project.

Bij het tikken van teksten maken velen van ons dankbaar gebruik van de ingebouwde spellingcontroles in software. Het bekendste programma met een spellingcontrole is ongetwijfeld de ingebouwde spellchecker van Microsoft Word. Maar er is al tijden ook een alternatief voorhanden: OpenTaal.

Deze woordenlijst zit in steeds meer open-sourceprogramma’s verwerkt, waarvan de bekendste ongetwijfeld Openoffice.org is, als beroemde tegenhanger van Microsoft Office. Maar de lijst zit ook in de webbrowsers Firefox en Chrome verwerkt, en in het e-mailprogramma Thunderbird.

OpenTaal logo

De lijst bevat inmiddels ongeveer 170.000 basiswoorden en is voorzien van het Keurmerk Spelling van de Nederlandse Taalunie. Dat geeft aan dat de woordenlijst overeenkomt met de officiële spelling zoals die is vastgelegd in ‘het groene boekje’.


OpenTaal: ‘ook Microsoft zouden we graag helpen bij het verbeteren van hun spelling’

Simon Brouwer (50) is een van de grondleggers van het project. Hij is al jaren een enthousiast gebruiker van Openoffice.org, maar helaas zat daar in de begintijd geen spellingcontrole in. Dat veranderde in 2002 toen de Canadees Kevin Hendricks voor Openoffice.org de spellingchecker Myspell ontwikkelde, en Brouwer erachter kwam dat een bestaande Nederlandstalige spellingwoordenlijst daarop was aan te passen.

“Op een zondagmiddag heb ik die Nederlandstalige woordenlijst naar Openoffice.org geconverteerd. Dat was kicken,” vertelt de voorzitter van OpenTaal stralend. “Ik was de enige die dit had.”

Trouw aan de open-sourcegedachte wilde Brouwer ook andere gebruikers laten meegenieten van zijn vinding. Op advies van de internationale coördinator van Openoffice.org besloot hij een op het Nederlandse taalgebied gericht deelproject op te zetten (nl.openoffice.org).

Door de spellinghervorming in 2005 was voor de herziening van de lijst hulp nodig van vrijwilligers, dus werden in de community de nodige contacten gelegd. Zo bracht het toenmalige overheidsprogramma voor open standaarden en de open-sourcesoftware Ososs de taalliefhebbers in contact met de Nederlandstalige TeX Gebruikersgroep (NTG). Dit resulteerde in OpenTaal. Nog steeds heeft het project goede contacten met Nederland Open in Verbinding (NOiV), de opvolger van Ososs.


Taalhacker

Ex-programmeur Ruud Baars (52) neemt de technische kant van het project voor zijn rekening. Hij werd vrijwilliger voor OpenTaal ‘omdat ik zo’n slechte schrijver ben’. “Ik maak graag gebruik van
een spellingcontrole.” Baars, ook wel de ‘taalhacker’ van het project genoemd, spoort regelmatigheden en onregelmatigheden in de taal op en implementeert die in algoritmen.

Rond het verschijnen van deze PC-Active moet een sterk uitgebreide versie 2.0 van de woordenlijst uitkomen. Wat zijn de opvallendste veranderingen? Allereerst worden veel geldige woordsamenstellingen geaccepteerd. Ook wordt het optionele koppelteken, dat is bedoeld om woorden duidelijker leesbaar te maken, meestal geaccepteerd. Tot slot wordt bij foute splitsingen als automatiserings machine de suggestie automatiserings- gedaan en geaccepteerd.

Op de lange duur moeten ook een synoniemenlijst, woordafbreekpatronen en materiaal voor grammaticacontrole worden uitgebreid. Maar die projecten vorderen maar langzaam of liggen soms zelfs helemaal stil.

“We hebben te weinig mensen,” verklaart Baars, in het dagelijks leven projectmanager. “Het is voor de meeste mensen een tijdelijke bevlieging. We hebben een vaste kern van een man of vijf en daar zwermt nog een aantal enthousiastelingen omheen.”

Helaas is het werk voor de vrijwilligers niet altijd even aantrekkelijk. De woordenlijst wordt onder meer gemaakt met een ‘oogst’-programma , dat van verschillende Nederlandse websites woorden ophaalt. Vrijwilligers mogen vervolgens controleren of hele ritsen woorden wel echt voorkomen in het Nederlands. “We zijn altijd op zoek naar mensen met taalgevoel die willen meehelpen, het liefst taalkundigen,” zegt Baars.


Licentie

OpenTaal streeft ernaar dat de binnen het project ontwikkelde taalhulpbestanden en software vrij kunnen worden hergebruikt en aangepast. Ze worden daarom gepubliceerd onder vrije en/of open-sourcelicenties. Aanvankelijk betrof dat de LGPL-licentie. Die stond al toe dat de lijst in zowel open als gesloten software kon worden opgenomen. Om het gebruik van de woordenlijst te verbreden, is besloten om over te stappen op de nog minder beperkende BSD- en CC-by-3.0-licenties.

Brouwer: “We hechten niet zoveel belang aan bescherming. Alleen naamsvermelding is voor ons voldoende.” Het keurmerk van de Taalunie biedt een extra bescherming. “Als een bedrijf een softwareproduct uitbrengt met onze woordenlijst erin, dan kun je het keurmerk alleen claimen als je ook ons noemt.” De Taalunie kan bedrijven aanspreken die het keurmerk onterecht gebruiken.

Overigens is open source voor de mannen geen principezaak en ze willen ook niets weten van de ‘godsdienstoorlogen’ rondom het thema. Ze noemen OpenTaal ook liever een open-contentproject.

Baars: “Ons uitgangspunt is niet zozeer Linux of open source, maar taal. We willen dat vrije software een betere ondersteuning voor het Nederlands krijgt. Ook Microsoft zouden we best willen helpen hun spelling te verbeteren, want het is ons enthousiasme voor de taal dat ons drijft!”


Garagebedrijf 

In december was de Stichting OpenTaal een feit. Deze nieuwe organisatie heeft tot doel om het vrijwilligersproject te ondersteunen en daarmee de ontwikkeling van vrije Nederlandstalige taalhulpbestanden te stimuleren. De oprichting van de stichting is mogelijk gemaakt door NLUUG, de Nederlandse vereniging voor gebruikers van open systemen en standaarden.

Brouwer licht toe: “De stichting dient als gesprekspartner. Dat nemen overheden en andere organisaties serieuzer dan een privépersoon.”

Momenteel heeft de jonge stichting meer kosten dan inkomsten. De twee mannen steken, naast veel vrije tijd, zelfs hun eigen geld in het project. “Maar dat is niet omdat we commercieel zouden willen worden,” benadrukt Baars.

Gelukkig krijgt OpenTaal ook interessante donaties in natura. Zo schonk een garagebedrijf de interne woordenlijst van technische termen en gaf het parlement de Kamerstukken van 1995 tot en met 2007. Daaruit worden dan weer woorden geoogst.

De vraag wordt wel eens gesteld waarom de inhoud van het groene boekje niet gewoon openbaar wordt gemaakt. Het blijkt dat de Taalunie dat ook wel zou willen, maar dat langlopende contractuele verplichtingen met de uitgever van het boekje dat in de weg staan.

Vanwege zulk soort struikelblokken en de complexiteit van de Nederlandse taal zullen de heren nog een hele kluif aan de verbeterde versie van de OpenTaal-modules hebben. Maar ze weten dat ze het niet voor niets doen.

“Gebruik je Nederlandstalige open-sourcesoftware die een beetje bij is, dan gebruik je onze spullen,” zegt Baars. “Op het gebied van spellingcontrole zijn er in Nederland maar twee partijen: Microsoft en OpenTaal!”

Geen opmerkingen:

Een reactie posten