Page is hosted by
Project page http://sourceforge.net/projects/ispell-pl
Polski słownik dla ispella
Strona polskiego zbioru wyrazów dla programu ispell. Można znaleźć tutaj
oficjalne wersje słownika, opisy i inne rzeczy związane bezpośrednio z projektem
utworzenia zbioru słów dla ispella na licencji GPL.
GPL + dwa dodatkowe warunki. Jeśli używasz słownika w swoim programie,
lub udostępniasz go w jakimś pakiecie (np deb, rpm) itp, to musisz podać:
- dokładne wersje zarówno słownika jak i polish.aff, którego użyłeś
- adres WWW/FTP lub inny z którego ściągnąłeś słownik
Chodzi o dokładną kontrolę wersji i zawartości słownika (niech użytkownicy
Twoich programow wiedzą czego używają, im będzie wtedy także łatwiej uaktulanić
słownik).
Zasoby:
Nowe wersje słownika pojawiają się średnio raz w roku. Bazę słów w wersji
z 20 listopada 2002 uzupełniono i zweryfikowano wykorzystując, udostępniony
przez autorów, słownik programu
KORRIDA, zawierający ponad dwa miliony form.
Ostatnie wersje słownika można ściągnąć z sekcji download
projektu ispell-pl. Większość informacji o słowniku można znaleźć w pliku
CZYTAJ.TO. Jeśli tworzysz pakiet binarny w oparciu o ten słownik, to musisz
umieścić w nim plik CZYTAJ.TO oraz informację o licencji.
Słownik składa się z kilku podsłowników, podzielonych ze względu na częstość
występujących wyrazów. Poza tym wyodrębnione zostały specjalne zestawy słów
(tzw. słowniki fachowe). Dodatkowo do słownika w wersji 20011004 dołączona
jest na początku lista najczęściej występująych w j. polskim wyrazów, wg
częstości. Jeśli słownik jest używany tylko do odpowiedzi na pytanie, czy
dany wyraz w nim występuje, to umieszczenie na samym początku listy wyrazów
najczęstszych przyspiesza kilkukrotnie jego działanie (zwiększa to natomiast
objętość pliku słownikowego).
Sam słownik posiada jeszcze pewne braki, które wynikają głównie ze sposobu,
w jaki były wprowadzane wyrazy. Brakuje czasem częstych wyrazów z nieregularną
odmianą (wprowadzane były i oflagowywane całe klasy części mowy).
Słownik do OpenOffice można ściągnąć
ze stron OpenOffice, FTP.
Słownik do aspella można ściągnąć
stąd.
Alternatywny słownik do ispella (powstały na bazie ispella ze zmienionym plikiem reguł oraz
dodaną pewną ilością wyrazów można znaleźć
tamże.
TODO LIST (Lista rzeczy do zrobienia)
Przede wszystkim ta lista:
- Niekonsekwentnie wprowadzony stopień wyższy i najwyższy dla przymiotników.
Ze względu na regularną odmianę obu tych stopni są one traktowane jako oddzielnie
oflagowane wyrazy.
- Stworzenie koncepcji bazy danych, w której można byłoby przechowywać
wyrazy wraz z ich oflagowaniami w taki sposób, by można było w sposób automatyczny
nanosić poprawki. Podstawowym problemem jest to, że wyrazu nie moża zidentyfikować
poprzez jego formę podstawową, gdyż istnieją równobrzmiące słowa, mające różne
odmiany w zależności od znaczenia. Tak samo jest z pewnymi archaizmami. Jeśli
teraz otrzymujemy od kogoś listę wyrazów poprawnie oflagowanych, to nigdy
nie wiemy, który z dwóch zestawów flag poprawić, tym bardziej, że użytkownik
zgłaszający poprawkę może nie zdawać sobie sprawy, że to słowo ma także inną
odmianę (zwykle bardzo rzadką) i uwspólnienie flag może prowadzić w konsekwencji
do utraty informacji. Poza tym traktowanie wyrazów o dwóch różnych odmianach
oddzielnie pozwala na umieszczeniu jednej z nich np. w słowniku A, natomiast
drugiej np. w C oraz łączenie flag dopiero na etapie generowania słownika.
- Imiesłowy przymiotnikowe: bardzo liczna grupa rzadko występujących
wyrazów o regularnej odmianie.
- Uporządkowanie słowników fachowych.
- Uporządkowanie znaków przestanowych (takich jak kropki w skrótach,
dywizy i półpauzy w wyrazach, itp). Tutaj niestety trafiamy na niedoskonałości,
a właściwie na niedostosowanie ispella do warunków polskich.
- Dopracowanie skryptów tworzących słownik. Teraz używany jest perl i
bash ale być może dałoby się użyć prostszego narzędzia (takiego jak np. awk),
które można byłoby udostępnić obok słownika. Dotyczy to przede wszystkim
systemów DOS/Windows.
- aspell - program ten zysukje coraz większą popularność, jednak
nie radzi sobie z tak obszernym materiałem jakim jest słownik polski do ispella.
Być może istnieje jakiś sposób na ,,oswojenie'' tego programu wykorzystując
ten materiał.
- Inne ,,sprawdzacze pisowni'': pytanie o sposób użycia w nich tej listy
słów.
Informacje o wykonanych pracach.
- około 2,5 miln form
- polish.aff zapewniający zgodne z zasadami gramatycznymi gramtycznymi
generowanie wyrazów
- podział na słowniki (wg częstości występowania oraz podział na kategorie
wyrazów, tzw. słowniki fachowe)
- słownik zawierający konkordancje (najczęściej występujące wyrazy zebrane
z wielu tekstów (głównie z literatury) dostępnych w Internecie oraz otrzymane
od osób prywatnych
Mirosław Prywata