O projekcie kontekstowego rozumienia języka pisanego na potrzeby systemu automatycznej poprawy błędów dla języka polskiego
Katarzyna Witkowska
Uniwersytet Warmińsko-Mazurski w OlsztynieAbstrakt
Celem niniejszej publikacji jest przedstawienie projektu badawczo-rozwojowego związanego
z opracowaniem technologii kontekstowego rozumienia języka pisanego na potrzeby
systemu automatycznej poprawy błędów dla języka polskiego. Rozważania te w oczywisty
sposób wpisują się w stosunkowo często podejmowany w ostatnim czasie (głównie
na gruncie językoznawstwa angielskiego) nurt badań dotyczący wykorzystywania metod
przetwarzania języka naturalnego (natural language processing) oraz uczenia maszynowego
(machine learning) na potrzeby zaprojektowania systemów GEC (grammatical error
correction). W pierwszym punkcie zaprezentowano (w ujęciu problemowym) stan badań,
tj. najważniejsze koncepcje z zakresu sposobów tworzenia systemów GEC. Następnie
przedstawiono charakter i cel prowadzonych prac badawczych oraz omówiono główne
założenia metodologiczne. W przedostatnim paragrafie zasygnalizowano najważniejsze
problemy związane z opracowaniem korpusu badawczego.
Słowa kluczowe:
przetwarzanie języka naturalnego, uczenie maszynowe, system korekty błędów gramatycznych, uczenie głębokie, głębokie sieci neuronowe, korekta języka polskiegoBibliografia
Bird S., Loper E., Klein E. (2009): Natural Language Proceesing with Python. USA. Google Scholar
Damerau F. J. (1964): A technique for computer detection and correction of spelling errors. „Communications of the ACM”. T. 7, nr 3, s. 171–176.
Crossref
Google Scholar
Evert S., Krenn B. (2005): Using small random samples for the manual evaluation of statistical association measures. „Computer Speech & Language” nr 19 (4), s. 450–466.
Crossref
Google Scholar
Hamming, R. W. (1950): Error detecting and error correcting codes. „The Bell System Technical Journal” nr 29 (2), s. 147–160.
Crossref
Google Scholar
Jaro M. A. (1989): Advances in record linkage methodology as applied to the 1985 census of Tampa Florida. „Journal of the American Statistical Association” nr 84 (406), s. 414–420.
Crossref
Google Scholar
Jaro M. A. (1995): Probabilistic linkage of large public health data file. „Statistics in Medicine” nr 14 (5–7), s. 491–498.
Crossref
Google Scholar
Junczys-Dowmunt M., Grundkiewicz R. (2016): Phrase-based Machine Translation is Stateof-the-Art for Automatic Grammatical Error Correction. [W:] Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics. Austin, s. 1546–1556.
Crossref
Google Scholar
Jurafsky D., Martin J. H. (2009): Speech and Language Processing, , dostęp: 25.03.2021. Google Scholar
Kerninghan M. D., Church K. W., Gale W. A. (1990): A spelling correction program based on a noisy channel model. „Proceedings of the COLING-90”, s. 205–211.
Crossref
Google Scholar
Levenshtein V. I. (1966): Binary codes capable of correcting deletions, insertions, and reversals. „Soviet Physics Doklady” nr 10 (8), s. 707–710. Google Scholar
Markowski A. (2005): Kultura języka polskiego. Teoria. Zagadnienia leksykalne. Warszawa. Google Scholar
Miłkowski M. (2008): Automated Building of Error Corpora of Polish. [W:] Corpus Linguistics, Computer Tools, and Applications – State of the Art. Red. B. Lewandowska-Tomaszczyk, s. 631–639. Google Scholar
Miłkowski M. (2010): Developing an open-source, rule-based proofreading tool. „Software – Practice and Experience” nr 40 (7), s. 543–566.
Crossref
Google Scholar
Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A. N., Kaiser Ł., Polosukhin I. (2017): Attention Is All You Need. [W:] 31st Conference on Neural Information Processing Systems. USA, s. 1–15. Google Scholar
Winkler W. E. (1990): String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage. „Proceedings of the Section on Survey Research Methods, American Statistical Association”, s. 354–359. Google Scholar
Winkler W. E. (2006): Overview of Record Linkage and Current Research Directions. Waszyngton. Google Scholar
Ziółko B., Skurzok D. (2011): N-grams model for Polish. „Speech and Language Technologies”. T. 2, s. 107–126.
Crossref
Google Scholar
Uniwersytet Warmińsko-Mazurski w Olsztynie
Licencja
Utwór dostępny jest na licencji Creative Commons Uznanie autorstwa – Użycie niekomercyjne – Bez utworów zależnych 4.0 Międzynarodowe.