O projekcie kontekstowego rozumienia języka pisanego na potrzeby systemu automatycznej poprawy błędów dla języka polskiego

Katarzyna Witkowska

Uniwersytet Warmińsko-Mazurski w Olsztynie


Анотація

Celem niniejszej publikacji jest przedstawienie projektu badawczo-rozwojowego związanego
z opracowaniem technologii kontekstowego rozumienia języka pisanego na potrzeby
systemu automatycznej poprawy błędów dla języka polskiego. Rozważania te w oczywisty
sposób wpisują się w stosunkowo często podejmowany w ostatnim czasie (głównie
na gruncie językoznawstwa angielskiego) nurt badań dotyczący wykorzystywania metod
przetwarzania języka naturalnego (natural language processing) oraz uczenia maszynowego
(machine learning) na potrzeby zaprojektowania systemów GEC (grammatical error
correction). W pierwszym punkcie zaprezentowano (w ujęciu problemowym) stan badań,
tj. najważniejsze koncepcje z zakresu sposobów tworzenia systemów GEC. Następnie
przedstawiono charakter i cel prowadzonych prac badawczych oraz omówiono główne
założenia metodologiczne. W przedostatnim paragrafie zasygnalizowano najważniejsze
problemy związane z opracowaniem korpusu badawczego.


Ключові слова:

przetwarzanie języka naturalnego, uczenie maszynowe, system korekty błędów gramatycznych, uczenie głębokie, głębokie sieci neuronowe, korekta języka polskiego


Bird S., Loper E., Klein E. (2009): Natural Language Proceesing with Python. USA.   Google Scholar

Damerau F. J. (1964): A technique for computer detection and correction of spelling errors. „Communications of the ACM”. T. 7, nr 3, s. 171–176.
Crossref   Google Scholar

Evert S., Krenn B. (2005): Using small random samples for the manual evaluation of statistical association measures. „Computer Speech & Language” nr 19 (4), s. 450–466.
Crossref   Google Scholar

Hamming, R. W. (1950): Error detecting and error correcting codes. „The Bell System Technical Journal” nr 29 (2), s. 147–160.
Crossref   Google Scholar

Jaro M. A. (1989): Advances in record linkage methodology as applied to the 1985 census of Tampa Florida. „Journal of the American Statistical Association” nr 84 (406), s. 414–420.
Crossref   Google Scholar

Jaro M. A. (1995): Probabilistic linkage of large public health data file. „Statistics in Medicine” nr 14 (5–7), s. 491–498.
Crossref   Google Scholar

Junczys-Dowmunt M., Grundkiewicz R. (2016): Phrase-based Machine Translation is Stateof-the-Art for Automatic Grammatical Error Correction. [W:] Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics. Austin, s. 1546–1556.
Crossref   Google Scholar

Jurafsky D., Martin J. H. (2009): Speech and Language Processing, , dostęp: 25.03.2021.   Google Scholar

Kerninghan M. D., Church K. W., Gale W. A. (1990): A spelling correction program based on a noisy channel model. „Proceedings of the COLING-90”, s. 205–211.
Crossref   Google Scholar

Levenshtein V. I. (1966): Binary codes capable of correcting deletions, insertions, and reversals. „Soviet Physics Doklady” nr 10 (8), s. 707–710.   Google Scholar

Markowski A. (2005): Kultura języka polskiego. Teoria. Zagadnienia leksykalne. Warszawa.   Google Scholar

Miłkowski M. (2008): Automated Building of Error Corpora of Polish. [W:] Corpus Linguistics, Computer Tools, and Applications – State of the Art. Red. B. Lewandowska-Tomaszczyk, s. 631–639.   Google Scholar

Miłkowski M. (2010): Developing an open-source, rule-based proofreading tool. „Software – Practice and Experience” nr 40 (7), s. 543–566.
Crossref   Google Scholar

Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A. N., Kaiser Ł., Polosukhin I. (2017): Attention Is All You Need. [W:] 31st Conference on Neural Information Processing Systems. USA, s. 1–15.   Google Scholar

Winkler W. E. (1990): String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage. „Proceedings of the Section on Survey Research Methods, American Statistical Association”, s. 354–359.   Google Scholar

Winkler W. E. (2006): Overview of Record Linkage and Current Research Directions. Waszyngton.   Google Scholar

Ziółko B., Skurzok D. (2011): N-grams model for Polish. „Speech and Language Technologies”. T. 2, s. 107–126.
Crossref   Google Scholar

##plugins.themes.libcom.download##


Опубліковано
2021-09-30

##plugins.themes.libcom.cytowania##

Witkowska, K. . (2021). O projekcie kontekstowego rozumienia języka pisanego na potrzeby systemu automatycznej poprawy błędów dla języka polskiego. Prace Językoznawcze, 23(3), 105–113. https://doi.org/10.31648/pj.6839

Katarzyna Witkowska 
Uniwersytet Warmińsko-Mazurski w Olsztynie



Ліцензія

Creative Commons License

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

https://creativecommons.org/licenses/by/4.0/deed.uk