Web crawling dla celów lingwistycznych. Wybrane aspekty gromadzenia i analizy danych tekstowych na przykładzie rosyjskojęzycznych newsów internetowych
Daniel Borysowski
Uniwersytet OpolskiАннотация
Autor niniejszego artykułu zgromadził ok. 2,7 mln rosyjskojęzycznych newsów internetowych.
Zasadnicze cele tego tekstu stanowią: omówienie pojęcia web crawlingu
w odniesieniu do pozyskiwania internetowych danych tekstowych, omówienie kwestii
strukturyzacji takich danych w nieanotowanych korpusach tekstowych, a także przedstawienie
wybranych aspektów analizy danych strukturyzowanych w ten sposób. Autor
rozpatruje newsy internetowe jako połączenie tekstu zasadniczego oraz identyfikujących
i charakteryzujących go metadanych (wyróżnionych podczas automatycznej ich ekscerpcji
ze stron internetowych). Rozdział newsów na tekst zasadniczy i metadane stwarza
możliwość przeprowadzenia ich analizy z dwóch perspektyw – tekstowej oraz metainformacyjnej
(dodatkowo, np. w odniesieniu do badań chronologizacyjnych, z perspektywy
uwzględniającej oba te poziomy). Zarys możliwych badań lingwistycznych zgromadzonego
materiału uzupełnia autor ewaluacją wybranych wielowyrazowych całostek, wydobytych
z tych tekstów z wykorzystaniem delimitacyjnej funkcji cudzysłowu.
Ключевые слова:
web crawling, korpus plików tekstowych, news internetowy, ogranicznik tekstu, cudzysłów, reprodukt, związki wielowyrazoweБиблиографические ссылки
Baldwin T., Kim S. N. (2010): Multiword Expressions. [W:] Handbook of Natural Language Processing. Red. N. Indurkhya, F. J. Damerau. Boca Raton, s. 267–292. Google Scholar
Bańko M. (2001): Z pogranicza leksykografii i językoznawstwa. Studia o słowniku jednojęzycznym. Warszawa. Google Scholar
Bartmiński J., Niebrzegowska-Bartmińska S. (2009): Tekstologia. Warszawa. Google Scholar
Bogusławski A. (1976): O zasadach rejestracji jednostek języka. „Poradnik Językowy” nr 8, s. 356–364. Google Scholar
Bogusławski A. (1989): Preliminaria gramatyki operacyjnej. „Polonica” R. XIII, s. 163–223. Google Scholar
Chlebda W. (2003): Elementy frazematyki. Wprowadzenie do frazeologii nadawcy. Łask. Google Scholar
Chlebda W. (2010): Nieautomatyczne drogi dochodzenia do reproduktów wielowyrazowych. [W:] Na tropach reproduktów. W poszukiwaniu wielowyrazowych jednostek języka. Red. W. Chlebda. Opole, s. 15–35. Google Scholar
Falkowska M. (2019): Derywatywy słowotwórcze od rzeczownika empatia w tekstach współczesnej polszczyzny. Analiza semantyczna. [W:] Book of Abstracts. Polish Cognitive Linguistics Association Conference 2019. Cognitive Linguistics in the Year 2019. Białystok, s. 30. Google Scholar
Fiedoruszkow J. (2010): Metody automatyzacji ekscerpcji konstrukcji atrybutywnych języka rosyjskiego. [W:] Na tropach reproduktów. W poszukiwaniu wielowyrazowych jednostek języka. Red. W. Chlebda. Opole, s. 59–85. Google Scholar
Graliński F., Wierzchoń P. (2017): Jak powstaje słownik efemeryd leksykalnych polszczyzny XIX i XX wieku? [W:] Wokół „300 tysięcy polskich słów”. Wstęp do hasłownikologii. Red. J. Wawrzyńczyk, P. Wierzchoń. Warszawa, s. 101–118. Google Scholar
Grzenia J. (2006): Komunikacja językowa w Internecie. Warszawa. Google Scholar
Kilgarrif A., Grefenstette G. (2003): Web as Corpus: Introduction. „Computational Linguistics” vol. 29/3, s. 333–347.
Crossref
Google Scholar
Kopotev M., Escoter L., Kormacheva D., Pierce M., Pivovarova L., Yangarber R. (2015): Google Scholar
CoCoCo: Online Extraction of Russian Multiword Expressions. [W:] Proceedings of the 5th Workshop on Balto-Slavic Natural Language Processing. Sofia, s. 43–45. Google Scholar
Kozioł-Chrzanowska E. (2015): „Przekrojowa” rubryka Heca hecą jako źródło potocznych reproduktów języka polskiego. Kraków. Google Scholar
Kudra A. (2010): News jako funkcja. „Acta Universitatis Lodziensis. Folia Litteraria Polonica” nr 13, s. 399–404. Google Scholar
Leskovec J., Rajarman A., Ullman J. D. (2010–2014): Mining of Massive Datasets. Cambridge.
Crossref
Google Scholar
Loewe I. (2007): Gatunki paratekstowe w komunikacji medialnej. Katowice. Google Scholar
Małek E. (2006): Filtry Wierzchonia jako narzędzie badawcze filologa. Łódź. Google Scholar
Manku G. S., Jain A., Sarma A. D. (2007): Detecting Near-Duplicates for Web Crawling. [W:] WWW’07: Proceeding of the 16th International Conference on World Wide Web. New York, s. 141–149.
Crossref
Google Scholar
Ortiz Suárez P. J., Romary L., Sagot B. (2020): A Monolingual Approach to Contextualized Word Embeddings for Mid-Resource Languages. [W:] Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Red. D. Jurafsky, J. Chai,
Crossref
Google Scholar
N. Schluter, J. Tetreault. ACL, s. 1703–1714. Google Scholar
Pajdzińska A. (2006): Granice związku frazeologicznego jako problem leksykograficzny. [W:] Studia frazeologiczne. Red. A. Pajdzińska. Łask, s. 222–231. Google Scholar
Pęzik P. (2013a): Wybrane aspekty reprezentatywności małych i średnich korpusów. [W:] Na tropach korpusów. W poszukiwaniu optymalnych zbiorów tekstów. Red. W. Chlebda. Opole, s. 45–58. Google Scholar
Pęzik P. (2013b): Paradygmat dystrybucyjny w badaniach frazeologicznych. Powtarzalność, reprodukcja i idiomatyzacja. [W:] Metodologie językoznawstwa. Ewolucja języka. Ewolucja teorii językoznawczych. Red. P. Stalmaszczyk. Łódź, s. 143–160. Google Scholar
Pęzik P. (2018): Increasing the Accessibility of Time-Aligned Speech Corpora with Spokes Mix. [W:] LREC 2018: Eleventh International Conference on Language Resources and Evaluation. Miyazaki, s. 4297–4300. Google Scholar
Pęzik P. (2020): Budowa i funkcje korpusu monitorującego MoncoPL. „Forum Lingwistyczne” nr 7, s. 133–150. Online: https://www.journals.us.edu.pl/index.php/FL/article/view/10335/7978. Pipierski A. Cz. (2013): Gienieralnyj intierniet-korpus russkogo jazyka i poniatije riepriezientatiwnosti w korpusnoj lingwistikie, „Gienieralnyj Intierniet-Korpus Russkogo Jazyka”, , dostęp: 19.10.2020.
Crossref
Google Scholar
Ratcliff J. W., Metzener D. (1988): Pattern Matching: The Gestalt Approach. „Dr. Dobb’s Journal” vol. 7, s. 46. Google Scholar
Shavrina T., Shapovalova O. (2017): To the Methodology of Corpus Construction for Machine Learning: „Taiga” Syntax Tree Corpus and Parser. [W:] Trudy mieżdunarodnoj konfieriencyi „Korpusnaja lingwistika – 2017”. Red. V. P. Zakharov, M. V. Khokhlova. St. Petersburg, s. 78–84. Google Scholar
Sinclair J. (1996): The search for units of meaning. „Textus” vol. 9/1, s. 75–106. Google Scholar
Wierzchoń P. (2002): Automatyzacja ekscerpcji definiowanych połączeń wyrazowych. Filtry wyrażeń regularnych. [W:] Przestrzenie informacji. Red. P. Nowak, W. Krzemińska. Poznań, s. 119–184. Google Scholar
Wierzchoń P. (2010): Pięć bardzo skutecznych (sprawdzonych) sposobów na masowe wyodrębnianie wielowyrazowych segmentów podejrzanych o frazematyczność (czyli reproduktów). [W:] Na tropach reproduktów. W poszukiwaniu wielowyrazowych jednostek języka. Red. W. Chlebda. Opole, s. 87–125. Google Scholar
Wierzchoń P. (2013): Druga dekada XXI wieku będzie dekadą „małej diachronii”. [W:] Na tropach korpusów. W poszukiwaniu optymalnych zbiorów tekstów. Red. W. Chlebda. Opole, s. 97–111. Google Scholar
Witosz B. (2016): Lingwistyczne koncepcje tekstu wobec wyzwań komunikacji wirtualnej. [W:] Język w internecie. Antologia. Red. M. Kita, I. Loewe. Katowice, s. 101–112. Google Scholar
Zielenkow Ju. G., Siegałowicz I. W. (2007): Srawnitielnyj analiz mietodow opriedielenija nieczetkich dublikatow dla Web-dokumientow. „Gienieralnyj Intierniet-Korpus Russkogo Jazyka”, , dostęp: 20.10.2020. Google Scholar
Uniwersytet Opolski