Web crawling for linguistic purposes. Selected aspects of collecting and analyzing text data on the example of Russian-language Internet news

Daniel Borysowski

Uniwersytet Opolski


Abstract

The author of the article collected nearly 2.7 million excerpts of Russian-language Internet
news. The main objectives of the article include: discussing the concept of web crawling
in relation to the acquisition of online text data, addressing issues related to structuring
such data in unannotated text corpora, as well as presenting selected aspects of analyzing
data structured this way. The author considers Internet news to be a combination of the
main text and metadata that identifies and characterizes it (acquired during automatic
extraction from websites). The categorization of news into the main text and metadata
creates an opportunity to analyze it from two perspectives – textual and meta-information (and an additional perspective that combines these two, for example for the purpose of
chronological studies). An outline of possible linguistic research into the collected material
is supplemented with evaluating selected multi-word tokens extracted from these texts
based on the delimitation function of quotation marks.


Keywords:

web crawling, corpus of text files, Internet news, text delimiter, quote, re-product, multi-word expressions


Baldwin T., Kim S. N. (2010): Multiword Expressions. [W:] Handbook of Natural Language Processing. Red. N. Indurkhya, F. J. Damerau. Boca Raton, s. 267–292.   Google Scholar

Bańko M. (2001): Z pogranicza leksykografii i językoznawstwa. Studia o słowniku jednojęzycznym. Warszawa.   Google Scholar

Bartmiński J., Niebrzegowska-Bartmińska S. (2009): Tekstologia. Warszawa.   Google Scholar

Bogusławski A. (1976): O zasadach rejestracji jednostek języka. „Poradnik Językowy” nr 8, s. 356–364.   Google Scholar

Bogusławski A. (1989): Preliminaria gramatyki operacyjnej. „Polonica” R. XIII, s. 163–223.   Google Scholar

Chlebda W. (2003): Elementy frazematyki. Wprowadzenie do frazeologii nadawcy. Łask.   Google Scholar

Chlebda W. (2010): Nieautomatyczne drogi dochodzenia do reproduktów wielowyrazowych. [W:] Na tropach reproduktów. W poszukiwaniu wielowyrazowych jednostek języka. Red. W. Chlebda. Opole, s. 15–35.   Google Scholar

Falkowska M. (2019): Derywatywy słowotwórcze od rzeczownika empatia w tekstach współczesnej polszczyzny. Analiza semantyczna. [W:] Book of Abstracts. Polish Cognitive Linguistics Association Conference 2019. Cognitive Linguistics in the Year 2019. Białystok, s. 30.   Google Scholar

Fiedoruszkow J. (2010): Metody automatyzacji ekscerpcji konstrukcji atrybutywnych języka rosyjskiego. [W:] Na tropach reproduktów. W poszukiwaniu wielowyrazowych jednostek języka. Red. W. Chlebda. Opole, s. 59–85.   Google Scholar

Graliński F., Wierzchoń P. (2017): Jak powstaje słownik efemeryd leksykalnych polszczyzny XIX i XX wieku? [W:] Wokół „300 tysięcy polskich słów”. Wstęp do hasłownikologii. Red. J. Wawrzyńczyk, P. Wierzchoń. Warszawa, s. 101–118.   Google Scholar

Grzenia J. (2006): Komunikacja językowa w Internecie. Warszawa.   Google Scholar

Kilgarrif A., Grefenstette G. (2003): Web as Corpus: Introduction. „Computational Linguistics” vol. 29/3, s. 333–347.
Crossref   Google Scholar

Kopotev M., Escoter L., Kormacheva D., Pierce M., Pivovarova L., Yangarber R. (2015):   Google Scholar

CoCoCo: Online Extraction of Russian Multiword Expressions. [W:] Proceedings of the 5th Workshop on Balto-Slavic Natural Language Processing. Sofia, s. 43–45.   Google Scholar

Kozioł-Chrzanowska E. (2015): „Przekrojowa” rubryka Heca hecą jako źródło potocznych reproduktów języka polskiego. Kraków.   Google Scholar

Kudra A. (2010): News jako funkcja. „Acta Universitatis Lodziensis. Folia Litteraria Polonica” nr 13, s. 399–404.   Google Scholar

Leskovec J., Rajarman A., Ullman J. D. (2010–2014): Mining of Massive Datasets. Cambridge.
Crossref   Google Scholar

Loewe I. (2007): Gatunki paratekstowe w komunikacji medialnej. Katowice.   Google Scholar

Małek E. (2006): Filtry Wierzchonia jako narzędzie badawcze filologa. Łódź.   Google Scholar

Manku G. S., Jain A., Sarma A. D. (2007): Detecting Near-Duplicates for Web Crawling. [W:] WWW’07: Proceeding of the 16th International Conference on World Wide Web. New York, s. 141–149.
Crossref   Google Scholar

Ortiz Suárez P. J., Romary L., Sagot B. (2020): A Monolingual Approach to Contextualized Word Embeddings for Mid-Resource Languages. [W:] Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Red. D. Jurafsky, J. Chai,
Crossref   Google Scholar

N. Schluter, J. Tetreault. ACL, s. 1703–1714.   Google Scholar

Pajdzińska A. (2006): Granice związku frazeologicznego jako problem leksykograficzny. [W:] Studia frazeologiczne. Red. A. Pajdzińska. Łask, s. 222–231.   Google Scholar

Pęzik P. (2013a): Wybrane aspekty reprezentatywności małych i średnich korpusów. [W:] Na tropach korpusów. W poszukiwaniu optymalnych zbiorów tekstów. Red. W. Chlebda. Opole, s. 45–58.   Google Scholar

Pęzik P. (2013b): Paradygmat dystrybucyjny w badaniach frazeologicznych. Powtarzalność, reprodukcja i idiomatyzacja. [W:] Metodologie językoznawstwa. Ewolucja języka. Ewolucja teorii językoznawczych. Red. P. Stalmaszczyk. Łódź, s. 143–160.   Google Scholar

Pęzik P. (2018): Increasing the Accessibility of Time-Aligned Speech Corpora with Spokes Mix. [W:] LREC 2018: Eleventh International Conference on Language Resources and Evaluation. Miyazaki, s. 4297–4300.   Google Scholar

Pęzik P. (2020): Budowa i funkcje korpusu monitorującego MoncoPL. „Forum Lingwistyczne” nr 7, s. 133–150. Online: https://www.journals.us.edu.pl/index.php/FL/article/view/10335/7978. Pipierski A. Cz. (2013): Gienieralnyj intierniet-korpus russkogo jazyka i poniatije riepriezientatiwnosti w korpusnoj lingwistikie, „Gienieralnyj Intierniet-Korpus Russkogo Jazyka”, , dostęp: 19.10.2020.
Crossref   Google Scholar

Ratcliff J. W., Metzener D. (1988): Pattern Matching: The Gestalt Approach. „Dr. Dobb’s Journal” vol. 7, s. 46.   Google Scholar

Shavrina T., Shapovalova O. (2017): To the Methodology of Corpus Construction for Machine Learning: „Taiga” Syntax Tree Corpus and Parser. [W:] Trudy mieżdunarodnoj konfieriencyi „Korpusnaja lingwistika – 2017”. Red. V. P. Zakharov, M. V. Khokhlova. St. Petersburg, s. 78–84.   Google Scholar

Sinclair J. (1996): The search for units of meaning. „Textus” vol. 9/1, s. 75–106.   Google Scholar

Wierzchoń P. (2002): Automatyzacja ekscerpcji definiowanych połączeń wyrazowych. Filtry wyrażeń regularnych. [W:] Przestrzenie informacji. Red. P. Nowak, W. Krzemińska. Poznań, s. 119–184.   Google Scholar

Wierzchoń P. (2010): Pięć bardzo skutecznych (sprawdzonych) sposobów na masowe wyodrębnianie wielowyrazowych segmentów podejrzanych o frazematyczność (czyli reproduktów). [W:] Na tropach reproduktów. W poszukiwaniu wielowyrazowych jednostek języka. Red. W. Chlebda. Opole, s. 87–125.   Google Scholar

Wierzchoń P. (2013): Druga dekada XXI wieku będzie dekadą „małej diachronii”. [W:] Na tropach korpusów. W poszukiwaniu optymalnych zbiorów tekstów. Red. W. Chlebda. Opole, s. 97–111.   Google Scholar

Witosz B. (2016): Lingwistyczne koncepcje tekstu wobec wyzwań komunikacji wirtualnej. [W:] Język w internecie. Antologia. Red. M. Kita, I. Loewe. Katowice, s. 101–112.   Google Scholar

Zielenkow Ju. G., Siegałowicz I. W. (2007): Srawnitielnyj analiz mietodow opriedielenija nieczetkich dublikatow dla Web-dokumientow. „Gienieralnyj Intierniet-Korpus Russkogo Jazyka”, , dostęp: 20.10.2020.   Google Scholar


Published
2021-09-30

Cited by

Borysowski, D. . (2021). Web crawling for linguistic purposes. Selected aspects of collecting and analyzing text data on the example of Russian-language Internet news. Prace Językoznawcze, 23(3), 87–104. https://doi.org/10.31648/pj.6838

Daniel Borysowski 
Uniwersytet Opolski