Web crawling for linguistic purposes. Selected aspects of collecting and analyzing text data on the example of Russian-language Internet news
Daniel Borysowski
Uniwersytet OpolskiAbstract
The author of the article collected nearly 2.7 million excerpts of Russian-language Internet
news. The main objectives of the article include: discussing the concept of web crawling
in relation to the acquisition of online text data, addressing issues related to structuring
such data in unannotated text corpora, as well as presenting selected aspects of analyzing
data structured this way. The author considers Internet news to be a combination of the
main text and metadata that identifies and characterizes it (acquired during automatic
extraction from websites). The categorization of news into the main text and metadata
creates an opportunity to analyze it from two perspectives – textual and meta-information (and an additional perspective that combines these two, for example for the purpose of
chronological studies). An outline of possible linguistic research into the collected material
is supplemented with evaluating selected multi-word tokens extracted from these texts
based on the delimitation function of quotation marks.
Keywords:
web crawling, corpus of text files, Internet news, text delimiter, quote, re-product, multi-word expressionsReferences
Baldwin T., Kim S. N. (2010): Multiword Expressions. [W:] Handbook of Natural Language Processing. Red. N. Indurkhya, F. J. Damerau. Boca Raton, s. 267–292. Google Scholar
Bańko M. (2001): Z pogranicza leksykografii i językoznawstwa. Studia o słowniku jednojęzycznym. Warszawa. Google Scholar
Bartmiński J., Niebrzegowska-Bartmińska S. (2009): Tekstologia. Warszawa. Google Scholar
Bogusławski A. (1976): O zasadach rejestracji jednostek języka. „Poradnik Językowy” nr 8, s. 356–364. Google Scholar
Bogusławski A. (1989): Preliminaria gramatyki operacyjnej. „Polonica” R. XIII, s. 163–223. Google Scholar
Chlebda W. (2003): Elementy frazematyki. Wprowadzenie do frazeologii nadawcy. Łask. Google Scholar
Chlebda W. (2010): Nieautomatyczne drogi dochodzenia do reproduktów wielowyrazowych. [W:] Na tropach reproduktów. W poszukiwaniu wielowyrazowych jednostek języka. Red. W. Chlebda. Opole, s. 15–35. Google Scholar
Falkowska M. (2019): Derywatywy słowotwórcze od rzeczownika empatia w tekstach współczesnej polszczyzny. Analiza semantyczna. [W:] Book of Abstracts. Polish Cognitive Linguistics Association Conference 2019. Cognitive Linguistics in the Year 2019. Białystok, s. 30. Google Scholar
Fiedoruszkow J. (2010): Metody automatyzacji ekscerpcji konstrukcji atrybutywnych języka rosyjskiego. [W:] Na tropach reproduktów. W poszukiwaniu wielowyrazowych jednostek języka. Red. W. Chlebda. Opole, s. 59–85. Google Scholar
Graliński F., Wierzchoń P. (2017): Jak powstaje słownik efemeryd leksykalnych polszczyzny XIX i XX wieku? [W:] Wokół „300 tysięcy polskich słów”. Wstęp do hasłownikologii. Red. J. Wawrzyńczyk, P. Wierzchoń. Warszawa, s. 101–118. Google Scholar
Grzenia J. (2006): Komunikacja językowa w Internecie. Warszawa. Google Scholar
Kilgarrif A., Grefenstette G. (2003): Web as Corpus: Introduction. „Computational Linguistics” vol. 29/3, s. 333–347.
Crossref
Google Scholar
Kopotev M., Escoter L., Kormacheva D., Pierce M., Pivovarova L., Yangarber R. (2015): Google Scholar
CoCoCo: Online Extraction of Russian Multiword Expressions. [W:] Proceedings of the 5th Workshop on Balto-Slavic Natural Language Processing. Sofia, s. 43–45. Google Scholar
Kozioł-Chrzanowska E. (2015): „Przekrojowa” rubryka Heca hecą jako źródło potocznych reproduktów języka polskiego. Kraków. Google Scholar
Kudra A. (2010): News jako funkcja. „Acta Universitatis Lodziensis. Folia Litteraria Polonica” nr 13, s. 399–404. Google Scholar
Leskovec J., Rajarman A., Ullman J. D. (2010–2014): Mining of Massive Datasets. Cambridge.
Crossref
Google Scholar
Loewe I. (2007): Gatunki paratekstowe w komunikacji medialnej. Katowice. Google Scholar
Małek E. (2006): Filtry Wierzchonia jako narzędzie badawcze filologa. Łódź. Google Scholar
Manku G. S., Jain A., Sarma A. D. (2007): Detecting Near-Duplicates for Web Crawling. [W:] WWW’07: Proceeding of the 16th International Conference on World Wide Web. New York, s. 141–149.
Crossref
Google Scholar
Ortiz Suárez P. J., Romary L., Sagot B. (2020): A Monolingual Approach to Contextualized Word Embeddings for Mid-Resource Languages. [W:] Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Red. D. Jurafsky, J. Chai,
Crossref
Google Scholar
N. Schluter, J. Tetreault. ACL, s. 1703–1714. Google Scholar
Pajdzińska A. (2006): Granice związku frazeologicznego jako problem leksykograficzny. [W:] Studia frazeologiczne. Red. A. Pajdzińska. Łask, s. 222–231. Google Scholar
Pęzik P. (2013a): Wybrane aspekty reprezentatywności małych i średnich korpusów. [W:] Na tropach korpusów. W poszukiwaniu optymalnych zbiorów tekstów. Red. W. Chlebda. Opole, s. 45–58. Google Scholar
Pęzik P. (2013b): Paradygmat dystrybucyjny w badaniach frazeologicznych. Powtarzalność, reprodukcja i idiomatyzacja. [W:] Metodologie językoznawstwa. Ewolucja języka. Ewolucja teorii językoznawczych. Red. P. Stalmaszczyk. Łódź, s. 143–160. Google Scholar
Pęzik P. (2018): Increasing the Accessibility of Time-Aligned Speech Corpora with Spokes Mix. [W:] LREC 2018: Eleventh International Conference on Language Resources and Evaluation. Miyazaki, s. 4297–4300. Google Scholar
Pęzik P. (2020): Budowa i funkcje korpusu monitorującego MoncoPL. „Forum Lingwistyczne” nr 7, s. 133–150. Online: https://www.journals.us.edu.pl/index.php/FL/article/view/10335/7978. Pipierski A. Cz. (2013): Gienieralnyj intierniet-korpus russkogo jazyka i poniatije riepriezientatiwnosti w korpusnoj lingwistikie, „Gienieralnyj Intierniet-Korpus Russkogo Jazyka”, , dostęp: 19.10.2020.
Crossref
Google Scholar
Ratcliff J. W., Metzener D. (1988): Pattern Matching: The Gestalt Approach. „Dr. Dobb’s Journal” vol. 7, s. 46. Google Scholar
Shavrina T., Shapovalova O. (2017): To the Methodology of Corpus Construction for Machine Learning: „Taiga” Syntax Tree Corpus and Parser. [W:] Trudy mieżdunarodnoj konfieriencyi „Korpusnaja lingwistika – 2017”. Red. V. P. Zakharov, M. V. Khokhlova. St. Petersburg, s. 78–84. Google Scholar
Sinclair J. (1996): The search for units of meaning. „Textus” vol. 9/1, s. 75–106. Google Scholar
Wierzchoń P. (2002): Automatyzacja ekscerpcji definiowanych połączeń wyrazowych. Filtry wyrażeń regularnych. [W:] Przestrzenie informacji. Red. P. Nowak, W. Krzemińska. Poznań, s. 119–184. Google Scholar
Wierzchoń P. (2010): Pięć bardzo skutecznych (sprawdzonych) sposobów na masowe wyodrębnianie wielowyrazowych segmentów podejrzanych o frazematyczność (czyli reproduktów). [W:] Na tropach reproduktów. W poszukiwaniu wielowyrazowych jednostek języka. Red. W. Chlebda. Opole, s. 87–125. Google Scholar
Wierzchoń P. (2013): Druga dekada XXI wieku będzie dekadą „małej diachronii”. [W:] Na tropach korpusów. W poszukiwaniu optymalnych zbiorów tekstów. Red. W. Chlebda. Opole, s. 97–111. Google Scholar
Witosz B. (2016): Lingwistyczne koncepcje tekstu wobec wyzwań komunikacji wirtualnej. [W:] Język w internecie. Antologia. Red. M. Kita, I. Loewe. Katowice, s. 101–112. Google Scholar
Zielenkow Ju. G., Siegałowicz I. W. (2007): Srawnitielnyj analiz mietodow opriedielenija nieczetkich dublikatow dla Web-dokumientow. „Gienieralnyj Intierniet-Korpus Russkogo Jazyka”, , dostęp: 20.10.2020. Google Scholar
Uniwersytet Opolski
License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.