Web crawling dla celów lingwistycznych. Wybrane aspekty gromadzenia i analizy danych tekstowych na przykładzie rosyjskojęzycznych newsów internetowych

Daniel  Borysowski

doi:10.31648/pj.6838

Web crawling dla celów lingwistycznych. Wybrane aspekty gromadzenia i analizy danych tekstowych na przykładzie rosyjskojęzycznych newsów internetowych

Daniel Borysowski

Uniwersytet Opolski

DOI: https://doi.org/10.31648/pj.6838

Анотація

Autor niniejszego artykułu zgromadził ok. 2,7 mln rosyjskojęzycznych newsów internetowych.
Zasadnicze cele tego tekstu stanowią: omówienie pojęcia web crawlingu
w odniesieniu do pozyskiwania internetowych danych tekstowych, omówienie kwestii
strukturyzacji takich danych w nieanotowanych korpusach tekstowych, a także przedstawienie
wybranych aspektów analizy danych strukturyzowanych w ten sposób. Autor
rozpatruje newsy internetowe jako połączenie tekstu zasadniczego oraz identyfikujących
i charakteryzujących go metadanych (wyróżnionych podczas automatycznej ich ekscerpcji
ze stron internetowych). Rozdział newsów na tekst zasadniczy i metadane stwarza
możliwość przeprowadzenia ich analizy z dwóch perspektyw – tekstowej oraz metainformacyjnej
(dodatkowo, np. w odniesieniu do badań chronologizacyjnych, z perspektywy
uwzględniającej oba te poziomy). Zarys możliwych badań lingwistycznych zgromadzonego
materiału uzupełnia autor ewaluacją wybranych wielowyrazowych całostek, wydobytych
z tych tekstów z wykorzystaniem delimitacyjnej funkcji cudzysłowu.

Ключові слова:

web crawling, korpus plików tekstowych, news internetowy, ogranicznik tekstu, cudzysłów, reprodukt, związki wielowyrazowe

Посилання

Baldwin T., Kim S. N. (2010): Multiword Expressions. [W:] Handbook of Natural Language Processing. Red. N. Indurkhya, F. J. Damerau. Boca Raton, s. 267–292. Google Scholar

Bańko M. (2001): Z pogranicza leksykografii i językoznawstwa. Studia o słowniku jednojęzycznym. Warszawa. Google Scholar

Bartmiński J., Niebrzegowska-Bartmińska S. (2009): Tekstologia. Warszawa. Google Scholar

Bogusławski A. (1976): O zasadach rejestracji jednostek języka. „Poradnik Językowy” nr 8, s. 356–364. Google Scholar

Bogusławski A. (1989): Preliminaria gramatyki operacyjnej. „Polonica” R. XIII, s. 163–223. Google Scholar

Chlebda W. (2003): Elementy frazematyki. Wprowadzenie do frazeologii nadawcy. Łask. Google Scholar

Chlebda W. (2010): Nieautomatyczne drogi dochodzenia do reproduktów wielowyrazowych. [W:] Na tropach reproduktów. W poszukiwaniu wielowyrazowych jednostek języka. Red. W. Chlebda. Opole, s. 15–35. Google Scholar

Falkowska M. (2019): Derywatywy słowotwórcze od rzeczownika empatia w tekstach współczesnej polszczyzny. Analiza semantyczna. [W:] Book of Abstracts. Polish Cognitive Linguistics Association Conference 2019. Cognitive Linguistics in the Year 2019. Białystok, s. 30. Google Scholar

Fiedoruszkow J. (2010): Metody automatyzacji ekscerpcji konstrukcji atrybutywnych języka rosyjskiego. [W:] Na tropach reproduktów. W poszukiwaniu wielowyrazowych jednostek języka. Red. W. Chlebda. Opole, s. 59–85. Google Scholar

Graliński F., Wierzchoń P. (2017): Jak powstaje słownik efemeryd leksykalnych polszczyzny XIX i XX wieku? [W:] Wokół „300 tysięcy polskich słów”. Wstęp do hasłownikologii. Red. J. Wawrzyńczyk, P. Wierzchoń. Warszawa, s. 101–118. Google Scholar

Grzenia J. (2006): Komunikacja językowa w Internecie. Warszawa. Google Scholar

Kilgarrif A., Grefenstette G. (2003): Web as Corpus: Introduction. „Computational Linguistics” vol. 29/3, s. 333–347.
Crossref Google Scholar

Kopotev M., Escoter L., Kormacheva D., Pierce M., Pivovarova L., Yangarber R. (2015): Google Scholar

CoCoCo: Online Extraction of Russian Multiword Expressions. [W:] Proceedings of the 5th Workshop on Balto-Slavic Natural Language Processing. Sofia, s. 43–45. Google Scholar

Kozioł-Chrzanowska E. (2015): „Przekrojowa” rubryka Heca hecą jako źródło potocznych reproduktów języka polskiego. Kraków. Google Scholar

Kudra A. (2010): News jako funkcja. „Acta Universitatis Lodziensis. Folia Litteraria Polonica” nr 13, s. 399–404. Google Scholar

Leskovec J., Rajarman A., Ullman J. D. (2010–2014): Mining of Massive Datasets. Cambridge.
Crossref Google Scholar

Loewe I. (2007): Gatunki paratekstowe w komunikacji medialnej. Katowice. Google Scholar

Małek E. (2006): Filtry Wierzchonia jako narzędzie badawcze filologa. Łódź. Google Scholar

Manku G. S., Jain A., Sarma A. D. (2007): Detecting Near-Duplicates for Web Crawling. [W:] WWW’07: Proceeding of the 16th International Conference on World Wide Web. New York, s. 141–149.
Crossref Google Scholar

Ortiz Suárez P. J., Romary L., Sagot B. (2020): A Monolingual Approach to Contextualized Word Embeddings for Mid-Resource Languages. [W:] Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Red. D. Jurafsky, J. Chai,
Crossref Google Scholar

N. Schluter, J. Tetreault. ACL, s. 1703–1714. Google Scholar

Pajdzińska A. (2006): Granice związku frazeologicznego jako problem leksykograficzny. [W:] Studia frazeologiczne. Red. A. Pajdzińska. Łask, s. 222–231. Google Scholar

Pęzik P. (2013a): Wybrane aspekty reprezentatywności małych i średnich korpusów. [W:] Na tropach korpusów. W poszukiwaniu optymalnych zbiorów tekstów. Red. W. Chlebda. Opole, s. 45–58. Google Scholar

Pęzik P. (2013b): Paradygmat dystrybucyjny w badaniach frazeologicznych. Powtarzalność, reprodukcja i idiomatyzacja. [W:] Metodologie językoznawstwa. Ewolucja języka. Ewolucja teorii językoznawczych. Red. P. Stalmaszczyk. Łódź, s. 143–160. Google Scholar

Pęzik P. (2018): Increasing the Accessibility of Time-Aligned Speech Corpora with Spokes Mix. [W:] LREC 2018: Eleventh International Conference on Language Resources and Evaluation. Miyazaki, s. 4297–4300. Google Scholar

Pęzik P. (2020): Budowa i funkcje korpusu monitorującego MoncoPL. „Forum Lingwistyczne” nr 7, s. 133–150. Online: https://www.journals.us.edu.pl/index.php/FL/article/view/10335/7978. Pipierski A. Cz. (2013): Gienieralnyj intierniet-korpus russkogo jazyka i poniatije riepriezientatiwnosti w korpusnoj lingwistikie, „Gienieralnyj Intierniet-Korpus Russkogo Jazyka”, , dostęp: 19.10.2020.
Crossref Google Scholar

Ratcliff J. W., Metzener D. (1988): Pattern Matching: The Gestalt Approach. „Dr. Dobb’s Journal” vol. 7, s. 46. Google Scholar

Shavrina T., Shapovalova O. (2017): To the Methodology of Corpus Construction for Machine Learning: „Taiga” Syntax Tree Corpus and Parser. [W:] Trudy mieżdunarodnoj konfieriencyi „Korpusnaja lingwistika – 2017”. Red. V. P. Zakharov, M. V. Khokhlova. St. Petersburg, s. 78–84. Google Scholar

Sinclair J. (1996): The search for units of meaning. „Textus” vol. 9/1, s. 75–106. Google Scholar

Wierzchoń P. (2002): Automatyzacja ekscerpcji definiowanych połączeń wyrazowych. Filtry wyrażeń regularnych. [W:] Przestrzenie informacji. Red. P. Nowak, W. Krzemińska. Poznań, s. 119–184. Google Scholar

Wierzchoń P. (2010): Pięć bardzo skutecznych (sprawdzonych) sposobów na masowe wyodrębnianie wielowyrazowych segmentów podejrzanych o frazematyczność (czyli reproduktów). [W:] Na tropach reproduktów. W poszukiwaniu wielowyrazowych jednostek języka. Red. W. Chlebda. Opole, s. 87–125. Google Scholar

Wierzchoń P. (2013): Druga dekada XXI wieku będzie dekadą „małej diachronii”. [W:] Na tropach korpusów. W poszukiwaniu optymalnych zbiorów tekstów. Red. W. Chlebda. Opole, s. 97–111. Google Scholar

Witosz B. (2016): Lingwistyczne koncepcje tekstu wobec wyzwań komunikacji wirtualnej. [W:] Język w internecie. Antologia. Red. M. Kita, I. Loewe. Katowice, s. 101–112. Google Scholar

Zielenkow Ju. G., Siegałowicz I. W. (2007): Srawnitielnyj analiz mietodow opriedielenija nieczetkich dublikatow dla Web-dokumientow. „Gienieralnyj Intierniet-Korpus Russkogo Jazyka”, , dostęp: 20.10.2020. Google Scholar

##plugins.themes.libcom.download##

PDF (Język Polski)

Опубліковано

2021-09-30

##plugins.themes.libcom.cytowania##

Borysowski, D. . (2021). Web crawling dla celów lingwistycznych. Wybrane aspekty gromadzenia i analizy danych tekstowych na przykładzie rosyjskojęzycznych newsów internetowych. Prace Językoznawcze, 23(3), 87–104. https://doi.org/10.31648/pj.6838