Metodologia - OŚRODEK BADAŃ PRASOZNAWCZYCH

Przejdź do treści

Menu główne:

Metodologia

Raport o zawartości „ZP”
Metodologia badań nad zawartością „Zeszytów Prasoznawczych”

Prezentujemy wstępne wyniki badań nad rekonstrukcją sfery tematycznej zawartości „Zeszytów Prasoznawczych”.

Celem badań było wyodrębnienie głównych wątków, problemów, autorów obecnych na łamach kwartalnika zarówno w ujęciu globalnym, jak i w poszczególnych okresach jego wydawania.
 
W procedurze badawczej wykorzystano przeniesioną z lingwistyki, a stosowaną także w analizie zawartości technikę ilościowej analizy korpusów tekstowych, czyli zbiorów tekstów języka dobranych ze względu na zamierzony cel badań.
Analiza korpusów tekstowych umożliwia badanie zarówno aktualnych wypowiedzi, jak i badań prowadzonych w ramach tzw. archeologii dyskursu. Utworzenie odpowiednich z punktu widzenia badań, homogennych korpusów daje możliwość, z jednej strony uogólnienia wyników dotyczących zachowania się wypowiedzi w ramach danego systemu, a z drugiej możliwość przeciwstawienia sobie i porównania korpusów z wielu systemów lub ich części. Jako kryterium zestawienia korpusów można ustalić instancje nadawcze, grupy odbiorców lub rodzaje wypowiedzi. Podstawą analizy musi być względnie obszerny korpus, ponieważ gdyż to nie wypowiedź jest przedmiotem analizy, lecz wielkości w niej zawarte lub wielkości, które manifestują się dopiero (wynikają) z tak a nie inaczej dokonanego zestawienia wielu wypowiedzi.
 
Pierwszym poziomem badań na tym etapie jest analiza ilościowa leksykalna. Materiał badawczy zorganizowano w następujące zbiory tekstów:
   • korpus (A)      obejmujący globalną zawartość „Zeszytów Prasoznawczych” (ok. 14 milionów słowoform[1])      oraz
   • korpusy cząstkowe, w których zgromadzono teksty publikowane w kolejnych okresach wydawania  kwartalnika[2]:
     • korpus (A1), tj. zbiór tekstów z I fazy („pospolitego ruszenia”) z lat 1958-1967 (~2,7 ml. słowoform)
     • dwa korpusy reprezentujące II fazę („pełnej profesjonalizacji”): korpus (A2a), tj. zbiór tekstów z lat 1968-1979 (~3,9 mln) oraz korpus (A2b), tj. zbiór tekstów z lat 1980-1990 (~3,6 mln);
     • dwa korpusy obejmujące teksty z III fazy („akademickiej”): korpus (A3a), tj. zbiór tekstów z lat 1991-2000 (~1,5 mln) oraz korpus (A3b), tj. zbiór tekstów opublikowanych po 2001 roku (~2,4 mln).
 
W tej fazie analizy jednostkę pomiaru stanowił wyraz. Dlatego też intensywność określonych cech tekstu określa się liczbą i zasięgiem procentowym występowania poszczególnych wyrazów w badanym zbiorze. Wyniki pomiarów statystycznych zostały ujęte w listy frekwencyjne, które posłużyły następnie do badań dystrybucji (konkordancji), istotnych ze statystycznego punktu widzenia, wyrazów, polegającej na zestawianiu wszystkich elementów danego typu (wyrazów lub grup wyrazów) występujących w badanym zbiorze tekstów wraz z ich kontekstami. Następnie sprawdzono kolokacje najistotniejszych wyrazów, inaczej: „łączliwość” pewnych słów, co posłużyło rekonstrukcji wzorów współwystępowania określonych słowoform razem z innymi, a tym samym było podstawą rekonstrukcji wzajemnych związków, wzorów współwystępowania wyrazów odnoszących się do osób, przedmiotów, cech, czynności, stanów itd.

Ilościowe analizy leksykalne doprowadziły do naszkicowania „sieci wiedzy”, czyli mapy globalnego dyskursu „Zeszytów Prasoznawczych”.

Na tym etapie badań została ponadto wykonana analiza słów kluczowych zawartości „Zeszytów” w kolejnych dekadach. Jednym z celów analizy statystycznej słownictwa danego tekstu jest uchwycenie jego charakterystycznych cech odróżniających go od innych tekstów. Służy temu właśnie analiza słów kluczowych. W tych badaniach zdecydowano się na obliczanie dla każdego zbioru tekstów (reprezentującego poszczególne okresy wydawania „Zeszytów”) jego kluczowych słowoform[3] (form wyrazowych). W tym celu korzystano z informatycznych narzędzi do analizy leksykalnej Wordsmith Tools 5.0. Program wyznacza słowoformy kluczowe badanego tekstu, porównując zasięg występowania każdej formy wyrazowej z listy frekwencyjnej w badanym korpusie z zasięgiem tej formy w korpusie referencyjnym. Aby określić ‘stopień kluczowości’ (keyness) danej słowoformy dla danego tekstu (lub zbioru tekstów) bierze się pod uwagę: 1) frekwencję występowania słowoformy w analizowanym tekście, 2) liczbę pozycji na liście frekwencyjnej tekstu analizowanego, 3) frekwencję słowoformy w większym (referencyjnym) tekście, 4) liczbę pozycji na liście frekwencyjnej korpusu referencyjnego. Na liście słowoform kluczowych pojawiają się zatem takie wyrazy, które mają nadspodziewanie wysoką frekwencję (lub nadspodziewanie niską) w porównaniu z korpusem referencyjnym[4].
 
Kolejny poziom analizy to komputerowa analiza zawartości (computer assisted content analysis) anglojęzycznych streszczeń artykułów, rozpraw i materiałów opublikowanych na łamach „Zeszytów Prasoznawczych” w latach 1960-2013 zebranych w korpus (B). W tej fazie badań jednostką analizy jest podstawowy wątek tekstów (myśl) reprezentowany w tekście przez akapit. W korpusie (B) zgromadzono łącznie 5721 akapitów. Podstawą klucza kategoryzacyjnego są słowniki kategorii opracowane z względu na pola wyrazowe, tj. uporządkowane bloki słownika odpowiadające określonym obszarom rzeczywistości[5].
 
W końcowym etapie badań została wykonana analiza czynnikowa. W jej wyniku struktura tematyczna „Zeszytów” została zredukowana do kilku najsilniejszych czynników, które determinują które z 300 kategorii analizy przejawiają tendencję do współwystępowania a tym samym – jak zakładamy – tworzą wyraźną konfigurację głównych wątków na łamach kwartalnika w latach 1960-2013. Rezultatem analizy czynnikowej[6] jest wyodrębnienie dziesięciu głównych pól tematycznych[7] opatrzonych umownymi etykietami łacińskimi. Na tym etapie badań odstąpiono od omówionej powyżej periodyzacji działalności Zeszytów (3 fazy – 5 okresów), a dynamikę zmian (w ujęciach tabelarycznych, w formie wykresów liniowych etc.) zaprezentowano ujęciu czysto chronologicznym w kolejnych dekadach: lata 60., 70., 80., 90. oraz okres 2001-2013.
 
Listy frekwencyjne wyrazów oraz zasięgi procentowe poszczególnych kategorii komputerowej analizy zawartości posłużyły rekonstrukcji „intensywności” określonych treści, listy słów kluczowych (oraz ich konteksty) oddają ich „wyrazistość (swoistość, specyficzność)”, natomiast wskaźniki korelacji poszczególnych kategorii, analizy skupień oraz rezultaty analizy czynnikowej są instrumentami badania „spójności” (inaczej porządku strukturalnego) zawartości „Zeszytów” w latach 1960-2013.

Oprac. P. Płaneta
 

 

[1] Chodzi o frekwencje form wyrazowych (token), a nie haseł (types).
[2] R. FIlas wyróżnia trzy główne okresy rozwoju pisma i nazwa je: (1) fazą „pospolitego ruszenia” (1958-1967), (2) fazą „pełnej profesjonalizacji” (1968 – 1990) oraz (3) fazą „akademicką” (od roku 1991 do dziś). Fazy te różnią się formalnie przede wszystkim sposobem organizacji pracy i umocowaniem redakcji. Zawartość kwartalnika odzwierciedlała zarówno swoje czasy, a więc uwarunkowania polityczne (typowe w czasach PRL, a więc w dwóch pierwszych fazach) i umocowanie organizacyjne w szerszych strukturach instytucjonalnych (czy to RSW czy UJ) - i OBP, i redakcji „ZP”, jak również postępy wiedzy o mediach i dziennikarstwie, a wreszcie także otoczenie zewnętrzne (jak. np. stan czasopiśmiennictwa naukowego i branżowego w danym okresie).
[3] Forma wyrazowa (słowoforma, token) jest odpowiednikiem tradycyjnego terminu „wyraz”. Słowoformy są to jednostki wyodrębnione w tekście na podstawie segmentacji graficznej za pomocą odstępów (spacji). Inaczej mówiąc, podstawą wyodrębnienia danej słowoformy służy wyłącznie jej postać graficzna, za jedną słowoformę w tym sensie uważa się wszelkie wystąpienia jednostek o tej samej postaci zewnętrznej.
[4] Słowoformy, które w badanym tekście pojawiają się częściej, niż można oczekiwać w porównaniu z korpusem referencyjnym, nazywamy pozytywnymi słowoformami kluczowymi, zaś te, których frekwencja jest statystycznie niższa – negatywnymi słowoformami kluczowymi.
[5] Podstawą zastosowanej w tych badaniach techniki komputerowej analizy zawartości są zbiory wyrazów. Najważniejszą inspiracją konstruowania tychże zbiorów jest koncepcja ‘pola wyrazowego’, którą na gruncie polskim spopularyzował wiele lat temu W. Pisarek. A zatem, w moich badaniach każda kategoria (zbiór wyrazów) to „uporządkowany blok słownika odpowiadający określonemu wycinkowi rzeczywistości percypowanej i analizowanej przez daną społeczność językową”. Por. W. Pisarek: O mediach i języku, Kraków 2007, s. 278.
[6] Wykonano za pomocą oprogramowania Statistika: Factor Loadings (Varimax raw) (matrix_kor for 297 variables.). Extraction: Principal components.
[7] Wśród wyodrębnionych obszarów celowo pominięto problematykę historyczną. Historia mediów w Polsce i na świecie jest na łamach tak obszernym nurtem, iż zasługuje na całkowicie odrębne omówienie.
Wróć do spisu treści | Wróć do menu głównego