Korpusy językowe

Samo gromadzenie tekstów, nawet w postaci elektronicznej nie byłoby przydatne, gdyby zbiory te nie były w pewien sposób usystematyzowane. W przeszłości dowolny zbiór dokumentów tekstowych nazywany był korpusem językowym. Współcześnie jednak korpus językowy (lingwistyczny) stanowi treści zebrane i uporządkowane według określonych kryteriów. Jest on zbiorem tekstów (słów) podlegających analizie, stanowiący spójną całość, jest to zbiór tekstów w języku naturalnym opatrzonych różnego typu informacjami dodatkowymi. Zatem korpus stanowi zestaw tekstów zawierający typowe konstrukcje oraz użycia słów wraz z informacjami o ich znaczeniu i funkcji. Korpusy językowe powinny być zapisane w postaci elektronicznej, zatem służą do analizy, przetwarzania tekstów przez komputery. Korpusy lingwistyczne stanowi źródło danych dotyczących stosowanych w danym języku konstrukcji składniowych, a także częstości ich występowania. Zawierają one cztery typy informacji:<  • metadane – informacje o tekście takie jak autor, tytuł, rok powstania itp.,

  • informacje strukturalne – informacje na temat podziału tekstu na rozdziały, akapity, oraz informacje, czy dany fragment tekstu stanowi część dłuższego tekstu, tytułu czy np. podpisu pod tabelą, rysunkiem,

  • informacje lingwistyczne (na ogół morfosyntaktyczne) – charakterystyka morfologiczna np. oznaczenie części mowy, liczba, rodzaj, przypadek wyrażenia,

  • tekst.

Korpusy lingwistyczne ponadto muszą posiadać określone cechy, aby mogły być wykorzystywane do charakteryzowania badanego języka naturalnego. Korpus powinien zatem zawierać wystarczająco dużą liczbę tekstów, które powinny być tekstami autentycznymi. Ponadto różnorodność tekstów zawartych w korpusie powinna pozwalać na zachowanie proporcji, w jakich pewne elementy języka są wykorzystywane w danym obszarze badania.


Rodzaje korpusów


Korpusy tworzone są w celu reprezentatywnego odwzorowania danego obszaru językowego np. dla określonej dziedziny. W zależności od zastosowania danego korpusu wyróżnić można rodzaje: korpusy ogólne, specjalistyczne oraz równoległe.


Korpusy ogólne gromadzą teksty z różnych dziedzin tematycznych, stylów i źródeł, przy czym stopień reprezentacji poszczególnych form języka jest porównywalny. Ponadto korpusy ogólne, aby były reprezentatywne, powinny stanowić odzwierciedlenie zakresu użycia języka naturalnego w praktyce. Jest to powiązane z zawarciem w korpusie wszystkich (o ile jest to możliwe) rodzajów tekstów, proporcjonalnie w zależności od stopnia ważności oraz stopnia używania ich przez przeciętnego użytkownika np. teksty pochodzące z czasopism, książek, blogów itp. Ustalenie proporcji w zakresie częstości stosowania poszczególnych typów wypowiedzi jest jednakże zadaniem bardzo trudnym.


Korpusy specjalistyczne zawierają teksty z określonej tematyki specjalistycznej np. telekomunikacji, medycyny, ekonomii. Do korpusów specjalistycznych zaliczane są również zbiory tekstów charakterystycznych dla danego dialektu lub okresu czasu. Korpusy równoległe natomiast zawierają te same teksty zapisane w różnych językach naturalnych.


Inną metodą podziału korpusów jest podział ze względu na czas powstania zawartych w nich tekstów. W ramach tego podziału wyróżniamy korpusy diachroniczne oraz synchroniczne. Korpusy diachroniczne zawierają teksty pochodzące z różnych okresów czasu, zarówno współczesnych, jak i historycznych oraz stanowią narzędzie badawcze dla analizy ewolucji języka. Korpusy synchroniczne natomiast stanowią zbiór tekstów pochodzących z jednego okresu czasowego i wykorzystywane są przy badaniach różnic językowych w ramach np. grup społecznych.


Kolejnymi typami korpusów lingwistycznych są korpusy referencyjne oraz monitorujące. Korpusy referencyjne przedstawiają informacje dotyczące sposobów użycia języka w określonym przedziale czasowym. Poprzez zawarcie w nich dostatecznie dużej liczby tekstów, powinny one przedstawiać różnorodność języka, jakim posługiwano się w danym okresie czasu. Inne podejście do odwzorowywania sposobów użycia języka wykorzystywane jest przy tworzeniu korpusów monitorujących. W odróżnieniu do korpusów referencyjnych, które stanowią zamkniętą i niezmienialną całość, korpusy monitorujące są zbiorami dynamicznymi – zmieniającymi się w czasie w celu przedstawienia zmian, jakie zachodzą w języku. Korpusy te są stale aktualizowane poprzez dodawanie nowych tekstów, zawierających nowe słowa wchodzące do języka. Dzięki powstawaniu takich dynamicznych korpusów monitorowane oraz dokumentowane są zmiany zachodzące w języku.


Oprócz wymienionych powyżej korpusów powstają również korpusy anotowane syntaktycznie (zawierające oprócz informacji morfologicznych również informacje składniowe) oraz semantycznie, dla których nie został określony standard oznaczeń, co powoduje różnorodność oznaczeń dla każdego tak powstałego korpusu.


Przykłady korpusów


Pierwszym korpusem językowym był korpus Brown. Korpus ten powstał w 1961 r. w celu reprezentacji amerykańskiej odmiany pisanego języka angielskiego. Zawierał on 1 mln wyrazów w podziale na 15 kategorii. Innym przykładem korpusu języka angielskiego jest Brytyjski Korpus Narodowy powstały w 1994 r., zawierający oprócz tekstów pisanych również transkrypcje mowy.


Słownik frekwencyjny polszczyzny współczesnej był pierwszym powstałym korpusem języka polskiego. Został stworzony w latach 1960 i stanowił niewielki zbiór, liczący pół miliona wyrazów. Obecnie publicznie dostępne są trzy duże korpusy języka polskiego: Korpus IPI PAN, PELCRA oraz korpus PWN, który uznawany jest za najbardziej reprezentatywny. Wersja korpusu PWN, która jest dostępna odpłatnie zawiera 40 mln słów (nieodpłatnie dostępna jest wersja demonstracyjna licząca 7 mln słów), natomiast w pełnej wersji tego korpusu zawartych zostało ok. 100 mln słów. Korpus IPI PAN jest pierwszym korpusem notowanym morfosyntaktycznie, a jego zawartość stanowi ok. 200 mln słów. Korpus PELCRA zawiera ponad 93 mln słów.


Zastosowanie korpusów językowych


Jednym z najbardziej popularnych zastosowań korpusów językowych są programy konkordacyjne. Ich działanie oparte jest na analizie korpusu w celu tworzenia zestawień wyrazów w określonym kontekście. Konkordancja stanowi zbiór przykładów użycia danego ciągu znaków (słów kluczowych), które zazwyczaj przedstawiają słowo kluczowe wraz z kontekstem po prawej i lewej stronie. Najczęściej wykorzystywanym formatem przedstawienia konkordancji jest format KWIC (key word in context). W celu przedstawienia częstotliwości pojawiania się danego wyrazu w poszczególnych kontekstach wykorzystywane są funkcje kolokacji.  Kolokacjami są wzorce występowania słów w swoim sąsiedztwie. Duże prawdopodobieństwo współwystępowania danych słów wykorzystywane jest przy tworzeniu słowników oraz w procesach nauki języków obcych. Takie zestawienia pozwalają zatem na wyznaczenie wzorców leksykalnych lub gramatycznych dla danego języka.   


Innymi narzędziami wykorzystującymi korpusy językowe są aplikacje tworzące listy frekwencyjne zawierające informacje na temat częstotliwości wystąpienia wyrazu w analizowanym zbiorze tekstów. Na ich podstawie tworzone są np. słowniki frekwencyjne, czyli słowniki najczęściej używanych słów w danym języku, które wykorzystywane są w nauce języków obcych (w celu poznania przez osobę uczącą się w pierwszej kolejności najbardziej powszechnych wyrażeń). Korpusy lingwistyczne wykorzystywane są również w procesach lematyzacji.


Istnieją również inne sposoby wykorzystania w aplikacjach korpusów językowych. Znajdują one zastosowanie w procesach analizy języka naturalnego, a także analizy tekstów. Poprzez dostępność korpusów w postaci elektronicznej, dokonywane analizy i obserwacje mogą być powtarzane oraz przeprowadzane w oparciu o różne kryteria. Wykorzystanie korpusów językowych w systemach opartych na wiedzy umożliwia automatyczne tworzenie streszczeń oraz tłumaczeń dokumentów tekstowych. Ponadto korpusy językowe znajdują zastosowanie w pracach nad budowaniem słowników specjalistycznych oraz klasyfikacji dokumentów.