Biuletyn Polonistyczny

Projekt badawczy

Data dodania: 18.05.2021

#PolskaHumanistykaCyfrowa || Automatyczna analiza fleksyjna tekstów polskich z lat 1830-1918 z uwzględnieniem zmian w odmianie i pisowni

Instytucje:
Uniwersytet Warszawski (Instytucja kierująca)

Celem projektu jest stworzenie analizatora fleksyjnego dla polszczyzny drugiej połowy doby nowopolskiej, co jest wstępnym krokiem dla komputerowej analizy tekstów dawnych. Analizator ten będzie rozpoznawać formy z zachowaniem osobliwości odmiany i pisowni lat 1830-1918. Jego struktura zostanie tak zaprojektowana, by mógł on być podstawą dalszych rozszerzeń o stany wcześniejsze (przede wszystkim o pierwszą połowę doby nowopolskiej).
Jednocześnie w ramach projektu, obok analizatora morfologicznego, powstanie nieduży (1 mln segmentów), oznakowany korpus tekstów z lat 1830-1918. Zasób ten zostanie udostępniony wraz z przeszukiwarką według kryteriów fleksyjnych i metatekstowych (periodyzacja próbek, ich przyporządkowanie do podzbiorów stylów funkcjonalnych, składniki opisu bibliograficznego).

Zasadnicze cele projektu to:

  1. opis systemowych zmian w zakresie odmiany polszczyzny pisanej w latach 1830-1918;
  2. stworzenie słownika fleksyjnego ukazującego ewolucję odmiany;
  3. stworzenie małego korpusu gronowego (~1M segmentów, 1000 próbek) o równym pokryciu czasowym, z podziałem na podkorpusy stylów funkcjonalnych.

Drugi cel wiąże się z opracowaniem koncepcji leksykograficznej opisu zmian fleksyjnych i pisownianych w (elektronicznym) słowniku gramatycznym. Słownik ten będzie podstawą analizatora morfologicznego, zawierającego oprócz wzorców funkcjonujących do dziś paradygmaty funkcjonujące w badanym okresie, a współcześnie wygasłe.
Ponadto za cel postawiono stworzenie niewielkiego (1 mln segmentów) korpusu języka polskiego lat 1830–1918. Korpus ten będzie wykorzystany do identyfikacji ciągów nieznanych analizatorowi oraz do testowania wzorców dodawanych. Korpus zostanie oznakowany i udostępniony (z możliwością przeszukiwania według zróżnicowanych kryteriów fleksyjnych i metatekstowych).
Punktem wyjścia prac będzie zgromadzenie korpusu o długości 1 mln, na który będzię się składać 1000 próbek o długości ok. 1000 segmentów (priorytetem jest umieszczenie w próbce pełnych wypowiedzeń, nie zaś dokładna liczba słów). Próbki te będą zachowywać zróżnicowanie stylistyczne stosowane w Słowniku frekwencyjnym polszczyzny współczesnej. *

Instytucja realizująca projekt:

  • Instytut Języka Polskiego Uniwersytetu Warszawskiego


#PolskaHumanistykaCyfrowa - katalog humanistycznych projektów cyfrowych w Polsce. Celem powstania katalogu jest prezentacja różnorodnych projektów z zakresu szeroko pojętej humanistyki cyfrowej w Polsce. Katalog powstał w oparciu o ankietę przeprowadzoną wśród instytucji oraz osób prowadzących projekty, w których komponent cyfrowy stanowi kluczowy element pozyskania, analizy bądź prezentacji danych.

*informacje zaczerpnięte ze strony internetowej projektu

Informacje

Data dodania:
18 maja 2021; 14:56 (HCyfrowa )
Data edycji:
15 czerwca 2021; 17:32 (Mariola Wilczak)

Zobacz także

16.05.2021

#PolskaHumanistykaCyfrowa || Elektroniczny korpus polskiej łaciny średniowiecznej

Celem projektu jest rozbudowa pilotażowej wersji korpusu łaciny średniowiecznej – nowatorskiego przedsięwzięcia, które pozwoliło udostępnić badaczom na zasadach open access zawierający około 5 milionów segmentów ogólny korpus języka łacińskiego używanego w średniowieczu. Projekt przewiduje m.in. rozszerzenie bazy źródłowej, kontrolę jej reprezentatywności oraz obróbkę tekstów na potrzeby przeszukiwania i analizy statystycznej.

03.06.2017

Opis paradygmatyczny polskich frazeologizmów czasownikowych. Słownik elektroniczny

Projekt badawczy finansowany przez NCN w latach 2014-2017.

16.05.2021

#PolskaHumanistykaCyfrowa || Długosz 2.0 Korpus i narzędzia analizy języka

Celem projektu jest stworzenie zestawu elektronicznych narzędzi do badań nad językiem Jana Długosza i wykorzystanie narzędzi elektronicznych w pogłębionej analizie jego twórczości. 

09.04.2015

Słownik metafor i konotacji nazw własnych

Celem projektu był leksykograficzny opis wtórnych wystąpień nazw własnych w polskim dyskursie publicznym. Nazwy własne mogą stać się one nośnikami rozmaitych sensów i konotacji, nabytych w głównej mierze przez utrwalenie (stereotypizację) wyróżniających cech obiektów denotowanych przez te nazwy. Jednym z najbardziej rozpowszechnionych tekstowo sposobów przejawiania się tych funkcji jest metaforyczne użycie nazw, a ściślej: użycie nazw własnych w funkcji nośnika metafory.

Używamy plików cookies, by ułatwić korzystanie z naszych serwisów. Jeśli nie chcesz, by pliki cookies były zapisywanena Twoim dysku, zmień ustawienia swojej przeglądarki. Sprawdź informacje o plikach cookies.