• česky
  • english

LM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010-2015, MSM/LM)

Údaje o projektu
Identifikační kódLM2010013
Důvěrnost údajůS - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů
Název v původním jazyceLINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat
PoskytovatelMSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)
ProgramLM - Projekty velkých infrastruktur pro VaVaI (2010-2015)
Kategorie VaVIF - Infrastruktura výzkumu a vývoje
Hlavní oborAI - Jazykověda
Vedlejší oborIN - Informatika
Zahájení řešení1.1.2010
Ukončení řešení31.12.2015
Datum posledního uvolnění účelové podpory18.4.2013
Číslo smlouvyMSMT-11440/2013-310
Poslední stav řešeníB - Běžící víceletý projekt, tj. takový, že byl řešen již v předcházejícím roce a bude řešen i v následujícím roce a v příslušném roce sběru dat jsou na něj poskytnuty finanční prostředky
Finance projektu
Období201020112012201320142015celkem
Výše podpory ze státního rozpočtu14 893 tis. Kč19 931 tis. Kč19 809 tis. Kč21 496 tis. Kč19 897 tis. Kč19 898 tis. Kč115 924 tis. Kč
Celkové uznané náklady14 893 tis. Kč19 931 tis. Kč19 809 tis. Kč21 496 tis. Kč19 897 tis. Kč19 898 tis. Kč115 924 tis. Kč
Typskutečně čerpanéskutečně čerpanéskutečně čerpanéskutečně čerpanépřidělenéplánované
Cíle řešení v původním jazyceProjekt LINDAT-CLARIN je koncipován jako český uzel mezinárodní sítě Clarin (Common Language Resources and Technology Infrastructure, FP7-RI-2122230) a projektu META-NET (Technologies for the Multilingual European Information Society, NoE, 2011-2014, FP7-ICT-4-249119) pro volné sdílení jazykových dat a pokročilých technologií mezi institucemi a jednotlivci ve vědě a výzkumu. Tyto evropské projekty mají za cíl překážky volného přístupu k jazykovým datům postupně odstranit a umožnit národně distribuované, ale technologicky jednotné poskytování jazykových dat a souvisejících technologií všem zájemcům. V oblasti anotace dat je cílem projektu pořídit tato data v dostatečném rozsahu pro praktickou aplikaci statistického modelování jazyka jako nutnou podmínku pro aplikaci těchto modelů v praxi (korektory textu, automatický překlad, extrakce informací z textu, porozumění textu, dialogové systémy apod.). V oblasti distribuce dat je cílem poskytovat službu repozitáře pro úschovu, licencování a poskytování dat v rámci celoevropské sítě Clarin a META-SHARE (součást projektu META-NET). V oblasti technologické i v oblasti lidských zdrojů je cílem vybudování know-how v oblasti sběru, úschovy, tvorby a distribuce dat, které bude možno poskytovat i externím subjektům. Přitom je třeba vyškolit jazykové odborníky i odborníky z oblasti technologií (informatika, statistika, matematické modelování) tak, aby byli schopni v tomto výrazné mezioborovém projektu efektivně pracovat. Nezanedbatelným cílem projektu je vychovat další vědeckou generaci, která bude umět s jazykovými daty pracovat, správně je analyzovat a používat v národním i mezinárodním kontextu, a spolupracovat v rámci EU i mimo ni na budoucích projektech využívajících moderní jazykové technologie.
Klíčová slova v anglickém jazycelanguage resources; langauge databases; public access to scientific data; langauge corpora; machine translation; natural language processing; computational linguistics
Rok dodání údajů do CEP2014
Systémové označení dodávky datCEP14-MSM-LM-R/02:2
Datum dodání záznamu25.3.2014
Účastníci projektu
Počet příjemců2
Počet dalších účastníků projektu2
Koordinující příjemce / Organizační jednotka garantující řešeníUniverzita Karlova v Praze / Matematicko-fyzikální fakulta
ŘešitelProf. RNDr. Jan Hajič, Dr. (státní příslušnost: CZ - Česká republika; vedidk: 9997180)
Příjemce / Organizační jednotka garantující řešeníMasarykova univerzita / Fakulta informatiky
Řešiteldoc. PhDr. Karel Pala, CSc. (státní příslušnost: CZ - Česká republika; vedidk: 6076939)
Další účastník projektuÚstav pro jazyk český AV ČR, v. v. i.
Řešiteldoc. RNDr. Karel Oliva, Ph.D. (státní příslušnost: CZ - Česká republika; vedidk: 8027854)
Další účastník projektu / Organizační jednotka garantující řešeníZápadočeská univerzita v Plzni / Fakulta aplikovaných věd
Řešitelprof. Ing. Josef Psutka, CSc. (státní příslušnost: CZ - Česká republika; vedidk: 4396855)
Finance účastníků projektu
Poznámka: Finance účastníků projektu jsou sledovány od roku 2007
Výše podpory ze státního rozpočtu
Účastník201020112012201320142015
Univerzita Karlova v Praze / Matematicko-fyzikální fakulta14 893 tis. Kč13 949 tis. Kč13 971 tis. Kč15 658 tis. Kč14 059 tis. Kč14 060 tis. Kč
Masarykova univerzita / Fakulta informatiky1 994 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč
Ústav pro jazyk český AV ČR, v. v. i.1 994 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč
Západočeská univerzita v Plzni / Fakulta aplikovaných věd1 994 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč
Celkové uznané náklady
Účastník201020112012201320142015
Univerzita Karlova v Praze / Matematicko-fyzikální fakulta14 893 tis. Kč13 949 tis. Kč13 971 tis. Kč15 658 tis. Kč14 059 tis. Kč14 060 tis. Kč
Masarykova univerzita / Fakulta informatiky1 994 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč
Ústav pro jazyk český AV ČR, v. v. i.1 994 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč
Západočeská univerzita v Plzni / Fakulta aplikovaných věd1 994 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč
Výsledky projektu v RIV
Počet výsledků v RIV70
Výsledek druhu DRIV/00216208:11320/12:10130037 - A database of semantic clusters of verb usages (2012)
Výsledek druhu DRIV/00216208:11320/12:10130074 - A Dataset Comparison for an Indonesian-English Statistical Machine Translation System (2012)
Výsledek druhu DRIV/00216208:11320/12:10130097 - A High-Quality Web Corpus of Czech (2012)
Výsledek druhu DRIV/00216224:14330/12:00062508 - Adaptation of Czech Parsers for Slovak (2012)
Výsledek druhu DRIV/00216208:11320/12:10130065 - Analyzing the Most Common Errors in the Discourse Annotation of the Prague Dependency Treebank (2012)
Výsledek druhu JRIV/49777513:23520/12:43915504 - Application of Lemmatization and Summarization Methods in Topic Identification Module for Large Scale Language Modeling Data Filtering (2012)
Výsledek druhu DRIV/00216208:11320/12:10130043 - Application of Topic Segmentation in Audiovisual Information Retrieval (2012)
Výsledek druhu DRIV/00216208:11320/12:10130083 - Assimetrii meždу glуbinnym i poverchnostnym prestavleniem predloženija (na primere dvуch tipov obstojatelstv v češskom jazyke) (2012)
Výsledek druhu DRIV/00216224:14330/12:00057572 - Building a 70 billion word corpus of English from ClueWeb (2012)
Výsledek druhu DRIV/00216208:11320/12:10130057 - Building a Corpus of Old Czech (2012)
Výsledek druhu DRIV/00216224:14330/12:00062319 - Building A Thesaurus Using LDA-Frames (2012)
Výsledek druhu DRIV/00216224:14330/12:00057949 - Building Evaluation Dataset for Textual Entailment in Czech (2012)
Výsledek druhu BRIV/68378092:_____/12:00388951 - Český jazykový atlas 1 (2012)
Výsledek druhu BRIV/68378092:_____/12:00388960 - Český jazykový atlas 2 (2012)
Výsledek druhu DRIV/00216224:14330/12:00057557 - Common Sense Inference using Verb Valency Frames (2012)
Výsledek druhu JRIV/00216208:11320/12:10129915 - Concurrent effects of lexical status and letter-rotation during early stages of visual word recognition: evidence from ERPs (2012)
Výsledek druhu DRIV/00216208:11320/12:10130105 - Creating annotated resources for polarity classification in Czech (2012)
Výsledek druhu DRIV/00216224:14330/12:00062284 - Detecting Spam in Web Corpora (2012)
Výsledek druhu RRIV/00216208:11320/12:10132450 - Dialogy.Org 1.1 (2012)
Výsledek druhu DRIV/00216224:14330/12:00057392 - Finding Multiwords of More Than Two Words (2012)
Výsledek druhu DRIV/00216208:11320/12:10130039 - Formemes in English-Czech Deep Syntactic MT (2012)
Výsledek druhu DRIV/00216208:11320/12:10130110 - HamleDT: To Parse or Not to Parse? (2012)
Výsledek druhu DRIV/00216208:11320/12:10130077 - IDENTIC Corpus: Morphologically Enriched Indonesian-English Parallel Corpus (2012)
Výsledek druhu DRIV/00216224:14330/12:00062222 - Improving Automatic Ontology Developement (2012)
Výsledek druhu DRIV/00216208:11320/12:10130086 - Interplay of Coreference and Discourse Relations: Discourse Connectives with a Referential Component (2012)
Výsledek druhu DRIV/00216208:11320/12:10130029 - The Joy of Parallelism with CzEng 1.0 (2012)
Výsledek druhu JRIV/68378092:_____/12:00390719 - Klad a zápor po slovesech bránění (2012)
Výsledek druhu DRIV/00216208:11320/12:10130079 - Language Richness of the Web (2012)
Výsledek druhu DRIV/00216224:14330/12:00059944 - Large Corpora for Turkic Languages and Unsupervised Morphological Analysis (2012)
Výsledek druhu DRIV/00216224:14330/12:00057989 - Linguistic Logical Analysis of Direct Speech (2012)
Výsledek druhu DRIV/00216224:14330/12:00057239 - Low-cost ontology development (2012)
Výsledek druhu DRIV/00216208:11320/12:10130038 - Maintaining consistency of monolingual verb entries with interannotator agreement (2012)
Výsledek druhu JRIV/00216208:11320/12:10130070 - Making Community and ASR Join Forces in Web (2012)
Výsledek druhu JRIV/00216208:11320/12:10129914 - Mapping Semantic Information from FrameNet onto VALLEX (2012)
Výsledek druhu DRIV/00216224:14330/12:00057240 - Migrating Cornetto Lexicon to New XML Database Engine (2012)
Výsledek druhu ARIV/68378092:_____/12:00389360 - Modul digitalizovaných mluvnic — charakteristiky 21 mluvnic, redakce k 24. 10. 2012 (2012)
Výsledek druhu DRIV/68378092:_____/12:00389342 - Modul digitalizovaných mluvnic: co k čemu, pro koho (2012)
Výsledek druhu DRIV/00216208:11320/12:10134008 - Možnosti jednotlivých volných slovesných doplnění být obligatorním členem věty (2012)
Výsledek druhu JRIV/00216208:11320/12:10129912 - Nejčastější konektivní prostředky kauzálního vztahu v Pražském závislostním korpusu (2012)
Výsledek druhu JRIV/00216208:11210/12:10129917 - On a Corpus of Older Czech Texts and Its Usage (2012)
Výsledek druhu JRIV/00216208:11320/12:10129909 - On scalarity in information structure (2012)
Výsledek druhu DRIV/00216208:11320/12:10130036 - Optimizing semantic granularity for NLP - report on a lexicographic experiment (2012)
Výsledek druhu RRIV/49777513:23520/12:43917952 - OVM - Otázky Václava Moravce (2012)
Výsledek druhu DRIV/00216224:14330/12:00061900 - POS Annotated 50M Corpus of Tajik Language (2012)
Výsledek druhu RRIV/00216208:11320/12:10132451 - Prague Discourse Treebank 1.0 (2012)
Výsledek druhu DRIV/00216208:11320/12:10130059 - Prague Markup Language Framework (2012)
Výsledek druhu DRIV/00216224:14330/12:00057973 - Recent Czech Web Corpora (2012)
Výsledek druhu JRIV/00216208:11320/12:10130067 - The Rule-Based Approach to Czech Grammaticalized Alternations (2012)
Výsledek druhu DRIV/00216224:14330/12:00062331 - Saara: Anaphora Resolution on Free Text in Czech (2012)
Výsledek druhu JRIV/00216208:11320/12:10130111 - Sentence Modality Assignment in the Prague Dependency Treebank (2012)
Výsledek druhu RRIV/00216224:14330/12:00064706 - SpiderLing (2012)
Výsledek druhu RRIV/00216224:14330/12:00058274 - Syntactic parser SET (2012)
Výsledek druhu JRIV/00216208:11320/12:10129913 - Syntaktické konstrukce typu Včely se hemží na zahradě - Zahrada se hemží včelami (2012)
Výsledek druhu DRIV/00216208:11320/12:10130066 - The Syntax-Semantics Interface of Czech Verbs in the Valency Lexicon (2012)
Výsledek druhu DRIV/00216208:11320/12:10130054 - Topic-Focus revisited (Through the eyes of the Prague Dependency Treebank) (2012)
Výsledek druhu DRIV/00216224:14330/12:00064722 - Towards 100M Morphologically Annotated Corpus of Tajik (2012)
Výsledek druhu DRIV/00216208:11320/12:10130075 - Towards an Indonesian-English SMT System: A Case Study of an Under-Studied and Under-Resourced Language, Indonesian (2012)
Výsledek druhu RRIV/00216208:11320/12:10132449 - VALLEX 2.6 (2012)
Výsledek druhu JRIV/00216208:11320/11:10107810 - An attractive game with the document: (im)possible? (2011)
Výsledek druhu RRIV/00216208:11210/11:10109521 - Extended Textual Coreference and Bridging Relations in PDT 2.0 (2011)
Výsledek druhu CRIV/00216208:11210/11:10108078 - Korpusy mluvené češtiny a možnosti jejich využití pro poznání rozdílných "světů" mluvenosti a psanosti (2011)
Výsledek druhu RRIV/00216208:11320/11:10109513 - Prague Czech-English Dependency Treebank 2.0 (2011)
Výsledek druhu RRIV/00216208:11320/11:10109514 - Prague Database of Spoken English (2011)
Výsledek druhu RRIV/00216208:11320/11:10109511 - Prague Dependency Treebank 2.5 (2011)
Výsledek druhu RRIV/00216208:11320/11:10109515 - Pražská databáze mluvené češtiny (2011)
Výsledek druhu BRIV/00216208:11320/11:10109109 - Valence sloves v Pražském závislostním korpusu (2011)
Výsledek druhu BRIV/00216208:11320/11:10109110 - Valenční slovník Pražského závislostního korpusu (PDT-Vallex) (2011)
Výsledek druhu BRIV/00216208:11320/11:10109106 - Významová reprezentace elipsy (2011)
Výsledek druhu RRIV/00216208:11320/10:10079362 - Český WordNet 1.9 PDT (2010)
Výsledek druhu RRIV/00216208:11320/10:10079346 - Lexikálně-sémantická anotace PDT pomocí Českého WordNetu (2010)