| | |
|---|
| Údaje o projektu |
| Identifikační kód | LM2010013 |
| Důvěrnost údajů | S - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů |
| Název v původním jazyce | LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat |
| Poskytovatel | MSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT) |
| Program | LM - Projekty velkých infrastruktur pro VaVaI (2010-2015) |
| Kategorie VaV | IF - Infrastruktura výzkumu a vývoje |
| Hlavní obor | AI - Jazykověda |
| Vedlejší obor | IN - Informatika |
| Zahájení řešení | 1.1.2010 |
| Ukončení řešení | 31.12.2015 |
| Datum posledního uvolnění účelové podpory | 14.3.2012 |
| Číslo smlouvy | 23754/2010-320 |
| Poslední stav řešení | B - Běžící víceletý projekt, tj. takový, že byl řešen již v předcházejícím roce a bude řešen i v následujícím roce a v příslušném roce sběru dat jsou na něj poskytnuty finanční prostředky |
| Finance projektu | |
| Období | 2010 | 2011 | 2012 | 2013 | 2014 | 2015 | celkem |
|---|
| Výše podpory ze státního rozpočtu | 14 893 tis. Kč | 19 931 tis. Kč | 19 809 tis. Kč | 21 496 tis. Kč | 19 897 tis. Kč | 19 898 tis. Kč | 115 924 tis. Kč |
| Celkové uznané náklady | 14 893 tis. Kč | 19 931 tis. Kč | 19 809 tis. Kč | 21 496 tis. Kč | 19 897 tis. Kč | 19 898 tis. Kč | 115 924 tis. Kč |
| Typ | skutečně čerpané | skutečně čerpané | skutečně čerpané | přidělené | plánované | plánované |
|
| Cíle řešení v původním jazyce | Projekt LINDAT-CLARIN je koncipován jako český uzel mezinárodní sítě Clarin (Common Language Resources and Technology Infrastructure, FP7-RI-2122230) a projektu META-NET (Technologies for the Multilingual European Information Society, NoE, 2011-2014, FP7-ICT-4-249119) pro volné sdílení jazykových dat a pokročilých technologií mezi institucemi a jednotlivci ve vědě a výzkumu. Tyto evropské projekty mají za cíl překážky volného přístupu k jazykovým datům postupně odstranit a umožnit národně distribuované, ale technologicky jednotné poskytování jazykových dat a souvisejících technologií všem zájemcům. V oblasti anotace dat je cílem projektu pořídit tato data v dostatečném rozsahu pro praktickou aplikaci statistického modelování jazyka jako nutnou podmínku pro aplikaci těchto modelů v praxi (korektory textu, automatický překlad, extrakce informací z textu, porozumění textu, dialogové systémy apod.). V oblasti distribuce dat je cílem poskytovat službu repozitáře pro úschovu, licencování a poskytování dat v rámci celoevropské sítě Clarin a META-SHARE (součást projektu META-NET). V oblasti technologické i v oblasti lidských zdrojů je cílem vybudování know-how v oblasti sběru, úschovy, tvorby a distribuce dat, které bude možno poskytovat i externím subjektům. Přitom je třeba vyškolit jazykové odborníky i odborníky z oblasti technologií (informatika, statistika, matematické modelování) tak, aby byli schopni v tomto výrazné mezioborovém projektu efektivně pracovat. Nezanedbatelným cílem projektu je vychovat další vědeckou generaci, která bude umět s jazykovými daty pracovat, správně je analyzovat a používat v národním i mezinárodním kontextu, a spolupracovat v rámci EU i mimo ni na budoucích projektech využívajících moderní jazykové technologie. |
| Klíčová slova v anglickém jazyce | language resources; langauge databases; public access to scientific data; langauge corpora; machine translation; natural language processing; computational linguistics |
| Rok dodání údajů do CEP | 2013 |
| Systémové označení dodávky dat | CEP13-MSM-LM-R/02:2 |
| Datum dodání záznamu | 16.4.2013 |
| Účastníci projektu |
| Počet příjemců | 2 |
| Počet dalších účastníků projektu | 2 |
| Koordinující příjemce / Organizační jednotka garantující řešení | Univerzita Karlova v Praze / Matematicko-fyzikální fakulta |
| Řešitel | Prof. RNDr. Jan Hajič, Dr. (státní příslušnost: CZ - Česká republika) |
| Příjemce / Organizační jednotka garantující řešení | Masarykova univerzita / Fakulta informatiky |
| Řešitel | doc. PhDr. Karel Pala, CSc. (státní příslušnost: CZ - Česká republika) |
| Další účastník projektu | Ústav pro jazyk český AV ČR, v. v. i. |
| Řešitel | doc. RNDr. Karel Oliva, Ph.D. (státní příslušnost: CZ - Česká republika) |
| Další účastník projektu / Organizační jednotka garantující řešení | Západočeská univerzita v Plzni / Fakulta aplikovaných věd |
| Řešitel | prof. Ing. Josef Psutka, CSc. (státní příslušnost: CZ - Česká republika) |
| Finance účastníků projektu |
| Poznámka: Finance účastníků projektu jsou sledovány od roku 2007 |
| Výše podpory ze státního rozpočtu | |
| Účastník | 2010 | 2011 | 2012 | 2013 | 2014 | 2015 |
|---|
| Univerzita Karlova v Praze / Matematicko-fyzikální fakulta | 14 893 tis. Kč | 13 949 tis. Kč | 13 971 tis. Kč | 15 658 tis. Kč | 14 059 tis. Kč | 14 060 tis. Kč |
| Masarykova univerzita / Fakulta informatiky | | 1 994 tis. Kč | 1 946 tis. Kč | 1 946 tis. Kč | 1 946 tis. Kč | 1 946 tis. Kč |
| Ústav pro jazyk český AV ČR, v. v. i. | | 1 994 tis. Kč | 1 946 tis. Kč | 1 946 tis. Kč | 1 946 tis. Kč | 1 946 tis. Kč |
| Západočeská univerzita v Plzni / Fakulta aplikovaných věd | | 1 994 tis. Kč | 1 946 tis. Kč | 1 946 tis. Kč | 1 946 tis. Kč | 1 946 tis. Kč |
|
| Celkové uznané náklady | |
| Účastník | 2010 | 2011 | 2012 | 2013 | 2014 | 2015 |
|---|
| Univerzita Karlova v Praze / Matematicko-fyzikální fakulta | 14 893 tis. Kč | 13 949 tis. Kč | 13 971 tis. Kč | 15 658 tis. Kč | 14 059 tis. Kč | 14 060 tis. Kč |
| Masarykova univerzita / Fakulta informatiky | | 1 994 tis. Kč | 1 946 tis. Kč | 1 946 tis. Kč | 1 946 tis. Kč | 1 946 tis. Kč |
| Ústav pro jazyk český AV ČR, v. v. i. | | 1 994 tis. Kč | 1 946 tis. Kč | 1 946 tis. Kč | 1 946 tis. Kč | 1 946 tis. Kč |
| Západočeská univerzita v Plzni / Fakulta aplikovaných věd | | 1 994 tis. Kč | 1 946 tis. Kč | 1 946 tis. Kč | 1 946 tis. Kč | 1 946 tis. Kč |
|
| Výsledky projektu v RIV |
| Počet výsledků v RIV | 57 |
| Výsledek druhu D | RIV/00216208:11320/12:10130037 - A database of semantic clusters of verb usages (2012) |
| Výsledek druhu D | RIV/00216208:11320/12:10130097 - A High-Quality Web Corpus of Czech (2012) |
| Výsledek druhu D | RIV/00216224:14330/12:00062508 - Adaptation of Czech Parsers for Slovak (2012) |
| Výsledek druhu D | RIV/00216208:11320/12:10130065 - Analyzing the Most Common Errors in the Discourse Annotation of the Prague Dependency Treebank (2012) |
| Výsledek druhu J | RIV/49777513:23520/12:43915504 - Application of Lemmatization and Summarization Methods in Topic Identification Module for Large Scale Language Modeling Data Filtering (2012) |
| Výsledek druhu D | RIV/00216208:11320/12:10130083 - Assimetrii meždу glуbinnym i poverchnostnym prestavleniem predloženija (na primere dvуch tipov obstojatelstv v češskom jazyke) (2012) |
| Výsledek druhu D | RIV/00216224:14330/12:00057572 - Building a 70 billion word corpus of English from ClueWeb (2012) |
| Výsledek druhu D | RIV/00216208:11320/12:10130057 - Building a Corpus of Old Czech (2012) |
| Výsledek druhu D | RIV/00216224:14330/12:00062319 - Building A Thesaurus Using LDA-Frames (2012) |
| Výsledek druhu D | RIV/00216224:14330/12:00057949 - Building Evaluation Dataset for Textual Entailment in Czech (2012) |
| Výsledek druhu D | RIV/00216224:14330/12:00057557 - Common Sense Inference using Verb Valency Frames (2012) |
| Výsledek druhu D | RIV/00216224:14330/12:00062284 - Detecting Spam in Web Corpora (2012) |
| Výsledek druhu D | RIV/00216224:14330/12:00057392 - Finding Multiwords of More Than Two Words (2012) |
| Výsledek druhu D | RIV/00216208:11320/12:10130039 - Formemes in English-Czech Deep Syntactic MT (2012) |
| Výsledek druhu D | RIV/00216208:11320/12:10130110 - HamleDT: To Parse or Not to Parse? (2012) |
| Výsledek druhu D | RIV/00216224:14330/12:00062222 - Improving Automatic Ontology Developement (2012) |
| Výsledek druhu D | RIV/00216208:11320/12:10130086 - Interplay of Coreference and Discourse Relations: Discourse Connectives with a Referential Component (2012) |
| Výsledek druhu D | RIV/00216208:11320/12:10130029 - The Joy of Parallelism with CzEng 1.0 (2012) |
| Výsledek druhu D | RIV/00216224:14330/12:00059944 - Large Corpora for Turkic Languages and Unsupervised Morphological Analysis (2012) |
| Výsledek druhu D | RIV/00216224:14330/12:00057989 - Linguistic Logical Analysis of Direct Speech (2012) |
| Výsledek druhu D | RIV/00216224:14330/12:00057239 - Low-cost ontology development (2012) |
| Výsledek druhu D | RIV/00216208:11320/12:10130038 - Maintaining consistency of monolingual verb entries with interannotator agreement (2012) |
| Výsledek druhu J | RIV/00216208:11320/12:10130070 - Making Community and ASR Join Forces in Web (2012) |
| Výsledek druhu J | RIV/00216208:11320/12:10129914 - Mapping Semantic Information from FrameNet onto VALLEX (2012) |
| Výsledek druhu D | RIV/00216224:14330/12:00057240 - Migrating Cornetto Lexicon to New XML Database Engine (2012) |
| Výsledek druhu D | RIV/00216208:11320/12:10134008 - Možnosti jednotlivých volných slovesných doplnění být obligatorním členem věty (2012) |
| Výsledek druhu J | RIV/00216208:11320/12:10129912 - Nejčastější konektivní prostředky kauzálního vztahu v Pražském závislostním korpusu (2012) |
| Výsledek druhu J | RIV/00216208:11210/12:10129917 - On a Corpus of Older Czech Texts and Its Usage (2012) |
| Výsledek druhu J | RIV/00216208:11320/12:10129909 - On scalarity in information structure (2012) |
| Výsledek druhu D | RIV/00216208:11320/12:10130036 - Optimizing semantic granularity for NLP - report on a lexicographic experiment (2012) |
| Výsledek druhu R | RIV/49777513:23520/12:43917952 - OVM - Otázky Václava Moravce (2012) |
| Výsledek druhu D | RIV/00216224:14330/12:00061900 - POS Annotated 50M Corpus of Tajik Language (2012) |
| Výsledek druhu R | RIV/00216208:11320/12:10132451 - Prague Discourse Treebank 1.0 (2012) |
| Výsledek druhu D | RIV/00216208:11320/12:10130059 - Prague Markup Language Framework (2012) |
| Výsledek druhu D | RIV/00216224:14330/12:00057973 - Recent Czech Web Corpora (2012) |
| Výsledek druhu J | RIV/00216208:11320/12:10130067 - The Rule-Based Approach to Czech Grammaticalized Alternations (2012) |
| Výsledek druhu D | RIV/00216224:14330/12:00062331 - Saara: Anaphora Resolution on Free Text in Czech (2012) |
| Výsledek druhu J | RIV/00216208:11320/12:10130111 - Sentence Modality Assignment in the Prague Dependency Treebank (2012) |
| Výsledek druhu R | RIV/00216224:14330/12:00064706 - SpiderLing (2012) |
| Výsledek druhu R | RIV/00216224:14330/12:00058274 - Syntactic parser SET (2012) |
| Výsledek druhu J | RIV/00216208:11320/12:10129913 - Syntaktické konstrukce typu Včely se hemží na zahradě - Zahrada se hemží včelami (2012) |
| Výsledek druhu D | RIV/00216208:11320/12:10130066 - The Syntax-Semantics Interface of Czech Verbs in the Valency Lexicon (2012) |
| Výsledek druhu D | RIV/00216208:11320/12:10130054 - Topic-Focus revisited (Through the eyes of the Prague Dependency Treebank) (2012) |
| Výsledek druhu D | RIV/00216224:14330/12:00064722 - Towards 100M Morphologically Annotated Corpus of Tajik (2012) |
| Výsledek druhu R | RIV/00216208:11320/12:10132449 - VALLEX 2.6 (2012) |
| Výsledek druhu J | RIV/00216208:11320/11:10107810 - An attractive game with the document: (im)possible? (2011) |
| Výsledek druhu R | RIV/00216208:11210/11:10109521 - Extended Textual Coreference and Bridging Relations in PDT 2.0 (2011) |
| Výsledek druhu C | RIV/00216208:11210/11:10108078 - Korpusy mluvené češtiny a možnosti jejich využití pro poznání rozdílných "světů" mluvenosti a psanosti (2011) |
| Výsledek druhu R | RIV/00216208:11320/11:10109513 - Prague Czech-English Dependency Treebank 2.0 (2011) |
| Výsledek druhu R | RIV/00216208:11320/11:10109514 - Prague Database of Spoken English (2011) |
| Výsledek druhu R | RIV/00216208:11320/11:10109511 - Prague Dependency Treebank 2.5 (2011) |
| Výsledek druhu R | RIV/00216208:11320/11:10109515 - Pražská databáze mluvené češtiny (2011) |
| Výsledek druhu B | RIV/00216208:11320/11:10109109 - Valence sloves v Pražském závislostním korpusu (2011) |
| Výsledek druhu B | RIV/00216208:11320/11:10109110 - Valenční slovník Pražského závislostního korpusu (PDT-Vallex) (2011) |
| Výsledek druhu B | RIV/00216208:11320/11:10109106 - Významová reprezentace elipsy (2011) |
| Výsledek druhu R | RIV/00216208:11320/10:10079362 - Český WordNet 1.9 PDT (2010) |
| Výsledek druhu R | RIV/00216208:11320/10:10079346 - Lexikálně-sémantická anotace PDT pomocí Českého WordNetu (2010) |