• česky
  • english

LM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010-2015, MSM/LM)

Údaje o projektu
Identifikační kódLM2010013
Důvěrnost údajůS - Úplné a pravdivé údaje nepodléhající ochraně podle zvláštních právních předpisů
Název v původním jazyceLINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat
PoskytovatelMSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)
ProgramLM - Projekty velkých infrastruktur pro VaVaI (2010-2017)
Kategorie VaVIF - Infrastruktura výzkumu a vývoje
Hlavní oborAI - Jazykověda
Vedlejší oborIN - Informatika
Zahájení řešení1.1.2010
Ukončení řešení31.12.2015
Datum posledního uvolnění účelové podpory18.4.2013
Číslo smlouvyMSMT-11440/2013-310
Poslední stav řešeníB - Běžící víceletý projekt, tj. takový, že byl řešen již v předcházejícím roce a bude řešen i v následujícím roce a v příslušném roce sběru dat jsou na něj poskytnuty finanční prostředky
Finance projektu
Období201020112012201320142015celkem
Výše podpory ze státního rozpočtu14 893 tis. Kč19 931 tis. Kč19 809 tis. Kč21 496 tis. Kč22 387 tis. Kč19 898 tis. Kč118 414 tis. Kč
Celkové uznané náklady14 893 tis. Kč19 931 tis. Kč19 809 tis. Kč21 496 tis. Kč22 387 tis. Kč19 898 tis. Kč118 414 tis. Kč
Typskutečně čerpanéskutečně čerpanéskutečně čerpanéskutečně čerpanépřidělenéplánované
Cíle řešení v původním jazyceProjekt LINDAT-CLARIN je koncipován jako český uzel mezinárodní sítě Clarin (Common Language Resources and Technology Infrastructure, FP7-RI-2122230) a projektu META-NET (Technologies for the Multilingual European Information Society, NoE, 2011-2014, FP7-ICT-4-249119) pro volné sdílení jazykových dat a pokročilých technologií mezi institucemi a jednotlivci ve vědě a výzkumu. Tyto evropské projekty mají za cíl překážky volného přístupu k jazykovým datům postupně odstranit a umožnit národně distribuované, ale technologicky jednotné poskytování jazykových dat a souvisejících technologií všem zájemcům. V oblasti anotace dat je cílem projektu pořídit tato data v dostatečném rozsahu pro praktickou aplikaci statistického modelování jazyka jako nutnou podmínku pro aplikaci těchto modelů v praxi (korektory textu, automatický překlad, extrakce informací z textu, porozumění textu, dialogové systémy apod.). V oblasti distribuce dat je cílem poskytovat službu repozitáře pro úschovu, licencování a poskytování dat v rámci celoevropské sítě Clarin a META-SHARE (součást projektu META-NET). V oblasti technologické i v oblasti lidských zdrojů je cílem vybudování know-how v oblasti sběru, úschovy, tvorby a distribuce dat, které bude možno poskytovat i externím subjektům. Přitom je třeba vyškolit jazykové odborníky i odborníky z oblasti technologií (informatika, statistika, matematické modelování) tak, aby byli schopni v tomto výrazné mezioborovém projektu efektivně pracovat. Nezanedbatelným cílem projektu je vychovat další vědeckou generaci, která bude umět s jazykovými daty pracovat, správně je analyzovat a používat v národním i mezinárodním kontextu, a spolupracovat v rámci EU i mimo ni na budoucích projektech využívajících moderní jazykové technologie.
Klíčová slova v anglickém jazycelanguage resources; langauge databases; public access to scientific data; langauge corpora; machine translation; natural language processing; computational linguistics
Rok dodání údajů do CEP2014
Systémové označení dodávky datCEP14-MSM-LM-R/04:4
Datum dodání záznamu23.7.2014
Účastníci projektu
Počet příjemců2
Počet dalších účastníků projektu2
Koordinující příjemce / Organizační jednotka garantující řešeníUniverzita Karlova v Praze / Matematicko-fyzikální fakulta
ŘešitelProf. RNDr. Jan Hajič, Dr. (státní příslušnost: CZ - Česká republika; vedidk: 9997180)
Příjemce / Organizační jednotka garantující řešeníMasarykova univerzita / Fakulta informatiky
Řešiteldoc. PhDr. Karel Pala, CSc. (státní příslušnost: CZ - Česká republika; vedidk: 6076939)
Další účastník projektuÚstav pro jazyk český AV ČR, v. v. i.
Řešiteldoc. RNDr. Karel Oliva, Ph.D. (státní příslušnost: CZ - Česká republika; vedidk: 8027854)
Další účastník projektu / Organizační jednotka garantující řešeníZápadočeská univerzita v Plzni / Fakulta aplikovaných věd
Řešitelprof. Ing. Josef Psutka, CSc. (státní příslušnost: CZ - Česká republika; vedidk: 4396855)
Finance účastníků projektu
Poznámka: Finance účastníků projektu jsou sledovány od roku 2007
Výše podpory ze státního rozpočtu
Účastník201020112012201320142015
Univerzita Karlova v Praze / Matematicko-fyzikální fakulta14 893 tis. Kč13 949 tis. Kč13 971 tis. Kč15 658 tis. Kč16 549 tis. Kč14 060 tis. Kč
Masarykova univerzita / Fakulta informatiky1 994 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč
Ústav pro jazyk český AV ČR, v. v. i.1 994 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč
Západočeská univerzita v Plzni / Fakulta aplikovaných věd1 994 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč
Celkové uznané náklady
Účastník201020112012201320142015
Univerzita Karlova v Praze / Matematicko-fyzikální fakulta14 893 tis. Kč13 949 tis. Kč13 971 tis. Kč15 658 tis. Kč16 549 tis. Kč14 060 tis. Kč
Masarykova univerzita / Fakulta informatiky1 994 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč
Ústav pro jazyk český AV ČR, v. v. i.1 994 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč
Západočeská univerzita v Plzni / Fakulta aplikovaných věd1 994 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč1 946 tis. Kč
Výsledky projektu v RIV
Očekávané výsledky projektu
O - Ostatní výsledky nezařaditelné do žádného z výše uvedených druhů výsledku1
Počet výsledků v RIV119
Výsledek druhu DRIV/00216208:11320/13:10194657 - A Case Study of a Free Word Order (2013)
Výsledek druhu DRIV/00216208:11320/13:10194679 - A New State-of-The-Art Czech Named Entity Recognizer (2013)
Výsledek druhu DRIV/00216224:14330/13:00070350 - Acquiring Data for Textual Entailment Recognition (2013)
Výsledek druhu RRIV/49777513:23520/13:43921013 - Audiovizuální korpus z Mistrovství světa v ledním hokeji 2011 (2013)
Výsledek druhu DRIV/00216208:11320/13:10194656 - Automatic Processing of Linguistic Data as a Feedback for Linguistic Theory (2013)
Výsledek druhu DRIV/00216208:11320/13:10194676 - Coordination Structures in Dependency Treebanks (2013)
Výsledek druhu DRIV/00216208:11320/13:10194647 - Corpus Based Identification of Czech Light Verbs (2013)
Výsledek druhu RRIV/00216208:11320/13:10194844 - Czech Named Entity Corpus, version 2.0 (2013)
Výsledek druhu DRIV/00216208:11320/13:10194685 - Czech Subjectivity Lexicon: A Lexical Resource for Czech Polarity Classification (2013)
Výsledek druhu RRIV/00216208:11320/13:10194847 - Czech SubLex 1.0 (2013)
Výsledek druhu DRIV/00216208:11320/13:10194688 - Deadjektivní deriváty v češtině jako deriváty syntaktické vs. lexikální (2013)
Výsledek druhu DRIV/00216208:11320/13:10194677 - Deepfix: Statistical Post-editing of Statistical Machine Translation Using Deep Syntactic Analysis (2013)
Výsledek druhu DRIV/49777513:23520/13:43920730 - Dynamic Threshold Selection Method for Multi-label Newspaper Topic Identification (2013)
Výsledek druhu DRIV/00216224:14330/13:00065981 - Enhancing Czech Parsing with Verb Valency Frames (2013)
Výsledek druhu DRIV/00216224:14330/13:00070317 - Expanding Translation Memories: Proposal and Evaluation of Several Methods (2013)
Výsledek druhu DRIV/00216224:14330/13:00070327 - Fast Construction of a Word-Number Index for Large Data (2013)
Výsledek druhu DRIV/00216208:11320/13:10194639 - Improvements to Syntax-based Machine Translation using Ensemble Dependency Parsers (2013)
Výsledek druhu DRIV/00216224:14330/13:00070316 - Intrinsic Methods for Comparison of Corpora (2013)
Výsledek druhu DRIV/00216208:11320/13:10194675 - Introducing the Prague Discourse Treebank 1.0 (2013)
Výsledek druhu JRIV/00216208:11320/13:10194813 - K subjektivnímu slovosledu na základě korpusu (2013)
Výsledek druhu RRIV/49777513:23520/13:43920881 - Korpus expresivní řeči: Czech Senior COMPANION (2013)
Výsledek druhu JRIV/00216208:11320/13:10194809 - Liší se mluvené a psané texty ve valenci? (2013)
Výsledek druhu DRIV/00216224:14330/13:00070354 - Methods for Detection of Word Usage over Time (2013)
Výsledek druhu ARIV/68378092:_____/13:00426770 - Modul digitalizovaných mluvnic — charakteristiky 51 mluvnic, redakce k 8. 11. 2013 (2013)
Výsledek druhu JRIV/00216208:11320/13:10194817 - MTMonkey: A Scalable Infrastructure for a Machine Translation Web Service (2013)
Výsledek druhu RRIV/00216208:11320/13:10194846 - MTMonkey 1.0 (2013)
Výsledek druhu DRIV/00216224:14330/13:00069065 - Parameter Estimation for LDA-Frames (2013)
Výsledek druhu DRIV/00216224:14330/13:00070328 - Portable Lexical Analysis for Parsing of Morphologically-Rich Languages (2013)
Výsledek druhu RRIV/00216208:11210/13:10194843 - Prague Arabic Dependency Treebank 1.5 (2013)
Výsledek druhu RRIV/00216208:11320/13:10194835 - Prague Dependency Treebank 3.0 (2013)
Výsledek druhu DRIV/00216224:14330/13:00065945 - PRALED – A New Kind of Lexicographic Workstation (2013)
Výsledek druhu DRIV/00216208:11320/13:10194662 - (Pre-)Annotation of Topic-Focus Articulation in Prague Czech-English Dependency Treebank (2013)
Výsledek druhu DRIV/00216224:14330/13:00065743 - Preparing VerbaLex Printed Edition (2013)
Výsledek druhu JRIV/00216208:11320/13:10194808 - Professor Ladislav Matejka (1919-2012) passed away (2013)
Výsledek druhu DRIV/00216208:11320/13:10194673 - The Role of Grammatical Constraints in Lexical Component in Functional Generative Description (2013)
Výsledek druhu DRIV/00216224:14330/13:00070352 - Semi-automatic Theme-Rheme Identification (2013)
Výsledek druhu JRIV/00216208:11320/13:10194814 - Skončil 39. ročník Olympiády v českém jazyce (2013)
Výsledek druhu DRIV/00216208:11320/13:10194645 - Subordinators with Elaborative Meanings in Czech and English (2013)
Výsledek druhu DRIV/00216208:11320/13:10194621 - Syntactic Identification of Occurrences of Multiword Expressions in Text using a Lexicon with Dependency Structures (2013)
Výsledek druhu DRIV/00216208:11320/13:10194684 - Towards Automatic Detection of Applicable Diatheses (2013)
Výsledek druhu DRIV/00216224:14330/13:00070329 - Towards taggers and parsers for Slovak (2013)
Výsledek druhu DRIV/00216224:14330/13:00070342 - Type-based Search of Idiomatic Expression (2013)
Výsledek druhu DRIV/00216224:14330/13:00070353 - Typos in Czech Corpora (2013)
Výsledek druhu DRIV/00216208:11320/13:10194689 - Verb Valency and Argument Non-correspondence in a Bilingual Treebank (2013)
Výsledek druhu DRIV/00216224:14330/13:00070313 - Web Application for Semantic Network Editing (2013)
Výsledek druhu DRIV/00216208:11320/13:10194730 - Why Words Alone Are Not Enough: Error Analysis of Lexicon-based Polarity Classifier for Czech (2013)
Výsledek druhu RRIV/00216208:11320/13:10194837 - WMT Dependency Annotations 0.1 (2013)
Výsledek druhu DRIV/00216208:11320/12:10130037 - A database of semantic clusters of verb usages (2012)
Výsledek druhu DRIV/00216208:11320/12:10130074 - A Dataset Comparison for an Indonesian-English Statistical Machine Translation System (2012)
Výsledek druhu DRIV/00216208:11320/12:10130097 - A High-Quality Web Corpus of Czech (2012)
Výsledek druhu DRIV/00216224:14330/12:00062508 - Adaptation of Czech Parsers for Slovak (2012)
Výsledek druhu DRIV/00216208:11320/12:10130065 - Analyzing the Most Common Errors in the Discourse Annotation of the Prague Dependency Treebank (2012)
Výsledek druhu JRIV/49777513:23520/12:43915504 - Application of Lemmatization and Summarization Methods in Topic Identification Module for Large Scale Language Modeling Data Filtering (2012)
Výsledek druhu DRIV/00216208:11320/12:10130043 - Application of Topic Segmentation in Audiovisual Information Retrieval (2012)
Výsledek druhu DRIV/00216208:11320/12:10130083 - Assimetrii meždу glуbinnym i poverchnostnym prestavleniem predloženija (na primere dvуch tipov obstojatelstv v češskom jazyke) (2012)
Výsledek druhu DRIV/00216224:14330/12:00067067 - Behaviour of the Czech Suffix -ák – A Case Study (2012)
Výsledek druhu DRIV/00216208:11320/12:10130057 - Building a Corpus of Old Czech (2012)
Výsledek druhu DRIV/00216224:14330/12:00062319 - Building A Thesaurus Using LDA-Frames (2012)
Výsledek druhu DRIV/00216224:14330/12:00057572 - Building a 70 billion word corpus of English from ClueWeb (2012)
Výsledek druhu DRIV/00216224:14330/12:00057949 - Building Evaluation Dataset for Textual Entailment in Czech (2012)
Výsledek druhu BRIV/68378092:_____/12:00388951 - Český jazykový atlas 1 (2012)
Výsledek druhu BRIV/68378092:_____/12:00388960 - Český jazykový atlas 2 (2012)
Výsledek druhu DRIV/00216224:14330/12:00057557 - Common Sense Inference using Verb Valency Frames (2012)
Výsledek druhu JRIV/00216208:11320/12:10129915 - Concurrent effects of lexical status and letter-rotation during early stages of visual word recognition: evidence from ERPs (2012)
Výsledek druhu DRIV/00216208:11320/12:10130105 - Creating annotated resources for polarity classification in Czech (2012)
Výsledek druhu DRIV/00216224:14330/12:00068067 - CzAccent - Simple Tool for Restoring Accents in Czech Texts (2012)
Výsledek druhu DRIV/00216224:14330/12:00062284 - Detecting Spam in Web Corpora (2012)
Výsledek druhu RRIV/00216208:11320/12:10132450 - Dialogy.Org 1.1 (2012)
Výsledek druhu DRIV/00216224:14330/12:00057392 - Finding Multiwords of More Than Two Words (2012)
Výsledek druhu DRIV/00216208:11320/12:10130039 - Formemes in English-Czech Deep Syntactic MT (2012)
Výsledek druhu DRIV/00216208:11320/12:10130110 - HamleDT: To Parse or Not to Parse? (2012)
Výsledek druhu DRIV/00216208:11320/12:10130077 - IDENTIC Corpus: Morphologically Enriched Indonesian-English Parallel Corpus (2012)
Výsledek druhu DRIV/00216224:14330/12:00062222 - Improving Automatic Ontology Developement (2012)
Výsledek druhu DRIV/00216208:11320/12:10130086 - Interplay of Coreference and Discourse Relations: Discourse Connectives with a Referential Component (2012)
Výsledek druhu DRIV/00216208:11320/12:10130029 - The Joy of Parallelism with CzEng 1.0 (2012)
Výsledek druhu JRIV/68378092:_____/12:00390719 - Klad a zápor po slovesech bránění (2012)
Výsledek druhu DRIV/00216208:11320/12:10130079 - Language Richness of the Web (2012)
Výsledek druhu DRIV/00216224:14330/12:00059944 - Large Corpora for Turkic Languages and Unsupervised Morphological Analysis (2012)
Výsledek druhu DRIV/00216224:14330/12:00057989 - Linguistic Logical Analysis of Direct Speech (2012)
Výsledek druhu DRIV/00216224:14330/12:00057239 - Low-cost ontology development (2012)
Výsledek druhu DRIV/00216208:11320/12:10130038 - Maintaining consistency of monolingual verb entries with interannotator agreement (2012)
Výsledek druhu JRIV/00216208:11320/12:10130070 - Making Community and ASR Join Forces in Web (2012)
Výsledek druhu JRIV/00216208:11320/12:10129914 - Mapping Semantic Information from FrameNet onto VALLEX (2012)
Výsledek druhu DRIV/00216224:14330/12:00057240 - Migrating Cornetto Lexicon to New XML Database Engine (2012)
Výsledek druhu ARIV/68378092:_____/12:00389360 - Modul digitalizovaných mluvnic — charakteristiky 21 mluvnic, redakce k 24. 10. 2012 (2012)
Výsledek druhu DRIV/68378092:_____/12:00389342 - Modul digitalizovaných mluvnic: co k čemu, pro koho (2012)
Výsledek druhu DRIV/00216208:11320/12:10134008 - Možnosti jednotlivých volných slovesných doplnění být obligatorním členem věty (2012)
Výsledek druhu JRIV/00216208:11320/12:10129912 - Nejčastější konektivní prostředky kauzálního vztahu v Pražském závislostním korpusu (2012)
Výsledek druhu JRIV/00216208:11210/12:10129917 - On a Corpus of Older Czech Texts and Its Usage (2012)
Výsledek druhu JRIV/00216208:11320/12:10129909 - On scalarity in information structure (2012)
Výsledek druhu DRIV/00216208:11320/12:10130036 - Optimizing semantic granularity for NLP - report on a lexicographic experiment (2012)
Výsledek druhu RRIV/49777513:23520/12:43917952 - OVM - Otázky Václava Moravce (2012)
Výsledek druhu DRIV/00216224:14330/12:00061900 - POS Annotated 50M Corpus of Tajik Language (2012)
Výsledek druhu RRIV/00216208:11320/12:10132451 - Prague Discourse Treebank 1.0 (2012)
Výsledek druhu DRIV/00216208:11320/12:10130059 - Prague Markup Language Framework (2012)
Výsledek druhu DRIV/00216224:14330/12:00057973 - Recent Czech Web Corpora (2012)
Výsledek druhu JRIV/00216208:11320/12:10130067 - The Rule-Based Approach to Czech Grammaticalized Alternations (2012)
Výsledek druhu DRIV/00216224:14330/12:00062331 - Saara: Anaphora Resolution on Free Text in Czech (2012)
Výsledek druhu JRIV/00216208:11320/12:10130111 - Sentence Modality Assignment in the Prague Dependency Treebank (2012)
Výsledek druhu RRIV/00216224:14330/12:00064706 - SpiderLing (2012)
Výsledek druhu RRIV/00216224:14330/12:00058274 - Syntactic parser SET (2012)
Výsledek druhu JRIV/00216208:11320/12:10129913 - Syntaktické konstrukce typu Včely se hemží na zahradě - Zahrada se hemží včelami (2012)
Výsledek druhu DRIV/00216208:11320/12:10130066 - The Syntax-Semantics Interface of Czech Verbs in the Valency Lexicon (2012)
Výsledek druhu DRIV/00216208:11320/12:10130054 - Topic-Focus revisited (Through the eyes of the Prague Dependency Treebank) (2012)
Výsledek druhu DRIV/00216208:11320/12:10130075 - Towards an Indonesian-English SMT System: A Case Study of an Under-Studied and Under-Resourced Language, Indonesian (2012)
Výsledek druhu DRIV/00216224:14330/12:00064722 - Towards 100M Morphologically Annotated Corpus of Tajik (2012)
Výsledek druhu RRIV/00216208:11320/12:10132449 - VALLEX 2.6 (2012)
Výsledek druhu JRIV/00216208:11320/11:10107810 - An attractive game with the document: (im)possible? (2011)
Výsledek druhu RRIV/00216208:11210/11:10109521 - Extended Textual Coreference and Bridging Relations in PDT 2.0 (2011)
Výsledek druhu CRIV/00216208:11210/11:10108078 - Korpusy mluvené češtiny a možnosti jejich využití pro poznání rozdílných "světů" mluvenosti a psanosti (2011)
Výsledek druhu RRIV/00216208:11320/11:10109513 - Prague Czech-English Dependency Treebank 2.0 (2011)
Výsledek druhu RRIV/00216208:11320/11:10109514 - Prague Database of Spoken English (2011)
Výsledek druhu RRIV/00216208:11320/11:10109511 - Prague Dependency Treebank 2.5 (2011)
Výsledek druhu RRIV/00216208:11320/11:10109515 - Pražská databáze mluvené češtiny (2011)
Výsledek druhu BRIV/00216208:11320/11:10109109 - Valence sloves v Pražském závislostním korpusu (2011)
Výsledek druhu BRIV/00216208:11320/11:10109110 - Valenční slovník Pražského závislostního korpusu (PDT-Vallex) (2011)
Výsledek druhu BRIV/00216208:11320/11:10109106 - Významová reprezentace elipsy (2011)
Výsledek druhu RRIV/00216208:11320/10:10079362 - Český WordNet 1.9 PDT (2010)
Výsledek druhu RRIV/00216208:11320/10:10079346 - Lexikálně-sémantická anotace PDT pomocí Českého WordNetu (2010)