Category: лингвистика

Category was added automatically. Read all entries about "лингвистика".

satyr

Человеческий язык

Языков на свете много, и они все такие разные :) В свете своей текущей работы в сфере компьютерной лингвистики я делю языки по удобству их обработки программными методами. И в первую очередь, насколько много информации можно извлечь из текста, не вникая в его смысл. Потому что проанализировать текст программным методом просто, а понять смысл -- катастрофически трудно.

В этом плане, конечно, у синтетических языков (например, у русского) большой бонус перед аналитическими языками (например, английского) -- сразу, не вникая в смысл, у лексем можно определить род, число, время, степень сравнения и так далее. И уже имея всю эту информацию в зубах, с текстом становится работать намного проще: можно разрешать омонимию, проще рубрицировать текст, и так далее.

Так вот, собственно, вьетнамский язык оказался весьма препаскуднейшим образом аналитическим :( Если взять за эталон счастья компьютерного лингвиста Ифкуиль, то вьетнамский я уже склонен записать в эталон горя.

Вот, например, фраза из учебника, второй урок: Chùng tôi ghi từ -- здесь нихрена нельзя сказать наверняка :) Это может быть: "Я записываю слова", "Я буду записывать слова", "Я записывал слово", "Мы (я и еще один чувак) записывали слово" -- здесь нет ни времени, ни числа, ничего полезного, кроме собственно значения лексем :) Все это добро нужно узнавать "из контекста", а поди еще объясни машине этот контекст...