swizard (swizard) wrote,
swizard
swizard

Categories:

Человеческий язык

Языков на свете много, и они все такие разные :) В свете своей текущей работы в сфере компьютерной лингвистики я делю языки по удобству их обработки программными методами. И в первую очередь, насколько много информации можно извлечь из текста, не вникая в его смысл. Потому что проанализировать текст программным методом просто, а понять смысл -- катастрофически трудно.

В этом плане, конечно, у синтетических языков (например, у русского) большой бонус перед аналитическими языками (например, английского) -- сразу, не вникая в смысл, у лексем можно определить род, число, время, степень сравнения и так далее. И уже имея всю эту информацию в зубах, с текстом становится работать намного проще: можно разрешать омонимию, проще рубрицировать текст, и так далее.

Так вот, собственно, вьетнамский язык оказался весьма препаскуднейшим образом аналитическим :( Если взять за эталон счастья компьютерного лингвиста Ифкуиль, то вьетнамский я уже склонен записать в эталон горя.

Вот, например, фраза из учебника, второй урок: Chùng tôi ghi từ -- здесь нихрена нельзя сказать наверняка :) Это может быть: "Я записываю слова", "Я буду записывать слова", "Я записывал слово", "Мы (я и еще один чувак) записывали слово" -- здесь нет ни времени, ни числа, ничего полезного, кроме собственно значения лексем :) Все это добро нужно узнавать "из контекста", а поди еще объясни машине этот контекст...
Tags: analytic language, english, language, russian, synthetic language, vietnamese
Subscribe

  • У нас есть Rust, поэтому C++ больше не нужен.

    Просто чудесный пост у thesz, наглядно демонстрирующий мой лозунг из сабжа. Давайте пройдёмся по пунктам: > Большое неудобство,…

  • а вот, например, ещё вакансии

    Собственно, образовалась ещё вакансия. Нам нужно несколько человек, задач много, они все (как это водится) инновационные и интересные, минимум…

  • Послеконкурсное

    Отчёт о конкурсе: часть первая и вторая. Тем временем подъехали результаты для lightning- и основного раундов, пока ещё не окончательные, но с…

  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 41 comments

  • У нас есть Rust, поэтому C++ больше не нужен.

    Просто чудесный пост у thesz, наглядно демонстрирующий мой лозунг из сабжа. Давайте пройдёмся по пунктам: > Большое неудобство,…

  • а вот, например, ещё вакансии

    Собственно, образовалась ещё вакансия. Нам нужно несколько человек, задач много, они все (как это водится) инновационные и интересные, минимум…

  • Послеконкурсное

    Отчёт о конкурсе: часть первая и вторая. Тем временем подъехали результаты для lightning- и основного раундов, пока ещё не окончательные, но с…