swizard (swizard) wrote,
swizard
swizard

Category:

Досуг, опять же

Неожиданно, в результате безумного трехдневного марафона я написал свой собственный поисковый движок, тупо в параллель уже имеющемуся корпоративному.



Причём не просто какой-то драный прототип, а вполне себе такой монументальный продукт: с собственным индексом, собственным ранжированием документов, параллельностью и кластеризацией. Со всей морфологией (практически всю которую я же сам программировал), включая поддержку обычной и межъязыковой омонимии и восстановление опущеной вьетнамской диакритики. Деление вьетнамского текста на слова и разбиение на предложения, правда, программировал не я, но тоже пригодились :) Всю обработку и нормализацию utf-8 текста тоже, кстати, я делал.

Для текущей рабочей задачи вся эта моя проделанная работа, конечно, дикий оверкилл, и я чуток затянул из-за этого по срокам (за что мне ещё предстоит заслуженно огрести пизды от коллег), но удовольствие от процесса я получил изрядное. Ну и посмотрим, может, оно ещё где-нибудь пригодится.
Tags: deadline, programming, search engine, wada, work
Subscribe
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 13 comments