Отвечает за слова. Дагестанский программист Заур Агамов работает в Дубае — создает боты для крупных компаний. А в свободное время спасает от забвения исчезающие языки. Если вы носитель — присоединяйтесь

Согласно данным ЮНЕСКО, 19 дагестанских языков находятся под угрозой исчезновения, еще 6 внесены в категорию «уязвимых».

До недавнего времени словари этих языков существовали только в виде печатных книг, к которым молодежь, привыкшая к гаджетам, обращалась все реже. Программист Заур Агамов устроил дагестанским языкам «апгрейд», создав некоммерческий проект по сохранению языков «Public dictionary». Это бесплатные приложения-словари для смартфонов, сайты и телеграм-боты. Они помогают совершенствовать свой язык, общаться, а школьники пользуются ими, когда делают домашнюю работу по родному языку. Фото: из личного архива Заура Агамова

Для дела и души Заур Агамов родился и вырос в Дагестане. Родной лезгинский язык знает с детства — он всегда звучал и дома в Махачкале, и в селе, где он проводил каникулы. В школе Заур увлекался не только языками программирования, но и просто языками. Выигрывал городские олимпиады по математике и английскому. После второго курса матфака Заур перевелся из дагестанского вуза в питерский Электротехнический университет, окончил его, работал в «Яндексе» и других компаниях. В 2012-м получил интересное предложение из Дубая. После холодного Питера южному человеку захотелось побольше солнца — так он объясняет свой переезд в Эмираты.

— Начиналось все как хобби-проект. Первое приложение — «Лезгинский словарь» написал в 2014-м для души. Хотя для программиста считается хорошим тоном, когда есть собственные проекты, — рассказывает Заур. — На создание первого приложения ушло много сил. У меня был вордовский файл с лезгинским словарем, который совершенно не выглядел как база данных. Пришлось вручную размечать: тут — слово, тут — перевод. Через две недели тупой однообразной работы шея разболелась так, что я три дня лежал на больничном. Версию для iOS Зауру помог написать друг-айфонист. А потом пошли просьбы сделать то же самое и для других языков. Просили башкиры, чуваши, ногайцы, даже носители такого редкого языка, как гагаузский.

— Я увидел, что приложениями активно пользуются, и мне самому стало интересно, захотелось продолжить, — говорит программист. Без лишних слов Сегодня «Лезгинский словарь» установили около 20 тысяч раз на Android и примерно столько же на IPhone. Рейтинг приложения в Play Market — 4,7 из 5, в App Store — 4,5. Помимо него, доступны словари кумыкского, башкирского, карачаево-балкарского языков. Ежедневно ко всем сервисам Заура обращается порядка тысячи человек. Фото: Сафрон Голиков В России, по данным ЮНЕСКО, под угрозой исчезновения находятся 90 языков, в том числе 19 дагестанских: андийский, арчинский, ботлихский, ногайский, каратинский, рутульский, тиндинский, цезский и другие. Сейчас проект сосредоточен на дагестанских языках: к маю разработчик планирует создать онлайн-словари аварского, агульского, даргинского, лакского, рутульского и табасаранского языков. Восемь приложений будет работать на Android, iOS, кроме того, будет 8 сайтов, 8 телеграм- и фейсбук-ботов. Своей очереди ждут исчезающие ногайский и цахурский языки. Впрочем, Заур не собирается ограничиваться Дагестаном. «Public dictionary» нацелен охватить как можно больше российских языков, независимо от того, грозит им исчезновение или нет. Параллельно с этим Заур вместе с питерской командой разработчиков создает анимированные азбуки крупных языков в виде мобильных приложений. Программист пытался найти финансирование на разработку лезгинской азбуки, но безуспешно, — пока есть только демо-ролик на YouTube. — Скоро выйдет арабская азбука, и мы с депутатом Народного собрания Дагестана Тимуром Гусаевым обсуждаем возможность создания азбук дагестанских языков. Опять же, если найдем финансы, ведь к каждой букве — а их в ряде дагестанских алфавитов больше 40 — нужно нарисовать новые сценки, оплатить работу программистов, — объясняет разработчик.

Бот-аварец и бот-даргинец Сейчас Заур работает в дубайском стартапе Brndstr — делает ботов для фейсбука, твитера, телеграма. В числе последних клиентов стартапа — такие бренды, как Volkswagen, British Airways, Huawei. Фото: Бизнес-инкубатор «Пери Инновации» По словам разработчика, боты — новый тренд. — Это автоматизированный собеседник, который умеет читать входящие сообщения и отвечать на них. В случае с ботом-лезгином он понимает, что вы отправили ему слово на русском и высылает перевод. И наоборот, — объясняет Заур Агамов. Сейчас в телеграме доступны боты аварского, лезгинского, кумыкского, лакского, агульского и даргинского языков.

Их аналоги скоро появятся в фейсбуке. «Ле, Гугл! ВорчIами!» В переводе с аварского это означает: «Эй, Гугл! Здравствуй!» Но в ближайшие годы голосовые помощники вроде Google Now или Siri вряд ли научатся воспринимать дагестанские языки. Чтобы обучить машину пониманию устной речи, нужен очень большой объем звуковых данных. — Мы на слух воспринимаем только 70% речи, остальное мозг домысливает по контексту. Поэтому, например, для английского языка одно слово озвучивается 1000−2000 раз. Потом 10−20 лингвистов пишут правила генерации.

Такого звукового материала у меня нет, и вряд ли будет. Для дагестанских языков это представляет только академический интерес. В случае с большими языками — английским, русским, где сотни миллионов носителей, в этом есть экономический смысл: можно создать навигаторы, голосовой поиск. Поэтому корпорации вроде Google и Яндекса готовы тратить на это время и деньги, — говорит о технологии Заур. — Для «малых» языков это неактуально. Трудности перевода Каждый дагестанский язык — отдельный космос со своими законами пространства и времени. Например, в табасаранском языке 48 падежей.

В аварском и лезгинском считают двадцатками, а не десятками. В языках горцев учитываются не только привычные род и число, но и месторасположение собеседника — под горой он стоит или на горе, и на какой именно высоте. Попробуйте-ка обучить такому робота-переводчика! По данным миннаца Дагестана, в республике говорят на 33 языках и более чем 100 диалектах. Заур убежден: создать хороший переводчик, способный переводить целые фразы на языках Дагестана, — нереально. Система машинного перевода учится на огромных корпусах параллельных текстов.

Это не просто вордовские файлы с текстами — лингвист должен разметить каждое слово: здесь существительное, здесь глагол; тут корень, тут окончание. Таких объемов контента даже у самых крупных народностей Дагестана попросту нет. Попытку создать подобный переводчик сделал талантливый программист Омар Ганиев, автор сайта dalang.ru, но система хромает — переводчик не на чем обучать. — Я работал в компании, которая создавала арабский переводчик. В офисе сидели семь лингвистов, в течение двух лет с утра до вечера они писали правила перевода в приложении, типа: «Если предложение начинается так, то окончание у слова будет такое». Это сумасшедший объем работы. Если кто-то и сделает переводчик дагестанских языков, то энтузиасты вроде меня. Но и качество будет соответствующее, — говорит Заур. Все, кроме денег Сейчас над «Public dictionary» работают трое: Заур Агамов, iOS-программист Александр Михайлов и дизайнер Олег Данилов. Для всех это хобби. Расходы Заур покрывает из собственного кармана. Сам платит за хостинг сайта, за лицензию в App Store. Разработчик неоднократно обращался в различные фонды в Дагестане, но поддержки не находил. По статистике, на даргинском языке говорят около полумиллиона человек, однако это не один, а более 10 языков, считающихся диалектами. В их числе, например, периферийный кубачинский диалект. Жители аула Кубачи считают его самостоятельным языком. Литературный даргинский, созданный на основе акушинского диалекта, понимают не более половины даргинцев.

— Я знаю, что в Дагестане есть государственные гранты на подобные проекты. Но проблема в том, что я не умею просить. В республике не живу с 18 лет, мне сложно понять местную специфику. В Дагестане, даже если у тебя хороший проект, но ты пришел с улицы и попросишь деньги, тебе их никто не даст, — рассказывает программист про свой опыт. В этом году он подал заявку в седьмой набор резидентов бизнес-инкубатора «Пери Инновации», реализуемый благотворительным фондом «Пери» предпринимателя Зиявудина Магомедова. — Интересный и очень ценный для дагестанцев проект. Немало людей работают над сохранением языков Кавказа, но у этих ребят есть преимущество — они не просто оцифровывают словари, а используют современные технологии — приложения, боты, сервисы, удобные для пользователей. У проекта есть все, чтобы пройти наш отбор: профессиональная команда, инновационные технологии, первые готовые продукты и большая социальная, культурная и образовательная ценность, — говорит директор бизнес-инкубатора Гаджимурад Алиев.

В приложениях «Public dictionary» до сих пор нет ни рекламы, ни платной подписки. В монетизации словарей разработчик не видит смысла. — Давайте посчитаем: если бы я продавал «Лезгинский словарь», скажем, по доллару, его бы установили раз двести. В итоге я за три года заработал бы 200 долларов. А так его установили только на Android почти 20 тысяч раз, — объясняет Заур. Гаджимурад Алиев тоже не верит, что на «Public dictionary» можно заработать деньги — по крайней мере, интересные инвесторам. — Ни сам Заур, ни мы не ставим перед собой цель сделать проект коммерческим. Но думаю, интерес к языкам возрос, особенно после выхода фильма «Прибытие». В фильме раскрывается интересная научная гипотеза лингвистической относительности, широко известная как гипотеза Сепира-Уорфа. Согласно ей, потеряв языки, мы утратим не только основную часть своей культуры, но и идентичность, станем мыслить и действовать по-другому, — говорит директор «Пери Инноваций».

Версия 2.0 Сейчас создатели проекта сосредоточены на обновлении мобильных приложений и сайтов. Скоро у словарей появится новый дизайн, функционал и долгожданная опция — возможность послушать, как звучит слово на родном языке. Заур решил пойти методом краудсорсинга — привлек для озвучки слов самих пользователей, носителей языка. В октябре 2016 года в Дагестане прошел первый тотальный диктант на родных языках. Более 200 человек писали диктанты на 14 языках. Из них только 10% можно назвать уверенно говорящими носителями. — Вначале проект назывался «Open dictionary» («Открытый словарь»), но домен был занят, и я выбрал «Public dictionary» — то есть публичный, доступный всем словарь. Профессиональных лингвистов, которые занимаются нашими языками, мало, они сидят в академиях наук и им это не интересно. Мне казалось, это должен быть словарь, в создании которого будут участвовать рядовые носители языка. Но, к сожалению, пока фид-бека от пользователей — в виде добавления новых слов, исправления ошибок — очень мало. Думаю, сбор озвучек как-то их активизирует, — говорит программист.

Заур понимает, что в одиночку проект осуществить невозможно: нужно, чтобы носители языков сами помогали в создании словарных баз. Именно так получилось с агульским, даргинским, лакским языками: ребята искали словари, готовили из них базы данных, а программист внедрял их в боты и приложения. Лет через десять «Public dictionary» может превратиться в большую платформу изучения родных языков по типу Rosetta Stone или Дуолинго. Но только если сами люди захотят сохранить свои языки. Дмитрий Сафонов

Подробно на сайте Это Кавказ: https://etokavkaz.ru

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *