Как «Яндекс» пытается сохранить редкие и старинные языки
Языки, как и всё живое на планете, переживают циклы эволюции, распространения и даже вымирания. По данным ООН, около 400 языков исчезли в прошлом столетии, а к 2100 году пропадут ещё несколько тысяч. Утрата каждого диалекта — потеря культурного наследия, поэтому лингвисты стараются сохранить как можно больше языков, пока это возможно.
Поисковики становятся важной частью этих усилий, это современное средство для защиты языков от вымирания. Благодаря продвинутым инструментам для перевода, разработанным при помощи машинного обучения, такие механизмы распознают и обрабатывают языковые базы данных и сохраняют для будущих поколений.
Один из лидеров в этой области — компания «Яндекс». «Российский Google» разрабатывает свои инструменты, одна из них — Яндекс Переводчик. Альтернативный Google Translate поддерживает свыше сотни языков, тогда как Яндекс распознаёт 90 языков. Но Яндекс делает упор на диалекты и местные языки. Например, татарский язык (на нём говорят 5,5 млн человек) или башкирский язык (1,2 млн человек). Также компания работает с лингвистами для сохранения редких языков России: марийский язык (500 тыс. человек) или удмуртский (324 тыс.человек).
Эта работа помогает сохранить редкие языки для будущих поколений, она позволит людям увидеть, насколько разнообразна и прекрасна культура в мире вокруг. Изучение рассказывает о том, как люди влияют друг на друга в течение многих лет. Мы никогда не жили изолированно друг от друга как в пузыре, теперь подтверждае языки.
Антон Дворкович, разработчик Yandex
Вот пример. Существует такой редкий язык папьяменто. Как говорит Википедия, это креольский язык на иберо-романской основе, родной язык населения Арубы, Кюрасао и Бонэйр. Недавно Yandex добавила его в переводчик по предложению одного из сотрудников подразделения в Нидерландах. Оказалось, что он — один из 270 000 носителей этого языка в мире.
Папьяменто — смесь из языков испанской, португальской, голландской, английской, индейской и африканской группы. Системы-переводчики Yandex должны понять, каким же образом сложился такой язык.
Разработчики любят повеселиться, поэтому так появился на свет вымышленный синдаринский язык эльфов. Это один из диалектов, придуманный Толкином для рассказов о Средиземье. Возможно, что в будущем программа-переводчик научится работать и с другими языками.
Как видите, машинное обучение — это и практично, и весело. По крайней мере, можно не только пообщаться на вымышленных языках, но и спасти старые и редкие языки от забвения. Может, со временем на них вообще перестанут разговаривать, но хотя бы сохранятся данные.
Источник: Motherboard