Як ромська мова з'явилась у Перекладачі. Або історія ромки, яка працює в Google

Віднедавна ромська мова з’явилася Google Translate разом з понад сотнею інших рідкісних мов. Ця новина неабияк потішила ромське ком’юніті. У компанії Google тоді зазначили, що підхід компанії  полягає в тому, аби надавати пріоритет найбільш вживаним різновидам кожної мови. І що ромська мова має багато діалектів по всій Європі. Ми підготували матеріал про це та протестували нові можливості. Над розробкою сервісу працювала у тому числі й Ровена Марін. Вона – етнічна ромка і володіє мовою. Ми отримали ексклюзивну можливість поспілкуватися з пані Ровеною та дізнатися про її професійний шлях. 

Ровена Марін народилася у Бая-Маре, що у Румунії. Це невеличке мальовниче містечко, розташоване на півночі країни, на кордоні з Угорщиною й Україною. Ровена належить до спільноти silversmiths (аргентарі, срібники - ред.). Назва походить від роду занять предків: чоловіки купували срібло і виготовляли прикраси, а жінки продавали їх на ярмарках чи деінде. Першою мовою Ровени була ромська. А цьогоріч завдяки жінці ромська мова з’явилася у Google Translate. Ровена Марін є авторкою книги «Who Am I in this World?» («Хто я в цьому світі?» - ред.). Це автобіографічна розповідь про Ровену та її предків. 

«Прислухайся уважно, щоб почути пісню прапрабабусі, поневоленої в молодості. Закрийте очі і побачите караван, де народилася бабуся Ровени. Подивіться на нетрі Олександрії, де виросла її мати. Купайтеся в привабливих запахах циганської вечері того, що дозволено чи заборонено цим ромським жінкам. Коли Ровена слідує «Шляху» свого народу, щоб заспокоїти свою родину, вона зрештою вирішує досліджувати життя за межами ярлика своєї етнічної приналежності», – розповідає анотація до книги.  

Покинути все і продовжити навчання 

– Розкажіть про себе, про своє походження, освіту та шлях до розробниці.

– Моя громада – це прекрасна, закрита громада, де до мого покоління ми одружувалися тільки між собою і жили дуже-дуже тісно.

Моєю першою мовою була ромська, а потім вивчила румунську і трохи угорську, тому що ми жили близько до кордону. Родиною ми переїхали до Бухареста, тож я там і навчалася з другого чи третього класу. Там я закінчила університет і вийшла заміж за нашими, ромськими, традиціями. Точніше, за звичаями моєї громади, адже ми зберігаємо культуру, досвід поколінь. Серед цих  звичаїв – шлюби в досить юному віці. Так було і зі мною. 

Але в якийсь момент я зрозуміла, що хочу продовжити навчання. Тож я покинула все і почала шукати стипендію через Ромський освітній фонд (Roma Educational Fund - ред.). Це дуже впливова організація у Європі, яка дає можливість молоді розвиватися. Завдяки фонду я отримала стипендію для навчання у Французькому університеті, що розміщений у Мадриді, Іспанія. Адже я володію французькою. 

Я навчалася і почала працювати, адже мені потрібні були гроші, щоб закінчити магістратуру. Я почала працювати у стартапі й саме там  вивчила цифровий маркетинг. Завдяки цьому я сьогодні тут, працюю в Google. Звичайно, це був довгий шлях, але я розпочала свою кар'єру в магістратурі, потроху крокуючи далі. 

– А коли ви переїхали до США?

– Три роки тому.

– Були якісь перешкоди? 

– Ні, це було з іншої причини. Насправді це було тому, що я вдруге вийшла заміж за американця. Але це було, коли я жила в Ірландії.

Тож повернемося трохи назад. Спершу була Іспанія. Потім я переїхала до Румунії, а вже звідти – до Ірландії в Google.

Перша робота в Google була там, тому що у них велика штаб-квартира в Дубліні. І в Дубліні я прожила майже п’ять років. Саме там ми з чоловіком одружилися.

А потім ми вирішили, що хочемо бути ближче до рідних, створити власну сім'ю. І оскільки родина чоловіка зі США, ми вибрали цю країну. 

110 мов, серед яких і ромська

– Ось ми дійшли до Google. У перекладачі з’явилися 110 нових мов, включаючи ромську. Розкажіть, будь ласка, як виникла ця ініціатива? Яка була мета оновлення?

– Це частина набагато більшого проєкту, який ми запустили у двадцять другому році. Йдеться про багаторічну ініціативу «Тисяча мов». Ми сказали, що хочемо мати в Google Translate тисячу нових мов. Нещодавно ми оголосили про запуск нових 110 мов.І ромська є їх частиною, частиною цієї великої ініціативи. 

– А на кого спрямована програма і хто може скористатися цим оновленням в першу чергу?

– Ромська використовується, нею говорять. І вона тепер доступна для всіх. Кожен може нею користуватися. Я маю на увазі, що завжди саме це головна мета  – зробити інші мови доступними для будь-кого.

Тепер більше людей, ромів, зокрема, зможуть перекладати будь-якою іншою мовою у світі. Моя мама, скажімо, розмовляла тільки румунською мовою. Тепер вона зможе ввести ромську мову в своєму телефоні й тоді весь світ відкриється для неї.

Також я думаю, що це ще один спосіб, за допомогою якого Google довів, наскільки він відданий своїй місії. А вона полягає в тому, щоб зробити інформацію загальнодоступною та корисною. Це наша місія.

Інформація – це дуже широке поняття, яке охоплює багато компонентів, а ми робимо її загальнодоступною і корисною. І зробити це можна, у тому числі, залучаючи чимало інших нових мов, роблячи їх відкритими для використання абсолютно всіма охочими.

– А як проходила робота технічно? Можливо, у вас були якісь ромські організації, лінгвісти, словники, посилання, що було джерелом для створення ромського діалекту в Google?

– Я працюю у відділі маркетингу та продажів у Google, але спробую пояснити технічну сторону.

Отже, Google Translate використовує метод, який називається zero zero shot translation. Це дуже специфічний метод, який будує нейронні мережі, що можуть перекладати між різними мовами.

Для будь-якої нової мови команді спочатку потрібно знайти тексти, статті, книги та вебсайти цією мовою, щоб побудувати будівельні блоки для навчання моделі перекладу. Весь цей процес називається ідентифікацією мови.

І ця велика мовна модель, насправді, є будівельним блоком або основою штучного інтелекту. 

Потім з цими даними, які вони використовувалися для навчання моделі, команда працює над тим, щоб навчити обчислювальну модель перекладати.

Команда багато працювала з носіями мови по всьому світу. І зараз я говорю це не лише про ромську мову, а й про будь-яку іншу.

А для ромської мови, звичайно, в Google я була носієм мови. Але вони вже мали багато іншої інформації, яка була зі статей, книг і так далі, яка допомагала їм створювати, тренувати мовну модель. А потім носій мови, яким була і я, перевіряв деякі з цих перекладів.

– А як Ви працювали? В чому саме полягала робота? 

– У мене був величезний набір даних, тобто оригінальний текст нашою мовою, а потім переклад, можливий переклад.

І все, що мені потрібно було зробити, це перевірити – має сенс чи ні? Й іноді це було змістовно і логічно. Це був ніби «слово в слово», гарний переклад.

Але іноді все видавалося хорошим, а насправді, треба було перефразувати, щоб це  було якісним перекладом. Тож мені довелося піти та змінити це.

Розробники провели деякі дослідження, щоб знайти найбільш релевантну, на їхню думку, інформацію. І саме її вони використовують для створення тих точок перевірки, які вони мені надсилають.

– І тут ми підходимо до наступного запитання про специфіку ромської мови в різних країнах. Адже є багато діалектів. Чи вони були враховані, чи це був більш узагальнений підхід? 

– Про це ми оголосили в анонсі, який зробили до запуску 110 мов. Наш підхід полягав в тому, щоб надати пріоритет найбільш часто використовуваним різновидам мови. Щодо ромської, то наш переклад найбільш близький до південного варіанту ромської мови (Southern Vlax Romani - ред.), який часто використовується в Інтернеті. Але в ньому також змішуються елементи такі, як північний влахський та балканські діалекти. 

Повага до мов і особистості 

– А наскільки Google був зацікавлений у впровадженні ромської мови? Чи був інтерес до неї? Чи вона якось відрізнялася від інших мов?

– Кожна з мов сприймається, як надзвичайно важлива. І ми багато думаємо, багато працюємо над тим, щоб зробити все якомога краще. Адже всі ми дуже добре розуміємо наслідки та можливості, які відкриваються з додаванням ще однієї мови до Google Перекладача.

Яка передісторія появи ромської в перекладачі? У двадцять другому році в Румунії втілювалася велика кампанія, яка називалася «Інтернет вивчає ромів». Її ініціювала агенція McCann. Суть кампанії така: було запропоновано викласти багато тексту ромською мовою, щоб, можливо, алгоритм навчився перекладати.

Тоді я подумала, що це просто така гарна кампанія. А коли я побачила її, то отримала чимало натхнення та мотивації. Тому зв'язалася з нашою командою Google Translate, щоб дізнатися, як відбувається процес.

Я зрозуміла, що потрібно було запропонувати команді ромську, як мову, котру слід додати.  

Тобто, по-перше, хтось повинен був порушити цю тему, хтось повинен був запропонувати її. А по-друге, їм потрібен був носій мови для підтвердження. Тож я підійшла.

Я звернулася до Айзека (Ісаака) Касвелла, який був головним інженером-програмістом. Саме завдяки йому стала можливою поява ще 110 мов у перекладачі Google. 

Тож я підійшла до нього два роки тому і сказала, що я є носієм мови, що я ромка. І з того часу почався цей процес.

– Це важка і тривала робота. Чи стикалися Ви з якимись труднощами в процесі?

– Я – ні, для мене не було проблем. 

Я впевнена, що команді, яка все це зробила, було нелегко, знаєте, запустити сотню мов. Але для мене це було просто питанням валідації. А оскільки моя рідна, моя основна мова – ромська, це не було проблемою.

– Припускаю, що сервіс буде вдосконалюватися, як це завжди відбувається. А чи можуть користувачі якось вплинути на цей процес? Запропонувати свої зміни? Адже, до прикладу, в нашій організації ( Молодіжна агенція з адвокації ромської культури «АРКА» - ред.)  є ромські мовознавці, які помічають певні неточності. Як їм поділитися своїми думками? 

– Якщо ви перекладаєте все більше, якщо ви встановите додаток і почнете використовувати його, щоб перекладати прямо для ромів на різні мови, додаток або вебсторінка проситиме про зворотний зв'язок. Не у всіх випадках, але в багатьох така опція з’являється. Сервіс запитує, було це корисно чи ні. І якщо люди там дають зворотний зв'язок, він завжди береться до уваги.  

Ще один спосіб самостійно надіслати відгук. Відповідна кнопка знаходиться праворуч під полем перекладеного тексту. 

Запевняю, ми беремо ці відгуки до уваги.

– І невелике особисте питання. Як відомо, роми доволі стигматизована група. Побутує багато стереотипів. Як ви почуваєтеся, будучи ромкою і працюючи в цій великій організації? Який досвід ви отримали за ці роки?

–  Я працюю в Google вже сім років. До Google я працювала у різних компаніях. Загалом це 10-річний професійний досвід. Але я ніколи не затримувалася більше, ніж на два роки в жодній іншій компанії.

Знаєте, у такій великій корпорації, як Google, коли кажуть, що різноманітність важлива, що кожен має право голосу, що за бажання можна поділитися тим, хто ви є то це, дійсно, правда. Тут ти ром чи будь-хто інший, ти завжди знаєш, що ти насправді важливий і особливий. І цього не було в інших компаніях, де я працювала. Тож саме тому я залишилася в Google. Це дуже різноманітна компанія, в якій працюють люди з усіх верств суспільства. 

На фото: Ровена Марін з мамою

Інтерв’ю провела Наталія Томенко; підготувала матеріал до публікації Дар’я Ворона. 
Фото: з відкритих джерел та Фейсбук-сторінки Ровени Марін