Senior Data Scientist із Лондона – про ринок Британії та майбутнє великих даних

Дмитро Карамшук — Senior Data Scientist в Skyscanner. Ще навчаючись на магістратурі в КПІ, він разом з двома одногрупниками вирішив підзаробити. Так народився стартап Stanfy з річним оборотом близько $500 000. Попри перспективну роботу й хороші гроші, Дмитро покинувши програмування та бізнес і зайнявся наукою. За шість років він здобув Докторський ступінь в Інституті IMT Lucca в Італії, працював науковим співробітником Королівського коледжу Лондона, виступав на TEDx та зовсім скоро приїде до Києва на Kyiv Data Spring . В інтерв'ю для DOU Дмитро розповів про дірявий ринок Data Science в Британії, чому Київ не Лондон та що великі дані зроблять з нами в майбутньому.

— Ваш перший досвід у стартапах — Stanfy з 2005 по 2010 роки. Вашій команді вдалося вирости зі студентського проекту в повноцінну компанію з двадцятьма співробітниками. З чого все почалося?

Проект починався просто як лабораторна робота в КПІ. Нас було троє одногрупників — Олександр Тищенко, Павло Башмаков та я — ми вчилися на магістратурі. У тієї годину мейнстримними були розподілені системи, Java й усе навколо цього. Якось ми сиділи в лабораторії з професором та виконували навчальні роботи. В голову прийшла думка — чому б на лабораторній не заробити гроші?

Тоді я грав у гурті HeartBlanch на бас-гітарі. Пам'ять пам'ятаю, слухав «Heart of Steel», хеві-метал групи Manowar. Мені в голові засіла фраза з пісні «stand and fight». Я почав нею крутити й вийшло — Stanfy.

Ми нікого сайт, на якому всі курсові та інші роботи в університеті оформили як своє портфоліо. Дуже розумною мовою розповідали про ERP системи, distributed systems та інше. І воно пішло. Ми вирішили сконцентруватись на розробці додатків для iOS, шукаючи клієнтів як закордоном, так і серед знайомих в Україні. Набридали студентам, що теж приходили до лабораторії, бо постійно пропонували їм попрацювати з нами. Ми почали розростатись, і на нас почали з підозрою зиркати, мовляв, чим ви тут займаєтесь. Домовитись з університетом не вийшло, ми вирішили піти, зняли офіс й організували компанію. Одночасно писали замовникам код, шукали приміщення для роботи й працювали над магістерськими. Це був інтенсивний період.

Якби таке відбувалося в Лондоні, мабуть, місцевий університет намагався б нас підтримати, виділили б фінансову допомогу, посадили б в інкубатор. У певний момент ми брали кредити у друзів, але не більше. Інвестиції не залучали. Ми отримували прибуток фактично з перших місяців. Пам'ять пам'ятаю, ми почували себе добре в фінансовому плані.

— Скільки вам заплатили за перший проект?

Близько $100. Ми тоді були неймовірно щасливі.

— Як виглядала ваша робота в тієї годину?

Мені було десь двадцять один рік. Для зустрічей з клієнтами я завжди приписував собі кілька років, аби до мене ставилися більш серйозною. Ми були маленькою аутсорсинговою компанією, яка сиділа на знятій квартирі й мала лише сайт в Інтернеті, а її клієнти десь дуже далеко. Сидиш в ізоляції, й про тебе ніхто не знає. З часом ми почали розуміти, що не єдині такі. Якби ми пройшлись по квартирах нашого будинку, впевнений, знайшлось би ще кілька таких контор.

Якось Павло Башмаков сказавши, що треба жити навпаки: виходити з ізоляції, говорити про себе, знаходити такі ж команди з такими ж проблемами й обмінюватись досвідом. У тієї годину почали з'єднання являтись BarCamp'і, які позиціювали себе «не конференціями». Там не було чіткого порядку денного, лише декілька спікерів, а все інше формується на льоту, вписуючись на спеціальну дошку. Люди писали тими, якими б хотіли поділитись. Багато успішних стартаперів пройшли через ці «не конференції». З'єднання явилося відчуття, що всі почали вилазити зі своїх печер, зауважувати один одного. Тоді зароджувалася стартап-тусовка.

— Чому ви пішли зі Stanfy?

Ідея отримати PhD у мене була ще до стартапу. Спочатку була думка зробити це паралельно з роботою, но мені відмовили знайомі. Мені ще не було 25 років, і я вже перейшов з розряду «хакати» системи до business development. У певний момент я втратив інтерес до своєї роботи. Хотілося в цьому житті ще спробувати зробити щось своїми руками.

Я почав дивитися, що у світі є цікавого й чим люди займаються. Вирішив зайнятись наукою. Але тоді було дуже складно зрозуміти, як це відбувається — яку тему зверни, як визначитися із закордонним університетом, як податись на програму. Щось в Інтернеті підчитаєш, але нічого конкретного. Бувало, що знаходив невеликі зустрічі людей, такі собі мітапи, де всі ділились досвідом. Щоб розібратися в усьому, знадобилося близько півроку. Зараз це значно відкритіше, адже існує багато інформації у вільному доступі щодо різних освітніх програм, шкіл, конференцій. Можна швидко сформувати розуміння й дізнатися, чим є наука, як вона робиться, спробувати її.

— По суті, ви закінчили університет й кинули роботу з доброю зарплатнею, яку витворили самі з нуля, заради того, щоб поїхати вчитися?

Це дивно звучить, але схоже на це. Я продавши свою частку в компанії та вийшов з бізнесу. В Інституті IMT Lucca в Італії у мене була стипендія 1000 євро. Це суттєво менше від заробітку в Stanfy, особливо враховуючи різницю у вартості проживання в Україні й Італії. Але я зовсім не шкодую.

— Чим ви керувалися, коли приймали таке рішення?

Я займався бізнесом, але відчував, що це можна зробити пізніше. Хотів спробувати себе як individual contributor. Звісно, було багато сумнівів. Можливо, на мене дещо вплинула література. У тієї годину читав Гемінґвея. Його тексти спонукали подорожувати й щось змінювати.

Але одна справа просто переїхати в країну й залишитись там приїжджим, туристом. Інша — соціалізація. На мою думку, навчання в університеті — найкращий спосіб інтегруватися в суспільство. Адже це місце, де всі такі, як ти. Зазвичай, це невеличке студмістечко, де всі живуть в одному колегіумі й ні в кого немає іншого життя. Тому ви постійно проводите час разом. Різко збільшуються соціальна комунікація, й ці контакти згодом тобі допомагають. У моєму університеті італійців було менше третини. Пригадую, моя дружина теж поїхала здобувати PhD, альо в Мілан. Там більшість студентів були місцеві. Її соціальний досвід був абсолютно інакший.

Після двох років в Італії я поїхав до Кембриджу як visiting researcher. Робота науковим співробітником (research scientist) у Королівському коледжі Лондона я отримав після захисту диплома. На мій погляд, у Британії рівень наукових досліджень, розвитку науки, спонсорування цієї сфери був значно вищий, ніж в Італії. Тому після Кембриджу я поставивши собі за мету шукати позіції саме там.

— Швидко знайшли роботу?

Це було досить довго й складно, адже я півроку подавався на всі вакансії, які знаходив. Насправді, коли дізнався, що мене вибрали, я не очікував на такий результат. У цей час я також проходив інтерв'ю в компаніях, але вирішив, що варто погодитись саме на наукову роботу.

— Чим саме ви займались у Королівському коледжі?

Я працював над кількома проектами. Зазвичай на них виділяється грант. Тобто кожні рік-два ти маєш знаходити наступний грант. Це доволі складний стиль життя. Я працював з ВПС на сервісі iPlayer. Це як Netflix, альо британський. Десь половина населення користується ним. Я займався аналізом даних платформи та її оптимізацією.

— Що у вас асоціюється з тім годиною?

Завжди в науці твій основний результат — пейпер, який ти, після того як напишеш, подаєш на конференції. Престижна конференція — це серйозний конкурс з можливістю бути відібраним на неї не більше 15-20%. Швидше за все спочатку вам відмовлять. Альо ви покращуєте свою роботу й надсилаєте знову. На це все іноді йдуть роки. Коли ви працюєте на новому проекті рік-півтора і вас нарешті зарахували на хорошу конференцію — це один з найкращих моментів. У тієї годину я працював над двома статтями, й обидві схвалили.

— Як би ви описали ринок Data Science в Британії?

Ринок дуже швидко трансформується. П'ять років тому, коли я лише приїхав сюди, ситуація була зовсім інакшою. Більшість Data Scientists були вчені, які працювали в наукових організаціях. Ринок їх переманював на цікаві проекти та більші зарплати. Була тенденція, коли компанії шукали саме PhD в університетах з комп'ютерною комп'ютерних наук чі фізики й робили їм пропозиції, від яких важко відмовитись. Це також була можливість попрацювати з реальними користувачами та даними. Зрештою так відбулось і зі мною у 2016 році — мене переманивши Skyscanner.

Компанії конкурували між собою. Нерідко вони вважали, мовляв, треба наслідувати інших, інакше ми підемо з ринку. Альо існував дефіцит кадрів. Коли в університетах це зрозуміли, почали латати цю дірку. Витворили Data Science програми, щоб генерувати потік кадрів, який поступово насичує ринок.

Дослідники Королівського коледжу Лондона (king's College London)

— Насичує досі?

Щоб був результат від цих програм, потрібно кілька років. Ситуація зміниться, проте зараз досі суттєво відчувається нестача працівників. Разом з цим не раз бувало, що компанії набирали Data Scientists лише тому, що це круто, проте зовсім не розуміли, навіщо їм потрібні такі спеціалісти. Тобто на хвилі мейнстріму. Буває, ще не сформована культура в середині компанії, яким чином ця команда науковців даних має співпрацювати з рештою відділів. Створення цієї внутрішньої культури й інтеграція науки даних у процеси кожної компанії — дуже складна проблема.

— Як інтегрувати науковців у середину інженерної компанії?

Є дуже багато підходів. Перший підхід — науковці працюють разом з інженерною командою й намагаються разом щось зробити. Другий — науковці сидять і працюють самі по собі, але виникає питання, яким чином узгодити з командою інженерів те, що вони напрацювали. Є гібридні підходи. Альо найголовніше — єдиної формули не існує. Ми в Skyscanner разом з іншими компаніями пишемо блоги про те, що в нас працює, а що ні. Усі доволі відкриті в цьому плані й намагаються обмінюватися досвідом.

— Що думаєте про спільноту Data Science в Лондоні?

Вона дуже молода. Коли я лише переїхав до Лондона, були дуже популярними мітапи. Достатня було створити подію з назвою Data Science, розмістити на meetup.com, і ти одразу отримуєш 100-200 відвідувачів. Альо відвідавши 3-4 новини, ти зауважуєш, що це, по суті, одні й ті самі обличчя. Усе це була одна тусовка. З того часу спільнота значно зростала, з'єднання явилося багато цікавих конференцій та інших подій, наприклад, PyData , Re-work , Strata .

Також це все досі сильно пов'язаність язане з університетами, в яких Data Science — частина екосистеми, у тієї годину, як в Україні такі магістерські програми швидше виключення, як наприклад MSc in Data Science в УКУ. А ще важливо, щоб науковці, залишалися працювати в університетах після здобуття звання магістра. Data Science у компаніях — це можливість фокусуватися на завданнях, які потрібно вирішити бізнесу сьогодні. Науковці ж в університетах (PhD програми та postdoctoral researchers) повинні займатися стратегічними дослідженнями, які знадобляться і бізнесу, і суспільству з перспективою в п'ять або більше років. Наприклад, тема, якою над якою я працював після ВВС, — вплив Твіттера на суспільну думку під час політичних подій. Це задачі, вирішення яких дадуть дуже серйозну перевагу в країні перспективи, але навряд чи принесуть швидкий комерційний результат. Досліджень цього рівня в Україні, на мою думку, майже не існує. Це і є одна з основних відмінностей між Британією і Україною.

— Якого висновку ви дійшли в дослідженні про Твіттер?

Я з товаришем, який зараз працює у Facebook, аналізував українські та російські новини у Твіттері під час подій на Майдані в 2013-2014 роках. Ми також почали збирати дані з різних агрегаторів новин. Ми аналізували тексти й хотіли зрозуміти, чи можна спрогнозувати, кім була написання стаття — прокремлівськими медіа, російською опозицією, українськими російськомовними ЗМІ.

У «International Encyclopedia of Propaganda» (Cole, R. (Ed.), 1998) описано кілька десятків видів пропаганди, способів маніпулювання суспільною думкою та інші психологічні прийоми. Наприклад, якщо ти хочеш демонізувати свого умовного ворога, то можеш не казати прямо, що певна людина погана. Альо якщо ти використовуєш її ім'я в статтях з негативним контекстом, тоді на підсвідомому рівні люди починають негативно сприймати цю людину. Нашим глобальним завданням було спробувати перекласти ці абстрактні методи на математичні формули. Наприклад, ти можеш взяти проаналізувати шмат тексту й згодом сказати, мовляв, вісь індикатори пропаганди. Ми показали , що можливо навчити machine learning алгоритмом, який по шматку тексту зможе визначити його походження з доволі високою точністю.

— У році 2013 році ви виступали на TEDx з темою «Підкорюємо матрицю, або Як побудувати інтелектуальне місто». Як ви туди потрапили?

Я закінчував PhD й шукав форуми для поширення свого досвіду й тих результатів, які отримав в ході своїх досліджень. Дещо я публікував у журналі «New Scientist» та інших медіа. Мені також хотілось зібрати фідбек й зрозуміти, чи це цікаво. TEDx — це була моя ініціатива. Я запропонував своє дослідження щодо аналізу соціальних медій для урбаністичних цілей. Після довгих роздумів організатори схвалили мою кандидатуру. Це був надзвичайно корисний досвід. Особливо цікавою була підготовка, адже організатори добре працюють зі спікерами, аби їхній посил був якомога зрозумілішим, простішим й справді цікавим.

Дмитро з колегами зі Skyscanner у Флейні, Франція

— Як великі дані здатні змінити майбутнє нашого суспільства? Спробуйте змоделювати гарний та поганий сценарії.

Зараз є дуже яскравий приклад з Cambridge Analytica й Фейсбуком. Це приклад, який лише вивів на поверхню цю проблему. А тепер спробуйте уявити, скільки всього не виходить на поверхню. Стає лячно, хоча б з точки зору приватності.

Поганий сценарій змоделювати лекше, бо, можливо, про нього більше пишуть. Захакані вибори в Британії, зафейкані вибори в США, Росії та все інше. Нещодавно прочитавши «Людина розумна. Історія людства від минулого до майбутнього» Ювала Ноя Харарі з Єрусалимсього університету. Кілька років тому він написав продовження — «Homo Deus: Коротка історія завтрашнього дня», де міркує про те, як люди будуть розвиватися в майбутньому, якщо еволюціонують як вид. Люди поступово почнуть більше довіряти технічним промов, ніж власному розуму.

Він наводить приклад, що в діагностиці ракових захворювань алгоритми роблять меншу похибку, ніж консиліум найкращих спеціалістів у цій сфері. Це означає, що поступово ми навіть не зауважимо, як все більше довірятимемо своє життя алгоритмами. Але це відбудеться не в одну мить. Дещо частково вже існує. Алгоритми визначатимуть, наприклад, куди тобі краще поїхати. Ми довіряємо алгоритмами, які показують нам інформацію в новинній стрічці на Facebook.

Тепер згадаємо результати президентських виборів у США. Багато інтелектуалів кажуть, мовляв, демократія зламалась, не працює, бо люди приймають безсенсові нераціональні рішення. Можливо, значно раціональніше буде робити вибори за допомогою алгоритмів, адже людей можна закидати фейками, популізмом, від чого вони діятимуть так, як потрібно маніпулятору. Алгоритми могли б об'єднання єктивно оцінювати кандидатів за їхнім попереднім досвідом, і таким чином відбувались бі вибори. Звісно, це не відбудеться завтра. Для цього необхідно багато випробувань.

Врешті-решт суспільство сильно залежатиме від алгоритмів. У такому суспільстві будуть інакші ризики. Наприклад, можна хакнути систему й маніпулювати цими алгоритмами. Домінуюча філософія в розвиненому світі базується на людині як найбільшій цінності, у якої є індивідуальність, власні судження, право голосу та інше. Коли наприклад, людина на 90% залежатиме від алгоритмів, тобто буде кіборгом, виникне питання, чи може вона мати всі ці права й називається людиною. Стандарти нашого уявлення про світ, людей у цьому світі та їхні права, потрібно буде переглянути. До яких катастроф та висновків це може призвести — невідомо. Але в основі цього закладені великі дані, що керуються алгоритмами.

— Чим життя в Лондоні відрізняється від життя в Києві?

Як у моїй індустрії, так і в культурному плані Лондон — одне з головних міст на планеті. Це одна з основних причин, чому я хотів переїхати саме сюди. За моїми спостереженнями, британці в Лондоні майже не живуть, вони частіше оселяються за містом і на роботу добираються на швидкісних поїздах, які дуже розвинуті.

Це місто без обмежень. Наш заходів — з пакистанської сім'ї, дуже підтримує ЛГБТ-спільноту. Якщо ітиме вулицею панк, навіть ніхто не зверне уваги. Це також надзвичайно комфортне місце для проживання експатів. Тут усі говорять з різними акцентами й виглядають інакше, мають різні релігійні переконання й різну сексуальну орієнтацію. Мені це дуже подобається. Якось, працюючи в лабораторії у Королівському коледжі, з десяти людей я був єдиним європейцем.

Я виріс у Києві. Там такої різноманітності культур майже не бачив, а вона розширює твоє уявлення про те, яким є світ, а також дає розуміння, що є дуже багато речей, про які ти не здогадувався. Один з найбільших мінусів у Лондоні — шалено високі ціни на нерухомість та великі витрати на проживання.

Дмитро зустрів колегу з Beijing Institute of Technology, Велика китайська стіна

Цікаво, що куди б я не поїхав у світі, всюди можна знаті знайомих знайомих. Якось я приїхав до дружини в Індію, де вона займалася йогою в місті Майсур. Там я дізнався, що у мого колишнього наукового керівника є знайома у цьому місті. Ця жінка не директоркою місцевої бізнес-школи. Таке саме було в Китаї. У цих випадках ви одразу налагоджуєте контакт, вам, наприклад, можуть порадити екскурсію містом, відвідати вартісні місцеві заклади харчування, складуть хорошу компанію та розкажуть багато цікавого. До речі, Індія — єдина країна, де я вижив на вегетаріанський їжі і де мене вразило ставлення до природи. Є люди, які можуть, наприклад, поклонятись дупла з гадюками, приносити туди квіти. В українському селі скоріш за все затовкли б ту змію. Мені здається, усього цього дуже не вистачає Україні.

Опубліковано: 14/05/18 @ 07:00
Розділ Блоги

Рекомендуємо:

SQL Server дайджест #15: другий сервіс пак для SQL Server 2016, як підняти сіквел на Маці і SQLSaturday Kyiv 2018
Геймдев: які є спеціалізації програмістів і з чого починати
Як скоро ваше місце займе AI
Go дайджест #3: Go 1.10.2 and 1.9.6, новий брендинг для Go, NGINX Unit 1.0 сервер додатків з підтримкою Go
Легкий старт в ІТ: що таке RPA і як освоїти технологію з нуля