Так у вас большие данные или маленький компьютер?

Так у вас большие данные или маленький компьютер?

 Товарищи учёные, доценты с кандидатами уже не первый год совещаются в поте лица, сочиняют определение термина “Big Data”, чтобы потом увековечить его в очередном эпохальном ФЗ. А тем временем я расскажу вам, что это такое.

Многие думают, что Big Data – это когда много данных. А что такое много? Гига-, тера-, пента-? Неспособность вашего компьютера обработать ваши данные (“многа буковок ниасилил”) не делает ваши данные Big Data. Скорее всего, у вас не большие данные, а маленький компьютер.

Главное отличительное свойство Big Data, о котором я сейчас скажу, приведет немало почтеннейшей публики в состояние разрыва шаблона. Оно, это свойство, заключается в том, что, работая с большими данными, вы никогда не получите точный ответ на свой запрос. Как же так? Мы привыкли, что если уж компьютер посчитал – это точно.

Существуют ряд причин, по которым получаемая вами из Big Data информация будет всегда приблизительной, с большей или меньшей степенью ошибки.

Если вы пишете запрос к обычной базе данных найти всех людей по фамилии Иванов, вы уверены, что полученный список будет включать всех существующих Ивановых. В случае с Big Data это не так.

В любой момент времени точное количество Ивановых неизвестно. Часть из них умерла, но информация об этом ещё не занесена в базу данных, а часть – родилась, но тоже ещё не зарегистрированы, потому что в Петропавловске-Камчатском – полночь. У некоторых Ивановых фамилия занесена в базу данных с ошибкой, например – Ивонов, Ивнов и т.д., и они не будут найдены. Часть базы данных, находящаяся в на Дальнем востоке, подверглась кибератаке и не ответила на запрос, поэтому все находящиеся в этом сегменте Ивановы тоже не были найдены. Так как с большими данными работают сотни приложений, сочинённых не совсем пряморукими кодерами, всегда часть из этих приложений глючит (как наш с вами любимый ЛинкедИн), и в любой конкретный момент времени  что-нибудь, да не работает.

То есть, работая с Big Data, вы всегда получаете не точный, а более-менее правильный ответ – с некоторой степенью ошибки. Как в известном анекдоте: «Сколько будет 2х2? – Ну, в основном четыре, редко – пять, а совсем редко – даже 8 бывает». Раньше это был анекдот. А теперь это – нормальный результат работы с Big Data.

Поэтому одна из самых важных проблем, которую приходится решать при работе с большими данными – как при неточных, содержащих ошибки, искажения и тому подобные прелести исходных данных, получить результат с необходимой (приемлемой) точностью. А если вы всё же нашли способ получать в любой момент времени совершенно точный результат при работе с данными – извиняюсь, у вас уже не Big Data, сколько бы тера и пентабайт данных там не было.

Собственно, для получения достаточно точных результатов при некачественных исходных данных существуют всего два метода. Но об этом в другой раз.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s