Карта сайта
Версия для печати

Какое будущее ждет информационные технологии?

22 августа 2013 Сейчас мы наблюдаем четвертую волну ИТ-революции. Рассмотрим вкратце ее пройденные этапы. Эта история началась в 1960-х годах в эпоху классических мэйнфреймов IBM. Все данные отправлялись в мэйнфреймы, в удаленные хранилища. Центры обработки данных нужно было организовывать в отдельных помещениях, а то и зданиях. Таким было первозданное состояние ИТ-инфраструктуры. Оно сохранилось надолго, с зарождения ИТ, примерно в 1960-х годах, до середины 1980-х, когда произошло первое кардинальное изменение - началась эпоха ПК. Целый ряд компаний внесли свой вклад в этот процесс, но я бы сказал, что IBM сыграла здесь ключевую роль.


Последствия для IBM оказались серьезными. Это был первый этап революции. Наша доля рынка значительно сократилась. На преобразование и восстановление компании ушло почти десять лет. Был момент, когда казалось, что у IBM нет будущего. Пользователи между тем оказались в новой среде. До этого мэйнфреймы и большие центры обработки данных относились к сфере крупных корпораций и правительственных органов. Теперь компьютеры стали доступны частным лицам.

В 1990-х годах состоялся следующий этап революции, который связан с Интернетом. Он кардинально изменил нашу жизнь. Мы получили мгновенный доступ к информации, научились передавать голос по протоколу IP и предоставлять удаленный доступ. Все это было придумано для конечных пользователей. Для IBM ситуация полностью изменилась: компании, которая раньше обслуживала корпоративных клиентов, пришлось учиться понимать и предугадывать желания потребителей. Клиенты, институты и лучшие эксперты теперь подсказывают нам, как вести научно-исследовательскую работу в корпоративном секторе. Это помогает нам оптимизировать услуги и внедрять инновации в реальном времени, чтобы делать мир разумнее.

Сегодня наша деятельность сосредоточена в пяти основных областях: мобильность, социальное взаимодействие, облачные вычисления, Большие данные и аналитика. Именно так выглядит и будущее информационных технологий. Это базовые направления, главные тенденции, диктующие наши дальнейшие шаги. Для облачных вычислений, например, требуется совершенно новая модель бизнеса. Программное обеспечение для облачных сред пишется по-другому. По сравнению с эпохами мэйнфреймов и ПК все теперь делается иначе. Раньше мы создавали фиксированные пакеты ПО в соответствии с потребностями предприятий. Сегодня наши клиенты могут сами подстраивать ПО под свои нужды. В сложившейся ситуации мы очень быстро переходим от систем на базе аппаратного обеспечения, процессоров, к системам, в основу которых положено ПО.

В облачных средах данные, приложения и услуги доступны мгновенно, а бизнес-аналитика позволяет нам эффективно использовать эти новые ресурсы. Эта тенденция тоже сопряжена с зарождением совершенно иной модели бизнеса. Мы имеем дело с очень сложной средой. Планета становится разумнее, и Интернет вещей непрерывно поставляет в облачную среду свежие данные, потому что наши устройства неустанно совершенствуются. Вычислительные возможности, которых хватило, чтобы отправить "Аполло-13" на Луну, доступны сегодня в обычном смартфоне. В результате устройства, которыми мы пользуемся индивидуально в повседневной жизни, способны теперь генерировать беспрецедентные объемы данных. На выходе мы получаем Большие данные, которые в сочетании с аналитикой и облачными хранилищами превращаются в сокровищницу бесценной информации. Системы GPS и триангуляции отслеживают наши передвижения, многие наши действия регистрируются, и анализ данных за предыдущие периоды позволяет выявить закономерности. Мы участвуем в социальных сетях, каждый день ходим на работу: мы предсказуемы почти в  режиме реального времени. Так формируется контекст данных. Получение достаточно полного и точного контекста – самая сложная задача для нас на сегодняшний день.

Примерно в 2003 году наступил момент, когда объем знаний, накопленных человечеством, удвоился практически мгновенно. По сегодняшним меркам тогда у нас данных почти не было. К 2011 году облачные хранилища доросли примерно до 2 зеттабайтов. В 2012 году этот показатель подскочил до четырех. Половина этого объема приходится на долю изображений, то есть неструктурированных данных. Главная задача теперь, как я уже сказал, – поместить все эти данные в контекст, научиться извлекать пользу из этой информации для себя и для экономики.

Формат, богатый контекстом, помогает осмыслить данные. Например, видео содержит более полные сведения, чем текст. Все любят фильмы. Снимите пятиминутный клип, и он наверняка окажется популярнее страницы словесного изложения. На YouTube каждые четыре минуты загружается терабайт видео, 1012 байтов. Это, в основном, ролики по 5-6 минут. Если вы спросите меня о любимом фильме, то я, скорее всего, выберу какое-нибудь обучающее видео на YouTube, а не голливудский блокбастер с огромным бюджетом.

В области кино у IBM тоже есть потрясающие проекты. В 2012 году мы придумали, как расположить всего 12 атомов таким образом, чтобы в них можно было закодировать один бит данных. В распространенных сегодня технологиях для этого используются миллионы атомов. Двенадцать – это минимально возможный объем такого запоминающего устройства. Это было революционное достижение. И, к слову, мы заодно сняли самый маленький в мире фильм. Он называется "Мальчик и его атом", и его, конечно, можно посмотреть на YouTube. В плане размера мы достигли предела. Следующий рубеж – квантовые вычисления. IBM проводит исследования небывалых масштабов в этой области. Мы поговорим об этом в блоге позднее.

Упоминания заслуживает и 18-минутный фильм блистательного Джефа Джонаса, почетного сотрудника IBM, ведущего научного сотрудника группы IBM по аналитике. В этом видео речь идет о феномене, который он назвал корпоративной амнезией. По его словам, объем собираемых данных растет в геометрической прогрессии, но количество полезных данных не меняется. Сегодня крупные компании, в том числе, IBM, используют для принятия решений в бизнесе около 10% внутренней информации. По мере роста общего объема данных эта доля через несколько лет сократится до 1%. Джеф считает, что для осмысления данных нам нужен контекст. Фрагмент паззла – бессмыслица, если нет соседних фрагментов. Нам требуются ассоциации.

Чтобы проиллюстрировать эту мысль, Джеф обратился за помощью к своим детям и к двум их друзьям. Он купил несколько паззлов, перемешал фрагменты, некоторые из них убрал, к оставшимся добавил 30% дубликатов, отдал все это детям и предложил им собрать картинку. Их реакцию он заснял на видео, чтобы показать, что аналогичные входные данные означают в мире ИТ. Дети сыграли роль четырех процессоров, динамически взаимодействующих – так же, как это делают машины. Часть информации бесполезна: это фрагменты другого паззла. Часть полезной информации дублируется. Детям сложно ее обрабатывать. Джеф пришел к выводу, что объем данных, имеющихся в нашем распоряжении, непрерывно увеличивается, вычислительная мощность тоже, но количество полезной информации не меняется. Это растущее несоответствие он и называет корпоративной амнезией. Мы не знаем, что нам пригодится для принятия решений, пока у нас нет контекста и неизвестен уровень достоверности.

Объем доступных данных растет беспрецедентными темпами, и эта тенденция не изменится. У нас много визуальных данных, и нам срочно нужны аналитические инструменты для определения их контекста. Мы сейчас вкладываем много усилий в проекты такого рода. Нам надо научить машины анализировать изображения и видео и делать выводы на основе Больших данных. Этим и занимается IBM Watson.

Отдельные устройства уже генерируют больше данных, чем мы в состоянии обрабатывать. Пользоваться централизованными хранилищами и средствами обработки теперь бессмысленно. Большая часть данных никуда не передается. Что это означает? Как мы могли бы извлекать самую важную информацию в момент ее создания, чтобы принимать правильные решения в бизнесе? Ответ на этот вопрос крайне важен для самых разных отраслей, и IBM сейчас работает над решением этой задачи. Мы ищем способы определения контекста Больших данных и мгновенного выявления полезных сведений. Фильм Джефа Джонаса прекрасно освещает эту тему.

Данные существуют в нескольких измерениях, и IBM работает с каждым из них. Прежде всего, у нас есть классические бинарные данные. Второй тип – это данные в движении, описание ситуации в реальном времени. Раньше мы пользовались системой записи, содержащейся в мэйнфреймах, добавляли ПО, и вся эта структура была статичной. Если информации не хватало, можно было нарастить вычислительные возможности. С другой стороны, сегодня мы пытаемся определять контекст социальной информации и оптимизировать принятие решений с помощью аналитики. Мы имеем дело с данными в движении.

Следующий тип – это многомерные данные. Это сочетание голосовых, текстовых и графических данных, и для их анализа нужен полный контекст. Наконец, четвертый тип, самый сложный, – это неточные данные. Здесь приходится задействовать концепцию достоверности. Приведу пример, чтобы проиллюстрировать эту мысль.

Допустим, вы едете в машине, и устройство GPS отслеживает ваш маршрут. Все идет хорошо до тех пор, пока вы не оказываетесь в тоннеле, где GPS, возможно, не работает. Что делает в этом случае система? Она вычисляет вашу скорость, следит за поворотами и определяет ваше местоположение даже без спутника. Это называется распознаванием данных. Эта технология позволяет определять, где вы находитесь, когда GPS не работает, но чем дольше вы двигаетесь по тоннелю, тем ниже точность, или достоверность, и при достаточно большом расстоянии вы собьетесь с пути.

Аналогичные системы используются и в других ситуациях, например, на нефтяных месторождениях и железных дорогах. В Интернете вещей объекты оснащены миллионами датчиков, которые обеспечивают непрерывный поток данных. Если он все же прервется или показания окажутся статистически неправдоподобными, система может проанализировать данные за предыдущие периоды и сообщить значения, на которые можно положиться. Когда такие замены делаются по веской причине и с высоким уровнем достоверности, правдивость данных возрастает. IBM ведет много исследований в этой области и ищет способы экстраполировать точные данные, когда это требуется.

Анализ данных за прошедшие периоды позволяет делать выводы о достоверности новой информации. Один из японских производителей мотоциклов опубликовал на YouTube видео, где полиция останавливает грузовик, двигающийся со скоростью 210 км/ч, и выписывает штраф за превышение скорости. Но на самом деле грузовики так быстро не ездят: прибор среагировал на промчавшийся мимо мотоцикл. Если бы у полицейских под рукой были средства контекстного анализа, платить этот штраф не пришлось бы.

Вообразите себе потенциал этих технологий в сочетании с объемом доступных данных. Мы теперь пытаемся анализировать, кто что обсуждает в социальных сетях, и выявлять закономерности. Это помогает, в частности, укреплять деловые отношения. Если я хочу купить то, что вы продаете, мне нужна информация о товаре и в обязательном порядке контекст. И здесь опять на помощь приходит IBM Watson.

Задача сейчас – научиться снабжать данные контекстом и структурой, определять, какая информация полезна для нас, и замещать ошибочные показатели аналитическими прогнозами. Это относится и к анализу визуальных данных, над которым мы активно работаем. Видео и изображения надо интерпретировать, совмещать с текстом и голосовыми данными и опять же структурировать. Мы предоставляем клиентам для этой цели среды на базе программного обеспечения. Речь идет об облачных системах, содержащих и данные, и приложения. Они предназначены, в основном, для конечных пользователей. Операции с данными в этой среде определяются программным обеспечением и зависят от текущих потребностей. В отличие от классических решений 1980-х годов, это динамическая система. Мы пытаемся понять, что происходит при использовании среды на базе ПО. У IBM есть несколько решений для этой цели, например, PureSystems, которые можно установить, чтобы использовать программные алгоритмы для дистанционной поддержки принятия решений. В этой области мы тоже проводим много исследований. И, наконец, у нас есть системы, ориентированные на обработку данных.

Системы, ориентированные на обработку данных, следуют за информацией. Как я уже объяснил, в эпоху мэйнфреймов, с 1960-х до 1980-х годов, процесс был централизован. Информация доставлялась в мэйнфреймы, хранилась там, а работа с ней велась в центрах обработки данных. Сегодня информация остается там, где она генерируется. Собирать ее было бы слишком дорого. Поэтому мы делаем наоборот: отправляем средства обработки ближе к пользователям. Нам нужно программное обеспечение, чтобы анализировать данные с учетом контекста. Для этого мы используем облачные решения и среды на базе ПО. В сочетании они образуют системы, ориентированные на обработку данных. От них требуется, в частности, низкое энергопотребление, высокая скорость и производительность, а также способность быстро анализировать информацию. Чтобы обеспечить дистанционный анализ, мы переносим центры обработки данных и вычислительные возможности ближе к месту использования. Поэтому производительность таких устройств сегодня гораздо выше, чем десять лет назад. В результате и отношения IBM с клиентами кардинально изменились.

Здесь в центре внимания снова оказывается Watson. В 2011 году этот компьютер, как известно, принял участие в телевикторине Jeopardy и выиграл благодаря высокопроизводительным вычислениям и специальным программным алгоритмам. На входе он получил статичные, уже существующие данные. Мы загрузили в хранилище все, что у нас было, добавили высокую вычислительную мощность и предоставили машине нужные алгоритмы. Ведущий задавал вопросы в обычном формате, как будто его собеседником был человек. Watson для начала анализировал голосовые данные, преобразовывал их в полезную информацию, чтобы понять вопрос. Речь, естественно, зависит от культурной среды. В этом проекте мы ограничились для начала английским языком. Преобразование устной речи в запрос, понятный компьютеру, – это само по себе сложная задача, и Watson превосходно с ней справился. Понимать длинные предложения было проще: они содержат больше информации для анализа

Затем Watson помещал каждый вопрос в контекст и генерировал потенциальные ответы на основе статических данных. С помощью математических алгоритмов компьютер выводил миллионы гипотез. Например, если спросить его, как проехать на Краснопресненскую набережную, он сделает вывод, что вы находитесь в Москве, и перечислит доступные варианты: можно поехать на такси, на метро или прогуляться пешком. Это потенциальные ответы, которые мы рассчитываем получить. Но сначала компьютеру надо определить местоположение. Потом он генерирует миллионы гипотез – может быть, к пункту назначения лучше отправиться на корабле? – и присваивает каждой из них уровень достоверности. Для этого требуется огромная производительность. Если гипотез с уровнем достоверности выше 50% не было, Watson отказывался отвечать.

Эта схема дает представление о том, что Watson будет делать в дальнейшем: проводить мультимодальный анализ, то есть анализировать, в том числе, и визуальные данные, и вести диалог. В его распоряжении будет вся доступная информация, например, записи с камер видеонаблюдения и данные со спутников, и он будет стараться понять, кто задает вопрос. Если останутся неясности, компьютер сможет уточнить подробности. И однажды наступит момент, когда отвечать ему начнет другой компьютер с аналогичными возможностями. Завяжется диалог, и тогда потенциал анализа Больших данных будет реализован полностью. Такая среда с поддержкой обучения поможет системе делать выводы на основе неполной информации. Ошибочные данные можно заменить, и уровень достоверности возрастет. В конечном итоге компьютер выведет правильный ответ. Если уровень достоверности недостаточно высок, можно задать уточняющие вопросы. "Вы могли бы предоставить мне дополнительную информацию? Пожалуйста, поточнее". Так складывается диалог, сначала с людьми, но в дальнейшем, возможно, станет ясно, что у людей недостаточно нужных сведений. Тогда компьютеры начнут адресовать вопросы друг другу и займут доминирующее положение. Рэй Курцвейл, американский писатель, изобретатель, футуролог и директор по инженерным разработкам Google, предсказал, что это произойдет к 2045 году. Таков результат мультимодальной аналитики, бесконечной цепочки вопросов. Когда потенциал человека будет исчерпан, его заменит компьютер, оперирующий зеттабайтами и петабайтами данных.

Возникает, естественно, вопрос о безопасности. Он вызывает обеспокоенность с тех пор, как мобильные устройства стали использоваться повсеместно: как обеспечить конфиденциальность в подобной среде? Если вы едете из точки A в точку B, запись об этом остается в системе, и в следующий раз она узнает ваш маршрут. Это личная информация, но она уже зарегистрирована. Система знает скорость движения, время суток, и рано или поздно она сообразит, зачем вы отправились в путь.

Дело в том, что данные прозрачны. Мы находимся в среде, где, я бы сказал, конфиденциальности не существует. Вспоминается фильм Стивена Спилберга "Особое мнение" о прогнозировании убийств. Потенциальных преступников ловят до того, как они причинят вред жертвам. Не исключено, что такая возможность есть уже сейчас. Когда человек появляется на свет, многие события его жизни можно прогнозировать сразу. Я говорил об этом в прошлом году на московском форуме "Открытые инновации": с учетом телемедицины и сегодняшнего уровня здравоохранения дети рождаются, если выразиться фигурально, с часами, отсчитывающими ожидаемую продолжительность их жизни. Этот показатель можно увеличить, если правильно питаться, разумно себя вести, с умом выбрать вторую половину и переехать в район с чистым воздухом. Все эти обстоятельства, безусловно, влияют на продолжительность жизни. Кое-что можно контролировать, и вполне вероятно, что через пару лет ваш организм будет оснащен датчиками, ежедневно показывающими, сколько вам осталось жить.

Что это означает для человечества? Изменится многое. Общая картина выглядит так: события вашей жизни и социальные взаимодействия предсказуемы, все ясно, но конфиденциальность не предусмотрена. Если все знают, что вы умрете через три года, никто не вложит деньги в ваш проект, и страховые компании утратят к вам интерес. И все же я считаю, что в широком смысле благодаря изобилию полезной информации общество изменится к лучшему. Преступлений станет меньше, если люди не сочтут ошибочно, что они умнее систем.

Совсем недавно в известном немецком журнале Der Spiegel появилась статья о Больших данных. Один из читателей написал в комментарии: "Я так боюсь Больших данных, что пользуюсь псевдонимом". Потом он указал псевдоним. Потом подписался настоящим именем. Это данные в электронном формате, готовые к машинной обработке. Такие истории показывают, что люди не вполне улавливают суть Больших данных. Попробуйте скрыть правду, и система тут же это выявит. На мой взгляд, это хорошо. Чтобы понимать ИТ–бизнес, необходимо всегда рассматривать его в контексте.


Источник:  thinkinnovative.ru