Что искусственный интеллект означает для конфиденциальности данных? - Пекинская компания Simulation Cane Co., Ltd.

Ажиотаж вокруг технологий — непостоянный ресурс. Несколько лет назад блокчейн и криптовалюта были волшебными модными словами, которые заставляли венчурных капиталистов тянуться к чековым книжкам. Теперь, когда стоимость сектора составляет 40% от того, что было на пике, а ключевые игроки втянуты в трясину споров, его способность очаровывать ослабла, и искусственный интеллект прочно вытеснил его как «гвоздь месяца».

Венчурные капиталисты просто отчаянно пытаются передать деньги разработчикам ИИ. Mistral AI, в состав которой входят три французских инженера по искусственному интеллекту и еще мало кого, получила 105 млн евро при оценке в 240 млн евро в крупнейшем в истории Европы посевном раунде всего через месяц после регистрации. Политики также воодушевлены, возлагая надежды на преобразующий рост производительности на технологии и делая все возможное, чтобы гарантировать, что в их юрисдикции появятся компании, занимающиеся искусственным интеллектом.

Ажиотаж вполне может быть оправдан. Возможности новейших инструментов искусственного интеллекта впечатляют, и кажется неизбежным, что их распространение и развитие будут иметь огромные экономические последствия.

Но в то время как индустрия криптовалют сталкивается с проблемами регулирования, ИИ начинает сталкиваться с собственными юридическими баталиями на нескольких фронтах. В то время как криптоиндустрия борется с законами о ценных бумагах и ограничениями по борьбе с отмыванием денег, поставщики ИИ сталкиваются с гневом регуляторов конфиденциальности и активистов. Одним из наиболее проблемных режимов для сектора искусственного интеллекта является Общий регламент по защите данных — правовой режим, который защищает конфиденциальность всех жителей Европейского Союза и Великобритании.

Подводные камни общедоступных данных

Разработка большой языковой модели, такой как ChatGPT, требует сбора огромных объемов текста с помощью процесса, называемого парсингом веб-страниц. Эти наборы данных собирают информацию, полученную из открытых онлайн-источников, таких как профили в социальных сетях. Информация находится в открытом доступе, поэтому ее сбор не может стать проблемой, верно? Неправильный. Юристы по конфиденциальности изо всех сил подчеркивают, что разработчики искусственного интеллекта, занимающиеся веб-скрапингом и аналитикой, остаются на крючке.

Крис Элвелл-Саттон — партнер группы данных, конфиденциальности и кибербезопасности британской юридической фирмы TLT. «Существует распространенное мнение, что если данные извлекаются из общедоступных источников, они выходят за рамки GDPR и аналогичных режимов конфиденциальности. Это ошибка, которая потенциально может стоить очень дорого», — объясняет он. «Как только ваши личные данные будут сохранены в файловой системе, вы получите защиту GDPR, независимо от их первоисточника».

GDPR налагает ряд строгих обязательств на любую организацию, которая хранит, передает или проводит аналитику персональных данных. Самая фундаментальная головная боль, с которой столкнутся развертыватели LLM в связи с GDPR, — это определение правовой основы для массового сбора личных данных миллионов людей без их ведома и согласия. Этот вопрос стал предметом тщательного регулирования со стороны регулирующих и судебных органов по всей Европе, и простого решения не предвидится.

Детали того, как GDPR будет применяться к генеративному искусственному интеллекту, пока неизвестны, но уже сделаны первые выстрелы в этой, несомненно, долгой и дорогостоящей битве. ChatGPT был временно запрещен итальянским органом по защите данных из-за неточных результатов и отсутствия законных оснований для обработки, а также неправильного обращения с данными детей. Затем Google пришлось отложить запуск своего конкурента Bard в ЕС из-за аналогичных проблем с конфиденциальностью – хотя технологический гигант счел целесообразным запустить сервис в Великобритании – возможно, это намек на позитивный для бизнеса подход к обеспечению конфиденциальности, обещанный британским правительством. Консервативное правительство после Брексита.

OpenAI улучшила свою позицию конфиденциальности, обеспечив проверку возраста, позволив пользователям отказаться от использования их данных в режимах обучения и приняв «меры по удалению личной информации из набора обучающих данных». Но доказать это утверждение, удовлетворив регулирующий орган, скорее всего, будет сложно.

Точные методы, которые OpenAI использовал для удаления личных данных из своего набора данных, еще подробно не раскрыты, но они упомянули «фильтрацию и анонимизацию данных».