Артур Скальский

© Би-Би-Си

ИнтернетМир

2753

19.08.2008, 15:04

Программы против спама помогут "отцифровать" книги

Компьютерные программы, защищающие от спама, сделали возможным с большей точностью перевести в электронную форму старинные книги и другие письменные источники.

Получить доступ ко многим сайтам можно лишь зарегистрировавшись на них, предварительно напечатав в специальном окошке набор символов, представленных в виде причудливой картинки. Владельцы интернет-ресурсов идут на это для противодействия натиску спам-сообщений.

Сейчас многие сайты вместо невнятной абракадабры используют для этих целей тексты из старинных письменных источников, которые были отсканированы и но не распознаны.

Куски текста, которые программы распознавания текста не осилили, как раз и предлагается расшифровать интернет-пользователям.

С учетом того, что около 100 млн. пользователей в день доказывают таким образом, что они не роботы, получается довольно внушительная армия потенциальных дешифровальщиков.

Объем нечитаемых слов в некоторых старинных документах может доходить до 20% из-за пожелтевшей бумаги или выцветших чернил.

Предельная точность

Специалисты из американского университета Карнеги-Меллон разработали систему под названием Recaptcha, которая собирает фрагменты сканированного текста, не поддавшиеся компьютерной программе, и затем рассылает их сайтам, которые подписаны на эту услугу.

Вместе с буквами, которые компьютер не узнал после сканирования, высылается и слово, уже внесенное в систему. Правильно распознав второе слово, пользователь получает доступ к сайту, а расшифровка первого слова дополняет базу данных, после того, как будет получено несколько подтверждающих ответов.

В материале, опубликованном в журнале Science, говорится, что такой подход позволяет добиться почти стопроцентной точности, что превосходит требования архивариусов.

В настоящее время около 40 тыс. сайтов предлагают своим пользователям решить такие простенькие задачки, и получают в день около 4 млн. ответов.

В прошлом году таким образом удалось расшифровать 440 млн. слов и перевести в цифровую форму весь архив газеты New York Times с 1908 года.

Артур Скальский

© Би-Би-Си

ИнтернетМир

2753

19.08.2008, 15:04

URL: https://www.babr24.info/?ADE=47073

Bytes: 2046 / 2039

Версия для печати

Скачать PDF

Поделиться в соцсетях:

Также читайте эксклюзивную информацию в соцсетях:
- Телеграм
- ВКонтакте

Связаться с редакцией Бабра:
[email protected]

Последние новости

12.09 18:58
В Бурятии назначили нового замглавы МВД

12.09 18:25
Ачинский речпорт незаконно добывал песок на Чулыме. Ущерб превысил ₽5 миллионов

12.09 18:08
14 школ и детсадов Красноярска оказались под угрозой ЧС из-за ливня в День знания

12.09 17:40
Бизнесвумен из Томска задолжала застройщику 1,7 миллиона рублей. У неё арестовали «Лексус»

12.09 17:30
Чуть больше 9% избирателей Прибайкалья уже выбрали губернатора

12.09 17:16
В мэрии Красноярска рассказали, продолжает ли Владислав Логинов получать зарплату под арестом

12.09 17:06
Красноярцы всё же выбрали название для бассейна в Северном. Как он называется и когда будет открыт?

12.09 16:50
В Красноярске ввели ещё один режим угрозы ЧС. Из-за рекордных ливней пострадал лицей №28

12.09 16:41
В Томске, Северске и Асине не выявлено превышений концентраций загрязняющих веществ

12.09 16:26
В Томском районе после ДТП с гибелью человека возбуждено уголовное дело

Лица Сибири

Казакова Татьяна

Сыренов Аламжи

Попов Александр

Литвин Дмитрий

Мякина Анастасия

Шумихина Галина

Корк Бертольд

Иванов Андрей

Ковалев Андрей

Полосин Константин