Лабораторная работа Сканирование документов и распознавание текста. Машинный перевод текстов по дисциплине ИТвПД для специальности ТПОП

Лабораторная работа № 9
Сканирование документов и распознавание текста. Машинный перевод текстов
Цель работы: сформировать навыки работы по сканированию, распознаванию и переводу текстов
Ход работы
Ход выполнения работы
1. Изучите теоретическую часть
2. Выполните практическое задание
3. Оформите отчет о выполнении лабораторной работы
4. Ответьте на контрольные вопросы
Теоретическая часть
Сканирование аналого-цифровое преобразование плоского изображения в цифровую растровую форму с помощью сканера.
Сканером называют механическое устройство, позволяющее преобразовывать различные объекты (текст, изображение, фото, документы) в цифровой формат (точнее, в картинку) с последующим их сохранением в памяти компьютерного устройства.
Слово «сканер» пришло к нам из английского языка: scanner от scan, что можно перевести как «пристально разглядывать, рассматривать».
Оптическое распознавание символов ([ Cкачайте файл, чтобы посмотреть ссылку ] optical character recognition, OCR)  механический или электронный перевод [ Cкачайте файл, чтобы посмотреть ссылку ] [ Cкачайте файл, чтобы посмотреть ссылку ], [ Cкачайте файл, чтобы посмотреть ссылку ] или [ Cкачайте файл, чтобы посмотреть ссылку ] текста в [ Cкачайте файл, чтобы посмотреть ссылку ], использующихся для [ Cкачайте файл, чтобы посмотреть ссылку ] в [ Cкачайте файл, чтобы посмотреть ссылку ] (например, в [ Cкачайте файл, чтобы посмотреть ссылку ]). Распознавание широко используется для конвертации книг и документов в [ Cкачайте файл, чтобы посмотреть ссылку ], для [ Cкачайте файл, чтобы посмотреть ссылку ] систем учёта в [ Cкачайте файл, чтобы посмотреть ссылку ] или для публикации текста на [ Cкачайте файл, чтобы посмотреть ссылку ]. Оптическое распознавание текста позволяет редактировать текст, осуществлять поиск слов или фраз, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тексту электронный перевод, форматирование или [ Cкачайте файл, чтобы посмотреть ссылку ].
Системы оптического распознавания текста требуют калибровки для работы с конкретным [ Cкачайте файл, чтобы посмотреть ссылку ]; в ранних версиях для программирования было необходимо изображение каждого символа, программа одновременно могла работать только с одним шрифтом.
В настоящее время больше всего распространены так называемые «интеллектуальные» системы, с высокой степенью точности распознающие большинство шрифтов. Некоторые системы оптического распознавания текста способны восстанавливать исходное форматирование текста, включая изображения, колонки и другие не текстовые компоненты.
Бесплатные он-лайн сервисы по распознаванию сканированного текста можно найти по следующим адресам:
http://www.newocr.com/
http://www.ocrconvert.com/
http://www.onlineocr.net/
http://www.free-ocr.com/

Практическая часть
Задание 1. Ознакомьтесь с видео роликом «Как подготовить сканер и документ на МФУ HP Laser Jet M1005». Ответьте на вопросы:
МФУ  это

Может ли МФУ сканировать документ?

Может ли МФУ копировать документ?

Может ли МФУ печатать документ?

Задание 2. Ознакомьтесь с видео роликом «Сканирование и обработка скана на HP LaserJet M1005». Ответьте на вопросы:
Перечислите цветовые форматы сканирования документов:



Для черно-белых изображений оптимальнее выбирать следующее цветовой формат:



Что такое DPI?



Качество сканированного документа выше, если разрешение:



Задание 3. Для распознавания сканированного изображения выберите любой из предложенных адресов бесплатных он-лайн сервисов по распознаванию текста.
Для примера рассмотрим http://www.newocr.com/.

1. Кнопка Выберите файл служит для выбора файла для распознавания. Выберите файл ЛР9ТПОП.jpg
2. В следующей строке оставьте Русский язык
3. Нажмите кнопку Upload
4. Точно выделите область для распознавания

5. Нажмите кнопку OCR
6. Распознанный текст скопируйте
7. Создайте текстовый документ, вставьте распознанный текст, отформатируйте его
8. Используя программу Paint и снимок экрана (PrintScreen), вставьте рисунок
Задание 4. Для перевода текста откройте страницу по адресу
http://www.translate.ru/.
В окно он-лайт переводчика введите предложенный текст, задайте необходимые параметры (тематика  кулинария):
Apple Charlotte
INGREDIENTS : 100 g softened butter, 125 g icing sugar,2 eggs, 150 g sifted flour, 75 g currants
1. Peel, core and thinly slice the apples, rinse them in cold water and put them in a saucepan with the sugar and 1 oz (25 g) of the butter. Cook them over a low heat until they are soft enough to beat into a purйe. Beat them and leave on one side to cool.
2. Melt the remaining 3 oz (75 g) of butter gently, and cut each slice of bread into rectangles.
3. Brush each piece of bread with melted butter (both sides), then line the pudding basin with approximately three-quarters of the bread (overlap the pieces and press firmly).
4. When the apple purйe has cooled, beat the egg yolk into it and fill the lined basin with the mixture.
5. Seal the top with overlapping slices of the remaining bread.
6. Place a suitably sized ovenproof plate on top of the pudding and weight it down with a 2 lb (900 g) scale weight. Meanwhile, pre-heat the oven to gas mark 6, 400°F (200°C).
7. After 30 minutes place the basin (with the weight still on it) in the oven to bake for 35 minutes. Then, with an oven cloth, remove the plate and weight, and bake the pudding for another 10 minutes to brown on top.
8. Leave the pudding to settle in the basin for a minute after removing from the oven, then carefully invert it on to a warmed plate to serve.
Создайте текстовый документ, вставьте в него исходный и полученный тексты, сохраните
Контрольные вопросы
1. Каково назначение сканирующего устройства?




2. Что такое распознавание текста?




3. Какие он-лайн сервисы для распознавания текста вам известны?















13PAGE 15



13PAGE 14415




Заголовок 1 Заголовок 2 Заголовок 315