Главная » Статьи » Лекции » МДК 02.01. ИТ и платформы разработки ИС

Тема 1. Представление данных в информационных системах

Тема 1. Представление данных в информационных системах


Основные понятия

Интерне́т (англ. Internet, МФА: [ˈɪn.tə.net][1]) — всемирная система объединённых компьютерных сетей, построенная на базе протокола IP и маршрутизации IP-пакетов.

Интернет образует глобальное информационное пространство, служит физической основой для Всемирной паутины (World Wide Web, WWW) и множества других систем (протоколов) передачи данных.

Часто упоминается как Всемирная сеть и Глобальная сеть, а также просто Сеть[2], в обиходе иногда употребляют сокращённые наименования ине́т, нет.

Можно сказать, что Интернет - это один гигантский суперкомпьютер, к которому может подключиться каждый, у кого есть свой компьютер, модем, договор с интернет-провайдером и линия связи с ним. Под управлением этого суперкомпьютера действует множество служб, которые предоставляют пользователям Интернет конкретные услуги.

Основные службы Интернет:

  • Служба World Wide Web (WWW);
  • Электронная почта;
  • Служба телеконференций;
  • Служба передачи файлов ( FTP );
  • Служба имен доменов;
  • Telnet-cистемы;
  • Служба ICQ;
  • Форумы прямого общения (Chat-конференции ).

Интернет и WWW

Самой популярной службой Интернета является всемирная паутина или WWW (World Wide Web или просто Web (веб)). WWW представляет собой, всемирную базу данных, которая включает в себя огромное количество мультимедийных документов (веб-страниц, веб-сайтов, блогов и пр.), взаимосвязанных между собой. Эти документы кроме прекрасного внешнего вида имеют возможность ссылаться друг на друга. Это означает, что в документах есть ссылки, которые позволяют вам переходить на любой другой документ в базе WWW, который физически может быть размещен на другом компьютере сети Интернет.

Думаю, вы уловили разницу между Интернетом и всемирной паутиной. WWW - это один из ресурсов компьютерной сети Интернет.  Хотя,  в последнее время, люди ставят знак равенства между этими понятиями. И когда говорят о путешествии по Интернет, чаще всего, имеют в виду  просмотр документов в базе всемирной паутины.

Программное обеспечение   для просмотра Интернет-страниц, называются браузером.

Браузер (от англ. «Browser» - «обозреватель») - основная программа для просмотра Интернет-страниц. В основном используется как инструмент для просмотра ресурсов сети Интернет, но говорить о том, что браузер нужен только для работы в Интернете, было бы неверно. Web-страницы, которые отображаются на экране, на самом деле представляют собой всего лишь текстовые файлы, в которых содержатся определенные инструкции. Эти инструкции предписывают браузеру, что и как следует показывать на данной странице

 

Когда мы слышим выражения «открой Интернет» или «зайди в Интернет», речь всякий раз идет именно о запуске браузера. Соответственно, браузеры есть почти во всех устройствах, подключающихся к Интернету: не только в компьютерах, но и в мобильных телефонах, и в игровых видеоприставках последнего поколения.

Как правило, браузеры отличаются друг от друга по трем параметрам.

Во-первых, скорость. Чем быстрее браузер загружает страничку сайта, тем лучше. Немаловажно и то, как он это делает – появляется ли страница сайта на мониторе сразу вся целиком, или же это происходит постепенно: сначала текст, потом картинки, затем флэш-анимация и т.д. Для пользователя удобным является последний вариант, т.к. он может притупить к чтению текста страницы, не дожидаясь загрузки картинок.

Во-вторых, кэширование. Все странички, которые посещаются в Интернете, загружаются на компьютер. И, даже отключившись от Интернета, можно, кликая кнопку «Назад», вернуться к этим страничкам. Чем больше браузер сохраняет их в своей памяти (в кэше), тем лучше. По уровню кэширования одним из лучших браузеров является Opera.

И третий важнейший показатель – удобство. Каждый браузер стремится к особому удобству для пользователя, усовершенствованию, уникальным особенностям дизайна и т.п. Например, возможность быстро увеличить размер шрифта на веб-странице. Или открывать новые сайты в рамках одного окна (в этом случае меньше нагрузка на процессор, компьютер работает быстрее).

К самым распространенным браузерам относятся: Internet Explorer, Firefox, Chrome, Opera.

Среди разнообразных браузеров существует тенденция: как только один из браузеров выпускает новую "опцию", которая нравится пользователю - все остальные тут же берут с него пример и включают эту же опцию в новую версию своего браузера. А поскольку обновления каждого браузера выходят с завидной частотой - это позволяет всем браузерам подтягиваться друг к другу по функциям.

Давайте, в общих чертах,  разберемся, как работает сеть Интернет.

Все компьютеры в сети Интернет грубо можно поделить на две группы – серверы и клиенты.

Серверы - это мощные, надежные компьютеры, работающие круглосуточно. Они постоянно подключены Интернету, способны хранить и пересылать информацию по запросу других компьютеров, отвечая при этом на десятки и сотни запросов одновременно.

Клиенты - это те персональные компьютеры пользователей Интернета, на которых можно составлять и посылать запросы к серверам, получать и отображать информацию. Часто такой компьютер не соединен с Интернетом постоянно, а подключается по мере необходимости.

 

Для подключения к Интернету мы обращаемся к услугам специальных организаций - провайдеров услуг Интернета.

Интернет-провайдер – это организация,  предоставляющая доступ к сети Интернет через свой Интернет-сервер. Компьютеры пользователей (клиенты) соединяются с сервером провайдера по телефонным линиям,  выделенному каналу или беспроводной сети. В свою очередь, серверы провайдера соединены с Интернетом постоянными высокоскоростными линиями связи.

Далее возникает следующий вопрос – если все веб-сайты, веб-страницы, блоги и пр. являются частью всемирной базы данных WWW, то где и на каких полках все это лежит? И как до всего этого добирается наш компьютер?

Как правило, сайты размещаются на Интернет-серверах, потому что именно на серверах имеется обширное дисковое пространство, необходимое программное обеспечение и при этом, возможность отвечать на десятки и сотни запросов одновременно. Для того, чтобы разместить сайт в Интернете, а точнее во всемирной паутине WWW, необходимо обратиться к хост-провайдеру.

Хост-провайдер – это организация, которая предоставляет услуги хостинга, т.е.  предоставляет дисковое пространство на Интернет-сервере (Хостинге), для размещения вашего сайта в сети Интернет.

Запомните, что хостинг это не процесс публикации сайта, а только аренда дискового пространства.

С английского «хост» переводится, как главный компьютер или хозяин постоялого двора. Так вот, на этот постоялый двор и сваливают сайты. Таких постоялых дворов в сети тысячи.

 

Серверы приложений и прикладные протоколы


На компьютерах пользователей Интернет стоит соответствующее программное обеспечение, например браузер, которое,  составляет и посылает запрос серверу, затем получает и отображает информацию на экране монитора. На сервере, В свою очередь, установлено свое программное обеспечение, которое хранит информацию и отвечает на запросы программного обеспечения клиента.

А теперь представьте, что различные пользователи имеют разные типы компьютеров, в которых установлены различные операционные системы (Windows, Vista и пр.), разные браузеры (Opera, Internet Explorer, Mozilla Firefox). На различных серверах, также установлены различные типы компьютеров и различное серверное программное обеспечение. Для того, чтобы программы, написанные  разными авторами для разного типа компьютеров, с разными операционными системами, могли корректно взаимодействовать между собой, были придуманы специальные правила – Протоколы. Можно сказать, что протоколы помогают компьютерам обмениваться информацией.

Для каждой службы Интернета существует свой прикладной протокол. Например, если вы хотите отправить электронную почту, то на вашем компьютере должна быть установлена необходимая для этого программа, а на сервере имеется своя программа, соответствующая вашей программе и свой протокол прикладного уровня, обеспечивающий взаимодействие программы-клиента с сервером.

Для облегчения понимания, изложенной выше информации, предположим, что русский Иван решил пообщаться с американцем Билом. Для этого Ивану необходимо знать английский язык. И не просто знать английские слова, но и уметь расставить их в нужном порядке, в соответствии с правилами (протоколами), только тогда Бил сможет понять Ваню.

Пользователи в Интернет работают по единым правилам. В качестве общего языка в сети Интернет используются протоколы обмена данными.

Протоколы - это стандарты, определяющие формы представления и способы пересылки сообщений, процедуры их интерпретации, правила совместной работы различного оборудования в сетях .

Протокол – это правила взаимодействия. Например, дипломатический протокол предписывает, как поступать при встрече зарубежных гостей или при проведении приемов. Сетевой протокол предписывает правила работы компьютерам, которые подключены к сети. Стандартные протоколы заставляют разные компьютеры “говорить на одном языке”. Таким образом осуществляется возможность подключения к Интернет разнотипных компьютеров (IBM, Macintosh), работающих под управлением различных операционных систем (Windows, UNIX, MS DOS).

В Интернет имеется несколько уровней протоколов, которые взаимодействуют друг с другом. На нижнем уровне используются два основных протокола:

IP (Internet Protocol) – Протокол Интернета и

TCP (Transmission Control Protocol) – Протокол управления передачей.

Так как эти два протокола тесно взаимосвязаны, то их часто объединяют, и говорят, что:

В Интернете базовым протоколом является TCP/IP. Все остальные многочисленные протоколы строятся на основе именно протоколов TCP/IP.

Протокол TCP разбивает информацию на порции и нумерует все порции, чтобы при получении можно было правильно собрать информацию (подобно разборке деревянного сруба нумеруют бревна, чтобы быстро собрать дом в другом месте). Далее с помощью протокола IP все части передаются получателю, где с помощью протокола TCP проверяется, все ли части получены. Так как отдельные части могут путешествовать по Интернет самыми разными путями, то порядок прихода частей может быть нарушен. После получения частей TCP располагает их в нужном порядке и собирает в единое целое.

Для протокола TCP не имеет значения, какими путями информация путешествует по Интернет. Этим занимается протокол IP. К каждой полученной порции информации протокол IP добавляет служебную информацию, из которой можно узнать адреса отправителя и получателя информации. Если следовать аналогии с почтой, то данные помещаются в конверт, на котором пишется адрес получателя. Далее протокол IP так же как и обычная почта, обеспечивает доставку всех конвертов получателю. При этом скорость и пути прохождения разных конвертов могут быть различными. Если при путешествии отдельного конверта наблюдались помехи и информация пришла искаженной, следует повторный запрос об отправке искаженной части до тех пор, пока она не будет принята без искажений (в этом еще один плюс приема–передачи информации порциями).

Рис. Упрощенная схема передачи информации по сети по протоколу TCP/IP

Протокол IСМР (Internet Control Message Protocol)протокол межсетевых управляющих сообщений. С помощью этою протокола компьютеры и устройства в сети обмениваются друг с другом управляющей информацией. К примеру, этот протокол используется для передачи сообщений об ошибках, проверки доступности узла, и т.д.

Протокол FTP (File Transfer Protocol)протокол передачи файлов. Служит для обмена файлами между компьютерами. Например, если нужно передать файл на сервер или, наоборот, скачать файл с сервера. Для этого нужно подключиться к файловому серверу (он же FTP-сервер) и выполнить необходимую операцию скачивания или закачки. Подключение к FTP-серверу обычно осуществляется с помощью FTP-клиента. Простейший FTP-клиент входит в состав практически любой операционной системы. Просматривать РТР-сервера могут и обычные браузеры.

Протокол HTTP (Hyper Text Transfer Protocol)протокол обмена гипертекстовой информацией, то есть документами HTML. HTML является базовым языком создания Web-страниц. А протокол HTTP предназначен для их передачи в сети. Таким образом, протокол HTTP используется Web-серверами. Соответственно, браузеры, используемые для блуждания по Интернету, являются HTTP-клиентами.

Протокол POP (Post Office Protocol)протокол почтового отделения. Этот протокол используется для получения электронной почты с почтовых серверов. А для передачи электронной почты служит протокол SMTP (Simple Mail Transfer Protocol)протокол передачи сообщений электронной почты.

 

Адресация в сети


Каждый компьютер в Интернете имеет свой уникальный адрес.

Чтобы можно было однозначно обозначить любой компьютер в Интернете, применяется специальная система адресов, называемая IP – адресами.

По такому же принципу находят друг друга миллионы компьютеров в Интернете.  Каждый компьютер, подключенный к сети Интернет, имеет свой уникальный IP – адрес (Internet Protocol Address), который представляет собой последовательность четырех чисел, разделенных точками, например 195.5.46.34. Каждое число может лежать в диапазоне от 0 до 255. IP-адрес для компьютера, как для нас номер сотового телефона. По нему можно найти компьютер в любом уголке мира.

IP-адрес (aй-пи адрес, сокращение от англ. Internet Protocol Address) — уникальный идентификатор (адрес) устройства (обычно компьютера), подключённого к интернету.

Каждое устройство (компьютер, ноутбук, выделенный сервер, мобильный телефон и т.д.) в сети Интернет имеет свой IP-адрес. Так как вы в настоящий момент подключены к Интернету — это означает, что и у вашего компьютера также имеется свой уникальный адрес в сети. Но вы можете быть подключены к интернету через маршрутизатор или шлюз в вашей локальной сети. В этом случае ваш компьтер из интернета виден с тем адресом, который имеет ваш маршрутизатор или шлюз.

IP адреса могут быть статические (в том случае, если отдельному пользователю провайдером выделен один постоянный адрес), а также динамическими (если провайдер выдает пользователю IP адрес в момент подключения из пула свободных адресов по DHCP).

Кроме того один компьютер на основе виртуальных узлов может действовать как несколько устройств с несколькими IP адресами и узлами. Например, — услуги хостинга в Интернет.

Знание своего IP адреса позволяет организовать доступ к службам и программам на своем компьютере (игры, чаты, FTP, удаленный доступ к рабочему столу и др.)

IP-адреса бывают двух типов — IPv4 и IPv6

IP-адрес (v.4) состоит из 4 цифр, каждая цифра может быть от 0 до 255. Весь адрес состоит из идентификатора сети и идентификатора хоста. Например,121.13.54.211. 121- идентификатор сети, а 13.54.211 -идентификатор хоста, т. е. по этому адресу видно что компьютер находится в подсети 121 (смотрим таблицу 1-126 это адрес класса А и читаем о нём), а собственный адрес компа  13.54.211

В локальной сети все компьютеры работают через прокси-сервер (компьютер через который подключены все остальные) поэтому для "внешнего интернета"  у всех компьютеров как бы один IP-адрес но на самом деле это не так.

Как узнать свой IP – адрес?

  1. Используя команду IPconfig.

  1. Используя Интернет ресурс, например http://2ip.ru/

Итак, чтобы найти какой-либо сайт во всемирной паутине, надо знать IP-адрес, того сервера, где размещен сайт. Если для компьютера, запомнить несколько десятков IP-адресов в виде набора цифр, не составит труда, то человеку это сделать гораздо сложнее.

Для облегчения работы была придумана Система доменных имен (DNS – Domain Name System). Эта альтернативная система адресации, более понятна человеку, т.к. компьютерам присваивается не только IP-адрес, но и символьное имя  или доменное имя. Доменное имя состоит из цепочки символов, разделенных между собой точкой.

Как бы, не были удобны для пользователя доменные имена, но работа всех компьютеров построена на цифровых адресах, поэтому для обеспечения связи между человеком и машиной была создана служба DNS-серверов.

DNS-сервер - программа, осуществляющая преобразование доменного адреса в цифровой IP-адрес и наоборот.

Каждый раз, когда вы набираете доменное имя в браузере, служба DNS вычисляет, какому IP-адресу соответствует это имя и какой именно ресурс нужно вам предоставить.

Пожалуй, DNS-сервер можно сравнить с адресной книгой в нашем сотовом телефоне. Мы физически не можем запомнить все номера, нужных нам сотовых телефонов, поэтому каждый номер записываем в телефонной книге под уникальным именем. Чтобы позвонить, находим нужное нам имя, а телефон сам разбирается, какой номер набирать, так же как DNS-сервер.

Если с адресами серверов, более или менее все понятно, то, как же находятся и передаются необходимые нам документы на сайтах?

Всемирная паутина WWW населена миллионами различных документов, которые лежат на различных серверах и наша задача найти и прочесть нужный нам документ. Но для этого наш браузер должен знать точное местонахождение необходимого документа.

Всем пользователям компьютеров, даже чайникам,  хорошо знакомо понятие полного имени файла, которое включает в себя краткое имя файла с расширением и полный путь к файлу, начиная с имени устройства или диска, затем идет перечень вложенных папок, разделенных между собой слешем «\». Таким образом, мы однозначно идентифицируем файл в пределах одного компьютера.

Каждый файл в Интернете также имеет свой уникальный адрес. Он называется URL.

URL(Uniform Resource Locator) – универсальный локатор ресурса, или адрес любого файла в Интернете.

Кроме адреса компьютера в URL  содержится указание о протоколе, по которому нужно обращаться к файлу, какую программу на сервере запустить и к какому конкретному файлу следует обратиться.

Типичный адрес URL состоит из трех основных элементов:   Протокол + Доменное имя + Путь/Файл.

Давайте разберем более подробно следующий URL

http://nic.ru/dns/service/dns-service.html .

Этот адрес принадлежит одной из страниц сайта  RU-Center.

http – это протокол,  он определяет совокупность правил, по которым происходит взаимодействие между клиентом и сервером. Протокол, принятый в WWW для передачи гипертекста, называется HyperText Transfer Protocol, сокращенно - HTTP.

Далее идет доменное имя сервера, к которому вы обращаетесь за информацией, в нашем случае это nic.ru. Где .ru – домен верхнего уровня, nic.ru – домен второго уровня. Между доменом и протоколом ставится разделитель :// .

/dns/service/dns-service.html – путь до нужного нам файла dns-service.html, который находится в папке service, которая в свою очередь вложена в папку dns.

В Интернете имена доменов верхнего уровня стандартизованы.

at – Австрия

uk – Великобритания

de – Германия

gr – Греция

es – Испания

it – Италия

ca – Канада

us – США

su – Советский Союз (еще применяется в некоторых адресах)

fr – Франция

jp – Япония

Исторически сложилось так, что в США не принято указывать название страны, а используются обозначения, определяемые типом организации – владельца адреса (3 буквы):

com – коммерческие организации

edu – учебные и научные организации

gov – правительственные учреждения

mil – военные организации

net – сетевая администрация и провайдеры

org – прочие организации.

int – международные организации.

Достаточно часто самое левое имя в адресе обозначает тип информации, на который указывает данный адрес.

www.microsoft.com 

ftp.microsoft.com

 

Поиск информации в сети


Современный Интернет начинается с поисковой системы. Чтобы найти какую-либо информацию или решить какую-нибудь задачу с помощью Интернет достаточно зайти в одну из популярных поисковых систем и набрать запрос (ключевые слова). Поисковая система выдает самые подходящие сайты со всего мира. В первую очередь в результатах отображаются адреса популярных сайтов, где найдены ключевые слова запроса. Разнообразных поисковых систем очень много.

Разнообразных поисковых систем очень много. Следует обратить внимание на следующие:

Яндекс – российский лидер.

Google – мировой лидер.

Nigma – русскоязычная интеллектуальная поисковая система

Bing – система поиска решений

Все поисковые системы объединяют несколько основных задач. Это поиск новых сайтов, оценка сайта и максимально точный ответ пользователю на запрос. С первой задачей многие поисковики справляются хорошо, а вот для решения второй задачи им приходиться прикладывать большие усилия и каждая добивается разных результатов. Вот почему одни пользуются большей популярностью, другие меньшей.

Работа пользователя с поисковой системой

Шаг 1. Набрать адрес сайта поисковой системы и оказаться на главной странице.

Шаг 2. Ввести в строку поиска, располагающуюся на сайте, ключевую фразу (слово), по которой система  будет искать информацию.

Шаг 3. Послать запрос, нажав кнопку поиск.

Шаг 4. Начать просмотр результатов в виде списка текстовых ссылок на сайты соответствующие данному запросу.

Символ

Назначение

Пример

!

запрет перебора всех словоформ

!Ньютон

+

обязательное присутствие слов в найденных документах

+Баранкин +Павел

-

исключение слова из результатов поиска

+Баранкин -Егор

~

требование присутствия первого слова в предложении без присутствия второго

чай ~ лаптем

 

&

обязательное вхождение слов в одно предложение

полгорбушки & мосол

|

поиск любого из данных слов

глухаря | куропатку | кого-нибудь

«»

поиск устойчивых словосочетаний

"К нам на утренний рассол"

*

Пропущенное слово в цитате

"Прибыл * посол"

 

 Принципы работы поисковой системы с сайтами

 

В Интернете существует множество различных поисковых систем, но принцип их работы во многом схож. Сначала на сайт попадает паук. Проводит ряд необходимых подготовительных мероприятий. Скачивает страницу, разбирая ее на необходимые ему части.  Затем скопированную страницу посещает индексатор. Выполняет свой алгоритм действий. После чего страница попадает в базу данных. 

Все компоненты поисковой системы тесно связаны друг с другом и работают во взаимодействии, образовывая четкий механизм работы.

Модуль индексирования состоит из трех вспомогательных программ (роботов): паук, «путешествующий» паук, индексатор. Модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.

Паук – программа, предназначенная для скачивания  web-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается HTML-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP.

«Путешествующий» паук – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. «Путешествующий» паук, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Индексатор - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные HTML-теги и т.д.

База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

Web-сервер - сайт, к которому обращается пользователь за поиском.

Принципы работы поисковой системы с запросом пользователя

Полученный от пользователя запрос подвергается анализу. Поиск производится в базе данных поисковой системы. Генерируется информационное окружение каждого документа, содержащегося в базе.

Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг соответственно запросу, введенному пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы. В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).

 Далее для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются. Полученные результаты поиска передаются пользователю в виде – страницы выдачи поисковых результатов.

Упражнения и вопросы

 1 Найдите программу телепередач и расписание поездов с помощью поисковой системы.

2 Сколько строк в оде, автор которой умер после падения на тротуаре у дома №14 по улице Горького в Москве?

3 Как звали россиянина (укажите имя, отчество и фамилию), которому было дважды (с разницей в полтора года) присвоено звание почётного гражданина одного и того же города?

4 В каком месяце какого года (в формате ММ/ГГГГ) был убит лев, снимавшийся в фильме Рязанова? 

Категория: МДК 02.01. ИТ и платформы разработки ИС | Добавил: Admin (23.10.2014)
Просмотров: 1035 | Рейтинг: 0.0/0
Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]
ПОИСК
МОЯ КНОПКА
Контакты
МБОУ "Лицей им.Атякшева"

628260 г. Югорск, ул. Ленина 24,
ХМАО-Югра, Тюменская область
Телефон: 8 (34675)2-48-30
Факс: 8 (34675)2-48-30



89222596815 nady_er@mail.ru
Карта
sample map