Классика баз данных

Классика баз данных

Продукты, которые сегодня принято называть информационными системами, появились много лет назад. В основе первых информационных систем находились мэйнфреймы компании IBM, файловая систем ОС/360, а впоследствии ранние СУБД типа IMS и IDMS. Эти системы прожили долгую и полезную жизнь, многие из них до сих пор эксплуатируются. Но с другой стороны, полная ориентация на аппаратные средства и программное обеспечение IBM породила серьезную проблему "унаследованных систем" (legacy systems). Увы, производственный процесс не позволяет прекратить или даже приостановить использование морально устаревших систем, чтобы перевести их на новую технологию. Многие серьезные исследователи сегодня заняты попытками решить эту проблему.
Серьезность проблемы унаследованных систем очевидно показывает, что информационные системы и лежащие в их основе базы данных являются слишком ответственными и дорогими продуктами, чтобы можно было позволить себе их переделку при смене аппаратной платформы или даже системного программного обеспечения (главным образом, операционной системы и СУБД). Для этого программный продукт должен обладать свойствами легкой переносимости с одной аппаратно-программной платформы на другую. (Это не означает, что при переносе не могут потребоваться какие-нибудь изменения в исходных текстах; главное, чтобы такие изменения не означали переделки системы.)

Переносимость информационных систем и международные стандарты
Соответственно, прежде всего следует обращать внимание на степень стандартизированности используемого языка программирования. На сегодняшний день приняты международные стандарты языков Фортран, Паскаль, Ада, Си и, совсем недавно, Си++. Понятно, что Фортран, даже в своем наиболее развитом виде Фортран-95, не является языком, подходящим для программирования информационных систем. Паскаль - очень приятный язык, но чтобы не испортить впечатление от его приятности, в стандарт не включены средства раздельной компиляции. Конечно, в принципе можно оформить полный исходный текст в виде одного текстового файла, но вряд ли это разумно и практично. Язык Ада, вообще говоря, пригоден для любых целей.

Исследования и разработки в области операционных систем
Пожалуй, операционные системы в традиционно понимаемом смысле в настоящее время являются скорее предметом индустриальных разработок, чем исследований. Даже те работы, которые велись и ведутся в университетах США, все более приобретают характер полупромышленных разработок. По всей видимости, это связано, во-первых, с накоплением громадного запаса методов и алгоритмов, а во-вторых, с достаточно жесткой стандартизацией функций и интерфейсов операционных систем. Пожалуй, единственной областью, примыкающей к тематике операционных систем и подвергаемой интенсивным исследованиям, является область объектных операционных сред (основанных на специально разработанных или традиционных ОС).

Классика баз данных
Великий Спор являлся спором между сторонниками реляционного и сетевого подходов. Он происходил во время ACM SIGMOD Workshop on Data Description, Access, and Control в 1974 г.; основными докладчиками были Эдгар Ф. Кодд в пользу реляционного подхода (поразительно!) и Чарльз В. Бахман в пользу сетевого подхода, или подхода CODASYL.

Замечания по поводу Tutorial D
Позвольте мне ненадолго сконцентрироваться на Tutorial D. Можно было бы подумать, что следующая конструкция является формулировкой парадокса Эпименида в терминах Tutorial D (и в этом случае решить, что проблема кроется именно в этом языке): VAR R { } KEY { } ; CONSTRAINT EPIMENIDES COUNT ( R ) = 0 ; Более конкретно, можно было бы подумать, что ограничение EPIMENIDES является формальным выражением предиката P («Отсутствуют истинные инстанциации предиката P», или, эквивалентно, «Число истинных инстанциаций предиката P равняется нулю»).

Краткое сравнение Oracle SQL и ANSI SQL
Целью данной статьи является выявление различий между реализацией SQL в СУБД Oracle 8 и ANSI SQL92. В частности делается анализ языка обработки данных (DML) и не рассматривается язык определения данных (DDL), также не рассматривается объектное расширение языка SQL, предназначенного для работы с объектными таблицами Oracle и отсутствующее в стандарте ANSI. Язык SQL СУБД Oracle 8 (далее Oracle SQL), по заявлению фирмы-производителя , соответствует начальному уровню ANSI SQL (entry level), однако некоторые особенности реализации его превосходят, а некоторые отличаются.

Visual Foxpro 7: высокопроизводительное средство разработки баз данных
В России Microsoft Foxpro долгое время был самым популярным инструментом для создания баз данных. В настоящее время его несколько потеснили такие средства разработки как Delphi, MS Access и MS Visual Basic. Но и сейчас Foxpro остается самым популярным инструментом для разработки баз. На нем написано Больше всего бухгалтерских, экономических и других приложений, связанных с расчетами и хранением информации.

Определение и типовые архитектуры хранилищ данных
Концептуально модель хранилища данных можно представить в виде схемы [2] на 1. Данные из различных источников помещаются в хранилище, а их описания — в репозиторий метаданных. Конечный пользователь, используя различные инструменты (средства визуализации, построения отчетов, статистической обработки и т.д.) и содержимое репозитория анализирует данные в хранилище.

Постреляционная СУБД Cache
В конце 1997 года компания . выпустила постреляционную СУБД Cache'. Компания и раньше занималась системами управления базами данных, в России активно использовались и продолжают использоваться предшественники Cache': MSM, DTM, ISM. За 6 лет вышло несколько версий СУБД Cache', в настоящий момент компания предлагает Cache' 5.0.

Псевдоконфликты XML-транзакций в РСУБД
В качестве примера XML-данных использовался документ XMark, который описывает систему аукционов. Рассмотрим две конкурентные транзакции, выполняющие операции над XML-данными. Предположим, что первая транзакция выбирает все элементы item, в то время как вторая транзакция изменяет значения всех элементов price. Очевидно, что транзакции не должны конфликтовать, поскольку они работают с разными данными

Темпоральная организация данных для решения проблем КИС
Производители СУБД и корпоративных платформ активно соревнуются в разработке новых функциональных возможностей своих продуктов. Однако многие проблемы, такие как совместная обработка данных или управление их жизненным циклом, могут быть решены проще и эффективнее посредством технологий управления данными.

Интеграция Hadoop и параллельной СУБД
В этом разделе мы обсуждаем подход TeradataInputFormat, позволяющий программам MapReduce напрямую читать данные Teradata EDW через драйверы JDBC без потребности в каких-либо внешних шагах экспортирования (из Teradata EDW) и загрузки данных в Hadoop. Прямолинейный подход, обеспечивающий программам MapReduce доступ к реляционным данным, состоит в том, что сначала используется утилита СУБД для экспорта результатов требуемых SQL-запросов в локальный файл, а затем этот локальный файл загружается в Hadoop (или результаты запросов используются в потоковом стиле без потребности в промежуточном файле).

Что представляет собой реляционная модель
Сейчас язык SQL является стандартным языком реляционных (и не только чисто реляционных!) СУБД. Интерфейсы, основанные на SQL, поддерживаются почти во всех используемых СУБД, далеко не все из которых первоначально разрабатывались как реляционные системы. Язык SQL является реляционно-полным , что является основанием для его применимости в БД, основанных на реляционной модели, имеющей твердое обоснование, начиная с работ д-ра Кодда

Третий манифест
Эта работа представляет собой манифест, касающийся будущего систем управления данными и СУБД. Название манифеста обусловлено тем, что он следует за двумя предшествующими манифестами и, как мы надеемся, сможет заменить их. Отсюда наш выбор названия. В презрительно отвергается реляционная модель данных и игнорируется ее важность и значимость. Вместе с тем, как мы полагаем, ее авторам не удалось определить какую-либо четкую линию.

Универсальность и специализация: время разбивать камни?
Львиная доля мирового рынка управления данными занята продуктами трех ведущих компаний-поставщиков технологии СУБД: Oracle, IBM и Microsoft. Системы управления базами данных (СУБД), поставляемые этими компаниями, с каждым новым выпуском становятся все объемнее. В них появляются все новые и новые возможности, и, похоже, что полный набор возможностей этих СУБД уже неизвестен не только их пользователям, но и рядовым системным разработчикам.

Деревянный интерфейс
В мире существует большое количество решений и разнообразных интерфейсов и методов для работы с информацией хранящейся в базах данных. В данной статье вашему вниманию предлагается новый подход к построению пользовательского интерфейса, который позволяет существенно увеличить скорость разработки приложений для баз данных, обладает уникальной гибкостью и удобством использования.

Дюжина тенденций развития
Виртуализация ресурсов и GRID-технологии Встраивание Information Life Cycle Management (ILM) в СУБД Самоуправление, самодиагностика, самолечение Real Application Testing – механизмы промышленного тестирования версий и изменений Совершенствование архитектур максимальной доступности (разные режимы standby, Active standby, Snapshot standby, минимизация времени плановых простоев (модификация приложений и версий СУБД, online redefinition)

Демонстрационная база данных
В MS SQL Server 2005 появилось множество новшеств, позволяющих еще более продуктивно использовать эту СУБД. Многие из них, такие как новые типы данных, интеграция с платформой .NET, поддержка XML, новые функции ранжирования, улучшения в системе безопасности и прочее, уже были ранее описаны в журнале RSDN Magazine. В этой статье будут рассмотрены новые операторы и функции работы с данными.

Извлечение ключевых терминов из сообщений микроблогов с помощью Википедии
На сегодняшний день одной из самых важных и заметных областей Web 2.0, ключевым принципом которой является участие пользователей в работе сайтов, являются сетевые дневники, или веб-логи, сокращённо называемые блогами. Концептуальным развитием блогов, обусловленным их широкой социализацией, являются микроблоги, которые имеют ряд характерных особенностей: ограниченная длина сообщений, большая частота публикаций, разнообразная тематика, различные пути доставки сообщений и т.д.

Универсальная модель данных (УМД)
Модель предприятия включает представления элементов предприятия, их взаимоотношения, связи, условия функционирования и т.д., описанные набором понятий УМД: «объект», «событие», «характеристика объекта», «характеристика события». Модель предприятия строится на основе описаний предметных областей, выполненных сотрудниками предприятия, и их формализации специалистами информационных технологий на языке модели данных.

Задача проектирования базы данных методом нормализации
В данной работе описывается задача проектирования базы данных частного предприятия с использованием классического метода метода нормализации. В ходе проектирования основное внимание уделяется вопросам оптимизации структур данных, что играет немаловажную роль при разработке коммерческих приложений.

Вьетнам компьютерной науки
Мне не доводилось профессионально заниматься вопросами объектно-реляционного отображения, и я всегда довольно скептически относился к попыткам наладить #xab;бесшовные#xbb; переходники между программами на объектно-ориентированных языках и SQL-ориентированными СУБД. По сути дела, решением проблемы #xab;потери соответствия#xbb; (impedance mismatch) сообщество баз данных занимается больше 20 лет.

Использование витрин данных в учетной системе
При внедрении высококачественных систем поставщики всегда сталкиваются с определенными трудностями. Например, необходимо организовывать работу на различных вычислительных платформах, использующих как открытые, так и "фирменные" системы; проводить интеграцию с уже имеющимися приложениями; взаимодействовать с пользователями, отличающимися по уровню технической подготовки, и т.д.

XQuery 1.0 близок к завершению
XQuery – это язык запросов, разработанный для формулировки запросов к реальным и виртуальным XML-документам и коллекциям этих документов. Разработка этого языка началась во второй половине 1999 г. В декабре 2002 г. мы представили ранний вариант XQuery1. Сейчас приближается публикация XQuery 1.0 в виде рекомендации W3C (W3C Recommendation), и мы хотели бы осведомить вас о развитии языка.

Доводы в пользу детерминизма в системах баз данных
Хорошая транзакционная система баз данных должна быть быстрой, гибкой и отказоустойчивой. Особо важной считается способность транзакционных систем обеспечивать высокие уровни изоляции, поддерживая при этом оптимальное использование компьютерных ресурсов. Также желательна поддержка по существу произвольных определяемых пользователями транзакций, представляемых на развитом и выразительном языке запросов.

Абстракции баз данных: агрегация и обобщение
Абстракция какой-либо системы представляет собой модель этой системы, в которой намеренно опущены некоторые детали. Выбор тех деталей, которые следует опустить, делается на основе анализа как преполагаемого приложения этой абстракции, так и его пользователей. Цель состоит в том, чтобы дать возможность пользователя обращать внимание на те детали системы, которые существенны для данного приложения, а другие детали игнорировать.

Архитектуры отчетности
На сегодняшний день многие компании обнаружили, что накопить большой объем данных еще не означает обладать полезной информацией. Учетные системы могут генерировать для компании самые ценные ресурсы - данные, но не способны преобразовать их в информацию, необходимую для принятия решений. Однако с подобной задачей удается справиться, применяя инфраструктуру Хранилища данных.

Семейство алгоритмов ARIES
В середине 80-х годов в исследовательском центре корпорации IBM Almaden начался проект под названием Starburst. Его целью было создание расширяемой реляционной СУБД. Именно тогда группа исследователей из числа разработчиков Starburst решила сосредоточить свое внимание на устройстве системы управления транзакциями. Они решили пересмотреть ряд предположений и выводов, к которым пришли разработчики знаменитой реляционной СУБД System R.

SQL/MapReduce: практический подход
Синтаксис использования SQL/MR-функций показан на 4. Вызов SQL/MR-функции может использоваться в разделе FROM SQL-запроса и состоит из имени функции, за которым следует заключенный в круглые скобки список разделов. Первым, единственным необходимым разделом является раздел ON, специфицирующий входные данные для этого вызова SQL/MR-функции. Раздел ON должен содержать некоторый допустимый запрос.



Ссылочная целостность и РСУБД
Ссылочная целостность – это ограничение базы данных, гарантирующее, что ссылки между данными являются действительно правомерными и неповрежденными. Ссылочная целостность является фундаментальным принципом теории баз данных и проистекает из той идеи, что база данных должна не только сохранять данные, но и активно содействовать обеспечению их качества

Дилемма инкапсуляции и оптимизации запросов
В 2005 г. Майкл Блаха специально написал статью "Дилемма инкапсуляции и оптимизации запросов". Статья показалась нам интересной в двух отношениях. Во-первых, в ней используется непривычная для нас трактовка термина "инкапсуляция". По Блахе методы объекта являются инкапсулированными, если из них вызываются только методы объектов-соседей данного объекта по связям.

Управление параллельным доступом
Сегодня объектно-ориентированные базы данных (ООБД) используются в крупномасштабных приложениях разнообразных индустрий, включая телекоммуникации, банковскую деятельность, производство, страхование и перевозки грузов. Эти приложения характеризуются наличием сложных данных, т.е. данных, представляемых очень сложными графами объектной модели.

Брюс Линдсей высказывается
Я полагаю, что внедрение реляционных баз данных в бизнесе, правительстве и образовании позволило нам повысить производительность и вообще улучшило положение дел. Я думаю, что если бы использование реляционных баз данных вдруг приостановилось прямо сейчас, то Вы застряли бы в Сан-Диего до возобновления этого процесса. Без этих инструментов управления деятельностью правительственных, коммерческих, образовательных и научных организаций наш прогресс происходил бы существенно медленнее.


Использование префиксного дерева для хранения и поиска строк во внешней памяти
Поиск среди больших объёмов текстовых данных, хотя и изучается в computer science давно, не теряет своей актуальности. В работе представлена структура данных для поиска и эффективного хранения во внешней памяти массивов текстовых строк, реализованная для поддержки индексов в XML СУБД Sedna. Описываются алгоритмы для вставки, удаления и поиска строк переменной длинны в префиксных деревьях, хранимых на дисках. Мы также сравниваем нашу реализацию с существующей реализацией B-дерева.

Индексы на основе B-деревьев для поддержки высокого темпа обновлений
Некоторые приложения в большей мере собирают данные, чем обрабатывают запросы к ним. Например, система управления автопарком компании грузовых автомобильных перевозок или такси может регистрировать данные о текущей позиции движущегося средства намного чаще, чем позиции автомобилей запрашиваются диспетчеров автопарка. В этих случаях организацию индекса и B-дерева, в отличие от традиционного подхода, следует оптимизировать с целью повышения эффективности выполнения операций вставки и обновления, а не запросов.

Модель "сущность-связь" - шаг к единому представлению о данных
В настоящее время важной проблемой является логическое представление данных. Были предложены три основных модели данных: сетевая модель, реляционная модель и модель множества сущностей. У этих моделей имеются свои сильные и слабые стороны. Сетевая модель обеспечивает более естественное представление данных за счет разделения (до определенной степени) сущностей и связей, однако возможности этой модели по обеспечению независимости данных подвергаются сомнению

Клермонтский отчет об исследованиях в области баз данных
В конце мая 2008 г. группа исследователей в области баз данных, разработчиков, пользователей и экспертов провела встречу в гостинице Claremont Resort в Беркли, Калифорния с целью обсуждения состояния дел в области исследований баз данных и воздействия результатов исследований на практику. Это была седьмая встреча такого рода за последние двадцать лет. Участники встречи пришли к единодушному мнению, что в истории баз данных наметилась поворотная точка.

Реляционная модель данных для больших совместно используемых банков данных
Реляционное представление (или модель) данных, описываемое в , обладает некоторыми преимуществами по отношению к графовой, или сетевой модели, которая в настоящее время наиболее распространена среди систем, не основанных на логике. Реляционная модель предоставляет средства описания данных на основе только их естественной структуры, т.е. без потребности введения какой-либо дополнительной структуры для целей машинного представления.

Сжатие данных в целях экономии места и ускорения работы
В большинстве систем поддержки принятия решений (СППР) обычно используются большие объемы данных, которые хранятся в нескольких очень больших таблицах. При развитии подобных систем требования к дисковому пространству могут быстро расти. Сейчас хранилища данных объемом сотни терабайт встречаются все чаще.

Критерии выбора СУБД при создании информационных систем
Выбор системы управления баз данных (СУБД) представляет собой сложную многопараметрическую задачу и является одним из важных этапов при разработке приложений баз данных. Выбранный программный продукт должен удовлетворять как текущим, так и будущим потребностям предприятия, при этом следует учитывать финансовые затраты на приобретение необходимого оборудования, самой системы, разработку необходимого программного обеспечения на ее основе, а также обучение персонала.

Примеры реализации хранилищ данных для крупных предприятий
В последние годы Хранилища данных занимают все более прочное место в аналитических системах крупных предприятий. Такие организации владеют, как правило, большими объемами обрабатываемых данных, имеют разветвленную структуру бизнеса, большое количество сотрудников, сеть филиалов. Несмотря на то, что различные подразделения зачастую используют разные информационные системы, предприятию необходимо точно анализировать свою работу и выявлять тенденций рынка сбыта. Для поддержки принятия решений требуются отчеты, составляемые на основе данных из различных информационных систем.

Критика статьи Клода Рубинсона
Я хотел бы поблагодарить Клода Рубинсона за его содержательную критику моих замечаний по поводу неопределенных значений и трехзначной логики (three-valued logic, 3VL). Понятно, что мы единодушны по поводу основных вопросов; как говорит Рубинсон, «я согласен с Дейтом относительно того, что трехзначная логика несовместима с системами управления базами данных». Мы также единодушны в том, что null не является значением; как говорит Рубинсон, «в SQL null определяется не как какое-либо значение, а как некоторый флаг».

Обработка запросов в семействе продуктов IBM DB2
В оптимизаторах DB2 имеются два базовых пути доступа: через индекс и через сканирование таблицы. При доступе через сканирование таблицы просто проверяется каждая ее строка с возможным применением предикатов. Оптимизатор должен тщательно разделять и моделировать как «SARGable»-предикаты (SARG происходит от Search ARGument), так и «остаточные» предикаты. SARGable-предикаты применяются, когда страница закрепляется за буфером, чтобы избежать нетребуемых расходов ЦП на копирование строки.

Эволюция систем, насыщенных данными
Эту небольшую заметку из августовского выпуска журнала Computer я перевел в основном для развлечения. Люблю читать и переводить статьи, в которых встречаются незаезженные мысли (в особенности, если они созвучны моим собственным мыслям). Так вот, в этой заметке не описываются какие-либо новые идеи, и она посвящена очень практической теме проблеме эволюции того, что мы всегда называли приложением базы данных.

Распределенные и параллельные системы баз данных
Становление систем управления базами данных (СУБД) совпало по времени со значительными успехами в развитии технологий распределенных вычислений и параллельной обработки. В результате возникли распределенные системы управления базами данных и параллельные системы управления базами данных. Именно эти системы становятся доминирующими инструментами для создания приложений интенсивной обработки данных.

Что же такое "модель данных"?
К написанию этой заметки меня подвигла публикация в нашей библиотеке статьи А.Е. Васильева "Развитие логических моделей данных". Сразу хочу сказать, что я очень симпатизирую работе, выполняемой коллективом под руководством автора (разработке многомерной СУБД UMS-FAD). Однако, поскольку я являюсь редактором раздела "Базы данных" нашей библиотеки, и публикация статьи А.Е. Васильева подготовлена мной, я просто не могу не заявить, что во многом с этой статьей не согласен.

Интегрированная аналитика. Как извлечь максимальную выгоду из ERP-систем
В этой статье рассматривается развитие ERP-систем, роль Хранилищ данных в информационной ERP-архитектуре, а также перспективы создания интегрированных сред, использующих возможности этих двух технологий. Кроме того, дается оценка достижений двух крупнейших фирм (SAP и People Soft), производителей ERP-систем в области разработки Хранилищ данных и аналитических приложений.

И снова о вечной проблеме отсутствующей информации
Начну с одного чисто переводческого пояснения. В переводе статьи Дейта везде в русском тексте я использую (и даже склоняю) только слово null, не пытаясь заменять его, например, словосочетанием неопределенное значение. В то же время, в переводе статьи Гранта я спокойно иду на такие вольности. Это связано с тем, что авторы статей по-разному относятся к проблеме отсутствующей информации и к соответствующей терминологии.

Выводимость и согласованность отношений, хранимых в крупных банках данных
Реляционное представление предоставляет средства описания данных с использованием только их естественной структуры, т.е. без накладывания на них какой-либо дополнительной структуры для получения машинного представления. Соответственно, это обеспечивает основу высокоуровнего языка выборки данных, который будет способствовать независимости программ от машинного представления и организации данных.

Правило пяти минут двадцать лет спустя, и как флэш-память изменяет правила
Кроме обеспечения ввода-вывода в основную память и из нее, в трехуровневой иерархии памяти также требуется перемещение данных между флэш-памятью и дисками. Механизм перемещения страниц может быть реализован на уровне аппаратуры (например, на основе DMA, Direct Memory Access) или на основе пересылки данных через основную память. Первый вариант обещает более высокую производительность, зато второй может быть полностью реализован программным образом без потребности в новой аппаратуре.

Архитектуры управления данными
Система управления базами данных (СУБД) обеспечивает общий репозиторий для хранения и запрашивания структурированных данных. СУБД поддерживает набор взаимосвязанных услуг и гарантирует разработчикам возможность сосредотачиваться на специфических проблемах их приложений, а не на повторяющихся задачах, которые возникают при потребности в согласованном и эффективном управлении большими объемами данных.

Проекты по управлению данными в Google
В ранние годы Google управление структурированными данными требовалось, главным образом, для хранения и обработки данных, связанных с рекламой. Однако, по мере того, как компания переходит к поддержке размещаемых приложений (hosted application), и над потоками запросов и индексами производится все более сложный анализ, управление структурированными данными становится ключевой инфраструктурой во всех частях компании.