present5-2

advertisement
5.2. Онтологии товаров и услуг
Онтология
• Онтология это система, состоящая из набора
понятий и набора утверждений об этих понятиях,
на основе которых можно строить классы,
объекты, отношения, функции и теории.
 Основные компоненты:
–
–
–
–
–
Классы или понятия
Отношения
Функции
Аксиомы
Примеры
Таксономия публикаций
• Publication
• Article
– Article in book
– Conference paper
–…
• Book
• Journal
– IEEE expert
Отношения в (КА)
Employee
Head-of-project
Works-on-Project
Affiliation
Head-of-group
Project
Project
Organization
Research group
Пример аксиомы
• Работник, являющийся руководителем
проекта, работает в проекте
• Переменные Е, Р
• Forall (E,P) Employee (E) and Head-OfProject (E,P) => Works-At-Project (E,P)
Лингвистические онтологии

-The main characteristic of this kind of ontologies is
that they are bound to the semantics of grammatical
units (words, nominal groups, etc)

Основной источник понятий в онтологии
– значения языковых единиц

Лингвистические онтологии:
WordNet, Mikrokosmos, Sensus, РуТез
Задачи
• Сбор информации о товарах
• Представление информации о товаре
• Классификация товаров – разделение по
назначению
• Поиск по товарам
• Показ баннеров
• Показ текстов (обзоров, новостей,
форумов) по товарам
Системы по товарам общего назначения
• Froogle (www.froogle.com)
• Яндекс. Маркет
– Ручное занесение товара
– Ручная классификация
• Тындекс (www.tyndex.ru)
– Автоматизированный поиск новых прайс-листов
– Автоматический разбор прайсов
– Автоматическая рубрикация
Рубрикаторы продукции
• Общероссийский классификатор
продукции (ОКП)
• Таможенная номенклатура
внешнеэкономической деятельности
(ТНВЭД)
• United Nations Standard Products and
Services Code (UNSPSC)
Фрагмент классификатора продукции
ООН
• 42203700 Medical imaging processing equipment and supplies
• 42203701 Medical x ray film daylight stampers or identification
printers
• 42203702 Medical imaging wet darkroom or daylight processors
• 42203703 Medical x ray passthrough boxes
• 42203704 Medical toners or developers
• 42203705 Medical imaging dry laser printers or imagers
Рубрикаторы. Особенности
• Иерархическая структура (древоподобная)
• Могут достигать значительной величины
(20000 тысяч рубрик)
• При делении по разным основаниям могут
быть близкие по смыслу рубрики-листья
• Невозможно автоматическая
классификация на основе только
формулировок рубрик – необходимо
каждую рубрику снабдить списком
выражений
Рубрикаторы интернет-систем
по товарам
• Простые формулировки
• 10-15 рубрик на каждом уровне
• Величина небольшая
• И сложные классификаторы, и экранные
рубрикаторы – виды онтологий
Автоматическая рубрикация по
товарам (Tyndex)
• Рубрикатор: набор категорий без иерархии
• К каждой категории приписан список слов и
последовательностей слов
• Рубрика проставляется товару, если в начале
строчки встречается элементы списка
• Накопленные списки «типов товаров» можно
дополнительно использовать для контекстной
рекламы
Назначение рубрик
• Запрос слишком общий – уточнение
запроса (Щипцы)
• Запрос неоднозначный – выбор значения
(масло, стремянка)
• Возможность избавиться от побочных
рубрик (велосипед – рубрика
«Игрушки»)
Фрагмент описания рубрики
«Автозапчасти»
•
Стремянка ГАЗ
•
•
•
•
•
•
•
•
•
стремянка зад
Стремянка задней рессоры
Стремянка задняя
Стремянка КАМАЗ
Стремянка МАЗ
Стремянка передняя
Стремянка пер.рес
Стремянка рессоры
стремянка УАЗ
Фрагмент описания рубрики «Бытовые товары»
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Стремянка БЕТТИ
Стремянка бытовая
Стремянка высотой
Стремянка оцинк
Стремянка стальная
Стремянки "Elkop
Стремянка 3-х ступ
Стремянка 5 ступ
Стремянка 6-ти ступ
Стремянка 8 ступ
Стремянка 8 ступеней
Стремянка 9 ступеней
Стремянка 10 ступеней
Стремянка 11 ступ
Стремянка 12 ступ
Рубрикация на специализированном
интернет-сайте
• www.price.ru - цены на компьютеры, hitech, офисное оборудование
• Сложный рубрикатор
• Сложное описание товара
• Поступление списков товаров. Много
повторов. Товары с небольшими
изменениями
• Автоматизированная рубрикация
OntoSeek - Content-Based
Access to the Web
Guarino N.
Проект – 1996г.
Статья – 1999г.
Поиск товаров «по смыслу» использование таксономии
• Обработка синонимов:
– Запрос: Automobile
– Описание услуги: Car repair
• Обработка видов и конкретных марок
– Запрос: Automobile
– Описание услуги : Jeep repair
Поиск товаров «по смыслу» семантический разбор запроса
• Запрос: automobile retail
• Описание услуги:
– automobile radio and stereo retail store
– Car repair and retail shop
– Представление товара (услуги) как
набор атрибут – значение_атрибута
Проблемы Ontoseek
• Нужна большая лингвистическая онтология товаров с
подробными списками текстовых вариантов. Вместе это
предполагается использовать лингвистическую
онтологию общего назначения WordNet.
• Такая онтология должна включать не только типы
товаров, но и конкретные марки товаров
• Каждому понятию онтологии должна быть приписана
совокупность языковых выражений – в реальных
прайсах много сокращений
• Каждое понятие должно иметь внутреннюю структуру –
набор (атрибут – значение атрибута)
Проблемы Ontoseek-2
• Каждый товар в прайсах – нужно
представить в формализованном виде
• Многозначность слов в описаниях
товаров и в запросах
Вопросы к лекции
1. Что такое рубрикатор?
2. Использование рубрикаторов в
интернет-системах по товарам и
услугам
3. Система Ontoseek: какие проблемы
пословного поиска и какими
средствами предполагалось решать?
Download