Содержательные характеристики Программного Продукта

advertisement
ПАСПОРТ ПРОГРАММНОГО ПРОДУКТА
TextAnalyst
______________________________
Титульный лист экспертизы
1
2
Название ПП
TextAnalyst
Ссылка на ПП:
http://www.analyst.ru/index.php?lang=eng&dir=content/products/&id=ta
Дата
Последняя версия ПП __
_
разработки
3
4
5
Компания:
НПИЦ МикроСистемы
Сайт компании:
http://www.analyst.ru/index.php?lang=rus
Стоимость ПП:
__________ долл.
__________ рублей
__________ евро.
Бесплатно
Комментарий Эксперта – степень соответствия Программного Продукта целям и
задачам АЦ, возможности использования Продукта в текущей работе
Безусловными преимуществами Программного Продукта Text Analyst является его
направленность на семантический анализ текстов, доступность получения и
использования. Оборотной их стороной является ограниченность возможностей
Программного Продукта. Учитывая данные обстоятельства, Программный Продукт
Text Analyst может быть использован как вспомогательный для решения
промежуточных задач.___________________________________________________
_______________________________________________________________________
_______________________________________________________________________
_______________________________________________________________________
6
РЕЗЮМЕ по
использованию
Продукта:
1. Целиком, при необходимости – приобрести
2. Частично, некоторые процедуры:
______________________________
3. Использовать – невозможно
Содержательные характеристики Программного Продукта
__________TextAnalyst_______________
II.
Сопровождение работы Программного Продукта
_____TextAnalyst____
1
Уровень готовности решений,
которые можно получить на
выходе работы Программного
Продукта
(имеется ввиду – сколько потом
«докручивать» и «дорабатывать»)
ПП подходит для решения промежуточных задач с
целью сокращения трудо/время затрат на
рутинные операции обработки текстов___
____________________________________
____________________________________
____________________________________
2
Возможность тиражирования
процедур для широкого круга
задач
Класс (квалификация)
специалистов, которые могут
работать с Программным
Продуктом
Необходимые сроки и усилия по
обучению специалистов
Отсутствует_________________________
____________________________________
3
Уверенный пользователь ПК
________
____________________________________
Обучение не требуется________________
____________________________________
____________________________________
____________________________________
Семинар (ов): ________
Обучающий курс: _________ недель
4
Сроки развертывания
Программного Продукта
5
Возможные сложности
сопровождения Программного
Продукта
(сопоставимость трудозатрат и
последующих доплат на
доведение Программного
Продукта до рабочего состояния)
Мобильный продукт__________________
____________________________________
____________________________________
Мобильный продукт – до 1 часа
Чувствителен к характеристикам «железа» можно
адаптировать под рабочее место за день
Установка зависит от Интернет-коммуникации с
разработчиком
__-_________________________________
____________________________________
____________________________________
____________________________________
Доступность специалистов-разработчиков,
Сроки рассмотрения заявок __________
И т.д._____________________________
____ % трудозатрат и оплаты при установке ПП
____ % трудозатрат и доплат при сопровождении
работы ПП
II. Общие характеристики Программного Продукта ___________TextAnalyst________
1
Дата разработки
Первая версия ПП _
______
Последняя версия ПП _____
2
3
4
Компания:
НПИЦ МикроСистемы
Сайт компании:
http://www.analyst.ru/index.php?lang=rus
Ключевые персоны
Харламов Александр Александрович
(разработчики ПП,
контактные лица,
менеджеры)
Сайт с информацией о http://www.analyst.ru/index.php?lang=rus&dir=content/contact/
персоне
Университет
(институт, колледж)
при котором
разрабатывается ПП,
или связана компаний
Сайт университета
1
Объем ПП (дистрибутив):
2
Объем ПП (после установки):
3
Требования к операционной
системе/ возможности работы
Требования к комп. ресурсам (к
железу):
Доступность кода Программного
Продукта
4
5
____
Собственный объем TextAnalyst не
превышает 5Мб
Intel-based PC Windows 9X, NT, 2000, Me
Открытый доступ
Открытый доступ для нескольких
процедур
Доступен алгоритм
Информация полностью закрыта
1
Декларируемые возможности Программного Продукта (из официального описания
Продукта) TextAnalyst разработан в качестве инструмента для анализа содержания
текстов, смыслового поиска информации, формирования электронных архивов, и
предоставляет пользователю следующие основные возможности:
 анализа содержания текста с автоматическим формированием
семантической сети с гиперссылками - получения смыслового портрета текста в
терминах основных понятий и их смысловых связей;
 анализа содержания текста с автоматическим формированием тематического
древа с гиперссылками - выявления семантической структуры текста в виде
иерархии тем и подтем;
 смыслового поиска с учетом скрытых смысловых связей слов запроса со
словами текста;
 автоматического реферирования текста - формирования его смыслового
портрета в терминах наиболее информативных фраз;
 кластеризации информации - анализа распределения материала текстов по
тематическим классам;
 автоматической индексации текста с преобразованием в гипертекст;
 ранжирования всех видов информации о семантике текста по «степени
значимости» с возможностью варьирования детальности ее исследования;
 автоматического/автоматизированного формирования полнотекстовой базы
знаний с гипертекстовой структурой и возможностями ассоциативного доступа к
информации;
2
Комментарии Эксперта – степень соответствия декларируемых и реальных
возможностей Программного Продукта
Выделяет из обрабатываемых текстов основные понятия, ранжирует их по
значимости, устанавливает связи между ними и строит дерево терминов. Позволяет
осуществлять навигацию по тексту при помощи дерева терминов. Имеет функции
ассоциативного поиска. Делает реферат. Несмотря на то, что в бесплатной версии
отсутствует функция сохранения результатов анализа, вы легко можете это сделать,
скопировав и вставив текст в файл.___ ____________________________________
_______________________________________________________________________
_______________________________________________________________________
III. Методологические характеристики Программного Продукта ___TextAnalyst_____
1
2
3
Формат входных данных (файлы
какого формата читает)
Формат выходных данных
rtf, txt в кодировке Windows и DOS
Возможность сопряжения с другими
Программными Продуктами
.txt, *.csw (электронные таблицы), возможен
экспорт в html
Word _да________ ________________
Excel _да_____ ___________________
SPSS _нет________________________
Usinet _нет_______________________
Другие _
4
5
Основные проблемы при
конвертации данных
Тип обработки данных
(Ограниченный объем / Интернетданные)
Максимальный объем загружаемых
данных
6
Скорость обработки данных
1
Для решения каких
содержательных задач
может применяться
2
Единица анализа
3
Объект измерения



















______________
Любые текстовые данные
Максимальный объем анализируемой
подборки не ограничен и зависит от объема
ресурсов компьютера и настройки
TextAnalyst.
Средняя скорость анализа текста около
1Мбайт/мин (при использовании Pentium-II).
Выявление концептов и кластеров СМИ,
разделяющих и распространяющих их
Выявление сфер влияния
Выявление заказных/связанных публикаций,
плагиата
Распространение информации
Поиск экспертов
Поиск необходимой информации
Выявление состава сообществ
Формирование выборки исследования
_________________________________
Концепт
СМИ
Текст
Актор
Связь актора
Слово
Словосочетание
Статья
Блог
4
Группы методов,
используемые в
Программе




Форум,
автор в СМИ,
ссылки других акторов
Любой текст________________________________









Контент-анализ
Дискурс-анализ
Семантические сети
Статистический анализ
Кластерный
Факторный
Регрессионный
Сетевой анализ
Динамический сетевой анализ
5. Описание используемых в Продукте методов
Декларируемые
методы
Есть
описание в
Продукте
Есть описание в Краткое описание сущности метода
литературе
(ссылка, файл с
описанием)
1
Сетевой Текстовый
Анализ (СТА)
(Контент-анализ)
+
+
Метод представляет собой разновидность
классического Контент-анализа. Выделяет основные
понятия текста.
+
Тематическая структура описывает содержание
анализируемых текстов в виде иерархии связанных
тем и подтем. Все темы и подтемы выражены в
терминах исходных текстов и соответствуют узлам
сети понятий. Однако связи между понятиями
односторонни и направлены от главного понятия к
подчиненным. В результате представление
тематической структуры оказывается иерархическим
– от каждой темы раскрываются связи только к ее
подтемам, от них – к подтемам следующего уровня и
т.д., вплоть до самых незначительных тем, уже не
имеющих связей. Тематическая структура, таким
образом, имеет вид древа, в корне которого стоят
главные темы, в ветвях – их подтемы, и каждая ветвь
2
Семантический
Сетевой Анализ
(ССА)
+
Результаты на выходе
TextAnalyst формирует
сеть основных (наиболее
значимых) понятий,
содержащихся в
представленных ему
текстах, подсчитывает их
смысловой и сетевой веса.
Такая сеть служит
представлением смысла
текста и основой для всех
видов дальнейшего
анализа.
Более организованное
представление сети – так
называемая тематическая
структура. Тематическая
структура имеет вид древа,
в корне которого стоят
главные темы, в ветвях –
их подтемы, и каждая
ветвь дерева
заканчивается. Общий вид
тематической структуры
отражает смысловую
структуру текстов. Так,
если вся информация в
дерева заканчивается. Общий вид тематической
структуры отражает смысловую структуру текстов.
Так, если вся информация в текстах подчинена
единой теме, структура будет иметь вид дерева с
единственным корнем. Если же содержание текстов
отражает несколько тем, то дерево распадается на
целый "лес" независимых кустов, корни которых
представляют главные темы, несвязанные друг с
другом.
текстах подчинена единой
теме, структура будет
иметь вид дерева с
единственным корнем.
Если же содержание
текстов отражает
несколько тем, то дерево
распадается на целый
"лес" независимых кустов,
корни которых
представляют главные
темы, несвязанные друг с
другом.
Реферат текста.
Формирование
гипертекста.
Смысловой поиск.
а
аметры
ида
IV. Структура меню:
Error! Bookmark not defined.
7. ?
Вызов справки
Учебник по
TextAnalyst
Viewer
ние словаря
О программе…
Регистрация
Последний файл
Выход
V. Основные процедуры обработки данных
5.1. Процедура Выявление понятий, подсчет их весов____________________________
1
2
3
4
5
6
7
Цель процедуры
Откуда получает
данные (из какой
процедуры)
Какого типа данные
получает
Где представляет
данные (в какой
процедуре)
Какого типа данные
выдает
Какой метод
использует
(название метода)
Насколько подробно
описан метод в
программе
8
Источник метода
9
С какими данными
работает
10
Требуется
предварительная
обработка данных и
какого рода?
Единицы анализа
11
Выявление ключевых понятий в тексте
Исходные данные
Текстовые данные
Список понятий
Контент-анализ
Подробное название и описание метода, ссылка на авторов
Неполное описание
Только название
Нет информации
Разработан авторами программы
Опубликован в литературе (ссылка)
________________________________________
Опубликован в Интернете (ссылка)
file:///C:/Program%20Files/MicroSystems/TextAnalyst%202.0/
TextAnalyst%20Tutorial/TextAnalyst_tutorial_1.html
Интуитивно понятный
Нет данных
Текст
Блог
Форум
Профиль автора
Нет
Да _____________
_________________________________________
Слово
Словосочетание
Предложение
Текст
Семантическая структура
________________________________
12
13
Описание метода в Программе
Прежде всего, изучив предложенный материал, TextAnalyst формирует
сеть основных (наиболее значимых) понятий, содержащихся в представленных
ему текстах. Такая сеть служит представлением смысла текста и основой для
всех видов дальнейшего анализа.
Сеть понятий - это множество терминов из текстов - слов и
словосочетаний, связанных между собой по смыслу. В сеть включены не все
термины текста, а лишь наиболее значимые, несущие основную смысловую
нагрузку. Аналогичным образом представлены и смысловые связи между
понятиями текстов – отражаются лишь наиболее явно выраженные из них.
Поэтому, с одной стороны сеть достаточно полно описывает смысл текстов, а с
другой - позволяет отбросить несущественную информацию и представить
содержание в сжатом виде, так называемым “смысловым портретом”. При этом
каждое понятие, повторявшееся в различных местах текстов множество раз,
оказывается представлено в единственном узле сети. В этом узле также
собирается разбросанная информация, касающаяся понятия – формируется
список предложений, в которых оно употреблялось. А различные формы слов,
конечно же, приводятся к общей грамматической форме для отображения в один
элемент сети. Аналогичным образом собирается информация по смысловым
связям каждого понятия – в виде списка всех связанных с ним в тексте понятий,
дополненного предложениями, в которых отражаются данные связи.
Таким образом, Вы можете сразу увидеть всю информацию по
каждому понятию - теме текста, буквально бросив единственный взгляд на набор
его связей в сети. В результате, передвигаясь по смысловым связям от понятия к
понятию, Вы будете находить и прицельно исследовать лишь интересующие
места текстов, не затрудняя себя просмотром всей попавшейся на пути
информации.
Но это еще не все. Каждый элемент сети - понятие характеризуется
числовой оценкой – так называемым смысловым весом. Связи между парами
понятий, в свою очередь, также характеризуются весами. Эти оценки позволят
сравнить относительный вклад различных понятий и их связей в семантику
текста, выявить более или менее подробно проработанную в тексте тематику,
задать способ сортировки информации, и наконец, позволят взглянуть на весь
текстовый материал по пластам - смысловым срезам различной глубины - то
“снимая сливки” с содержания, то глубоко погружаясь в детали. Теперь обратите
внимание на числа, стоящие в дереве возле понятий. Ближайшее к понятию
число представляет его смысловой вес. Его значение (от 1 до 100) показывает,
сколь важную роль играет понятие для смысла всего текста – как много
информации в тексте касается данного понятия. Максимальное значение, равное
100, говорит о том, что понятие является ключевым и представляет важнейшую
тему текста. Маленькое, близкое к единице значение показывает, что
соответствующая тема лишь вскользь упомянута в тексте и в нем очень мало
информации, относящейся к данному понятию. Второе число, стоящее перед
смысловым весом, ближе к раскрытому узлу, представляет вес связи от понятия
в вершине раскрытого списка к данному. Вес связей также всегда принимает
значение от 1 до 100. Большое значение веса связи от одного понятия к другому,
близкое к 100, указывает на то, что подавляющая часть информации в тексте,
касающаяся первого, касается в тоже время и второго понятия – первая тема
почти всегда излагается в контексте второй. Малое единичное значение отражает
тот факт, что первое понятие слабо связано со вторым и очень мало информации
по первой теме касается в тоже время и второй.
Обратите внимание, что связь между парой понятий сети всегда
двустороння, однако связь от первого понятия ко второму далеко не всегда имеет
11
тот же самый вес, что и обратная, от второго к первому. Как говорится, “всякая
селедка – рыба, но не всякая рыба - селедка”.
14
15
Описание метода из других источников (кратко, только суть метода и ключевые
формулы)
Контент-анализ — метод качественно-количественного анализа содержания
документов с целью выявления или измерения различных фактов и тенденций,
отраженных в этих документах. Основные стадии: выявление смысловых единиц
контент-анализа, выделение единиц счета, которые могут совпадать либо не
совпадать с единицами анализа, процедура подсчета, которая в общем виде
сходна со стандартными приемами классификации по выделенным
группировкам.
Резюме эксперта о возможностях использования этого метода
Метод подходит для решения ограниченного круга задач
5.2. Процедура Построение тематической структуры текстов, реферирование, создание
гипертекста
1
Цель процедуры
2
Откуда получает
данные (из какой
процедуры)
Какого типа данные
получает
Где представляет
данные (в какой
процедуре)
Какого типа данные
выдает
3
4
5
6
7
Какой метод
использует
(название метода)
Насколько подробно
описан метод в
программе
8
Источник метода
9
С какими данными
работает
Построение сети основных тем текста, отображающей их
взаимосвязи
5.1
Список тем и подтем, основных понятий
Тематическая структура имеет вид древа, в корне которого
стоят главные темы, в ветвях – их подтемы, и каждая ветвь
дерева заканчивается. Общий вид тематической структуры
отражает смысловую структуру текстов
Семантический сетевой анализ
Подробное название и описание метода, ссылка на авторов
Неполное описание
Только название
Нет информации
Разработан авторами программы
Опубликован в литературе (ссылка)
________________________________________
Опубликован в Интернете (ссылка)
file:///C:/Program%20Files/MicroSystems/TextAnalyst%202.0/
TextAnalyst%20Tutorial/TextAnalyst_tutorial_1.html
Интуитивно понятный
Нет данных
Текст
Блог
Форум
12
Профиль автора
10
11
Требуется
предварительная
обработка данных и
какого рода?
Единицы анализа
Нет
Да
_________________________________________
Слово
Словосочетание
Предложение
Текст
Семантическая структура
________________________________
12
13
14
15
Описание метода в Программе
Тематическая структура описывает содержание анализируемых текстов в виде
иерархии связанных тем и подтем. Все темы и подтемы выражены в терминах
исходных текстов и соответствуют узлам сети понятий. Однако связи между
понятиями односторонни и направлены от главного понятия к подчиненным. В
результате представление тематической структуры оказывается иерархическим –
от каждой темы раскрываются связи только к ее подтемам, от них – к подтемам
следующего уровня и т.д., вплоть до самых незначительных тем, уже не
имеющих связей.
Описание метода из других источников (кратко, только суть метода и ключевые
формулы)
Резюме эксперта о возможностях использования этого метода
Метод подходит для решение ограниченного круга задач
13
Download