больших данных

реклама
Èííîâàòèêà è ýêñïåðòèçà. 2015. Âûïóñê 1 (14)
ЭКСПЕРТИЗА И АНАЛИТИЧЕСКАЯ ДЕЯТЕЛЬНОСТЬ
О ПРИМЕНЕНИИ ТЕХНОЛОГИЙ «БОЛЬШИХ ДАННЫХ» В ИНФОРМАЦИОННОЙ
СИСТЕМЕ ФЕДЕРАЛЬНОГО РЕЕСТРА ЭКСПЕРТОВ НАУЧНО-ТЕХНИЧЕСКОЙ
СФЕРЫ МИНОБРНАУКИ РОССИИ
Å.À. Ìàðûøåâ, çàì. äèð. öåíòðà ÔÃÁÍÓ ÍÈÈ ÐÈÍÊÖÝ êàíä. òåõí. íàóê,
[email protected]
Ì.Â. Ñåðãååâ, ãë. íàó÷í. ñîòð. ÔÃÁÍÓ ÍÈÈ ÐÈÍÊÖÝ, [email protected]
Ñòàòüÿ ïîñâÿùåíà îöåíêå âîçìîæíîãî èñïîëüçîâàíèÿ òåõíîëîãèé áîëüøèõ äàííûõ äëÿ
ðåøåíèÿ çàäà÷ ãîñóäàðñòâåííîé íàó÷íîé è íàó÷íî-òåõíè÷åñêîé ýêñïåðòèçû. Ïðîâåäåí îáçîð
çàäà÷ ýêñïåðòèçû â íàó÷íîé íàó÷íî-òåõíè÷åñêîé ñôåðå, äëÿ êîòîðûõ öåëåñîîáðàçíî ïðèìåíåíèå äàííûõ òåõíîëîãèé. Ñäåëàí âûâîä î òîì, ÷òî òåõíîëîãèè áîëüøèõ äàííûõ ìîãóò
ñòàòü ðåàëüíûì èíñòðóìåíòîì ïîâûøåíèÿ ýôôåêòèâíîñòè ïðèíÿòèÿ ðåøåíèé â ñôåðå
óïðàâëåíèÿ íàó÷íî-òåõíîëîãè÷åñêèì êîìïëåêñîì Ðîññèè, îáåñïå÷èâàÿ ðóêîâîäÿùèå îðãàíû
áîëåå êà÷åñòâåííîé è äîñòîâåðíîé íàó÷íî-àíàëèòè÷åñêîé èíôîðìàöèåé, ïîëó÷åííîé ñ ïîìîùüþ ýêñïåðòíîãî ñîîáùåñòâà.
Êëþ÷åâûå ñëîâà: íàó÷íàÿ è íàó÷íî-òåõíè÷åñêàÿ ýêñïåðòèçà, áîëüøèå äàííûå, Big
Data, íåñòðóêòóðèðîâàííûå äàííûå.
ON THE APPLICATION OF «BIG DATA» TECHNOLOGIES IN THE INFORMATION
SYSTEM OF FEDERAL ROSTER EXPERTS OF SCIENTIFIC AND TECHNICAL
SPHERE OF MINISTRY OF EDUCATION AND SCIENCE OF RUSSIA
E.A. Marishev, Deputy Head of Centre, SRI FRCEC, Doctor of Engineering, [email protected]
M.V. Sergeev, Chief Researcher, SRI FRCEC, [email protected]
The article evaluates the possible use of big data technologies to solve problems and the state of
scientific and technological expert examination. The article presents a review of expert examination
tasks in scientific and scientific-technological sphere, where the appropriate application of these
technologies is necessary. The article concludes that big data technologies can become a real tool
for improving the effectiveness of decision making in the management of scientific-technological
complex of Russia, providing the governing bodies of higher quality and accurate scientific-analytical
information obtained by the expert community.
Keywords: the scientific and technological expert examination, Big Data, unstructured data.
Òåõíîëîãèè «áîëüøèõ äàííûõ», íåñìîòðÿ íà òî, ÷òî íàõîäÿòñÿ íà íà÷àëüíîì ýòàïå ñâîåãî
ðàçâèòèÿ, óâåðåííî çàâîåâûâàþò ïîïóëÿðíîñòü â ìèðå. Êàê îäíî èç êëþ÷åâûõ íàïðàâëåíèé
êîìïüþòåðíîé íàóêè, îíè, íåñîìíåííî, îêàçûâàþò îãðîìíîå âëèÿíèå íà âñå íàïðàâëåíèÿ ðàçâèòèÿ âûñîêîòåõíîëîãè÷åñêîãî ñåêòîðà è áûñòðî ñòàíîâÿòñÿ ÷àñòüþ íàøåé ïîâñåäíåâíîé æèçíè.
Ñóùåñòâóåò ìíîæåñòâî îïðåäåëåíèé òåðìèíà «áîëüøèå äàííûå», òåì íå ìåíåå, âñå îíè ïîäðàçóìåâàþò, ÷òî ýòî ïîäõîäû, èíñòðóìåíòû, ìåòîäû äëÿ îáðàáîòêè îãðîìíûõ è íåïðåðûâíî
ðàñòóùèõ îáúåìîâ äàííûõ, ðàçíîîáðàçíûõ ïî ñòðóêòóðå è èñòî÷íèêàì, ïîçâîëÿþùèå ñóùåñòâåííî ïîâûñèòü ýôôåêòèâíîñòü õðàíåíèÿ, óïðàâëåíèÿ ïîòîêàìè, àíàëèçà èíôîðìàöèè. Äðóãèìè ñëîâàìè, òåõíîëîãèÿ «áîëüøèõ äàííûõ» èìååò òðè îòëè÷èòåëüíûõ ïðèçíàêà, ÷àñòî îáî118
Èííîâàòèêà è ýêñïåðòèçà. 2015. Âûïóñê 1 (14)
çíà÷àåìûõ êàê «òðè V »: volume (àíàëèçèðóþòñÿ ìàññèâû äàííûõ îáúåìîì â äåñÿòêè òåðàáàéò), velocity (íàêîïëåíèå è îáðàáîòêà äàííûõ èäóò ñ âûñîêîé ñêîðîñòüþ), variety (âàðèàòèâíîñòü – îáðàáàòûâàþòñÿ äàííûå ñàìûõ ðàçíûõ òèïîâ èç îäíîãî èëè íåñêîëüêèõ èñòî÷íèêîâ) [1].
Îäíîé èç êëþ÷åâûõ òåõíîëîãèé, îòíîñÿùèõñÿ ê îáðàáîòêå «áîëüøèõ äàííûõ», ÿâëÿåòñÿ
ïëàòôîðìà Hadoop ñ îòêðûòûì èñõîäíûì êîäîì, ïîçâîëÿþùàÿ îáðàáàòûâàòü îãðîìíûå
ìàññèâû äàííûõ â ðàñïðåäåëåííîé ñðåäå [2]. Hadoop ïîçâîëÿåò íå òîëüêî ñîêðàòèòü âðåìÿ
íà îáðàáîòêó è ïîäãîòîâêó äàííûõ äëÿ àíàëèòè÷åñêèõ ñèñòåì, íî è ñóùåñòâåííî ðàñøèðÿåò
âîçìîæíîñòè ïî àíàëèçó, ïîçâîëÿÿ îïåðèðîâàòü ñëàáîñòðóêòóðèðîâàííûìè èëè íåñòðóêòóðèðîâàííûìè äàííûìè. Ïëàòôîðìà àêòèâíî ðàçâèâàåòñÿ, ìíîãèå èçíà÷àëüíî ñâÿçàííûå ñ
íåé ïðîåêòû è òåõíîëîãèè âïîñëåäñòâèè ñòàëè ñàìîñòîÿòåëüíûìè.
Ìíîãèå ïðåäñòàâèòåëè íàó÷íîãî ñîîáùåñòâà è áèçíåñà îòìå÷àþò çíà÷èòåëüíûé ïîòåíöèàë «áîëüøèõ äàííûõ» êàê ñòèìóëà èííîâàöèé, äâèãàòåëÿ ïðîãðåññà è òîðãîâëè [3, 4, 5], ïîëàãàÿ, ÷òî òàêèå òåõíîëîãèè ìîãóò èçìåíèòü ìåòîäû íàó÷íûõ èññëåäîâàíèé è îðãàíèçàöèè
áèçíåñà, îáåñïå÷èâ áîëåå îïåðàòèâíûå è òî÷íûå àíàëèòè÷åñêèå äåéñòâèÿ äëÿ ïðèíÿòèÿ áîëåå ïðîäóìàííûõ ðåøåíèé.
Ïåðñïåêòèâû ðàçâèòèÿ «áîëüøèõ äàííûõ» â áëèæàéøèå ãîäû ïîçèòèâíî îöåíèâàþòñÿ â
èññëåäîâàíèè êîìïàíèè IDC «Ãëîáàëüíûé ðûíîê òåõíîëîãèé è ñåðâèñîâ, ñâÿçàííûõ ñ “Áîëüøèìè äàííûìè”, ïðîãíîç íà 2013–2017 ãîäû». Àâòîðû óâåðåíû, ÷òî «áîëüøèå äàííûå» è
ñâÿçàííûé ñ íèìè ðûíîê ïîêàæåò ðîñò, â øåñòü ðàç ïðåâûøàþùèé ðàçâèòèå ðûíêà òðàäèöèîííûõ èíôîðìàöèîííûõ è òåëåêîììóíèêàöèîííûõ òåõíîëîãèé. Ïî ïðîãíîçàì êîìàíäû àíàëèòèêîâ IDC, ê 2017 ã. îáúåì ðûíêà «áîëüøèõ äàííûõ» äîñòèãíåò 32,4 ìëðä äîëë. ÑØÀ.
 àâãóñòå 2014 ã. êîìïàíèÿ Gartner âûïóñòèëà åæåãîäíûé «Öèêë çðåëîñòè íîâûõ òåõíîëîãèé» [6]. Ïî ìíåíèþ àíàëèòèêîâ êîìïàíèè, òåõíîëîãèè «áîëüøèõ äàííûõ» óæå ïðîøëè «ïèê
çàâûøåííûõ îæèäàíèé» (Peak of Inflated Expectation) è â íàñòîÿùåå âðåìÿ ïåðåìåùàþòñÿ â
ñòîðîíó «âïàäèíû ðàçî÷àðîâàíèÿ» (Trough of Disillusionment). Ýòîò ïðîöåññ ïðîèñõîäèò äîâîëüíî áûñòðî, òàê êàê ñîãëàñîâàííûé ïîäõîä ê ýòîé òåõíîëîãèè óæå ñëîæèëñÿ, è áîëüøèíñòâî íîâûõ äîñòèæåíèé íîñÿò õàðàêòåð «äîáàâîê», à íå ðåâîëþöèîííûõ ïåðåìåí. Òåì íå ìåíåå,
ìíîãèå ýêñïåðòû ïîëàãàþò, ÷òî íè÷åãî ñòðàøíîãî ñ «áîëüøèìè äàííûìè» íå ïðîèñõîäèò – ñåé÷àñ èìååò ìåñòî îïðåäåëåííîå ðàçî÷àðîâàíèå ñðåäè òåõ, êòî ïîääàëñÿ ïåðâîíà÷àëüíîé øóìèõå,
íî â ïåðñïåêòèâå òåõíîëîãèþ æäåò âûõîä íà «ïëàòî ïðîäóêòèâíîñòè» (Plateau of Productivity).
Ñ òî÷êè çðåíèÿ ðåàëèçàöèè íàó÷íî-òåõíè÷åñêîé è èííîâàöèîííîé ïîëèòèêè ñîâðåìåííîé
Ðîññèè òåõíîëîãèè «áîëüøèõ äàííûõ» ìîãóò ñòàòü ðåàëüíûì èíñòðóìåíòîì ïîâûøåíèÿ ýôôåêòèâíîñòè ïðèíÿòèÿ ðåøåíèé â ñôåðå óïðàâëåíèÿ íàó÷íî-òåõíîëîãè÷åñêèì êîìïëåêñîì
ãîñóäàðñòâà ïóòåì îáåñïå÷åíèÿ ðóêîâîäÿùèõ îðãàíîâ áîëåå êà÷åñòâåííîé è äîñòîâåðíîé íàó÷íî-àíàëèòè÷åñêîé èíôîðìàöèåé, ïîëó÷åííîé ñ ïîìîùüþ ýêñïåðòíîãî ñîîáùåñòâà.
Ðàññìîòðèì âîïðîñ öåëåñîîáðàçíîñòè èñïîëüçîâàíèÿ òåõíîëîãèé «áîëüøèõ äàííûõ» â
ïðîöåäóðàõ íàó÷íîé è íàó÷íî-òåõíè÷åñêîé ýêñïåðòèçû.
Ïðåæäå âñåãî ñëåäóåò îòìåòèòü, ÷òî åäèíîé çàêîíîäàòåëüíîé è íîðìàòèâíîé ïðàâîâîé
áàçû ýêñïåðòèçû è ýêñïåðòíîé äåÿòåëüíîñòè â íàó÷íî-òåõíè÷åñêîé ñôåðå â íàñòîÿùåå âðåìÿ
íå ñóùåñòâóåò [7]. Ó÷àñòíèêè ýêñïåðòíîãî ïðîöåññà ðóêîâîäñòâóþòñÿ ïîëîæåíèÿìè Ôåäåðàëüíîãî çàêîíà «Î íàóêå è ãîñóäàðñòâåííîé íàó÷íî-òåõíè÷åñêîé ïîëèòèêå» (îò 23 àâãóñòà 1996 ã.
¹ 127-ÔÇ). Êðîìå òîãî, îòíîøåíèÿ, âîçíèêàþùèå â ñâÿçè ñ íàçíà÷åíèåì è ïðîâåäåíèåì
íàó÷íîé è íàó÷íî-òåõíè÷åñêîé ýêñïåðòèçû, ðåãóëèðóþòñÿ ìîäåëüíûì çàêîíîì «Î íàó÷íîé
è íàó÷íî-òåõíè÷åñêîé ýêñïåðòèçå», ïðèíÿòûì Ìåæïàðëàìåíòñêîé àññàìáëååé ãîñóäàðñòâó÷àñòíèêîâ ÑÍà â íîÿáðå 2003 ã.
 ñîîòâåòñòâèè ñ òðåáîâàíèÿìè Ôåäåðàëüíîãî çàêîíà «Î òåõíè÷åñêîì ðåãóëèðîâàíèè» (îò 27
äåêàáðÿ 2002 ã. ¹ 184-ÔÇ), â ÔÃÁÍÓ ÍÈÈ ÐÈÍÊÖÝ ñîçäàí òèïîâîé òåõíîëîãè÷åñêèé ïðîöåññ ýêñïåðòèçû â âèäå ñòàíäàðòà îðãàíèçàöèè (ÑÒÎ), îòâå÷àþùèé ñîâðåìåííûì òðåáîâàíèÿì
ê îðãàíèçàöèè è ïðîâåäåíèþ ãîñóäàðñòâåííîé ýêñïåðòèçû â ñôåðå íàóêè [8]. Òèïîâàÿ ìîäåëü ìåõàíèçìà ãîñóäàðñòâåííîé íàó÷íîé è íàó÷íî-òåõíè÷åñêîé ýêñïåðòèçû ïðåäñòàâëåíà íà ðèñ 2.
119
Èííîâàòèêà è ýêñïåðòèçà. 2015. Âûïóñê 1 (14)
Big Data (Большие данные)
Источник: Gartner, 2014
Ðèñ. 1. Öèêë çðåëîñòè íîâûõ òåõíîëîãèé (Hype Cycle) ïî ñîñòîÿíèþ íà àâãóñò 2014 ã.
ɶʲˊʲ˄ˣˆˊˆ
ʶ˓˖˙ʹʲ˕˖˘ʵʺˑˑ˓ˇ
˫ˊ˖˔ʺ˕˘ˆ˄˩
ʵ ˖˟ʺ˕ʺ ˑʲ˙ˊˆ
ʅʴ˨ʺˊ˘
˫ˊ˖˔ʺ˕˘ˆ˄˩
ʊˆ˔˓ʵ˓ˇ
˘ʺˠˑ˓ˏ˓ʶˆˣʺ˖ˊˆˇ
˔˕˓ˢʺ˖˖ ˫ˊ˖˔ʺ˕˘ˆ˄˩
ʵ ˖˟ʺ˕ʺ ˑʲ˙ˊˆ
ʅ˕ʶʲˑˆ˄ʲ˘˓˕
ʶ˓˖˙ʹʲ˕˖˘ʵʺˑˑ˓ˇ
˫ˊ˖˔ʺ˕˘ˆ˄˩
(ʃɸɸ ʇɸʃɼʔʝ)
ʑʺʹʺ˕ʲˏ˪ˑ˩ˇ ˕ʺʺ˖˘˕
˫ˊ˖˔ʺ˕˘˓ʵ ˑʲ˙ˣˑ˓˘ʺˠˑˆˣʺ˖ˊ˓ˇ ˖˟ʺ˕˩
ʂˆˑ˓ʴ˕ˑʲ˙ˊˆ ʇ˓˖˖ˆˆ
ʝˊ˖˔ʺ˕˘ˑ˓ʺ
˄ʲˊˏ˭ˣʺˑˆʺ
Ðèñ. 2. Ìîäåëü ìåõàíèçìà ãîñóäàðñòâåííîé íàó÷íîé è íàó÷íî-òåõíè÷åñêîé ýêñïåðòèçû
120
Èííîâàòèêà è ýêñïåðòèçà. 2015. Âûïóñê 1 (14)
Êàê ñëåäóåò èç ðèñ. 2, îáúåêò ýêñïåðòèçû, ñôîðìèðîâàííûé çàêàç÷èêîì ýêñïåðòèçû, ïîñòóïàåò îðãàíèçàòîðó ãîñóäàðñòâåííîé ýêñïåðòèçû – ÔÃÁÍÓ ÍÈÈ ÐÈÍÊÖÝ. Ãîñóäàðñòâåííàÿ íàó÷íàÿ è íàó÷íî-òåõíè÷åñêàÿ ýêñïåðòèçà ïðåäñòàâëåííîãî îáúåêòà ýêñïåðòèçû îðãàíèçóåòñÿ ïîñëå ïîäáîðà ýêñïåðòîâ, â ÷àñòíîñòè, èç Ôåäåðàëüíîãî ðååñòðà ýêñïåðòîâ íàó÷íî-òåõíè÷åñêîé ñôåðû Ìèíîáðíàóêè Ðîññèè (äàëåå – ÔÐÝ), ñ èñïîëüçîâàíèåì òèïîâîãî
òåõíîëîãè÷åñêîãî ïðîöåññà ýêñïåðòèçû â ñôåðå íàóêè. Ñôîðìèðîâàííîå ýêñïåðòàìè ýêñïåðòíîå çàêëþ÷åíèå ïîñëå ðàññìîòðåíèÿ åãî ðóêîâîäñòâîì ÍÈÈ ÐÈÍÊÖÝ íàïðàâëÿåòñÿ
çàêàç÷èêó.
Òèïîâîé òåõíîëîãè÷åñêèé ïðîöåññ ýêñïåðòèçû ïðåäóñìàòðèâàåò ñëåäóþùèå ïðîöåäóðû:
– ïðèåì è ðåãèñòðàöèÿ äîêóìåíòîâ íà îáúåêò, ïîäëåæàùèé ýêñïåðòèçå;
– ðåçîëþöèÿ (ðåøåíèå) ðóêîâîäñòâà î ïðîâåäåíèè ýêñïåðòèçû;
– ôîðìèðîâàíèå ïàêåòà äîêóìåíòîâ äëÿ ýêñïåðòèçû, â òîì ÷èñëå òèðàæèðîâàíèå ìàòåðèàëîâ;
– èçó÷åíèå, êëàññèôèêàöèÿ è àíàëèç îáúåêòà ýêñïåðòèçû;
– ôîðìèðîâàíèå òåõíè÷åñêîãî çàäàíèÿ íà ýêñïåðòèçó;
– ïðîâåäåíèå èíôîðìàöèîííîãî ïîèñêà;
– ïîäáîð ýêñïåðòîâ (èç ÷èñëà àêêðåäèòîâàííûõ â ÔÐÝ) è ôîðìèðîâàíèå ýêñïåðòíûõ
ïóëîâ;
– ïðîâåäåíèå ýêñïåðòèçû â èíôîðìàöèîííîé ñèñòåìå ÔÐÝ (reestr.extech.ru) è ôîðìèðîâàíèå ýêñïåðòíîãî çàêëþ÷åíèÿ;
– îáðàáîòêà ýêñïåðòíûõ çàêëþ÷åíèé;
– ïîäãîòîâêà è ñîãëàñîâàíèå çàêëþ÷åíèÿ ãîñóäàðñòâåííîé ýêñïåðòèçû.
– àðõèâàöèÿ ìàòåðèàëîâ;
– îòïðàâêà ìàòåðèàëîâ ýêñïåðòèçû çàêàç÷èêó.
Ñ öåëüþ îïðåäåëåíèÿ öåëåñîîáðàçíîñòè ïðèìåíåíèÿ òåõíîëîãèé «áîëüøèõ äàííûõ», áîëåå ïîäðîáíî ðàññìîòðèì îòäåëüíûå ïðîöåäóðû òåõíîëîãè÷åñêîãî ïðîöåññà ýêñïåðòèçû.
 õîäå èçó÷åíèÿ, êëàññèôèêàöèè è àíàëèçà îáúåêòà ýêñïåðòèçû íåîáõîäèìî, â ÷àñòíîñòè,
óñòàíîâèòü ñîñòàâ è çíà÷åíèÿ åãî êëàññèôèêàöèîííûõ ïðèçíàêîâ, òàêèõ êàê ïðèíàäëåæíîñòü ê íàó÷íî-òåõíè÷åñêîé ïðîäóêöèè, ê ïðåäìåòíîé îáëàñòè çíàíèé; âûÿâèòü âîçìîæíûå
ôàêòû óæå ñóùåñòâóþùåãî ôèíàíñèðîâàíèÿ äàííîãî îáúåêòà è ïîâòîðíîñòè ïîñòóïëåíèÿ
åãî íà ýêñïåðòèçó.
Ïðîâåäåíèå ïðåäâàðèòåëüíîãî èíôîðìàöèîííîãî ïîèñêà ïî òåìàòèêå îáúåêòà ýêñïåðòèçû îñóùåñòâëÿåòñÿ â áàçàõ äàííûõ îáùåãî äîñòóïà, ñëóæåáíûõ áàçàõ äàííûõ, ëîêàëüíîì
àðõèâå, óäàëåííûõ èñòî÷íèêàõ.
Ïðîöåäóðà ïîäáîðà ýêñïåðòîâ íåôîðìàëèçîâàíà, âåñüìà îòâåòñòâåííà è ñîñòîèò â âûÿâëåíèè íåçàâèñèìûõ êîìïåòåíòíûõ ýêñïåðòîâ ïî óçêîé òåìàòèêå îáúåêòà ýêñïåðòèçû.
Îòìåòèì, ÷òî ñóùåñòâóþùèå â íàñòîÿùåå âðåìÿ ïîäõîäû ê äàííîé ïðîáëåìå ÷àñòî îñíîâàíû íà ñóáúåêòèâíûõ ñóæäåíèÿõ èëè ðåçóëüòàòàõ ïñèõîëîãè÷åñêèõ è ñîöèàëüíûõ èññëåäîâàíèé. Äðóãèå ìåòîäû, èñïîëüçóþùèå, íàïðèìåð, îöåíêè íåïðîòèâîðå÷èâîñòè ñóæäåíèé ýêñïåðòà [9], ñëîæíû â ðåàëèçàöèè òðàäèöèîííûìè ñðåäñòâàìè, òàê êàê ïðåäïîëàãàþò îáðàáîòêó äàííûõ îáøèðíûõ àðõèâîâ, ñîäåðæàùèõ çàêëþ÷åíèÿ îöåíèâàåìûõ ýêñïåðòîâ.
Îñîáåííîñòü ïðîâåäåíèÿ ýêñïåðòèçû ñîñòîèò â òîì, ÷òî çàêëþ÷åíèå ôîðìèðóåòñÿ íà îñíîâå ñóáúåêòèâíûõ îöåíîê ýêñïåðòà. Ïîýòîìó äëÿ ïðèíÿòèÿ îáúåêòèâíîãî ðåøåíèÿ åìó
íåîáõîäèìî ïðîàíàëèçèðîâàòü è ïåðåðàáîòàòü áîëüøîé îáúåì èíôîðìàöèè, ó÷èòûâàÿ âëèÿíèå ðàçëè÷íûõ ôàêòîðîâ è îöåíèâ âåðîÿòíûå ïîñëåäñòâèÿ òîãî èëè èíîãî ðåøåíèÿ.
Ñëåäóåò òàêæå îòìåòèòü, ÷òî ýêñïåðòû ÔÐÝ ïðèâëåêàþòñÿ íå òîëüêî äëÿ ïðîâåäåíèÿ
ãîñóäàðñòâåííîé íàó÷íîé è íàó÷íî-òåõíè÷åñêîé ýêñïåðòèçû. Îíè àêòèâíî ó÷àñòâóþò â
ïîäãîòîâêå èíôîðìàöèîííî-àíàëèòè÷åñêèõ ìàòåðèàëîâ î ñîñòîÿíèè è ïåðñïåêòèâàõ ðàçâèòèÿ ðîññèéñêîé è çàðóáåæíîé ñôåð èññëåäîâàíèé, ðàçðàáîòîê è èííîâàöèîííîé äåÿòåëüíîñòè.
121
Èííîâàòèêà è ýêñïåðòèçà. 2015. Âûïóñê 1 (14)
Âñå âûøåïåðå÷èñëåííûå ïðîöåäóðû íàó÷íîé è íàó÷íî-òåõíè÷åñêîé ýêñïåðòèçû èìåþò
ðÿä îñîáåííîñòåé, ïðèìåíèìûõ ê òåðìèíó «áîëüøèå äàííûå»:
– çíà÷èòåëüíûå îáúåìû äàííûõ, ðàñïîëîæåííûå íà ìíîæåñòâå ðàçíûõ êîìïüþòåðîâ;
– äàííûå ñëèøêîì áîëüøèå äëÿ ðåçåðâíîãî êîïèðîâàíèÿ;
– äàííûå ìîãóò áûòü ñòðóêòóðèðîâàííûìè, ñëàáî-ñòðóêòóðèðîâàííûìè è íåñòðóêòóðèðîâàííûìè;
– èñïîëüçîâàíèå òðàäèöèîííûõ ðåøåíèé äëÿ àíàëèòè÷åñêîé îáðàáîòêè äàííûõ â ðåàëüíîì
âðåìåíè èëè äëÿ îðãàíèçàöèè õðàíèëèù äàííûõ ðåøåíèé íå ïîäõîäèò äëÿ àíàëèçà äàííûõ.
Ñìûñë êîíöåïöèè «áîëüøèõ äàííûõ» – â ïîëó÷åíèè ñîâåðøåííî íîâûõ çíàíèé èç ðåçóëüòàòîâ âûÿâëåíèÿ ðàíåå íåçàìåòíûõ âçàèìîñâÿçåé äàííûõ èëè ïîèñêà íåî÷åâèäíûõ ôàêòîâ.
 êà÷åñòâå òàêèõ äàííûõ ìîãóò âûñòóïàòü:
– ïóáëèêàöèè (ñòàòüè, ìîíîãðàôèè, àíàëèòè÷åñêèå îáçîðû è ò. ï.);
– ðåçóëüòàòû íàó÷íî-òåõíè÷åñêîé äåÿòåëüíîñòè (ÍÒÄ) (îò÷åòû î ÍÈÐ, ïàòåíòû, íîó-õàó,
è ò. ï.);
– èíôîðìàöèÿ ñïåöèàëèçèðîâàííûõ áàç äàííûõ;
– êîììåíòàðèè íà âåá-ñàéòàõ, ôîðóìàõ, â ñîöèàëüíûõ ñåòÿõ;
– äðóãèå èñòî÷íèêè.
Îñíîâíîå îòëè÷èå òðàäèöèîííûõ ñðåäñòâ áèçíåñ-àíàëèòèêè (àíàëèòè÷åñêàÿ îáðàáîòêà äàííûõ â ðåàëüíîì âðåìåíè, òåõíîëîãèè Data Mining) îò òåõíîëîãèé «áîëüøèõ äàííûõ» çàêëþ÷àåòñÿ â òîì, ÷òî îíè èñïîëüçóþò ïðåèìóùåñòâåííî ñòðóêòóðèðîâàííûå äàííûå. Ïðîáëåìà çàêëþ÷àåòñÿ â òîì, ÷òî â íàñòîÿùåå âðåìÿ îãðîìíûå îáúåìû èíôîðìàöèè ñóùåñòâóþò â íåñòðóêòóðèðîâàííîì âèäå. Ê òàêèì äàííûì ìîæíî îòíåñòè ôàéëû ðàçëè÷íûõ ôîðìàòîâ (ôîòî, àóäèî
è âèäåî, ýëåêòðîííàÿ ïî÷òà), ñîîáùåíèÿ (ñëóæáû ìãíîâåííûõ ñîîáùåíèé, ñîöèàëüíûå ñåòè,
ôîðóìû è áëîãè) è ò. ä. Íåñòðóêòóðèðîâàííûå äàííûå, â îòëè÷èå îò ñòðóêòóðèðîâàííûõ, íå
èìåþò íè èçâåñòíûõ òèïîâ àòðèáóòîâ (íàïðèìåð, Integer, Character), íè íàçíà÷åíèÿ (íàïðèìåð,
Salary, ZipCode), îíè íåîäíîçíà÷íû è ìîãóò ñîäåðæàòü ðàçëè÷íûé ñìûñë â çàâèñèìîñòè îò
êîíòåêñòà. Íàïðèìåð, â ôðàçå «Tom Brown has brown eyes» âñòðå÷àþùååñÿ äâà ðàçà ñëîâî
«brown» èìååò ðàçíûé êîíòåêñò, è êîìïüþòåðíûå ïðîãðàììû äîëæíû áûòü ñïîñîáíû îáíàðóæèâàòü òàêèå ðàçëè÷èÿ. Êðîìå òîãî, òàêèå äàííûå ÷àñòî íîñÿò ñóáúåêòèâíûé õàðàêòåð.
Âñå ýòî çàòðóäíÿåò îáðàáîòêó íåñòðóêòóðèðîâàííîé èíôîðìàöèè òðàäèöèîííûìè ñðåäñòâàìè. Äëÿ òîãî, ÷òîáû èñïîëüçîâàòü â íèõ íåñòðóêòóðèðîâàííûå äàííûå, íåîáõîäèìî ñíà÷àëà ïðåîáðàçîâàòü èõ â ñòðóêòóðèðîâàííûå.
Ñëåäóåò äîáàâèòü, ÷òî íåñìîòðÿ íà âíåøíþþ ñõîæåñòü çàäà÷ áèçíåñ-àíàëèòèêè è àíàëèòè÷åñêèõ ðåøåíèé «áîëüøèõ äàííûõ», ìåæäó íèìè ñóùåñòâóþò ñåðüåçíûå ðàçëè÷èÿ. Àíàëèòèêè êîìïàíèè O’Reilly Radar âûäåëÿþò òðè îòëè÷èÿ [10]: «áîëüøèå äàííûå» ïðåäíàçíà÷åíû äëÿ îáðàáîòêè áîëåå çíà÷èòåëüíûõ ìàññèâîâ äàííûõ; «áîëüøèå äàííûå» ïðåäíàçíà÷åíû äëÿ îáðàáîòêè áîëåå áûñòðî ïîëó÷àåìûõ è ìåíÿþùèõñÿ ñâåäåíèé è òðåáóþò èíòåðàêòèâíîñòè; «áîëüøèå äàííûå» èçíà÷àëüíî íåñòðóêòóðèðîâàíû è òðåáóþò èíòåðïðåòàöèè è
î÷èñòêè.
 çàêëþ÷åíèå îòìåòèì, ÷òî àæèîòàæ âîêðóã ìîäíîé â 2012 ã. òåìû «áîëüøèõ äàííûõ»
ïîíåìíîãó èäåò íà óáûëü, ÷òî îçíà÷àåò ïðèáëèæåíèå ïåðèîäà çðåëîñòè äàííîé òåõíîëîãèè.
Óæå ñåãîäíÿ âñåìèðíî èçâåñòíûå è íèøåâûå âåíäîðû ïðåäëàãàþò ðåøåíèÿ â äàííîé îáëàñòè. Ýòè ðåøåíèÿ ñóùåñòâåííî ñîêðàùàþò äîëþ «ðó÷íîãî òðóäà» ïðè îáðàáîòêå ìàññèâîâ
èíôîðìàöèè â çàäà÷àõ àíàëèçà, ïðîãíîçà è ýêñïåðòèçû â íàó÷íî-òåõíè÷åñêîé ñôåðå, ïîçâîëÿþò óëó÷øèòü êà÷åñòâî è äîñòîâåðíîñòü ïîëó÷àåìûõ ðåçóëüòàòîâ.
Ïðåäñòàâëÿåòñÿ öåëåñîîáðàçíûì â áëèæàéøåå âðåìÿ íà÷àòü ðàáîòû ïî ðåàëèçàöèè ïèëîòíîãî ïðîåêòà ïî ïðèìåíåíèþ òåõíîëîãèé îáðàáîòêè «áîëüøèõ äàííûõ» â èíòåðåñàõ ïðîâåäåíèÿ ýêñïåðòíî-àíàëèòè÷åñêèõ èññëåäîâàíèé.
 ñòàòüå ïðèâåäåíû ðåçóëüòàòû, ïîëó÷åííûå ïðè âûïîëíåíèè ðàáîò
â ðàìêàõ Ãîñóäàðñòâåííîãî çàäàíèÿ 2015/Í7 Ìèíîáðíàóêè Ðîññèè.
122
Èííîâàòèêà è ýêñïåðòèçà. 2015. Âûïóñê 1 (14)
Ñïèñîê ëèòåðàòóðû
1. Ìàéåð-Øåíáåðãåð Â., Êóêüåð Ê. Áîëüøèå äàííûå. Ðåâîëþöèÿ, êîòîðàÿ èçìåíèò òî, êàê ìû æèâåì, ðàáîòàåì è ìûñëèì // Ìàíí, Èâàíîâ è Ôåðáåð, 2013.
2. Óàéò Ò. Hadoop. Ïîäðîáíîå ðóêîâîäñòâî // Ïèòåð, 2013.
3. Ïîòåíöèàë Áîëüøèõ Äàííûõ. Available at: http://polit.ru/article/2013/03/11/lobzovsky.
4. Ôðýíêñ Á. Óêðîùåíèå áîëüøèõ äàííûõ. Êàê èçâëåêàòü çíàíèÿ èç ìàññèâîâ èíôîðìàöèè ñ
ïîìîùüþ ãëóáîêîé àíàëèòèêè // Ìàíí, Èâàíîâ è Ôåðáåð, 2014.
5. Øèëèíà Ì.Ã. Data-êîììóíèêàöèÿ êàê íîâûé ôîðìàò âçàèìîäåéñòâèÿ â ïóáëè÷íîì ïðîñòðàíñòâå //
Áèçíåñ. Îáùåñòâî. Âëàñòü, 2014. ¹ 19, c. 91–98.
6. Hype Cycle for Emerging Technologies. Available at: http://www.gartner.com/newsroom/id/2819918.
7. Áåëîóñîâ Â.Ë., Äåãòÿðåâ Þ.È., Ñåðãååâ Ì.Â. Êîíöåïòóàëüíûå îñíîâû ôîðìèðîâàíèÿ ìíîãîîòðàñëåâîé ñèñòåìû ãîñóäàðñòâåííîé ýêñïåðòèçû // Àâòîìàòèçàöèÿ è ñîâðåìåííûå òåõíîëîãèè, 2013.
¹ 6, c. 30–38.
8. Âèêóëîâ Î.Â., Áóõàðèí Ñ.Í., Äèâóåâà Í.À. Òèïîâîé òåõíîëîãè÷åñêèé ïðîöåññ ïðîâåäåíèÿ íàó÷íî-òåõíè÷åñêîé ýêñïåðòèçû, ðåàëèçîâàííûé â ÔÃÁÍÓ ÍÈÈ ÐÈÍÊÖÝ // Èííîâàòèêà è ýêñïåðòèçà,
2014, ¹ 2 (13), c. 101–114.
9. Ëèòâàê Á.Ã. Ýêñïåðòíàÿ èíôîðìàöèÿ. Ìåòîäû ïîëó÷åíèÿ è àíàëèçà. Ì. 2009.
10. Slocum M. Big data goes to work // O’Reilly Rada. Available at: http://radar.oreilly.com/2011/11/bigdata-business-enterprise.html#disqus_thread.
References
1. Meyer-Shenberger V., Kukier K. (2013) Bol’shie dannye. Revolyutsiya, kotoraya izmenit to, kak my
zhivem, rabotaem i myslim [Big Data. A revolution that will change the way we live, work and think]. Mann,
Ivanov i Ferber [Mann, Ivanov and Ferber].
2. White T. (2013) Hadoop. Podrobnoe rukovodstvo [Hadoop. Detailed manual]. Piter [Peter].
3 Potentsial Bol’shikh Dannykh [The Potential Of Big Data]. Available at: http://polit.ru/article/2013/03/11/
lobzovsky.
4. Franks B. (2014) Ukroshchenie bol’shikh dannykh. Kak izvlekat’ znaniya iz massivov informatsii s pomoshch’yu glubokoy analitiki [Taming big data. How to extract knowledge from data arrays using deep analytics].
Mann, Ivanov i Ferber [Mann, Ivanov and Ferber].
5. Shilina M.G. (2014) Data-kommunikatsiya kak novyy format vzaimodeystviya v publichnom prostranstve
[Data-communication as a new format of interaction in the public space]. Biznes. Obshchestvo. Vlast’ [Business.
Society. Power], no. 19, pp. 91–98.
6. Hype Cycle for Emerging Technologies. Available at: http://www.gartner.com/newsroom/id/2819918.
7. Beloussov V.L., Degtyarev Y.I., Sergeev M.V. (2013) Kontseptual’nye osnovy formirovaniya mnogo-otraslevoy
sistemy gosudarstvennoy ekspertizy [Conceptual bases of formation of a diversified system of state expert examination].
Avtomatizatsiya i sovremennye tekhnologii [Automation and modern technologies], no. 6, pp. 30–38.
8. Vikulov O.V., Bukharin S.N., Divuyeva N.A. (2014) Tipovoy tekhnologicheskiy protsess provedeniya nauchnotekhnicheskoy ekspertizy, realizovannyy v FGBNU NII RINKTsE [Typical technological process of conducting
scientific and technological expert examination, implemented SRI FRCEC]. Innovatika i ekspertiza [Innovation
and assessment], no. 2 (13), pp. 101–114.
9. Litvak B.G. (2009) Ekspertnaya informatsiya. Metody polucheniya i analiza [Expert information. Methods
of preparation and analysis]. Moscow.
10. Slocum M. Big data goes to wor. O’Reilly Radar. Available at: http://radar.oreilly.com/2011/11/bigdata-business-enterprise.html#disqus_thread.
123
Скачать