Èííîâàòèêà è ýêñïåðòèçà. 2015. Âûïóñê 1 (14) ЭКСПЕРТИЗА И АНАЛИТИЧЕСКАЯ ДЕЯТЕЛЬНОСТЬ О ПРИМЕНЕНИИ ТЕХНОЛОГИЙ «БОЛЬШИХ ДАННЫХ» В ИНФОРМАЦИОННОЙ СИСТЕМЕ ФЕДЕРАЛЬНОГО РЕЕСТРА ЭКСПЕРТОВ НАУЧНО-ТЕХНИЧЕСКОЙ СФЕРЫ МИНОБРНАУКИ РОССИИ Å.À. Ìàðûøåâ, çàì. äèð. öåíòðà ÔÃÁÍÓ ÍÈÈ ÐÈÍÊÖÝ êàíä. òåõí. íàóê, [email protected] Ì.Â. Ñåðãååâ, ãë. íàó÷í. ñîòð. ÔÃÁÍÓ ÍÈÈ ÐÈÍÊÖÝ, [email protected] Ñòàòüÿ ïîñâÿùåíà îöåíêå âîçìîæíîãî èñïîëüçîâàíèÿ òåõíîëîãèé áîëüøèõ äàííûõ äëÿ ðåøåíèÿ çàäà÷ ãîñóäàðñòâåííîé íàó÷íîé è íàó÷íî-òåõíè÷åñêîé ýêñïåðòèçû. Ïðîâåäåí îáçîð çàäà÷ ýêñïåðòèçû â íàó÷íîé íàó÷íî-òåõíè÷åñêîé ñôåðå, äëÿ êîòîðûõ öåëåñîîáðàçíî ïðèìåíåíèå äàííûõ òåõíîëîãèé. Ñäåëàí âûâîä î òîì, ÷òî òåõíîëîãèè áîëüøèõ äàííûõ ìîãóò ñòàòü ðåàëüíûì èíñòðóìåíòîì ïîâûøåíèÿ ýôôåêòèâíîñòè ïðèíÿòèÿ ðåøåíèé â ñôåðå óïðàâëåíèÿ íàó÷íî-òåõíîëîãè÷åñêèì êîìïëåêñîì Ðîññèè, îáåñïå÷èâàÿ ðóêîâîäÿùèå îðãàíû áîëåå êà÷åñòâåííîé è äîñòîâåðíîé íàó÷íî-àíàëèòè÷åñêîé èíôîðìàöèåé, ïîëó÷åííîé ñ ïîìîùüþ ýêñïåðòíîãî ñîîáùåñòâà. Êëþ÷åâûå ñëîâà: íàó÷íàÿ è íàó÷íî-òåõíè÷åñêàÿ ýêñïåðòèçà, áîëüøèå äàííûå, Big Data, íåñòðóêòóðèðîâàííûå äàííûå. ON THE APPLICATION OF «BIG DATA» TECHNOLOGIES IN THE INFORMATION SYSTEM OF FEDERAL ROSTER EXPERTS OF SCIENTIFIC AND TECHNICAL SPHERE OF MINISTRY OF EDUCATION AND SCIENCE OF RUSSIA E.A. Marishev, Deputy Head of Centre, SRI FRCEC, Doctor of Engineering, [email protected] M.V. Sergeev, Chief Researcher, SRI FRCEC, [email protected] The article evaluates the possible use of big data technologies to solve problems and the state of scientific and technological expert examination. The article presents a review of expert examination tasks in scientific and scientific-technological sphere, where the appropriate application of these technologies is necessary. The article concludes that big data technologies can become a real tool for improving the effectiveness of decision making in the management of scientific-technological complex of Russia, providing the governing bodies of higher quality and accurate scientific-analytical information obtained by the expert community. Keywords: the scientific and technological expert examination, Big Data, unstructured data. Òåõíîëîãèè «áîëüøèõ äàííûõ», íåñìîòðÿ íà òî, ÷òî íàõîäÿòñÿ íà íà÷àëüíîì ýòàïå ñâîåãî ðàçâèòèÿ, óâåðåííî çàâîåâûâàþò ïîïóëÿðíîñòü â ìèðå. Êàê îäíî èç êëþ÷åâûõ íàïðàâëåíèé êîìïüþòåðíîé íàóêè, îíè, íåñîìíåííî, îêàçûâàþò îãðîìíîå âëèÿíèå íà âñå íàïðàâëåíèÿ ðàçâèòèÿ âûñîêîòåõíîëîãè÷åñêîãî ñåêòîðà è áûñòðî ñòàíîâÿòñÿ ÷àñòüþ íàøåé ïîâñåäíåâíîé æèçíè. Ñóùåñòâóåò ìíîæåñòâî îïðåäåëåíèé òåðìèíà «áîëüøèå äàííûå», òåì íå ìåíåå, âñå îíè ïîäðàçóìåâàþò, ÷òî ýòî ïîäõîäû, èíñòðóìåíòû, ìåòîäû äëÿ îáðàáîòêè îãðîìíûõ è íåïðåðûâíî ðàñòóùèõ îáúåìîâ äàííûõ, ðàçíîîáðàçíûõ ïî ñòðóêòóðå è èñòî÷íèêàì, ïîçâîëÿþùèå ñóùåñòâåííî ïîâûñèòü ýôôåêòèâíîñòü õðàíåíèÿ, óïðàâëåíèÿ ïîòîêàìè, àíàëèçà èíôîðìàöèè. Äðóãèìè ñëîâàìè, òåõíîëîãèÿ «áîëüøèõ äàííûõ» èìååò òðè îòëè÷èòåëüíûõ ïðèçíàêà, ÷àñòî îáî118 Èííîâàòèêà è ýêñïåðòèçà. 2015. Âûïóñê 1 (14) çíà÷àåìûõ êàê «òðè V »: volume (àíàëèçèðóþòñÿ ìàññèâû äàííûõ îáúåìîì â äåñÿòêè òåðàáàéò), velocity (íàêîïëåíèå è îáðàáîòêà äàííûõ èäóò ñ âûñîêîé ñêîðîñòüþ), variety (âàðèàòèâíîñòü – îáðàáàòûâàþòñÿ äàííûå ñàìûõ ðàçíûõ òèïîâ èç îäíîãî èëè íåñêîëüêèõ èñòî÷íèêîâ) [1]. Îäíîé èç êëþ÷åâûõ òåõíîëîãèé, îòíîñÿùèõñÿ ê îáðàáîòêå «áîëüøèõ äàííûõ», ÿâëÿåòñÿ ïëàòôîðìà Hadoop ñ îòêðûòûì èñõîäíûì êîäîì, ïîçâîëÿþùàÿ îáðàáàòûâàòü îãðîìíûå ìàññèâû äàííûõ â ðàñïðåäåëåííîé ñðåäå [2]. Hadoop ïîçâîëÿåò íå òîëüêî ñîêðàòèòü âðåìÿ íà îáðàáîòêó è ïîäãîòîâêó äàííûõ äëÿ àíàëèòè÷åñêèõ ñèñòåì, íî è ñóùåñòâåííî ðàñøèðÿåò âîçìîæíîñòè ïî àíàëèçó, ïîçâîëÿÿ îïåðèðîâàòü ñëàáîñòðóêòóðèðîâàííûìè èëè íåñòðóêòóðèðîâàííûìè äàííûìè. Ïëàòôîðìà àêòèâíî ðàçâèâàåòñÿ, ìíîãèå èçíà÷àëüíî ñâÿçàííûå ñ íåé ïðîåêòû è òåõíîëîãèè âïîñëåäñòâèè ñòàëè ñàìîñòîÿòåëüíûìè. Ìíîãèå ïðåäñòàâèòåëè íàó÷íîãî ñîîáùåñòâà è áèçíåñà îòìå÷àþò çíà÷èòåëüíûé ïîòåíöèàë «áîëüøèõ äàííûõ» êàê ñòèìóëà èííîâàöèé, äâèãàòåëÿ ïðîãðåññà è òîðãîâëè [3, 4, 5], ïîëàãàÿ, ÷òî òàêèå òåõíîëîãèè ìîãóò èçìåíèòü ìåòîäû íàó÷íûõ èññëåäîâàíèé è îðãàíèçàöèè áèçíåñà, îáåñïå÷èâ áîëåå îïåðàòèâíûå è òî÷íûå àíàëèòè÷åñêèå äåéñòâèÿ äëÿ ïðèíÿòèÿ áîëåå ïðîäóìàííûõ ðåøåíèé. Ïåðñïåêòèâû ðàçâèòèÿ «áîëüøèõ äàííûõ» â áëèæàéøèå ãîäû ïîçèòèâíî îöåíèâàþòñÿ â èññëåäîâàíèè êîìïàíèè IDC «Ãëîáàëüíûé ðûíîê òåõíîëîãèé è ñåðâèñîâ, ñâÿçàííûõ ñ “Áîëüøèìè äàííûìè”, ïðîãíîç íà 2013–2017 ãîäû». Àâòîðû óâåðåíû, ÷òî «áîëüøèå äàííûå» è ñâÿçàííûé ñ íèìè ðûíîê ïîêàæåò ðîñò, â øåñòü ðàç ïðåâûøàþùèé ðàçâèòèå ðûíêà òðàäèöèîííûõ èíôîðìàöèîííûõ è òåëåêîììóíèêàöèîííûõ òåõíîëîãèé. Ïî ïðîãíîçàì êîìàíäû àíàëèòèêîâ IDC, ê 2017 ã. îáúåì ðûíêà «áîëüøèõ äàííûõ» äîñòèãíåò 32,4 ìëðä äîëë. ÑØÀ.  àâãóñòå 2014 ã. êîìïàíèÿ Gartner âûïóñòèëà åæåãîäíûé «Öèêë çðåëîñòè íîâûõ òåõíîëîãèé» [6]. Ïî ìíåíèþ àíàëèòèêîâ êîìïàíèè, òåõíîëîãèè «áîëüøèõ äàííûõ» óæå ïðîøëè «ïèê çàâûøåííûõ îæèäàíèé» (Peak of Inflated Expectation) è â íàñòîÿùåå âðåìÿ ïåðåìåùàþòñÿ â ñòîðîíó «âïàäèíû ðàçî÷àðîâàíèÿ» (Trough of Disillusionment). Ýòîò ïðîöåññ ïðîèñõîäèò äîâîëüíî áûñòðî, òàê êàê ñîãëàñîâàííûé ïîäõîä ê ýòîé òåõíîëîãèè óæå ñëîæèëñÿ, è áîëüøèíñòâî íîâûõ äîñòèæåíèé íîñÿò õàðàêòåð «äîáàâîê», à íå ðåâîëþöèîííûõ ïåðåìåí. Òåì íå ìåíåå, ìíîãèå ýêñïåðòû ïîëàãàþò, ÷òî íè÷åãî ñòðàøíîãî ñ «áîëüøèìè äàííûìè» íå ïðîèñõîäèò – ñåé÷àñ èìååò ìåñòî îïðåäåëåííîå ðàçî÷àðîâàíèå ñðåäè òåõ, êòî ïîääàëñÿ ïåðâîíà÷àëüíîé øóìèõå, íî â ïåðñïåêòèâå òåõíîëîãèþ æäåò âûõîä íà «ïëàòî ïðîäóêòèâíîñòè» (Plateau of Productivity). Ñ òî÷êè çðåíèÿ ðåàëèçàöèè íàó÷íî-òåõíè÷åñêîé è èííîâàöèîííîé ïîëèòèêè ñîâðåìåííîé Ðîññèè òåõíîëîãèè «áîëüøèõ äàííûõ» ìîãóò ñòàòü ðåàëüíûì èíñòðóìåíòîì ïîâûøåíèÿ ýôôåêòèâíîñòè ïðèíÿòèÿ ðåøåíèé â ñôåðå óïðàâëåíèÿ íàó÷íî-òåõíîëîãè÷åñêèì êîìïëåêñîì ãîñóäàðñòâà ïóòåì îáåñïå÷åíèÿ ðóêîâîäÿùèõ îðãàíîâ áîëåå êà÷åñòâåííîé è äîñòîâåðíîé íàó÷íî-àíàëèòè÷åñêîé èíôîðìàöèåé, ïîëó÷åííîé ñ ïîìîùüþ ýêñïåðòíîãî ñîîáùåñòâà. Ðàññìîòðèì âîïðîñ öåëåñîîáðàçíîñòè èñïîëüçîâàíèÿ òåõíîëîãèé «áîëüøèõ äàííûõ» â ïðîöåäóðàõ íàó÷íîé è íàó÷íî-òåõíè÷åñêîé ýêñïåðòèçû. Ïðåæäå âñåãî ñëåäóåò îòìåòèòü, ÷òî åäèíîé çàêîíîäàòåëüíîé è íîðìàòèâíîé ïðàâîâîé áàçû ýêñïåðòèçû è ýêñïåðòíîé äåÿòåëüíîñòè â íàó÷íî-òåõíè÷åñêîé ñôåðå â íàñòîÿùåå âðåìÿ íå ñóùåñòâóåò [7]. Ó÷àñòíèêè ýêñïåðòíîãî ïðîöåññà ðóêîâîäñòâóþòñÿ ïîëîæåíèÿìè Ôåäåðàëüíîãî çàêîíà «Î íàóêå è ãîñóäàðñòâåííîé íàó÷íî-òåõíè÷åñêîé ïîëèòèêå» (îò 23 àâãóñòà 1996 ã. ¹ 127-ÔÇ). Êðîìå òîãî, îòíîøåíèÿ, âîçíèêàþùèå â ñâÿçè ñ íàçíà÷åíèåì è ïðîâåäåíèåì íàó÷íîé è íàó÷íî-òåõíè÷åñêîé ýêñïåðòèçû, ðåãóëèðóþòñÿ ìîäåëüíûì çàêîíîì «Î íàó÷íîé è íàó÷íî-òåõíè÷åñêîé ýêñïåðòèçå», ïðèíÿòûì Ìåæïàðëàìåíòñêîé àññàìáëååé ãîñóäàðñòâó÷àñòíèêîâ ÑÍà â íîÿáðå 2003 ã.  ñîîòâåòñòâèè ñ òðåáîâàíèÿìè Ôåäåðàëüíîãî çàêîíà «Î òåõíè÷åñêîì ðåãóëèðîâàíèè» (îò 27 äåêàáðÿ 2002 ã. ¹ 184-ÔÇ), â ÔÃÁÍÓ ÍÈÈ ÐÈÍÊÖÝ ñîçäàí òèïîâîé òåõíîëîãè÷åñêèé ïðîöåññ ýêñïåðòèçû â âèäå ñòàíäàðòà îðãàíèçàöèè (ÑÒÎ), îòâå÷àþùèé ñîâðåìåííûì òðåáîâàíèÿì ê îðãàíèçàöèè è ïðîâåäåíèþ ãîñóäàðñòâåííîé ýêñïåðòèçû â ñôåðå íàóêè [8]. Òèïîâàÿ ìîäåëü ìåõàíèçìà ãîñóäàðñòâåííîé íàó÷íîé è íàó÷íî-òåõíè÷åñêîé ýêñïåðòèçû ïðåäñòàâëåíà íà ðèñ 2. 119 Èííîâàòèêà è ýêñïåðòèçà. 2015. Âûïóñê 1 (14) Big Data (Большие данные) Источник: Gartner, 2014 Ðèñ. 1. Öèêë çðåëîñòè íîâûõ òåõíîëîãèé (Hype Cycle) ïî ñîñòîÿíèþ íà àâãóñò 2014 ã. ɶʲˊʲ˄ˣˆˊˆ ʶ˓˖˙ʹʲ˕˖˘ʵʺˑˑ˓ˇ ˫ˊ˖˔ʺ˕˘ˆ˄˩ ʵ ˖˟ʺ˕ʺ ˑʲ˙ˊˆ ʅʴ˨ʺˊ˘ ˫ˊ˖˔ʺ˕˘ˆ˄˩ ʊˆ˔˓ʵ˓ˇ ˘ʺˠˑ˓ˏ˓ʶˆˣʺ˖ˊˆˇ ˔˕˓ˢʺ˖˖ ˫ˊ˖˔ʺ˕˘ˆ˄˩ ʵ ˖˟ʺ˕ʺ ˑʲ˙ˊˆ ʅ˕ʶʲˑˆ˄ʲ˘˓˕ ʶ˓˖˙ʹʲ˕˖˘ʵʺˑˑ˓ˇ ˫ˊ˖˔ʺ˕˘ˆ˄˩ (ʃɸɸ ʇɸʃɼʔʝ) ʑʺʹʺ˕ʲˏ˪ˑ˩ˇ ˕ʺʺ˖˘˕ ˫ˊ˖˔ʺ˕˘˓ʵ ˑʲ˙ˣˑ˓˘ʺˠˑˆˣʺ˖ˊ˓ˇ ˖˟ʺ˕˩ ʂˆˑ˓ʴ˕ˑʲ˙ˊˆ ʇ˓˖˖ˆˆ ʝˊ˖˔ʺ˕˘ˑ˓ʺ ˄ʲˊˏ˭ˣʺˑˆʺ Ðèñ. 2. Ìîäåëü ìåõàíèçìà ãîñóäàðñòâåííîé íàó÷íîé è íàó÷íî-òåõíè÷åñêîé ýêñïåðòèçû 120 Èííîâàòèêà è ýêñïåðòèçà. 2015. Âûïóñê 1 (14) Êàê ñëåäóåò èç ðèñ. 2, îáúåêò ýêñïåðòèçû, ñôîðìèðîâàííûé çàêàç÷èêîì ýêñïåðòèçû, ïîñòóïàåò îðãàíèçàòîðó ãîñóäàðñòâåííîé ýêñïåðòèçû – ÔÃÁÍÓ ÍÈÈ ÐÈÍÊÖÝ. Ãîñóäàðñòâåííàÿ íàó÷íàÿ è íàó÷íî-òåõíè÷åñêàÿ ýêñïåðòèçà ïðåäñòàâëåííîãî îáúåêòà ýêñïåðòèçû îðãàíèçóåòñÿ ïîñëå ïîäáîðà ýêñïåðòîâ, â ÷àñòíîñòè, èç Ôåäåðàëüíîãî ðååñòðà ýêñïåðòîâ íàó÷íî-òåõíè÷åñêîé ñôåðû Ìèíîáðíàóêè Ðîññèè (äàëåå – ÔÐÝ), ñ èñïîëüçîâàíèåì òèïîâîãî òåõíîëîãè÷åñêîãî ïðîöåññà ýêñïåðòèçû â ñôåðå íàóêè. Ñôîðìèðîâàííîå ýêñïåðòàìè ýêñïåðòíîå çàêëþ÷åíèå ïîñëå ðàññìîòðåíèÿ åãî ðóêîâîäñòâîì ÍÈÈ ÐÈÍÊÖÝ íàïðàâëÿåòñÿ çàêàç÷èêó. Òèïîâîé òåõíîëîãè÷åñêèé ïðîöåññ ýêñïåðòèçû ïðåäóñìàòðèâàåò ñëåäóþùèå ïðîöåäóðû: – ïðèåì è ðåãèñòðàöèÿ äîêóìåíòîâ íà îáúåêò, ïîäëåæàùèé ýêñïåðòèçå; – ðåçîëþöèÿ (ðåøåíèå) ðóêîâîäñòâà î ïðîâåäåíèè ýêñïåðòèçû; – ôîðìèðîâàíèå ïàêåòà äîêóìåíòîâ äëÿ ýêñïåðòèçû, â òîì ÷èñëå òèðàæèðîâàíèå ìàòåðèàëîâ; – èçó÷åíèå, êëàññèôèêàöèÿ è àíàëèç îáúåêòà ýêñïåðòèçû; – ôîðìèðîâàíèå òåõíè÷åñêîãî çàäàíèÿ íà ýêñïåðòèçó; – ïðîâåäåíèå èíôîðìàöèîííîãî ïîèñêà; – ïîäáîð ýêñïåðòîâ (èç ÷èñëà àêêðåäèòîâàííûõ â ÔÐÝ) è ôîðìèðîâàíèå ýêñïåðòíûõ ïóëîâ; – ïðîâåäåíèå ýêñïåðòèçû â èíôîðìàöèîííîé ñèñòåìå ÔÐÝ (reestr.extech.ru) è ôîðìèðîâàíèå ýêñïåðòíîãî çàêëþ÷åíèÿ; – îáðàáîòêà ýêñïåðòíûõ çàêëþ÷åíèé; – ïîäãîòîâêà è ñîãëàñîâàíèå çàêëþ÷åíèÿ ãîñóäàðñòâåííîé ýêñïåðòèçû. – àðõèâàöèÿ ìàòåðèàëîâ; – îòïðàâêà ìàòåðèàëîâ ýêñïåðòèçû çàêàç÷èêó. Ñ öåëüþ îïðåäåëåíèÿ öåëåñîîáðàçíîñòè ïðèìåíåíèÿ òåõíîëîãèé «áîëüøèõ äàííûõ», áîëåå ïîäðîáíî ðàññìîòðèì îòäåëüíûå ïðîöåäóðû òåõíîëîãè÷åñêîãî ïðîöåññà ýêñïåðòèçû.  õîäå èçó÷åíèÿ, êëàññèôèêàöèè è àíàëèçà îáúåêòà ýêñïåðòèçû íåîáõîäèìî, â ÷àñòíîñòè, óñòàíîâèòü ñîñòàâ è çíà÷åíèÿ åãî êëàññèôèêàöèîííûõ ïðèçíàêîâ, òàêèõ êàê ïðèíàäëåæíîñòü ê íàó÷íî-òåõíè÷åñêîé ïðîäóêöèè, ê ïðåäìåòíîé îáëàñòè çíàíèé; âûÿâèòü âîçìîæíûå ôàêòû óæå ñóùåñòâóþùåãî ôèíàíñèðîâàíèÿ äàííîãî îáúåêòà è ïîâòîðíîñòè ïîñòóïëåíèÿ åãî íà ýêñïåðòèçó. Ïðîâåäåíèå ïðåäâàðèòåëüíîãî èíôîðìàöèîííîãî ïîèñêà ïî òåìàòèêå îáúåêòà ýêñïåðòèçû îñóùåñòâëÿåòñÿ â áàçàõ äàííûõ îáùåãî äîñòóïà, ñëóæåáíûõ áàçàõ äàííûõ, ëîêàëüíîì àðõèâå, óäàëåííûõ èñòî÷íèêàõ. Ïðîöåäóðà ïîäáîðà ýêñïåðòîâ íåôîðìàëèçîâàíà, âåñüìà îòâåòñòâåííà è ñîñòîèò â âûÿâëåíèè íåçàâèñèìûõ êîìïåòåíòíûõ ýêñïåðòîâ ïî óçêîé òåìàòèêå îáúåêòà ýêñïåðòèçû. Îòìåòèì, ÷òî ñóùåñòâóþùèå â íàñòîÿùåå âðåìÿ ïîäõîäû ê äàííîé ïðîáëåìå ÷àñòî îñíîâàíû íà ñóáúåêòèâíûõ ñóæäåíèÿõ èëè ðåçóëüòàòàõ ïñèõîëîãè÷åñêèõ è ñîöèàëüíûõ èññëåäîâàíèé. Äðóãèå ìåòîäû, èñïîëüçóþùèå, íàïðèìåð, îöåíêè íåïðîòèâîðå÷èâîñòè ñóæäåíèé ýêñïåðòà [9], ñëîæíû â ðåàëèçàöèè òðàäèöèîííûìè ñðåäñòâàìè, òàê êàê ïðåäïîëàãàþò îáðàáîòêó äàííûõ îáøèðíûõ àðõèâîâ, ñîäåðæàùèõ çàêëþ÷åíèÿ îöåíèâàåìûõ ýêñïåðòîâ. Îñîáåííîñòü ïðîâåäåíèÿ ýêñïåðòèçû ñîñòîèò â òîì, ÷òî çàêëþ÷åíèå ôîðìèðóåòñÿ íà îñíîâå ñóáúåêòèâíûõ îöåíîê ýêñïåðòà. Ïîýòîìó äëÿ ïðèíÿòèÿ îáúåêòèâíîãî ðåøåíèÿ åìó íåîáõîäèìî ïðîàíàëèçèðîâàòü è ïåðåðàáîòàòü áîëüøîé îáúåì èíôîðìàöèè, ó÷èòûâàÿ âëèÿíèå ðàçëè÷íûõ ôàêòîðîâ è îöåíèâ âåðîÿòíûå ïîñëåäñòâèÿ òîãî èëè èíîãî ðåøåíèÿ. Ñëåäóåò òàêæå îòìåòèòü, ÷òî ýêñïåðòû ÔÐÝ ïðèâëåêàþòñÿ íå òîëüêî äëÿ ïðîâåäåíèÿ ãîñóäàðñòâåííîé íàó÷íîé è íàó÷íî-òåõíè÷åñêîé ýêñïåðòèçû. Îíè àêòèâíî ó÷àñòâóþò â ïîäãîòîâêå èíôîðìàöèîííî-àíàëèòè÷åñêèõ ìàòåðèàëîâ î ñîñòîÿíèè è ïåðñïåêòèâàõ ðàçâèòèÿ ðîññèéñêîé è çàðóáåæíîé ñôåð èññëåäîâàíèé, ðàçðàáîòîê è èííîâàöèîííîé äåÿòåëüíîñòè. 121 Èííîâàòèêà è ýêñïåðòèçà. 2015. Âûïóñê 1 (14) Âñå âûøåïåðå÷èñëåííûå ïðîöåäóðû íàó÷íîé è íàó÷íî-òåõíè÷åñêîé ýêñïåðòèçû èìåþò ðÿä îñîáåííîñòåé, ïðèìåíèìûõ ê òåðìèíó «áîëüøèå äàííûå»: – çíà÷èòåëüíûå îáúåìû äàííûõ, ðàñïîëîæåííûå íà ìíîæåñòâå ðàçíûõ êîìïüþòåðîâ; – äàííûå ñëèøêîì áîëüøèå äëÿ ðåçåðâíîãî êîïèðîâàíèÿ; – äàííûå ìîãóò áûòü ñòðóêòóðèðîâàííûìè, ñëàáî-ñòðóêòóðèðîâàííûìè è íåñòðóêòóðèðîâàííûìè; – èñïîëüçîâàíèå òðàäèöèîííûõ ðåøåíèé äëÿ àíàëèòè÷åñêîé îáðàáîòêè äàííûõ â ðåàëüíîì âðåìåíè èëè äëÿ îðãàíèçàöèè õðàíèëèù äàííûõ ðåøåíèé íå ïîäõîäèò äëÿ àíàëèçà äàííûõ. Ñìûñë êîíöåïöèè «áîëüøèõ äàííûõ» – â ïîëó÷åíèè ñîâåðøåííî íîâûõ çíàíèé èç ðåçóëüòàòîâ âûÿâëåíèÿ ðàíåå íåçàìåòíûõ âçàèìîñâÿçåé äàííûõ èëè ïîèñêà íåî÷åâèäíûõ ôàêòîâ.  êà÷åñòâå òàêèõ äàííûõ ìîãóò âûñòóïàòü: – ïóáëèêàöèè (ñòàòüè, ìîíîãðàôèè, àíàëèòè÷åñêèå îáçîðû è ò. ï.); – ðåçóëüòàòû íàó÷íî-òåõíè÷åñêîé äåÿòåëüíîñòè (ÍÒÄ) (îò÷åòû î ÍÈÐ, ïàòåíòû, íîó-õàó, è ò. ï.); – èíôîðìàöèÿ ñïåöèàëèçèðîâàííûõ áàç äàííûõ; – êîììåíòàðèè íà âåá-ñàéòàõ, ôîðóìàõ, â ñîöèàëüíûõ ñåòÿõ; – äðóãèå èñòî÷íèêè. Îñíîâíîå îòëè÷èå òðàäèöèîííûõ ñðåäñòâ áèçíåñ-àíàëèòèêè (àíàëèòè÷åñêàÿ îáðàáîòêà äàííûõ â ðåàëüíîì âðåìåíè, òåõíîëîãèè Data Mining) îò òåõíîëîãèé «áîëüøèõ äàííûõ» çàêëþ÷àåòñÿ â òîì, ÷òî îíè èñïîëüçóþò ïðåèìóùåñòâåííî ñòðóêòóðèðîâàííûå äàííûå. Ïðîáëåìà çàêëþ÷àåòñÿ â òîì, ÷òî â íàñòîÿùåå âðåìÿ îãðîìíûå îáúåìû èíôîðìàöèè ñóùåñòâóþò â íåñòðóêòóðèðîâàííîì âèäå. Ê òàêèì äàííûì ìîæíî îòíåñòè ôàéëû ðàçëè÷íûõ ôîðìàòîâ (ôîòî, àóäèî è âèäåî, ýëåêòðîííàÿ ïî÷òà), ñîîáùåíèÿ (ñëóæáû ìãíîâåííûõ ñîîáùåíèé, ñîöèàëüíûå ñåòè, ôîðóìû è áëîãè) è ò. ä. Íåñòðóêòóðèðîâàííûå äàííûå, â îòëè÷èå îò ñòðóêòóðèðîâàííûõ, íå èìåþò íè èçâåñòíûõ òèïîâ àòðèáóòîâ (íàïðèìåð, Integer, Character), íè íàçíà÷åíèÿ (íàïðèìåð, Salary, ZipCode), îíè íåîäíîçíà÷íû è ìîãóò ñîäåðæàòü ðàçëè÷íûé ñìûñë â çàâèñèìîñòè îò êîíòåêñòà. Íàïðèìåð, â ôðàçå «Tom Brown has brown eyes» âñòðå÷àþùååñÿ äâà ðàçà ñëîâî «brown» èìååò ðàçíûé êîíòåêñò, è êîìïüþòåðíûå ïðîãðàììû äîëæíû áûòü ñïîñîáíû îáíàðóæèâàòü òàêèå ðàçëè÷èÿ. Êðîìå òîãî, òàêèå äàííûå ÷àñòî íîñÿò ñóáúåêòèâíûé õàðàêòåð. Âñå ýòî çàòðóäíÿåò îáðàáîòêó íåñòðóêòóðèðîâàííîé èíôîðìàöèè òðàäèöèîííûìè ñðåäñòâàìè. Äëÿ òîãî, ÷òîáû èñïîëüçîâàòü â íèõ íåñòðóêòóðèðîâàííûå äàííûå, íåîáõîäèìî ñíà÷àëà ïðåîáðàçîâàòü èõ â ñòðóêòóðèðîâàííûå. Ñëåäóåò äîáàâèòü, ÷òî íåñìîòðÿ íà âíåøíþþ ñõîæåñòü çàäà÷ áèçíåñ-àíàëèòèêè è àíàëèòè÷åñêèõ ðåøåíèé «áîëüøèõ äàííûõ», ìåæäó íèìè ñóùåñòâóþò ñåðüåçíûå ðàçëè÷èÿ. Àíàëèòèêè êîìïàíèè O’Reilly Radar âûäåëÿþò òðè îòëè÷èÿ [10]: «áîëüøèå äàííûå» ïðåäíàçíà÷åíû äëÿ îáðàáîòêè áîëåå çíà÷èòåëüíûõ ìàññèâîâ äàííûõ; «áîëüøèå äàííûå» ïðåäíàçíà÷åíû äëÿ îáðàáîòêè áîëåå áûñòðî ïîëó÷àåìûõ è ìåíÿþùèõñÿ ñâåäåíèé è òðåáóþò èíòåðàêòèâíîñòè; «áîëüøèå äàííûå» èçíà÷àëüíî íåñòðóêòóðèðîâàíû è òðåáóþò èíòåðïðåòàöèè è î÷èñòêè.  çàêëþ÷åíèå îòìåòèì, ÷òî àæèîòàæ âîêðóã ìîäíîé â 2012 ã. òåìû «áîëüøèõ äàííûõ» ïîíåìíîãó èäåò íà óáûëü, ÷òî îçíà÷àåò ïðèáëèæåíèå ïåðèîäà çðåëîñòè äàííîé òåõíîëîãèè. Óæå ñåãîäíÿ âñåìèðíî èçâåñòíûå è íèøåâûå âåíäîðû ïðåäëàãàþò ðåøåíèÿ â äàííîé îáëàñòè. Ýòè ðåøåíèÿ ñóùåñòâåííî ñîêðàùàþò äîëþ «ðó÷íîãî òðóäà» ïðè îáðàáîòêå ìàññèâîâ èíôîðìàöèè â çàäà÷àõ àíàëèçà, ïðîãíîçà è ýêñïåðòèçû â íàó÷íî-òåõíè÷åñêîé ñôåðå, ïîçâîëÿþò óëó÷øèòü êà÷åñòâî è äîñòîâåðíîñòü ïîëó÷àåìûõ ðåçóëüòàòîâ. Ïðåäñòàâëÿåòñÿ öåëåñîîáðàçíûì â áëèæàéøåå âðåìÿ íà÷àòü ðàáîòû ïî ðåàëèçàöèè ïèëîòíîãî ïðîåêòà ïî ïðèìåíåíèþ òåõíîëîãèé îáðàáîòêè «áîëüøèõ äàííûõ» â èíòåðåñàõ ïðîâåäåíèÿ ýêñïåðòíî-àíàëèòè÷åñêèõ èññëåäîâàíèé.  ñòàòüå ïðèâåäåíû ðåçóëüòàòû, ïîëó÷åííûå ïðè âûïîëíåíèè ðàáîò â ðàìêàõ Ãîñóäàðñòâåííîãî çàäàíèÿ 2015/Í7 Ìèíîáðíàóêè Ðîññèè. 122 Èííîâàòèêà è ýêñïåðòèçà. 2015. Âûïóñê 1 (14) Ñïèñîê ëèòåðàòóðû 1. Ìàéåð-Øåíáåðãåð Â., Êóêüåð Ê. Áîëüøèå äàííûå. Ðåâîëþöèÿ, êîòîðàÿ èçìåíèò òî, êàê ìû æèâåì, ðàáîòàåì è ìûñëèì // Ìàíí, Èâàíîâ è Ôåðáåð, 2013. 2. Óàéò Ò. Hadoop. Ïîäðîáíîå ðóêîâîäñòâî // Ïèòåð, 2013. 3. Ïîòåíöèàë Áîëüøèõ Äàííûõ. Available at: http://polit.ru/article/2013/03/11/lobzovsky. 4. Ôðýíêñ Á. Óêðîùåíèå áîëüøèõ äàííûõ. Êàê èçâëåêàòü çíàíèÿ èç ìàññèâîâ èíôîðìàöèè ñ ïîìîùüþ ãëóáîêîé àíàëèòèêè // Ìàíí, Èâàíîâ è Ôåðáåð, 2014. 5. Øèëèíà Ì.Ã. Data-êîììóíèêàöèÿ êàê íîâûé ôîðìàò âçàèìîäåéñòâèÿ â ïóáëè÷íîì ïðîñòðàíñòâå // Áèçíåñ. Îáùåñòâî. Âëàñòü, 2014. ¹ 19, c. 91–98. 6. Hype Cycle for Emerging Technologies. Available at: http://www.gartner.com/newsroom/id/2819918. 7. Áåëîóñîâ Â.Ë., Äåãòÿðåâ Þ.È., Ñåðãååâ Ì.Â. Êîíöåïòóàëüíûå îñíîâû ôîðìèðîâàíèÿ ìíîãîîòðàñëåâîé ñèñòåìû ãîñóäàðñòâåííîé ýêñïåðòèçû // Àâòîìàòèçàöèÿ è ñîâðåìåííûå òåõíîëîãèè, 2013. ¹ 6, c. 30–38. 8. Âèêóëîâ Î.Â., Áóõàðèí Ñ.Í., Äèâóåâà Í.À. Òèïîâîé òåõíîëîãè÷åñêèé ïðîöåññ ïðîâåäåíèÿ íàó÷íî-òåõíè÷åñêîé ýêñïåðòèçû, ðåàëèçîâàííûé â ÔÃÁÍÓ ÍÈÈ ÐÈÍÊÖÝ // Èííîâàòèêà è ýêñïåðòèçà, 2014, ¹ 2 (13), c. 101–114. 9. Ëèòâàê Á.Ã. Ýêñïåðòíàÿ èíôîðìàöèÿ. Ìåòîäû ïîëó÷åíèÿ è àíàëèçà. Ì. 2009. 10. Slocum M. Big data goes to work // O’Reilly Rada. Available at: http://radar.oreilly.com/2011/11/bigdata-business-enterprise.html#disqus_thread. References 1. Meyer-Shenberger V., Kukier K. (2013) Bol’shie dannye. Revolyutsiya, kotoraya izmenit to, kak my zhivem, rabotaem i myslim [Big Data. A revolution that will change the way we live, work and think]. Mann, Ivanov i Ferber [Mann, Ivanov and Ferber]. 2. White T. (2013) Hadoop. Podrobnoe rukovodstvo [Hadoop. Detailed manual]. Piter [Peter]. 3 Potentsial Bol’shikh Dannykh [The Potential Of Big Data]. Available at: http://polit.ru/article/2013/03/11/ lobzovsky. 4. Franks B. (2014) Ukroshchenie bol’shikh dannykh. Kak izvlekat’ znaniya iz massivov informatsii s pomoshch’yu glubokoy analitiki [Taming big data. How to extract knowledge from data arrays using deep analytics]. Mann, Ivanov i Ferber [Mann, Ivanov and Ferber]. 5. Shilina M.G. (2014) Data-kommunikatsiya kak novyy format vzaimodeystviya v publichnom prostranstve [Data-communication as a new format of interaction in the public space]. Biznes. Obshchestvo. Vlast’ [Business. Society. Power], no. 19, pp. 91–98. 6. Hype Cycle for Emerging Technologies. Available at: http://www.gartner.com/newsroom/id/2819918. 7. Beloussov V.L., Degtyarev Y.I., Sergeev M.V. (2013) Kontseptual’nye osnovy formirovaniya mnogo-otraslevoy sistemy gosudarstvennoy ekspertizy [Conceptual bases of formation of a diversified system of state expert examination]. Avtomatizatsiya i sovremennye tekhnologii [Automation and modern technologies], no. 6, pp. 30–38. 8. Vikulov O.V., Bukharin S.N., Divuyeva N.A. (2014) Tipovoy tekhnologicheskiy protsess provedeniya nauchnotekhnicheskoy ekspertizy, realizovannyy v FGBNU NII RINKTsE [Typical technological process of conducting scientific and technological expert examination, implemented SRI FRCEC]. Innovatika i ekspertiza [Innovation and assessment], no. 2 (13), pp. 101–114. 9. Litvak B.G. (2009) Ekspertnaya informatsiya. Metody polucheniya i analiza [Expert information. Methods of preparation and analysis]. Moscow. 10. Slocum M. Big data goes to wor. O’Reilly Radar. Available at: http://radar.oreilly.com/2011/11/bigdata-business-enterprise.html#disqus_thread. 123