닫기
Loading..

전자정보연구정보센터 ICT 융합 전문연구정보의 집대성

파워iN터뷰

홈 홈 > 포커스iN > 파워iN터뷰

전자정보 분야뿐만 아니라 전반적인 과학기술 관련 현장에서 활약하시거나, 현장의 노하우를 바탕으로 끊임없이 도전하고 미래를 만들어나가는 주인공들의 이야기, 또는 IT분야에서 이슈가 된 화제의 인물, 그들의 이야기를 전해드립니다.

  • 이성진
  • DGIST 정보통신융합전공
  • sungjin.lee@dgist.ac.kr

트위터 공유

페이스북 공유

▶ ERC(공학분야) 선도연구센터 <암흑데이터 극한활용 연구센터(Extreme Exploitation of Dark Data Research Center; EEDD)>에 대한 소개 부탁드립니다.


본 연구센터에서는 연구데이터를 비롯하여 국가 차원에서 생성되는 암흑데이터를 최대한 활용할 수 있도록 해주되, 극도로 에너지 효율적, 저장 공간 효율적, 비용 효율적이면서 빠르고 편리하게 공유 · 활용 할 수 있도록 해주는 차세대 빅데이터 원천기술을 선도적으로 연구 개발하고 있습니다. 전통적인 웹 기반 연구데이터 공유 시스템의 경우 서로 독립적인 시스템 (예 : 검색시스템, 데이터저장소)들 간에 메타데이터 교환을 연구자가 수동으로 해주기 때문에 근본적으로 암흑데이터가 발생할 수 밖에 없습니다 . 반면, 본 센터가 제안하는 암흑데이터 극한활용 기술은 참여하는 모든 시스템들 간의 메타데이터 생성 · 교환이 연구자의 개입이 거의 없이 자동으로 이루어지고 블록체인 기술 기반으로 공유되어 색인 · 추천에 활용되므로 암흑데이터의 발생을 원천적으로 방지할 수 있습니다. 상기 목표를 달성하기 위해 본 센터는 DGIST (주관기관)를 중심으로 KAIST, 성균관대학교, POSTECH, 아주대, 서울대학교병원에서 총 11명의 각 분야 전문가들이 참여하여 활발한 연구를 진행하고 있습니다.



▶ 인공지능/빅데이터 시대가 되면서 데이터의 중요성이 더욱 강조되고 암흑데이터에 대한 관심도 높아지고 있습니다. 암흑데이터에 대한 자세한 설명 부탁드립니다.


암흑데이터란 생성되지만 활용되지 못하는 데이터를 의미합니다. IBM의 조사에 따르면 전 세계에서 생성되는 데이터의 90%가 암흑데이터에 해당된다고 보고되고, McKinsey & Company 의 조사에 따르면 그보다 더 많은 99%가 암흑데이터에 해당된다고 보고되고 있습니다. 데이터가 활용되지 못하는 이유는 저장 공간의 부족으로 저장하지 못하거나, 저장해도 분석 컴퓨팅의 부족으로 활용하지 못하기 때문뿐만 아니라, 무슨 데이터가 있는지, 어디에 데이터가 있는지, 자신에게 필요한 데이터가 무엇인지 알지 못하기 때문입니다. 활용이 되지도 않으면서 저장되어 있는 데이터는 저장공간 점유로 인한 장비 비용을 초래할 뿐 아니라, 막대한 전력 비용을 초래하게 됩니다. 뉴욕타임즈에 따르면 전 세계 데이터 센터에 소요되는 에너지의 90%는 암흑데이터로 인해 낭비되고 있다고 합니다. 따라서 물질적 비용뿐만 아니라 기회 비용 측면에서도 암흑데이터를 충분히 잘 활용하는 것은 매우 중요합니다. 오늘날 기계학습, 인공지능 분야는 양질의 데이터를 기반으로 비약적인 기술 발전이 가능해졌으며, 데이터베이스 분야의 세계적 대가인 스탠퍼드 대학의 Christopher Re 교수는 암흑데이터를 활용할 수 있을 경우 훨씬 더 큰 기술 발전을 이룰 수 있다고 언급하였습니다.



▶ 암흑데이터 연구의 국내외 현황에 대해서 말씀해 주세요.


미국 , 영국 등 주요 선진국들은 대표적인 암흑데이터인 과학기술 연구데이터 공유의 중요성을 일찍부터 간파하여 이에 대한 정책과 규정을 만들고 별도의 추진 기관을 설립하여 활발하게 연구데이터를 공유해오고 있습니다. 미국의 경우 2013년 관련 규정을 신설함으로써 정부 지원 과제에서 발생하는 모든 데이터를 연구자가 컴퓨터가 인식할 수 있는 포맷으로 제출하고, 이에 어떤 제약도 부과되지 않는 오픈 라이선스를 적용하여 민간에 개방하도록 의무화하고 있습니다. 그리고, OSTP(Office of Science and Technology Policy)라는 기관을 설립해 정책을 추진하고, data.gov 웹 사이트를 통해 연구데이터를 공유하고 있습니다. 영국의 경우 2014년 관련 규정을 신설하여 UKRI(UK Research and Innovation)라는 기관이 산하 7 개의 연구회에 속한 연구자들과 국가 연구센터들이 제출한 연구데이터를 관리하고, RCUK 라는 게이트웨이를 통해 모든 연구자들이 공유할 수 있도록 해오고 있습니다. 뒤이어 유럽의 경우 2015년 OpenAIRE2020이라는 규정을 신설하고 OpenAIRE(Open Access Infrastructure for Research in Europe)라는 기관을 통해 FP7과 Horizon 2020 연구 프로그램과 관련된 데이터 성과들을 개방 및 공유해오고 있습니다. 호주의 경우에도 2017년 관련 규정을 신설하여 호주 내 100개 대학 및 정부 연구 시설들에서 발생하는 데이터를 ANDS(Australian National Data Service)에서 관리하고 Research Data Australia 라는 웹 사이트를 통해 공유할 수 있도록 해오고 있습니다. 최근 우리나라도 과학기술정보통신부가 지난 1월 국가 R&D 사업에서 나오는 연구데이터를 체계적으로 관리하고, 연구자 간 데이터 공유를 활성화하기 위한 ‘연구데이터 공유 · 활용 전략’ 을 발표한 바 있습니다.



▶ 암흑데이터에서 필요한 정보를 추출하고 분석 및 활용을 위한 기술 개발에 대해 자세한 설명 부탁드립니다. 


본 연구센터는 암흑데이터에서 필요한 정보를 추출하고 분석 및 활용을 위한 기술 개발을 위해, 크게 (1) 데이터 저장, (2) 분석, (3) 검색 및 추천, 그리고 (4) 시스템 측면의 연구를 진행하고 있습니다. 먼저 저장 측면에서는 주로 append-only 특성을 가진 연구데이터의 특성을 고려하여 최근 각광받고 있는 고용량 · 저비용 차세대 저장장치를 성능저하 없이 이용하되, 과학기술분야에서 사용되는 다양한 이종 스토리지 시스템들을 유기적으로 통합할 수 있는 프레임워크 기술을 연구하여 연구데이터의 대규모 문제를 해결합니다. 분석 처리 측면에서는 대규모 고성능 컴퓨팅 시스템 없이 PC 또는 서버 한 대 만으로 정형 및 비정형 (1차원, 2차원, 그래프) 데이터들을 빠르게 분석하고, 패턴 마이닝하며, 시각화하는 세계 최고 수준의 GPU 기반의 기술들을 연구개발합니다. 또한, 두 가지 이상의 데이터 종류에 대해 통합 분석이 가능한 텐서 정규화 및 분해 기술들과, 비정형 데이터의 오류를 정제하는 기술을 연구개발하고 있습니다. 검색 · 추천 측면에서는 연구데이터의 변동을 자동으로 추출 및 블록체인으로 공유하는 기술과, 연구데이터의 메타데이터와 데이터 이력을 활용한 새로운 검색 · 추천 모델 및 기법을 연구합니다. 시스템 측면에서는 로컬 시스템 수준에서의 데이터 중복을 제거하고, 현재의 클라우드 환경에서의 가상 머신들이 연구데이터를 처리할 때 발생하는 다양한 성능 저하 문제를 해결하며, 엣지 컴퓨팅 기술을 통해 원격지 연구데이터의 접근 속도를 향상시키는 기술을 연구개발하고 있습니다.



▶ 암흑데이터 발생을 최소화할 수 있는 기술 방안이 있다면 이에 대한 설명도 부탁드립니다.


저희 연구센터는 암흑데이터의 저장, 처리, 분석 측면에서의 극한 활용을 주된 목표로 하고 있습니다. 현재는 본격적으로 진행되고 있지 않으나, 본 연구를 통해 얻어진 결과물은, 생성되었으나 실질적으로 활용성이 떨어지는 불필요한 데이터들이 축적되어 암흑데이터로 쌓이는 문제를 방지하는 데도 충분히 활용될 수 있으리라 예상됩니다.


이번 연구개발을 통해 국내 과학기술과 사회적으로 미칠 수 있는 영향에 대한 소견을 말씀해 주세요.


제안하는 기술은 대규모의 암흑데이터를 극한으로 활용할 수 있게 해줌으로써 경제적 측면에서는 국가 연구데이터 플랫폼 운영비를 최대 900% 절감하고, 기술적인 측면에서는 연구과정에서 축적된 노하우를 통해 국내 빅데이터 관련 기술을 한 단계 도약시키며, 사회적 측면에서는 국가 과학기술 경쟁력을 크게 제고할 수 있을 것으로 기대합니다 . 또한, 전체 플랫폼이 아닌 부분 기술들 자체로도 효용가치가 높아 관련 기업들로의 기술 이전 , 창업 등을 통해 관련 산업 활성화를 촉진하고 고용 창출에 기여할 수 있을 것으로 기대하고 있습니다.



▶ 관련 분야 연구자들에게 도움이 될 만한 서적이 있다면 추천 부탁드립니다.


암흑데이터에 대표적인 서적으로 2020년에 출판된 David J. Hand 교수『Dark Data: Why What You Don’t Know Matters』 (Princeton University Press)를 추천드립니다.



▶ 앞으로 연구 방향 등 계획에 대해 말씀해 주세요.


본 센터는 1단계 기간 동안 연구 개발한 핵심 기술을 KISTI와 함께 국가연구데이터플랫폼에 적용할 예정입니다. 2단계부터는 현재 서울대학교병원과의 보다 면밀한 협업을 통해, 의료 데이터를 대상으로 한 다수의 우수한 공동연구 결과물을 토출할 수 있으리라 기대합니다. 또한 본 센터의 핵심 기반 기술을 Cyber-Physical Systems (CPS)와 같은 응용에서 접목하는 방안에 대해서도 고민하고 있습니다.


암흑데이터 극한활용 연구센터 소개 >>

2021년 11월