본문 바로가기
AI월드/📁프로젝트

발표자료)의료데이터활용한 예측과 블록체인과의 연결성_그라운드X

by khalidpark 2021. 4. 29.

 

저는 블록체인 플랫폼 서비스를 개발하는 그라운드X 에서 일해보고 싶습니다.

 

 

 

딥러닝 프로젝트를 진행하다 갑자기 블록체인 이야기를 꺼내는 이유는

Ai를 공부하면서 양질의 좋은 데이터가 모델의 성능에 가장 큰 영향을 미친다는 것을 알게 되었기 때문입니다

실시간으로 업데이트되는 방대한 양의 데이터를 한 서버에 저장하고 관리하게 된다면

비용도 갈수록 증가할 것이며, 보안에도 취약할 수 있습니다.

이 문제를 해결하면서 딥러닝을 더 효율적으로 사용할수있는 방법 중 하나가 블록체인 기술이라 생각했습니다

 

블록체인 기술과 연관지을수있는 딥러닝 모델링을 진행하고 싶었기 때문에,

다음과 같은 특징이 있는 데이터를 활용하고자 하였습니다.

매일 (매초, 매분 또는 매일) 생성되는 실시간 데이터인지?

보안이 특히 중요한지

그 양이 방대해질수있는지

공공의 성격을 가지는지

 

이와 같은 특징들이 잘 반영되는 분야가 의료데이터 분야라 생각합니다.

 

병원에서 MRI를 촬용하고 다른 병원에서 또 진찰을 받고 싶을때

MRI를 꼭 복사해서 가야합니다.

복사를 하기 위해 병원에 또 가야하는 수고스러움과 비용까지 모두 충분히 개선될 여지가 있다 생각됩니다

 

 

만약 건강보험공단에서 모두 관리한다면 굉장한 비용이 지불되고 있을 것이며,

각각의 병원에서 개별적으로 관리된다면 이또한 환자들에게 굉장히 불편한 일입니다

 

블록체인 기술을 활용하여 의료데이터를 효율적이고 안정적으로 저장하고,

저장된 데이터를 활용하여 질병예측 등을 할 수 있는 딥러닝 모델을 구축하고자 합니다.

현실적으로 블록체인을 구현할 기술이 저는 없기 때문에

공공데이터에 주어진 의료데이터를 기반으로 딥러닝 모델을 만들어 보겠습니다.

 

기본적인 데이터는 다음과 같습니다

국민건강보험공단에서 제공하는 4대 질병 예측정보를 활용하여

LSTM 방법으로 앞으로 발생할 질병을 시계열 데이터를 기반으로 예측해보고자 합니다.

 

4개의 질병데이터가 시계열로 저장되어있으며

이중 우선 감기 만 가지고 모델링을 진행하였습니다.

연도에 따른 감기환자발생수 분포도이고

예측하기전 데이터의 흐름과 실제 다음 데이터값 , 기준값을 표현한 그래프입니다.

 

우선 LSTM 모델을 활용하여 가장 심플하게 구성해보았으며

빨간 엑스표시인 실제값과 녹색표시인 모델예측값이 꽤 유사하게 나오는걸 확인할수있습니다

 

 

모델의 성능을 개선하기 위해 weight decay를 주어 모델링을 진행해보았으며,

이전 모델보다 조금더 개선된걸 확인할수있습니다.

 

이번에는 오버피팅을 더욱 방지하기 위하여 weight constraint 도 설정하였으며,

이전보다도 조금더 개선된 모델을 확인할수있습니다.

 

전체적으로 비교해보면 학습을 일정부분 규제함으로써 조금더 개선된 결과를 얻을수있음을 확인할수있었습니다

 

4개의 질병데이터를 함께 예측하여 모델링을 진행하였습니다.,

로스값이 에폭이 진행됨에 따라 조금씩 감소하기는 하였지만

개인적으로 데이터 세팅이나 모델링 부분이 잘못된거 같다는 판단이 들고 있습니다.

프로젝트를 진행하면서 생각한 앞으로의 발전 방향입니다.

우선 딥러닝 모델의 성능을 더욱 개발해야겠습니다

또한 데이터가 지속적으로 추가될때, 어떤 주기로 어떻게 모델 학습에 반영할지를 정해야 하며

처음의 세웠던 가설인 의료데이터의 블록체인 네트워크화가 기술적으로나 현실적으로 가능한지에 대한 파악도 필요하겠습니다.

이상으로 발표를 마치겠습니다

 

https://github.com/khalidpark/project-DiseasePrediction

 

khalidpark/project-DiseasePrediction

Contribute to khalidpark/project-DiseasePrediction development by creating an account on GitHub.

github.com

 

728x90

댓글