빅데이터 분석 기반 농 식품 위해인자 신속관리 방법
(한국통신학회논문지, 2015)
- 농 심품의 생산지뿐만 아니라 전주기상의 주요 유통 거점, 소비지까지 정형, 반 정형, 비정형의 다양하고 대규모의 농식품 유통 정보를 이용하여, 위해인자 발생의 실시간 상황이나 예측, 추적을 통하여, 위해인자 파급 차단과 예방을 위한 농 식품의 위해인자 신속 관리 방법을 제안
- 제안방법은 빅데이터 클러스터 기반, 실시간으로 정보를 수집하고, 위해인자 상황인지, 위해인자 발생 예측, 위해인자 발생지 추적 분석을 통해 위해인자를 차단하고 파급을 예측
- 결과를 가시화하여 신속하게 위해인자를 관리
- 위해인자 발생 예측
- 위해인자 발생과 과련되는 다양한 변수를 고려하여 예측하되 상관성이 있는 거점을 통한 위해인자 발생을 추정
- 이산형 반응변수인 위해인자 발생에 대한 모델링으로써 다중 로지스틱 회귀분석을 사용
- 위해인자 발생여부가 0, 1로 binary이며 발생할 확률은 p이며, 설명변수는 거점, 시각, 위해인자, 온도 등
- 식품안전 사건사고와 기후 요소와의 관련성 분석 결과, 강수량(0.48)과 음의 상관관계, 최저기온(0.45)과는 양의 상관관계가 있어 온도는 설명변수로써의 의미를 갖는다.
- 좋은 모형이 되기 위해서는 높은 위해인자 정 검출 율과 낮은 비 위해인자 오 예측 율을 가져야 함
- 본 실험은 비교적 ROC 커브가 그래프가 좌측 상단으로 치우침으로써 비교적 좋은 위해 인자 발생 예측 모형임
- 위해인자 발생지 추적
- 위해인자 발생지 추적은 배송되는 식품 품목에서 검출된 위해인자에 대한 원래의 발생지를 알아내기 위한 추적 기능으로서 거점 간 관계를 기반 클러스터링과 그래프 마이닝 기법을 사용
- 식품을 배송하는 각 거점 사이의 관계를 나타내는 거리 산출과 거점 사이의 관계를 분석하고 그래프로 표현하기 위하여 거점과 품목 사이의 테이블 형식을 사용
- 배송횟수를 기준으로 하는 경우 건수에 민감하게 반응하므로 횟수가 많은 거점과 적은 거점과의 편차를 제거하는 표준화 작업을 함
- 품목별 표준화와 거점별 표준화 중에서 연구개발 수집된 거점 데이터가 불충분하므로 거점별 표준화를 추진함
- 임의로 설정한 서로 다른 K개 군집으로 클러스터링을 반복 수행
- 본 논문에서는 K-means를 사용(K-means는 임의의 초기 값에서 정해진 수렴 값에 수렴할 때까지 추정, 최대화 과정을 반복하면서 중심을 찾는 알고리즘)
- 자료 수집 및 가공 단계에서 시간적, 공간적으로 동기화 된 데이터는 몇 개의 클러스터로 나누어지는데, 일반적으로 n개의 데이터를 k(≥2)개의 클러스터로 나눈다면 O(kn)의 경우의 수가 존재하기 때문에 모든 경우를 비교하여 최적의 클러스터를 찾기는 어렵다.
- 2개의 거점이 동일한 클러스터에 들어간 횟수는 심각도로 사용
- 생성된 거점-품목 행렬을 바탕으로 거점-거점 사이의 관계 행렬을 생성하여 그래프 마이닝에 사용
- 위해인자 발생 패턴
- 발생 정보를 시간 기준으로 정리하여 시계열 패턴을 확인하는 것
- 시계열 패턴 정보를 거점/계절/시간대역(오전, 오후, 야간) 제품류/동일지역 배송여부/배송단계정보 등으로 범주화하여 품목화 시킨 후 발생 패턴을 분석
- 다수의 거래 내역 모두에 포함된 품목의 관찰에 의해 규칙을 발견하기 위하여 모든 데이터를 범주 형으로 가정하여 모든 규칙을 찾는 방식의 AR을 통하여 의미있는 패턴 마이닝을 수행
- AR의 기준으로 지지도, 신뢰도, 향상도를 사용