유전 지질 기록 보관소의 비정형 데이터 관리 모델 탐색
Li Yan
(중국석유화학공사 남서석유 및 가스 지점 정보센터 기록 보관소)
요약 이 기사는 구조화되지 않은 구조에 존재하는 문제에 중점을 둡니다. 데이터 관리 문제를 해결하기 위해 서남부 석유 및 가스전 지질 기록 보관소의 비정형 데이터 관리 특성을 분석하고, 데이터 수집, 데이터 저장, 데이터 관리 및 활용에 대한 기술 아키텍처를 제안하고, 비정형 데이터의 관리 및 활용에 대해 깊이있게 다루었습니다. 기술 솔루션, 관리 관리 모델 및 데이터 서비스의 3가지 기능을 하나로 통합한 관리 모델을 통해 유전 지질 기록 보관소의 비정형 데이터를 관리하고 적용하기 위한 효과적인 모델을 탐색했습니다.
키워드: 비정형 데이터 저장, 지질 기록 보관소 애플리케이션 관리
0 서문
우리나라의 경제 건설이 지속적으로 발전함에 따라 정보 자원은 점점 더 기업화되고 있습니다. 또는 조직의 핵심이자 생명선입니다. 이는 정보 집약적인 석유 산업의 경우 특히 그렇습니다. 수년간의 생산 실무를 통해 국내 석유 산업은 대부분의 정보에 대한 종합적인 데이터 관리, 데이터 응용, 기업 표준 및 산업 표준과 같은 기술과 성과를 개발해 왔으며 이는 석유 탐사 및 개발의 다양한 프로세스를 크게 지원합니다. 그러나 정보자원 협업, 분석, 마이닝, 공유, 의사결정 지원, 클러스터 컴퓨팅 등은 외국 석유회사와 비교하면 여전히 일정한 격차가 존재한다. 이에 대한 핵심은 비정형 데이터를 어떻게 효율적으로 처리하고 활용하느냐이다.
일반적인 석유산업 기업의 경우 정보자원은 종이책이나 종이, PDF문서, 그래픽 이미지 파일, 스캔문서, 전자책, CD 등 다양한 매체에 존재하며 결국 정보는 변환될 수 있다. 구조화되지 않은 데이터로 구조화되지 않은 정보를 관리하려면 다음과 같은 문제에 직면해야 합니다.
고용량: 구조화되지 않은 데이터는 일반적으로 하나 이상의 문서, 그래픽, 멀티미디어 등으로 용량이 100M 또는 1GB에 달합니다.
이성체화: 비정형 데이터는 소스, 형식, 전달자가 모두 다르기 때문에 통합 관리 및 검색이 어렵습니다.
복잡성: 비정형 데이터는 용량이 크고 이질적인 특성으로 인해 저장, 검색, 필터링, 추출, 분석 및 마이닝 측면에서 매우 복잡합니다.
재처리: 비정형 데이터는 맞춤화, 교환, 암호화 측면에서 개인화된 요구 사항이 많습니다. 또한 형식의 차이와 다양성으로 인해 이러한 데이터를 재처리하기가 매우 어렵습니다.
이 기사에서는 이러한 문제를 자세히 논의하고 연구하며 석유 및 가스전 지질 기록 보관소의 비정형 데이터 저장 및 활용을 기반으로 실현 가능한 방법과 합리적인 솔루션을 모색합니다.
1 비정형 데이터 관리 기술 아키텍처
비정형 데이터는 정형 데이터와 달리 데이터베이스 내 2차원 논리적 테이블로 표현하기 불편한 데이터를 말한다. 비정형 데이터에는 사무용 문서, 텍스트, 그림, XML, HTML, 각종 보고서, 이미지, 오디오/비디오 정보 등 모든 형식이 포함됩니다.
사우스웨스트 오일 앤 가스 필드는 소프트웨어와 하드웨어 제품을 구성하고 통합하여 비정형 데이터의 저장 및 활용에 적합한 기술 아키텍처를 설계하고 구현했습니다. , 데이터 저장, 데이터 관리, 데이터 사용(그림 1).
그림 1 비정형 데이터 저장 및 활용 기술 아키텍처 다이어그램
데이터 수집은 비정형 데이터 관리의 가장 기본적인 프로세스로, 원본 데이터 또는 직접 데이터를 변환하는 것입니다. 디지털 정보를 처리 가능한 정보로 변환하는 단계.
비정형 데이터 저장이란 탐사과학 연구, 생산, 관리 과정에서 생성된 문서, 도면, 단행본 등을 데이터베이스나 파일 서버에 저장하는 것을 말한다. 일반적으로 두 가지 방법이 사용됩니다. 하나는 비정형 데이터를 바이너리 스트림으로 변환하여 관계형 데이터베이스에 저장하고 관련 보조 정보(사용자 정의 가능)를 기록하는 것입니다. 다른 하나는 비정형 데이터를 디렉터리 서버에 저장하는 것입니다. 디렉토리 서버의 인덱스 정보 및 보조 정보(사용자 정의 가능)는 관계형 데이터베이스에 기록됩니다. 그림 2는 이 두 가지 방법을 보여줍니다.
그림 2 비정형 데이터 저장의 도식
데이터 관리는 데이터 분류, 검색, 메타데이터, 표준화, 통계 및 병합을 포함하여 성공적으로 저장되고 구조화된 정보를 재처리하는 것입니다.
비정형 데이터 관리의 궁극적인 목표는 데이터 활용이다. 정보를 소통하고 공유할 수 없다면 조직이 아무리 많은 정보를 생성하더라도 필연적으로 정보섬이 될 수밖에 없다. .net 및 웹 서비스 기반 아키텍처의 채택은 정보 공유 및 협업에 대한 기술적 보장을 제공합니다.
2 비정형 데이터 관리 애플리케이션 분석
사우스웨스트 석유 및 가스전은 비정형 데이터 관리 기술 아키텍처를 기반으로 사우스웨스트 석유 및 가스전 지질 데이터 관리 플랫폼 시스템을 개발 및 구축했습니다. 관리는 비정형 데이터 정렬, 메타데이터, 인덱스 서버 기반 전체 텍스트 검색, 인덱싱, 작업 관리, 지식 관리 등 6가지 주요 기능을 구현합니다(표 1).
표 1 Sinopec Southwest 석유 및 가스전의 비정형 데이터 관리 기능에 대한 통계표
2.1 비정형 데이터 관리 기능 아키텍처
Sinopec Southwest 석유 및 가스전의 지질 데이터 관리 플랫폼 Southwest Oil and Gas Field는 완전한 B/S 모델 데이터 관리 시스템 및 정보 공개 시스템입니다. 지질 데이터 관리 시스템에는 사용자 관리, 조직 관리, 권한 관리, 로그 관리, 데이터 관리, 데이터 업로드, 데이터 대조, 데이터 검토, 메타데이터 및 데이터 검색. 정보 공개 시스템에는 자료 대출, 자료 업로드, 온라인 검색, 자료 검색 및 다운로드가 포함됩니다.
데이터 관리 및 정보 공개 기능을 완성하는 것 외에도 자체 작업 방법에 따라 데이터 속성 사용자 정의, 사용자 기능 선택, 차용과 같은 자체 기업 요소를 플랫폼에 추가합니다. 프로세스 및 보관 및 기록 프로세스의 통합, 업로드 및 다운로드의 압축 및 암호화, 사용자 및 보안 솔루션의 자동 바인딩, 새로운 정보 쿼리, 개인 보고서의 쿼리 및 인쇄, 알림 정보 공개 등 주요 기능 아키텍처는 그림 3에 나와 있습니다.
그림 3 기능적 아키텍처 다이어그램
2.2 남서부 석유 및 가스전의 지질 데이터 비정형 데이터 관리의 주요 특징
2.2.1 지질의 패키징 및 구조 데이터 및 문서
데이터 저장 측면에서는 웹 서비스 기반 데이터 액세스 계층 구성 요소를 사용하며 설정을 수정하면 Oracle 9 i 데이터베이스, SQL Server 2000 데이터베이스 등 다양한 데이터베이스에 연결할 수 있습니다. 사용자는 필요에 따라 선택할 수 있습니다. 지질 데이터 및 문서의 패키징 및 구조화는 데이터 수집 및 저장에 사용되는 "데이터 본문-파일 본문"의 이진 패키징 방법을 나타냅니다. 모든 유형의 파일 또는 파일 컬렉션은 데이터 본문으로 정의될 수 있으며 메타데이터는 데이터 본문을 설명하는 데 사용됩니다. 논리적으로 말하면 데이터 본문은 하나 이상의 파일 엔터티의 컬렉션입니다. 다양한 유형의 비정형 데이터의 출현과 행동은 향후 데이터 교환과 협업을 촉진할 것입니다. 그림 4는 이 이진 관계를 보여줍니다.
그림 4 비정형 데이터의 바이너리 패키징 방식
2.2.2 작업 관리
문서 데이터를 수집하여 제출하며, 데이터 본문과 메타데이터 정보를 관계형 데이터베이스(현재 Oracle 지원)에 기록되고 파일 본문은 작업을 통해 전용 파일 서버에 자동으로 업로드되며 인덱스 서비스는 이 파일 본문에 대한 인덱스를 자동으로 생성합니다. 인바운드 문서의 기본 저장 방법은 디스크 파일을 통한 것입니다. 인바운드 문서를 바이너리 스트림 형식으로 관계형 데이터베이스에 저장해야 하는 경우 데이터 지속성 서비스를 배포하고 구성해야 합니다. 그림 5는 문서 수집 및 보관 과정을 직관적으로 설명합니다.
그림 5 문서 수집 및 보관을 위한 작업 관리 프로세스
작업 관리는 작업 기반의 업로드 및 다운로드 프로세스입니다.
문서 자료의 수집 요구 사항에 대처하기 위해 업로드 작업을 사용하여 업로드 프로세스를 관리합니다. 서비스를 통해 전체 프로세스가 사용자 작업에 영향을 주지 않고 백그라운드에서 자동으로 완료될 수 있습니다. 데이터의 무결성을 보장하기 위해 기존 파일 수집 프로세스에서 많은 시간을 소비하며 업로드 프로세스는 중단점 재개를 지원합니다. 직관적인 업로드 작업 관리자는 업로드해야 할 문서를 작업 대기열에 저장하며, 사용자는 언제든지 업로드 작업을 중지하거나 시작할 수 있어 네트워크 상태나 용량 문제로 인한 불편을 최소화합니다.
2.2.3 메타데이터 정의 및 설명
데이터 수집 과정에서 파일에 대한 메타데이터를 정의할 수 있습니다. 파일의 메타데이터는 파일 속성에서 상속됩니다. 파일이 특정 데이터 카테고리로 분류되면 이 파일의 확장 정보를 설정할 수 있습니다. 반면에 분류의 메타데이터 형식은 이 파일 유형의 메타데이터 템플릿이 될 수 있습니다. 유사한 파일의 메타데이터 형식은 동일하므로 유사한 정보의 데이터 교환을 수행하는 데 편리합니다. 그림 6은 사례 파일(데이터 유형), 파일 및 메타데이터 간의 관계를 보여줍니다.
메타데이터는 비정형 데이터에 대한 라벨로서 매우 중요하며, 시스템의 검색 기능의 재현성과 정확성은 주로 메타데이터의 정의가 타당하고 정확한지 여부에 달려 있으므로 시스템은 반드시 이를 제공해야 합니다. 메타데이터 정보의 수정 및 동적 확장 기능은 위의 기능을 제공해야만 시스템의 정보 설명이 정확하고 풍부해질 수 있으며 이는 많은 유사한 정보 시스템에서도 부족합니다.
그림 6 사례 파일, 문서 및 메타데이터 간의 관계
Sinopec 기업 표준 "Q/SH0167-2008 석유 및 천연가스 탐사 및 개발을 위한 지질 데이터 제출 규칙에 따른" ", 지질 데이터 관리의 특성에 따라 남서부 석유 및 가스전의 실제 상황, 수요 분석 및 다양한 측면의 명확화(시스템 관리, 데이터 로딩 및 온라인 브라우징, 데이터 쿼리, 데이터 차용 및 다운로드, 데이터 파기, 데이터 압축 및 암호화, 데이터 검토, 데이터 수신 및 배포) 지질 데이터의 기능, 파일 메타데이터, 아카이브 메타데이터 및 기업 확장 메타데이터가 완전히 연구 및 정의되었으며 다양한 범주의 지질 데이터에 대한 다양한 속성이 정의되었습니다. 조회 및 대출을 용이하게 합니다. 예를 들어 표 2입니다.
표 2 지질 데이터 메타데이터 속성 테이블
2.2.4 파일 인덱스 서버 기반 전체 텍스트 검색
비정형 데이터를 검색하는 데 두 가지 방법이 사용됩니다. 방법: 속성과 키워드를 기반으로 한 정확한 검색과 내용을 기반으로 한 전체 텍스트 검색입니다. 전문 검색 프로세스는 제출-색인 구축-검색 결과 구성-반환의 프로세스를 채택합니다. 비정형 데이터는 파일 서버에 제출되고, 인덱스 서비스 프로그램은 인덱스 파일을 생성하거나 업데이트합니다(자동 프로세스). 사용자가 검색 요청을 하면 요청된 콘텐츠가 포함된 결과를 검색 엔진을 통해 얻어서 인덱스 파일로 반환합니다. 요청자. 인덱싱 서비스 프로그램은 보관된 문서에서 텍스트 콘텐츠를 자동으로 추출할 수 있습니다(그림 7).
인덱스 서비스 프로그램의 작업에는 다음이 포함됩니다. 파일 디렉터리의 변경 사항을 감지하고, 파일이 업로드, 이동, 수정 또는 삭제되면 해당 인덱스를 업데이트하고, 파일의 전체 범위에 대해 정기적으로 인덱스를 최적화합니다. 전반적인 효율성과 효율성 측면에서 이 작업은 사용자가 자동 또는 수동으로 완료할 수 있습니다.
이를 기반으로 Southwest Oil and Gas Field에서는 퍼지 쿼리, 전체 텍스트 쿼리, 정밀 쿼리는 물론 디렉터리 탐색, 전체 텍스트 탐색 등 다양한 논리적 쿼리를 제공합니다. 그림 8과 같습니다.
그림 7 전체 텍스트 검색 프로세스
그림 8 쿼리 검색 스크린샷
2.3 Southwest Oil and Gas Field 비정형 관리 적용 효과
남서부 유전 및 가스전 2005년 이래, 수년간의 공동 노력 끝에 총 125만 개의 지질 데이터 항목에 대한 비정형 지질 데이터 구축이 완전히 완료되었습니다. 다양한 유형의 지질 데이터의 요소 데이터가 설계되고 포괄적인 속성 추출이 수행됩니다. 추출된 콘텐츠에는 네트워크 관리를 위한 강력한 도구를 제공하는 파일 메타데이터, 아카이브 메타데이터 및 기업 확장 메타데이터의 세 가지 범주가 포함됩니다. 및 검색엔진 패키지 활용.
동시에 남서부 유전은 비정형 데이터 구축 이론에 따라 지질 데이터 전문 데이터베이스 및 지질 그래픽 데이터베이스 구축을 적극적으로 수행했습니다. 기록 문서 및 그래픽의 스캔 및 정렬, ***계정은 240,000개의 문서가 있고 총 용량은 2.9T입니다. 유전 및 가스 지질 데이터 카탈로그 데이터베이스와 결합하여 지질 데이터 관리 시스템을 통해 지질 데이터의 비정형 데이터 네트워크의 완전한 공개 및 포괄적 응용이 실현됩니다.
통계 분석 결과, 네트워크 관리와 비정형 데이터 적용이 실현된 후, 지난 5년간 남서부 유전 및 가스전 지질 데이터의 연간 평균 활용률은 최고 11만개/에 달했다. 이는 완공 전보다 4.5배 증가한 것으로, 지질 기록 데이터의 관리 및 활용 수준을 효과적으로 개선하고 비용을 절감하며 좋은 경제적 이익을 달성했습니다.
3 비정형 데이터 관리 모델 탐색
기업 정보 자원의 표현으로서 비정형 데이터 관리는 단순한 기술 시스템이나 시스템이 아니라 엄청난 규모를 갖춰야 합니다. 시스템 프로젝트. 저자는 남서부 석유 및 가스전 지질 기록 보관소의 정보화 구축 및 비정형 데이터 관리에 대한 다년간의 경험을 바탕으로 "기술 솔루션, 행정 관리 모델 및 데이터 서비스"의 삼위일체 관리 모델이 비정형 데이터에 대한 효과적인 모델이라고 믿습니다. 9)에 표시된 석유 및 가스전 관리 (그림 참조).
그림 9 비정형 데이터 관리 모델 다이어그램
먼저 행정 관리 모델은 안정적인 관리팀과 완전한 타당성으로 구성된 전체 비정형 데이터 관리에 대한 조직적 보증입니다. 연구, 명확한 관리 요구, 적절한 위험 평가 및 실용적인 조직 구현 구성. 좋은 행정 관리 모델은 전체 조직이 협력하여 정보 시스템 구축을 촉진할 수 있도록 하며 전체 시스템 구축의 성패를 결정한다고 할 수 있습니다.
데이터 서비스는 비정형 데이터 정보 관리의 기반입니다. 비정형 데이터를 수집, 생성, 처리, 전송, 구성, 분류 및 표준화하는 프로세스를 말합니다. 동시에 사용자와 개발자 사이의 윤활유이기도 합니다. 첫째, 사용자의 필요에 따라 대량의 지루한 데이터 정렬 및 표준화 작업을 처리할 수 있습니다. 둘째, 사용자 관점에서 볼 때 단점을 지적합니다. 소프트웨어를 수정하고 개발자에게 수정을 촉구합니다. 데이터 서비스를 통해 이용자 사업의 효율적 운영, 기술시스템의 지속적인 개선, 정보시스템 구축의 효율성을 극대화할 수 있습니다.
기술 솔루션은 제품 수준에서 비정형 데이터를 관리하기 위한 소프트웨어 및 하드웨어 플랫폼을 제공하며, 데이터 수집부터 적용까지 완전한 기술 시스템입니다. 포함: 다양한 대규모 관계형 데이터베이스 기반 정보 저장 시스템, 콘텐츠 기반 비정형 데이터 기반 파일 서버, 전체 텍스트 검색 및 관련 검색을 제공하는 인덱스 서버, 메타데이터 기반 유연한 파일 교환 형식 및 개인화된 맞춤화, 유연한 권한 정책 및 강력한 기술 솔루션은 비정형 데이터 저장 및 활용의 핵심입니다.
4 결론
비정형 데이터 저장 및 적용은 각 유전 지점의 탐사 의사결정 지원 시스템의 중요한 부분이며, 이 부분의 성공적인 개발 후 필요한 사항을 제공할 수 있습니다. 의사결정 지원을 위한 정보 정보 자원은 기본적인 플랫폼을 제공합니다. 동시에, 이 플랫폼을 기반으로 하는 비정형 데이터의 적용은 정보 협업, 파일 검색, 데이터 마이닝 및 지식 관리와 같은 기술 및 개념의 적용을 통해 의사결정 지원 시스템을 직접적으로 제공할 수 있습니다. 석유 및 가스전 정보화 구축을 통해 국제 선진 수준에 도달하고 탐사, 데이터 자산화, 업무 협업 및 과학적 의사결정의 디지털화를 향해 큰 진전을 이루어 막대한 경제적, 사회적 이익을 가져옵니다.
참고문헌
[1] Zhang Zhigang, Yao Wei. 대규모 비정형 데이터 저장 문제에 대한 예비 연구 [J], 2009(8).
[2]Wu Guangjun, Wang Shupeng, Chen Ming, Li Chao. 대규모 구조화된 데이터 저장 및 검색 시스템 [J], 2011(7).