PangeA+ - nabitra

PROBLEM

AI 학습데이터, 아직도 수작업에 의존하고 계신가요?

데이터 수집부터 정제, 가공, 학습까지 — 파편화된 워크플로우와 반복되는 수작업이
AI 프로젝트의 속도와 품질을 저하시킵니다.

높은 비용과 긴 소요 시간

수작업 기반 데이터 구축은 대규모 인력과 시간이 필요합니다. 프로젝트 규모가 커질수록 비용은 기하급수적으로 증가하고, 납기는 지연됩니다.

일관되지 않는 데이터 품질

작업자마다 다른 기준으로 데이터를 처리하면 품질 편차가 발생합니다. 비일관적인 학습데이터는 모델 성능 저하의 직접적인 원인이 됩니다.

파편화된 데이터 파이프라인

수집, 정제, 가공, 학습이 각기 다른 도구와 환경에서 진행됩니다. 단계 간 데이터 손실과 버전 불일치로 재작업이 반복됩니다.

WHY PANGEA+

좋은 AI는
좋은 데이터에서 시작됩니다

데이터 수집·처리 자동화

DB, 파일, API 등 다양한 소스의 원시 데이터를 자동으로 수집하고 통합 관리합니다.

데이터 정제·품질 관리

중복 제거, 노이즈 필터링, 포맷 표준화를 자동으로 처리하고 품질을 보장합니다.

AI 학습 데이터 생성

QA 생성, 요약, 분류 등 학습 데이터를 AI 기반으로 자동 생성합니다.

데이터셋 가공·변환

생성된 데이터를 조합하고 학습용 포맷으로 변환하여 데이터셋을 구성합니다.

모델 학습·파인튜닝

정제된 데이터로 바로 파인튜닝할 수 있는 학습 파이프라인을 제공합니다.

모델 평가·비교

학습된 모델의 성능을 다각도로 평가하고 벤치마크 결과를 비교합니다.

FEATURES

어떤 기능이 있나요?

Collection Studio

DB, 파일, API 등 다양한 소스에서 원시 데이터를 자동 수집하고 버전별로 관리합니다.

Data Studio

QA 생성, 요약, 분류 등 학습 데이터를 AI 기반으로 자동 생성하고 편집합니다.

Dataset Forge

원천 데이터를 조합하고 포맷을 변환하여 학습용 데이터셋(ML/LLM)으로 가공합니다.

Prompt Engineering

질문·답변 강화 프롬프트 등 AI 응답 품질을 높이기 위한 프롬프트 엔지니어링 도구를 제공합니다.

Training Pipeline

데이터셋과 베이스 모델을 선택하면 파인튜닝 학습을 자동으로 진행합니다.

Model Evaluation

학습된 모델의 성능을 다각도로 평가하고 벤치마크 결과를 비교합니다.

Data Lineage

원천 시스템부터 데이터셋·모델까지 자산 간 의존 관계와 변경 영향 범위를 시각적으로 추적합니다.

DCAT 표준 관리

DCAT·dct 등 정부 표준 메타데이터를 vocabulary 단위로 통합 관리하고 자체 확장합니다.

Configuration

모델 레지스트리, 메타데이터, 서버 환경 등 인프라 설정을 통합 관리합니다.

SCREENS

직접 확인해 보세요

01

통합 데이터 수집

DB, 파일 서버, API 등 다양한 소스에서 데이터를 자동으로 수집합니다.

02

버전 관리

수집 이력과 버전을 자동으로 관리하여 데이터 추적이 용이합니다.

03

스케줄링

배치 수집, 수동 수집, 직접 업로드 등 다양한 수집 방식을 지원합니다.

PERSONA

페르소나별 고민, PangeA+의 해답

현장의 문제와 궁금증을 파악하고, PangeA+만의 기술력으로 가장 시원한 답을 드립니다.

Persona 01

CDO (Chief Data Officer)

이런 고민이 있으신가요?

"어떤 데이터가 어떻게 쓰이고 있나?"에 답하려면 수작업이 필요하다.
사업부마다 AI 서비스 요구가 다른데, 플랫폼을 여러 개 살 수는 없다.
도메인 확장이 필요할 때마다 인프라 비용이 선형적으로 증가한다.
ML과 LLM을 각각 다른 벤더로 운영하면서 거버넌스가 분열된다.

PangeA+가 답을 드립니다

Single Platform, Multi Domain

DB 키 하나로 도메인을 추가 및 이동합니다. 인프라 복제는 없습니다.
ML + LLM 통합

한 개의 벤더, 한 개의 거버넌스, 한 개의 리니지 그래프로 제공합니다.
완전 자동 계보 추적

조직 전체의 AI 데이터 흐름을 실시간으로 시각화합니다.
규제 대응 준비 완료

"이 문서를 삭제하면 어떤 학습 데이터가 영향 받나?"에 즉시 답합니다.

"학습데이터를 조직의 자산으로 축적 및 추적하세요."

Persona 02

AI 플랫폼 리드 / 엔지니어링 매니저

이런 고민이 있으신가요?

사업부마다 "우리 데이터는 격리되어야 한다"고 요구한다.
동시에 경영진은 "플랫폼은 하나여야 한다"고 한다.
새 도메인 추가 때마다 서버·DB·배포를 복제한다.
ML 팀과 LLM 팀이 서로 다른 도구를 써서 통합이 불가능하다.

PangeA+가 답을 드립니다

파라미터 격리

GUI에서 단순 전환으로 완전 격리된 워크스페이스를 제공합니다.
서비스 그룹 아키텍처

API / Materialize / Graphdb / Message / Lake 등을 노드별로 독립 배포할 수 있습니다.
자동 부트스트랩

신규 컴포넌트가 추가되면 자동 설정 등록됩니다. 수작업 연결이 필요없습니다.
통합 API 체계

ML 데이터셋과 LLM 데이터셋이 동일한 라우터 패턴과 동일한 정책 모델을 사용합니다.

"ML·LLM 학습데이터를 하나의 파이프라인으로."

Persona 03

ML 엔지니어 / 데이터 사이언티스트

이런 고민이 있으신가요?

피처 정책을 바꾸고 나면 어떤 데이터셋이 재학습 대상인지 알 수 없다.
Materialize된 결과가 어떤 원본에서 왔는지 추적이 어렵다.
결측치 처리 정책이 있어도 결과가 일관되게 저장되지 않는다.
여러 사업 도메인 데이터셋을 오가며 작업할 때 컨텍스트 스위칭이 힘들다.
만 건짜리 데이터셋 생성 중 중간에 실패하면 어디서부터 재시작할지 모르겠다.

PangeA+가 답을 드립니다

피처 / 라벨 독립적 버저닝

정책 변경이 데이터셋 버전과 분리됩니다.
Impact Analysis API

Lineage Impact 하나로 영향 데이터셋 전체 목록을 추적합니다.
일관된 결측치 정책

결측치가 없어도 정책이 있으면 결과가 저장됩니다. 재현성을 보장합니다.
카테고리컬 인코딩 추적

통계 결과에 인코딩 방식이 꼬리표로 남습니다.
데이터셋 재처리

파이프라인 단계별 재처리를 보장합니다.

"피처를 바꾸면 어떤 학습데이터가 영향 받는지 즉시 아는 플랫폼."

Persona 04

LLM 엔지니어 / 데이터 사이언티스트

이런 고민이 있으신가요?

특정 문서가 어떤 프로젝트에 포함되었는지 되짚기가 어렵다.
LLM 정책(프롬프트 템플릿, 파라미터)을 바꾸면 뭐가 달라지는지 불투명하다.
문서 저작권/민감도 이슈 발생 시 영향 범위 파악이 급하다.
고객이 "우리 문서가 학습에 쓰였나요?"라고 물어보면 답이 안 나온다.
프롬프트 템플릿을 바꿨는데 이전 데이터셋과 섞여버렸다.
증강 작업자 보호와 LLM 증강 사용 금지 정책을 준수해야 한다.
문서 하나에서 청크가 수백 개, 엔트리가 수천 개 만들어지는 관계를 추적하기 어렵다.

PangeA+가 답을 드립니다

LLM Dataset Forge

문서 → 청크 → 엔트리 → 데이터셋 생성을 큐 기반으로 자동화합니다.
Project ↔ Document 그래프

프로젝트와 문서의 관계가 자동으로 기록 및 추적됩니다.
LLM 정책 버저닝

LLM 노드 버전관리로 정책 변경 영향 데이터셋을 즉시 추적합니다.
Impact on Raw Document

문제되는 문서 하나로 영향 받는 LLM 데이터셋 전체 목록을 한 번에 조회합니다.
작업자용 큐레이션 UI

증강 작업자가 원본 행을 보고 변형 샘플을 입력할 수 있는 검수/승인 큐를 제공합니다.

"프롬프트 자동 생성부터 LLM 학습데이터까지, 그래프로 완전 추적."

Persona 05

데이터 거버넌스 / 컴플라이언스 담당자

이런 고민이 있으신가요?

개인정보·민감정보 문서가 어떤 AI 모델에 영향을 줬는지 추적해야 한다.
정책 변경 시 기존 모델/데이터셋의 재검증 대상을 빠르게 식별해야 한다.
규제 감사 시 데이터 출처를 입증할 증거가 필요하다.
도메인별로 데이터 처리 정책이 다른데, 이를 플랫폼 레벨에서 강제해야 한다.

PangeA+가 답을 드립니다

End-to-End Lineage

원본 문서부터 최종 Artifact까지 그래프로 완전 추적됩니다.
5종 Impact Analysis

Raw Document / Struct Document / Feature Version / Label Version / LLM Version
도메인별 격리 강제

DB 파라미터 기반 논리 격리로 도메인 간 데이터 혼입을 원천 차단합니다.
감사 증적 자동화

PangeA+ 계보 그래프가 곧 감사 증적입니다. 별도 문서화가 불필요합니다.

"학습데이터의 출처와 품질을 감사에 즉시 증명합니다."

Persona 06

IT 운영 / DevOps

이런 고민이 있으신가요?

사업부마다 플랫폼을 복제하면 모니터링·백업·업데이트가 N배가 된다.
컴포넌트 간 연결 설정을 수작업으로 하면 실수가 잦다.
패키지 배포가 OS별·서비스별로 달라 관리 포인트가 급증한다.
도메인별로 장애 발생 시 어느 컴포넌트가 문제인지 빠르게 식별해야 한다.

PangeA+가 답을 드립니다

서비스 그룹 기반 배포

플랫폼 한 곳에서 OS/서비스별 패키지를 선언적으로 관리합니다.
자동 부트스트랩

컴포넌트가 자기 설정을 스스로 등록합니다. 사람이 연결하지 않습니다.
Single Codebase, Multi Node

단일 노드부터 클러스터까지 동일한 코드, 동일한 설정 구조를 제공합니다.
내장 리포트 도구

플랫폼에서 설정·상태를 즉시 점검합니다.

"원본 문서부터 학습데이터 활용까지 한 곳에서."

Q&A

이런 고민이 있으신가요?
PangeA+가 답을 드립니다

현장의 고민에 PangeA+의 기술력으로 답합니다.

완전 자동 계보 추적 조직 전체의 AI 데이터 흐름을 실시간으로 시각화합니다. 원본 문서부터 최종 모델까지 그래프로 완전 추적됩니다.

Single Platform, Multi Domain DB 키 하나로 도메인을 추가 및 이동합니다. 인프라 복제 없이 하나의 플랫폼에서 다양한 사업부를 지원합니다.

ML + LLM 통합 한 개의 벤더, 한 개의 거버넌스, 한 개의 리니지 그래프. 도메인이 늘어도 비용은 선형 증가하지 않습니다.

규제 대응 준비 완료 "이 문서를 삭제하면 어떤 학습 데이터가 영향 받나?"에 즉시 답합니다. 단일 거버넌스로 통합 관리합니다.

파라미터 격리 GUI에서 단순 전환으로 완전 격리된 워크스페이스를 제공합니다.

서비스 그룹 아키텍처 API / Materialize / Graphdb / Message / Lake 등을 노드별로 독립 배포할 수 있습니다.

자동 부트스트랩 신규 컴포넌트가 추가되면 자동 설정 등록됩니다. 수작업 연결이 필요없습니다.

통합 API 체계 ML 데이터셋과 LLM 데이터셋이 동일한 라우터 패턴과 동일한 정책 모델을 사용합니다.

피처 / 라벨 독립적 버저닝 정책 변경이 데이터셋 버전과 분리됩니다.

Impact Analysis API Lineage Impact 하나로 영향 데이터셋 전체 목록을 추적합니다.

일관된 결측치 정책 결측치가 없어도 정책이 있으면 결과가 저장됩니다. 재현성을 보장합니다.

카테고리컬 인코딩 추적 통계 결과에 인코딩 방식이 꼬리표로 남습니다. 도메인 전환 시에도 맥락이 유지됩니다.

데이터셋 재처리 파이프라인 단계별 재처리를 보장합니다. 실패 지점부터 이어서 처리합니다.

Project ↔ Document 그래프 프로젝트와 문서의 관계가 자동으로 기록 및 추적됩니다.

LLM 정책 버저닝 LLM 노드 버전관리로 정책 변경 영향 데이터셋을 즉시 추적합니다.

Impact on Raw Document 문제되는 문서 하나로 영향 받는 LLM 데이터셋 전체 목록을 한 번에 조회합니다.

LLM Dataset Forge 문서 → 청크 → 엔트리 → 데이터셋 생성을 큐 기반으로 자동화합니다.

작업자용 큐레이션 UI 증강 작업자가 원본 행을 보고 변형 샘플을 입력할 수 있는 검수/승인 큐를 제공합니다.

End-to-End Lineage 원본 문서부터 최종 Artifact까지 그래프로 완전 추적됩니다.

5종 Impact Analysis Raw Document / Struct Document / Feature Version / Label Version / LLM Version — 5종 영향 분석을 제공합니다.

감사 증적 자동화 PangeA+ 계보 그래프가 곧 감사 증적입니다. 별도 문서화가 불필요합니다.

도메인별 격리 강제 DB 파라미터 기반 논리 격리로 도메인 간 데이터 혼입을 원천 차단합니다.

서비스 그룹 기반 배포 플랫폼 한 곳에서 OS/서비스별 패키지를 선언적으로 관리합니다.

자동 부트스트랩 컴포넌트가 자기 설정을 스스로 등록합니다. 사람이 연결하지 않습니다.

Single Codebase, Multi Node 단일 노드부터 클러스터까지 동일한 코드, 동일한 설정 구조를 제공합니다.

내장 리포트 도구 플랫폼에서 설정·상태를 즉시 점검합니다.

PLATFORM vs SERVICE

AI 학습데이터 플랫폼 vs AI 서비스는
본질적으로 역할이 다릅니다

AI 서비스는 파인 튜닝을 대체하는 것이 아니라 보완하는 것이며, 두 방식 모두 고품질 데이터가 핵심이기 때문에 이를 체계적으로 관리하는 AI 학습 데이터 플랫폼이 반드시 필요합니다.

AI 학습데이터 플랫폼

AI 서비스

원천 데이터

API / UI

수집 → 정제 → 라벨링

RAG & 추론

품질검증 → 버전관리

응답 생성

학습 데이터셋

내보내기

모델 배포

모델 학습 / 파인튜닝

받기

피드백 / 로그 수집

평가 데이터셋

모니터링

모델 평가 / 벤치마크

재학습 · 재현

결국, AI 성능은 알고리즘이 아니라 데이터 lifecycle에서 결정됩니다.

DATA LIFECYCLE

플랫폼에서 태어나
서비스에서 진화하는 AI

원천 데이터는 플랫폼에서 학습 데이터셋으로 정제되고, 서비스에서 활용되며 피드백으로 돌아옵니다. 이 순환이 반복될수록 AI는 더 정교해집니다.

데이터를 준비합니다

AI 학습데이터 플랫폼

정책 기반 자동 변환 — 코드 없이 정제·라벨링·토큰화
Two-Pass 처리로 재현 가능한 학습·평가 데이터셋 생성
DCAT 표준 메타데이터·계보 자동 부착
ML·LLM 통합 단일 파이프라인 — 도메인별 격리

데이터를 활용합니다

AI 서비스

API·UI를 통한 추론 응답 제공
RAG 기반 검색 증강 생성
사용자 피드백·로그를 다시 학습 데이터로 환류
모델 배포·운영 모니터링

원천 데이터

학습 데이터셋

모델 학습

모델 배포

사용자 피드백

재학습

재학습은 코드 수정 없이 정책·데이터셋만 갱신해서 진행됩니다.

결국, AI 성능은 알고리즘이 아니라 데이터 lifecycle에서 결정됩니다.

DATA LIFECYCLE

좋은 AI 서비스 뒤에는
좋은 데이터 플랫폼이 있습니다

PangeA+가 데이터를 수집·정제·검증하여 학습 데이터셋을 만들고,
AI 서비스가 이를 활용하여 더 정확하고 신뢰할 수 있는 서비스를 제공합니다.

데이터를 준비합니다

AI 학습데이터 플랫폼

정책 기반 자동 변환 — 코드 없이 정제·라벨링·토큰화
Two-Pass 처리로 재현 가능한 데이터셋 생성
DCAT 메타데이터·계보 자동 부착
ML·LLM 통합 단일 파이프라인

검증된 학습 데이터셋 공급

공급

검증된 학습 데이터셋 전달

지속적 순환

현장 피드백 / 로그를
재학습 데이터로 환류

수집

재학습은 코드 수정 없이
정책·데이터셋만 갱신해서 진행됩니다.

데이터를 활용합니다

AI 서비스

API·UI를 통한 추론 응답 제공
RAG 기반 검색 증강 생성
사용자 피드백·로그를 다시 플랫폼으로 환류
모델 배포·운영 모니터링

모델 배포·서비스 운영

플랫폼이 데이터를 준비하고, 서비스가 활용하고, 피드백이 다시 돌아옵니다.
이 순환이 반복될수록 AI는 더 정교해집니다.

DATA LIFECYCLE

좋은 AI 서비스 뒤에는
좋은 데이터 플랫폼이 있습니다

PangeA+가 데이터를 수집·정제·검증하여 학습 데이터셋을 만들고,
AI 서비스가 이를 활용하여 더 정확하고 신뢰할 수 있는 서비스를 제공합니다.

데이터를 준비합니다

AI 학습데이터 플랫폼

정책 기반 자동 변환 — 코드 없이 정제·라벨링·토큰화
Two-Pass 처리로 재현 가능한 데이터셋 생성
DCAT 메타데이터·계보 자동 부착
ML·LLM 통합 단일 파이프라인

검증된 학습 데이터셋 공급

내보내기

검증된 학습 데이터셋 전달

지속적 순환

현장 피드백 / 로그를
재학습 데이터로 환류

받기

데이터를 활용합니다

AI 서비스

API·UI를 통한 추론 응답 제공
RAG 기반 검색 증강 생성
사용자 피드백·로그를 다시 플랫폼으로 환류
모델 배포·운영 모니터링

모델 배포·서비스 운영

플랫폼이 데이터를 준비하고, 서비스가 활용하고, 피드백이 다시 돌아옵니다.
이 순환이 반복될수록 AI는 더 정교해집니다.

데이터가 준비되어야
AI가 시작됩니다.

AI 학습데이터, 아직도 수작업에 의존하고 계신가요?

높은 비용과 긴 소요 시간

일관되지 않는 데이터 품질

파편화된 데이터 파이프라인

좋은 AI는
좋은 데이터에서 시작됩니다

어떤 기능이 있나요?

Collection Studio

Data Studio

Dataset Forge

Prompt Engineering

Training Pipeline

Model Evaluation

Data Lineage

DCAT 표준 관리

Configuration

직접 확인해 보세요

페르소나별 고민, PangeA+의 해답

CDO (Chief Data Officer)

AI 플랫폼 리드 / 엔지니어링 매니저

ML 엔지니어 / 데이터 사이언티스트

LLM 엔지니어 / 데이터 사이언티스트

데이터 거버넌스 / 컴플라이언스 담당자

IT 운영 / DevOps

이런 고민이 있으신가요?
PangeA+가 답을 드립니다

AI 학습데이터 플랫폼 vs AI 서비스는
본질적으로 역할이 다릅니다

플랫폼에서 태어나
서비스에서 진화하는 AI

AI 학습데이터 플랫폼

AI 서비스

좋은 AI 서비스 뒤에는
좋은 데이터 플랫폼이 있습니다

AI 학습데이터 플랫폼

AI 서비스

좋은 AI 서비스 뒤에는
좋은 데이터 플랫폼이 있습니다

AI 학습데이터 플랫폼

AI 서비스

AI에게
학습할 수 있는 데이터를 주세요.

데이터가 준비되어야 AI가 시작됩니다.

AI 학습데이터, 아직도 수작업에 의존하고 계신가요?

높은 비용과 긴 소요 시간

일관되지 않는 데이터 품질

파편화된 데이터 파이프라인

좋은 AI는좋은 데이터에서 시작됩니다

어떤 기능이 있나요?

Collection Studio

Data Studio

Dataset Forge

Prompt Engineering

Training Pipeline

Model Evaluation

Data Lineage

DCAT 표준 관리

Configuration

직접 확인해 보세요

페르소나별 고민, PangeA+의 해답

이런 고민이 있으신가요?PangeA+가 답을 드립니다

AI 학습데이터 플랫폼 vs AI 서비스는본질적으로 역할이 다릅니다

플랫폼에서 태어나서비스에서 진화하는 AI

AI 학습데이터 플랫폼

AI 서비스

좋은 AI 서비스 뒤에는좋은 데이터 플랫폼이 있습니다

AI 학습데이터 플랫폼

AI 서비스

좋은 AI 서비스 뒤에는좋은 데이터 플랫폼이 있습니다

AI 학습데이터 플랫폼

AI 서비스

AI에게학습할 수 있는 데이터를 주세요.

데이터가 준비되어야
AI가 시작됩니다.

좋은 AI는
좋은 데이터에서 시작됩니다

이런 고민이 있으신가요?
PangeA+가 답을 드립니다

AI 학습데이터 플랫폼 vs AI 서비스는
본질적으로 역할이 다릅니다

플랫폼에서 태어나
서비스에서 진화하는 AI

좋은 AI 서비스 뒤에는
좋은 데이터 플랫폼이 있습니다

좋은 AI 서비스 뒤에는
좋은 데이터 플랫폼이 있습니다

AI에게
학습할 수 있는 데이터를 주세요.