평가 방법 설명
심사기관·평가 담당자께서 R&D 성능 평가를 진행할 때 참고하는 공식 방법론 문서입니다.
본 문서는 TIPS 1차년도 발화 인식 기술의 성능을 어떻게 측정하는지, 어떤 데이터를 사용하며, 어떤 지표로 판단하는지를 안내합니다. 심사 시 제공되는 정답 데이터셋과 평가 데이터셋을 사용하여 본 포털의 발화 성능 평가 화면에서 동일한 방식으로 재현·검증할 수 있습니다.
전문가 라벨링·전사된 정답 텍스트로 구성됩니다. 평가 유형별로 음절(80단어), 음소(50단어), 문장(50문장) 단위 데이터가 포함됩니다.
tips_year1_reference.zip
정답 데이터셋 예시 파일명 (평가 시 별도 제공)
동일 구성을 가진 모델 추론 결과(인식 결과 텍스트)입니다. 정답 데이터셋과 1:1 대응되며, 지표 산출 시 비교 대상으로 사용됩니다.
tips_year1_eval.zip
평가 데이터셋 예시 파일명 (평가 시 별도 제공)
평가 유형별 데이터 구성
- · 음절 인식 정확도: 80개 단어 (음절 단위)
- · 인식 발화 오류율 (PER): 50개 단어 (음소/자모 단위)
- · 문장 수준 인식 정확도 (WER): 50개 문장 (단어/어절 단위)
데이터셋은 ZIP 등 형태로 제공될 수 있으며, 발화 성능 평가 화면에서 유형을 선택한 뒤 정답·평가 파일을 각각 업로드하면 됩니다.
발화 기술의 성능 평가는 국제적으로 통용되는 음성 인식 평가 지표를 기반으로 합니다. 음절 수준의 정확도와 인식 발화 오류율을 정량적으로 측정하여 기술의 성숙도를 판단하며, 평가 데이터셋은 다양한 연령대와 발화 환경을 포함하여 모델의 일반화 성능을 검증합니다.
1. 음절 인식 정확도 (Syllable Accuracy)
목표: 97.5% 이상정확하게 인식된 음절 수를 전체 음절 수로 나누어 산출합니다. 아동의 발화 특성을 고려하여 음절 단위로 평가합니다.
Syllable Accuracy = (Correct Syllables / Total Syllables) x 1002. 인식 발화 오류율 (Phoneme Error Rate, PER)
목표: 7.5% 이하음소 수준에서 대치(Substitution), 삭제(Deletion), 삽입(Insertion) 오류를 합산하여 전체 발화 수 대비 오류율을 산출합니다.
PER = (S + D + I) / N x 100* S: 대치 음소 수, D: 삭제 음소 수, I: 삽입 음소 수, N: 전체 정답 음소 수
3. 문장 수준 인식 정확도 (Word Error Rate, WER)
목표: 30% 이하단어(어절) 수준에서의 인식 오류율을 측정합니다. 인식 발화 오류율(PER)과 동일한 산식을 사용하되, 단어 단위로 평가합니다.
WER = (S + D + I) / W x 100* S: 대치 단어 수, D: 삭제 단어 수, I: 삽입 단어 수, W: 전체 정답 단어 수
음성 데이터 수집
아동의 발화 음성을 WAV 포맷으로 녹음하여 데이터셋을 구축합니다. 다양한 발화 환경과 연령대를 포함하여 대표성을 확보합니다.
음성 전처리
수집된 음성 데이터에서 노이즈를 제거하고, 발화 구간을 분리(VAD)하여 분석에 적합한 형태로 가공합니다.
AI 모델 추론
전처리된 음성 데이터를 발화 인식 AI 모델에 입력하여 음절, 단어 수준의 텍스트를 생성합니다.
성능 지표 산출
모델의 추론 결과와 정답(Ground Truth)을 비교하여 음절 인식 정확도, 인식 발화 오류율(PER), 문장 수준 인식 정확도(WER) 등의 지표를 산출합니다.
평가 및 보고
산출된 지표를 목표 수치와 비교하여 달성 여부를 판단하고, R&D 성과 보고서를 생성합니다.
참고사항
- - 본 평가 체계는 TIPS R&D 과제 성과 증빙을 위해 설계되었습니다.
- - 정답 데이터셋·평가 데이터셋은 사업자가 준비하여 심사(평가) 시 제공하며, 시험기관은 발화 성능 평가 화면에서 업로드하여 동일 조건으로 재현·검증할 수 있습니다.
- - 지표 산출 방식은 국제 표준(IEEE, ISCA 등)을 준용합니다.
- - 향후 2차년도 과제에서 발성 특성 분석 및 추천 시스템 관련 지표가 추가될 예정입니다.