banner
홈페이지 / 소식 / CWDN 시리즈: 개발
소식

CWDN 시리즈: 개발

May 22, 2023May 22, 2023

Computer Weekly Application Developer Network에서 제공하는 소프트웨어 개발의 최신 동향.

이것은 Snorkel AI의 제품 부사장인 Aparna Lakshmiratan이 작성한 Computer Weekly Developer Network의 게스트 게시물입니다. 이 회사는 기업이 기본 모델(FM) 및 대형 언어 모델(LLM)을 구축하거나 적용하여 수행할 수 있는 기술로 잘 알려져 있습니다. 도메인별 엔터티에 대해 높은 정확도를 제공합니다.

Lakshmiratan은 다음과 같이 전문을 씁니다.

올바르게 수행되면 데이터 라벨링은 개발자 경험을 향상시킬 수 있습니다.

그 주장은 이상하게 들릴 수도 있다. 데이터 라벨링 프로세스는 종종 필요하고 불쾌한 작업을 나타냅니다. 그러나 프로그래밍 방식 및 반복적 접근 방식을 취하면 주제 전문가와 데이터 팀이 조직의 지식을 인코딩하여 더 우수하고 가치 있는 모델을 더 빠르게 구축할 수 있기 때문에 부서 간 이해를 구축하는 데 도움이 될 수 있습니다.

데이터 과학자와 기계 학습 실무자는 데이터를 처리하고 모델을 구축하는 방법을 알고 있습니다. 원하는 결과를 가리키면 데이터를 사용하여 해당 결과를 효율적으로 달성하는 애플리케이션을 구축하게 됩니다.

그러나 그 결과가 비즈니스의 변화하는 요구 사항과 항상 완벽하게 일치하는 것은 아닙니다. 사일로화된 조직에서는 리더가 계획을 세우고 각 팀이 그 역할을 실행합니다. 원래 목표가 목표를 벗어나면 최종 실행도 마찬가지입니다. 이는 실망스러운 결과로 인해 생산이 즉시 정밀 검사를 받아야 하는 경우 모델 개발자에게 불쾌한 경험을 초래할 수 있습니다.

라벨링 이면의 논리에 참여함으로써 개발자는 이러한 단절을 발견하고 그에 따라 조정할 수 있습니다.

아웃소싱된 데이터 라벨링은 이해의 사슬을 깨뜨립니다.

아웃소싱된 데이터 라벨링은 단절된 이해 문제를 더욱 악화시킵니다. 아웃소싱할 때 회사는 라벨링 계약자에게 각 라벨을 적용할 시기에 대한 지침과 함께 원시 데이터를 제공합니다.

본질적인 보안 위험을 제쳐두고 이 접근 방식은 조직 내 지식의 사슬을 끊습니다. 해당 분야 전문가가 규칙을 정의합니다. 계약자는 이를 적용합니다. 데이터 팀은 라벨이 적용되는 이유를 거의 또는 전혀 이해하지 못한 채 라벨이 지정된 데이터를 받습니다. 이로 인해 이전에 볼 수 없었던 문제의 윤곽을 학습하고 이에 적응할 기회가 거의 남지 않습니다.

프로그래밍 방식 라벨링은 실무 협업을 통해 고립된 지식의 문제를 완화할 수 있습니다. 데이터 과학자와 내부 전문가가 협력하여 힘들게 얻은 직관을 확장 가능한 기능으로 코드화합니다. 때로는 단순한 키워드 검색일 때도 있습니다. 때때로 이는 대규모 언어 모델에 대한 정교한 호출입니다. 그럼에도 불구하고 이 프로세스는 기본 가정을 조사하는 데 도움이 되는 팀 간의 대화를 강제합니다.

Lakshmiratan: 프로그래밍 방식 라벨링은 실제 협업을 통해 고립된 지식의 문제를 완화할 수 있습니다.

해당 분야 전문가가 정의한 일부 규칙은 너무 광범위하여 오탐지로 이어질 수 있습니다. 정의된 규칙 세트로 인해 데이터의 상당 부분이 그대로 유지될 수도 있습니다. 또는 프로세스에서 정의된 레이블 스키마가 애플리케이션의 실제 요구 사항에 맞지 않는다는 사실이 드러날 수도 있습니다.

우리는 대출 문서를 분류하기 위한 모델이 필요한 미국의 대형 은행과 협력한 적이 있습니다. 은행은 문서의 민감성으로 인해 데이터 라벨링을 아웃소싱할 수 없었습니다. 그래서 내부 전문가들이 손으로 계약서를 8가지 카테고리로 분류했습니다. 6개월이 걸렸습니다. 그러다가 사업부 리더들은 이 작업에 실제로 30개의 범주가 필요하다는 사실을 깨달았습니다. 또 다른 6개월 라벨링 프로젝트가 예상됨에 따라 은행은 다른 솔루션을 찾고 프로그래밍 방식 라벨링으로 결정했습니다. 내부 전문가들은 크게 안도감을 느꼈습니다.

이 결과는 극단적이었지만 드문 일이 아니었습니다. 라벨링 프로젝트에 참여하는 사람들은 스키마에 조정이 필요하다는 사실을 자주 발견합니다. 아마도 덜 중요한 라벨은 너무 드물게 나타나서 무시해야 할 수도 있습니다. 다른 라벨을 결합하거나 분할해야 할 수도 있습니다. 프로그래밍 방식으로 레이블을 지정하면 주제 전문가와 기계 학습 실무자가 배포 피드백을 기다리지 않고 비행 중에 이러한 초기 단점을 발견하고 설명할 수 있습니다.