NEWS/IT news

AI 모델 훈련에 쓸 데이터가 없어지고 있다

clodagh 2024. 7. 23. 15:43

MIT가 주도하는 연구 그룹인 데이터 프로방스 이니셔티브(Data Provenance Initiative)에 따르면 지난 1년 동안 AI 모델 학습에 사용되는 가장 중요한 웹 소스들 중 상당수가 데이터 사용을 제한하고 있는  것으로 나타났다.

뉴욕타임스 보도에 따르면 데이터 프로방스 이니셔티브는 널리 쓰이는 3가지 AI 학습 데이터셋이 포함된 1만4000개 웹 도메인들을 조사했고 퍼블리셔들과 온라인 플랫폼들이 데이터 수집을 막는 조치를 취함에 따라 동의와 관련해 새로운 위기(emerging crisis in consent)가  발생하고 있다는 점을 밝혔다.  AI 훈련에 데이터를 사용하지 못하도록 하는 제한 조치들이 여기저기에서 취해지고 있다는 얘기였다.

데이터 프로방스 이니셔티브 연구원들은 연구AI 훈련에 쓰이는빅3 데이터셋인 C4, 리파인드웹(RefinedWeb), 돌마(Dolma)의 경우 전체 데이터 중 5% 고품질 소스 데이터 중 25%가 사용이 제한되고 있다고 추정했다. C4의 경우 많게는 45%에 달하는 데이터가 웹사이트들 서비스 규정들에 의해 사용이 제한되고 있는 것으로 조사됐다고 뉴욕타임스는 전했다.

 

 

AI 모델 훈련에 쓸 데이터가 없어지고 있다 - 디지털투데이 (DigitalToday)

[디지털투데이 황치규 기자]거대 언어 모델(LLM) 개발에 가져다 쓸 데이터가 점점 고갈되고 있다는 시그널이 여기저기에서 포착되고 있다. 특히 AI 모델 훈련에 데이터를 활용하기가 예전보다 힘

www.digitaltoday.co.kr

 

데이터 분석이 중요해지는 시대가 점점 앞당겨지고있다.

'NEWS > IT news' 카테고리의 다른 글

한국 GPT 기술 개발 현황  (0) 2023.02.22
AWS Innovate - Data 및 AI/ML 특집  (0) 2023.02.22
게임 + 생성 AI 모델  (0) 2023.02.19