Ми вичерпали майже всі дані для навчання ШІ

Uncategorized

Ілон Маск заявив, що обсяг доступних для навчання штучного інтелекту (ШІ) даних вичерпано, і наголосив на необхідності переходу до синтетичних даних, які мають потенціал знизити витрати, але водночас несуть ризики для креативності та об’єктивності моделей.

by @chatchanan366

На думку Маска, сучасна індустрія ШІ зіткнулася із “піком даних”, коли сукупний обсяг людських знань, доступний для навчання моделей, досяг свого максимуму. Він зазначив: “Ми практично вичерпали сукупний обсяг людських знань… у навчанні ШІ. Це сталося минулого року” (Ілон Маск, 2024). Аналогічні тези висловлював Ілля Суцкевер, прогнозуючи необхідність змін у методах розробки через дефіцит даних.

Синтетичні дані, тобто дані, які створюються самими моделями ШІ, вже використовуються такими компаніями, як Microsoft, Google, OpenAI, Anthropic і Meta. Наприклад, моделі Phi-4 від Microsoft та Gemma від Google були навчені з використанням комбінованих даних. Meta застосувала синтетичні матеріали у розробці останньої серії моделей Llama. За оцінками аналітиків Gartner, до 2024 року 60% даних для проєктів ШІ генеруватимуться саме штучним шляхом.

Суттєвим аргументом на користь синтетичних даних є економія. Так, створення моделі Palmyra X 004 від стартапу Writer обійшлося у $700 000, що значно менше порівняно з $4,6 млн на аналогічну модель OpenAI. Однак економічні переваги не компенсують ризиків, таких як “колапс моделі”, який означає зниження творчих здібностей і зростання упередженості систем через використання штучних даних. Дослідники наголошують, що спотворення в початкових навчальних даних передаються й у результати, підсилюючи системні обмеження.

Таким чином, хоча синтетичні дані пропонують інноваційний підхід для навчання ШІ, їх застосування потребує обережності та вдосконалення методів для мінімізації ризиків зниження якості моделей.

#Ми #вичерпали #майже #всі #дані #для #навчання #ШІ

Source link

Оцініть статтю