Ілон Маск заявив, що обсяг доступних для навчання штучного інтелекту (ШІ) даних вичерпано, і наголосив на необхідності переходу до синтетичних даних, які мають потенціал знизити витрати, але водночас несуть ризики для креативності та об’єктивності моделей.
На думку Маска, сучасна індустрія ШІ зіткнулася із “піком даних”, коли сукупний обсяг людських знань, доступний для навчання моделей, досяг свого максимуму. Він зазначив: “Ми практично вичерпали сукупний обсяг людських знань… у навчанні ШІ. Це сталося минулого року” (Ілон Маск, 2024). Аналогічні тези висловлював Ілля Суцкевер, прогнозуючи необхідність змін у методах розробки через дефіцит даних.
Синтетичні дані, тобто дані, які створюються самими моделями ШІ, вже використовуються такими компаніями, як Microsoft, Google, OpenAI, Anthropic і Meta. Наприклад, моделі Phi-4 від Microsoft та Gemma від Google були навчені з використанням комбінованих даних. Meta застосувала синтетичні матеріали у розробці останньої серії моделей Llama. За оцінками аналітиків Gartner, до 2024 року 60% даних для проєктів ШІ генеруватимуться саме штучним шляхом.
Суттєвим аргументом на користь синтетичних даних є економія. Так, створення моделі Palmyra X 004 від стартапу Writer обійшлося у $700 000, що значно менше порівняно з $4,6 млн на аналогічну модель OpenAI. Однак економічні переваги не компенсують ризиків, таких як “колапс моделі”, який означає зниження творчих здібностей і зростання упередженості систем через використання штучних даних. Дослідники наголошують, що спотворення в початкових навчальних даних передаються й у результати, підсилюючи системні обмеження.
Таким чином, хоча синтетичні дані пропонують інноваційний підхід для навчання ШІ, їх застосування потребує обережності та вдосконалення методів для мінімізації ризиків зниження якості моделей.
#Ми #вичерпали #майже #всі #дані #для #навчання #ШІ
Source link