ස්ථායී විසරණය

Stable Diffusion
	An image generated by Stable Diffusion based on the text prompt "a photograph of an astronaut riding a horse"
Original author(s)	Runway, CompVis, and Stability AI
සංවර්ධක(යෝ)	Stability AI
ප්‍රථම නිකුතුව	August 22, 2022
ස්ථායි නිකුතුව	SDXL 1.0 (model) / July 26, 2023
Repository	github.com/Stability-AI/stablediffusion
ක්‍රමලේඛන භාෂා(ව)	Python
මෙහෙයුම් පද්ධතිය	Any that support CUDA kernels
වර්ගය	Text-to-image model
බලපත්‍රය	Creative ML OpenRAIL-M
වෙබ් අඩවිය	stability.ai/stable-image

ස්ථායී විසරණය යනු විසරණ ශිල්පීය ක්‍රම මත පදනම්ව 2022 දී නිකුත් කරන ලද ගැඹුරු ඉගෙනුම්, පෙළ සිට රූපය දක්වා ආකෘතියකි . එය ප්‍රධාන වශයෙන් භාවිතා වන්නේ පෙළ විස්තර මත කොන්දේසි සහිත සවිස්තරාත්මක රූප උත්පාදනය කිරීම සඳහා වන නමුත්, එය තීන්ත ආලේප කිරීම, තීන්ත ආලේප කිරීම සහ පෙළ විමසුමකින් මඟ පෙන්වන රූපයෙන් රූපයට පරිවර්තන ජනනය කිරීම වැනි වෙනත් කාර්යයන් සඳහා ද යෙදිය හැකිය. ^[3] එය ස්ථායීතා AI සහ ලාභ නොලබන සංවිධානවල පුහුණු දත්ත සමඟින් මියුනිච් සහ ධාවන පථයේ ලුඩ්විග් මැක්සිමිලියන් විශ්ව විද්‍යාලයේ CompVis සමූහයේ පර්යේෂකයන් විසින් සංවර්ධනය කරන ලදී. ^[4] ^[5] ^[6]

ස්ථායී විසරණය යනු ගුප්ත විසරණ ආකෘතියකි, ගැඹුරු ජනක කෘතිම ස්නායු ජාලයකි . එහි කේත සහ මාදිලි බර ප්‍රසිද්ධියේ නිකුත් කර ඇත, ^[7] එය අවම වශයෙන් 8ක් සහිත සාමාන්‍ය GPU එකකින් සමන්විත බොහෝ පාරිභෝගික දෘඩාංග මත ක්‍රියාත්මක විය හැක. GB VRAM . මෙය ක්ලවුඩ් සේවා හරහා පමණක් ප්‍රවේශ විය හැකි DALL-E සහ Midjourney වැනි පෙර හිමිකාර පෙළ-සිට-පින්තූර ආකෘතිවලින් බැහැරවීමක් සලකුණු කළේය. ^[8]

වර්ධනය

ස්ථායී විසරණයේ සංවර්ධනය සඳහා අරමුදල් සපයනු ලැබුවේ සහ හැඩගැස්වූයේ ආරම්භක සමාගමක් වන Stability AI විසිනි. ^[9] ^[10] ආකෘතිය සඳහා තාක්ෂණික බලපත්‍රය Munich හි Ludwig Maximilian විශ්ව විද්‍යාලයේ CompVis සමූහය විසින් නිකුත් කරන ලදී. ධාවන පථයේ පැට්‍රික් එසර් සහ CompVis හි රොබින් රොම්බාච් විසින් සංවර්ධනය මෙහෙයවනු ලැබූ අතර, ස්ථායී විසරණය විසින් භාවිතා කරන ලද ගුප්ත විසරණ ආකෘති ගෘහ නිර්මාණ ශිල්පය මීට පෙර සොයා ගත් පර්යේෂකයන් අතර විය. ස්ථායීතා AI විසින් EleutherAI සහ LAION (ස්ථාවර විසරණය පුහුණු කරන ලද දත්ත කට්ටලය එකලස් කරන ලද ජර්මානු ලාභ නොලබන ආයතනයක්) ව්‍යාපෘතියේ ආධාරකරුවන් ලෙස ද බැර කරන ලදී.

2022 ඔක්තෝම්බර් මාසයේදී, ස්ථායිතා AI විසින් US$101ක් රැස් කරන ලදී Lightspeed Venture Partners සහ Coatue Management විසින් මෙහෙයවන ලද වටයකින් මිලියනයක්. ^[11]

තාක්ෂණ

ස්ථායී විසරණය විසින් භාවිතා කරන ගුප්ත විසරණ ගෘහ නිර්මාණ ශිල්පයේ රූප සටහන

ස්ථායී විසරණය මගින් භාවිතා කරන denoising ක්රියාවලිය. වින්‍යාසගත පියවර ගණනකට ළඟා වන තෙක් අහඹු ශබ්දය පුනරුච්චාරණය කිරීමෙන් ආකෘතිය රූප ජනනය කරයි, අවධානය යොමු කිරීමේ යාන්ත්‍රණය සමඟ සංකල්ප මත පූර්ව පුහුණු කරන ලද CLIP පෙළ කේතකය මගින් මෙහෙයවනු ලැබේ, එහි ප්‍රතිඵලයක් ලෙස පුහුණු කළ සංකල්පයේ නිරූපණයක් නිරූපණය කරයි.

නිර්මාණ ශිල්පය

ස්ථායී විසරණය LMU මියුනිච් හි CompVis සමූහය විසින් සංවර්ධනය කරන ලද ගුප්ත විසරණ ආකෘතිය (LDM) ලෙස හඳුන්වන විසරණ ආකෘතියක් (DM) භාවිතා කරයි. ^[7] 2015 දී හඳුන්වා දෙන ලද, විසරණ ආකෘති පුහුණු කරනු ලබන්නේ පුහුණු රූපවල ගවුසියන් ශබ්දයේ අනුප්‍රාප්තික යෙදුම් ඉවත් කිරීමේ අරමුණ ඇතිව වන අතර එය ස්වයංක්‍රීය කේතක නිෂේධනය කිරීමේ අනුපිළිවෙලක් ලෙස සැලකිය හැකිය. ස්ථායී විසරණය කොටස් 3 කින් සමන්විත වේ: විචල්‍ය ස්වයංක්‍රීය කේතකය (VAE), U-Net, සහ විකල්ප පෙළ කේතකයකි. ^[12] VAE කේතකය පික්සල් අවකාශයේ සිට කුඩා මාන ගුප්ත අවකාශයක් දක්වා රූපය සම්පීඩනය කරයි, රූපයේ වඩාත් මූලික අර්ථකථන අර්ථයක් ග්‍රහණය කරයි. ඉදිරි විසරණයේදී සම්පීඩිත ගුප්ත නිරූපණයට ගවුසියන් ඝෝෂාව නැවත නැවතත් යොදනු ලැබේ. ^[12] ResNet කොඳු නාරටියකින් සමන්විත U-Net බ්ලොක්, ගුප්ත නිරූපණයක් ලබා ගැනීම සඳහා ඉදිරි විසරණයේ සිට පසුපසට ප්‍රතිදානය ප්‍රතික්ෂේප කරයි . අවසාන වශයෙන්, VAE විකේතකය නිරූපනය නැවත පික්සල් අවකාශයට පරිවර්තනය කිරීමෙන් අවසාන රූපය ජනනය කරයි. ^[12]

denoising පියවර පෙළ පෙළක්, රූපයක් හෝ වෙනත් ක්‍රමයක් මත නම්‍යශීලී ලෙස සකස් කළ හැක. කේතනය කරන ලද සමීකරණ දත්ත හරස්-අවධානය යාන්ත්‍රණයක් හරහා U-Nets denoising කිරීමට නිරාවරණය වේ. ^[12] පෙළ මත කන්ඩිෂන් කිරීම සඳහා, ස්ථාවර, පෙර පුහුණු කළ CLIP ViT-L/14 පෙළ කේතකය පෙළ විමසුම් කාවැද්දීමේ ඉඩක් බවට පරිවර්තනය කිරීමට භාවිතා කරයි. ^[7] පර්යේෂකයන් LDM වල වාසියක් ලෙස පුහුණුව සහ උත්පාදනය සඳහා වැඩි කළ ගණනය කිරීමේ කාර්යක්ෂමතාව පෙන්වා දෙයි.

U-Net හි පරාමිති මිලියන 860 ක් සහ පෙළ සංකේතාකනයේ මිලියන 123 ක් සමඟින්, ස්ථායී විසරණය 2022 ප්‍රමිතීන් විසින් සාපේක්ෂව සැහැල්ලු ලෙස සලකනු ලබන අතර අනෙකුත් විසරණ මාදිලි මෙන් නොව, එය පාරිභෝගික GPU මත ක්‍රියාත්මක විය හැක. ^[13]

පුහුණු දත්ත

ස්ථායී විසරණය LAION-5B වෙතින් ලබාගත් රූප සහ සිරස්තල යුගල මත පුහුණු කරන ලදී, වෙබයෙන් ඉවත් කරන ලද Common Crawl දත්ත වලින් ලබාගත් ප්‍රසිද්ධියේ ලබා ගත හැකි දත්ත කට්ටලයක් වන අතර එහිදී රූප-පෙළ යුගල බිලියන 5 ක් භාෂාව මත පදනම්ව වර්ගීකරණය කර විභේදනය අනුව වෙනම දත්ත කට්ටලවලට පෙරා ඇත. දිය සලකුණක් අඩංගු වීමේ පුරෝකථනය කරන ලද සම්භාවිතාව සහ පුරෝකථනය කරන ලද "සෞන්දර්යාත්මක" ලකුණු (උදා: ආත්මීය දෘශ්‍ය ගුණාත්මකභාවය). ^[14] දත්ත කට්ටලය ස්ථායී AI වෙතින් අරමුදල් ලබන ජර්මානු ලාභ නොලබන LAION විසින් නිර්මාණය කරන ලදී. ^[14] ^[15] ස්ථායී විසරණ ආකෘතිය LAION-5B හි උප කුලක තුනක් මත පුහුණු කරන ලදී: laion2B-en, laion-high-resolution, සහ laion-aesthetics v2 5+. ^[14] ආකෘතියේ පුහුණු දත්තවල තෙවන පාර්ශවීය විශ්ලේෂණයක් 12 හි කුඩා උප කුලකයකින් එය හඳුනාගෙන ඇත භාවිතා කරන ලද මුල් පුළුල් දත්ත කට්ටලයෙන් ලබාගත් මිලියන අනුරූ, රූපවල නියැදි ප්‍රමාණයෙන් ආසන්න වශයෙන් 47% විවිධ වසම් 100කින් පැමිණ ඇති අතර, Pinterest උප කුලකයෙන් 8.5%ක් ලබා ගන්නා අතර, පසුව WordPress, Blogspot, Flickr, DeviantArt සහ Wikimedia Commons වැනි වෙබ් අඩවි විසින් ලබා ගන්නා ලදී. . ^[16] ^[14]

පුහුණු ක්රියා පටිපාටි

මෙම ආකෘතිය මුලින් පුහුණු කරන ලද්දේ laion2B-en සහ laion-high-resolution උප කුලක මත වන අතර, අවසාන පුහුණු වට කිහිපය LAION-Aesthetics v2 5+ මත සිදු කරන ලදී, එය 600 ක උප කුලකයකි. LAION-Aesthetics Predictor V2 විසින් පුරෝකථනය කරන ලද සිරස්තල සහිත රූප මිලියනයක්, මිනිසුන් සාමාන්‍යයෙන්, ඔවුන් කොපමණ කැමතිදැයි ශ්‍රේණිගත කිරීමට විමසූ විට අවම වශයෙන් 10න් 5ක්වත් ලකුණු ලබා දෙනු ඇත. ^[17] ^[14] ^[18] LAION-5B-WatermarkDetection 80%කට වඩා වැඩි සම්භාවිතාවක් සහිත ජල සලකුණක් රැගෙන යන බවට හඳුනාගෙන ඇති අඩු-විභේදන රූප සහ රූප ද LAION-Aesthetics v2 5+ උපකුලකයෙන් බැහැර කර ඇත. ^[14] වර්ගීකරණ-නිදහස් විසරණ මාර්ගෝපදේශය වැඩි දියුණු කිරීම සඳහා අවසාන පුහුණු වටයන් පෙළ සමීකරණයෙන් 10%ක් අඩු කරන ලදී.

$600,000 ක වියදමින් සම්පූර්ණ GPU-පැය 150,000ක් සඳහා Amazon වෙබ් සේවා මත Nvidia A100 GPU 256ක් භාවිතා කරමින් මෙම ආකෘතිය පුහුණු කරන ලදී. ^[19] ^[20] ^[21]

සීමාවන්

ස්ථායී විසරණයට පිරිහීම සහ ඇතැම් අවස්ථා වලදී සාවද්‍යභාවය පිළිබඳ ගැටළු ඇත. ආකෘතියේ මුල් නිකුතු 512×512 විභේදන රූප වලින් සමන්විත දත්ත කට්ටලයක් මත පුහුණු කරන ලදී, එනම් පරිශීලක පිරිවිතරයන් එහි "අපේක්‍ෂිත" 512×512 විභේදනයෙන් බැහැර වන විට ජනනය කරන ලද රූපවල ගුණාත්මක භාවය සැලකිය යුතු ලෙස පිරිහී යයි; ^[22] ස්ථායී විසරණ ආකෘතියේ 2.0 අනුවාදය යාවත්කාලීන කිරීම පසුව 768×768 විභේදනයකින් ස්වදේශීයව රූප ජනනය කිරීමේ හැකියාව හඳුන්වා දෙන ලදී. ^[23] තවත් අභියෝගයක් වන්නේ LAION දත්ත ගබඩාවේ ඇති අත් පා වල දුර්වල දත්ත ගුණාත්මක භාවය හේතුවෙන් මිනිස් අත් පා උත්පාදනය කිරීමයි. ^[24] දත්ත සමුදායේ නියෝජන ලක්ෂණ නොමැතිකම හේතුවෙන් ආකෘතිය මිනිස් අත් පා සහ මුහුණු තේරුම් ගැනීමට ප්‍රමාණවත් ලෙස පුහුණු කර නොමැති අතර, එවැනි ආකාරයේ රූප ජනනය කිරීමට ආකෘතිය පොළඹවීම ආකෘතිය ව්‍යාකූල කළ හැකිය. ^[25]

තනි සංවර්ධකයින් සඳහා ප්‍රවේශ්‍යතාව ද ගැටලුවක් විය හැකිය. සජීවිකරණ අක්ෂර ජනනය කිරීම ("වයිෆු විසරණය") වැනි දත්ත කට්ටලයට ඇතුළත් නොවන නව භාවිත අවස්ථා සඳහා ආකෘතිය අභිරුචිකරණය කිරීම සඳහා, ^[26] නව දත්ත සහ වැඩිදුර පුහුණුව අවශ්‍ය වේ. අතිරේක නැවත පුහුණු කිරීම හරහා නිර්මාණය කරන ලද ස්ථායී විසරණයේ සියුම් ලෙස සකස් කරන ලද අනුවර්තනයන් වෛද්‍ය රූපකරණයේ සිට ඇල්ගොරිතමය ලෙස ජනනය කරන ලද සංගීතය දක්වා විවිධ භාවිත අවස්ථා සඳහා භාවිතා කර ඇත. ^[27] කෙසේ වෙතත්, මෙම සියුම්-සුසර කිරීමේ ක්රියාවලිය නව දත්තවල ගුණාත්මක භාවයට සංවේදී වේ; අඩු විභේදන රූප හෝ මුල් දත්ත වලින් වෙනස් විභේදනයන් නව කාර්යය ඉගෙන ගැනීමට අපොහොසත් වනවා පමණක් නොව, ආකෘතියේ සමස්ත කාර්ය සාධනය පිරිහීමට ලක් කරයි. උසස් තත්ත්වයේ රූප මත ආකෘතිය අතිරේකව පුහුණු කර ඇති විට පවා, පාරිභෝගික ඉලෙක්ට්රොනික උපකරණවල ආකෘති ධාවනය කිරීමට පුද්ගලයන්ට අපහසු වේ. උදාහරණයක් ලෙස, වයිෆු-විසරණය සඳහා පුහුණු ක්රියාවලිය අවම වශයෙන් 30 ක් අවශ්ය වේ GB VRAM, ^[28] Nvidia හි GeForce 30 ශ්‍රේණිය වැනි පාරිභෝගික GPU වල 12ක් පමණ ඇති සාමාන්‍ය සම්පත ඉක්මවයි. GB ^[29]

ස්ථායී විසරණයෙහි නිර්මාපකයින් ඇල්ගොරිතම පක්ෂග්‍රාහී විභවය පිළිගනී, ආකෘතිය මූලික වශයෙන් ඉංග්‍රීසි විස්තර සහිත රූප මත පුහුණු කර ඇත. ^[20] එහි ප්‍රතිඵලයක් වශයෙන්, ජනනය කරන ලද රූප සමාජ අගතීන් ශක්තිමත් කරන අතර බටහිර දෘෂ්ටිකෝණයකින් යුක්ත වේ, එම ආකෘතියට අනෙකුත් ප්‍රජාවන් සහ සංස්කෘතීන්ගෙන් දත්ත නොමැති බව නිර්මාපකයින් සටහන් කරයි. බටහිර හෝ සුදු සංස්කෘතීන් බොහෝ විට පෙරනිමි නිරූපණය වන අනෙකුත් භාෂාවලින් ලියා ඇති ඒවාට සාපේක්ෂව ඉංග්‍රීසියෙන් ලියා ඇති විමසීම් සඳහා ආකෘතිය වඩාත් නිවැරදි ප්‍රතිඵල ලබා දෙයි. ^[20]

අවසාන පරිශීලක මනාව සුසර කිරීම

ආකෘතියේ මූලික පුහුණුවේ සීමාවන් ආමන්ත්‍රණය කිරීම සඳහා, අවසාන පරිශීලකයින් වඩාත් නිශ්චිත භාවිත අවස්ථා වලට ගැලපෙන පරිදි උත්පාදන ප්‍රතිදානයන් මනාව සකස් කිරීමට අමතර පුහුණුවක් ක්‍රියාත්මක කිරීමට තෝරා ගත හැකිය. ස්ථායී විසරණ ආකෘති මුරපොලකට පරිශීලක-ප්‍රවේශ විය හැකි සියුම් සුසර කිරීම යෙදිය හැකි ක්‍රම තුනක් ඇත:

පරිශීලක-සපයන ලද රූප එකතුවකින් "Embedding" පුහුණු කළ හැකි අතර, පරම්පරාවේ ප්‍රේරකයක් තුළ කාවැද්දීමේ නම භාවිතා කරන සෑම විටම දෘශ්‍යමය වශයෙන් සමාන රූප ජනනය කිරීමට ආකෘතියට ඉඩ සලසයි. ^[30] Embeddings පදනම් වී ඇත්තේ Nvidia හි සහාය ඇතිව Tel Aviv විශ්ව විද්‍යාලයේ පර්යේෂකයන් විසින් 2022 දී සංවර්ධනය කරන ලද "පෙළ ප්‍රතිලෝම" සංකල්පය මත වන අතර, එහිදී ආකෘතියේ පෙළ කේතකය විසින් භාවිතා කරන විශේෂිත ටෝකන සඳහා දෛශික නිරූපණයන් නව ව්‍යාජ වචන සමඟ සම්බන්ධ කර ඇත. මුල් ආකෘතිය තුළ ඇති පක්ෂග්‍රාහීත්වය අඩු කිරීමට හෝ දෘශ්‍ය ශෛලීන් අනුකරණය කිරීමට කාවැද්දීම් භාවිතා කළ හැක. ^[31]
"හයිපර්නෙට්වර්ක්" යනු කුඩා පෙර පුහුණු වූ ස්නායු ජාලයක් වන අතර එය විශාල ස්නායුක ජාලයක් තුළ විවිධ ලක්ෂ්‍යයන් වෙත යොදන අතර, 2021 දී නවල්ඒඅයි සංවර්ධක කුරුමුස් විසින් නිර්මාණය කරන ලද තාක්‍ෂණයට යොමු දක්වයි, මුලින් අදහස් කළේ පෙළ පරම්පරාවේ ට්‍රාන්ස්ෆෝමර් ආකෘති සඳහාය. Hypernetworks ප්‍රතිඵල නිශ්චිත දිශාවකට යොමු කරයි, මුල් ආකෘතියෙන් කලාකරුවා හඳුනා නොගත්තද, නිශ්චිත කලාකරුවන්ගේ කලා විලාසය අනුකරණය කිරීමට ස්ථායී විසරණය පදනම් වූ ආකෘතිවලට ඉඩ සලසයි; ඔවුන් හිසකෙස් සහ ඇස් වැනි වැදගත් ප්‍රධාන අංශ සොයා ගැනීමෙන් රූපය සකසයි, ඉන්පසු මෙම ප්‍රදේශ ද්විතියික ගුප්ත අවකාශයේ පැච් කරයි. ^[32]
DreamBooth යනු 2022 දී Google පර්යේෂණ සහ බොස්ටන් විශ්ව විද්‍යාලයේ පර්යේෂකයන් විසින් සංවර්ධනය කරන ලද ගැඹුරු ඉගෙනුම් උත්පාදන ආකෘතියක් වන අතර එමඟින් විෂය නිරූපනය කරන රූප මාලාවක් හරහා පුහුණුවෙන් පසු නිශ්චිත විෂයයක් නිරූපණය කරන නිශ්චිත, පුද්ගලීකරණය කළ ප්‍රතිදානයන් ජනනය කිරීමට ආකෘතිය මනාව සකස් කළ හැකිය. ^[33]

හැකියාවන්

ස්ථායී විසරණ ආකෘතිය ප්‍රතිදානයට ඇතුළත් කළ යුතු හෝ ඉවත් කළ යුතු මූලද්‍රව්‍ය විස්තර කරන පෙළ විමසුමක් භාවිතයෙන් මුල සිටම නව රූප ජනනය කිරීමේ හැකියාවට සහාය වේ. ^[7] එහි විසරණය-ඩෙනොයිසින් යාන්ත්‍රණය හරහා පෙළ ප්‍රේරකයක් ("මාර්ගෝපදේශිත රූප සංස්ලේෂණය" ලෙස හඳුන්වන ක්‍රියාවලියක්) මගින් විස්තර කරන ලද නව මූලද්‍රව්‍ය ඇතුළත් කිරීම සඳහා පවතින රූප ආකෘතිය මඟින් නැවත ඇඳිය හැක. ^[7] මීට අමතරව, විවිධ විවෘත මූලාශ්‍ර ක්‍රියාත්මක කිරීම් පවතින එවැනි විශේෂාංග සඳහා සහය දක්වන සුදුසු පරිශීලක අතුරුමුහුණතක් සමඟ භාවිතා කරන විට, පින්තාරු කිරීම සහ පිටත පින්තාරු කිරීම හරහා පවතින රූප අර්ධ වශයෙන් වෙනස් කිරීමට ප්‍රේරක භාවිතා කිරීමට මෙම ආකෘතිය ඉඩ දෙයි. ^[34]

ස්ථායී විසරණය 10 සමඟ ධාවනය කිරීම රෙකමදාරු කරනු ලැබේ GB හෝ ඊට වැඩි VRAM, කෙසේ වෙතත් අඩු VRAM සහිත පරිශීලකයන් අඩු VRAM භාවිතයක් සහිත මාදිලියේ කාර්ය සාධනය සඳහා පෙරනිමි float32 වෙනුවට float16 නිරවද්‍යතාවයෙන් බර පැටවීමට තෝරා ගත හැකිය. ^[22]

රූප උත්පාදනයට පෙළ

Demonstration of the effect of negative prompts on image generation

Top: no negative prompt
Centre: "green trees"
Bottom: "round stones, round rocks"

"txt2img" ලෙස හැඳින්වෙන ස්ථායී විසරණය තුළ ඇති පෙළ සිට රූප නියැදි ස්ක්‍රිප්ට්, නියැදි වර්ග, ප්‍රතිදාන රූප මානයන් සහ බීජ අගයන් ආවරණය වන විවිධ විකල්ප පරාමිතීන්ට අමතරව පෙළ විමසුමක් පරිභෝජනය කරයි. ස්ක්‍රිප්ට් මඟින් ප්‍රේරකයේ ආකෘතියේ අර්ථ නිරූපණය මත පදනම්ව රූප ගොනුවක් ප්‍රතිදානය කරයි. ^[7] ස්ථායී විසරණය මගින් ජනනය කරන ලද රූපයක් හඳුනා ගැනීමට පරිශීලකයින්ට ඉඩ දීම සඳහා ජනනය කරන ලද පින්තූර නොපෙනෙන ඩිජිටල් දිය සලකුණකින් ටැග් කර ඇත, ^[7] නමුත් රූපයේ ප්‍රමාණය වෙනස් කළහොත් හෝ කරකවන විට මෙම දිය සලකුණ එහි කාර්යක්ෂමතාව නැති වේ. ^[35]

සෑම txt2img පරම්පරාවක්ම නිමැවුම් රූපයට බලපාන නිශ්චිත බීජ අගයක් ඇතුළත් වේ. විවිධ ජනනය කරන ලද ප්‍රතිදානයන් ගවේෂණය කිරීම සඳහා පරිශීලකයන් බීජය සසම්භාවී කිරීමට තෝරා ගත හැකිය, නැතහොත් කලින් ජනනය කරන ලද රූපයක් ලෙස එකම රූපයේ ප්‍රතිදානය ලබා ගැනීමට එම බීජයම භාවිතා කරන්න. ^[22] පරිශීලකයින්ට නියැදිකරු සඳහා අනුමාන පියවර ගණන සකස් කිරීමට ද හැකිය; ඉහළ අගයක් දිගු කාලයක් ගත වේ, කෙසේ වෙතත් කුඩා අගයක් දෘශ්‍ය දෝෂ ඇති විය හැක. ^[22] තවත් වින්‍යාසගත කළ හැකි විකල්පයක්, වර්ගීකාරක-නිදහස් මාර්ගෝපදේශ පරිමාණ අගය, පරිශීලකයාට ප්‍රතිදාන රූපය විමසුමට කෙතරම් සමීපව අනුගත වේද යන්න සීරුමාරු කිරීමට ඉඩ සලසයි. වඩාත් පර්යේෂණාත්මක භාවිත අවස්ථා අඩු පරිමාණ අගයක් සඳහා තෝරා ගත හැකි අතර, වඩාත් නිශ්චිත ප්‍රතිදානයන් ඉලක්ක කරගත් භාවිත අවස්ථා ඉහළ අගයක් භාවිත කළ හැක. ^[22]

අමතර text2img විශේෂාංග ස්ථායී විසරණයේ ඉදිරිපස ක්‍රියාත්මක කිරීම් මගින් සපයනු ලැබේ, එමඟින් පෙළ විමසුමේ නිශ්චිත කොටස් වෙත ලබා දී ඇති බර වෙනස් කිරීමට පරිශීලකයින්ට ඉඩ සලසයි. අවධාරණ සලකුණු මඟින් ප්‍රධාන වචන වරහන් සමඟ කොටා ඒවාට අවධාරනය එක් කිරීමට හෝ අඩු කිරීමට පරිශීලකයින්ට ඉඩ සලසයි. ^[36] ප්‍රේරකයේ කොටස් වලට බර සකස් කිරීමේ විකල්ප ක්‍රමයක් වන්නේ "සෘණාත්මක විමසුම්" ය. Negative prompts යනු Stability AI ගේම DreamStudio ක්ලවුඩ් සේවාව ඇතුළුව, සමහර ඉදිරිපස ක්‍රියාත්මක කිරීම් වල අන්තර්ගත වන අංගයක් වන අතර, රූප උත්පාදනය කිරීමේදී ආකෘතිය මග හැරිය යුතු ප්‍රේරක නියම කිරීමට පරිශීලකයාට ඉඩ සලසයි. පරිශීලකයා විසින් සපයන ලද ධනාත්මක ප්‍රේරක හේතුවෙන් හෝ ආකෘතිය මුලින් පුහුණු කර ඇති ආකාරය හේතුවෙන්, සාමාන්‍ය උදාහරණයක් ලෙස විකෘති වූ මිනිස් දෑත් සමඟින්, නිශ්චය කරන ලද විමසුම් අනවශ්‍ය රූප ලක්ෂණ විය හැක. ^[34]

රූප වෙනස් කිරීම

ස්ථායී විසරණයට තවත් නියැදි ස්ක්‍රිප්ට් එකක්, "img2img" ඇතුළත් වේ, එය පෙළ විමසුමක්, පවතින රූපයකට මාර්ගයක් සහ 0.0 සහ 1.0 අතර ප්‍රබල අගයක් පරිභෝජනය කරයි. ස්ක්‍රිප්ට් මුල් රූපය මත පදනම්ව නව රූපයක් ප්‍රතිදානය කරයි, එය පෙළ විමසුම තුළ සපයන ලද අංග ද දක්වයි. ප්‍රබල අගය මඟින් ප්‍රතිදාන රූපයට එකතු කරන ලද ශබ්ද ප්‍රමාණය දක්වයි. ඉහළ ප්‍රබල අගයක් රූපය තුළ වැඩි විචල්‍යයක් ඇති කරන නමුත් සපයා ඇති ප්‍රේරකයට අර්ථවත්ව අනුකූල නොවන රූපයක් නිපදවිය හැක. ^[7]

img2img හට මුල් රූපයට ඝෝෂාවක් එක් කිරීමට ඇති හැකියාව එය දත්ත නිර්නාමිකකරණය සහ දත්ත වැඩි කිරීම සඳහා ප්‍රයෝජනවත් විය හැකි අතර, රූප දත්තවල දෘශ්‍ය ලක්ෂණ වෙනස් කර නිර්නාමික කරයි. ^[37] එම ක්‍රියාවලියම රූපයේ විභේදනය වැඩි කරන, රූපයට වැඩි විස්තර එක් කිරීමට හැකි වන පරිදි, රූපය ඉහළ නැංවීම සඳහා ද ප්‍රයෝජනවත් විය හැක. ^[37] මීට අමතරව, ස්ථායී විසරණය රූප සම්පීඩනය සඳහා මෙවලමක් ලෙස අත්හදා බලා ඇත. JPEG සහ WebP හා සසඳන විට, ස්ථායී විසරණයේදී රූප සම්පීඩනය සඳහා භාවිතා කරන ලද මෑත ක්‍රම කුඩා අකුරු සහ මුහුණු සුරැකීමේ සීමාවන්ට මුහුණ දෙයි. ^[38]

img2img හරහා රූප වෙනස් කිරීම සඳහා අමතර භාවිත අවස්ථා ස්ථායී විසරණ ආකෘතියේ බොහෝ ඉදිරිපස ක්‍රියාත්මක කිරීම් මගින් ඉදිරිපත් කෙරේ. පින්තාරු කිරීම යනු පරිශීලක-සපයා ඇති ස්ථර ආවරණයක් මඟින් නිරූපණය කරන ලද පවතින රූපයක කොටසක් තෝරාගෙන වෙනස් කිරීම, සපයන ලද විමසුම මත පදනම්ව අලුතින් ජනනය කරන ලද අන්තර්ගතයෙන් වෙස්මුහුණු අවකාශය පුරවයි. ^[34] ස්ථායී විසරණය 2.0 නිකුත් කිරීමත් සමඟම ස්ථායීතා AI විසින් තීන්ත ආලේප කිරීම සඳහා විශේෂයෙන් මනාව සකස් කරන ලද විශේෂිත ආකෘතියක් නිර්මාණය කරන ලදී. ^[23] අනෙක් අතට, පිට පින්තාරු කිරීම රූපයක් එහි මුල් ප්‍රමාණයෙන් ඔබ්බට දිගු කරයි, සපයා ඇති විමසුම මත පදනම්ව ජනනය කරන ලද අන්තර්ගතයෙන් පෙර හිස් අවකාශය පුරවයි. ^[34]

2022 නොවැම්බර් 24 වන දින ස්ථායී විසරණය 2.0 නිකුත් කිරීමත් සමඟ "depth2img" ලෙස නම් කරන ලද ගැඹුර-මාර්ගෝපදේශ ආකෘතියක් හඳුන්වා දෙන ලදී. මෙම ආකෘතිය සපයා ඇති ආදාන රූපයේ ගැඹුර අනුමාන කරයි, සහ පෙළ විමසුම සහ ගැඹුර තොරතුරු යන දෙකම මත පදනම්ව නව ප්‍රතිදාන රූපයක් ජනනය කරයි, එමඟින් ජනනය කරන ලද ප්‍රතිදානය තුළ මුල් ආදාන රූපයේ සහජීවනය සහ ගැඹුර පවත්වා ගැනීමට ඉඩ සලසයි. ^[23]

ControlNet යනු අතිරේක කොන්දේසි ඇතුළත් කිරීමෙන් විසරණ ආකෘති කළමනාකරණය කිරීමට නිර්මාණය කර ඇති ස්නායුක ජාල ගෘහ නිර්මාණ ශිල්පයකි. එය ස්නායු ජාල කුට්ටිවල බර "අගුලු දැමූ" පිටපතක් සහ "පුහුණු කළ හැකි" පිටපතක් බවට අනුපිටපත් කරයි. "පුහුණු කළ හැකි" පිටපත අපේක්ෂිත තත්ත්වය ඉගෙන ගන්නා අතර, "අගුළු දැමූ" පිටපත මුල් ආකෘතිය ආරක්ෂා කරයි. මෙම ප්‍රවේශය මඟින් රූප යුගල කුඩා දත්ත කට්ටල සමඟ පුහුණු කිරීම නිෂ්පාදන-සූදානම් විසරණ ආකෘතිවල අඛණ්ඩතාවයට බාධාවක් නොවන බව සහතික කරයි. "ශුන්‍ය කැළඹීම" යනු බර සහ නැඹුරුව යන දෙකම ශුන්‍යයට ආරම්භ කරන ලද 1×1 සංකෝචනයකි. පුහුණු වීමට පෙර, සියලුම ශුන්‍ය කැළඹීම් ශුන්‍ය ප්‍රතිදානයක් නිපදවයි, ControlNet මගින් සිදුවන ඕනෑම විකෘතියක් වළක්වයි. කිසිදු ස්ථරයක් මුල සිට පුහුණු කර නැත; ක්‍රියාවලිය තවමත් සියුම්ව සකස් වෙමින් පවතින අතර මුල් ආකෘතිය සුරක්ෂිතව තබා ගනී. මෙම ක්‍රමය මඟින් කුඩා පරිමාණයේ හෝ පුද්ගලික උපාංගවල පවා පුහුණුව ලබා දේ.

භාවිතය සහ මතභේදය

ස්ථායී විසරණය ජනනය කරන ලද රූප සඳහා කිසිදු අයිතියක් ඉල්ලා සිටින අතර, රූප අන්තර්ගතය නීති විරෝධී හෝ පුද්ගලයන්ට හානිදායක නොවන බව සපයා ඇති ආකෘතියෙන් ඕනෑම ජනනය කරන ලද රූපයක් භාවිතා කිරීමේ අයිතිය පරිශීලකයින්ට නිදහසේ ලබා දෙයි. ස්ථායී විසරණය සහ අනෙකුත් උත්පාදක ආකෘති හිමිකරුගේ අනුමැතියකින් තොරව ප්‍රකාශන හිමිකම් සහිත රූපවලින් පුහුණු කර ඇති බැවින්, රූප භාවිතය සම්බන්ධයෙන් පරිශීලකයින්ට ලබා දී ඇති නිදහස හිමිකාරිත්වයේ ආචාර ධර්ම පිළිබඳ මතභේදයට තුඩු දී ඇත. ^[39]

දෘශ්‍ය ශෛලීන් සහ සංයුතීන් ප්‍රකාශන හිමිකමට යටත් නොවන බැවින්, කලා කෘතිවල රූප ජනනය කරන ස්ථායී විසරණය භාවිතා කරන්නන් දෘශ්‍යමය වශයෙන් සමාන කෘතිවල ප්‍රකාශන හිමිකම උල්ලංඝනය කිරීමක් ලෙස නොසැලකිය යුතු බව බොහෝ විට අර්ථකථනය කෙරේ. ^[40] කෙසේ වෙතත්, ජනනය කරන ලද රූපවල නිරූපිත පුද්ගලයන් ඔවුන්ගේ සමානත්වය භාවිතා කරන්නේ නම් පුද්ගල අයිතිවාසිකම් මගින් ආරක්ෂා විය හැක, ^[40] සහ හඳුනාගත හැකි සන්නාම ලාංඡන වැනි බුද්ධිමය දේපල තවමත් ප්‍රකාශන හිමිකම මගින් ආරක්ෂා කර ඇත. එසේ වුවද, ස්ථායී විසරණය වැනි රූප සංස්ලේෂණ මෘදුකාංගවල පුලුල් භාවිතය අවසානයේ මානව කලාකරුවන්, ඡායාරූප ශිල්පීන්, නිරූපිකාවන්, සිනමාකරුවන් සහ නළුවන් සමඟින්, AI මත පදනම් වූ තරඟකරුවන්ට එරෙහිව වාණිජ ශක්‍යතාව ක්‍රමයෙන් අහිමි වීමට හේතු විය හැකි බවට දෘශ්‍ය කලාකරුවන් කනස්සල්ල පළ කර ඇත.

උත්පාදක AI මත පදනම් වූ අනෙකුත් වාණිජ නිෂ්පාදන හා සැසඳීමේ දී, ප්‍රචණ්ඩකාරී හෝ ලිංගික ප්‍රකාශිත නිරූපණ වැනි, පරිශීලකයන් උත්පාදනය කළ හැකි අන්තර්ගත වර්ගවල ස්ථායී විසරණය සැලකිය යුතු ලෙස වැඩි අවසරයකි. ^[41] මෙම ආකෘතිය අපවාදාත්මක අරමුණු සඳහා භාවිතා කළ හැකි බවට වන උත්සුකයන් ආමන්ත්‍රණය කරමින්, Stability AI හි ප්‍රධාන විධායක නිලධාරී Emad Mostaque තර්ක කරන්නේ, "මෙම තාක්‍ෂණය ක්‍රියාත්මක කරන ආකාරය සම්බන්ධයෙන් ඔවුන් සදාචාරාත්මක, සදාචාරාත්මක සහ නීත්‍යානුකූලද යන්න පිළිබඳව [එය] ජනතාවගේ වගකීමකි", සහ ස්ථායී විසරණයේ හැකියාවන් මහජනතාව අතට පත්කිරීමෙන් විභව සෘණාත්මක ප්‍රතිවිපාක තිබියදීත්, තාක්‍ෂණයෙන් ශුද්ධ ප්‍රතිලාභයක් ලබා දෙනු ඇත. මීට අමතරව, මොස්ටැක් තර්ක කරන්නේ ස්ථායී විසරණය විවෘතව තිබීම පිටුපස ඇති අභිප්‍රාය වන්නේ රූප සංස්ලේෂණය සඳහා සංවෘත AI පද්ධති පමණක් සංවර්ධනය කර ඇති එවැනි තාක්ෂණයන් මත ආයතනික පාලනය සහ ආධිපත්‍යය අවසන් කිරීමයි. ^[41] ප්‍රභව කේතයේ ඇති හැකියාව හේතුවෙන් පරිශීලකයින් විසින් ජනනය කළ හැකි අන්තර්ගතයන් මත ස්ථායීතා AI විසින් පනවා ඇති ඕනෑම සීමාවන් පහසුවෙන් මඟ හැරිය හැකි බව මෙය පිළිබිඹු කරයි. ^[39]

නඩු පැවරීම

2023 ජනවාරි මාසයේදී, කලාකරුවන් තිදෙනෙක්: Sarah Andersen, Kelly McKernan සහ Karla Ortiz, Stability AI, Midjourney සහ DeviantArt ට එරෙහිව ප්‍රකාශන හිමිකම් උල්ලංඝනය කිරීමේ නඩුවක් ගොනු කළ අතර, මෙම සමාගම් බිලියන පහක AI මෙවලම් පුහුණු කිරීමෙන් මිලියන ගණනක කලාකරුවන්ගේ අයිතිවාසිකම් උල්ලංඝනය කර ඇති බව පවසමින්. මුල් කලාකරුවන්ගේ අවසරයකින් තොරව වෙබයෙන් ඉවත් කරන ලද පින්තූර. ^[42] එම මාසයේම, Stability AI හට Getty Images විසින් එහි රූප පුහුණු දත්ත සඳහා භාවිතා කිරීම සම්බන්ධයෙන් ද නඩු පවරන ලදී. ^[10]

බලපත්රය

DALL-E වැනි මාදිලි මෙන් නොව, ස්ථායී විසරණය එහි ප්‍රභව කේතය ලබා ගත හැකි කරයි, ^[43] ^[7] ආකෘතිය සමඟ (පෙර පුහුණු කළ බර). එය Responsible AI බලපත්‍රයේ (RAIL) ආකාරයක් වන Creative ML OpenRAIL-M බලපත්‍රය ආකෘතියට (M) අදාළ වේ. ^[44] බලපත්‍රය අපරාධ, අපහාස, හිරිහැර, ඩොක්සිං, "සූරාකෑම ... බාලවයස්කරුවන්", වෛද්‍ය උපදෙස් ලබා දීම, ස්වයංක්‍රීයව නීතිමය බැඳීම් ඇති කිරීම, නීතිමය සාක්ෂි ඉදිරිපත් කිරීම සහ "පුද්ගලයන් හෝ කණ්ඩායම් මත පදනම්ව වෙනස් කොට සැලකීම හෝ හානි කිරීම ඇතුළු ඇතැම් භාවිත සිද්ධීන් තහනම් කරයි. . සමාජ හැසිරීම් හෝ ... පුද්ගලික හෝ පෞරුෂ ලක්ෂණ ... [හෝ] නීත්‍යානුකූලව ආරක්ෂිත ලක්ෂණ හෝ වර්ග ". ^[45] ^[46] පරිශීලකයාට ඔවුන්ගේ ජනනය කරන ලද නිමැවුම් රූප සඳහා හිමිකම් ඇති අතර ඒවා වාණිජමය වශයෙන් භාවිතා කිරීමට නිදහස ඇත. ^[47]

මේකත් බලන්න

15.අයි
කෘතිම බුද්ධි කලාව
ක්රේයොන්
ඉමේජන් (ගූගල් මොළය)
සින්තෝග්රැෆි
බදාගත් මුහුණ

යොමු කිරීම්

^ "Announcing SDXL 1.0". stability.ai. July 26, 2023 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත.
^ Ryan O'Connor (August 23, 2022). "How to Run Stable Diffusion Locally to Generate Images". සම්ප්‍රවේශය May 4, 2023.
^ "Diffuse The Rest - a Hugging Face Space by huggingface". huggingface.co. 2022-09-05 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත. සම්ප්‍රවේශය 2022-09-05.
^ "Leaked deck raises questions over Stability AI's Series A pitch to investors". sifted.eu. සම්ප්‍රවේශය 2023-06-20.{{cite web}}: CS1 maint: url-status (link)
^ "Revolutionizing image generation by AI: Turning text into images". www.lmu.de. සම්ප්‍රවේශය 2023-06-21.{{cite web}}: CS1 maint: url-status (link)
^ Mostaque, Emad (November 2, 2022). "Stable Diffusion came from the Machine Vision & Learning research group (CompVis) @LMU_Muenchen". Twitter (ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2023-06-22.{{cite web}}: CS1 maint: url-status (link)
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ "Stable Diffusion Repository on GitHub". CompVis - Machine Vision and Learning Research Group, LMU Munich. 17 September 2022. සම්ප්‍රවේශය 17 September 2022. උපුටාදැක්වීම් දෝෂය: Invalid <ref> tag; name "stable-diffusion-github" defined multiple times with different content
^ "The new killer app: Creating AI art will absolutely crush your PC". PCWorld. 2022-08-31 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත. සම්ප්‍රවේශය 2022-08-31.
^ "The AI Founder Taking Credit For Stable Diffusion's Success Has A History Of Exaggeration". www.forbes.com. සම්ප්‍රවේශය 2023-06-20.{{cite web}}: CS1 maint: url-status (link)
^ ^a ^b Korn, Jennifer (2023-01-17). "Getty Images suing the makers of popular AI art tool for allegedly stealing photos". CNN (ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2023-01-22. උපුටාදැක්වීම් දෝෂය: Invalid <ref> tag; name "CNN-Getty" defined multiple times with different content
^ Wiggers, Kyle (17 October 2022). "Stability AI, the startup behind Stable Diffusion, raises $101M". Techcrunch (ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2022-10-17.
^ ^a ^b ^c ^d Alammar, Jay. "The Illustrated Stable Diffusion". jalammar.github.io. සම්ප්‍රවේශය 2022-10-31. උපුටාදැක්වීම් දෝෂය: Invalid <ref> tag; name ":02" defined multiple times with different content
^ https://huggingface.co/docs/diffusers/v0.5.1/en/api/pipelines/stable_diffusion
^ ^a ^b ^c ^d ^e ^f Baio, Andy (2022-08-30). "Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator". Waxy.org (ඇමෙරිකානු ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2022-11-02. උපුටාදැක්වීම් දෝෂය: Invalid <ref> tag; name "Waxy" defined multiple times with different content
^ "This artist is dominating AI-generated art. And he's not happy about it". MIT Technology Review (ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2022-11-02.
^ Ivanovs, Alex (2022-09-08). "Stable Diffusion: Tutorials, Resources, and Tools". Stack Diary (ඇමෙරිකානු ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2022-11-02.
^ Schuhmann, Christoph (2022-11-02), CLIP+MLP Aesthetic Score Predictor, https://github.com/christophschuhmann/improved-aesthetic-predictor, ප්‍රතිෂ්ඨාපනය 2022-11-02
^ "LAION-Aesthetics | LAION". laion.ai (ඉංග්‍රීසි බසින්). 2022-08-26 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත. සම්ප්‍රවේශය 2022-09-02.
^ Mostaque, Emad (August 28, 2022). "Cost of construction". Twitter (ඉංග්‍රීසි බසින්). 2022-09-06 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත. සම්ප්‍රවේශය 2022-09-06.
^ ^a ^b ^c "CompVis/stable-diffusion-v1-4 · Hugging Face". huggingface.co. සම්ප්‍රවේශය 2022-11-02. උපුටාදැක්වීම් දෝෂය: Invalid <ref> tag; name "stable-diffusion-model-card-1-4" defined multiple times with different content
^ Wiggers, Kyle (2022-08-12). "A startup wants to democratize the tech behind DALL-E 2, consequences be damned". TechCrunch (ඇමෙරිකානු ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2022-11-02.
^ ^a ^b ^c ^d ^e "Stable Diffusion with 🧨 Diffusers". huggingface.co. සම්ප්‍රවේශය 2022-10-31. උපුටාදැක්වීම් දෝෂය: Invalid <ref> tag; name "diffusers" defined multiple times with different content
^ ^a ^b ^c "Stable Diffusion 2.0 Release". stability.ai. December 10, 2022 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත. උපුටාදැක්වීම් දෝෂය: Invalid <ref> tag; name "release2.0" defined multiple times with different content
^ "LAION". laion.ai (ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2022-10-31.
^ "Generating images with Stable Diffusion". Paperspace Blog (ඉංග්‍රීසි බසින්). 2022-08-24. සම්ප්‍රවේශය 2022-10-31.
^ "hakurei/waifu-diffusion · Hugging Face". huggingface.co. සම්ප්‍රවේශය 2022-10-31.
^ Seth Forsgren; Hayk Martiros. "Riffusion - Stable diffusion for real-time music generation". Riffusion. December 16, 2022 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත.
^ Mercurio, Anthony (2022-10-31), Waifu Diffusion, https://github.com/harubaru/waifu-diffusion/blob/6bf942eb6368ebf6bcbbb24b6ba8197bda6582a0/docs/en/training/README.md, ප්‍රතිෂ්ඨාපනය 2022-10-31
^ Smith, Ryan. "NVIDIA Quietly Launches GeForce RTX 3080 12GB: More VRAM, More Power, More Money". www.anandtech.com. සම්ප්‍රවේශය 2022-10-31.
^ Dave James (October 28, 2022). "I thrashed the RTX 4090 for 8 hours straight training Stable Diffusion to paint like my uncle Hermann". PC Gamer. November 9, 2022 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත.
^ A bot will complete this citation soon. Click here to jump the queue"An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion". MISSING LINK. .
^ "NovelAI Improvements on Stable Diffusion". NovelAI. October 11, 2022. October 27, 2022 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත.
^ Yuki Yamashita (September 1, 2022). "愛犬の合成画像を生成できるAI 文章で指示するだけでコスプレ米Googleが開発". ITmedia Inc. (ජපන් බසින්). August 31, 2022 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත.
^ ^a ^b ^c ^d "Stable Diffusion web UI". GitHub. 10 November 2022. උපුටාදැක්වීම් දෝෂය: Invalid <ref> tag; name "webui_showcase" defined multiple times with different content
^ invisible-watermark, Shield Mountain, 2022-11-02, https://github.com/ShieldMnt/invisible-watermark/blob/9802ce3e0c3a5ec43b41d503f156717f0c739584/README.md, ප්‍රතිෂ්ඨාපනය 2022-11-02
^ "stable-diffusion-tools/emphasis at master · JohannesGaessler/stable-diffusion-tools". GitHub (ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2022-11-02.
^ ^a ^b Luzi, Lorenzo (2022-10-21). "Boomerang: Local sampling on image manifolds using diffusion models". MISSING LINK. .
^ Bühlmann, Matthias (2022-09-28). "Stable Diffusion Based Image Compression". Medium (ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2022-11-02.
^ ^a ^b Cai, Kenrick. "Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion". Forbes (ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2022-10-31. උපුටාදැක්වීම් දෝෂය: Invalid <ref> tag; name ":13" defined multiple times with different content
^ ^a ^b "高性能画像生成AI「Stable Diffusion」無料リリース。「kawaii」までも理解し創造する画像生成AI". Automaton Media (ජපන් බසින්). August 24, 2022.
^ ^a ^b Ryo Shimizu (August 26, 2022). "Midjourneyを超えた？無料の作画AI｢ #StableDiffusion ｣が｢AIを民主化した｣と断言できる理由". Business Insider Japan (ජපන් බසින්).
^ James Vincent "AI art tools Stable Diffusion and Midjourney targeted with copyright lawsuit" The Verge, 16 January, 2023.
^ "Stable Diffusion Public Release". Stability.Ai. 2022-08-30 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත. සම්ප්‍රවේශය 2022-08-31.
^ "From RAIL to Open RAIL: Topologies of RAIL Licenses". Responsible AI Licenses (RAIL) (ඇමෙරිකානු ඉංග්‍රීසි බසින්). 18 August 2022. සම්ප්‍රවේශය 2023-02-20.
^ "Ready or not, mass video deepfakes are coming". The Washington Post. 2022-08-30. 2022-08-31 දින මුල් පිටපත වෙතින් සංරක්ෂණය කරන ලදී. සම්ප්‍රවේශය 2022-08-31.
^ "License - a Hugging Face Space by CompVis". huggingface.co. 2022-09-04 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත. සම්ප්‍රවේශය 2022-09-05.
^ Katsuo Ishida (August 26, 2022). "言葉で指示した画像を凄いAIが描き出す「Stable Diffusion」～画像は商用利用も可能". Impress Corporation (ජපන් බසින්).

බාහිර සබැඳි

[release-sdxl1.0-1] "Announcing SDXL 1.0". stability.ai. July 26, 2023 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත.

[2] Ryan O'Connor (August 23, 2022). "How to Run Stable Diffusion Locally to Generate Images". සම්ප්‍රවේශය May 4, 2023.

[:0-3] "Diffuse The Rest - a Hugging Face Space by huggingface". huggingface.co. 2022-09-05 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත. සම්ප්‍රවේශය 2022-09-05.

[sifted_financialtimes-4] "Leaked deck raises questions over Stability AI's Series A pitch to investors". sifted.eu. සම්ප්‍රවේශය 2023-06-20.{{cite web}}: CS1 maint: url-status (link)

[lmu_lauch-5] "Revolutionizing image generation by AI: Turning text into images". www.lmu.de. සම්ප්‍රවේශය 2023-06-21.{{cite web}}: CS1 maint: url-status (link)

[6] Mostaque, Emad (November 2, 2022). "Stable Diffusion came from the Machine Vision & Learning research group (CompVis) @LMU_Muenchen". Twitter (ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2023-06-22.{{cite web}}: CS1 maint: url-status (link)

[stable-diffusion-github-7] ^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ "Stable Diffusion Repository on GitHub". CompVis - Machine Vision and Learning Research Group, LMU Munich. 17 September 2022. සම්ප්‍රවේශය 17 September 2022. උපුටාදැක්වීම් දෝෂය: Invalid <ref> tag; name "stable-diffusion-github" defined multiple times with different content

[pcworld-8] "The new killer app: Creating AI art will absolutely crush your PC". PCWorld. 2022-08-31 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත. සම්ප්‍රවේශය 2022-08-31.

[forbes-9] "The AI Founder Taking Credit For Stable Diffusion's Success Has A History Of Exaggeration". www.forbes.com. සම්ප්‍රවේශය 2023-06-20.{{cite web}}: CS1 maint: url-status (link)

[CNN-Getty-10] Korn, Jennifer (2023-01-17). "Getty Images suing the makers of popular AI art tool for allegedly stealing photos". CNN (ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2023-01-22. උපුටාදැක්වීම් දෝෂය: Invalid <ref> tag; name "CNN-Getty" defined multiple times with different content

[11] Wiggers, Kyle (17 October 2022). "Stability AI, the startup behind Stable Diffusion, raises $101M". Techcrunch (ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2022-10-17.

[:02-12] Alammar, Jay. "The Illustrated Stable Diffusion". jalammar.github.io. සම්ප්‍රවේශය 2022-10-31. උපුටාදැක්වීම් දෝෂය: Invalid <ref> tag; name ":02" defined multiple times with different content

[13] ttps://huggingface.co/docs/diffusers/v0.5.1/en/api/pipelines/stable_diffusion

[Waxy-14] ^ ^a ^b ^c ^d ^e ^f Baio, Andy (2022-08-30). "Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator". Waxy.org (ඇමෙරිකානු ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2022-11-02. උපුටාදැක්වීම් දෝෂය: Invalid <ref> tag; name "Waxy" defined multiple times with different content

[15] "This artist is dominating AI-generated art. And he's not happy about it". MIT Technology Review (ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2022-11-02.

[16] Ivanovs, Alex (2022-09-08). "Stable Diffusion: Tutorials, Resources, and Tools". Stack Diary (ඇමෙරිකානු ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2022-11-02.

[17] Schuhmann, Christoph (2022-11-02), CLIP+MLP Aesthetic Score Predictor, https://github.com/christophschuhmann/improved-aesthetic-predictor, ප්‍රතිෂ්ඨාපනය 2022-11-02

[LAION-Aesthetics-18] "LAION-Aesthetics | LAION". laion.ai (ඉංග්‍රීසි බසින්). 2022-08-26 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත. සම්ප්‍රවේශය 2022-09-02.

[19] Mostaque, Emad (August 28, 2022). "Cost of construction". Twitter (ඉංග්‍රීසි බසින්). 2022-09-06 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත. සම්ප්‍රවේශය 2022-09-06.

[stable-diffusion-model-card-1-4-20] "CompVis/stable-diffusion-v1-4 · Hugging Face". huggingface.co. සම්ප්‍රවේශය 2022-11-02. උපුටාදැක්වීම් දෝෂය: Invalid <ref> tag; name "stable-diffusion-model-card-1-4" defined multiple times with different content

[21] Wiggers, Kyle (2022-08-12). "A startup wants to democratize the tech behind DALL-E 2, consequences be damned". TechCrunch (ඇමෙරිකානු ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2022-11-02.

[diffusers-22] "Stable Diffusion with 🧨 Diffusers". huggingface.co. සම්ප්‍රවේශය 2022-10-31. උපුටාදැක්වීම් දෝෂය: Invalid <ref> tag; name "diffusers" defined multiple times with different content

[release2.0-23] "Stable Diffusion 2.0 Release". stability.ai. December 10, 2022 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත. උපුටාදැක්වීම් දෝෂය: Invalid <ref> tag; name "release2.0" defined multiple times with different content

[24] "LAION". laion.ai (ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2022-10-31.

[25] "Generating images with Stable Diffusion". Paperspace Blog (ඉංග්‍රීසි බසින්). 2022-08-24. සම්ප්‍රවේශය 2022-10-31.

[26] "hakurei/waifu-diffusion · Hugging Face". huggingface.co. සම්ප්‍රවේශය 2022-10-31.

[27] Seth Forsgren; Hayk Martiros. "Riffusion - Stable diffusion for real-time music generation". Riffusion. December 16, 2022 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත.

[28] Mercurio, Anthony (2022-10-31), Waifu Diffusion, https://github.com/harubaru/waifu-diffusion/blob/6bf942eb6368ebf6bcbbb24b6ba8197bda6582a0/docs/en/training/README.md, ප්‍රතිෂ්ඨාපනය 2022-10-31

[29] Smith, Ryan. "NVIDIA Quietly Launches GeForce RTX 3080 12GB: More VRAM, More Power, More Money". www.anandtech.com. සම්ප්‍රවේශය 2022-10-31.

[30] Dave James (October 28, 2022). "I thrashed the RTX 4090 for 8 hours straight training Stable Diffusion to paint like my uncle Hermann". PC Gamer. November 9, 2022 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත.

[31] A bot will complete this citation soon. Click here to jump the queue"An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion". MISSING LINK. .

[32] "NovelAI Improvements on Stable Diffusion". NovelAI. October 11, 2022. October 27, 2022 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත.

[33] Yuki Yamashita (September 1, 2022). "愛犬の合成画像を生成できるAI 文章で指示するだけでコスプレ米Googleが開発". ITmedia Inc. (ජපන් බසින්). August 31, 2022 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත.

[webui_showcase-34] "Stable Diffusion web UI". GitHub. 10 November 2022. උපුටාදැක්වීම් දෝෂය: Invalid <ref> tag; name "webui_showcase" defined multiple times with different content

[35] invisible-watermark, Shield Mountain, 2022-11-02, https://github.com/ShieldMnt/invisible-watermark/blob/9802ce3e0c3a5ec43b41d503f156717f0c739584/README.md, ප්‍රතිෂ්ඨාපනය 2022-11-02

[36] "stable-diffusion-tools/emphasis at master · JohannesGaessler/stable-diffusion-tools". GitHub (ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2022-11-02.

[:1-37] Luzi, Lorenzo (2022-10-21). "Boomerang: Local sampling on image manifolds using diffusion models". MISSING LINK. .

[38] Bühlmann, Matthias (2022-09-28). "Stable Diffusion Based Image Compression". Medium (ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2022-11-02.

[:13-39] Cai, Kenrick. "Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion". Forbes (ඉංග්‍රීසි බසින්). සම්ප්‍රවේශය 2022-10-31. උපුටාදැක්වීම් දෝෂය: Invalid <ref> tag; name ":13" defined multiple times with different content

[automaton-40] "高性能画像生成AI「Stable Diffusion」無料リリース。「kawaii」までも理解し創造する画像生成AI". Automaton Media (ජපන් බසින්). August 24, 2022.

[bijapan-41] Ryo Shimizu (August 26, 2022). "Midjourneyを超えた？無料の作画AI｢ #StableDiffusion ｣が｢AIを民主化した｣と断言できる理由". Business Insider Japan (ජපන් බසින්).

[42] James Vincent "AI art tools Stable Diffusion and Midjourney targeted with copyright lawsuit" The Verge, 16 January, 2023.

[stability-43] "Stable Diffusion Public Release". Stability.Ai. 2022-08-30 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත. සම්ප්‍රවේශය 2022-08-31.

[44] "From RAIL to Open RAIL: Topologies of RAIL Licenses". Responsible AI Licenses (RAIL) (ඇමෙරිකානු ඉංග්‍රීසි බසින්). 18 August 2022. සම්ප්‍රවේශය 2023-02-20.

[washingtonpost-45] "Ready or not, mass video deepfakes are coming". The Washington Post. 2022-08-30. 2022-08-31 දින මුල් පිටපත වෙතින් සංරක්ෂණය කරන ලදී. සම්ප්‍රවේශය 2022-08-31.

[46] "License - a Hugging Face Space by CompVis". huggingface.co. 2022-09-04 දින පැවති මුල් පිටපත වෙතින් සංරක්ෂිත පිටපත. සම්ප්‍රවේශය 2022-09-05.

[47] Katsuo Ishida (August 26, 2022). "言葉で指示した画像を凄いAIが描き出す「Stable Diffusion」～画像は商用利用も可能". Impress Corporation (ජපන් බසින්).

[3]

[4]

[5]

[6]

[1]

[2]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]