
Stable Diffusion คือโมเดลการสร้างภาพด้วยปัญญาประดิษฐ์ที่สามารถสร้างภาพใหม่จากคำบรรยาย (text-to-image) หรือแก้ไขภาพที่มีอยู่แล้วตามคำสั่งที่กำหนด โดยใช้เทคโนโลยี Latent Diffusion Model (LDM) ซึ่งทำให้การสร้างภาพมีประสิทธิภาพและรวดเร็ว โดยไม่ต้องประมวลผลภาพในความละเอียดสูงตั้งแต่เริ่มต้น
สิ่งที่ทำได้:
Text-to-Image: สร้างภาพจากคำบรรยาย เช่น “สุนัขยืนบนภูเขาภายใต้ท้องฟ้าที่มีดาว”
Image-to-Image (img2img): แก้ไขหรือปรับเปลี่ยนภาพที่มีอยู่แล้วตามคำสั่งใหม่
Inpainting: แก้ไขส่วนที่ขาดหายในภาพ โดยการเติมเนื้อหาลงไปในพื้นที่ที่ถูกครอบไว้
Outpainting: ขยายภาพจากขนาดเดิมไปยังพื้นที่ว่างใหม่ตามคำบรรยาย
Customization: ปรับแต่งโมเดลเพื่อให้ตรงกับการใช้งานเฉพาะทาง เช่น การสร้างตัวละครอนิเมะ หรือการใช้ในด้านการแพทย์
เทคโนโลยีที่ใช้:
Latent Diffusion Model (LDM): ช่วยให้การสร้างภาพมีประสิทธิภาพ โดยไม่ต้องประมวลผลภาพในขนาดสูง
Classifier-Free Guidance (CFG): ใช้ในการกำหนดความใกล้ชิดระหว่างคำบรรยายและภาพที่สร้าง
ControlNet: ใช้เพื่อควบคุมการสร้างภาพโดยเพิ่มเงื่อนไขพิเศษที่กำหนดโดยผู้ใช้
เวอร์ชันของ Stable Diffusion และขนาดของแต่ละเวอร์ชัน:
เวอร์ชัน 1.0-1.4 (2022): เปิดตัวครั้งแรกในปี 2022 โดยมีการฝึกอบรมจากชุดข้อมูลที่มีความละเอียด 512×512 พิกเซล และสามารถสร้างภาพได้ที่ขนาดดังกล่าว
ข้อดี: ใช้งานได้เร็วและมีการฝึกฝนจากชุดข้อมูลที่หลากหลาย
ข้อจำกัด: ความละเอียดต่ำ และปัญหากับการสร้างภาพมนุษย์หรือรายละเอียดที่ซับซ้อน
เวอร์ชัน 1.5 (ตุลาคม 2022): ปรับปรุงจากเวอร์ชัน 1.4 โดยเพิ่มความแม่นยำในการสร้างภาพ
ขนาด: ใช้พารามิเตอร์ 983 ล้านตัว (983M)
ข้อดี: การสร้างภาพที่มีความแม่นยำสูงขึ้นและรองรับการใช้งานที่หลากหลาย
ข้อจำกัด: ยังมีปัญหาในการสร้างภาพที่มีรายละเอียดมนุษย์
เวอร์ชัน 2.0 (พฤศจิกายน 2022): การฝึกอบรมใหม่ทั้งหมดจากชุดข้อมูลที่กรองให้เหมาะสมเพื่อสร้างภาพที่มีคุณภาพสูงขึ้น
ขนาด: ขนาดโมเดลและพารามิเตอร์ไม่เปิดเผยชัดเจน แต่มีการปรับปรุงในด้านความละเอียดของภาพ
ข้อดี: รองรับความละเอียดสูงขึ้น เช่น 768×768 และ 1024×1024 พิกเซล
ข้อจำกัด: ต้องการทรัพยากรคอมพิวเตอร์ที่สูงขึ้น
เวอร์ชัน 2.1 (ธันวาคม 2022): ปรับปรุงจากเวอร์ชัน 2.0 ด้วยการเพิ่มความสามารถในการควบคุมความละเอียดของภาพ
ข้อดี: รองรับภาพที่มีความละเอียดสูงขึ้นได้ดีขึ้น
ข้อจำกัด: ยังมีข้อจำกัดในบางแง่มุมของการสร้างภาพในพื้นที่ที่ต้องการความสมจริงมาก
Stable Diffusion XL 1.0 (กรกฎาคม 2023): โมเดลที่มีพารามิเตอร์ 3.5 พันล้านตัว ซึ่งเป็นขนาดที่ใหญ่ขึ้นมากเพื่อรองรับการสร้างภาพที่มีความละเอียดสูงขึ้น
ขนาด: 3.5 พันล้านพารามิเตอร์
ข้อดี: การสร้างภาพที่มีความละเอียดและความแม่นยำสูง
ข้อจำกัด: ต้องการทรัพยากรคอมพิวเตอร์ที่มากขึ้นในการใช้งาน
Stable Diffusion 3.0 (กุมภาพันธ์ 2024): โมเดลหลายตัวที่มีขนาดพารามิเตอร์ตั้งแต่ 800M ถึง 8B ซึ่งเพิ่มความหลากหลายในการใช้งาน
ขนาด: ตั้งแต่ 800 ล้านถึง 8 พันล้านพารามิเตอร์
ข้อดี: รองรับการใช้งานที่หลากหลายและสามารถปรับแต่งให้เหมาะสมกับงานเฉพาะทางได้ดี
ข้อจำกัด: ยังต้องการทรัพยากรคอมพิวเตอร์สูงในการใช้งานบางฟีเจอร์
Stable Diffusion 3.5 (ตุลาคม 2024): โมเดลที่เหมาะสมสำหรับงานที่ต้องการประสิทธิภาพสูง โดยเป็นการปรับปรุงจากเวอร์ชัน 3.0
ขนาด: มีหลายขนาดตั้งแต่ 2.5 พันล้านถึง 8 พันล้านพารามิเตอร์
ข้อดี: เพิ่มประสิทธิภาพในการสร้างภาพและลดเวลาการประมวลผล
ข้อจำกัด: มีความซับซ้อนในการปรับแต่งโมเดล
ข้อจำกัดการใช้งานของ Stable Diffusion:
คุณภาพของภาพ: การสร้างภาพที่มีคุณภาพสูงอาจมีปัญหา เช่น การสร้างมือหรือใบหน้ามนุษย์ที่ไม่สมจริง
ข้อจำกัดในการสร้างภาพมนุษย์: มีปัญหากับการสร้างภาพมนุษย์ที่มีความผิดพลาดในบางกรณี
ข้อจำกัดในการสร้างภาพที่มีความละเอียดสูง: ภาพที่มีความละเอียดสูงอาจลดคุณภาพเมื่อเปลี่ยนจากความละเอียด 512×512
ความยากในการปรับแต่งภาพที่มีขนาดหรือความละเอียดสูง: การสร้างภาพในขนาดสูงสุดยังต้องการทรัพยากรคอมพิวเตอร์มาก เช่น VRAM
การปรับแต่งโมเดลต้องการข้อมูลที่มีคุณภาพ: การปรับแต่งโมเดลต้องใช้ข้อมูลที่มีคุณภาพสูง หากไม่ตรงกับลักษณะของงานอาจทำให้ประสิทธิภาพลดลง
การฝึกอบรมในอุปกรณ์ที่มีทรัพยากรจำกัด: ต้องการการ์ดกราฟิกที่มี VRAM สูง เช่น 30 GB
อคติทางสังคมและวัฒนธรรม: โมเดลอาจมีอคติในการแสดงภาพจากมุมมองตะวันตกหรือขาดข้อมูลจากวัฒนธรรมอื่น
ความยากในการใช้งานโดยผู้ใช้ที่ไม่มีความรู้ทางเทคนิค: การปรับแต่งและใช้งานฟีเจอร์บางอย่างต้องมีความเข้าใจทางเทคนิค
ข้อจำกัดด้านสิทธิ์ในการใช้งาน: การใช้งานเชิงพาณิชย์อาจมีข้อจำกัดทางกฎหมาย
Stable Diffusion จึงเป็นเครื่องมือที่มีความสามารถในการสร้างภาพและปรับแต่งภาพที่มีความยืดหยุ่นสูง แต่ก็ยังมีข้อจำกัดที่ต้องพิจารณาในการใช้งาน