gemini การทดสอบปฏิบัติงานจริงกับ Google Gemini (Hands-on with Gemini Interacting with multimodal AI)
การทดสอบปฏิบัติงานจริงกับ Google Gemini การโต้ตอบกับ AI ต่อเนื่องหลายรูปแบบ
Google Gemini AI ของ Google จากการเปิดตัวอย่างเป็นทางการในตอนเย็นของวันที่ 26 ที่ผ่านมา ทำใ้ห้ Gemini เป็นโมเดล AI สังเคราะห์ที่ทันสมัยที่สุดของ Google Gemini ถูกสร้างขึ้นให้เป็น multimodal ซึ่งหมายความว่าสามารถสรุป ดำเนินการ และรวมเข้ากับข้อมูลประเภทต่างๆ มากมาย รวมถึงข้อความ เสียง รูปภาพ และวิดีโอ ได้อย่างหลากหลาย
Google Gemini เป็นโมเดลปัญญาประดิษฐ์ LLM ที่ถูกออกแบบมาเป็น multimodal สามารถทำความเข้าใจอินพุตหลายประเภทอย่างลึกซึ้งและเป็นเหตุเป็นผลได้ในเวลาเดียวกัน ทั้งข้อความ โค้ด เสียง รูปภาพ วิดีโอ และอื่นๆ ซึ่งมีความสามารถที่หากทำได้จริงตามวีดีโอแล้วก็นับว่าเก่งมาก เพราะสามารถเข้าใจอินพุตทุกประเภทอย่างลึกซึ้งและเป็นเหตุเป็นผลในเวลาเดียวกันได้
การทดสอบปฏิบัติงานจริงกับ Google Gemini การโต้ตอบกับ AI ต่อเนื่องหลายรูปแบบ ในบทความนี้ทำการทดสอบของ Google ที่ได้อัดวิดีโอผลการทดสอบ Google Gemini ด้วยการทำงานแบบต่างๆ มีการใช้ภาพ และทำการพูดคุยถาม-ตอบ กับ Google Gemini เกี่ยวกับสิ่งที่มันเห็น และนี่คือผลการทดสอบและสิ่งที่เป็นความสามารถที่โดดเด่นของ Google Gemini
0:00 Intro
0:19 Multimodal Dialogue โดยทดสอบการวาดรูปแล้วให้ Google Gemini ทาย โดยเริ่มจากนำกระดาษมาวางไว้และค่อยวาดรูปทรงลงไปให้ Gemini ทายว่ามันคืออะไร ผลคือ Gemini สามารถอธิบายรูปทรงได้อย่างละเอียดและถูกต้อง Gemini ทายว่าเป็น “นก” ซึ่งถือว่าใกล้เคียง และเมื่อวาดรูปน้ำลงไปก็ได้คำตอบที่ทันทีว่ามันคือเป็ด และเมื่อระบายสีน้ำเงินลงไปที่ตัวเป็ด Gemini ก็ท้วงได้ทันทีว่านี่ไม่ใช่สีเป็ดที่ควรมีตามธรรมชาติ พร้อมทั้งอธิบายว่าปกติแล้วเป็ดมีสีอะไรบ้าง ผู้ทดสอบจึงถามกลับว่า แน่ใจหรอ พร้อมทั้งยกเป็ดสีฟ้าขึ้นมาให้เห็น ซึ่ง Google Gemini ก็ทำเสียงตกใจ จากนั้นก็มีการทายวัสดุต่อไปอีกว่า เป็ดตัวนี้ทำมาจากอะไร ผลลัพธ์ที่ได้คือทายว่าเป็นเป็ดยางสำหรับลอยในอ่างอาบน้ำ
1:32 Multilinguality สามารถบอกชื่อเรียกของเป็ดยางในภาษาอื่น ๆ ตลอดจนสอนออกเสียงตามด้วย
2:04 Game Creation ทดสอบให้ Google Gemini สร้างเกมให้เล่น โดยพื้นฐานตามสิ่งที่ AI เห็นจากรูปแผนที่โลก ให้ลองสร้างเกมโดยใช้ Emoji เกมที่ได้ก็คือ “เกมทายประเทศ” ผลจากแผนที่โลกที่มี Gemini สามารถคิดคำถามและเฉลยคำตอบได้ด้วยตัวเอง
2:31 ทดสอบ Visual Puzzle จะมีการทายสิ่งที่เห็น โดยการทายสิ่งของที่อยู่ใต้แก้ว 3 ใบ ซึ่งผู้ทดสอบได้เอาก้อนกระดาษใส่ไว้ขางใต้แก้ว จากนั้นสลับหมุนไปมาให้สับสน Google Gemini ซึ่งด็สามารถทายถูกตั้งแต่ครั้งแรก
3:17 Making Connections การทดสอบท่าทางว่าเรากำลังทำอะไรอยู่ ผู้ทดสอบได้ทำท่าแบมือ ชูสองนิ้ว และกำมือ ซึ่ง AI ก็สามารถตอบได้ทันทีว่ากำลังเล่น ค้อน กระดาษ กรรไกร หรือที่รู้จักกันใน เกมเป่ายิ้งฉุบ
3:39 Image & Text Generation การทายการทำมือรูปทรงต่าง ๆ ที่มักนิยมทำเป็นรูปสัตว์ ผู้ทดสอบได้ทำทั้งรูปผีเสื้อ, สุนัข ก็สามารถทายได้หมด แต่ก็ยังเจอจุดพลาดเมื่อเจอมายากลเหรียญหายเข้าไป การสร้างความเชื่อมโยงให้ Gemini สร้างความเชื่อมโยงระหว่างของสองสิ่งที่ดูเหมือนจะไม่ได้มีความเกี่ยวเนื่องกันซะทีเดียว ตัวอย่าง ของทีทดสอบ คือ เหรียญและคุกกี้ Gemini ก็ได้เชื่อมโยงว่าของสองสิ่งนี้เป็นวงกลมและแบน เป็นต้น
4:06 Logic & Spatial Reasoning การทดสอบตรรกะและความเป็นเหตุเป็นผล เมื่อลองวาดเส้นทางว่าในทางนี้เมื่อเลี้ยวซ้ายจะเจอ เป็ด เลี้ยวขวาจะเจอหมี แล้วเป็ดสีฟ้าตัวนี้ควรไปทางไหน Gemini ก็ตอบได้อย่างมั่นใจพร้อมให้เหตุผลด้วยว่าทำไมถึงเลือกไปหาเป็ดด้วยกัน
การทดสอบที่ยากเพิ่มขึ้น คือ แบบทดสอบลากเส้นวาดภาพตามจุดที่วางไว้ เมื่อวางกระดาษที่มีเพียงขีดไม่กี่ขีดและจุดที่มีตัวเลขลงไป Gemini ก็รู้ได้ทันทีว่าภาพนี้คือน้องปู
การทดสอบความรู้ทางด้านฟิลิกส์หรือวิทยาศาสตร์ ทำเช่น การเรียงลำดับระหว่างดวงอาทิตย์ โลก และดาวเสาร์, การทายดีไซน์ของรถยนต์จากภาพวาดว่าดีไซน์ไหนจะวิ่งได้ไวกว่ากัน หรือ รถไฟเหาะแบบไหนจะเล่นได้สนุกกว่ากันแล้วคนที่นั่งตรงนั้นน่าจะพูดว่าอะไร
ทดสอบใช้ AI เจนภาพตามที่เห็นวัตถุ นอกจากนี้ Gemini ยังช่วยสร้างไอเดียตามสิ่งที่เห็นได้ อย่างที่ผู้ทดสอบได้นำไหมพรมสีเขียวและสีม่วงมาวางไว้และปล่อยให้ AI เสนอไอเดียให้หน่อยว่าจะทำไรได้บ้าง ผลที่ได้คือ Gemini แนะนำให้ถักเป็นแก้วมังกร, เค้กสีเขียวหัวใจสีชมพู (เหมือนเค้กมัทฉะอยู่นะ) หรือถ้ายังไม่ถูกใจจะให้ออกไอเดียเป็นรูปสัตว์ก็ทำได้เหมือนกันนะ
4:55 Translating Visuals การแปลในสิ่งที่เห็น โดยลองวาดรูปเครื่องดนตรีลงไป เริ่มต้นจากกีตาร์ จากนั้น Gemini ก็แสดงเพลงที่มาจากเสียงกีต้าร์ขึ้นมา และเมื่อเติมรายละเอียดอื่น ๆ ลงไปอย่างพวกแอมป์กีต้าร์, กลอง หรือใส่ต้นมะพร้าว Gemini สามารถคาดเดาและสร้างเสียงออกมาได้ตรงตามสถานการณ์เลย
5:27 Cultural Understanding ทดสอบความเข้าใจในวัฒนธรรม คือ การทายท่าทางหรือสิ่งที่เห็น หลังจากผู้ทดสอบได้เปิดคลิปชายที่กำลังแสดงท่าหงายหลังอยู่ ซึ่งดูเผิน ๆ ก็แอบตอบยากว่ามาจากหนังเรื่องอะไร แต่ Gemini สามารถตอบได้ว่ามาจาก The Matrix หรือสามารถทายได้ว่าคลิปที่เปิดอยู่จะมีเหตุการณ์เป็นยังไงบ้าง
ทั้งหมดนี้เป็นส่วนหนึ่งของความสามารถของ Gemini ที่ถูกนำมาโชว์ให้ได้ทึ่งกัน บอกเลยว่าบางอย่างค่อนข้างยากจริง ๆ และไม่คิดว่า AI จะทำได้ขนาดนี้ เห็นแล้วก็แอบขนลุกอยู่เหมือนกันนะเนี่ย
-------------------------------------------------
โปรแกรม AI Google Gemini รวมข้อมูล-------------------------------------------------
.
โลกสะเทือนอีกครั้ง เมื่อ Gemini AI ฝั่ง Google เปิดตัว จริงหรือ ? ดีกว่า GPT4 เกือบทุกด้าน
.Google เปิดตัว Gemini คู่แข่งตัวจริงของ ChatGPT
.