AI เข้าใจการค้นหาผ่านภาพของเราได้อย่างไร ?

การค้นหาด้วยภาพเป็นกระบวนการค้นหาทีละรายการในสิ่งที่ AI เห็น แต่การอัปเดตใหม่ของ Circle to Search และ Google Lens ช่วยให้ Google สามารถจำแนกแยกย่อยและค้นหาวัตถุหลายรายการภายในภาพเดียวได้พร้อมกัน ซึ่งหมายความว่าหากเราใช้ Circle to Search บนแอนดรอยด์เพื่อค้นหาชุดข้อมูลทั้งหมดภายในภาพที่เราวง เราจะเห็นผลลัพธ์สําหรับทุกองค์ประกอบของชุดๆ นั้น ไม่ใช่แค่ต่อชิ้น แต่คือทุกองค์ประกอบทั้งหมดของตรงนั้น ในช่วงไม่กี่เดือนที่ผ่านมา Googlได้เปิดตัวการอัปเดตที่ปรับปรุงทั้งการค้นหาด้วยภาพและผลลัพธ์ของรูปภาพใน AI Mode เพื่อให้ผู้ใช้งานสามารถค้นหาแรงบันดาลใจได้ดียิ่งขึ้น

เพื่อทําความเข้าใจความก้าวหน้าเหล่านี้ให้ดียิ่งขึ้น นี่คือคำสัมภาษณ์ที่ได้จาก Dounia Berrada ตำแหน่ง Search Senior Engineering Director

คุณทํางานในส่วนใดของการค้นหา

ฉันมุ่งเน้นไปที่การค้นหาหลายรูปแบบหรือที่รู้จักในชื่อ Google Lens โดยพื้นฐานแล้ว ฟีเจอร์นี้ทําให้ Google สามารถช่วยตอบคําถามที่ซับซ้อนที่สุดเกี่ยวกับรูปภาพ, ไฟล์ PDF และทุกสิ่งที่คุณเห็นได้ ซึ่งการค้นหาด้วยภาพยังเป็นตัวกําหนดวิธีที่เราโต้ตอบกับข้อมูลใหม่ๆ และ Google Lens ควรฉลาดพอที่จะเข้าใจ "เหตุผล" ที่อยู่เบื้องหลังการค้นหาของคุณ ซึ่งทําให้ง่ายต่อการขอความช่วยเหลือเกี่ยวกับสิ่งที่คุณเห็นบนหน้าจอหรือในโลกความเป็นจริงกับสิ่งรอบตัวคุณ นั่นหมายถึงการสร้างเครื่องมือที่สามารถอธิบายปัญหาทางคณิตศาสตร์ที่ซับซ้อนได้อย่างง่ายดาย เช่นเดียวกับที่สามารถระบุต้นไม้อวบน้ําที่หายากหรือช่วยคุณติดตามรองเท้าที่คุณชื่นชอบ

มันทําอย่างนั้นได้อย่างไร?

ลองนึกภาพว่าคุณกําลังออกแบบห้องใหม่เพื่ออัปโหลดรูปภาพของพื้นที่สมัยใหม่กลางศตวรรษเพื่อเป็นแรงบันดาลใจ คุณอาจไม่ได้มองหาแค่โต๊ะเท่านั้น คุณต้องการสร้างบรรยากาศทั้งหมดขึ้นมาใหม่ ซึ่งก่อนหน้านี้หากคุณจะต้องค้นหาโคมไฟ ตามด้วยพรม ตามด้วยเก้าอี้ทีละตัว มันจะยากเย็นแค่ไหน แต่ในตอนนี้ AI Mode สามารถแยกย่อยภาพที่ซับซ้อนนั้นแล้วระบุแต่ละชิ้นแยกจากกัน และทำการค้นหาด้วยภาพหลายรายการพร้อมกันได้อย่างง่ายดาย เพียงแค่ใช้ Circle to Search เท่านั้น

แล้วอะไรคือขมุพลังในการค้นหาผลลัพธ์ด้วยภาพประเภทนี้

โมเดล Gemini ขั้นสูงทําให้ AI Mode เกิดขึ้นจริง และมีความสามารถหลายรูปแบบที่ได้รับประโยชน์จากความเชี่ยวชาญด้านภาพที่เราสร้างขึ้นใน Google Lens ในช่วงหลายปีที่ผ่านมา เมื่อคุณค้นหาด้วยรูปภาพ Gemini จะวิเคราะห์รูปภาพควบคู่ไปกับคําถามของคุณเพื่อตัดสินใจว่าจะใช้เครื่องมือใด สมมติว่าคุณกําลังเลื่อนดูโทรศัพท์และเห็นชุดบนโซเชียลมีเดียที่คุณชื่นชอบ เมื่อคุณเริ่มค้นหา โมเดล AI จะรู้ว่าจะต้องใช้ Google Lens เพื่อดึงผลลัพธ์ภาพสําหรับหมวก, รองเท้าและแจ็คเก็ตของชุดออกมาพร้อมกัน จากนั้นจะสานต่อผลลัพธ์แต่ละรายการเหล่านั้นเป็นคําตอบเดียวที่เข้าใจง่าย

ลองคิดแบบนี้: โมเดล AI ทําหน้าที่เป็น "สมอง" ที่สามารถ "มองเห็น" ภาพได้ ในขณะที่หลังบ้านระบบการค้นหาด้วยภาพทําหน้าที่เป็น "ห้องสมุด" ที่มีผลการค้นหาเว็บหลายพันล้านเว็บบนโลกของเรา และ AI จะใช้เหตุผลหลายวัตถุประสงค์เพื่อทําความเข้าใจสิ่งที่คุณกําลังดู จากนั้นจะใช้เทคนิค "fan-out" ซึ่งทริกเกอร์การค้นหาหลายครั้งพร้อมกัน และอ่านผลลัพธ์ แล้วค่อยนําเสนอผลลัพธ์ที่ข้อมูลแน่นๆ เพียงครั้งเดียว พร้อมลิงก์ที่เป็นประโยชน์ทั้งหมดในไม่กี่วินาที

อธิบายเทคนิค fan-out

โดยพื้นฐานแล้ว AI Mode จะทําการค้นหาให้คุณนับสิบครั้งในเวลาที่ใช้ในการค้นหา หากคุณอัปโหลดรูปภาพของสวนที่คุณชื่นชอบ คุณอาจมีคําถามหลายประการเกิดขั้นเช่น พืชเหล่านี้จะอยู่รอดในที่ร่มได้หรือไม่? เหมาะกับสภาพอากาศบ้านเราหรือไม่? พืชเหล่านี้ต้องการการบํารุงมากแค่ไหน?

ก่อนหน้านี้คุณจะต้องถามทีละคำถาม แต่ตอนนี้ AI Mode จะระบุการค้นหาแบบ "fan-out" ที่จําเป็นทั้งหมด ด้วยวิธีนี้ AI จะรวบรวมข้อกําหนดการดูแลสําหรับพืชทุกชนิดในภาพถ่ายโดยใช้ผลการค้นหาผ่านเว็บที่เป็นประโยชน์ พร้อมแจกแจงข้อมูลและแนะนําขั้นตอนต่อไปที่คุณอาจต้องการทํา เนื่องจาก AI Mode กําลังแสดงผลลัพธ์ที่เข้าใจได้มากขึ้นจากการค้นหาเพียงครั้งเดียว มันจึงง่ายกว่าการค้นหาแบบที่เคยเป็นมา และพบกับสิ่งใหม่ๆ ที่จะจุดประกายความสนใจของคุณ

Google

AI เข้าใจการค้นหาผ่านภาพของเราได้อย่างไร ?

คุณทํางานในส่วนใดของการค้นหา

มันทําอย่างนั้นได้อย่างไร?

แล้วอะไรคือขมุพลังในการค้นหาผลลัพธ์ด้วยภาพประเภทนี้

อธิบายเทคนิค fan-out

Contact Form