Sluit je aan bij Leaders in Boston op 27 maart voor een exclusieve avond vol netwerken, ideeën en gesprekken. Vraag hier een uitnodiging aan.
De beroemde dienst voor het genereren van kunstmatige intelligentie Halverwege de vlucht Het heeft een van de meest gevraagde functies uitgerold: de mogelijkheid om karakters consistent opnieuw te creëren in nieuwe afbeeldingen.
Dit is van nature een groot obstakel voor AI-beeldgeneratoren tot nu toe.
Dit komt omdat de meeste AI-beeldgeneratoren vertrouwen op “Verspreidingsmodellen“, tools die vergelijkbaar zijn met of gebaseerd zijn op Stability AI's open source algoritme voor het genereren van afbeeldingen, Stable Diffusion, dat grofweg werkt door de door de gebruiker ingevoerde tekst te nemen en te proberen een pixel-voor-pixel afbeelding samen te stellen die overeenkomt met die beschrijving, zoals we hebben gedaan geleerd van soortgelijke experimenten met afbeeldingen en teksttags in een groep. Enorme (en controversiële) trainingsgegevens bestaande uit miljoenen door mensen gegenereerde afbeeldingen.
Waarom consistente persoonlijkheden zo krachtig – en ongrijpbaar – zijn voor generatieve AI
Maar net als bij grote op tekst gebaseerde taalmodellen (LLM's) zoals OpenAI's ChatGPT of Cohere's nieuwe Command-R, is het probleem met alle generatieve AI-toepassingen echter de inconsistentie van de antwoorden: de AI genereert iets nieuws voor elke individuele prompt die erin wordt ingevoerd. , zelfs als de claim wordt herhaald of als enkele van dezelfde zoekwoorden worden gebruikt.
VB-evenement
Impacttour door kunstmatige intelligentie – Boston
Vraag om een uitnodiging
Dit is geweldig voor het maken van geheel nieuwe inhoud – in het geval van Midjourney afbeeldingen. Maar wat als je een film, roman, graphic novel, stripboek of een ander visueel medium maakt dat je leuk vindt? Hetzelfde Een personage of personages waar je doorheen kunt bewegen en in verschillende scènes en settings kunt verschijnen, met verschillende gezichtsuitdrukkingen en rekwisieten?
Dit exacte scenario, dat meestal nodig is voor de continuïteit van het verhaal, was tot nu toe zeer moeilijk te realiseren met behulp van generatieve AI. Maar Midjourney werkt nu aan dat probleem en introduceert een nieuwe tag, “–cref” (afkorting van “character reference”) die gebruikers kunnen toevoegen aan het einde van hun tekstprompts in Midjourney Discord en zal proberen het gezicht van een personage te matchen. Kenmerken, lichaamstype en zelfs kleding van de URL die de gebruiker in de volgende tag plakt.
Naarmate de functie vordert en verbetert, kan Midjourney niet alleen een cool spel of een bron van ideeën zijn, maar ook een professionelere tool.
Hoe u de nieuwe consistente persoonlijkheidsfunctie van Midjourney kunt gebruiken
De tag werkt het beste met eerder gemaakte Midjourney-afbeeldingen. De workflow van de gebruiker zou dus bijvoorbeeld bestaan uit het maken of ophalen van de URL van een eerder gegenereerd teken.
Laten we helemaal opnieuw beginnen en zeggen dat we een nieuw personage creëren met deze prompt: “Kale, gespierde man met een kraal en een ooglapje.”
We upgraden de afbeelding die we het leukst vinden en klikken er vervolgens op met Control-klik op de Midjourney Discord-server om de optie “Link kopiëren” te vinden.
Vervolgens kunnen we een nieuwe prompt schrijven in 'Draag een witte smoking terwijl je in een villa staat -cref.' [URL]” en plak de URL van de afbeelding die we zojuist hebben gemaakt, en Midjourney zal proberen hetzelfde teken van voorheen te creëren in de nieuw getypte instelling.
Zoals u zult zien, komen de resultaten verre van overeen met het oorspronkelijke cijfer (of zelfs met onze oorspronkelijke bewering), maar ze zijn zeker bemoedigend.
Bovendien kan de gebruiker tot op zekere hoogte het “gewicht” bepalen van hoe dicht de nieuwe afbeelding bij het oorspronkelijke teken wordt geproduceerd door de vlag “-cw” toe te passen, gevolgd door een getal van 1 tot 100 tot het einde van de nieuwe prompt ( na “-cref [URL]”, dus zo: “-cref [URL] – CW 100.” Hoe lager het “CW”-getal, hoe groter het contrast in het resulterende beeld. Hoe hoger het “CW”-getal, hoe beter het resulterende nieuwe beeld de oorspronkelijke referentie volgt.
Zoals u in ons voorbeeld kunt zien, leverde het invoeren van “cw 8” heel laag op wat we wilden: de witte smoking. Hoewel hij nu het kenmerkende ooglapje van ons personage heeft verwijderd.
Nou, er is niets dat een “ander gebied” niet kan oplossen, toch?
Nou, de ooglapje zat op het verkeerde oog… maar we zijn er!
Je kunt ook meerdere karakters combineren tot één karakter met behulp van twee “–cref”-tags samen met hun respectievelijke URL's.
De functie is eerder deze avond gelanceerd, maar artiesten en makers testen hem nu. Probeer het zelf als u Midjourney heeft. En lees hieronder de volledige opmerking van oprichter David Holz over deze kwestie:
Hallo @iedereen hier, we testen vandaag de nieuwe karakterreferentiefunctie. Deze is vergelijkbaar met de patroonreferentiefunctie, behalve dat in plaats van een referentiepatroon te matchen, het probeert het karakter overeen te laten komen met de karakterreferentieafbeelding.
Hoe het werkt
- Hij schrijft
--cref URL
Nadat u om de URL van uw profielfoto wordt gevraagd - je kunt gebruiken
--cw
Om de “sterkte” van de referentie aan te passen van 100 naar 0 - Sterkte 100 (
--cw 100
) Standaard en gebruikt gezicht, haar en kleding - (sterk 0)
--cw 0
) zal alleen focussen op het gezicht (goed voor het wisselen van kleding/haar enz.)
Waar is het voor bedoeld
- Deze functie werkt het beste als je karakters gebruikt die zijn gemaakt van Midjourney-afbeeldingen. Het is niet ontworpen voor echte mensen/afbeeldingen (en zal deze waarschijnlijk vervormen zoals normale afbeeldingsprompts doen)
- Cref werkt op dezelfde manier als gewone afbeeldingsprompts, behalve dat het zich “focust” op karaktereigenschappen
- De nauwkeurigheid van deze techniek is beperkt; kuiltjes/sproeten/of shirtlogo's worden niet exact gerepliceerd.
- Cref werkt met reguliere Niji- en MJ-modellen en kan ook gecombineerd worden met
--sref
Geavanceerde mogelijkheden
- U kunt meer dan één URL gebruiken om op deze manier informatie/karakters uit meerdere afbeeldingen te combineren
--cref URL1 URL2
(Dit is vergelijkbaar met meerdere afbeeldings- of stijlprompts)
Hoe werkt het op alfaweb?
- Sleep of plak een afbeelding in de visualisatiebalk, waar deze nu drie pictogrammen bevat. Geef deze groepen op, ongeacht of ze een afbeeldingsvector, een stijlreferentie of een tekenreferentie zijn. Shift+Selecteer een optie om een afbeelding voor meerdere categorieën te gebruiken
Houd er rekening mee dat, hoewel MJ V6 zich in de alfafase bevindt, andere functies plotseling kunnen veranderen, maar dat de officiële bètaversie van V6 binnenkort beschikbaar is. We willen graag ieders mening over ideeën en functies delen en we hopen dat je geniet van deze vroege release en we hopen dat het je helpt bij het bouwen van verhalen en werelden
De missie van VentureBeat Het moet een digitaal stadsplein zijn waar technische besluitvormers kennis kunnen opdoen over transformationele en transactionele bedrijfstechnologie. Ontdek onze samenvattingen.
More Stories
Deze 100W GaN-oplader is dun en opvouwbaar
Kuo: De RAM-upgrade naar 12 GB volgend jaar zal beperkt zijn tot de iPhone 17 Pro Max
Kunstmatige intelligentiebedrijf Midjourney plaagt een hardwareproduct in een nieuwe vorm