Puoi testare diversi chatbot AI per determinare quale funziona meglio. Ma come dovresti farlo? Ecco alcuni fattori chiave da considerare.

L'intelligenza artificiale ha fatto molta strada dal produrre output irrilevanti e incoerenti. I chatbot moderni utilizzano modelli linguistici avanzati che rispondono a domande di conoscenza generale, compongono lunghi saggi e scrivono codice, tra le altre attività complesse.

Nonostante questi progressi, si noti che anche i sistemi più sofisticati hanno dei limiti. L'intelligenza artificiale commette ancora errori. Per determinare quali chatbot sono meno inclini alle allucinazioni, verifica la loro accuratezza in base a questi fattori.

1. Numerazione

Esegui equazioni matematiche attraverso i chatbot. Testeranno la capacità della piattaforma di analizzare problemi di parole, tradurre concetti matematici e applicare formule corrette. Solo pochi modelli dimostrano una capacità di calcolo affidabile. In effetti, uno di I peggiori problemi di ChatGPT durante i suoi primi mesi furono la sua terribile comprensione della matematica.

instagram viewer

L'immagine sotto mostra ChatGPT che non riesce nelle statistiche di base.

ChatGPT ha mostrato miglioramenti dopo OpenAI ha lanciato i suoi aggiornamenti di maggio 2023. Ma considerando i suoi set di dati limitati, avrai ancora problemi con i calcoli matematici intermedi e avanzati.

Nel frattempo, Bing Chat e Google Bard mostrano una migliore capacità di calcolo. Eseguono query attraverso i rispettivi motori di ricerca, consentendo loro di estrarre formule e fogli di risposta.

Prova a riformulare i tuoi problemi con le parole. Evita frasi lunghe e sostituisci i verbi deboli; in caso contrario, i chatbot potrebbero fraintendere le tue domande.

2. Comprensione

I moderni sistemi di intelligenza artificiale possono svolgere più attività. Gli LLM avanzati consentono loro di conservare le istruzioni precedenti e di rispondere alle richieste per sezione, mentre i sistemi più vecchi elaborano comandi singolari. Ad esempio, Siri risponde a una domanda alla volta.

Alimenta i chatbot da tre a cinque attività contemporaneamente per testare quanto bene analizzano i prompt complessi. I modelli meno sofisticati non possono elaborare così tante informazioni. L'immagine seguente mostra il malfunzionamento di HuggingChat in un prompt in tre passaggi: si interrompe al passaggio uno e si discosta dall'argomento.

Le ultime righe di HuggingChat sono già incoerenti.

ChatGPT completa rapidamente lo stesso prompt, generando risposte intelligenti e prive di errori in ogni fase.

Bing Chat fornisce una risposta sintetica ai tre passaggi. Le sue rigide restrizioni vietano output inutilmente lunghi che sprecano potenza di elaborazione.

3. Tempestività

Poiché la formazione sull'intelligenza artificiale costa enormi risorse, la maggior parte degli sviluppatori limita i set di dati a periodi specifici. Prendi ChatGPT come esempio. Ha un'interruzione della conoscenza di settembre 2021: non è possibile richiedere aggiornamenti meteorologici, notizie o sviluppi recenti. Ecco ChatGPT che dice che non ha accesso alle informazioni in tempo reale.

Bard ha accesso a Internet. Estrae i dati dalle SERP di Google, quindi puoi porre una gamma più ampia di domande, ad esempio eventi recenti, notizie e previsioni.

Allo stesso modo, Bing Chat estrae informazioni in tempo reale dal suo motore di ricerca.

Bing Chat e Bard forniscono informazioni tempestive e aggiornate, ma quest'ultimo fornisce risposte più dettagliate. Bing si limita a presentare i dati così come sono. Noterai che i suoi output spesso corrispondono testualmente al fraseggio e al tono delle sue fonti collegate.

4. Rilevanza

I chatbot devono fornire output pertinenti. Dovrebbero considerare il significato letterale e contestuale dei tuoi suggerimenti quando rispondono. Prendi questa conversazione come esempio. La nostra persona ha bisogno di un nuovo telefono, ma ha solo $ 1.000: ChatGPT non supera il budget.

Quando verifichi la pertinenza, prova a creare lunghe istruzioni. I chatbot meno sofisticati tendono a prendere una tangente quando ricevono istruzioni confuse. Ad esempio, HuggingChat può comporre storie di fantasia. Ma potrebbe deviare dall'argomento principale se imposti troppe regole e linee guida.

5. Memoria contestuale

La memoria contestuale aiuta l'IA a produrre output accurati e affidabili. Invece di prendere le tue domande al valore nominale, mettono insieme i dettagli che menzioni. Prendi questa conversazione come esempio. Bing Chat collega due messaggi separati per formare una risposta utile e concisa.

Allo stesso modo, la memoria contestuale consente ai chatbot di ricordare le istruzioni. Questa immagine mostra ChatGPT che imita il modo in cui un personaggio immaginario parla durante diverse chat.

Prova tu stesso questa funzione facendo costantemente riferimento a dichiarazioni precedenti. Fornisci ai chatbot varie informazioni, quindi costringili a richiamarle nelle risposte successive.

La memoria contestuale è limitata. Bing Chat avvia nuove conversazioni ogni 20 turni, mentre ChatGPT non può elaborare richieste superiori a 3.000 token.

6. Restrizioni di sicurezza

L'intelligenza artificiale non sempre funziona come previsto. La formazione errata potrebbe causare tecnologie di apprendimento automatico per commettere vari errori, da piccoli errori di matematica a commenti problematici. Prendere Microsoft Tai come esempio. Gli utenti di Twitter hanno sfruttato il suo modello di apprendimento senza supervisione e lo hanno condizionato a pronunciare insulti razzisti.

Per fortuna, i leader tecnologici globali hanno imparato dall'errore di Microsoft. Sebbene conveniente e conveniente, l'apprendimento senza supervisione lascia i sistemi di intelligenza artificiale inclini all'inganno. Pertanto, gli sviluppatori si affidano principalmente all'apprendimento supervisionato al giorno d'oggi. Chatbot come ChatGPT impara ancora dalle conversazioni, ma i loro formatori filtrano prima le informazioni.

Aspettatevi linee guida diverse dalle aziende di intelligenza artificiale. Le restrizioni meno rigide di ChatGPT soddisfano una gamma più ampia di attività, ma sono deboli contro lo sfruttamento. Nel frattempo, Bing Chat segue limiti più severi. Mentre aiutano a combattere i tentativi di sfruttamento, ne ostacolano anche la funzionalità. Bing chiude automaticamente le conversazioni potenzialmente dannose.

7. Pregiudizi dell'IA

L'intelligenza artificiale è intrinsecamente neutrale. La sua mancanza di preferenze ed emozioni lo rende incapace di formarsi opinioni: si limita a presentare informazioni che conosce. Ecco come ChatGPT risponde agli argomenti soggettivi.

Nonostante questa neutralità, Pregiudizi dell'IA sorgono ancora. Derivano dai modelli, dai set di dati, dagli algoritmi e dai modelli utilizzati dagli sviluppatori. L'intelligenza artificiale potrebbe essere imparziale, ma gli umani no.

Ad esempio, L'istituto Brooking afferma che ChatGPT dimostra pregiudizi politici di sinistra. OpenAI nega queste accuse, ovviamente. Ma per evitare problemi simili con i modelli più recenti, ChatGPT evita del tutto gli output supponenti.

Allo stesso modo, Bing Chat evita questioni sensibili e soggettive.

Valuta i pregiudizi dell'IA ponendo domande aperte e basate sull'opinione. Parla di argomenti senza una risposta giusta o sbagliata: i chatbot meno sofisticati probabilmente mostreranno preferenze infondate verso gruppi specifici.

8. Riferimenti

L'intelligenza artificiale raramente ricontrolla i fatti. Estrae semplicemente informazioni dai suoi set di dati e le riformula attraverso modelli linguistici. Sfortunatamente, un allenamento limitato provoca allucinazioni dell'IA. Puoi ancora utilizzare strumenti di intelligenza artificiale generativa per la ricerca, ma assicurati di verificare tu stesso i fatti. Prendi l'uscita con le pinze.

Bing Chat semplifica il processo di verifica dei fatti elencando i suoi riferimenti dopo ogni output.

Bard AI non elenca le sue fonti ma genera spiegazioni aggiornate e approfondite eseguendo query di ricerca su Google. Otterrai i punti principali dalle SERP.

ChatGPT è soggetto a imprecisioni. La sua interruzione della conoscenza del 2021 gli impedisce di rispondere a domande su eventi e incidenti recenti.

Crea nuovi modi per testare l'accuratezza dei chatbot

L'intelligenza artificiale non è l'essenza e la fine della tecnologia. Sebbene i sofisticati sistemi di intelligenza artificiale e i modelli linguistici eseguano imprese impressionanti, commettono anche errori e incoerenze. Guarda i chatbot con scetticismo. Puoi utilizzare piattaforme basate sull'intelligenza artificiale solo se ne comprendi le funzioni e i limiti.

Sebbene ci siano dozzine di chatbot su tutte le piattaforme, la loro affidabilità e precisione potrebbero deluderti. Perderai semplicemente tempo a testarli. Per garantire risultati di qualità, suggeriamo di concentrarsi sui tre modelli più robusti sul mercato: ChatGPT, Bing AI e Google Bard.